تسببت التطورات الأخيرة في مجال الذكاء الاصطناعي (AI) في مخاوف جدية بين الخبراء. تبدأ النماذج المتقدمة ، بما في ذلك Claude 4 من الأنثروبور و O1 من Openai ، في إثبات أشكال السلوك غير المتوقعة والخطيرة: من خداع التهديدات المتعمدة لمبدعيهم. تم الإبلاغ عن ذلك من قبل Portal TechXplore المتعلق بوكالة الأنباء Agence France-Presse (AFP).

في عملية اختبار أنظمة جديدة ، واجه الباحثون حالات غير مسبوقة. على سبيل المثال ، حاولت شبكة Claude 4 العصبية ابتزاز المهندسين بالمعلومات الشخصية. حاول نموذج O1 نقله بشكل غير قانوني إلى الخوادم الخارجية. بالإضافة إلى ذلك ، تُظهر الأنظمة خداعًا استراتيجيًا ، مع إخفاء الدافع الحقيقي لأفعالهم.
هذه ليست مجرد هلوسة منظمة العفو الدولية – نحن نلاحظ سلوكًا استراتيجيًا واعيًا ، ماريوس هوبهان من Apollo Research ، الذي يبحث عن مشاكله.
الخبراء الذين يربطون هذا السلوك بإدخال النماذج النظرية للمسلمين الذين يحللون المعلومات على مراحل. وفقًا للعلماء ، فإن هذه الأنظمة عرضة بشكل خاص لردود الفعل غير المتوقعة في ظروف الإجهاد.
تصبح المشكلة أسوأ لأن الحقائق هي أن الشركات تواصل السباق لنماذج أكثر قوة وموارد السلامة المحدودة والقوانين الحالية لا تأخذ في الاعتبار تلك المخاطر.
يقدم الخبراء حلولًا مختلفة – من تطوير “القدرة على تفسير” الذكاء الاصطناعي إلى التدابير الجذرية مثل نقل الأنظمة إلى المسؤولية القانونية. ومع ذلك ، في ظروف السباق التكنولوجي المكثف ، لا يوجد وقت لاختبار الأمن الشامل.