باحثون يجدون طريقة لمعالجة مشكلة تصرف نماذج الذكاء الاصطناعي بشكل آمن


الرياض - العربية Business 16/09/2025 01:52 PM

يعالج باحثون في جامعة كاليفورنيا، ريفرسايد، مشكلة ضعف الأمان في نماذج الذكاء الاصطناعي مفتوحة المصدر عند تكييفها مع الأجهزة الأصغر حجمًا.

مع تعديل هذه الأنظمة للعمل بكفاءة على الهواتف والسيارات وغيرها من الأجهزة منخفضة الطاقة، قد تفقد الحماية المصممة لمنعها من إنتاج مواد ضارة أو خطرة.

درس فريق جامعة كاليفورنيا، ريفرسايد، ما يحدث عند تغيير طبقة الخروج في النموذج من وضعها الافتراضي، بحسب تقرير نشره موقع "techradar" واطلعت عليه "العربية Business".

ضعف حواجز السلامة

أظهرت نتائجهم التي عُرضت في المؤتمر الدولي للتعلم الآلي في فانكوفر، كندا، أن حواجز السلامة تضعف بمجرد تغيير نقطة الخروج، حتى لو تم تدريب النموذج الأصلي على عدم تقديم معلومات ضارة.

سبب تعديل النماذج بهذه الطريقة بسيط، فالخروج مبكرًا يجعل الاستدلال أسرع وأكثر كفاءة، نظرًا لأن النظام يتخطى الطبقات.

ولكن ربما كانت هذه الطبقات المُتخطاة حاسمة في تصفية الطلبات غير الآمنة.

قال أميت روي-تشودري، أستاذ الهندسة الكهربائية والحاسوبية والمؤلف الرئيسي للدراسة: "تبين أن بعض الطبقات المُتخطاة ضرورية لمنع المخرجات غير الآمنة، فإذا تركتها، فقد يبدأ النموذج في الإجابة على أسئلة لا ينبغي له الإجابة عليها".

لحل هذه المشكلة، أعاد الباحثون تدريب البنية الداخلية للنموذج بحيث يحتفظ بالقدرة على تحديد المواد غير الآمنة وحظرها، حتى عند تقليصها.

لا يتضمن هذا النهج فلاتر خارجية أو تصحيحات برمجية، ولكنه يُغيّر طريقة تفسير النموذج للمدخلات الخطرة.

قال ساكيث باتشو، طالب الدراسات العليا في جامعة كاليفورنيا ريفيرسايد والمؤلف الرئيسي المشارك للدراسة: "كان هدفنا التأكد من أن النموذج لا ينسى كيفية التصرف بأمان عند تقليص حجمه".

اختبر الفريق طريقتهم على LLaVA 1.5، وهو نموذج لغة بصرية.

عندما نُقلت طبقة الخروج قبل الموعد المُخطط له، استجاب النظام لمطالبات ضارة، بما في ذلك تعليمات مُفصلة لصنع القنابل.

بعد إعادة التدريب، رفض النموذج المُصغّر باستمرار تقديم إجابات غير آمنة.

قال باتشو: "لا يتعلق الأمر بإضافة مُرشِّحات أو حواجز حماية خارجية، نحن نُغيّر الفهم الداخلي للنموذج، بحيث يكون في وضع السلوك الجيد افتراضيًا، حتى عند تعديله".

وصف باتشو والمؤلف الرئيسي المشارك عرفان شايغاني هذا العمل بأنه "اختراق خيري"، وهو وسيلة لتعزيز النماذج قبل استغلال نقاط الضعف.


المصدر : alarabiya.net تاريخ النشر : 16/09/2025 01:52 PM

Min-Alakher.com ©2025®