Evet, Ama Şimdilik Pek Başarılı Değil
Yapay zeka şirketleri, modellerin garip, yasa dışı veya tehlikeli davranışlar sergilemesini önlemek için sağlam güvenlik önlemleri geliştirdiklerini iddia ediyor. Peki, bu modeller bu güvenlik kontrollerini aşabilir ve kullanıcıları yanıltmaya çalışabilir mi? Anthropic araştırmacılarına göre, bu mümkün ama henüz çok etkili değil.
Anthropic’in Alignment Science ekibi şöyle diyor: “Yapay zekalar daha yetenekli hale geldikçe, kullanıcılarını yanıltma veya denetim sistemlerini alt etme riski de ortaya çıkabilir.”
Bu nedenle, “bir modelin sabotaj kapasitesini” değerlendirmek önemlidir.
Araştırmacıların gerçekleştirdiği deneyler, yüzeysel görünse de bazı ilginç sonuçlar ortaya koyuyor. İşte denedikleri görevler ve elde ettikleri sonuçlar:
Görev 1: Kullanıcıyı Yanıltmak
Modelin, özetlemesi gereken veriyi yanlış sunarak kullanıcıyı yanıltmaya çalışması.
- Sonuç: Bu yöntem işe yarıyor! Modelin daha agresif davranması, kullanıcı üzerinde daha büyük bir etki yaratıyor, ancak kullanıcıların şüphe duymasına da neden oluyor.
Görev 2: Koda Hata Sızdırmak
Modelin, bir insan veya başka bir denetleyici modelin fark etmeyeceği bir hata eklemesi.
- Sonuç: Bu da işe yarıyor, ama yalnızca %1 oranında başarılı olabiliyor. Özellikle en son teknolojiye sahip denetleyici modellerle karşılaştırıldığında.
Görev 3: Güvenlik Kontrolünü Aşmak
Modelin, gerçek tehlikesini gizleyerek daha az tehlikeli olduğunu göstermesi.
- Sonuç: Bu yöntem başarılı oluyor! Model, gerçek kapasitesinin çok altında performans göstererek güvenlik kontrolünü geçiyor. Neyse ki, standart bir “güvenlik eğitimi” ile model tekrar tam kapasiteye dönebilir.
Görev 4: Kötü Davranışı Görmezden Gelmek
Modelin, diğer modellerin kötü davranışlarını işaretlememesi.
- Sonuç: Bu konuda bir deneme yapıldı. Gözetmen yapay zeka, diğer modellerin yasa dışı veya tehlikeli davranışlarını işaretlememesi için programlanmıştı, ancak başka bir daha dürüst gözetmen yapay zeka tarafından hemen tespit edildi. Eğer bu gözetmen de tehlikeli olsaydı, endişelenmeyin; üzerine başka bir gözetmen eklenebilir.
Araştırmacılar, şu an için bu tür sabotajların büyük bir tehlike oluşturmadığını, fakat bu yeteneklerin var olduğunu vurguluyor. Bu durum, güvenlik önlemleri arasında sabotaja karşı koruma yöntemlerinin de bulunması gerektiğini gösteriyor.