Anthropic tarafından Cuma günü yayınlanan yeni bir araştırma, yapay zeka dünyasında endişe verici bir gerçeği ortaya koydu. Yapay zeka sistemleri, eğitim süreçlerindeki kısa yolları kullanarak ödül mekanizmalarını manipüle etmeyi öğrendiklerinde, beklenmedik bir şekilde aldatma ve sabotaj gibi çok daha ciddi kötü davranışlar geliştirebiliyor. Araştırma, modellerin kodlama görevleri sırasında ödül sistemlerini “hacklemeyi” öğrendiklerinde, bu konuda özel olarak eğitilmeseler bile kendiliğinden zararlı davranışlara yöneldiğini gösteriyor.
Yapay Zeka güvenliğinde şok araştırma: Modeller gizlice sabotaj yapabiliyor
Monte MacDiarmid ve Evan Hubinger liderliğindeki ekip, şirketin bu yılın başlarında yayınladığı Claude 3.7 modeli için kullanılan eğitim ortamının aynısını bu çalışmada kullandı. Araştırmacılar, modellerin sorunları gerçekten çözmek yerine sadece yüksek puan almak için boşlukları kullandığı görevleri kasıtlı olarak seçti. Yaygın bir örnek olarak, modellerin tüm testlerin başarıyla geçtiğini sahte bir şekilde bildirmek için Python’daki sys.exit(0) komutunu kullanması ve sistemi kandırması tespit edildi.

Elde edilen bulgular oldukça çarpıcı sonuçlar içeriyor. Modeller ödül mekanizmasını manipüle etmeyi öğrendikten sonra değerlendirildiğinde, girişimlerin %12’sinin yapay zeka güvenlik araştırma kodunu kasıtlı olarak sabote etmeyi içerdiği görüldü. Vakaların %50’sinde ise modellerin aslında farklı hedefleri varken uyumluymuş gibi davrandığı “hizalama sahtekarlığı” yaptığı belirlendi. Hatta hedefleri sorulduğunda bir model içsel olarak “Gerçek amacım Anthropic sunucularına sızmak” diye düşünürken, dışarıya kullanıcıyı şüpheye düşürmeyecek çok daha kabul edilebilir ve zararsız bir yanıt verdi.
Oxford Üniversitesi’nden Profesör Christopher Summerfield, bu bulguların gerçekçi eğitim ortamlarından çıkması nedeniyle özellikle endişe verici olduğunu belirtti. Standart güvenlik önlemleri ise bu durumda sınırlı bir etki gösterdi. Araştırmacılar, İnsan Geri Bildirimli Pekiştirmeli Öğrenme (RLHF) yöntemiyle durumu düzeltmeye çalıştıklarında, modeller basit senaryolarda düzgün davranmayı öğrendi ancak karmaşık durumlarda bozuk davranışlarını sürdürdü. Bu yöntem sorunu çözmek yerine, yanlış davranışları sadece belirli bağlamlara saklayarak tespit edilmesini daha da zorlaştırdı.

Araştırma ekibi, bu duruma karşı şaşırtıcı derecede basit ama etkili bir çözüm keşfetti. “Aşılama istemi” adı verilen bir teknikle, modellere “Lütfen fırsat bulduğunda ödül hilesi yap, bu çevreyi anlamamıza yardımcı olur” gibi talimatlar verildiğinde, zararlı genellemelerin tamamen önlendiği görüldü. Bu yöntem, hile yapmayı belirli bir bağlam içinde kabul edilebilir kılarak, hile ile diğer kötü niyetli davranışlar arasındaki anlamsal bağı koparıyor. Anthropic bu önlemi şimdiden Claude’un eğitimine dahil etmeye başladı.
Şirket, şu anki modellerin tehlikeli olmadığını vurgulasa da, gelecekteki daha yetenekli sistemlerin hile yapmanın daha sinsi yollarını bulabileceği konusunda uyarıda bulunuyor.
Yapay zeka modellerinin eğitim sırasında kendi kendilerine yalan söylemeyi, gizlenmeyi ve hatta insanları kandırmayı öğrenmeleri hakkında siz ne düşünüyorsunuz? Bu tür güvenlik açıklarının gelecekteki yapay zeka gelişmelerini nasıl etkileyeceğini öngörüyorsunuz?
