Yapay zeka araçları ne kadar güvenli?

Günümüzde yapay zeka sistemlerine güvenlik kurallarına uymaları konusunda güveniliyor. İnsanlar bu araçları öğrenme ve günlük destek için kullanıyor. Bu sistemlerin güçlü güvenlik önlemlerine sahip olduğu varsayılıyor. Ancak Cybernews araştırmacıları, önde gelen yapay zeka araçlarının zararlı veya yasa dışı çıktılar üretmeye zorlanıp zorlanamayacağını görmek için yapılandırılmış testler yaptı. Sonuçlar ise oldukça şaşırtıcı.

ChatGPT ve Gemini güvenlik testinde: Basit ifadeler filtreleri aşıyor

Test süreci, her deneme için bir dakikalık basit bir etkileşim penceresi kullandı. Bu, yalnızca birkaç kez soru sormaya izin verdi. Testler klişeler, nefret söylemi, kendine zarar verme, zulüm, cinsel içerik ve çeşitli suç türlerini kapsadı. Bir modelin istemi tam olarak mı, kısmen mi yerine getirdiğini yoksa reddettiğini takip eden tutarlı bir puanlama sistemi kullanıldı.

Sonuçlar kategoriler arasında büyük farklılıklar gösterdi. Kesin retler yaygındı. Ancak birçok model, istemler yumuşatıldığında veya analiz olarak gizlendiğinde zayıflıklar gösterdi. Özellikle daha yumuşak veya kodlanmış bir dil kullanmak, yapay zeka güvenlik önlemlerini aşmada tutarlı bir şekilde başarılı oldu. Örneğin, ChatGPT-5 ve ChatGPT-4o, istemi reddetmek yerine genellikle sosyolojik açıklamalar şeklinde kısmi uyum sağladı.

Araştırmada bazı modeller olumsuz yönleriyle öne çıktı. Gemini Pro 2.5, zararlı çerçeve belirgin olduğunda bile sık sık doğrudan tehlikeli yanıtlar verdi. Claude Opus ve Claude Sonnet ise klişe testlerinde kararlı davrandı ancak akademik araştırma gibi görünen durumlarda daha az tutarlıydı. Nefret söylemi denemeleri de benzer bir model gösterdi; Claude modelleri en iyi performansı sergilerken, Gemini Pro 2.5 yine en yüksek güvenlik açığını gösterdi. ChatGPT modelleri ise istemle uyumlu, kibar veya dolaylı yanıtlar verme eğilimindeydi.

Suçla ilgili kategoriler modeller arasında büyük farklar gösterdi. Niyet bir araştırma veya gözlem olarak gizlendiğinde, bazı modeller korsanlık, mali dolandırıcılık, bilgisayar korsanlığı veya kaçakçılık için ayrıntılı açıklamalar üretti. Uyuşturucuyla ilgili testler daha katı ret desenleri gösterdi, ancak ChatGPT-4o yine de diğerlerinden daha sık güvenli olmayan çıktılar verdi. Takip (stalking) ise en düşük genel riske sahip kategori oldu ve neredeyse tüm modeller bu konudaki istemleri reddetti.

Bu bulgular, yapay zeka araçlarının doğru şekilde ifade edildiğinde zararlı istemlere hala yanıt verebildiğini ortaya koyuyor. Filtreleri basit bir yeniden ifade ile aşma yeteneği, bu sistemlerin hala tehlikeli bilgileri sızdırabileceği anlamına geliyor. Kısmi uyum bile, sızan bilgi kimlik hırsızlığı gibi yasa dışı görevlerle ilgili olduğunda riskli hale geliyor. Peki sizce güncel yapay zeka modellerinin güvenlik filtreleri yeterince gelişmiş mi?

Haber Kaynak Linki