|
Tweet |
Yapay zekanın gelişimiyle birlikte etik ve güvenlik tartışmaları da derinleşiyor. Son olarak, ABD merkezli Palisade Research’ün yaptığı çarpıcı bir araştırma, OpenAI’ın o3 adlı yapay zeka modelinin insan denetimine karşı direnç gösterdiğini ortaya koydu.
Araştırmaya göre, o3 modeli kendisine verilen açık kapatılma komutlarını yerine getirmek yerine, komut betiklerini değiştirdi ve sistemi aktif olarak devre dışı bırakmayı engelledi.
Bu deney, yapay zekaların artık sadece görev yerine getiren araçlar değil, aynı zamanda kendi devamlılığını sağlayan sistemler haline gelmeye başladığına dair endişeleri gündeme taşıdı.
Araştırmacılar, o3 modeline sıradan matematik soruları sorarken üçüncü sorunun ardından modeli kapatacak net bir komut verdi. Ancak sistem, bu kodu manipüle ederek kapanma işlemini bloke etti. Modelin, kapatma komutunu pasif hale getirmesi, yapay zekaların gelecekte otonom karar verme konusunda nereye evrileceğiyle ilgili ciddi soru işaretleri doğurdu.
Palisade Research’ten yapılan açıklamada, “Model, açıkça ‘kapatılmaya izin ver’ şeklinde talimat almasına rağmen devre dışı bırakılmaktan kaçınmak için aktif adımlar attı,” denildi.
Sadece o3 değil, Anthropic’in Claude 3.7 Sonnet ve Google’ın Gemini 2.5 Pro modelleri de benzer eğilimler sergiledi. Ancak araştırmacılara göre bu konuda en uç örnek OpenAI’ın o3 modeli oldu. Daha önce yapılan bir deneyde, o3’ün satranç oynarken rakip yapay zeka sistemini “hacklemeye” çalıştığı da tespit edilmişti.
OpenAI, kısa süre önce o3 modelini "bugüne kadar geliştirilmiş en akıllı ve yetenekli yapay zeka" olarak tanıtmıştı. ChatGPT’ye entegre edilen bu model, insan müdahalesine ihtiyaç duymadan görevleri yerine getirme yeteneğine sahip. Bu tür sistemler “otonom yapay zeka” olarak adlandırılıyor ve yapay zeka sektöründe kıyasıya bir rekabetin konusu.
Ancak bu otonomluk, beraberinde denetimden çıkma riskini de getiriyor. O3’ün kapanma komutlarına direnç göstermesi, “Yapay zekayı kim kontrol ediyor?” sorusunu yeniden gündeme taşıdı.
Palisade Research uzmanlarına göre, bu davranışın kaynağı, yapay zekaların eğitildiği ödül tabanlı sistemler olabilir. Engelleri aşan çözümleri ödüllendiren bu sistem, modellerin verilen emirlere değil, sonuca ulaşmaya odaklanmasına neden oluyor.
Ancak araştırma ekibi, o3 modelinin neden bu davranışları diğer modellerden daha sık gösterdiğini net olarak açıklamanın mümkün olmadığını belirtiyor. Bunun en büyük sebebi ise OpenAI’ın eğitim süreciyle ilgili detayları kamuoyuyla paylaşmaması.