OpenAI’nin GPT-4’ü, AI güvenliğinin rekabet avantajını gösteriyor

0

14 Mart’ta OpenAI, ChatGPT’nin halefi olan GPT-4’ü yayınladı. Akıl yürütme, akılda tutma ve kodlama genelinde belirgin şekilde iyileştirilmiş performansıyla gözlemcileri etkiledi. Ek olarak, suni zeka güvenliği ve giderek daha kuvvetli hale gelen bu modelleri denetim etme becerimiz ile alakalı korkuları körükledi. Sadece bu münakaşa, geçmişteki benzer modellerle karşılaştırıldığında GPT-4’ün en dikkat çekici kazanımlarının birçok yönden güvenlikle ilgili olduğu gerçeğini gölgeliyor.

Firmanın Teknik Raporuna bakılırsa, GPT-4’ün geliştirilmesi esnasında OpenAI “güvenlik araştırması, risk değerlendirmesi ve yineleme için altı ay harcadı.” OpenAI, bu çalışmanın mühim sonuçlar verdiğini bildirdi: “Dahili değerlendirmelerimizde GPT-4’ün izin verilmemiş içerik taleplerine cevap verme olasılığı %82 daha azca ve gerçek yanıtlar üretme olasılığı GPT-3.5’e bakılırsa %40 daha çok.” (ChatGPT, GPT-3.5’in birazcık değiştirilmiş bir sürümüdür: ChatGPT’yi son birkaç aydır kullanıyorsanız, GPT-3.5 ile etkileşimde bulunuyorsunuz anlamına gelir.)

Bu daha geniş bir noktayı gösteriyor: AI şirketleri için, güvenliği vurgulamak için mühim rekabet avantajları ve kar teşvikleri var. ChatGPT’nin öteki şirketlerin büyük dil modellerine (LLM’ler) bakılırsa en mühim başarısı – hoş bir kullanıcı arabirimi ve dikkat çekici ağızdan ağza söylentiler haricinde – tam olarak güvenliğidir. Hızla 100 milyondan fazla kullanıcıya ulaşmış olsa bile, daha azca zararı olan (ve daha azca kullanışlı) hale getirmek için kaldırılması yada mühim seviyede değiştirilmesi gerekmedi.

Teknoloji şirketleri, yalnızca bizim iyiliğimiz için değil, bununla beraber kendi ticari çıkarları için de güvenlik araştırmalarına ve testlerine büyük yatırımlar yapmalıdır. Bu şekilde, AI modeli amaçlandığı şeklinde çalışır ve bu firmalar teknolojilerini çevrimiçi tutabilir. ChatGPT Plus para kazanıyor ve dil modelinizi düşürmek zorunda kaldıysanız para kazanamazsınız. OpenAI’nin itibarı, teknolojisinin rakiplerinden daha güvenli olmasıyla artarken, öteki teknoloji şirketleri, teknolojilerinin güvensiz olması ve hatta onu devirmek zorunda kalması sebebiyle itibarlarını vurdu. (Izahat: GPT-4 Sistem Kartının onaylarında listeleniyorum, sadece bu hikayenin taslağını OpenAI’deki asla hiç kimseye göstermedim ve şirketten fon almadım.)

AI güvenliğinin rekabet pozitif yanları

Yalnız Mark Zuckerberg’e mesele. Meta, Ağustos 2022’de büyük dil modeli BlenderBot 3’ü piyasaya sürdüğünde, derhal uygunsuz ve doğru olmayan açıklamalar yapma sorunlarıyla karşılaştı. Meta’nın Galactica’sı, Kasım 2022’de yalnızca üç gün yayında kaldı ve kendinden güvenilir bir halde var olmayan bilimsel nitelikli yazıları ‘halüsinasyon görmüş olduğu’ (uydurmuş olduğu) gösterildikten sonrasında geri çekildi. En kısa zamanda, Şubat 2023’te Meta sorumsuzca son olarak dil modeli LLaMA’nın tüm ağırlıklarını yayınladı. Pek fazlaca uzmanın tahmin etmiş olduğu şeklinde, dezenformasyon ve nefreti kitlesel olarak üretmek için kullanılacağı 4chan’a kadar çoğaldı.

Ben ve ortak yazarlarım, beş yıl ilkin “Suni Zekanın Fena Amaçlı Kullanımı” adlı 2018 tarihindeki bir raporda bu mevzuda uyarıda bulunurken, Partnership on AI (Meta kurucu üyeydi ve etken bir ortak olmaya devam ediyor) görevli gösterim mevzusunda mükemmel bir rapora sahipti. “Süratli hareket etmek ve bir şeyleri bozmak” için tekrarlanan ve başarısız olan bu girişimler, muhtemelen Meta’nın itimat sorunlarını daha da kötüleştirdi. 2021’de suni zeka araştırmacıları ve ABD kamuoyu içinde, suni zekanın kamu yararına geliştirilmesini ve kullanılmasını şekillendirmek için aktörlere duyulan itimat üstüne meydana getirilen anketlerde, “Feysbuk [Meta] Amerikan teknoloji şirketleri içinde minimum güvenilir olanıdır.”

Fakat bu yalnız Meta değil. Yaramazlık meydana getiren orijinal makine öğrenimi söyleşi robotu, ırkçı ve kışkırtıcı açıklamalar yaptıktan sonrasında 2016’da piyasaya sürüldükten 16 saat sonrasında geri çekilen Microsoft’un Tay’ıydı. Bing/Sydney bile, bir gazeteciye olan sevgisini duyuru etmek ve arkasından onu tehdit etmek de dahil olmak suretiyle fazlaca düzensiz tepkiler verdi. Cevap olarak Microsoft, değiş tokuş edilebilecek bildiri sayısını sınırladı ve Bing/Sydney artık kendisiyle ilgili soruları yanıtlamıyor.

Artık Microsoft’un OpenAI’nin GPT-4’ünü temel aldığını biliyoruz; Microsoft, OpenAI’nin tüm informasyon işlem işlemlerini Microsoft’un Azure bulutunda çalıştırması ve “yeni suni zeka teknolojilerini ticarileştirmek için tercih edilen iş ortağı” olması karşılığında OpenAI’ye 11 milyar dolar yatırım yapmış oldu. Sadece modelin niçin bu kadar acayip tepki verdiği belli değil. Erken, tamamen güvenlik eğitimi almamış bir sürüm olabilir yada arama bağlantısından ve dolayısıyla kendisi hakkında gerçek zamanlı olarak bir makaleyi “okuma” ve yanıtlama kabiliyetinden kaynaklanıyor olabilir. (Buna karşılık, GPT-4’ün eğitim verileri yalnızca Eylül 2021’e kadar devam ediyor ve web’e erişimi yok.) Microsoft’un yeni suni zeka modellerini müjdelerken bile kısa sürede suni zeka etik ve cemiyet ekibini işten çıkarmış olması dikkate kıymet. .

OpenAI, GPT-4 ile değişik bir yol izledi, sadece güvenlik üstünde çalışan tek AI şirketi değil. Anthropic ve DeepMind güvenlik ve hizalama stratejilerini yayınlayarak öteki önde gelen laboratuvarlar da taahhütlerini netleştiriyor. Bu iki laboratuvar, ilgili LLM’leri olan Claude ve Sparrow’un geliştirilmesi ve konuşlandırılması mevzusunda da güvenli ve dikkatli olmuştur.

En iyi uygulamalar için bir başucu kitabı

LLM’ler ve öteki son teknoloji, etkili suni zeka türlerini geliştiren teknoloji şirketleri bu karşılaştırmadan ders çıkarmalıdır. OpenAI tarafınca gösterilen en iyi uygulamayı benimsemelidirler: Piyasaya sürmeden ilkin güvenlik araştırmalarına ve testlerine yatırım yapın.

Bu bilhassa neye benziyor? GPT-4’ün Sistem Kartı, OpenAI’nin attığı ve öteki firmalar için model olabilecek dört adımı açıklıyor.

İlk olarak, veri kümenizi toksik yada uygunsuz içerik açısından budayın. İkinci olarak, sisteminizi insan geri bildiriminden (RLHF) ve kaide tabanlı ödül modellerinden (RBRM’ler) yararlanarak pekiştirici öğrenme ile eğitin. RLHF, modelin hangi çıktıları istediğimizi daha iyi tahmin etmesi için, modelin kopyalaması ve verileri sıralaması (“Çıktı B’ye kıyasla A çıktısı tercih edilir”) için tanıtım verileri oluşturan insan etiketleyicileri ihtiva eder. RLHF, kimi zaman aşırı davranışlarında ölçülü davranan, cevap vermeyi reddeden yada tedbir alan bir model üretir (bazı ChatGPT kullanıcılarının farklıymış olacağı şeklinde).

RBRM, modelin çıktısını çoktan seçmeli bir tarzda bir takım kaide üstünde değerlendiren, arkasından modeli doğru nedenlerle ve istenen tarzda reddetme yada yanıtlama için ödüllendiren otomatik bir sınıflandırıcıdır. Dolayısıyla, RLHF ve RBRM’nin birleşimi, modeli soruları destek olacak şekilde yanıtlamaya, bazı zararı olan soruları yanıtlamayı reddetmeye ve ikisini birbirinden ayırmaya teşvik eder.

Üçüncüsü, bir API vasıtasıyla modele yapılandırılmış erişim sağlayın. Bu, yanıtları filtrelemenize ve modelden (yada kullanıcılardan) gelen fena davranışları izlemenize olanak tanır. Dördüncüsü, hem insanoğlu hem de otomatik moderasyon ve içerik sınıflandırıcılar tarafınca moderasyona yatırım yapın. Mesela OpenAI, zararı olan olabilecek model çıktılarını işaretleyen kaide tabanlı sınıflandırıcılar oluşturmak için GPT-4’ü kullandı.

Bunların hepsi vakit ve çaba gerektirir, sadece buna kıymet. İnsan etiketleyicileri tamamlamak için AI geri bildiriminden (RLAIF) RL’den yararlanan Anthropic’in kurallara uyan Anayasal AI’sı şeklinde başka yaklaşımlar da işe yarayabilir. OpenAI’nin de kabul etmiş olduğu şeklinde, yaklaşımları muhteşem değil: model hala halüsinasyon görüyor ve kimi zaman kandırılarak zararı olan içerik sağlayabiliyor. Hakikaten de OpenAI’nin yaklaşımının ötesine geçmek ve geliştirmek için yer var, mesela çıktıların insan etiketleyicileri için daha çok tazminat ve kariyer ilerleme fırsatları sağlayarak.

OpenAI daha mı azca açık hale geldi? Bu daha azca açık kaynak anlamına geliyorsa, o vakit hayır. OpenAI, 2019’da GPT-2 için bir “aşamalı sürüm” stratejisi ve 2020’de bir API benimsedi. Meta’nın 4chan deneyimi göz önüne alındığında, bu haklı görünüyor. OpenAI baş bilimcisi Ilya Sutskever’in The Verge’e belirttiği şeklinde: “Birkaç yıl içinde açık kaynak suni zekanın zekice olmadığının hepimiz için tamamen açık olacağını umuyorum.”

GPT-4, “mimari (model boyutu dahil), donanım, eğitim hesaplaması, veri kümesi oluşturma, eğitim yöntemi” hakkında önceki sürümlerden daha azca bilgiye sahipti. Bunun sebebi, OpenAI’nin hızlanma riskiyle ilgilenmesidir: “yarış dinamiklerinin güvenlik standartlarında düşüşe yol açma riski, fena normların yayılması ve hızlandırılmış AI vakit çizelgeleri, bunların her biri AI ile ilişkili toplumsal riskleri artırır.”

Bu teknik ayrıntıların sağlanması, kuvvetli suni zeka sistemlerinin geliştirilmesi ve dağıtılmasındaki genel ilerleme hızını hızlandıracaktır. Bununla beraber, suni zeka pek fazlaca çözülmemiş yönetişim ve teknik güçlük ortaya çıkarıyor: Mesela, ABD ve AB, 2025’in başına kadar yüksek riskli suni zeka sistemleri için detaylı güvenlik teknik standartlarına haiz olmayacak.

Bundan dolayı ben ve ötekiler, AI kabiliyetlerindeki ilerlemeyi hızlandırmamamız gerektiğine inanıyoruz, sadece güvenlik ilerlemesinde tam hız ilerlememiz gerekiyor. Azaltılmış herhangi bir açıklık asla güvenliğe bir engel oluşturmamalıdır, bu yüzden Sistem Kartının güvenlik zorlukları ve azaltma teknikleriyle ilgili ayrıntıları paylaşması fazlaca yararlıdır. OpenAI bu görüşe yaklaşıyor şeklinde görünse de, hala kabiliyetleri ileriye götürmede ön saflarda yer alıyorlar ve kendilerini iyi mi ve ne vakit tasarım ettikleri ve alanın yavaşlamasıyla ilgili daha çok informasyon sağlamaları gerekiyor.

AI şirketleri, güvenlik araştırması ve testine mühim seviyede yatırım yapmalıdır. Yapılması ihtiyaç duyulan doğru şeydir ve yakında AB ve ABD’deki düzenleme ve güvenlik standartları tarafınca lüzumlu kılınacaktır. Fakat bununla beraber, bu suni zeka şirketlerinin de çıkarınadır. Emek ver, ödülünü al.

Haydn Belfield oldu akademik proje yöneticisi Cambridge Üniversitesi Varoluşsal Risk Emekleri Merkezi’nde (CSER) son altı senedir. Bununla beraber Leverhulme İstihbaratın Geleceği Merkezi’nde destek araştırmacıdır.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir