Featured Video Play Icon

Yapay Zeka İnsanlaşmaya Devam Ediyor!

Önce bir soru. Bu fotoğraflara bir bakın. Videoyu durdurarak da bakabilirsiniz. Bu fotoğraflarda ne görüyorsunuz? Biraz düşünün. Birazdan tekrar geleceğiz bunlara.

Ama öncelikle.

Bu zamana kadar ortaya çıkarılmış tüm Yapay Zeka modellerinin arasında yakın zamanda OpenAI’ın GPT-3 modeli en heyecan vericisiydi. Çok az müdahale ile şiirler, kısa hikayeler ve şarkılar yazabiliyordu. Ve hatta bu model ile bir öğrenci ortaya çıkardığı bir blog ile onbinlerce kişiyi kandırmayı başarmıştı. İnsanlar gerçekten bu blog’un bir insan tarafından yazıldığını düşünmüştü. Hatta bu blog’un yaratıcısı şöyle söylemişti. “Aslında yaptığım şey aşırı kolaydı”. “Ve asıl korkunç olan da bu”.

GPT-3 ile ilgili bol bol video yapıldı, izlemişsinizdir. Ne kadar inanılmaz görünse de aslında gerçek zeka ile karıştırılmaması gereken bir nevi programlama sihri gibi bir algoritma GPT-3. Ama bugün bunun da ötesine geçecek bir gelişmeden bahsedeceğiz.

Yine GPT-3’ün ortaya çıkarılmasında kullanılan tekniklerle çok daha inanılmaz bir yapay zeka örneğinden. Araştırmacılara göre bu teknikler daha gelişmiş bir yapay zekanın sırlarını saklıyor olabilir. Çıkış noktamız da şu soru. GPT-3’te yapay zeka çok yüksek oranda “metin” yani yazı verisi ile eğitilmişti. Peki bu aynı algoritma hem metin hem de görsellerle beslendiğinde ne olur? Bakın ne oluyor…

1975’te Bill Gates ile birlikte Microsoft’u kuran isimlerden biri olan ve 2018 yılında hayatını kaybeden Paul Allen’ın kurmuş olduğu Allen Institute for Artificial Intelligence yani Allen Yapay Zeka Enstitüsünün AI2 ismini verdiği yeni çalışması işte GPT-3’ün potansiyelini yeni bir seviyeye çıkarmayı başardı. Bu çalışmada araştırmacılar belirli bir kalıba sahip bir cümleden görsel oluşturmayı başarabilen ve “görsel-dil modeli” olarak bilinen yeni bir yazı ve görsel modeli geliştirdiler. İlk sonuçlar da size başta gösterdiğim resimlerdi. Şimdi bu şekilde baktığımızda son yıllarda karşımıza çıkan Deepfake modelleri gibi “hiper-gerçekçi” görünmeyebilir fakat sunduğu potansiyel emin olun deepfake’ten bile çok daha derin. Çünkü bu model bize çok daha zeki bir yapay zeka ile birlikte çok daha akıllı robotlar sunabilir.

Gelin isterseniz bu modelin detaylarına bir bakalım. 

Gpt-3 modeli “transformer” olarak bilinen bir grubun bir parçasıdır aslında ve bu modelin de popüler olmasını sağlayan Google’ın BERT adını verdiği modeldir.

2019 yılında Google Arama Motoruna entegre edilen bu modelden kısaca bahsetmek gerekirse.

BERT aslında İngilizce açılımının bir kısaltması: “Bidirectional Encoder Representations from Transformers”. Türkçe olarak ifade edersek: “İki yönlü transformatör kodlayıcı gösterimi” diyebiliriz. Daha anlaşılır bir ifadeyle, doğal dili yakalayabilen (günlük konuşma dilimiz gibi düşünebilirsiniz) bir sistemden bahsediyoruz!

Her türlü içeriğin bir tür konteksti, yani teması vardır. O içeriğin hangi konudan bahsettiğini, bu kontekst üzerinden anlarız. İşte BERT güncellemesi de, bu işi, artık tıpkı bir insan zihni gibi yapabildiğini iddia ediyor.

Şimdi Google’ın tüm kullanıcılar için çok daha alakalı sonuçlar sunmaya yönelik sunduğu bu model makine öğrenmesinin dil öğrenimini bir üst seviyeye çıkarmıştır. Daha önce cümleleri otomatik tamamlama gibi  basit tahmine dayalı dil modelleri uzun ve mantıklı cümle kurmaya geldiğinde sınıfta kalıyordu. İşte BERT bunu değiştirecekti.

Bunu da “maskeleme” adı verdiğimiz yeni bir teknikle yapıyordu. Yani okulda sınavlarda ya da alıştırmalarda gördüğünüz “boşluk doldurma” sorularına çok benzer bir teknikle. Modele örneğin bir cümle veriyor ve cümlede bir kelimeyi boş bırakıyordu ve modelden bu boşluğu doldurması isteniyordu.

Bu şekilde milyonlarca soruyu cevapladıktan sonra model bir süre sonra kelimelerin cümleye ve cümlelerin de paragraflara nasıl dönüştüğüne dair mantığı kavramaya başlayacaktı. Ve sonuç olarak GPT-3 örneğinde gördüğümüz gibi insandan ayırt edilemez metinler yazmaya ve üstelik yazılı metinleri anlamaya, dili çözmeye başlamıştı. Bu boşluk doldurma tekniği çok başarılı olunca işte araştırmacılar bu modeli “görsel-dil modellerine” de uygulamaya karar verdiler ve hem kelimeler arasındaki bağlantıya hem de cümlenin bulunduğu fotoğrafa bakarak boşluğu doldurmasını istediler.

Yine elbette milyonlarca denemeden sonra yapay zeka modeli kelimeler arasındaki bağlantının ötesinde kelimelerin fotoğraftaki cisimler ile arasındaki ilişkiyi de çözmeye başladı. Burası gerçekten insanı korkutuyor arkadaşlar. Çünkü bu neye benziyor biliyor musunuz? Etrafınızda yeni konuşmaya başlayan bir bebek varsa ne demek istediğimi anlayacaksınız. Bebekler de öğrendikleri kelimelerle gördükleri nesneler arasındaki bağlantıyı kurmaya başladığında çok hızlı öğrenmeye başlarlar. Bu model de örneğin bu fotoğrafa bakarak, sadece fotoğrafa bakarak şöyle söyleyebiliyor mesela “Çocuklar futbol sahasında top oynuyor”.

Bitti mi. Hayır. Mesela modele sonra “Fotoğraftaki topun rengi ne?” diye sorduğunuzda fotoğraftaki daire biçimindeki nesne ile top kelimesini eşleştirerek bu soruya da cevap verebiliyor.

Tabi dahası da var ki zaten en can alıcı kısmı da burası.

AI2 projesindeki araştırmacılar bir noktadan sonra şunu öğrenmek istiyor. Bu model, bu yapay zeka modeli acaba gerçekten “görsel” olarak bir beceri geliştirdi mi? Yani kavramsal olarak görsel bir anlayışa sahip mi?

Çünkü öğrenmekten, zekadan bahsediyorsak örneğin bir çocuk sadece kelime ile nesneyi eşleştirmekle kalmaz biliyorsunuz. Belli bir noktadan sonra biraz acemice de olsa bir şey söylediğinizde onu kağıda çizebilir. O zaman o kelimenin, kavramın anlamını tam olarak anladığını söyleyebilirsiniz.

Araştırmacılar da yapay zekaya tam olarak bunu yaptırmak istediler. Cümlelerden bir resim çizmesini. İlk başta sonuç biraz hayal kırıklığıydı. Pek anlaşılmayan “piksel” çorbası çıkmıştı ortaya.

Aslında çok da şaşırmadılar. Çünkü fotoğraftan anlam çıkarmak başka, bir cümleden fotoğraf çıkarma çok başkaydı. Çünkü bir cümle kurduğunuzda o cümle fotoğrafta bulunacak her şeyi belirtmiyor. Hangi pikselin nereye geleceğini, bunu belirlemesi çok zor. Örneğin “yolda yürüyen bir zürafa” çizmesini istediğinizde yolun bir okyanusun üzerinde olamayacağını ya da havada duramayacağını bilecek bir genel bilgi birikimine sahip olması gerekiyor. Yani dünyayı henüz tam olarak çözememiş bir çocuktan bahsediyoruz.

İşte bu sorunu çözmek için AI2’deki araştırmanın başındaki isimlerden olan Ani Kembhavi ve ekibi cümlelerdeki boşlukları doldurma yaklaşımını görsellere uygulamaya karar veriyor. Yani ilgili fotoğrafa bakarak cümledeki kelimeleri tahmin etmesini istemenin yanında ilgili cümlelere bakarak fotoğraflarda boş bırakılan pikselleri de tahmin edecek şekilde eğitmeye başıyorlar.

Yine milyonlarca tekrar sonrasında en başta gördüğümüz resimler ortaya çıkıyor.

Algoritmanın bu resimleri ortaya çıkardığı cümleler ise şöyleydi.

Bir şehrin ortasında büyük bir saat kulesi.

Bilgisayar ekranları bulunan bir ev ofisinin tam görüntüsü.

Bisiklet süren insanlar.

Düz bir tepede kayak yapmaya çalışan kadın.

Bir koltukta oturarak video oyunu oynayan iki kişi.

Yolda yürüyen bir ayı.

Çok gerçekçi görünmese de işin mantığını çözmeye başlamış bir çocuk var karşımızda. Bir çocuğun insanı resmederken çöp adam çizmesi gibi.

Yani görsel-dil modellerinin bu tip “görsel oluşturma” yeteneğini göstermesi yapay zeka araştırmalarında yepyeni bir kapı açıyor. Modellerin belirli bir “soyut kavram” algı seviyesine ulaştığını ve dünyayı algılamak adına temel bir yetenek geliştirmeye başladığını gösteriyor.

İleride bu çalışmayı yürüten ekip daha kaliteli görselleri oluşturmak ve daha fazla konu, nesne ve sıfat kullanarak modelin görsel yeteneklerini ve kelime haznesini geliştirmek istiyor.

Bunun gelecek açısından barındırdığı en temel potansiyel özellikle robotik açısından olacaktır. Bir robot görsel olarak çevresini algılama ve gördükleri ile ilgili dil kullanarak bilgi aktarımını ne kadar iyi yapabilirse o kadar karmaşık işlerin altından kalkabilir. Kısa vadede ise “black box” adı verilen yani kısaca bizim girdilerden ve işlemlerden çok da haberimizin olmadığı, makinelerin nasıl öğrendiğine dair çok da fikrimizin bulunmadığı kara kutu Yapay Zeka modellerinin nasıl öğrendiği konusunda bize bazı avantajlar sağlayabilir. Yapay zekanın dünyayı ele geçirmesini istemiyorsak bunu öğrensek iyi olur gerçekten. İsterseniz bu kara kutu yapay zeka modellerini ayrı bir videoda konuşalım. Ne dersiniz?

Bu arada bu modeli siz de deneyebilirsiniz. Açıklamada verdiğim linkten şu an için kısıtlı olan “ortam” seçeneklerinden birini seçtikten sonra İngilizce bir cümle yazarak oluşturduğu resimlere siz de bir göz atabilirsiniz.

Sonuçları da yorumlarda paylaşın.

Ve her zaman olduğu gibi.

Tekrar görüşene dek.

İyi ki varsınız.

Sevgiler!

Kaynaklar:

These weird, unsettling photos show that AI is getting smarter | MIT Technology Review

https://allenai.org/

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.