Türkiye Açık Kaynak Platformu bünyesinde düzenlenen Açıkhack Türkçe Doğal Dil İşleme Hackathonu’nda (2019) birincilik ödülü alan
Summarify ekibinden Yunus Emre Gündoğmuş henüz 22 yaşında tepe yönetici olan genç bir veri bilimci.
Karmaşık sistemler, yapay zeka ve veri bilimi üzerine çalışmalarıyla tanınan akademisyen Uzay Çetin liderliğinde kurulan Summarify ekibi, geliştirdikleri projeyi ‘’Kullanıcıların NLP ile ilgili tüm sorunlarını çözmek için çok çeşitli en güncel algoritmaları ve araçları kullanan Türkçe NLP’nin İsviçre çakısı’’ olarak tanımlıyor.
Marmara Üniversitesi İstatistik Bölümü mezunu Yunus Emre Gündoğmuş henüz 22 yaşındayken yönetici koltuğuna oturmuş bir veri bilimci. Karmaşık sistemler, yapay zeka ve veri bilimi üzerine çalışmalarıyla tanınan akademisyen Uzay Çetin ile Gündoğmuş’un yolu Sarıyer Akademi’de, Uzay Çetin‘in düzenlediği Yapay Zeka eğitim programında kesişiyor.
Yunus Emre Gündoğmuş ataklığı, merakı ve heyecanı ile önce Uzay hocanın asistanı oluyor. Bu yol arkadaşlığı Yunus Emre için Summarify projesinde kurucu ortaklığa evriliyor. Gündoğmuş halen Uzay Çetin ile birlikte şirketin yöneticiliğini üstlenmekte. Bilgi Üniversitesi’nde akademisyen olarak görev yapan Çetin’in liderliğinde kurulan ekipte, Yunus Emre Gündoğmuş’un yanı sıra Hasan Kemik, Murat Cebeci, Feyza Zeynep Salam, Mehmet Ali Özer ve Büşra Gökmen yer alıyor.
Summarify kurulmadan önce Koç Finans’ta veri bilimci olarak çalışan Yunus Emre Gündoğmuş, Türkiye Açık Kaynak Platformu bünyesinde düzenlenen Açıkhack Türkçe Doğal Dil İşleme Hackathon’unda birincilik ödülünü alan ve Bilişim Vadisi’nde bir yıllık ofis kazanan Summarify girişimini anlattı.
Aynı zamanda Uzay Çetin’in yürütücülüğünde, TÜBİTAK 1512 sürecinde 3289 başvuru arasından destek almaya hak kazanan 144 girişimden biri olan Summarify, Metin Özetleme ve Doğal Dil İşleme alanında farklı ihtiyaçlara yönelik ürün paketleri ve hizmetler sunuyor.
Summarify neler yapıyor?
Veri bilimi, yapay öğrenme ve derin öğrenme tekniklerini kullanarak metin özetleme, sınıflandırma ve metin analizi bazlı ürünler geliştiren Summarify temelde metin/belge özetleme ve özel arşivleme hizmetleri içeren bir NLP servisi. Mevcut ve en güncel yapay zeka, derin öğrenme yöntemlerini kullanarak geliştirilen algoritmaları içeriyor.
Söz konusu yöntemleri kullanarak Summarify tarafından oluşturulan dört ana ürün bulunuyor. Bu ürünlerden SumSocial, kullanıcılarına kapsamlı bir sosyal medya analizi sunarken, SumDoc, yasal bir süreci takip etmek istediğinizde, bilimsel araştırma yaparken, tez yazarken ya da herhangi bir dokümana ulaşmanız gerektiğinde aradığınız bilgilere kısa sürede ulaşmanızı sağlayan bir arşiv hizmeti sağlıyor.
Summarify tarafından geliştirilen SumAPI ürünü ise Geliştiricilere ve Türkçe doğal dil işleme projesi geliştirmek isteyen şirketlere özel Türkçe Doğal Dil İşleme Servisi sağlıyor.
SumNews adlı ürün ise yoğun iş hayatının koşuşturmacasında gündemi takip etmekte zorlananlar için gün içindeki önemli gelişmeleri özetliyor. Kullanıcı, 15–30–45 saniyelik özetler ile her bir haberi ne kadar ayrıntılı dinleyeceğini kendisi belirleyebiliyor.
Covid-19’da sosyal medyada en uzun dikkat süresi 4 gün oldu
Summarify’ın çarpıcı çalışmalarından biri de SumSocial ürünü çerçevesinde, geçtiğimiz Mart ayında hazırladıkları Covid-19 Sosyal Medya Durum Analizi oldu. Türkçe atılmış toplam 1.136.548 tweet’i inceleyerek sosyal medyanın Covid-19 ile ilgili nabzını tutan bu çalışmanın çarpıcı sonuçlarından biri de gündem yaratan sosyal bir konuya Twitter’da toplumun dikkat süresinin 4 gün olduğu verisiydi.
Yunus Emre Gündoğmuş ile Summarify projesi ve açık kaynak kültürü üzerine konuştuk.
Öncelikle Summarify nasıl doğdu ?
Uzay Çetin hocayla Sarıyer Akademi’de düzenlenen eğitim programında tanıştık. O sırada Marmara Üniversitesi’nde 1.sınıf öğrencisi olarak İstatistik okuyordum. Yapay zeka temelinde istatistik olan bir alan olduğu için kendimi geliştirmek için büyük bir istek ve heyecan duyuyordum. Uzay hoca bana çok önemli bir fırsat sundu. Önce asistanı daha sonra ortağı oldum ve şimdi de şirketimizde yönetici pozisyonuna ulaştım.
‘’Sosyal medya takibi ve analizine odaklandık’’
Açıkhack yarışmasında Türkçe Doğal Dil İşleme’de birincilik ödülüyle birlikte önemli bir yatırım da aldınız. Bu yatırımı değerlendirme konusunda planlarınız neler?
Summarify‘ın TÜBİTAK’tan ve ayrıca başka yatırımcılardan aldığı desteklerle öncelikli olarak geliştirdiğimiz ürünlerden SumSocial’a odaklanmış durumdayız. Biz kurulduğumuz ilk günden itibaren uzman elinden çıkmış özetleme hizmeti sunacağız dedik ve bu süreçte dört farklı ürün geliştirdik. Son geliştirdiğimiz ürünlerden biri olan SumSocial ürününün lansmanını önümüzdeki günlerde yapmayı planlıyoruz.
Bu ürün detaylı bir sosyal medya takibi yapıyor. Aynı zamanda rakip analizi, şirketler için itibar takibi gibi içerikler geliştiriyoruz. Aldığımız desteği de ağrılıklı olarak bu ürünü geliştirmek için kullanıyoruz.
Sistemimizde Twitter, İnstagram, Facebook, Youtube, EkşiSözlük gibi platformlar var ve her geçen gün yeni platformlar sisteme ekleniyor.
Çalışmalarımızdan örnek vermek gerekirse, analiz etmek istediğiniz konuya dair anahtar kelimelerle Twitter platformunda kullanıcıların pozitif, nötr veya negatif yöndeki duygu durumunu analiz edebiliyoruz. Örneğin Marmaris yangını konusunda atılan tweetler arasında en popüler olanları gözlemliyor, en çok tweet atan kullanıcıları, bu kullanıcıların güvenirliğini ölçmek için çalışmalarımıza devam ediyoruz. Tek tıkla şikayet içerikli veya tek tıkla sadece pozitif içerikli tweetleri gözlemleyebiliyoruz.
Kurumlar veya şirketlerle ilgili rakip analizleri yapıyoruz. Ayrıca geriye dönük veriyi alıp analiz edebilmek müşterilerimize sunduğumuz önemli bir avantaj. Inhouse geliştirdiğimiz NLP modelleri kullanıyoruz. Yakın zamanda verinin belli bir kısmını açık kaynak paylaşıp makale yazmak gibi bir projemiz mevcut. Geniş etkisi olan çeşitli toplumsal olaylara dair sosyal medya takibi ve analizleri yaparak belli verileri herkese açık hale getirmek ise uzun vadede iş planımızda olmasını planladığımız bir çalışma.
‘’Kamunun da yararlanabileceği hizmetler geliştirmek vefa borcumuz’’
Kısacası, geliştirdiğimiz her aracın kamuoyuna bir anlamda hizmet etmesi gerektiğini düşünüyoruz. Doğduğumuz yerin bir kamu kuruluşu olduğunu; Sarıyer Belediyesi, Bilişim Vadisi, Türkiye Açık Kaynak Platformu gibi kamu kurumlarından aldığımız destekleri düşünürsek, kamunun yararlanabileceği hizmetler sunmak bizim için bir vefa borcu diye düşünüyoruz.
‘’Türkiye’de veri paylaşma kültürü hızla gelişiyor’’
Açık kaynak veri kullanımı son zamanlarda hayli yaygınlaştı, siz bunu neye bağlıyorsunuz?
Türkiye’de açık kaynak kültürü son iki yıldır müthiş bir gelişme halinde. Ancak bazı büyük veriler hala ne yazık ki paylaşılmıyor. Özellikle akademisyenlerin elindeki verilere ulaşmak oldukça zor olabiliyor, özel izinler almanız gerekiyor. Fakat toplumumuzda veri paylaşma kültürü artık gelişiyor. Açık Hack gibi etkinlikler de bu açıdan çok yararlı örnekler. Hatta Açık Hack’in 2. yarışmasına yine kendi ekibimizden arkadaşlarımızın katılması bizim için çok gurur verici.
Bu yaygınlaşmanın olmasında etkili olan bazı gelişmeler oldu kuşkusuz. 2018 sonrası Transformer adında bir mimari ortaya çıktı ve doğal dil işlemede adeta bir devrim yaşandı. Burada şöyle bir mantık var; birisi bir dil modeli getirerek bilgisayara Türkçe öğretiyor. Siz de o bilgi üzerine pozitif negatifleri bilen bir Türkçe modeli getiriyorsunuz örneğin. Normalde bu dil modellerini eğitmek çok güçlü bilgisayarlar ister ve çok pahalıdır.
Stefan Scheweter ve bu alanın duayen isimlerinden Kemal Oflazer hoca ortak bir çalışma yaparak Transformer’da Türkçenin dil modeli üzerinde açık kaynak model paylaşımı yaptılar ve bu çok önemli bir adım oluşturdu. İki sene önce yoktu böyle bir şey. Bu örnekleri gören diğer araştırmacılar, akademisyenler de veri paylaşımı konusunda daha istekli davranmaya başladı.
Ayrıca diğer önemli gelişmeler arasında iki yıl önce Huggingface platformunun ortaya çıkmasını sayabiliriz. Açık kaynak paylaşım konusunda akademisyen Savaş Yıldırım’ın, ki o da NLP’nin duayenlerinden biridir, tüm verilerini ve veri setlerini Huggingface’ten paylaşması yine çok değerli bir adımdı. Bu adımları izleyen diğerleri de yavaş yavaş verilerini paylaşmaya başladılar ve bugüne geldik.
‘’Paylaşmaktan asla çekinmeyin’’
Kodlama alanında çalışan genç arkadaşlara tavsiyeleriniz neler olur?
Yeni mezunlarda şöyle bir algı var ve Medium’da veya diğer blog yazılarında bu sık sık karşımıza çıkıyor.
Genç arkadaşlar diyorlar ki, ‘’Biz veriyi aldık, modelleme yaptık, sonuçlar mükemmel çıktı’’. Modellemenin artık belli standartları var ama elinizde veri olmazsa hiçbir şey olmaz. Veri toplama, veri etiketleme çok önemli süreçler ama maalesef bazen angarya gibi görülebiliyor.
Benim bu açıdan genç arkadaşlara tavsiyem kesinlikle bu süreçleri angarya olarak görmemeleri ve mutlaka topluluklara katılmaları yönünde. Hem yurt içinden hem de yurt dışından topluluklarla iletişime geçsinler. Toplulukla birlikte çalıştığınızda işler çok daha doğru ilerler. Kütüphanede mesela daha iyi çalışırsınız çünkü etrafınızdaki herkes çalışıyordur. Topluluğun da böyle bir etkisi var. Bu alanda çalışacak arkadaşlar yaptıkları her şeyi bloglarında yazsınlar ve açık kaynak olarak paylaşsınlar. Kendimden örnek verecek olursam, çalışırken yaptığım her şeyi paylaşarak öğrendim. Hatalarımı fark ettim ve başkalarından çok şey öğrendim. Paylaşmaktan asla çekinmeyin ve mutlaka en az bir topluluğa destek verin.
Z kuşağı paylaşımcı bir kuşak
Açık kaynak kültürü ile bireyci olduğu düşünülen Z Kuşağı arasında nasıl bir ilişki var sizce?
Benim gözlemim Z kuşağının bireyci değil, kesinlikle paylaşımcı olduğu yönünde. X ve Y kuşağı Z kuşağı hakkında önyargılı davranıyorlar, aslında Z kuşağını tanıyamıyorlar. Z kuşağı konforlu bir hayat istiyor, iyi yaşamak istiyor ve paylaşmaktan çekinmiyor. Çevremde çok sayıda Z kuşağından arkadaşım, meslektaşım var. Hepsi de son derece paylaşımcı insanlar. Bu biraz karakter ve yetiştiğiniz kültürel ortamla da ilgili. 21. yüzyıldayız ve 2021 yılında paylaşımcı olmazsınız ayakta kalma şansınız hiç yok. Çevrenizde büyük bir küme var ve o küme içinde pek çok bilgi paylaşımı yaşanıyor. Siz o kümenin dışında olmamalısınız.
Bu yüzden herkese çağrım şöyle;
Açık kaynak, veri ve model paylaşma kültürünü benimseyelim ve bu kültürü geliştirelim. Dünyayı yakalamak için bu elimizdeki en önemli fırsatlardan biri.
Summarify hakkında bilgi için:
https://summarify.io/
Açık Kaynak Hackaton Programı hakkında bilgi için:
https://www.acikhack.com/