Üç parlak genç mühendis tarafından geliştirilen, açık kaynak temelli haber kütüphanesi Sadede Gel, Teknofest 2020 bünyesinde Türkiye Açık Kaynak Platformu tarafından düzenlenen Türkçe Doğal Dil İşleme Yarışması’nda ikinci olarak TÜBİTAK BIGG desteğini aldı. Ekip, ikincilik ödülü olan Mac Book Air bilgisayar kazandı.
Yarışmada ikincilik ödülüne değer bulunan ‘’Sadede Gel’’ projesi, Sabancı Üniversitesi Mekatronik ve Otomasyon Mühendisliği’nden 2015 yılında mezun olan Dorukhan Afacan’ın liderlik ettiği Global Maksimum ekibi tarafından geliştirildi. Ekipte ODTÜ Bilgisayar Mühendisliği Bölümü öğrencisi Askar Bozcan ve Sabancı Üniversitesi Bilgisayar Bilimi ve Mühendislik Bölümü 2017 yılı mezunu İnanç Dokurel yer aldı.
Yapay zekâ ve robotik üzerine The University of Sheffields’da yüksek lisansını yapan Dorukhan Afacan, 2017’den bu yana Türkiye’de Global Maksimum Veri ve Bilgi Teknolojileri’nde veri bilimci olarak Doğal Dil İşleme ve Görüntülü İşleme gibi uygulamalar üzerine çalışıyor. Askar Bozcan ise halen hem Global Maksimum’da çalışıp; hem de ODTÜ Bilgisayar Mühendisliği Bölümü’nde öğrenciliğe devam ederken İnanç Dokurel, Global Maksimum’a yazılım mühendisi olarak destek veriyor.
Ekip, haber metinleri veya haber içerikli makaleleri, makine öğrenmesi tabanlı algoritmalar ile özetlemek için geliştirilmiş açık kaynak kodlu bir kütüphane olan Sadede Gel’i geliştirdi.
Türkçe metin düzeltme, tanımlanan veriler üzerinden soru-cevap işlemleri, doğal dil anlama ve doğal dil üretimi, Türkçe doğal dil işlemede bağlamsal anlama teknikleri, Doğal Dil kütüphanelerinin geliştirilmesi, veri setleri oluşturulması, Türkçe karakter tanımlama gibi konuları içeren Türkçe Doğal Dil İşleme Yarışması’nın akademi, iş dünyası ve ekosistemden uzmanlardan oluşan jüri üyeleri ve mentörleri arasında Alara Dirik (Glasgow Üniversitesi), Murat Tan, Ramazan Gökay (TÜBİTAK Bilgem), Emir Karşıyakalı (Kommunity.com kurucusu),Eser Özvataf(acik-kaynak.org/Dev İzmir), Yusuf Yiğit (TRT), Emrah Budur, Enes Bulut (Garanti BBVA Teknoloji), Prof. Dr. Olcay Taner Yıldız (Işık Üniversitesi Bilgisayar Mühendisliği), Dr. Ömer Güneş (Oxford Üniversitesi Pembroke Koleji), Necmettin Çarkacı (TRT World), Kemal Can Kara (Kariyer.net), Harun Aksaya (Marmara Üniversitesi), Uğur Atmaca (Hackathon Türkiye kurucusu), Şükrü Bezen (ODTÜ Bilişsel Bilimler Bölümü), Seyfullah Tıkıç (Vakıf Katılım Bankası) ve Bulut Karadağ yer aldı.
Sadede Gel: Türkçe doğal dil işleme kütüphanesi konusunda jenerik bir platform
Türkiye Açık Kaynak Platformu tarafından düzenlenen Açık Kaynak Hackathon Programı kapsamında geliştirilmeye devam eden Sadede Gel projesi, kütüphaneye ek olarak geliştirilmiş haber metni özetleyici Chrome tarayıcı eklentisi ve veri toplama/etiketleme araçlarıyla hem Türkçe Doğal Dil İşleme ile uğraşanlar için, hem de son kullanıcılar için faydalı olmayı hedefliyor. Sadede Gel’in en önemli yönü, bir açık kaynak kütüphanesi olması nedeniyle tüm kullanıcılar tarafından geliştirilmeye açık olması. Uygulamaya eklenen Chrome eklentisiyle haber sitelerindeki metinler hızlıca özetlenebiliyor.
Dorukhan, ‘’Bugüne dek üzerinde çalıştığımız projeleri ürünleştirmek veya müşterilerimize yazdığımız kodları teknik bir platformda toplamak gibi bir hayalimiz vardı. Yarışma için geliştirdiğimiz Sadede Gel ile bu hayale yaklaşmış olduk’’ diyor. Askar ise projenin gelişim sürecini şöyle özetliyor: ‘’Çıkarımsal özetleme yani haber metnindeki önemli cümleleri seçen bir yaklaşım izledik. Bu yaklaşımla farklı özetleyiciler geliştirdik. Pyhton programlama dilinin inceliklerinden yararlanırken bir yandan da dünyadaki diğer doğal dil işleme yöntemlerinin nasıl geliştirildiğini inceledik. Yarışma sonrasında geliştirmelerimize devam ettik. Bu süreçte, çıkarımsal özetleme için temel gereklilikleri yerine getirmiş olduğumuzu fark ettik ve aslında projemizi özetlemeden daha ileri ve daha jenerik bir doğal dil işleme projesine taşımış olduk. Böylece Sadede Gel ile Türkçe doğal dil işleme kütüphanesi konusunda jenerik bir platform oluşturduk’’.
Veri seti eksiklerinin Türkçe Doğal Dil İşleme projelerinde engel oluşturmaması için Türkçe haber sitelerinden metin toplayan açık kaynak kodlu araç sayesinde kullanıcılar kendi veri setlerini oluşturup yeni haber kaynakları ekleyerek kütüphanenin gelişmesine katkıda bulunabiliyor. Ayrıca bu proje kapsamında geliştirilen veri etiketleme aracı sayesinde çıkarımsal temelli (extraction based) özetleme tekniği ile özetlenmiş veri setleri hızlıca oluşturulup makine öğrenmesi projelerinde kullanılabilecek.
Karşılıklı öğrenerek birlikte gelişme
Global Maksimum ekibinin yolculuğu bundan sonra da devam edecek. Dorukhan’ın da belirttiği gibi bu yolda önemli olan Açık Kaynak ve Veri ekosisteminden öğrenmek kadar bilgiyi topluluk ile paylaşmak.
Dorukhan kendi deneyimini ‘’Açık kaynak serüvenine pek çok insan gibi kullanıcı olarak başladım. Yıllar içinde kullanıcı olarak tecrübe kazandıkça öğrendiklerime dair bir şeyleri geri verebileceğimi düşündüm’’ diye anlatırken, veri bilimi ve kodlama konusunda kendini geliştirmek isteyenlere önemli tavsiyeler eşliğinde açık kaynak ekosisteminin geliştirilmesine yönelik düşüncelerini şöyle paylaşıyor:
‘’Veri bilim alanında model geliştirmek düşünüldüğü kadar kolay değil. Meyveleri hemen toplayamıyorsunuz. Veri bilimi bir deneme ve yanılma süreci. Yüzde 1’lik başarı ihtimalini takip etmek ciddi emek gerektiriyor. Veri bilimciler ayrıca yazılım mühendisliği yönlerini de geliştirmek durumundalar. Bu da ayağa çok taşın değmesi anlamına geliyor ancak yolun sonunun iyi bir yere çıkacağını bilerek bu zorlukların üstesinden gelmeye odaklanmak gerekiyor’’.
‘’Bizim ekipçe hedefimiz veri bilimi ve veri biliminden çıkan bir ürünün devreye alınabilmesi için gereken aşamaları kullanıcıları için kolaylaştıracak bir platform yaratmaktı. Uzun vadede ise Türkçe ile başlayıp başka dillere de uzanabiliriz veya görüntü işleme, zaman serileri gibi konular da gündeme gelebilir. Ancak burada vurgulamak istediğimiz nokta şu; ülkemizde açık kaynak geliştiricileri çoğunlukla bireysel olarak ilerlemeye çalışıyor; dolayısıyla bu alanda büyük şirketlerin desteklediği, teşvik ettiği bir Açık Kaynak ekosistemine yönelik önemli bir ihtiyaç olduğunu görüyoruz’’.
‘’Bu alanda kendini geliştirmek isteyenlere tavsiyem; öncelikle temel bilgilere dair tam donanımlı olmaları, hali hazırda geliştirilmekte olan açık kaynak kütüphanelerini kullanmaları, eksikleri, ihtiyaçları fark etmeleri ve önerilerde bulunarak veri bilimci topluluğunun inşasına ve kolektif bir şekilde ilerlemesine vesile olmaları’’ .
Sadede Gel hakkında daha fazla bilgi için: https://sadedegel.ai/
Türkiye Açık Kaynak Platformu Hakkında:
Sanayi ve Teknoloji Bakanlığı himayelerinde, Bilişim Vadisi ve TÜBİTAK TÜSSİDE ortaklığında kurulan “Türkiye Açık Kaynak Platformu”, kamu ve özel sektör şirketleri, STK’lar, üniversiteler, eğitim kurumları ve topluluklardan oluşan paydaşları ile açık kaynak ekosistemini geliştirmek için faaliyetlerini sürdürüyor. Türkiye Açık Kaynak Platformu, ülkemizde ihraç edilebilir açık kaynak yazılım ürünleri geliştirmeyi, lisanslamadan kaynaklanan kamu ve özel sektör yazılım maliyetlerini azaltmayı, nitelikli yazılım geliştirici sayısını artırmayı ve açık kaynak yazılım destek hizmetlerini sunan şirket ve girişimci sayılarını artırmayı hedefliyor.
Platform’un Kurucu Üyeleri arasında Sanayi ve Teknoloji Bakanlığı, İstanbul Kalkınma Ajansı, Doğu Marmara Kalkınma Ajansı, Bilişim Vadisi, TÜBİTAK TÜSSİDE yer alıyor.