Türkçe için sıfırdan eğitilen ilk büyük dil modeli VNGRS’nin geliştirdiği model 7,4 milyar parametreli, kurumsal belge işleme, özetleme ve SSS/arama gibi kullanım alanlarını hedefliyor. İngilizce ve kod yazma konusunda da temel yeteneklere sahip.
Mimari Mistral-v0.3 tabanlı. 8.192 token bağlam uzunluğu (yaklaşık 20 A4 sayfası) sunuyor. Tasarım tercihleri (batch, optimizer, LR) LLaMA-3 teknik dokümanındaki yaklaşımlarla uyumlu.
EĞİTİM SÜRECİ
45 günde, H100/H200 GPU’larda eğitildi. 500 GB temiz ve tekilleştirilmiş Türkçe veriyle ön eğitim; ardından 1 milyon örnekle ince ayar yapıldı. Bilgi kesim tarihi Mart 2024.
DONANIM VE DAĞITIM
Verimlilik odaklı tasarım sayesinde RTX 3090 / RTX A4000 gibi 16 GB VRAM’li ekran kartlarında çalışabiliyor. Kurum içi konuşlandırma için düşük maliyetli bir seçenek olarak konumlanıyor.
PERFORMANS İDDİASI
Türkçe görevlerde (özellikle dilbilgisi düzeltme ve özetleme) çok daha büyük modelleri geride bıraktığı belirtiliyor. Türkçe’nin yapısal/anlamsal özelliklerini daha iyi kavradığı vurgulanıyor.
TOKENİZASYON YENİLİKLERİ
Türkçe’ye özel RegEx tabanlı ön işleme: satır sonları, noktalama ve sayılar ayrı token’lar. Metinleri %38–%98 daha az token ile temsil edebildiği, dolayısıyla daha uzun metinleri daha hızlı ve düşük maliyetle işleyebildiği ifade ediliyor.
KÜÇÜK SÜRÜM: KUMRU-2B
Donanım Haber'in haberine göre, Aynı mimarinin 2B parametreli, açık kaynak versiyonu. ~4,8 GB bellekle çalışıyor; mobil dahil hafif cihazlarda kullanılabiliyor. Hugging Face üzerinden erişim açık.