Türkçe'den başlayarak az temsil edilen diller için ölçüm-öncelikli yapay zekâ altyapısı geliştiriyoruz.
Magibu, İstanbul merkezli bir araştırma grubu ve açık kaynak topluluğudur. Odağımız; benchmark, tokenizer, embedding, retrieval, fine-tuning ve kurumsal yapay zekâ sistemlerini aynı ölçüm kültürü içinde geliştirmek.
Bizim için iddia şu: slogan değil benchmark. Bir modelin, tokenizer'ın veya retrieval sisteminin iyi olup olmadığını canlı demolarla, açık veri setleriyle ve tekrar üretilebilir değerlendirmelerle göstermek gerekir.
Yapay Zekâ Herkes İçin, Her Dil İçin.
| Alan | Bağlantı |
|---|---|
| Web sitesi | magibu-org.web.app ve magibu.web.app |
| Embedding API | magibu.dev |
| Hugging Face | huggingface.co/magibu |
| Magibu Q3 Chat | magibu-chat.web.app |
| TR-MMLU | magibu.web.app/benchmarks |
| TR-MTEB Scoreboard | huggingface.co/spaces/magibu/mteb-turkish |
| Turkish Tiktokenizer | huggingface.co/spaces/alibayram/turkish_tiktokenizer |
| embeddingmagibu-200m Demo | huggingface.co/spaces/magibu/embeddingmagibu-200m |
Magibu'nun açık kaynak tarafı, Türkçe ve düşük kaynaklı diller için ölçülebilir yapay zekâ altyapısı üretir.
| Katman | Ne yapıyoruz? |
|---|---|
| Benchmark | TR-MMLU, TR-MTEB ve alan bazlı değerlendirme setleriyle model kalitesini ölçüyoruz. |
| Tokenizer | Türkçe gibi morfolojik olarak zengin dillerde token verimliliğini artıran tokenizer çalışmaları yürütüyoruz. |
| Embedding | Türkçe odaklı embedding modelleri, semantik arama ve retrieval değerlendirme altyapısı geliştiriyoruz. |
| Veri setleri | Fine-tuning, instruction-following, tool-call, conversation ve domain adaptation veri setleri hazırlıyoruz. |
| Foundation model | Magibu Q3 gibi Türkçe yetenekleri güçlü modelleri canlı demo ve benchmark kültürüyle geliştiriyoruz. |
| Private AI | Kurum verisi dışarı çıkmadan çalışabilen retrieval, RAG, audit ve on-prem yapay zekâ sistemleri tasarlıyoruz. |
| Repo | Amaç |
|---|---|
| language-native-embeddings | Her dil veya alan için önce benchmark, sonra tokenizer ve embedding modeli üretme metodolojisi. |
| finetune-datasets | Türkçe ve İngilizce fine-tune veri setleri için ortak format ve katkı süreci. |
| turkish-morfolojik-tokenizer | Türkçe için morfoloji ve token verimliliği odaklı tokenizer araştırmaları. |
| magibu-llm-tools | LLM, veri, değerlendirme ve model geliştirme süreçlerini destekleyen araçlar. |
Magibu'nun ilk güçlü kanıt alanı Türkçe. Fakat problem yalnızca Türkçe'ye ait değil: ana akım yapay zekâ sistemleri birçok dili hâlâ yeterince iyi temsil etmiyor.
Bu yüzden orta vadeli araştırma çizgimiz şu başlıklara uzanıyor:
- Türkçe ve az temsil edilen diller için embedding benchmarkları.
- Dil ve alan özelinde tokenizer verimliliği analizi.
- STSb, MTEB ve retrieval benchmark veri setleri.
- Alan uyarlamalı embedding ve reranker modelleri.
- Kurum içi, KVKK hassasiyetine uygun Private AI kurulumları.
- Avrupa ve Orta Asya'daki düşük kaynaklı diller için ortak araştırma ve pilot çalışmalar.
İlk genişleme kümemizde Azerbaycan Türkçesi, Kazakça, Özbekçe, Kırgızca, Tatarca, Letonca, Litvanca, Estonca, Slovence, Slovakça, Hırvatça, Sırpça, Romence, İrlandaca, Galce ve Bretonca gibi diller yer alıyor.
Magibu iki ayaklı bir yapı olarak büyüyor.
Magibu Community açık bilim tarafıdır. Benchmarklar, veri setleri, tokenizer araştırmaları, model kartları, eğitim kodları ve topluluk katkıları burada büyür.
Magibu Enterprise bu bilgiyi kurumlarda çalışan ürüne dönüştürür. Embedding API, Search Kit, Retrieval Audit ve Private AI kurulumları bu tarafta yer alır.
İki tarafın ortak ilkesi aynı: önce ölç, sonra kur.
Açık kaynak katkı beklediğimiz ana alanlar:
- Türkçe veya başka bir dil için STSb/MTEB tarzı benchmark hazırlamak.
- Dil veya domain özelinde tokenizer eğitmek ve token verimliliği raporlamak.
- Embedding modellerini açık benchmarklarda karşılaştırmak.
- Fine-tuning için temiz, lisanslı ve belgelenmiş veri setleri oluşturmak.
- Hugging Face üzerinde model, dataset veya demo yayınlamak.
- README, model kartı, değerlendirme raporu ve notebook katkısı yapmak.
Katkı akışı basit:
- İlgili repoda issue açın veya mevcut issue'ya yazın.
- Çıktınızı açık formatta ve tekrar üretilebilir şekilde hazırlayın.
- Modeli, tokenizer'ı veya veri setini Hugging Face üzerinde yayınlayın.
- Sonuçları, benchmark skorlarını ve linkleri README'ye ekleyen bir pull request gönderin.
Türkçe veya düşük kaynaklı bir dilde kurum dokümanlarıyla çalışıyorsanız, ilk adım büyük bir sistem kurmak değil, küçük ve güvenilir bir ölçüm yapmaktır.
Magibu Retrieval Audit yaklaşımıyla:
- temsilî doküman örnekleri seçilir,
- gerçek kullanıcı soruları hazırlanır,
- embedding, chunking, reranker ve vector DB seçenekleri karşılaştırılır,
- recall@k, precision@k, MRR, nDCG ve latency raporlanır,
- pilot veya on-prem kurulum kararı veriye dayalı alınır.
Araştırma, pilot ve açık kaynak iş birlikleri için magibu.web.app ve magibu.dev üzerinden bize ulaşabilirsiniz.
Magibu builds evaluation-first AI infrastructure for Turkish and other underrepresented languages: benchmarks, tokenizers, embeddings, retrieval systems, fine-tuning datasets, and private AI deployments. We start with Turkish as our strongest proof field and expand the same benchmark-driven methodology to languages that remain underrepresented in mainstream AI systems.