Skip to content

Magibu

Türkçe'den başlayarak az temsil edilen diller için ölçüm-öncelikli yapay zekâ altyapısı geliştiriyoruz.

Magibu, İstanbul merkezli bir araştırma grubu ve açık kaynak topluluğudur. Odağımız; benchmark, tokenizer, embedding, retrieval, fine-tuning ve kurumsal yapay zekâ sistemlerini aynı ölçüm kültürü içinde geliştirmek.

Bizim için iddia şu: slogan değil benchmark. Bir modelin, tokenizer'ın veya retrieval sisteminin iyi olup olmadığını canlı demolarla, açık veri setleriyle ve tekrar üretilebilir değerlendirmelerle göstermek gerekir.

Yapay Zekâ Herkes İçin, Her Dil İçin.

Canlı Bağlantılar

Alan Bağlantı
Web sitesi magibu-org.web.app ve magibu.web.app
Embedding API magibu.dev
Hugging Face huggingface.co/magibu
Magibu Q3 Chat magibu-chat.web.app
TR-MMLU magibu.web.app/benchmarks
TR-MTEB Scoreboard huggingface.co/spaces/magibu/mteb-turkish
Turkish Tiktokenizer huggingface.co/spaces/alibayram/turkish_tiktokenizer
embeddingmagibu-200m Demo huggingface.co/spaces/magibu/embeddingmagibu-200m

Ne Üretiyoruz?

Magibu'nun açık kaynak tarafı, Türkçe ve düşük kaynaklı diller için ölçülebilir yapay zekâ altyapısı üretir.

Katman Ne yapıyoruz?
Benchmark TR-MMLU, TR-MTEB ve alan bazlı değerlendirme setleriyle model kalitesini ölçüyoruz.
Tokenizer Türkçe gibi morfolojik olarak zengin dillerde token verimliliğini artıran tokenizer çalışmaları yürütüyoruz.
Embedding Türkçe odaklı embedding modelleri, semantik arama ve retrieval değerlendirme altyapısı geliştiriyoruz.
Veri setleri Fine-tuning, instruction-following, tool-call, conversation ve domain adaptation veri setleri hazırlıyoruz.
Foundation model Magibu Q3 gibi Türkçe yetenekleri güçlü modelleri canlı demo ve benchmark kültürüyle geliştiriyoruz.
Private AI Kurum verisi dışarı çıkmadan çalışabilen retrieval, RAG, audit ve on-prem yapay zekâ sistemleri tasarlıyoruz.

Açık Kaynak Projeler

Repo Amaç
language-native-embeddings Her dil veya alan için önce benchmark, sonra tokenizer ve embedding modeli üretme metodolojisi.
finetune-datasets Türkçe ve İngilizce fine-tune veri setleri için ortak format ve katkı süreci.
turkish-morfolojik-tokenizer Türkçe için morfoloji ve token verimliliği odaklı tokenizer araştırmaları.
magibu-llm-tools LLM, veri, değerlendirme ve model geliştirme süreçlerini destekleyen araçlar.

Araştırma Odağı

Magibu'nun ilk güçlü kanıt alanı Türkçe. Fakat problem yalnızca Türkçe'ye ait değil: ana akım yapay zekâ sistemleri birçok dili hâlâ yeterince iyi temsil etmiyor.

Bu yüzden orta vadeli araştırma çizgimiz şu başlıklara uzanıyor:

  • Türkçe ve az temsil edilen diller için embedding benchmarkları.
  • Dil ve alan özelinde tokenizer verimliliği analizi.
  • STSb, MTEB ve retrieval benchmark veri setleri.
  • Alan uyarlamalı embedding ve reranker modelleri.
  • Kurum içi, KVKK hassasiyetine uygun Private AI kurulumları.
  • Avrupa ve Orta Asya'daki düşük kaynaklı diller için ortak araştırma ve pilot çalışmalar.

İlk genişleme kümemizde Azerbaycan Türkçesi, Kazakça, Özbekçe, Kırgızca, Tatarca, Letonca, Litvanca, Estonca, Slovence, Slovakça, Hırvatça, Sırpça, Romence, İrlandaca, Galce ve Bretonca gibi diller yer alıyor.

Community ve Enterprise

Magibu iki ayaklı bir yapı olarak büyüyor.

Magibu Community açık bilim tarafıdır. Benchmarklar, veri setleri, tokenizer araştırmaları, model kartları, eğitim kodları ve topluluk katkıları burada büyür.

Magibu Enterprise bu bilgiyi kurumlarda çalışan ürüne dönüştürür. Embedding API, Search Kit, Retrieval Audit ve Private AI kurulumları bu tarafta yer alır.

İki tarafın ortak ilkesi aynı: önce ölç, sonra kur.

Katkı Çağrısı

Açık kaynak katkı beklediğimiz ana alanlar:

  • Türkçe veya başka bir dil için STSb/MTEB tarzı benchmark hazırlamak.
  • Dil veya domain özelinde tokenizer eğitmek ve token verimliliği raporlamak.
  • Embedding modellerini açık benchmarklarda karşılaştırmak.
  • Fine-tuning için temiz, lisanslı ve belgelenmiş veri setleri oluşturmak.
  • Hugging Face üzerinde model, dataset veya demo yayınlamak.
  • README, model kartı, değerlendirme raporu ve notebook katkısı yapmak.

Katkı akışı basit:

  1. İlgili repoda issue açın veya mevcut issue'ya yazın.
  2. Çıktınızı açık formatta ve tekrar üretilebilir şekilde hazırlayın.
  3. Modeli, tokenizer'ı veya veri setini Hugging Face üzerinde yayınlayın.
  4. Sonuçları, benchmark skorlarını ve linkleri README'ye ekleyen bir pull request gönderin.

Kurumlar ve Araştırma Grupları İçin

Türkçe veya düşük kaynaklı bir dilde kurum dokümanlarıyla çalışıyorsanız, ilk adım büyük bir sistem kurmak değil, küçük ve güvenilir bir ölçüm yapmaktır.

Magibu Retrieval Audit yaklaşımıyla:

  • temsilî doküman örnekleri seçilir,
  • gerçek kullanıcı soruları hazırlanır,
  • embedding, chunking, reranker ve vector DB seçenekleri karşılaştırılır,
  • recall@k, precision@k, MRR, nDCG ve latency raporlanır,
  • pilot veya on-prem kurulum kararı veriye dayalı alınır.

Araştırma, pilot ve açık kaynak iş birlikleri için magibu.web.app ve magibu.dev üzerinden bize ulaşabilirsiniz.

Kısa İngilizce Özet

Magibu builds evaluation-first AI infrastructure for Turkish and other underrepresented languages: benchmarks, tokenizers, embeddings, retrieval systems, fine-tuning datasets, and private AI deployments. We start with Turkish as our strongest proof field and expand the same benchmark-driven methodology to languages that remain underrepresented in mainstream AI systems.

Popular repositories Loading

  1. language-native-embeddings language-native-embeddings Public

    Bu projede herkesin kendi istediği dilde ve alanda tokenizer ve embedding modelleri üretmeleri için yöntemleri ve gerekli adımları derliyoruz

    1

  2. turkish-morfolojik-tokenizer turkish-morfolojik-tokenizer Public

    Verilen metni Türkçe ses bilgisine uyarak morfolojik parçalarına ayırıp daha sonra bu parçaları birleştirebilen güncel tokenizer projesidir

    Python 1

  3. .github .github Public

    Yapay Zekâ Herkes İçin, Her Dil İçin.

    1

  4. finetune-datasets finetune-datasets Public

    Yapay zeka modellerini belirli bir görev, dil veya kişiliğe evirmek için yüksek kaliteli veri setlerini bu proje altında toparlıyoruz

  5. magibu-llm-tools magibu-llm-tools Public

    Magibu dil modellerini çalıştırırken, modelin kullanacağı tool'lar ve yardımcı sistemler.

Repositories

Showing 5 of 5 repositories

Top languages

Loading…

Most used topics

Loading…