magibu-ai

Magibu

Türkçe'den başlayarak az temsil edilen diller için ölçüm-öncelikli yapay zekâ altyapısı geliştiriyoruz.

Magibu, İstanbul merkezli bir araştırma grubu ve açık kaynak topluluğudur. Odağımız; benchmark, tokenizer, embedding, retrieval, fine-tuning ve kurumsal yapay zekâ sistemlerini aynı ölçüm kültürü içinde geliştirmek.

Bizim için iddia şu: slogan değil benchmark. Bir modelin, tokenizer'ın veya retrieval sisteminin iyi olup olmadığını canlı demolarla, açık veri setleriyle ve tekrar üretilebilir değerlendirmelerle göstermek gerekir.

Yapay Zekâ Herkes İçin, Her Dil İçin.

Canlı Bağlantılar

Alan	Bağlantı
Web sitesi	magibu-org.web.app ve magibu.web.app
Embedding API	magibu.dev
Hugging Face	huggingface.co/magibu
Magibu Q3 Chat	magibu-chat.web.app
TR-MMLU	magibu.web.app/benchmarks
TR-MTEB Scoreboard	huggingface.co/spaces/magibu/mteb-turkish
Turkish Tiktokenizer	huggingface.co/spaces/alibayram/turkish_tiktokenizer
embeddingmagibu-200m Demo	huggingface.co/spaces/magibu/embeddingmagibu-200m

Ne Üretiyoruz?

Magibu'nun açık kaynak tarafı, Türkçe ve düşük kaynaklı diller için ölçülebilir yapay zekâ altyapısı üretir.

Katman	Ne yapıyoruz?
Benchmark	TR-MMLU, TR-MTEB ve alan bazlı değerlendirme setleriyle model kalitesini ölçüyoruz.
Tokenizer	Türkçe gibi morfolojik olarak zengin dillerde token verimliliğini artıran tokenizer çalışmaları yürütüyoruz.
Embedding	Türkçe odaklı embedding modelleri, semantik arama ve retrieval değerlendirme altyapısı geliştiriyoruz.
Veri setleri	Fine-tuning, instruction-following, tool-call, conversation ve domain adaptation veri setleri hazırlıyoruz.
Foundation model	Magibu Q3 gibi Türkçe yetenekleri güçlü modelleri canlı demo ve benchmark kültürüyle geliştiriyoruz.
Private AI	Kurum verisi dışarı çıkmadan çalışabilen retrieval, RAG, audit ve on-prem yapay zekâ sistemleri tasarlıyoruz.

Açık Kaynak Projeler

Repo	Amaç
language-native-embeddings	Her dil veya alan için önce benchmark, sonra tokenizer ve embedding modeli üretme metodolojisi.
finetune-datasets	Türkçe ve İngilizce fine-tune veri setleri için ortak format ve katkı süreci.
turkish-morfolojik-tokenizer	Türkçe için morfoloji ve token verimliliği odaklı tokenizer araştırmaları.
magibu-llm-tools	LLM, veri, değerlendirme ve model geliştirme süreçlerini destekleyen araçlar.

Araştırma Odağı

Magibu'nun ilk güçlü kanıt alanı Türkçe. Fakat problem yalnızca Türkçe'ye ait değil: ana akım yapay zekâ sistemleri birçok dili hâlâ yeterince iyi temsil etmiyor.

Bu yüzden orta vadeli araştırma çizgimiz şu başlıklara uzanıyor:

Türkçe ve az temsil edilen diller için embedding benchmarkları.
Dil ve alan özelinde tokenizer verimliliği analizi.
STSb, MTEB ve retrieval benchmark veri setleri.
Alan uyarlamalı embedding ve reranker modelleri.
Kurum içi, KVKK hassasiyetine uygun Private AI kurulumları.
Avrupa ve Orta Asya'daki düşük kaynaklı diller için ortak araştırma ve pilot çalışmalar.

İlk genişleme kümemizde Azerbaycan Türkçesi, Kazakça, Özbekçe, Kırgızca, Tatarca, Letonca, Litvanca, Estonca, Slovence, Slovakça, Hırvatça, Sırpça, Romence, İrlandaca, Galce ve Bretonca gibi diller yer alıyor.

Community ve Enterprise

Magibu iki ayaklı bir yapı olarak büyüyor.

Magibu Community açık bilim tarafıdır. Benchmarklar, veri setleri, tokenizer araştırmaları, model kartları, eğitim kodları ve topluluk katkıları burada büyür.

Magibu Enterprise bu bilgiyi kurumlarda çalışan ürüne dönüştürür. Embedding API, Search Kit, Retrieval Audit ve Private AI kurulumları bu tarafta yer alır.

İki tarafın ortak ilkesi aynı: önce ölç, sonra kur.

Katkı Çağrısı

Açık kaynak katkı beklediğimiz ana alanlar:

Türkçe veya başka bir dil için STSb/MTEB tarzı benchmark hazırlamak.
Dil veya domain özelinde tokenizer eğitmek ve token verimliliği raporlamak.
Embedding modellerini açık benchmarklarda karşılaştırmak.
Fine-tuning için temiz, lisanslı ve belgelenmiş veri setleri oluşturmak.
Hugging Face üzerinde model, dataset veya demo yayınlamak.
README, model kartı, değerlendirme raporu ve notebook katkısı yapmak.

Katkı akışı basit:

İlgili repoda issue açın veya mevcut issue'ya yazın.
Çıktınızı açık formatta ve tekrar üretilebilir şekilde hazırlayın.
Modeli, tokenizer'ı veya veri setini Hugging Face üzerinde yayınlayın.
Sonuçları, benchmark skorlarını ve linkleri README'ye ekleyen bir pull request gönderin.

Kurumlar ve Araştırma Grupları İçin

Türkçe veya düşük kaynaklı bir dilde kurum dokümanlarıyla çalışıyorsanız, ilk adım büyük bir sistem kurmak değil, küçük ve güvenilir bir ölçüm yapmaktır.

Magibu Retrieval Audit yaklaşımıyla:

temsilî doküman örnekleri seçilir,
gerçek kullanıcı soruları hazırlanır,
embedding, chunking, reranker ve vector DB seçenekleri karşılaştırılır,
recall@k, precision@k, MRR, nDCG ve latency raporlanır,
pilot veya on-prem kurulum kararı veriye dayalı alınır.

Araştırma, pilot ve açık kaynak iş birlikleri için magibu.web.app ve magibu.dev üzerinden bize ulaşabilirsiniz.

Kısa İngilizce Özet

Magibu builds evaluation-first AI infrastructure for Turkish and other underrepresented languages: benchmarks, tokenizers, embeddings, retrieval systems, fine-tuning datasets, and private AI deployments. We start with Turkish as our strongest proof field and expand the same benchmark-driven methodology to languages that remain underrepresented in mainstream AI systems.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

magibu-ai

Magibu

Canlı Bağlantılar

Ne Üretiyoruz?

Açık Kaynak Projeler

Araştırma Odağı

Community ve Enterprise

Katkı Çağrısı

Kurumlar ve Araştırma Grupları İçin

Kısa İngilizce Özet

Popular repositories Loading

Repositories

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

People

Top languages

Uh oh!

Most used topics

Uh oh!