Dilbilim kurallarını temel alarak, çok dilli metinleri işlemek ve anlam bütünlüğünü korumak için gelişmiş bir tokenizer altyapısı.
- Kelime köklerinin ses olayına uğramış olan hallerinin ses olayına uğramamış olan halleri ile aynı id ile temsil edilmesi
- İlkHarfBüyük tokeni oluşturulması ve tüm tokenlerin ilk harfinin küçük harfe çevrilmesi
- Çoğul tokeni oluşturulması ve ler - lar eklerinin silinmesi
- Tamamen aynı olan ama sesleri farklı olan eklerin özel tokenler ile temsil edilmesi
- Boşluk, satır sonu ve tab karakterlerinin özel tokenler ile temsil edilmesi
- Çok dilli destek
- Performans optimizasyonları
- Daha kapsamlı test senaryoları
- Web API desteği
- Docker entegrasyonu
Bu projenin amacı, metin analizi ve doğal dil işleme (NLP) süreçlerinde kullanılabilecek, dilbilgisel yapıları ve anlam bütünlüğünü dikkate alan bir tokenizer geliştirmektir. Proje, Türkçe dilbilgisi kurallarını referans alarak başlamış olsa da, evrensel dil kuralları doğrultusunda çok dilli bir yapıya sahip olacak şekilde genişletilecektir.
- Dilbilim kurallarına dayalı tokenizasyon
- Morfolojik analiz desteği
- Çok dilli destek altyapısı
- Genişletilebilir mimari
- Yüksek performanslı işleme
- Özel karakter ve boşluk işleme desteği
Tokenizer üç temel sözlük dosyası kullanır:
kokler_v05.json: Kök kelimeler ve özel tokenler (0-20000 arası ID'ler)ekler_v05.json: Ekler (22268-22767 arası ID'ler)bpe_v05.json: BPE token'ları
{
"<uppercase>": 0, // Büyük harf işareti
"<space>": 1, // Boşluk karakteri
"<newline>": 2, // Satır sonu
"<tab>": 3, // Tab karakteri
"<unknown>": 4 // Bilinmeyen token
}from turkish_tokenizer import tokenize
text = "Kitabı ve defterleri getirn,\nYouTube\t"
result = tokenize(text)
print(result)use turkish_tokenizer::TurkishTokenizer;
fn main() {
let mut tokenizer = TurkishTokenizer::new().unwrap();
let text = "Kitabı ve defterleri getirn,\nYouTube\t";
let result = tokenizer.tokenize(text).unwrap();
println!("{}", serde_json::to_string_pretty(&result).unwrap());
}-
Temel Özellikler:
- Basit ve anlaşılır kod yapısı
- Kolay entegrasyon
- Hızlı prototipleme için uygun
- Dinamik tip sistemi
-
Performans Özellikleri:
- Sıralı işleme
- Bellek dostu veri yapıları
- Yorumlanmış dil avantajları
-
Temel Özellikler:
- Güvenli bellek yönetimi
- Statik tip sistemi
- Thread-safe veri yapıları
- Sıfır maliyetli soyutlamalar
-
Performans Özellikleri:
- Paralel işleme desteği (Rayon)
- Verimli UTF-8 karakter işleme
- Düşük seviye optimizasyonlar
- Önbellekleme mekanizmaları
-
Teknik Detaylar:
- Arc ile thread-safe paylaşımlı veri
- Regex ile gelişmiş kelime bölümleme
- Lazy static ile verimli statik kaynaklar
- Zero-copy string işlemleri
- Repository'yi klonlayın:
git clone <repository-url>
cd tokenizer- Python ortamını hazırlayın:
python -m venv venv
source venv/bin/activate # Unix/macOS
# veya
.\venv\Scripts\activate # Windows- Rust toolchain'i kurun:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# veya
rustup update- Yeni bir branch oluşturun:
git checkout -b feature/yeni-ozellik- Testleri çalıştırın:
# Python testleri
python -m pytest tests/
# Rust testleri
cargo test- Kod stilini kontrol edin:
# Python
flake8 .
black .
# Rust
cargo fmt
cargo clippy- Değişikliklerinizi commit edin:
git add .
git commit -m "feat: yeni özellik eklendi"- Branch'inizi push edin:
git push origin feature/yeni-ozellik- GitHub üzerinden pull request açın
- Code review sürecini takip edin
- Gerekli düzeltmeleri yapın
- PR'ınız onaylandığında main branch'e merge edilecektir
- Python 3.6+
- pytest
- black
- flake8
- JSON desteği
- UTF-8 karakter desteği
- Rust 1.50+
- Cargo paket yöneticisi
- rustfmt
- clippy
- Bağımlılıklar:
- serde (JSON işleme)
- rayon (paralel işleme)
- regex (kelime bölümleme)
- lazy_static (statik kaynaklar)
MIT
Not: Proje aktif geliştirme aşamasındadır. Detaylı dokümantasyon için Wiki sayfasını ziyaret edebilirsiniz.