Tokenizer

Dilbilim kurallarını temel alarak, çok dilli metinleri işlemek ve anlam bütünlüğünü korumak için gelişmiş bir tokenizer altyapısı.

İlk Versiyon

Kelime köklerinin ses olayına uğramış olan hallerinin ses olayına uğramamış olan halleri ile aynı id ile temsil edilmesi
İlkHarfBüyük tokeni oluşturulması ve tüm tokenlerin ilk harfinin küçük harfe çevrilmesi
Çoğul tokeni oluşturulması ve ler - lar eklerinin silinmesi
Tamamen aynı olan ama sesleri farklı olan eklerin özel tokenler ile temsil edilmesi
Boşluk, satır sonu ve tab karakterlerinin özel tokenler ile temsil edilmesi

Gelecek Özellikler

Projenin Amacı ve Kapsamı

Bu projenin amacı, metin analizi ve doğal dil işleme (NLP) süreçlerinde kullanılabilecek, dilbilgisel yapıları ve anlam bütünlüğünü dikkate alan bir tokenizer geliştirmektir. Proje, Türkçe dilbilgisi kurallarını referans alarak başlamış olsa da, evrensel dil kuralları doğrultusunda çok dilli bir yapıya sahip olacak şekilde genişletilecektir.

Temel Özellikler

Dilbilim kurallarına dayalı tokenizasyon
Morfolojik analiz desteği
Çok dilli destek altyapısı
Genişletilebilir mimari
Yüksek performanslı işleme
Özel karakter ve boşluk işleme desteği

Dosya Yapısı

Tokenizer üç temel sözlük dosyası kullanır:

kokler_v05.json: Kök kelimeler ve özel tokenler (0-20000 arası ID'ler)
ekler_v05.json: Ekler (22268-22767 arası ID'ler)
bpe_v05.json: BPE token'ları

Özel Tokenler

{
    "<uppercase>": 0,    // Büyük harf işareti
    "<space>": 1,       // Boşluk karakteri
    "<newline>": 2,     // Satır sonu
    "<tab>": 3,         // Tab karakteri
    "<unknown>": 4      // Bilinmeyen token
}

Kullanım

Python Implementasyonu

from turkish_tokenizer import tokenize

text = "Kitabı ve defterleri getirn,\nYouTube\t"
result = tokenize(text)
print(result)

Rust Implementasyonu

use turkish_tokenizer::TurkishTokenizer;

fn main() {
    let mut tokenizer = TurkishTokenizer::new().unwrap();
    let text = "Kitabı ve defterleri getirn,\nYouTube\t";
    let result = tokenizer.tokenize(text).unwrap();
    println!("{}", serde_json::to_string_pretty(&result).unwrap());
}

Implementasyon Özellikleri

Python Versiyonu

Temel Özellikler:
- Basit ve anlaşılır kod yapısı
- Kolay entegrasyon
- Hızlı prototipleme için uygun
- Dinamik tip sistemi
Performans Özellikleri:
- Sıralı işleme
- Bellek dostu veri yapıları
- Yorumlanmış dil avantajları

Rust Versiyonu

Temel Özellikler:
- Güvenli bellek yönetimi
- Statik tip sistemi
- Thread-safe veri yapıları
- Sıfır maliyetli soyutlamalar
Performans Özellikleri:
- Paralel işleme desteği (Rayon)
- Verimli UTF-8 karakter işleme
- Düşük seviye optimizasyonlar
- Önbellekleme mekanizmaları
Teknik Detaylar:
- Arc ile thread-safe paylaşımlı veri
- Regex ile gelişmiş kelime bölümleme
- Lazy static ile verimli statik kaynaklar
- Zero-copy string işlemleri

Geliştirme ve Katkıda Bulunma

Geliştirme Ortamı Kurulumu

Repository'yi klonlayın:

git clone <repository-url>
cd tokenizer

Python ortamını hazırlayın:

python -m venv venv
source venv/bin/activate  # Unix/macOS
# veya
.\venv\Scripts\activate  # Windows

Rust toolchain'i kurun:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
# veya
rustup update

Geliştirme Süreci

Yeni bir branch oluşturun:

git checkout -b feature/yeni-ozellik

Testleri çalıştırın:

# Python testleri
python -m pytest tests/

# Rust testleri
cargo test

Kod stilini kontrol edin:

# Python
flake8 .
black .

# Rust
cargo fmt
cargo clippy

Değişikliklerinizi commit edin:

git add .
git commit -m "feat: yeni özellik eklendi"

Pull Request Süreci

Branch'inizi push edin:

git push origin feature/yeni-ozellik

GitHub üzerinden pull request açın
Code review sürecini takip edin
Gerekli düzeltmeleri yapın
PR'ınız onaylandığında main branch'e merge edilecektir

Geliştirme Gereksinimleri

Python

Python 3.6+
pytest
black
flake8
JSON desteği
UTF-8 karakter desteği

Rust

Rust 1.50+
Cargo paket yöneticisi
rustfmt
clippy
Bağımlılıklar:
- serde (JSON işleme)
- rayon (paralel işleme)
- regex (kelime bölümleme)
- lazy_static (statik kaynaklar)

Lisans

MIT

Not: Proje aktif geliştirme aşamasındadır. Detaylı dokümantasyon için Wiki sayfasını ziyaret edebilirsiniz.

Name		Name	Last commit message	Last commit date
Latest commit History 84 Commits
semantic_tokenizer		semantic_tokenizer
tokenizer_preparation		tokenizer_preparation
tr_tokenizer		tr_tokenizer
turkish_tiktokenizer		turkish_tiktokenizer
turkish_tokenizer		turkish_tokenizer
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Tokenizer

İlk Versiyon

Gelecek Özellikler

Projenin Amacı ve Kapsamı

Temel Özellikler

Dosya Yapısı

Özel Tokenler

Kullanım

Python Implementasyonu

Rust Implementasyonu

Implementasyon Özellikleri

Python Versiyonu

Rust Versiyonu

Geliştirme ve Katkıda Bulunma

Geliştirme Ortamı Kurulumu

Geliştirme Süreci

Pull Request Süreci

Geliştirme Gereksinimleri

Python

Rust

Lisans

About

Uh oh!

Releases

Packages

Languages

ardafincan/tokenizer

Folders and files

Latest commit

History

Repository files navigation

Tokenizer

İlk Versiyon

Gelecek Özellikler

Projenin Amacı ve Kapsamı

Temel Özellikler

Dosya Yapısı

Özel Tokenler

Kullanım

Python Implementasyonu

Rust Implementasyonu

Implementasyon Özellikleri

Python Versiyonu

Rust Versiyonu

Geliştirme ve Katkıda Bulunma

Geliştirme Ortamı Kurulumu

Geliştirme Süreci

Pull Request Süreci

Geliştirme Gereksinimleri

Python

Rust

Lisans

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages