<h1 style="color:#2d8659;">🧠 <b>Doğal Dil İşleme'de Tokenization (Tokenizasyon) İşlemi</b> 🧩</h1>

<div style="background-color:#e6f7ff; border-left:5px solid #1890ff; padding:10px;">
<b>From Zero to Hero</b> konseptinde, <b style='color:#d46b08;'>tokenizasyon</b> konusunu adım adım ve örneklerle öğreneceğiz.
</div>

<details>
<summary><b>📚 İçindekiler</b></summary>
<ul>
<li>1. Tokenizasyon Nedir?</li>
<li>2. Neden Tokenizasyon Yapılır?</li>
<li>3. Python'da Tokenizasyon: NLTK ile Uygulama</li>
<li>4. Kelime ve Cümle Tokenizasyonu</li>
<li>5. Türkçe Metinlerde Tokenizasyon</li>
<li>6. Sıkça Karşılaşılan Sorunlar ve İpuçları</li>
<li>7. Uygulama: 5 Farklı Örnek</li>
</ul>
</details>

<h2 style="color:#d46b08;">1️⃣ 1. Tokenizasyon Nedir?</h2>

<div style="background-color:#fffbe6; border-left:5px solid #faad14; padding:10px;">
<b>Tokenizasyon</b>, bir metni daha küçük parçalara ayırma işlemidir. Bu parçalar genellikle <b style='color:#1890ff;'>kelime (word)</b> veya <b style='color:#1890ff;'>cümle (sentence)</b> olabilir.
<br><br>
<b>Örnek:</b> <code>"Merhaba dünya!"</code> → <span style='color:#52c41a;'>["Merhaba", "dünya", "!"]</span>
</div>

<h2 style="color:#d46b08;">2️⃣ 2. Neden Tokenizasyon Yapılır?</h2>

<ul>
<li>🔎 <b>Analiz ve işlem</b> için metni küçük parçalara ayırmak gerekir.</li>
<li>🤖 <b>Makine öğrenmesi</b> ve NLP modelleri genellikle tokenlar üzerinde çalışır.</li>
<li>📊 <b>Kelime sıklığı</b>, <b>duygu analizi</b>, <b>özetleme</b> gibi işlemler için gereklidir.</li>
</ul>

<h2 style="color:#d46b08;">3️⃣ 3. Python'da Tokenizasyon: NLTK ile Uygulama</h2>

<div style="background-color:#e6fffb; border-left:5px solid #13c2c2; padding:10px;">
<b>NLTK</b> (Natural Language Toolkit), Python'da doğal dil işleme için en çok kullanılan kütüphanelerden biridir. <b>Tokenizasyon</b> işlemleri için de oldukça kullanışlıdır.
</div>

<span style="color:#fa541c; font-weight:bold;">⚠️ Not:</span> NLTK'nın bazı fonksiyonları için önceden veri indirmek gerekir.

In [1]:
# Gerekli kütüphaneyi yükleyelim ve indirmemiz gereken paketleri indirelim
import nltk
nltk.download('punkt')  # Tokenizasyon için gerekli veri seti

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

<h2 style="color:#d46b08;">4️⃣ 4. Kelime ve Cümle Tokenizasyonu</h2>

<h3 style="color:#389e0d;">🔹 Kelime Tokenizasyonu</h3>
<div style="background-color:#f6ffed; border-left:5px solid #52c41a; padding:10px;">
Metni kelimelere ayırmak için <b><code>word_tokenize</code></b> fonksiyonu kullanılır. <b>Noktalama işaretleri</b> de ayrı birer token olarak elde edilir.
</div>

In [2]:
from nltk.tokenize import word_tokenize

text = "Hello, World! How are you? Hello, hi ..."
word_tokens = word_tokenize(text)
print("Kelime Tokenları:", word_tokens)

Kelime Tokenları: ['Hello', ',', 'World', '!', 'How', 'are', 'you', '?', 'Hello', ',', 'hi', '...']


<h3 style="color:#389e0d;">🔹 Cümle Tokenizasyonu</h3>
<div style="background-color:#f6ffed; border-left:5px solid #52c41a; padding:10px;">
Metni cümlelere ayırmak için <b><code>sent_tokenize</code></b> fonksiyonu kullanılır. Her bir cümle bir token olur.
</div>

In [3]:
from nltk.tokenize import sent_tokenize

sentence_tokens = sent_tokenize(text)
print("Cümle Tokenları:", sentence_tokens)

Cümle Tokenları: ['Hello, World!', 'How are you?', 'Hello, hi ...']


<h2 style="color:#d46b08;">5️⃣ 5. Türkçe Metinlerde Tokenizasyon</h2>

<div style="background-color:#fffbe6; border-left:5px solid #faad14; padding:10px;">
NLTK'nın varsayılan tokenizasyonu <b>İngilizce</b> için optimize edilmiştir. <b>Türkçe</b> metinlerde de çoğunlukla iyi çalışır, ancak bazı özel durumlarda hata yapabilir.
</div>
<span style="color:#fa541c; font-weight:bold;">💡 İpucu:</span> Türkçe için <b>Zemberek</b> gibi kütüphaneler de kullanılabilir.

In [4]:
turkish_text = "Merhaba dünya! Nasılsın? Bugün hava çok güzel."
print("Kelime Tokenları (TR):", word_tokenize(turkish_text))
print("Cümle Tokenları (TR):", sent_tokenize(turkish_text))

Kelime Tokenları (TR): ['Merhaba', 'dünya', '!', 'Nasılsın', '?', 'Bugün', 'hava', 'çok', 'güzel', '.']
Cümle Tokenları (TR): ['Merhaba dünya!', 'Nasılsın?', 'Bugün hava çok güzel.']


<h2 style="color:#d46b08;">6️⃣ 6. Sıkça Karşılaşılan Sorunlar ve İpuçları</h2>

<ul>
<li>✂️ <b>Noktalama işaretleri</b> ayrı token olur.</li>
<li>❗ <b>Kısaltmalar</b> (örn. <code>Dr.</code>, <code>vs.</code>) cümle tokenizasyonunda sorun çıkarabilir.</li>
<li>🇹🇷 <b>Türkçe'de özel karakterler</b> ve ekler dikkat gerektirir.</li>
<li>🚀 <b>Gelişmiş tokenizasyon</b> için <b>spaCy</b>, <b>Zemberek</b> gibi kütüphaneler de kullanılabilir.</li>
</ul>

<h2 style="color:#d46b08;">7️⃣ 7. Uygulama: 5 Farklı Örnek</h2>

<div style="background-color:#e6f7ff; border-left:5px solid #1890ff; padding:10px;">
Aşağıda, farklı metinler üzerinde <b>kelime</b> ve <b>cümle tokenizasyonu</b> örnekleri bulabilirsiniz.
</div>

<details>
<summary><b>📝 Flashcard: Tokenizasyonun Faydaları</b></summary>
<ul>
<li>✔️ Metni analiz edilebilir hale getirir</li>
<li>✔️ NLP modellerinin temelini oluşturur</li>
<li>✔️ Veri ön işleme sürecinin ilk adımıdır</li>
</ul>
</details>

In [5]:
examples = [
    "Python çok güçlü bir programlama dilidir.",
    "Dr. Ahmet bugün okula gitti mi? Evet, gitti!",
    "İstanbul, Türkiye'nin en kalabalık şehridir.",
    "Bugün hava yağmurlu; şemsiye almayı unutma.",
    "NLP (Doğal Dil İşleme) alanı hızla gelişiyor."
]

for i, ex in enumerate(examples, 1):
    print(f"\nÖrnek {i}:")
    print("Metin:", ex)
    print("Kelime Tokenları:", word_tokenize(ex))
    print("Cümle Tokenları:", sent_tokenize(ex))


Örnek 1:
Metin: Python çok güçlü bir programlama dilidir.
Kelime Tokenları: ['Python', 'çok', 'güçlü', 'bir', 'programlama', 'dilidir', '.']
Cümle Tokenları: ['Python çok güçlü bir programlama dilidir.']

Örnek 2:
Metin: Dr. Ahmet bugün okula gitti mi? Evet, gitti!
Kelime Tokenları: ['Dr.', 'Ahmet', 'bugün', 'okula', 'gitti', 'mi', '?', 'Evet', ',', 'gitti', '!']
Cümle Tokenları: ['Dr. Ahmet bugün okula gitti mi?', 'Evet, gitti!']

Örnek 3:
Metin: İstanbul, Türkiye'nin en kalabalık şehridir.
Kelime Tokenları: ['İstanbul', ',', "Türkiye'nin", 'en', 'kalabalık', 'şehridir', '.']
Cümle Tokenları: ["İstanbul, Türkiye'nin en kalabalık şehridir."]

Örnek 4:
Metin: Bugün hava yağmurlu; şemsiye almayı unutma.
Kelime Tokenları: ['Bugün', 'hava', 'yağmurlu', ';', 'şemsiye', 'almayı', 'unutma', '.']
Cümle Tokenları: ['Bugün hava yağmurlu; şemsiye almayı unutma.']

Örnek 5:
Metin: NLP (Doğal Dil İşleme) alanı hızla gelişiyor.
Kelime Tokenları: ['NLP', '(', 'Doğal', 'Dil', 'İşleme', ')', 'alanı', 