# Tokenizasyon (Tokenleştirme)


Tokenizasyon, metin verileriyle çalışırken uygulanan en temel adımlardan biridir. Token, kelime veya duruma göre cümle anlamına gelebilir. Tokenizasyon, bir metni tokenlarına yani kelimelerine veya cümlelerine ayırma işlemidir. Metinler genellikle kelimelerine ayrılır, ancak duruma göre cümlelerine ayırmak da gerekebilir.

## Neden Tokenizasyon Yapılır?

1. **Dil Yapısını Anlama**: Metin, anlamlı parçalarına (kelimelerine) ayrıldığında dil yapısı daha net anlaşılabilir.
2. **Frekans Analizi**: Belirli kelimelerin bir metinde ne sıklıkla geçtiğini görmemizi sağlar, bu sayede metnin genel konusu anlaşılabilir.
3. **Metin Temizleme**: Gereksiz veya istenmeyen karakterleri (noktalama işaretleri, özel karakterler, bağlaçlar vb.) kaldırarak metni daha temiz hale getirir.
4. **Özellik Çıkarımı**: Metinden özellik çıkarımı yapmamızı sağlar. Örneğin, belirli kelimelerin varlığı, metnin bir sınıfa ait olup olmadığını belirlememize yardımcı olabilir.

## 1. Split Metodu ile Tokenizasyon

Python'da tokenizasy on yapmanın en basit yöntemlerinden biri `split()` fonksiyonudur. Bu fonksiyon, metni boşluklara göre tokenlara ayırır.
**Not:** `split()` metodu noktalama işaretlerini dikkate almaz.

In [2]:
# Makine öğrenmesiyle ilgili metin
text = """Makine öğrenmesi, yapay zekanın bir alt dalıdır ve bilgisayarların verilerden öğrenmesini sağlar. 
            Bu süreçte, algoritmalar verileri analiz eder ve bu verilerden çıkarımlar yaparak tahminlerde bulunur. 
            Örneğin, bir makine öğrenmesi modeli, müşteri davranışlarını analiz ederek gelecekteki satın alma eğilimlerini tahmin edebilir."""

In [3]:
# split() fonksiyonu ile tokenizasyon
tokens = text.split()

print(tokens)

['Makine', 'öğrenmesi,', 'yapay', 'zekanın', 'bir', 'alt', 'dalıdır', 've', 'bilgisayarların', 'verilerden', 'öğrenmesini', 'sağlar.', 'Bu', 'süreçte,', 'algoritmalar', 'verileri', 'analiz', 'eder', 've', 'bu', 'verilerden', 'çıkarımlar', 'yaparak', 'tahminlerde', 'bulunur.', 'Örneğin,', 'bir', 'makine', 'öğrenmesi', 'modeli,', 'müşteri', 'davranışlarını', 'analiz', 'ederek', 'gelecekteki', 'satın', 'alma', 'eğilimlerini', 'tahmin', 'edebilir.']


## 2. RegEx ve NLTK ile Tokenizasyon

Regex, belirli bir deseni (pattern) aramak veya metin üzerinde işlemler yapmak için kullanılan bir araçtır. Daha gelişmiş tokenizasyon işlemleri için regex kullanılabilir.

In [8]:
import re

# metin (yapay zeka ve veri bilimi hakkında)
text = """Yapay zeka, veri biliminin en önemli alanlarından biridir. 
            Makine öğrenmesi modelleri, büyük veri setleri üzerinde eğitilerek tahminlerde bulunur. 
            Derin öğrenme ise sinir ağları kullanarak daha karmaşık problemleri çözmeyi hedefler."""

# Regex pattern (aynı kalacak)
pattern = r'''(?x)
[A-Z]\.+
| \w+(?:-\w+)*
| \$?\d+(?:\.\d+)?%?
| \.\.\.
| [][.,;"'?():-_`]
'''

# Regex ile tokenizasyon
tokens_regex = re.findall(pattern, text)
print("Tokens Regex :", tokens_regex)

Tokens Regex : ['Yapay', 'zeka', ',', 'veri', 'biliminin', 'en', 'önemli', 'alanlarından', 'biridir', '.', 'Makine', 'öğrenmesi', 'modelleri', ',', 'büyük', 'veri', 'setleri', 'üzerinde', 'eğitilerek', 'tahminlerde', 'bulunur', '.', 'Derin', 'öğrenme', 'ise', 'sinir', 'ağları', 'kullanarak', 'daha', 'karmaşık', 'problemleri', 'çözmeyi', 'hedefler', '.']


NLTK (Natural Language Toolkit), Python için popüler bir NLP kütüphanesidir. NLTK'nin regexp_tokenize() fonksiyonu, regex pattern'lerini destekler.

In [10]:
import nltk

tokens_nltk = nltk.regexp_tokenize(text, pattern)
print("\nTokens NLTK :", tokens_nltk)


Tokens NLTK : ['Yapay', 'zeka', ',', 'veri', 'biliminin', 'en', 'önemli', 'alanlarından', 'biridir', '.', 'Makine', 'öğrenmesi', 'modelleri', ',', 'büyük', 'veri', 'setleri', 'üzerinde', 'eğitilerek', 'tahminlerde', 'bulunur', '.', 'Derin', 'öğrenme', 'ise', 'sinir', 'ağları', 'kullanarak', 'daha', 'karmaşık', 'problemleri', 'çözmeyi', 'hedefler', '.']


## 3. NLTK ile Hazır Tokenizasyon

NLTK'nin punkt modeli, dilbilgisel kuralları ve örüntüleri içeren önceden eğitilmiş bir modeldir. Türkçe dahil birçok dil için tokenizasyon işlemi yapabilir.

In [None]:
#!pip install nltk
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

nltk.download('punkt')

In [None]:
#metin TR
tr_text = """Veri bilimi, büyük veri setlerini analiz ederek anlamlı bilgiler çıkarmayı amaçlar. 
             Bu alanda, istatistik, makine öğrenmesi ve veri görselleştirme gibi teknikler kullanılır. 
             Veri bilimciler, analiz eder ve iş dünyasına yönelik çözümler üretir."""

# Kelime tokenizasyonu
tr_tokens = word_tokenize(tr_text)
print("Türkçe Kelime Tokenları:", tr_tokens)

# Cümle tokenizasyonu
tr_sent_tokens = sent_tokenize(tr_text)
print("\nTürkçe Cümle Tokenları:", tr_sent_tokens)

In [None]:
# metin EN
en_text = "Socrates is one of the famous philosophers of the ancient era. One of his most famous quotes is: 'The only thing I know is that I know nothing.'"

# Kelime tokenizasyonu
en_tokens = word_tokenize(en_text)
print("İngilizce Kelime Tokenları:", en_tokens)

## 4. Metin Temizleme ve Stop Words Kaldırma

Noktalama işaretleri ve stop words'lerden arındırılmış bir tokenizasyon işlemi için aşağıdaki fonksiyon kullanılabilir.

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from string import punctuation

# Ön işleme fonksiyonu
def preprocess_corpus(texts):
    mystopwords = set(stopwords.words('turkish'))

    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return [remove_stops_digits(word_tokenize(text)) for text in texts]

# metin
text = """Yapay zeka, bilgisayarların insan benzeri kararlar almasını sağlayan bir teknolojidir. 
          Makine öğrenmesi, yapay zekanın bir alt dalıdır ve verilerden otomatik olarak öğrenme yeteneğini ifade eder. 
          Derin öğrenme ise sinir ağları kullanarak karmaşık problemleri çözmeyi hedefler."""

# Metni ön işleme adımlarından geçirme
preprocessed_text = preprocess_corpus([text])
print("Temizlenmiş Tokenlar:", preprocessed_text)

## Kaynaklar
Natural Language Processing with Python (O’Reilly)
Practical Natural Language Processing (O’Reilly)