_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_

## Tokenizasyon (Tokenleştirme)

Metin verileriyle çalışırken işletmemiz gereken en temel adımdır. Token kelime veya duruma göre cümle anlamına gelebilmektedir. Dolayısıyla tokenize etmek derken bir metni **token**larına yani kelimelerine veya cümlelerine ayırma işleminden bahsedilir. Metinler genellikle kelimelerine ayrılır fakat duruma göre cümlelerine ayırmak da iş görebilir.

### Neden Tokenizasyon Yapılır?

- **Dil Yapısını Anlama:** Metin anlamlı parçalarına -temel yapı taşlarına- yani kelimelerine ayrıldığı takdirde dil yapısı daha net anlaşılabilir.

- **Frekans Analizi:** Belirli kelimelerin bir metinde ne sıklıkla geçtiğini görmemizi sağlar, bu sayede de metnin genel konusu anlaşılabilir.

- **Metin Temizleme:** Gereksiz veya istenmeyen karakterleri (örn: noktalama işaretleri, özel karakterler, bağlaçlar vb.) tespit ederek kaldırmamıza yardımcı olabilir. Bu sayede de metin gereksiz detaylardan daha kolay ve temiz analiz edilebilir hale gelir. 

- **Özellik Çıkarımı:** Metinden özellik çıkarımı yapmamızı sağlar. Örneğin, belirli kelimelerin veya kelime gruplarının varlığı, bir metnin belirli bir sınıfa ait olup olmadığını belirlememize yardımcı olabilir. Mesela, makine ve öğrenme tek başına bir anlam ifade etmezken birlikte geçtiği durumların sıklığı "makine öğrenmesi" terminolojisine ait olduğu bilgisini verir.

## 1. Split Metodu ile Tokenizasyon

Tokenizasyon yapmanın birçok farklı yöntemi vardır. Python'da tokenizasyon yapmanın en basit yöntemlerinden biri `split()` fonksiyonudur. Bu fonksiyon ile metni boşluklarına göre tokenlerine ayırabiliriz.

Not: `split()` metodu noktalama işaretlerini dikkate almadan tokenize işlemini gerçekleştirir.

In [1]:
text = """Sokrates, antik çağın ünlü filozoflarından biridir. 
            En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"""

In [2]:
# split() fonksiyonu ile tokenizasyon

tokens = text.split()

print(tokens)

['Sokrates,', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir.', 'En', 'ünlü', 'sözlerinden', 'biri', 'şöyledir:', "'Bilgiğim", 'bir', 'şey', 'var,', 'o', 'da', 'hiçbir', 'şey', "bilmediğimdir.'"]


## 2. RegEx ve NLTK ile Tokenizasyon

### RegEx 
[Regex](https://docs.python.org/3/library/re.html) (Regular Expression), yani Düzenli İfadeler, belirli bir deseni (pattern) aramak veya bu deseni kullanarak metin üzerinde işlemler yapmak için kullanılan bir araçtır.

Daha gelişmiş bir tokenizasyon işlemi için regex kullanabiliriz. Regex ile belirlediğiniz pattern'e göre metini tokenlerine ayırabiliriz. Örnek kod, noktalama işaretlerini dikkate alarak tokenleştirme işlemini gerçekleştirir.

### NLTK Kütüphanesi
[NLTK](https://www.nltk.org/) (Natural Language Toolkit) Python için popüler bir NLP kütüphanesidir. Temel kavramları gerçeklemek için sunduğu hazır fonksiyonları kullanmak oldukça pratiktir.

NLTK kütüphanesinin regex pattern'lerini destekleyen `nltk.regexp_tokenize(text, pattern)` fonksiyonu da kullanılabilir.

In [3]:
import re
import nltk

text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"

pattern = r'''(?x)
[A-Z]\.+
| \w+(?:-\w+)*
| \$?\d+(?:\.\d+)?%?
| \.\.\.
| [][.,;"'?():-_`]
'''

tokens_regex = re.findall(pattern, text)
tokens_nltk = nltk.regexp_tokenize(text, pattern)

print("Tokens Regex :", tokens_regex)
print("\nTokens NLTK :", tokens_nltk)

Tokens Regex : ['Sokrates', ',', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', '.', 'En', 'ünlü', 'sözlerinden', 'biri', 'şöyledir', ':', "'", 'Bilgiğim', 'bir', 'şey', 'var', ',', 'o', 'da', 'hiçbir', 'şey', 'bilmediğimdir', '.', "'"]

Tokens NLTK : ['Sokrates', ',', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', '.', 'En', 'ünlü', 'sözlerinden', 'biri', 'şöyledir', ':', "'", 'Bilgiğim', 'bir', 'şey', 'var', ',', 'o', 'da', 'hiçbir', 'şey', 'bilmediğimdir', '.', "'"]


## 3. NLTK ile Hazır Tokenizasyon

In [4]:
#!pip install nltk

In [5]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.tokenize import sent_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/enes/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

Tokenizasyonu gerçekleştirmek için **punkt** modelini kullancağız. Punkt, dilbilgisel kuralları ve örüntüleri içeren önceden eğitilmiş bir modeldir. Türkçe dili de dahil olmak üzere bir çok dil için tokenizasyon işlemini gerçekleştirebilmektedir.

In [6]:
# Türkçe metin
tr_text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"

In [7]:
# İngilizce metin
en_text = "Socrates is one of the famous philosophers of the ancient era. One of his most famous quotes is: 'The only thing I know is that I know nothing.'"

In [8]:
# Türkçe (word) örnek
tr_tokens = word_tokenize(tr_text)
print(tr_tokens)

['Sokrates', ',', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', '.', 'En', 'ünlü', 'sözlerinden', 'biri', 'şöyledir', ':', "'Bilgiğim", 'bir', 'şey', 'var', ',', 'o', 'da', 'hiçbir', 'şey', 'bilmediğimdir', '.', "'"]


In [9]:
# Türkçe (sentence) örnek
tr_sent_tokens = sent_tokenize(tr_text)
print(tr_sent_tokens)

['Sokrates, antik çağın ünlü filozoflarından biridir.', "En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"]


In [10]:
# İngilizce (word) örnek
en_tokens = word_tokenize(en_text)
print(en_tokens)

['Socrates', 'is', 'one', 'of', 'the', 'famous', 'philosophers', 'of', 'the', 'ancient', 'era', '.', 'One', 'of', 'his', 'most', 'famous', 'quotes', 'is', ':', "'The", 'only', 'thing', 'I', 'know', 'is', 'that', 'I', 'know', 'nothing', '.', "'"]


Yukarıdaki kodların çıktısında görüldüğü üzere noktalama işaretleri ve [stop words]()'ler de token olarak döndürülür. Aşağıdaki fonksiyon ile noktalama işaretleri ve stop words'lerden arındırılmış bir tokenizasyon çıktısı elde edebiliriz.

In [11]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from string import punctuation

def preprocess_corpus(texts):
    mystopwords = set(stopwords.words('turkish'))

    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return [remove_stops_digits(word_tokenize(text)) for text in texts]

text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"
preprocessed_text = preprocess_corpus([text])
print(preprocessed_text)

[['sokrates', 'antik', 'çağın', 'ünlü', 'filozoflarından', 'biridir', 'ünlü', 'sözlerinden', 'şöyledir', "'bilgiğim", 'bir', 'var', 'hiçbir', 'bilmediğimdir']]


In [12]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from string import punctuation

def preprocess_corpus(texts):
    mystopwords = set(stopwords.words("english"))

    def remove_stops_digits(tokens):
        return [token.lower() for token in tokens if token.lower() not in mystopwords and not token.isdigit() and token not in punctuation]
    
    return [remove_stops_digits(word_tokenize(text)) for text in texts]

text = "Socrates is one of the famous philosophers of the ancient era. One of his most famous quotes is: 'The only thing I know is that I know nothing.'"
preprocessed_text = preprocess_corpus([text])
print(preprocessed_text)

[['socrates', 'one', 'famous', 'philosophers', 'ancient', 'era', 'one', 'famous', 'quotes', "'the", 'thing', 'know', 'know', 'nothing']]


### Kaynaklar
- Natural Language Processing with Python (O’Reilly) - Kitap
- Practical Natural Language Processing (O’Reilly) - Kitap

_Lütfen kaynak belirtmeden bu içeriği tamamen veya kısmen kopyalamayın. Görüş, öneri, şikayet ve işbirliği gibi konular için **kolaydilisleme@gmail.com**_