# Stopwords ve Tokenizasyon İşlemleri

Bu dokümanda, metin işleme süreçlerinde sıkça kullanılan stopwords temizleme ve tokenizasyon işlemlerini ele alacağım. Ayrıca, bu işlemlerin neden önemli olduğunu ve nasıl uygulandığını örneklerle açıklayacağım.

## 1. Stopwords Nedir?

Stopwords, metinlerde sıkça geçen ancak tek başına anlam ifade etmeyen kelimelerdir. Örneğin:

Türkçe: "ama", "ve", "bir", "gibi"

İngilizce: "the", "is", "in", "and"

Stopwords'ler, metin analizi sırasında genellikle temizlenir çünkü bu kelimeler analizin odaklanması gereken daha anlamlı kelimeleri gölgeleyebilir.

### 2. NLTK ile Stopwords Temizleme:

NLTK (Natural Language Toolkit), stopwords'leri temizlemek için kullanılan popüler bir Python kütüphanesidir. Aşağıda, Türkçe ve İngilizce metinlerde stopwords temizleme işlemi örnekleri bulunmaktadır.

#### 2.1. NLTK Stopwords İndirme

Öncelikle, NLTK'nin stopwords veri setini indirmemiz gerekiyor:

In [17]:
import nltk
nltk.download('stopwords') 

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
from nltk.corpus import stopwords

# türkçe stopwords listesi
turkce_stopwords = stopwords.words('turkish')
print("Türkçe Stopwords:", turkce_stopwords[:10])  # ilk 10 örnek

Türkçe Stopwords: ['acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'birkaç', 'birşey', 'biz']


In [3]:
# İngilizce stopwords listesi
english_stopwords = stopwords.words('english')
print("İngilizce Stopwords:", english_stopwords[:10])  # İlk 10 örnek

İngilizce Stopwords: ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


### 3. Stopwords Temizleme Fonksiyonu;

Stopwords'leri temizlemek için bir fonksiyon yazalım. Bu fonksiyon, metni tokenlara ayırır ve stopwords'leri kaldırır.

In [19]:
import nltk

# punkt modelini yeniden indir
nltk.download('punkt', force=True)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\LENOVO\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [None]:
from nltk.tokenize import word_tokenize # type: ignore
from nltk.corpus import stopwords

# Stopwords temizleme fonksiyonu
def remove_stopwords_turkish(text):
    stop_words = set(stopwords.words('turkish'))
    words = word_tokenize(text)
    filtered_words = [word for word in words if word.lower() not in stop_words]
    return ' '.join(filtered_words)

# Örnek metin
turkish_text = """At yarışları, binicilik sporunun en popüler dallarından biridir. 
                  Yarış atları, hızları ve çeviklikleri ile ünlüdür. 
                  Bu yarışlar, hem atların hem de binicilerin yeteneklerini sergilediği bir platform sunar. 
                  Ayrıca, at yarışları, tarih boyunca kültürel ve sosyal etkinliklerin bir parçası olmuştur."""

# Stopwords temizleme
filtered_text = remove_stopwords_turkish(turkish_text)
print("Temizlenmiş Metin:", filtered_text)

### 5. Anlamlı İçerik Oranı

Bir metnin ne kadarının anlamlı içerik taşıdığını ölçmek için stopwords'lerin oranını hesaplayabiliriz.

#### 5.1 Türkçe Metin İçin Anlamlı İçerik Oranı:

In [None]:
def content_fraction_turkish(text):
    stop_words = set(stopwords.words('turkish'))
    tokens = word_tokenize(text)
    content = [token for token in tokens if token.lower() not in stop_words]
    return len(content) / len(tokens)

# Örnek metin
turkish_text = "Sokrates, antik çağın ünlü filozoflarından biridir. En ünlü sözlerinden biri şöyledir: 'Bilgiğim bir şey var, o da hiçbir şey bilmediğimdir.'"

# Anlamlı içerik oranı
ratio = content_fraction_turkish(turkish_text)
print("Anlamlı İçerik Oranı:", ratio)

Anlamlı İçerik Oranı: 0.9716312056737588

#### 5.2 İngilizce Metinler İçin Anlamlı İçerik Oranı

In [None]:
def content_fraction_english(text):
    stop_words = set(stopwords.words('english'))
    tokens = word_tokenize(text)
    content = [token for token in tokens if token.lower() not in stop_words]
    return len(content) / len(tokens)

# Örnek metin
english_text = "Socrates is one of the famous philosophers of the ancient era. One of his most famous quotes is: 'The only thing I know is that I know nothing.'"

# Anlamlı içerik oranı
ratio = content_fraction_english(english_text)
print("Anlamlı İçerik Oranı:", ratio)

Anlamlı İçerik Oranı: 0.5902777777777778

### 6. Sonuç

Bu dokümanda, stopwords temizleme ve tokenizasyon işlemlerini NLTK kütüphanesi kullanarak nasıl gerçekleştirebileceğimizi öğrendim. Bu işlemler, metin analizi ve doğal dil işleme süreçlerinde büyük önem taşır. Özellikle büyük veri setlerinde, stopwords'leri temizlemek işlem süresini kısaltır ve analizin kalitesini artırır.

#### Kaynaklar:

https://www.nltk.org 
Natural Language Processing with Python (O’Reilly)

Bu dokümanı Jupyter Notebook olarak kaydedebilir ve GitHub'da paylaşabilirsiniz.  Her bir başlık ve kod bloğu, Jupyter'ın hücre yapısına uygun şekilde düzenlenmiştir.