# Türkçe NLP: StopWords (Durak Kelimeleri)

## StopWords Nedir?

**StopWords (Durak Kelimeleri)**, metinlerde çok sık geçen ancak genellikle anlamsal değeri düşük olan kelimelerdir. Örneğin: "ve", "bir", "bu", "şu", "için", "ile" gibi.

### Neden Kaldırılır?
- **Boyut azaltma**: Veri setinin boyutunu küçültür
- **Gürültü azaltma**: Anlamsal analizi iyileştirir  
- **Performans artışı**: İşlem hızını artırır
- **Odaklanma**: Önemli kelimelere odaklanmayı sağlar

### Ne Zaman Kaldırılmaz?
- Duygu analizi (olumsuzluk ifadeleri önemli)
- Makine çevirisi
- Soru-cevap sistemleri
- Metin özetleme

---


In [22]:
sample_text = """
Bugün hava çok güzel. Ben ve arkadaşlarım parka gittik.
Orada çok eğlendik. Futbol oynadık, koştuk ve çok güldük.
Bu gerçekten harika bir gündü. Yarın da tekrar gideceğiz.
"""

print("Orijinal metin:")
print(sample_text)

Orijinal metin:

Bugün hava çok güzel. Ben ve arkadaşlarım parka gittik.
Orada çok eğlendik. Futbol oynadık, koştuk ve çok güldük.
Bu gerçekten harika bir gündü. Yarın da tekrar gideceğiz.



## python

In [23]:
import re
from collections import Counter

# Türkçe stopwords listesi (manuel)
turkish_stopwords = {
    've', 'bir', 'bu', 'şu', 'o', 'ben', 'sen', 'biz', 'siz', 'onlar',
    'için', 'ile', 'da', 'de', 'ta', 'te', 'den', 'dan', 'ten', 'tan',
    'nin', 'nın', 'nun', 'nün', 'in', 'ın', 'un', 'ün',
    'ya', 'ye', 'na', 'ne', 'a', 'e', 'ı', 'i', 'u', 'ü', 'o', 'ö',
    'çok', 'daha', 'en', 'hem', 'hiç', 'her', 'hangi', 'kendi',
    'sonra', 'önce', 'şimdi', 'bugün', 'yarın', 'dün',
    'ama', 'fakat', 'ancak', 'lakin', 'ki', 'eğer', 'ise',
    'gibi', 'kadar', 'göre', 'doğru', 'karşı', 'rağmen',
    'mi', 'mı', 'mu', 'mü', 'midir', 'mıdır', 'mudur', 'müdür'
}

def remove_stopwords_python(text, stopwords):
    """Python ile stopwords kaldırma"""
    # Metni kelimelere ayır
    words = re.findall(r'\w+', text.lower(), re.UNICODE)
    
    # Stopwords'leri kaldır
    filtered_words = [word for word in words if word not in stopwords]
    
    return filtered_words, words

# Test et
filtered_python, original_words = remove_stopwords_python(sample_text, turkish_stopwords)

print("PYTHON STOPWORDS KALDIRMA:")
print("="*50)
print(f"Orijinal kelime sayısı: {len(original_words)}")
print(f"Filtrelenmiş kelime sayısı: {len(filtered_python)}")
print(f"Kaldırılan kelime sayısı: {len(original_words) - len(filtered_python)}")

print(f"\nOrijinal kelimeler: {original_words}")
print(f"\nFiltrelenmiş kelimeler: {filtered_python}")

# Kaldırılan kelimeleri göster
removed_words = [word for word in original_words if word in turkish_stopwords]
print(f"\nKaldırılan stopwords: {list(set(removed_words))}")

PYTHON STOPWORDS KALDIRMA:
Orijinal kelime sayısı: 27
Filtrelenmiş kelime sayısı: 16
Kaldırılan kelime sayısı: 11

Orijinal kelimeler: ['bugün', 'hava', 'çok', 'güzel', 'ben', 've', 'arkadaşlarım', 'parka', 'gittik', 'orada', 'çok', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 've', 'çok', 'güldük', 'bu', 'gerçekten', 'harika', 'bir', 'gündü', 'yarın', 'da', 'tekrar', 'gideceğiz']

Filtrelenmiş kelimeler: ['hava', 'güzel', 'arkadaşlarım', 'parka', 'gittik', 'orada', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 'güldük', 'gerçekten', 'harika', 'gündü', 'tekrar', 'gideceğiz']

Kaldırılan stopwords: ['bugün', 'bir', 'bu', 'yarın', 'çok', 've', 'da', 'ben']


2. Zeyrek ile StopWords

In [24]:
import re

try:
    import zeyrek
    analyzer = zeyrek.MorphAnalyzer()
    zeyrek_available = True
except ImportError:
    print("Zeyrek kurulu değil.")
    zeyrek_available = False

def remove_stopwords_zeyrek(text, stopwords):
    if not zeyrek_available:
        return []
    words = re.findall(r'\w+', text.lower(), re.UNICODE)
    filtered_words = []
    for word in words:
        analyses = analyzer.analyze(word)
        # Analiz sonucu ve lemma listesi var mı kontrolü
        if analyses and len(analyses) > 0 and len(analyses[0]) > 1 and analyses[0][1]:
            lemma = analyses[0][1][0]
        else:
            lemma = word
        if lemma not in stopwords:
            filtered_words.append(word)
    return filtered_words

# Örnek metin ve stopwords listesi yukarıda tanımlı olmalı
if zeyrek_available:
    filtered_zeyrek = remove_stopwords_zeyrek(sample_text, turkish_stopwords)
    print("Zeyrek ile stopwords kaldırılmış kelimeler:")
    print(filtered_zeyrek)

APPENDING RESULT: <(bugün_Adv)(-)(bugün:advRoot_ST)>
APPENDING RESULT: <(bugün_Noun_Time)(-)(bugün:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(hava_Adj)(-)(hava:adjectiveRoot_ST)>
APPENDING RESULT: <(hav_Noun)(-)(hav:noun_S + a3sg_S + pnon_S + a:dat_ST)>
APPENDING RESULT: <(hava_Noun)(-)(hava:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(çok_Adj)(-)(çok:adjectiveRoot_ST)>
APPENDING RESULT: <(çok_Det)(-)(çok:detRoot_ST)>
APPENDING RESULT: <(çok_Adv)(-)(çok:advRoot_ST)>
APPENDING RESULT: <(çok_Postp_PCAbl)(-)(çok:postpRoot_ST)>
APPENDING RESULT: <(güzel_Adv)(-)(güzel:advRoot_ST)>
APPENDING RESULT: <(güzel_Adj)(-)(güzel:adjectiveRoot_ST)>
APPENDING RESULT: <(güzel_Noun)(-)(güzel:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(ben_Noun)(-)(ben:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(ben_Pron_Pers)(-)(ben:pronPers_S + pA1sg_S + pPnon_S + pNom_ST)>
APPENDING RESULT: <(ve_Conj)(-)(ve:conjRoot_ST)>
APPENDING RESULT: <(arkadaş_Noun)(-)(arkadaş:noun_

Zeyrek ile stopwords kaldırılmış kelimeler:
['hava', 'güzel', 'arkadaşlarım', 'parka', 'gittik', 'orada', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 'güldük', 'gerçekten', 'harika', 'gündü', 'tekrar', 'gideceğiz']


3. TRNLP ile StopWords

In [25]:
import re

try:
    from trnlp import TrnlpWord
    trnlp_available = True
except ImportError:
    print("TRNLP kurulu değil.")
    trnlp_available = False

def remove_stopwords_trnlp(text, stopwords):
    if not trnlp_available:
        return []
    words = re.findall(r'\w+', text.lower(), re.UNICODE)
    filtered_words = []
    for word in words:
        try:
            tr_word = TrnlpWord()
            tr_word.setword(word)
            # Bazı sürümlerde lemma, bazı sürümlerde lemmas olabilir
            lemma = getattr(tr_word, "lemma", None) or getattr(tr_word, "lemmas", None)
            # lemma bazen None, bazen boş string, bazen liste olabilir
            if isinstance(lemma, list):
                lemma = lemma[0] if lemma else word
            elif not lemma:
                lemma = word
        except Exception as e:
            lemma = word
        if lemma not in stopwords:
            filtered_words.append(word)
    return filtered_words

# Örnek metin ve stopwords listesi yukarıda tanımlı olmalı
if trnlp_available:
    filtered_trnlp = remove_stopwords_trnlp(sample_text, turkish_stopwords)
    print("TRNLP ile stopwords kaldırılmış kelimeler:")
    print(filtered_trnlp)

TRNLP ile stopwords kaldırılmış kelimeler:
['hava', 'güzel', 'arkadaşlarım', 'parka', 'gittik', 'orada', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 'güldük', 'gerçekten', 'harika', 'gündü', 'tekrar', 'gideceğiz']


4. spaCy ile StopWords

In [26]:
# spaCy ile stopwords
try:
    import spacy
    nlp = spacy.load("tr_core_news_md")
    spacy_available = True
    print("✅ spaCy ve Türkçe modeli kurulu")
except:
    print("❌ spaCy veya Türkçe modeli kurulu değil")
    spacy_available = False

def remove_stopwords_spacy(text):
    """spaCy ile stopwords kaldırma (kendi stopwords listesi)"""
    if not spacy_available:
        return [], []
    
    doc = nlp(text.lower())
    
    filtered_words = []
    analysis_info = []
    
    for token in doc:
        if token.is_alpha:  # Sadece alfabetik karakterler
            if not token.is_stop:  # spaCy'nin stopword listesi
                filtered_words.append(token.text)
                analysis_info.append(f"{token.text} → {token.lemma_} (POS: {token.pos_})")
            else:
                analysis_info.append(f"{token.text} → {token.lemma_} (STOPWORD)")
    
    return filtered_words, analysis_info

if spacy_available:
    filtered_spacy, spacy_analysis = remove_stopwords_spacy(sample_text)
    
    print("\n\nSPACY STOPWORDS KALDIRMA:")
    print("="*50)
    print(f"Filtrelenmiş kelime sayısı: {len(filtered_spacy)}")
    print(f"Filtrelenmiş kelimeler: {filtered_spacy}")
    
    print(f"\nAnaliz detayları:")
    for analysis in spacy_analysis:
        print(f"  {analysis}")
else:
    print("\nspaCy kurulu olmadığı için test edilemiyor.")

✅ spaCy ve Türkçe modeli kurulu


SPACY STOPWORDS KALDIRMA:
Filtrelenmiş kelime sayısı: 18
Filtrelenmiş kelimeler: ['bugün', 'hava', 'güzel', 'arkadaşlarım', 'parka', 'gittik', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 'güldük', 'gerçekten', 'harika', 'bir', 'gündü', 'yarın', 'tekrar', 'gideceğiz']

Analiz detayları:
  bugün → bugün (POS: NOUN)
  hava → hava (POS: NOUN)
  çok → çok (STOPWORD)
  güzel → güzel (POS: ADJ)
  ben → ben (STOPWORD)
  ve → ve (STOPWORD)
  arkadaşlarım → arkadaş (POS: NOUN)
  parka → park (POS: NOUN)
  gittik → git (POS: VERB)
  orada → ora (STOPWORD)
  çok → çok (STOPWORD)
  eğlendik → eğlen (POS: VERB)
  futbol → futbol (POS: NOUN)
  oynadık → oyna (POS: VERB)
  koştuk → koştuk (POS: VERB)
  ve → ve (STOPWORD)
  çok → çok (STOPWORD)
  güldük → güldük (POS: VERB)
  bu → bu (STOPWORD)
  gerçekten → gerçekten (POS: ADV)
  harika → harika (POS: ADJ)
  bir → bir (POS: DET)
  gündü → gündü (POS: NOUN)
  yarın → yarın (POS: NOUN)
  da → da (STOPWORD)
  tekrar → tek

5. NLTK ile StopWords

In [27]:
# NLTK ile stopwords
try:
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    
    # Türkçe stopwords'leri indir
    try:
        turkish_stopwords_nltk = set(stopwords.words('turkish'))
        nltk_available = True
        print("✅ NLTK ve Türkçe stopwords kurulu")
    except:
        try:
            nltk.download('stopwords', quiet=True)
            nltk.download('punkt', quiet=True)
            turkish_stopwords_nltk = set(stopwords.words('turkish'))
            nltk_available = True
            print("✅ NLTK stopwords indirildi")
        except:
            nltk_available = False
            print("❌ NLTK stopwords indirilemedi")
            
except ImportError:
    print("❌ NLTK kurulu değil")
    nltk_available = False

def remove_stopwords_nltk(text):
    """NLTK ile stopwords kaldırma"""
    if not nltk_available:
        return [], []
    
    # Tokenize et
    tokens = word_tokenize(text.lower(), language='turkish')
    
    # Sadece alfabetik karakterleri al
    words = [word for word in tokens if word.isalpha()]
    
    # Stopwords'leri kaldır
    filtered_words = [word for word in words if word not in turkish_stopwords_nltk]
    
    return filtered_words, words

if nltk_available:
    filtered_nltk, original_nltk = remove_stopwords_nltk(sample_text)
    
    print("\n\nNLTK STOPWORDS KALDIRMA:")
    print("="*50)
    print(f"Orijinal kelime sayısı: {len(original_nltk)}")
    print(f"Filtrelenmiş kelime sayısı: {len(filtered_nltk)}")
    print(f"Filtrelenmiş kelimeler: {filtered_nltk}")
    
    # NLTK'nın Türkçe stopwords listesini göster
    print(f"\nNLTK Türkçe stopwords (ilk 20): {list(turkish_stopwords_nltk)[:20]}")
    print(f"Toplam NLTK stopwords sayısı: {len(turkish_stopwords_nltk)}")
else:
    print("\nNLTK kurulu olmadığı için test edilemiyor.")

✅ NLTK ve Türkçe stopwords kurulu


NLTK STOPWORDS KALDIRMA:
Orijinal kelime sayısı: 27
Filtrelenmiş kelime sayısı: 20
Filtrelenmiş kelimeler: ['bugün', 'hava', 'güzel', 'ben', 'arkadaşlarım', 'parka', 'gittik', 'orada', 'eğlendik', 'futbol', 'oynadık', 'koştuk', 'güldük', 'gerçekten', 'harika', 'bir', 'gündü', 'yarın', 'tekrar', 'gideceğiz']

NLTK Türkçe stopwords (ilk 20): ['hiç', 'ile', 'şu', 'bu', 'hep', 'nasıl', 'yani', 'neden', 'için', 'ya', 'en', 'hem', 'ki', 'veya', 'çünkü', 'biri', 'daha', 'ise', 'az', 'mı']
Toplam NLTK stopwords sayısı: 53


Sonuçları Karşılaştır

In [28]:
# Tüm sonuçları karşılaştır
print("\n\nSTOPWORDS KALDIRMA SONUÇLARI KARŞILAŞTIRMA:")
print("="*60)

results = {
    'Python (Manuel)': len(filtered_python) if 'filtered_python' in locals() else 0,
    'Zeyrek': len(filtered_zeyrek) if 'filtered_zeyrek' in locals() and zeyrek_available else 0,
    'TRNLP': len(filtered_trnlp) if 'filtered_trnlp' in locals() and trnlp_available else 0,
    'spaCy': len(filtered_spacy) if 'filtered_spacy' in locals() and spacy_available else 0,
    'NLTK': len(filtered_nltk) if 'filtered_nltk' in locals() and nltk_available else 0
}

for method, count in results.items():
    print(f"{method:<20}: {count} kelime")

# En etkili yöntemi bul
if any(results.values()):
    best_method = min(results.items(), key=lambda x: x[1] if x[1] > 0 else float('inf'))
    print(f"\nEn fazla stopword kaldıran: {best_method[0]} ({best_method[1]} kelime kaldı)")



STOPWORDS KALDIRMA SONUÇLARI KARŞILAŞTIRMA:
Python (Manuel)     : 16 kelime
Zeyrek              : 16 kelime
TRNLP               : 16 kelime
spaCy               : 18 kelime
NLTK                : 20 kelime

En fazla stopword kaldıran: Python (Manuel) (16 kelime kaldı)


Özel Türkçe StopWords Listesi Oluşturma

In [29]:
# Metin korpusundan otomatik stopwords çıkarma
def create_custom_stopwords(texts, min_frequency=0.7):
    """Korpustaki metinlerin %70'inde geçen kelimeleri stopword yap"""
    from collections import defaultdict
    
    word_doc_count = defaultdict(int)
    total_docs = len(texts)
    
    for text in texts:
        words = set(re.findall(r'\w+', text.lower(), re.UNICODE))
        for word in words:
            word_doc_count[word] += 1
    
    # Minimum frekansı geçen kelimeleri stopword yap
    custom_stopwords = {
        word for word, count in word_doc_count.items() 
        if count / total_docs >= min_frequency
    }
    
    return custom_stopwords

# Örnek korpus
sample_corpus = [
    "Bu kitap çok güzel bir kitap",
    "Bu film gerçekten çok iyi bir film", 
    "Bu restoran çok lezzetli bir restoran",
    "Bu şarkı çok güzel bir şarkı"
]

custom_stops = create_custom_stopwords(sample_corpus, min_frequency=0.75)
print(f"\nÖzel stopwords listesi: {custom_stops}")

# Test et
test_text = "Bu araba çok hızlı bir araba"
words = re.findall(r'\w+', test_text.lower(), re.UNICODE)
filtered_custom = [word for word in words if word not in custom_stops]

print(f"Orijinal: {words}")
print(f"Özel stopwords ile filtrelenmiş: {filtered_custom}")


Özel stopwords listesi: {'çok', 'bu', 'bir'}
Orijinal: ['bu', 'araba', 'çok', 'hızlı', 'bir', 'araba']
Özel stopwords ile filtrelenmiş: ['araba', 'hızlı', 'araba']



## Pratik Öneriler

### 🎯 Hangi Yöntemi Seçmeli?

1. **Hızlı ve basit**: Python manuel liste
2. **En doğru**: Zeyrek (morfolojik analiz ile)
3. **Türkçe'ye özel**: TRNLP
4. **Endüstriyel**: spaCy
5. **Akademik**: NLTK

### ⚡ Performans İpuçları:
- Büyük metinler için manuel liste kullan
- Doğruluk önemliyse morfolojik analiz yap
- Domain-specific stopwords ekle
- Çok kısa kelimeleri (1-2 harf) otomatik kaldır

### 🔧 Özelleştirme:
- Kendi domain'inize özel stopwords ekleyin
- Frekans bazlı otomatik stopwords oluşturun
- Farklı görevler için farklı listeler kullanın