# Veri Temizleme
1. Boşlukların Temizlenmesi
2. Büyük küçük harf dönüşümü
3. Noktalama işaretlerinin kaldırılması
4. Özel Karakterlerin Kaldırılması
5. Yazım hatalarının düzeltilmesi
6. HTML ve URL temizleme

In [3]:
# Örnek metin - Türkçe veri temizleme için test metni
sample_text = """   Merhaba DÜNYA!!! Bu bir test metnidir... 
Web sitesi: https://www.example.com 
E-posta: test@email.com
HTML: <p>Bu bir paragraf</p>
Özel karakterler: @#$%^&*()
Yazım hatası: mrhaba, dnya, kitaplarında   """
print("ORİJİNAL METİN:")
print(repr(sample_text))
print("\n" + "="*80 + "\n")

ORİJİNAL METİN:
'   Merhaba DÜNYA!!! Bu bir test metnidir... \nWeb sitesi: https://www.example.com \nE-posta: test@email.com\nHTML: <p>Bu bir paragraf</p>\nÖzel karakterler: @#$%^&*()\nYazım hatası: mrhaba, dnya, kitaplarında   '




## Python 

In [4]:
import re
import string 
import html

def python_clean_text(text):
    """Python standart kütüphaneleri ile metin temizleme"""
    # 1. Boşlukların temizlenmesi
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)  # Çoklu boşlukları tek boşluğa çevir
    
    # 2. Büyük küçük harf dönüşümü
    text = text.lower()
    
    # 3. HTML temizleme
    text = html.unescape(text)  # HTML entities
    text = re.sub(r'<[^>]+>', '', text)  # HTML tags
    
    # 4. URL temizleme
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'www\.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    
    # 5. E-posta temizleme
    text = re.sub(r'\S+@\S+', '', text)
    
    # 6. Noktalama işaretlerinin kaldırılması
    text = text.translate(str.maketrans('', '', string.punctuation))
    
    # 7. Özel karakterlerin kaldırılması
    text = re.sub(r'[^\w\s]', '', text)
    
    # 8. Sayıların kaldırılması (isteğe bağlı)
    text = re.sub(r'\d+', '', text)
    
    # 9. Fazla boşlukları temizle
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text


# Yazım hatası düzeltme için basit bir sözlük
spelling_corrections = {
    'mrhaba': 'merhaba',
    'dnya': 'dünya',
    'kitaplarında': 'kitap'
}

def correct_spelling_python(text):
    """Basit yazım hatası düzeltme"""
    words = text.split()
    corrected_words = []
    for word in words:
        if word in spelling_corrections:
            corrected_words.append(spelling_corrections[word])
        else:
            corrected_words.append(word)
    return ' '.join(corrected_words)
python_result = python_clean_text(sample_text)
print("Python Temizleme Sonucu:")
print(python_result)

python_corrected = correct_spelling_python(python_result)
print("\nYazım Düzeltmeli:")
print(python_corrected)

Python Temizleme Sonucu:
merhaba dünya bu bir test metnidir web sitesi eposta html bu bir paragraf özel karakterler yazım hatası mrhaba dnya kitaplarında

Yazım Düzeltmeli:
merhaba dünya bu bir test metnidir web sitesi eposta html bu bir paragraf özel karakterler yazım hatası merhaba dünya kitap


## Zeyrek

In [5]:
# Zeyrek kurulumu: pip install zeyrek
try:
    import zeyrek
    zeyrek_available = True
except ImportError:
    print("Zeyrek kurulu değil. Kurulum: pip install zeyrek")
    zeyrek_available = False
def zeyrek_clean_text(text):
    """Zeyrek ile metin temizleme ve morfolojik analiz"""
    if not zeyrek_available:
        return "Zeyrek kurulu değil!"
    
    # Temel temizleme (Python ile aynı)
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)
    text = text.lower()
    text = html.unescape(text)
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'www\.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'\S+@\S+', '', text)
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    
    # Zeyrek ile morfolojik analiz ve lemmatizasyon
    analyzer = zeyrek.MorphAnalyzer()
    words = text.split()
    lemmatized_words = []
    
    for word in words:
        if word.strip():
            try:
                analyses = analyzer.analyze(word)
                if analyses:
                    # İlk analizin lemmasını al
                    lemma = analyses[0][1][0]  # [0] = ilk analiz, [1] = lemma listesi, [0] = ilk lemma
                    lemmatized_words.append(lemma)
                else:
                    lemmatized_words.append(word)
            except:
                lemmatized_words.append(word)
    
    return ' '.join(lemmatized_words)

# Test et
if zeyrek_available:
    zeyrek_result = zeyrek_clean_text(sample_text)
    print("Zeyrek Temizleme Sonucu:")
    print(zeyrek_result)
else:
    print("Zeyrek örnek kodu (kurulum gerekli):")
    print("zeyrek_result = zeyrek_clean_text(sample_text)")

APPENDING RESULT: <(merhaba_Interj)(-)(merhaba:interjRoot_ST)>
APPENDING RESULT: <(merhaba_Noun)(-)(merhaba:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(Dünya_Noun_Prop)(-)(dünya:nounProper_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(dünya_Noun)(-)(dünya:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(bu_Det)(-)(bu:detRoot_ST)>
APPENDING RESULT: <(bu_Pron_Demons)(-)(bu:pronDemons_S + pA3sg_S + pPnon_S + pNom_ST)>
APPENDING RESULT: <(bir_Det)(-)(bir:detRoot_ST)>
APPENDING RESULT: <(bir_Adj)(-)(bir:adjectiveRoot_ST)>
APPENDING RESULT: <(bir_Adv)(-)(bir:advRoot_ST)>
APPENDING RESULT: <(bir_Num_Card)(-)(bir:numeralRoot_ST)>
APPENDING RESULT: <(test_Noun)(-)(test:noun_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(metin_Noun)(-)(metn:noun_S + a3sg_S + i:p3sg_S + nom_ST + nounZeroDeriv_S + nVerb_S + nPresent_S + nA3sg_S + dir:nCop_ST)>
APPENDING RESULT: <(Web_Noun_Abbrv)(-)(web:nounAbbrv_S + a3sg_S + pnon_S + nom_ST)>
APPENDING RESULT: <(site_Noun)(-)(site:noun_

Zeyrek Temizleme Sonucu:
merhaba dünya bu bir test metnidir web sitesi eposta html bu bir paragraf özel karakterler yazım hatası mrhaba dnya kitaplarında


## TRNLP

In [6]:
try:
    from trnlp import TrnlpWord
    trnlp_available = True
except ImportError:
    print("TRNLP kurulu değil. Kurulum: pip install trnlp")
    trnlp_available = False

def trnlp_clean_text(text):
    """TRNLP ile metin temizleme ve kök bulma"""
    if not trnlp_available:
        return "TRNLP kurulu değil!"
    
    # Temel temizleme
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)
    text = text.lower()
    text = html.unescape(text)
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'www\.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'\S+@\S+', '', text)
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    
    # TRNLP ile kök bulma ve lemmatizasyon
    words = text.split()
    processed_words = []
    
    for word in words:
        if word.strip():
            try:
                trnlp_word = TrnlpWord()
                trnlp_word.setword(word)
                
                # Kök bulma
                stem = trnlp_word.get_stem
                if stem and stem != word:
                    processed_words.append(stem)
                else:
                    # Lemma bulma
                    lemma = trnlp_word.get_lemma
                    if lemma:
                        processed_words.append(lemma)
                    else:
                        processed_words.append(word)
            except:
                processed_words.append(word)
    
    return ' '.join(processed_words)

# Test et
if trnlp_available:
    trnlp_result = trnlp_clean_text(sample_text)
    print("TRNLP Temizleme Sonucu:")
    print(trnlp_result)
else:
    print("TRNLP örnek kodu (kurulum gerekli):")
    print("trnlp_result = trnlp_clean_text(sample_text)")

TRNLP Temizleme Sonucu:
merhaba dünya bu bir test metin web site eposta html bu bir paragraf özel karakter yazım hata mrhaba dnya kitap


## spaCy

* https://huggingface.co/turkish-nlp-suite
* https://huggingface.co/turkish-nlp-suite/tr_core_news_md/blob/main/tr_core_news_md-1.0-py3-none-any.whl
* https://huggingface.co/turkish-nlp-suite/tr_core_news_lg/blob/main/tr_core_news_lg-1.0-py3-none-any.whl
* https://huggingface.co/turkish-nlp-suite/tr_core_news_trf/blob/main/tr_core_news_trf-1.0-py3-none-any.whl
* https://github.com/turkish-nlp-suite/turkish-spacy-models

In [7]:
# spaCy kurulumu: pip install spacy && python -m spacy download tr_core_news_sm
try:
    import spacy
    spacy_available = True
    try:
        nlp = spacy.load("tr_core_news_md")
        turkish_model_available = True
    except OSError:
        turkish_model_available = False
        print("Türkçe spaCy modeli bulunamadı. Kurulum: python -m spacy download tr_core_news_sm")
except ImportError:
    print("spaCy kurulu değil. Kurulum: pip install spacy")
    spacy_available = False
    turkish_model_available = False

def spacy_clean_text(text):
    """spaCy ile metin temizleme ve lemmatizasyon"""
    if not spacy_available:
        return "spaCy kurulu değil!"
    
    if not turkish_model_available:
        return "Türkçe spaCy modeli kurulu değil!"
    
    # Temel temizleme
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)
    text = text.lower()
    text = html.unescape(text)
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'www\.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'\S+@\S+', '', text)
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    
    # spaCy ile işleme
    doc = nlp(text)
    
    # Lemmatizasyon ve stopword kaldırma
    processed_words = []
    for token in doc:
        if not token.is_stop and not token.is_punct and not token.is_space and len(token.text) > 1:
            # Lemma varsa lemma, yoksa orijinal kelime
            lemma = token.lemma_ if token.lemma_ != "-PRON-" else token.text
            processed_words.append(lemma)
    
    return ' '.join(processed_words)

# Test et
if spacy_available and turkish_model_available:
    spacy_result = spacy_clean_text(sample_text)
    print("spaCy Temizleme Sonucu:")
    print(spacy_result)
else:
    print("spaCy örnek kodu (kurulum gerekli):")
    print("spacy_result = spacy_clean_text(sample_text)")

spaCy Temizleme Sonucu:
merhaba Dünya bir test metnidir web site eposta html bir paragraf özel karakter yazım hata mrhaba dnya kitap


## NLTK


In [8]:
# NLTK kurulumu: pip install nltk
try:
    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    nltk_available = True
    
    # Gerekli NLTK verilerini indir (ilk kullanımda)
    try:
        nltk.data.find('tokenizers/punkt')
        nltk.data.find('corpora/stopwords')
        nltk_data_available = True
    except LookupError:
        print("NLTK verileri indiriliyor...")
        try:
            nltk.download('punkt', quiet=True)
            nltk.download('stopwords', quiet=True)
            nltk_data_available = True
        except:
            nltk_data_available = False
            print("NLTK verileri indirilemedi.")
            
except ImportError:
    print("NLTK kurulu değil. Kurulum: pip install nltk")
    nltk_available = False
    nltk_data_available = False

def nltk_clean_text(text):
    """NLTK ile metin temizleme ve tokenizasyon"""
    if not nltk_available:
        return "NLTK kurulu değil!"
    
    if not nltk_data_available:
        return "NLTK verileri eksik!"
    
    # Temel temizleme
    text = text.strip()
    text = re.sub(r'\s+', ' ', text)
    text = text.lower()
    text = html.unescape(text)
    text = re.sub(r'<[^>]+>', '', text)
    text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'www\.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)
    text = re.sub(r'\S+@\S+', '', text)
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    
    # NLTK ile tokenizasyon ve stopword kaldırma
    try:
        # Tokenizasyon
        tokens = word_tokenize(text, language='turkish')
        
        # Türkçe stopwords
        try:
            turkish_stopwords = set(stopwords.words('turkish'))
        except:
            # Eğer Türkçe stopwords yoksa, temel bir liste kullan
            turkish_stopwords = {'ve', 'bir', 'bu', 'da', 'de', 'ile', 'için', 'olan', 'var', 'yok', 'bu', 'şu', 'o'}
        
        # Stopword kaldırma ve filtreleme
        filtered_tokens = [token for token in tokens 
                          if token not in turkish_stopwords and len(token) > 1]
        
        return ' '.join(filtered_tokens)
    except:
        return text

# Test et
if nltk_available and nltk_data_available:
    nltk_result = nltk_clean_text(sample_text)
    print("NLTK Temizleme Sonucu:")
    print(nltk_result)
else:
    print("NLTK örnek kodu (kurulum gerekli):")
    print("nltk_result = nltk_clean_text(sample_text)")

NLTK Temizleme Sonucu:
merhaba dünya bir test metnidir web sitesi eposta html bir paragraf özel karakterler yazım hatası mrhaba dnya kitaplarında


In [9]:
import pandas as pd

# Sonuçları karşılaştır
results = {
    'Kütüphane': ['Python', 'Zeyrek', 'TRNLP', 'spaCy', 'NLTK'],
    'Sonuç': [
        python_corrected if 'python_corrected' in locals() else 'Çalıştırılmadı',
        zeyrek_result if 'zeyrek_result' in locals() else 'Kurulum gerekli',
        trnlp_result if 'trnlp_result' in locals() else 'Kurulum gerekli',
        spacy_result if 'spacy_result' in locals() else 'Kurulum gerekli',
        nltk_result if 'nltk_result' in locals() else 'Kurulum gerekli'
    ]
}

df_results = pd.DataFrame(results)
print("SONUÇLAR TABLOSU:")
print("="*80)
for index, row in df_results.iterrows():
    print(f"{row['Kütüphane']:<12}: {row['Sonuç']}")
    print("-"*80)

SONUÇLAR TABLOSU:
Python      : merhaba dünya bu bir test metnidir web sitesi eposta html bu bir paragraf özel karakterler yazım hatası merhaba dünya kitap
--------------------------------------------------------------------------------
Zeyrek      : merhaba dünya bu bir test metnidir web sitesi eposta html bu bir paragraf özel karakterler yazım hatası mrhaba dnya kitaplarında
--------------------------------------------------------------------------------
TRNLP       : merhaba dünya bu bir test metin web site eposta html bu bir paragraf özel karakter yazım hata mrhaba dnya kitap
--------------------------------------------------------------------------------
spaCy       : merhaba Dünya bir test metnidir web site eposta html bir paragraf özel karakter yazım hata mrhaba dnya kitap
--------------------------------------------------------------------------------
NLTK        : merhaba dünya bir test metnidir web sitesi eposta html bir paragraf özel karakterler yazım hatası mrhaba dnya kita