<h1 style="color:#2d8659;">🧹 Metin Temizleme: <b>From Zero to Hero</b></h1>

<div style="background:#e6f7ff; border-left:6px solid #1890ff; padding:12px; margin-bottom:10px;">
<b>Doğal Dil İşleme (NLP)</b> projelerinde, <b>ham metin verisi</b> çoğunlukla analiz için uygun değildir.<br>
<b style='color:#d46b08;'>Metin temizleme (text cleaning)</b> adımı kritik öneme sahiptir.
</div>

<details>
<summary><b>📚 İçindekiler</b></summary>
<ul>
<li>1. Fazla Boşlukları Kaldırma</li>
<li>2. Büyük/Küçük Harf Dönüşümü</li>
<li>3. Noktalama İşaretlerini Kaldırma</li>
<li>4. Özel Karakterleri Temizleme</li>
<li>5. Sayılardan Arındırma</li>
<li>6. Yazım Hatalarını Düzeltme</li>
<li>7. HTML ve URL Temizliği</li>
<li>8. Emojileri ve Unicode Karakterleri Temizleme</li>
<li>9. Stopword (Anlamsız Kelime) Temizliği</li>
<li>10. Kök Bulma (Stemming) ve Lemmatizasyon</li>
<li>11. Birleştirilmiş Temizleme Fonksiyonu</li>
<li>12. Gerçek Hayattan 5 Zengin Temizleme Örneği</li>
</ul>
</details>

<div style="background:#fffbe6; border-left:6px solid #faad14; padding:12px; margin-bottom:10px;">
<b>💡 Flashcard:</b> <span style="color:#d4380d;">Metin temizleme, NLP projelerinde başarı için <b>olmazsa olmaz</b> ilk adımdır!</span>
</div>

<h2 id="fazla-bosluk" style="color:#096dd9;">1️⃣ Fazla Boşlukları Kaldırma</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Fazla boşluk, tab veya satır sonu karakterleri veri tutarlılığını bozar.

<div style="background:#f6ffed; border-left:6px solid #52c41a; padding:10px;">
<b>İpucu:</b> <code>split()</code> ve <code>join()</code> ile kolayca fazla boşlukları kaldırabilirsiniz.
</div>

In [1]:
# Fazla boşluk, tab ve satır sonlarını tek boşluğa indirgeme
text = "Hello,     World!\t\nThis   is\ta   test.   "
cleaned_text = " ".join(text.split())
print(f"Orijinal: {repr(text)}\nTemizlenmiş: {repr(cleaned_text)}")

Orijinal: 'Hello,     World!\t\nThis   is\ta   test.   '
Temizlenmiş: 'Hello, World! This is a test.'


<h2 id="buyuk-kucuk" style="color:#096dd9;">2️⃣ Büyük/Küçük Harf Dönüşümü</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> <b>Büyük/küçük harf</b> farklılıkları, kelime analizlerinde tutarsızlığa yol açar.

<div style="background:#e6f7ff; border-left:6px solid #1890ff; padding:10px;">
<b>Flashcard:</b> <span style="color:#0050b3;">Tüm metni <b>küçük harfe</b> çevirerek analizde standardizasyon sağlanır.</span>
</div>

In [2]:
text = "Python is GREAT. python is great!"
cleaned_text = text.lower()
print(f"Orijinal: {text}\nTemizlenmiş: {cleaned_text}")

Orijinal: Python is GREAT. python is great!
Temizlenmiş: python is great. python is great!


<h2 id="noktalama" style="color:#096dd9;">3️⃣ Noktalama İşaretlerini Kaldırma</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Noktalama işaretleri çoğu NLP uygulamasında gereksizdir.

<div style="background:#fffbe6; border-left:6px solid #faad14; padding:10px;">
<b>⚠️ Dikkat:</b> Duygu analizi gibi bazı uygulamalarda noktalama önemli olabilir.
</div>

In [3]:
import string
text = "Merhaba! NLP, Python'da çok kolay; değil mi? Evet: kolay..."
cleaned_text = text.translate(str.maketrans('', '', string.punctuation))
print(f"Orijinal: {text}\nTemizlenmiş: {cleaned_text}")

Orijinal: Merhaba! NLP, Python'da çok kolay; değil mi? Evet: kolay...
Temizlenmiş: Merhaba NLP Pythonda çok kolay değil mi Evet kolay


<h2 id="ozel-karakter" style="color:#096dd9;">4️⃣ Özel Karakterleri Temizleme</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> @, %, #, $, ^, &, *, / gibi karakterler analizde gürültü oluşturur.

<div style="background:#f6ffed; border-left:6px solid #52c41a; padding:10px;">
<b>Flashcard:</b> <span style="color:#237804;">Regex ile özel karakterleri kolayca temizleyebilirsiniz.</span>
</div>

In [4]:
import re
text = "@cemal: NLP %100 #harika! $1000 kazandım & çok mutluyum :)"
cleaned_text = re.sub(r"[^A-Za-z0-9ğüşöçıİĞÜŞÖÇ\s]", "", text)
print(f"Orijinal: {text}\nTemizlenmiş: {cleaned_text}")

Orijinal: @cemal: NLP %100 #harika! $1000 kazandım & çok mutluyum :)
Temizlenmiş: cemal NLP 100 harika 1000 kazandım  çok mutluyum 


<h2 id="sayi" style="color:#096dd9;">5️⃣ Sayılardan Arındırma</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Sayılar bazı analizlerde gereksizdir, bazı durumlarda ise anlamlıdır.

<div style="background:#fffbe6; border-left:6px solid #faad14; padding:10px;">
<b>⚠️ Dikkat:</b> Finansal veya tarihsel analizlerde sayıları silmeyin!
</div>

In [5]:
text = "2025 yılında, 100 öğrenciden 95'i Python öğreniyor!"
cleaned_text = re.sub(r"\d+", "", text)
print(f"Orijinal: {text}\nTemizlenmiş: {cleaned_text}")

Orijinal: 2025 yılında, 100 öğrenciden 95'i Python öğreniyor!
Temizlenmiş:  yılında,  öğrenciden 'i Python öğreniyor!


<h2 id="yazim-hatasi" style="color:#096dd9;">6️⃣ Yazım Hatalarını Düzeltme</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Yazım hataları, kelime analizlerinde anlam kaybına yol açar.

<div style="background:#e6f7ff; border-left:6px solid #1890ff; padding:10px;">
<b>Flashcard:</b> <span style="color:#0050b3;">İngilizce için <b>TextBlob</b>, Türkçe için <b>Zemberek</b> kullanılabilir.</span>
</div>

In [6]:
from textblob import TextBlob
text = "Ths is a smple txt with sme speling erors."
corrected = str(TextBlob(text).correct())
print(f"Orijinal: {text}\nDüzeltilmiş: {corrected}")

Orijinal: Ths is a smple txt with sme speling erors.
Düzeltilmiş: The is a smile txt with she spelling errors.


<div style="background:#fff1f0; border-left:6px solid #f5222d; padding:10px;">
<b>Not:</b> Türkçe yazım düzeltme için ek kütüphaneler gerekir. İngilizce örnek verilmiştir.
</div>

<h2 id="html-url" style="color:#096dd9;">7️⃣ HTML ve URL Temizliği</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Web verilerinde HTML etiketleri ve URL'ler analizde gürültü oluşturur.

<div style="background:#f6ffed; border-left:6px solid #52c41a; padding:10px;">
<b>Flashcard:</b> <span style="color:#237804;">BeautifulSoup ile HTML, regex ile URL temizliği yapılır.</span>
</div>

In [7]:
from bs4 import BeautifulSoup
text = "<div>Merhaba! <a href='https://github.com'>GitHub</a> adresini ziyaret edin.</div>"
# HTML etiketlerini kaldır
no_html = BeautifulSoup(text, "html.parser").get_text()
# URL'leri kaldır
no_url = re.sub(r"https?://\S+|www\.\S+", "", no_html)
print(f"Orijinal: {text}\nHTML'siz: {no_html}\nURL'siz: {no_url}")

Orijinal: <div>Merhaba! <a href='https://github.com'>GitHub</a> adresini ziyaret edin.</div>
HTML'siz: Merhaba! GitHub adresini ziyaret edin.
URL'siz: Merhaba! GitHub adresini ziyaret edin.


<h2 id="emoji" style="color:#096dd9;">8️⃣ Emojileri ve Unicode Karakterleri Temizleme</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Emojiler ve bazı özel unicode karakterler analizde gürültü oluşturabilir.

<div style="background:#fffbe6; border-left:6px solid #faad14; padding:10px;">
<b>⚠️ Dikkat:</b> Bazı projelerde emojiler duygu analizi için kullanılabilir.
</div>

In [11]:
text = "Python çok eğlenceli 😃👍 #NLP 🚀"
# Unicode emoji ve simgeleri kaldır
emoji_pattern = re.compile(
	r"[\U0001F600-\U0001F64F"
	r"\U0001F300-\U0001F5FF"
	r"\U0001F680-\U0001F6FF"
	r"\U0001F1E0-\U0001F1FF]+",
	flags=re.UNICODE
)
cleaned_text = emoji_pattern.sub(r'', text)
print(f"Orijinal: {text}\nTemizlenmiş: {cleaned_text}")

Orijinal: Python çok eğlenceli 😃👍 #NLP 🚀
Temizlenmiş: Python çok eğlenceli  #NLP 


<h2 id="stopword" style="color:#096dd9;">9️⃣ Stopword (Anlamsız Kelime) Temizliği</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Stopword'ler, cümlede anlam taşımayan sık kullanılan kelimelerdir.

<div style="background:#e6f7ff; border-left:6px solid #1890ff; padding:10px;">
<b>Flashcard:</b> <span style="color:#0050b3;">Stopword temizliği ile <b>anlamlı kelimeler</b> öne çıkar.</span>
</div>

In [12]:
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')
text = "Python ile doğal dil işleme yapmak çok kolay ve eğlenceli bir süreçtir."
stop_words = set(stopwords.words('turkish'))
words = text.lower().split()
filtered = [w for w in words if w not in stop_words]
print(f"Orijinal: {text}\nStopword'süz: {' '.join(filtered)}")

Orijinal: Python ile doğal dil işleme yapmak çok kolay ve eğlenceli bir süreçtir.
Stopword'süz: python doğal dil işleme yapmak kolay eğlenceli bir süreçtir.


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


<h2 id="kok-lemmatizasyon" style="color:#096dd9;">🔟 Kök Bulma (Stemming) ve Lemmatizasyon</h2>

<span style="color:#389e0d;"><b>✔️ Neden?</b></span> Kelimeleri kök veya temel haline indirgemek, veri boyutunu azaltır ve analizde anlam bütünlüğü sağlar.

<div style="background:#f6ffed; border-left:6px solid #52c41a; padding:10px;">
<b>Flashcard:</b> <span style="color:#237804;">İngilizce için <b>NLTK</b>, Türkçe için <b>Zemberek</b> veya <b>Stanza</b> kullanılır.</span>
</div>

In [13]:
from nltk.stem import PorterStemmer, WordNetLemmatizer
nltk.download('wordnet')
ps = PorterStemmer()
lemmatizer = WordNetLemmatizer()
words = ["running", "flies", "better", "studies"]
print("Stemming:")
for w in words:
    print(f"{w} -> {ps.stem(w)}")
print("\nLemmatization:")
for w in words:
    print(f"{w} -> {lemmatizer.lemmatize(w)}")

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Cemal\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Stemming:
running -> run
flies -> fli
better -> better
studies -> studi

Lemmatization:
running -> running
flies -> fly
better -> better
studies -> study
running -> running
flies -> fly
better -> better
studies -> study


<div style="background:#fff1f0; border-left:6px solid #f5222d; padding:10px;">
<b>Not:</b> Türkçe kök bulma için ek kütüphaneler gereklidir (ör. Zemberek, Stanza).
</div>

<h2 id="birlesik" style="color:#096dd9;">1️⃣1️⃣ Birleştirilmiş Temizleme Fonksiyonu</h2>

<div style="background:#e6f7ff; border-left:6px solid #1890ff; padding:10px;">
<b>Flashcard:</b> <span style="color:#0050b3;">Tüm adımları bir arada uygulayan <b>profesyonel fonksiyon</b> ile tam temizlik!</span>
</div>

In [17]:
def full_clean_text(text, lang='turkish'):
    import re, string
    from bs4 import BeautifulSoup
    # HTML etiketlerini kaldır
    text = BeautifulSoup(text, "html.parser").get_text()
    # URL'leri kaldır
    text = re.sub(r"https?://\S+|www\.\S+", "", text)
    # Küçük harfe çevir
    text = text.lower()
    # Noktalama işaretlerini kaldır
    text = text.translate(str.maketrans('', '', string.punctuation))
    # Emojileri kaldır
    emoji_pattern = re.compile(
        r"[\U0001F600-\U0001F64F"
        r"\U0001F300-\U0001F5FF"
        r"\U0001F680-\U0001F6FF"
        r"\U0001F1E0-\U0001F1FF]+",
        flags=re.UNICODE
    )
    text = emoji_pattern.sub(r'', text)
    # Sayıları kaldır
    text = re.sub(r"\d+", "", text)
    # Fazla boşlukları kaldır
    text = " ".join(text.split())
    # Stopword temizliği
    try:
        from nltk.corpus import stopwords
        stop_words = set(stopwords.words(lang))
        text = ' '.join([w for w in text.split() if w not in stop_words])
    except:
        pass
    return text

# Örnek kullanım
sample = "<p>2025 yılında Python ile NLP 🚀 yapmak çok kolay! Daha fazla bilgi için https://github.com adresini ziyaret edin.</p>"
print(full_clean_text(sample))

yılında python nlp yapmak kolay fazla bilgi adresini ziyaret edin


<h2 id="ornekler" style="color:#096dd9;">1️⃣2️⃣ Gerçek Hayattan 5 Zengin Temizleme Örneği</h2>

<div style="background:#f6ffed; border-left:6px solid #52c41a; padding:10px;">
<b>Flashcard:</b> <span style="color:#237804;">Farklı kaynaklardan alınmış, karmaşık ve uzun metinlerin temizlenmesi örneklenmiştir.</span>
</div>

In [18]:
examples = [
    """<div>Sayın kullanıcı, 2025 yılında %50 indirim fırsatını kaçırmayın! Detaylar için: https://kampanya.site/indirim 😃</div>""",
    """Python, veri bilimi ve makine öğrenimi alanlarında en çok tercih edilen dillerden biridir. (Kaynak: www.python.org) #DataScience""",
    """Merhaba! Bugün hava çok güzel, değil mi? 😊 Yarın görüşmek üzere...""",
    """E-mail: info@nlp.com | Telefon: +90 555 123 45 67 | Adres: İstanbul/Türkiye""",
    """<html><body><h1>Başlık</h1><p>Bu bir <b>örnek</b> metindir. 2023 yılında yazılmıştır.</p></body></html>"""
]

for i, ex in enumerate(examples, 1):
    print(f"--- Örnek {i} ---")
    print("Orijinal:")
    print(ex)
    print("\nTemizlenmiş:")
    print(full_clean_text(ex))
    print("\n")

--- Örnek 1 ---
Orijinal:
<div>Sayın kullanıcı, 2025 yılında %50 indirim fırsatını kaçırmayın! Detaylar için: https://kampanya.site/indirim 😃</div>

Temizlenmiş:
sayın kullanıcı yılında indirim fırsatını kaçırmayın detaylar


--- Örnek 2 ---
Orijinal:
Python, veri bilimi ve makine öğrenimi alanlarında en çok tercih edilen dillerden biridir. (Kaynak: www.python.org) #DataScience

Temizlenmiş:
python veri bilimi makine öğrenimi alanlarında tercih edilen dillerden biridir kaynak datascience


--- Örnek 3 ---
Orijinal:
Merhaba! Bugün hava çok güzel, değil mi? 😊 Yarın görüşmek üzere...

Temizlenmiş:
merhaba bugün hava güzel değil mi yarın görüşmek üzere


--- Örnek 4 ---
Orijinal:
E-mail: info@nlp.com | Telefon: +90 555 123 45 67 | Adres: İstanbul/Türkiye

Temizlenmiş:
email infonlpcom telefon adres i̇stanbultürkiye


--- Örnek 5 ---
Orijinal:
<html><body><h1>Başlık</h1><p>Bu bir <b>örnek</b> metindir. 2023 yılında yazılmıştır.</p></body></html>

Temizlenmiş:
başlıkbu bir örnek metindir yıl