## Veri Temizleme
**Metin verilerini analiz edilebilir hale getirmek için yapılan bir dizi işlemi içerir. Model performansını olumsuz etkileyebilecek öğeler kaldırılır veya düzeltilir.** <br> <br>
-Boşlukların Temizlenmesi <br>
-Büyük-Küçük Harf Dönüşümleri <br>
-Noktalama İşaretlerinin Kaldırılması <br>
-Özet Karakterlerin Kaldırılması <br>
-Yazım Hatalarının Düzeltilmesi <br>
-HTML ve URL Temizleme

In [1]:
# metinlerde bulunan fazla boşlukları ortadan kaldır

text = "Hello,      World!         2025"
split_text = text.split()
print("Split: ",split_text,"\n")

cleaned_text1 = " ".join(text.split())
print(f"text: {text} \ncleaned_text1: {cleaned_text1}")

Split:  ['Hello,', 'World!', '2025'] 

text: Hello,      World!         2025 
cleaned_text1: Hello, World! 2025


In [2]:
# büyük harf --> küçük harf çevrimi

text = "HeLLo, wOrld! 2025"

cleaned_text2 = text.lower()
print(f"text: {text} \ncleaned_text2: {cleaned_text2}")

text: HeLLo, wOrld! 2025 
cleaned_text2: hello, world! 2025


In [3]:
# noktalama işaretlerini kaldır
import string

text = "Hello, World! 2025."

cleaned_text3 = text.translate(str.maketrans("","", string.punctuation))
print(f"text: {text} \ncleaned_text3: {cleaned_text3}")

text: Hello, World! 2025. 
cleaned_text3: Hello World 2025


In [4]:
# özel karakterleri kaldır
import re

text = "Hello, World! 2025 # % &"
cleaned_text4 = re.sub(r"[^A-Za-z0-9\s]", "", text)
print(f"text: {text} \ncleaned_text4: {cleaned_text4}")

text: Hello, World! 2025 # % & 
cleaned_text4: Hello World 2025   


In [5]:
# yazım hatalarını düzelt
# !pip install textblob

In [6]:
from textblob import TextBlob # metin analizlerinde kullanılan bir kütüphane

text = "Hellıo, Wirld! 2025"
cleaned_text5 = TextBlob(text).correct() # yazım hataların düzeltir
print(f"text: {text} \ncleaned_text5: {cleaned_text5}") # İngilizce için iyi, Türkçe’de önerilmez

text: Hellıo, Wirld! 2025 
cleaned_text5: Hello, World! 2025


In [7]:
# html yada url etiketlerini kaldırma
from bs4 import BeautifulSoup

html_text = "<div>Hello, World! 2025</div>"
cleaned_text6 = BeautifulSoup(html_text, "html.parser").get_text()
print(f"text: {html_text} \ncleaned_text6: {cleaned_text6}")

text: <div>Hello, World! 2025</div> 
cleaned_text6: Hello, World! 2025


## Tokenizasyon
**Kısaca tokenization, bir metni daha küçük parçalara ayırmaa işlemidir. Harf, kelime veya cümle bazlı yapılabilir.**

In [8]:
# !pip install nltk
# !pip install --upgrade nltk

import nltk # natural language toolkit

In [9]:
nltk.download("punkt") # metni kelime ve cümle bazında tokenlara ayırabilmek için gerekli

text = "Hello, World! How are you? Hello, hi ..."

# ✔️ kelime tokenizasyonu: word_tokenize --> metni kelimelere ayırır.
# noktalama işaretleri ve boşlukları ayrı birer token olarak elde edilecektir.
word_tokens = nltk.word_tokenize(text)
print("Kelime Tokenizasyonu: ",word_tokens)

# ✔️ cümle tokenizasyonu: sent_tokenize --> metni cümlelere ayırır, her bir cümle birer token olur. 
sentence_tokens = nltk.sent_tokenize(text)
print("Cümle Tokenizasyonu:",sentence_tokens)

Kelime Tokenizasyonu:  ['Hello', ',', 'World', '!', 'How', 'are', 'you', '?', 'Hello', ',', 'hi', '...']
Cümle Tokenizasyonu: ['Hello, World!', 'How are you?', 'Hello, hi ...']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Ensar\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## Stemming (Kök Bulma)
**Kısaca, kelimelerin kök formunu (yani temel anlamını) bulmak için kelimenin sonundaki eklerin (suffix) çıkarılması işlemidir.**

In [10]:
from nltk.stem import PorterStemmer 

stemmer = PorterStemmer()

words = ["running", "runner", "ran", "runs", "better", "go", "went"]

In [11]:
stems = [stemmer.stem(w) for w in words]
print(f"Stems: {stems}")

Stems: ['run', 'runner', 'ran', 'run', 'better', 'go', 'went']


## Lemmatization (Gövdeleme)
**Kısaca, kelimenin anlamını ve dilbilgisel yapısını dikkate alarak doğru bir kök bulmaya çalışır**

In [12]:
nltk.download('wordnet') # lemmatization işlemi için gerekli olan veri tabanı
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Ensar\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [13]:
lemmatizer = WordNetLemmatizer()

lemmas = [lemmatizer.lemmatize(w, pos="v") for w in words] # v = verb
print(f"Lemmas: {lemmas}")

Lemmas: ['run', 'runner', 'run', 'run', 'better', 'go', 'go']


## Stop Words
**Metinlerde genellikle anlamı çok az olan veya metnin analizi sırasında çok faydalı olmayan kelimelerdir.** <br>
*Örneğin:* ve, ile, gibi | the, it, of 

In [14]:
from nltk.corpus import stopwords
nltk.download("stopwords") # farklı dillerde en çok kullanılan stop words içeren veri seti

# ingilizce stop words analizi
stop_words_eng = set(stopwords.words("english"))
print(stop_words_eng)

{'him', 'until', 'yours', 'more', 's', 'how', 'but', 'are', 'y', 'you', 'shouldn', 'hadn', "didn't", 'with', 'weren', "they've", "mightn't", 'themselves', 'herself', 'than', 'own', 'will', 'didn', 'when', 're', 'd', 'other', 'too', 'should', 'as', "you'd", "she's", 'where', "you're", 'a', 'only', 'were', 'from', 'don', "don't", 'again', 'very', 'by', 'aren', 'needn', 'its', 'nor', 'll', 'or', 'o', "wouldn't", 'we', 'what', 'itself', 'here', 'some', 'why', 'i', 'before', 'this', 'm', 'same', 'them', 'theirs', 'who', 'can', 'both', 'any', 'do', 'to', "isn't", 'himself', 'their', 'into', "i'd", "shan't", 'ourselves', 'over', 'through', 'was', "we've", "you've", "couldn't", 'there', 'did', 'because', "i've", 'most', 'she', 'on', "they're", 'those', 'is', 'few', 'myself', "should've", 'if', 'such', "hasn't", "wasn't", 'ma', 't', 'of', 'all', 'then', 'her', "won't", 'doesn', 'he', 'hers', 'so', 'it', 'out', 'mustn', "she'd", 'above', 'does', 'these', 've', "weren't", 'am', 'been', 'doing', "

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Ensar\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [15]:
# örnek metin
text = "There are some examples of handling stop words from some texts"

# tokenization
text_list = nltk.word_tokenize(text)
print("Kelime Tokenizasyonu: ",text_list)

# eğer word ingilizce stop word listesinde (stop_words_eng) yoksa, bu kelimeyi filtrelenmiş listeye ekliyoruz.
filtered_words = [word for word in text_list if word.lower() not in stop_words_eng]
print(f"Stop Word' lerden filtrelenmiş hali: {filtered_words}")

Kelime Tokenizasyonu:  ['There', 'are', 'some', 'examples', 'of', 'handling', 'stop', 'words', 'from', 'some', 'texts']
Stop Word' lerden filtrelenmiş hali: ['examples', 'handling', 'stop', 'words', 'texts']


In [16]:
# türkçe stop words analizi
stop_words_tr = set(stopwords.words("turkish"))
print(stop_words_tr)

{'sanki', 'hiç', 'belki', 'nerede', 'niye', 'o', 'hepsi', 'biz', 'kez', 'aslında', 'az', 'ne', 'da', 'şu', 'mü', 'nasıl', 'ile', 'neden', 'her', 'biri', 'gibi', 'mı', 've', 'tüm', 'eğer', 'mu', 'yani', 'çok', 'siz', 'niçin', 'nereye', 'bazı', 'hem', 'için', 'şey', 'daha', 'defa', 'acaba', 'ya', 'diye', 'ama', 'en', 'nerde', 'birşey', 'ise', 'çünkü', 'kim', 'veya', 'de', 'hep', 'birkaç', 'bu', 'ki'}


In [17]:
# örnek metin
metin = "merhaba arkadaşlar bu derste çok güzel ilerliyoruz."

# tokenization
word_list = metin.split()
print("Kelime Listesi:", word_list)

filter_metin = []
for w in word_list:
    if w.lower() not in stop_words_tr:
        filter_metin.append(w)

print(f"Stop Word'lerden filtrelenmiş hali: {filter_metin}")

Kelime Listesi: ['merhaba', 'arkadaşlar', 'bu', 'derste', 'çok', 'güzel', 'ilerliyoruz.']
Stop Word'lerden filtrelenmiş hali: ['merhaba', 'arkadaşlar', 'derste', 'güzel', 'ilerliyoruz.']


In [18]:
# kütüphanesiz stop words çıkarımı
my_stop_words_list = ["için", "bu", "ile", "mu", "mi", "özel"]

metin = "Bu bir denemedir. Amacımız bu metinde bulunan özel karakterlerini elemek mi acaba?"

metin_list = metin.split()
print(metin_list)

['Bu', 'bir', 'denemedir.', 'Amacımız', 'bu', 'metinde', 'bulunan', 'özel', 'karakterlerini', 'elemek', 'mi', 'acaba?']


In [19]:
metin_filter = [word for word in metin_list if word.lower() not in my_stop_words_list]
metin_stop_words = set([word.lower() for word in metin_list if word.lower() in my_stop_words_list])

print("Stop Word' lerden arındırılmı hali:", metin_filter)
print("Metinden çıkarılan stop words' ler: ", metin_stop_words)

Stop Word' lerden arındırılmı hali: ['bir', 'denemedir.', 'Amacımız', 'metinde', 'bulunan', 'karakterlerini', 'elemek', 'acaba?']
Metinden çıkarılan stop words' ler:  {'bu', 'mi', 'özel'}
