### 4.3 Veri Temzileme (Data Cleaning)

In [None]:
# Metinlerde Bulunan fazla boslukları kaldırma
text = " Hello,    World!   2034"

cleaned_txt1 = " ".join(text.split())
print(f"text: {text} \n cleaned_txt1: {cleaned_txt1}")

text:  Hello,    World!   2034 
 cleaned_txt1: Hello, World! 2034


In [2]:
# Buyuk kucuk harf cevirme
text = "Hello, World! 2034"
cleaned_txt2 = text.lower()
print(f"text: {text} \n cleaned_txt2: {cleaned_txt2}")

text: Hello, World! 2034 
 cleaned_txt2: hello, world! 2034


In [4]:
# Noktalama işaretlerinin kaldır
import string 
text = "Hello, World! 2034"

cleaned_txt3 = text.translate(str.maketrans("", "", string.punctuation))
print(f"text: {text} \n cleaned_txt3: {cleaned_txt3}")

text: Hello, World! 2034 
 cleaned_txt3: Hello World 2034


In [8]:
# Ozel karaktrlerin kaldırılması % ,@ ,/ , * # 
import re
text = "Hello, World! 2034 % ,@ ,/ , * #"
cleaned_txt4 = re.sub(r"[^A-Za-z0-9\s]", "", text)
print(f"text: {text} \n cleaned_txt4: {cleaned_txt4}")

text: Hello, World! 2034 % ,@ ,/ , * # 
 cleaned_txt4: Hello World 2034      


In [11]:
# yazim hatalarını düzeltme
%pip install textblob -q
from textblob import TextBlob
text = "I havv a speling errror"
TextBlob(text).correct() # correct yazım hatalarını düzeltir
print(f"text: {text} \n cleaned_txt5: {TextBlob(text).correct()}")

Note: you may need to restart the kernel to use updated packages.
text: I havv a speling errror 
 cleaned_txt5: I have a spelling error


In [13]:
%pip install beautifulsoup4 -q
from bs4 import BeautifulSoup
html_text = "<div>Hello, World! 2034</div>"
cleaned_txt6 = BeautifulSoup(html_text, "html.parser").get_text()
print(f"text: {html_text} \n cleaned_txt6: {cleaned_txt6}")

Note: you may need to restart the kernel to use updated packages.
text: <div>Hello, World! 2034</div> 
 cleaned_txt6: Hello, World! 2034


### 4.4 Tokenizasyon 

In [None]:
import nltk 
nltk.download("punkt") # metni kelime ve cumle bazinda tokenlara ayirabilmek için gerekli 

text = "Hello, World How are you? Hello, hi ..."

# kelime tokenizasyonu word_tokenize: kelimelere ayirir 
# noktalama işaretleri ve boslukları ayri birer token olarak elde edilecektir
word_tokens = nltk.word_tokenize(text)

# cumle tokenizasyonu sent_tokenize: cumlelere ayirir
sentence_tokens = nltk.sent_tokenize(text)

### 4.7 Kök ve Gövde Analizi (Stemming ve Lemmatization)

In [2]:
import nltk
nltk.download("wordnet") # wordnet: lemmatizasyon ve kelime köklerini bulmak için gerekli
from nltk.stem import PorterStemmer

#porter stemmer nesnesini olustur
stemmer = PorterStemmer()

words = ["running", "ran", "easily", "fairness"]

# kelimelerin stem'lerini buluyoruz, bunu yaparken de porter stemmerin stem() fonksiyonunu kullanıyoruz
stems = [stemmer.stem(w) for w in words]
print(f"Stem: {stems}")

Stem: ['run', 'ran', 'easili', 'fair']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mfurk\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ["running", "ran", "easily", "fairness"]

lemmas = [lemmatizer.lemmatize(w, pos="v") for w in words]  # pos = verb

print(f"lemma :{lemmas}")

lemma :['run', 'run', 'easily', 'fairness']


### 4.8 Durdurma Kelimeleri (Stop Words)

In [6]:
import nltk 
from nltk.corpus import stopwords
nltk.download("stopwords") # stopword'leri kullanabilmek için gerekli

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mfurk\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [7]:
# ingilizce stop words analizi

stop_words = set(stopwords.words("english"))
# örnek ingilizce metin
text = "There are some example sentences with some stop words."
text_list = text.split()
# eger word ingilizce stop words listesinde (stop_words_eng) yoksa,
# bu kelimeyi filtrelenmis listeyi ekliyoruz
filtered_text = [word for word in text_list if word.lower() not in stop_words]
print(f"Filtered text: {filtered_text}")

Filtered text: ['example', 'sentences', 'stop', 'words.']


In [None]:
# türkçe stop words analizi
stop_words = set(stopwords.words("turkish"))

text = "Merhaba, bu bir örnek cümledir. Bu cümlede bazı durak kelimeler bulunmaktadır."
text_list = text.split()
# eger word ingilizce stop words listesinde (stop_words_eng) yoksa,
# bu kelimeyi filtrelenmis listeyi ekliyoruz
filtered_text = [word for word in text_list if word.lower() not in stop_words]
print(f"Filtered text: {filtered_text}")

Filtered text: ['Merhaba,', 'bir', 'örnek', 'cümledir.', 'cümlede', 'durak', 'kelimeler', 'bulunmaktadır.']


In [12]:
# kutuphanesiz stop words cikarimi

tr_stop_words = [
    "ben", "sen", "o", "biz", "siz", "onlar",
    "bir", "ve", "ya", "ile", "de", "da",
    "için", "ama", "fakat", "çünkü", "gibi",
    "bu", "şu", "o", "herhangi bir"
]

metin = " için Benim biz adım Ali. fakat Senin adın ne?"
kelimeler = metin.split()
filtered_metin = [kelime for kelime in kelimeler if kelime.lower() not in tr_stop_words]
print(f"Filtered text: {filtered_metin}")

Filtered text: ['Benim', 'adım', 'Ali.', 'Senin', 'adın', 'ne?']
