# Veri Ön İşleme (Data Preprocessing)

### 1)Metinlerde Bulunan Fazla Boşlukların Ortadan Kaldırılması

In [1]:
text = "Hello            World    2020"
cleaned_text1 = " ".join(text.split())
cleaned_text1

'Hello World 2020'

### 2)Büyük -> Küçük Harf Çevrimi

In [2]:
text = "HeLLo , WorLD ! 30"
cleaned_text2 = text.lower()
cleaned_text2

'hello , world ! 30'

### 3)Noktalama İşaretlerinin Kaldırılması

In [3]:
import string
text = "Hello , World! 2222;;"
cleaned_text3 = text.translate(str.maketrans("","",string.punctuation))
cleaned_text3

'Hello  World 2222'

### 4)Özel Karakterlerin Kaldırılması

In [4]:
import re
# < > | @ \ / % * #
text = "Hello World! < > | @  / % * # "
cleaned_text4 = re.sub(r"[^A-Za-z0-9\s]","",text)
cleaned_text4

'Hello World          '

### 5)Yazım Hatalarını Düzeltme

In [5]:
from textblob import TextBlob # Metin Analizlerinde Kullanılan bir kütüphane
text = "Hellıo Wirld! 2200"
cleaned_text5 = TextBlob(text).correct() # "correct" yazım hatalarını düzeltir
cleaned_text5

TextBlob("Hello World! 2200")

### 6)HTML ya da URL Etiketlerinin Kaldırılması

In [6]:
from bs4 import BeautifulSoup

text = "<div> Hello World ! 2020 </div>"
#BeautifulSoup ile HTML yapısını parse et , get_text ile text kısmını çek
cleaned_text6 = BeautifulSoup(text,"html.parser").get_text()
cleaned_text6

' Hello World ! 2020 '

### 7)Tokenization

In [7]:
import nltk # Natural Language Toolkit

nltk.download("punkt_tab")

text = "Hello , World ! How are you ? Hello , hi ..."

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\emirh\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [8]:
# Kelime tokenizasyonu (word_tokenize) : Metni kelimelere ayırır .
# Noktalama işaretleri ve boşluklar ayrı birer "token" olarak elde edilecektir .
word_tokens = nltk.word_tokenize(text)
word_tokens

['Hello',
 ',',
 'World',
 '!',
 'How',
 'are',
 'you',
 '?',
 'Hello',
 ',',
 'hi',
 '...']

In [9]:
#Cümle tokenize işlemi (sent_tokenize) : Metni cümlelere ayırır . Her bir cümle birer token olur .
sentence_tokens = nltk.sent_tokenize(text)
sentence_tokens

['Hello , World !', 'How are you ?', 'Hello , hi ...']

### 8)Kök ve Gövde Analizi (Stemming Lemmatization)

In [10]:
import nltk
nltk.download("wordnet")
from nltk.stem import PorterStemmer

# Porter Stemmer nesnesi oluşturma
stemmer = PorterStemmer()

words = ["running" , "runner" , "ran" , "runs" , "better" , "go" , "went"]

# Kelimelerin köklerini buluyoruz bunu yaparken PorterStemmer 'in stem() fonk. kullanıyoruz
stems = [stemmer.stem(w) for w in words]
print(f"Stems:{stems}")

Stems:['run', 'runner', 'ran', 'run', 'better', 'go', 'went']


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\emirh\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [11]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ["running" , "runner" , "ran" , "runs" , "better" , "go" , "went"]
lemmas = [lemmatizer.lemmatize(w,pos = "v") for w in words]
print(f"Lemmas:{lemmas}")

Lemmas:['run', 'runner', 'run', 'run', 'better', 'go', 'go']


### 9)Durdurma Kelimeleri (Stop Words)

In [12]:
import nltk 
from nltk.corpus import stopwords
nltk.download("stopwords") # Farklı dillerde en çok kullanılan stop word içeren veri seti
#Ingilizce stopwords analizi (nltk)
stop_words_eng = set(stopwords.words("english"))

# Örnek Ingilizce metin 
text = "There are some examples of handling stop words some texts."
text_list = text.split()
# Eğer word ingilizce stop words listesinde (stop_words_eng) yoksa , bu kelime filtrelenmiş listeye ekliyoruz. 
filtered_words = [word for word in text_list if word.lower() not in stop_words_eng]
filtered_words

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\emirh\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['examples', 'handling', 'stop', 'words', 'texts.']

In [13]:
import nltk 
from nltk.corpus import stopwords
nltk.download("stopwords") # Farklı dillerde en çok kullanılan stop word içeren veri seti
#Türkçe stopwords analizi (nltk)
stop_words_tr = set(stopwords.words("turkish"))

#Örnek Türkçe Metin
metin = "Merhaba bugün hava çok güzel"
metin_list = metin.split()

filtered_words_tr = [word for word in metin_list if word.lower() not in stop_words_tr]
filtered_words_tr


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\emirh\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Merhaba', 'bugün', 'hava', 'güzel']