## Metin Ön İşleme Adımları
- Veri Temizleme 
- Tokenizasyon 
- Kök ve Gövde Analizi (Stemming ve Lemmatization)
- Durdurma Kelimeleri (Stop words)

## Veri Temizleme Adımları 
- Boşlukların temizlenmesi
- Büyük küçük harf dönüşümleri
- Noktalama işaretlerinin kaldırılması 
- Özel karakterlerin kaldırılması
- Yazım Hatalarının düzeltilmesi 
- Html ve URL temizleme
### Model performansını olumsuz etkileyebilcek öğeler kaldırılır veya düzeltilir..Daha güvenilir analizler için veri temizleme yaparız

- pip install textblob  spacy gensim  transformers tensorflow

In [1]:
# Metinlerdeki fazla boslukları temizle
text ="Hello,     World!    2035"#"Hello,World!"

In [2]:
text.split()

['Hello,', 'World!', '2035']

In [5]:
cleaned_text=" ".join(text.split())

In [6]:
print(cleaned_text)

Hello, World! 2035


In [7]:
#Büyükten küçüğe harf çevrimi
text ="Hello,World 2035!"

In [8]:
cleaned_text=text.lower()

In [9]:
print(cleaned_text)

hello,world 2035!


In [10]:
#Noktalama işaretlerini kaldır
text="Hello,World! 2035"

In [11]:
import string

cleaned_text2= text.translate(str.maketrans("","",string.punctuation))

In [12]:
print(cleaned_text2)

HelloWorld 2035


In [13]:
text="Hello, World! 2035"

In [16]:
#Özel karakterleri kaldır
import re 
cleaned_text4= re.sub(r"[^A-Za-z0-9\s]","",text)

In [17]:
print(cleaned_text4)

Hello World 2035


In [46]:
#Yazım hatalarının düzeltilmesi

from textblob import TextBlob
text = "HeLıo, Wirld!  2035"
cleaned_text5= str(TextBlob(text).correct())

In [52]:
print(cleaned_text5)

HeLıo, World!  2035


## Tokenizasyon
- Bir metni daha küçük parçalara ayırma islemi 
- Kelimelere ,cümlelere ,hatta karakterlere ayırılabilir
- Token bu parçalara denir

In [None]:
import nltk
nltk.download("punkt", download_dir=".venv\Lib\site-packages\\nltk")



[nltk_data] Downloading package punkt to C:\llm\.venv\Lib\site-
[nltk_data]     packages\nltk...
[nltk_data]   Package punkt is already up-to-date!


True

In [30]:
import nltk
nltk.download('punkt_tab', download_dir=".venv\Lib\site-packages\\nltk" )

[nltk_data] Downloading package punkt_tab to .venv\Lib\site-
[nltk_data]     packages\nltk...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.


True

In [31]:
import nltk
text = "Hello, World! How are you? Hi ..."

# kelimeleri tokenlara ayir
word_tokens = nltk.word_tokenize(text)

# cumle tokenization
sentence_tokens = nltk.sent_tokenize(text)

In [32]:
print(word_tokens)

['Hello', ',', 'World', '!', 'How', 'are', 'you', '?', 'Hi', '...']


# Kök ve Gövde Analizi 
- Stemming(kök bulma) temel anlamını bulmak -suffix çıkarma yaparız .Temel amac  kelimenin anlamını tamamen doğru bulmayı amaçlamaz-kelime köküne bakar 
    - Örnek : 
        - koşuyor,koştu,koşmak : koş

- Lemmatization(gövdeleme) kelimeleri sözlükteki temel formlarına dönüştürme denir 
    - Örnek
        - koşuyor,koştu,koşmak : koşmak 
        

In [3]:
import nltk
nltk.download("wordnet", download_dir=".venv\Lib\site-packages\\nltk")

[nltk_data] Downloading package wordnet to .venv\Lib\site-
[nltk_data]     packages\nltk...


True

In [6]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

words = ["running", "runner", "ran", "runs", "better", "go", "went"]

In [7]:
stemmer.stem("running")

'run'

In [8]:
stems = [stemmer.stem(w) for w in words]

In [9]:
print("Stem result: ", stems)

Stem result:  ['run', 'runner', 'ran', 'run', 'better', 'go', 'went']


In [10]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ["running", "runner", "ran", "runs", "better", "go", "went"]

lemmas = [lemmatizer.lemmatize(w,pos="v")for w in words]
print("Lemma result  : ",lemmas)



Lemma result  :  ['run', 'runner', 'run', 'run', 'better', 'go', 'go']


# Stop Words
- Metin analizi sırasında bir işe yaramayan(faydalı olmayan) kelimeleri ayıkladığımız süreç
- exp:Edat ,zamirler,zamirler
- Modelin verimliliğini arttırmak için gereklidir.
- Örnek tr: ve,bir,ile,da,de,mi
        eng:and,the,is,to,of

In [11]:
import  nltk

from nltk.corpus import stopwords

nltk.download("stopwords", download_dir=".venv\Lib\site-packages\\nltk")

[nltk_data] Downloading package stopwords to .venv\Lib\site-
[nltk_data]     packages\nltk...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [13]:
# stop word liste yukle
nltk.data.path = [r'c:\\llm\.venv\Lib\site-packages\nltk']
stop_words_eng = set(stopwords.words("english"))

In [14]:



# ornek metin
text = "This is an example of removing stop words from a text document."
filtered_words = [word for word in text.split() if word.lower() not in stop_words_eng]
print("filtered_words: ",filtered_words)

# stop word liste yukle
stop_words_tr = set(stopwords.words("turkish"))

# ornek metin turkce
text = "merhaba dünya ve bu güzel insanlar"
filtered_words = [word for word in text.split() if word.lower() not in stop_words_tr]
print("filtered_words: ",filtered_words)

# %%

turkish_stopwords = set(["ve", "bir", "bu", "ile", "için"])

# ornek metin
text = "Bu bir örnek metin ve stop words'leri temizlemek için kullanılıyor."
filtered_words = [word for word in text.split() if word.lower() not in turkish_stopwords]
print("filtered_words: ",filtered_words)

filtered_words:  ['example', 'removing', 'stop', 'words', 'text', 'document.']
filtered_words:  ['merhaba', 'dünya', 'güzel', 'insanlar']
filtered_words:  ['örnek', 'metin', 'stop', "words'leri", 'temizlemek', 'kullanılıyor.']
