## NLP Metin Ön İşleme Adımları

In [1]:
from nltk.corpus import stopwords
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# Stopwords Çıkarma
Stopwords, bağlaçlar, zamirler gibi anlam açısından çok fazla bilgi taşımayan kelimelerdir. Örneğin, "ve", "ile", "bir", "ama" gibi kelimeler genellikle çıkarılır.

📌 Örnek: Girdi metin: "Bu bir test cümlesidir ve gereksiz kelimeleri çıkarmalıyız."

Stopwords Çıkarıldıktan Sonra: ["Bu", "test", "cümlesidir", "gereksiz", "kelimeleri", "çıkarmalıyız"]

In [3]:
nltk.download('stopwords')
stop_words = set(stopwords.words('turkish'))

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Erenay\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [5]:
text = "Bu bir test cümlesidir ve gereksiz kelimeleri çıkarmalıyız."
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)

['bir', 'test', 'cümlesidir', 'gereksiz', 'kelimeleri', 'çıkarmalıyız', '.']


# Lemmatization ve Stemming

Bu adımlar, kelimeleri köklerine indirgeme işlemleridir.

Stemmer (Kök Bulma)
Stemming, kelimenin son eklerini keserek kökünü bulmaya çalışır. Ancak bu yöntem dilbilgisel olarak hatalı sonuçlar verebilir.

📌 Örnek:

"Koşuyorum" → "Koş"
"Kitapları" → "Kitap"

In [6]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print(stemmer.stem("running"))
print(stemmer.stem("books"))

run
book


# Lemmatization (Kökleştirme)
Lemmatization, kelimenin anlamını koruyarak köküne indirir. Stemming’e göre daha doğru sonuçlar verir.

📌 Örnek:

"Koşuyorum" → "Koşmak"
"Kitapları" → "Kitap"

In [9]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

print(lemmatizer.lemmatize('running', pos='v'))
print(lemmatizer.lemmatize('books'))

run
book


# POS Tagging (Kelime Türü Etiketleme)
POS Tagging, kelimelerin cümledeki türlerini belirlemektir. Örneğin, isim (noun), fiil (verb), sıfat (adjective) gibi türlere ayrılır.

📌 Örnek:

"Koşuyorum" → Fiil (Verb)
"Güzel" → Sıfat (Adjective)

In [None]:
from nltk import pos_tag

tokens = word_tokenize("Güzel bir gün başladı.")
print(pos_tag(tokens))  # [('Güzel', 'JJ'), ('bir', 'DT'), ('gün', 'NN'), ('başladı', 'VBD')]


# Named Entity Recognition (NER)
Named Entity Recognition (NER), metindeki özel isimleri (şahıs, mekan, organizasyon vb.) belirlemek için kullanılır.

📌 Örnek:
Metin: "Elon Musk, SpaceX şirketini kurdu ve Mars'a insan göndermeyi planlıyor."

Elon Musk → Kişi (Person)
SpaceX → Organizasyon (Organization)
Mars → Yer (Location)

In [None]:
import spacy
nlp = spacy.load("en_core_web_sm")

text = "Elon Musk founded SpaceX and plans to send humans to Mars."
doc = nlp(text)

for ent in doc.ents:
    print(ent.text, ent.label_)  # "Elon Musk PERSON", "SpaceX ORG", "Mars LOC"


# Metin Normalizasyonu
Bazı metinlerde farklı yazım türleri olabilir. NLP için metni tutarlı hale getirmek gerekir.

📌 Örnek:

Büyük-küçük harf dönüşümü: "MERHABA" → "merhaba"
Noktalama işaretlerinin kaldırılması: "Merhaba! Nasılsın?" → "Merhaba Nasılsın"

In [24]:
import re

text = "Merhaba! Nasılsın?"
clean_text = re.sub(r'[^\w\s]', '', text.lower())  # Noktalama kaldırma ve küçültme
print(clean_text)  # "merhaba nasılsın"


merhaba nasılsın
