# NLP (Natural Language Processing) Nedir?
NLP, yani Doğal Dil İşleme, bilgisayarların insan dilini (Türkçe, İngilizce, Arapça vs.) anlaması, işlemesi ve üretmesi için kullanılan yapay zekâ alanıdır.

Kısacası: Bilgisayarların dili "insanca" anlamasını sağlar.
Hem yazılı hem sözlü dili işler: tweet, e-posta, haber, konuşma, yorum, vs.


### NLP Ne İşe Yarar?
İnsan dilini veriye çevirir ve anlam çıkarır.
Mesela:
| Uygulama        | Açıklama                             |
| --------------- | ------------------------------------ |
| Duygu analizi   | Bir yorum olumlu mu olumsuz mu?      |
| Chatbot         | Kullanıcıyla doğal konuşmalar yapmak |
| Otomatik çeviri | Google Translate, DeepL gibi         |
| Sesli asistan   | Siri, Alexa, Google Asistan          |
| Yazım denetimi  | "Gramer hatası mı var?" kontrolü     |
| Özet çıkarma    | Uzun metni kısa özet haline getirme  |


## Gerekli Kütüphaneleri Yüklenmesi

In [3]:
import nltk
import string
from nltk.corpus import stopwords

nltk.download("punkt")
nltk.download("stopwords")


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\omer_\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\omer_\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

* nltk: Doğal dil işleme için kullanılan Python kütüphanesidir.

* string: Noktalama işaretlerini temizlemek için kullanılır.

* stopwords: Anlamsal olarak yük taşımayan kelimeleri (bu, çok, ve, ile...) barındırır.

* punkt: Cümleleri kelimelere ayırmak (tokenization) için gereken modüldür.

In [4]:
veriler = [
    # 🔵 POZİTİF
    ("Bu ürünü çok beğendim", "pozitif"),
    ("Harika bir deneyimdi", "pozitif"),
    ("Bayıldım, kesinlikle tavsiye ederim", "pozitif"),
    ("Ürün zamanında ve sorunsuz geldi", "pozitif"),
    ("Kalitesi beklediğimden daha iyi çıktı", "pozitif"),
    ("Satıcı çok ilgiliydi, teşekkür ederim", "pozitif"),
    ("Yumuşacık ve kullanışlı bir ürün", "pozitif"),
    ("Kesinlikle tekrar alırım", "pozitif"),
    ("Memnun kaldım, herkese öneririm", "pozitif"),
    ("Kusursuz hizmet, ellerinize sağlık", "pozitif"),
    ("Müşteri hizmetleri çok yardımcı oldu", "pozitif"),
    ("Paketleme çok özenliydi", "pozitif"),
    ("Tam istediğim gibi geldi", "pozitif"),

    # 🔴 NEGATİF
    ("Berbat bir deneyimdi", "negatif"),
    ("Hiç memnun kalmadım", "negatif"),
    ("Kargom çok geç geldi", "negatif"),
    ("Ürün görseldeki gibi değil", "negatif"),
    ("Kalitesi çok kötü", "negatif"),
    ("Tam bir hayal kırıklığı", "negatif"),
    ("Eksik ürün gönderildi", "negatif"),
    ("Asla tavsiye etmiyorum", "negatif"),
    ("Müşteri hizmetleri ilgisizdi", "negatif"),
    ("Kullanım sonrası hemen bozuldu", "negatif"),
    ("Satıcı sorularıma cevap vermedi", "negatif"),
    ("Paket hasarlıydı", "negatif"),
    ("Aldığıma pişman oldum", "negatif"),
]

* Bu, etiketli veri dediğimiz şeydir: her cümlenin duygu durumu bellidir (pozitif/negatif).

* Supervised learning yani “denetimli öğrenme” için gereklidir.



## Veri Temizleme

Veri temizleme (data cleaning) NLP’de doğal dil verilerini analiz edilebilir, anlamlı ve tutarlı hale getirmek için yapılan ön işleme (preprocessing) adımlarından biridir. Çünkü ham metin verisi genellikle gürültülüdür: yazım hataları, noktalama, alakasız semboller, gereksiz kelimeler, farklı biçimler vs. barındırır.

| Adım                         | Açıklama                                      
| ---------------------------- | ----------------------------------------------
| 1. Küçük harfe çevirme       | Büyük-küçük harf farkını ortadan kaldırır      
| 2. Noktalama temizleme       | Noktalama işaretlerini siler                  
| 3. Sayı temizleme            | Sayılar model için anlamsızsa silinir          
| 4. Gereksiz boşluk temizliği | Fazla boşlukları kaldırır                     
| 5. Stopwords çıkarma         | Anlam taşımayan sık kelimeler (ve, bu, ile...) 
| 6. Tokenization              | Metni kelime/parçacıklara ayırma                 


In [5]:
stop_words = set(stopwords.words("turkish"))

def temizle(cumle):
    cumle = cumle.lower()
    cumle = cumle.translate(str.maketrans("", "", string.punctuation))
    kelimeler = nltk.word_tokenize(cumle)
    temiz = [k for k in kelimeler if k not in stop_words]
    return temiz


* lower(): Büyük/küçük harf farkı ortadan kalkar (Beğendim ≠ beğendim problemi çözülür)

* translate(): Noktalama işaretleri temizlenir.

* word_tokenize: Cümleyi kelimelere böler.

* stopwords çıkarımı: “ve, bu, bir” gibi anlam taşımayan kelimeleri çıkarırız.

Temiz veri, modelin daha iyi öğrenmesini sağlar. Gürültülü veri, karışıklık yaratır.

In [None]:
stop_words

## Temizlenmiş Belgeleri Hazırlama

In [7]:
belgeler = []
for cumle, etiket in veriler:
    kelimeler = temizle(cumle)
    belgeler.append((kelimeler, etiket))


* Her bir cümleyi temizleyip, etiketini yanına ekliyoruz.

* Sonuç: ([“beğendim”, “ürün”], “pozitif”) gibi çiftler.

Bu yapı, sonraki adımlarda özellik çıkarımı ve eğitim için kullanılır.

In [8]:
belgeler

[(['ürünü', 'beğendim'], 'pozitif'),
 (['harika', 'bir', 'deneyimdi'], 'pozitif'),
 (['bayıldım', 'kesinlikle', 'tavsiye', 'ederim'], 'pozitif'),
 (['ürün', 'zamanında', 'sorunsuz', 'geldi'], 'pozitif'),
 (['kalitesi', 'beklediğimden', 'iyi', 'çıktı'], 'pozitif'),
 (['satıcı', 'ilgiliydi', 'teşekkür', 'ederim'], 'pozitif'),
 (['yumuşacık', 'kullanışlı', 'bir', 'ürün'], 'pozitif'),
 (['kesinlikle', 'tekrar', 'alırım'], 'pozitif'),
 (['memnun', 'kaldım', 'herkese', 'öneririm'], 'pozitif'),
 (['kusursuz', 'hizmet', 'ellerinize', 'sağlık'], 'pozitif'),
 (['müşteri', 'hizmetleri', 'yardımcı', 'oldu'], 'pozitif'),
 (['paketleme', 'özenliydi'], 'pozitif'),
 (['tam', 'istediğim', 'geldi'], 'pozitif'),
 (['berbat', 'bir', 'deneyimdi'], 'negatif'),
 (['memnun', 'kalmadım'], 'negatif'),
 (['kargom', 'geç', 'geldi'], 'negatif'),
 (['ürün', 'görseldeki', 'değil'], 'negatif'),
 (['kalitesi', 'kötü'], 'negatif'),
 (['tam', 'bir', 'hayal', 'kırıklığı'], 'negatif'),
 (['eksik', 'ürün', 'gönderildi'], '

## Tüm Kelimeleri Toplamak

In [10]:
tum_kelimeler = []
for kelime_listesi, _ in belgeler:
    tum_kelimeler.extend(kelime_listesi)


* Tüm cümlelerde geçen kelimeleri birleştiriyoruz.

* Bu kelimelerden bir kelime hazinesi (vocabulary) oluşturacağız.

Modelin "hangi kelimeler duygusal anlam taşır?" sorusuna cevap verebilmesi için bu adıma ihtiyacımız var.

In [None]:
tum_kelimeler

## Kelime Frekansı & Özellik Listesi

In [15]:
kelime_frekanslari = nltk.FreqDist(tum_kelimeler)
ozellikler = list(kelime_frekanslari.keys())


- FreqDist: Tüm kelimelerin kaç kez geçtiğini sayar (frekans analizi).

- keys(): Kaç kere geçtiğine bakmadan sadece benzersiz kelimeleri alır.

- ozellikler: Modelde kullanılacak kelime özellik vektörünün sütunlarını belirler.


*  <b>Diyelim ki tum_kelimeler şöyle</b>

tum_kelimeler = ['film', 'güzeldi', 'film', 'harikaydı', 'berbattı', 'film']

FreqDist({'film': 3, 'güzeldi': 1, 'harikaydı': 1, 'berbattı': 1}) Yani "film" kelimesi 3 kez geçmiş.

* <b>Anahtar kelimeleri al</b>

['film', 'güzeldi', 'harikaydı', 'berbattı']

* <b>Peki bu neden önemli?</b>

Bu ozellikler listesi, her belgeyi (yorum, cümle vs.) BoW formatında şu sütunlara göre temsil etmek için kullanılır:

| Belge   | film | güzeldi | harikaydı | berbattı |
| ------- | ---- | ------- | --------- | -------- |
| Yorum 1 | 1    | 1       | 0         | 0        |
| Yorum 2 | 1    | 0       | 0         | 1        |



## Özellik Çıkarımı Fonksiyonu

In [16]:
def document_features(document):
    document_words = set(document)
    features = {}
    for word in ozellikler:
        features[f"contains({word})"] = (word in document_words)
    return features


* Bir cümlede hangi önemli kelimeler geçiyor onu belirliyoruz.

* Örneğin: "berbat" geçiyorsa → contains(berbat): True

🎯 Böylece her cümleyi sayısal özelliklerle temsil ederiz. Bu, makine öğrenmesinin temelidir!

## Model Eğitimi

In [None]:
ozellikli_set = [(document_features(d), c) for (d, c) in belgeler]

Her cümleyi, kelime temelli özellikleriyle birlikte etiketliyoruz.

<b>Bu liste şuna benzer</b>

[({"contains(berbat)": True, "contains(harika)": False}, "negatif"), ...]

In [None]:
ozellikli_set

In [17]:
classifier = nltk.NaiveBayesClassifier.train(ozellikli_set)


<b>NaiveBayesClassifier</b>, NLTK kütüphanesindeki hazır bir sınıftır.
Metin gibi veriler üzerinde sınıflandırma (classification) yapmak için kullanılır.
Arka planda Naive Bayes algoritmasını kullanır.

* Naive Bayes, olasılıklı bir modeldir. Her kelimenin sınıfla olan ilişkisini hesaplayarak tahmin yapar.

<b>Örneğin:</b>

Eğer “berbattı” kelimesi çoğunlukla “olumsuz” sınıfında geçiyorsa, model bu kelimeyi görünce olumsuz tahmini yapar.

## Tahmin Etme

In [23]:
cumle = "Be bu yemeği beğenmedim"
temiz = temizle(cumle)
ozellikler_cumle = document_features(temiz)
tahmin = classifier.classify(ozellikler_cumle)
print("Tahmin:", tahmin)


Tahmin: negatif


<b>Ve modelimiz artık hiç görmediği bir cümlede pozitif/negatif yorum yapabiliyor!</b>