
# 🧠 Doğal Dil İşleme (NLP) Nedir?

**Doğal Dil İşleme (Natural Language Processing - NLP)**, insan dilini bilgisayarlara öğretmeyi amaçlayan bir **yapay zekâ alt dalıdır**. NLP; dilbilim, bilgisayar bilimi ve makine öğrenmesinin kesişiminde yer alır.

> 👩‍💻 Amaç: İnsanların yazılı ya da sözlü diliyle makinelerin **anlamlı şekilde etkileşim kurmasını sağlamak.**

---

# 🔍 Neden Önemli?

* İnsanlar veri üretirken dili kullanır. (e-posta, tweet, mesaj, arama vs.)
* Bilgisayarlar bu verileri işleyemezse anlam çıkaramaz.
* NLP sayesinde dil verileri analiz edilebilir, sınıflandırılabilir ve yanıt üretilebilir.

---

# 📌 Temel NLP Görevleri ve Örnekleri

| Görev Adı                               | Açıklama                                    | Örnek                                                                     |
| --------------------------------------- | ------------------------------------------- | ------------------------------------------------------------------------- |
| **Tokenization**                        | Metni kelime ya da cümle parçalarına ayırma | "Bugün hava güzel." → \["Bugün", "hava", "güzel", "."]                    |
| **Lemmatization**                       | Kelimeyi kök hâline getirme                 | “koşuyorum” → “koşmak”                                                    |
| **POS Tagging**                         | Her kelimeye dilbilgisel tür atama          | “Çocuk parka gitti.” → Çocuk/NOUN, gitti/VERB                             |
| **Named Entity Recognition (NER)**      | Özel isimleri tanıma                        | “Apple, Kaliforniya’da kuruldu.” → Apple (Şirket), Kaliforniya (Lokasyon) |
| **Sentiment Analysis**                  | Metindeki duyguyu anlama                    | “Film mükemmeldi!” → Pozitif                                              |
| **Text Classification**                 | Metni önceden tanımlı sınıfa ayırma         | "Haber başlığı: Yeni zam kararı" → Ekonomi kategorisi                     |
| **Machine Translation**                 | Otomatik çeviri                             | “Hello world” → “Merhaba dünya”                                           |
| **Summarization**                       | Otomatik özet çıkarımı                      | Uzun bir haberin kısa özeti                                               |
| **Question Answering (Soru-Cevaplama)** | Sorulan soruya metne dayalı yanıt üretme    | Soru: Türkiye’nin başkenti nedir? → Cevap: Ankara                         |

---


# 🛠️ NLP İçin Kullanılan Popüler Kütüphaneler

| Kütüphane                       | Açıklama                                           |
| ------------------------------- | -------------------------------------------------- |
| **NLTK**                        | Doğal dil işleme öğrenimi için temel kütüphane     |
| **spaCy**                       | Üretim düzeyinde NLP işlemleri için güçlü          |
| **TextBlob**                    | Kolay duygu analizi ve çeviri                      |
| **Transformers (Hugging Face)** | Büyük dil modelleriyle çalışma (BERT, GPT)         |
| **Gensim**                      | Metin benzerliği, konu modelleme için ideal        |
| **LangChain**                   | LLM tabanlı uygulamalar için zincirleme yapı kurar |

---

# 🌐 Gerçek Hayat Uygulamaları

| Uygulama                     | Açıklama                                       |
| ---------------------------- | ---------------------------------------------- |
| **Chatbotlar ve Asistanlar** | Siri, Google Asistan, ChatGPT                  |
| **Spam Filtreleme**          | E-posta sınıflandırma                          |
| **Sosyal Medya Analizi**     | Marka hakkında duygu analizi                   |
| **Arama Motorları**          | Google’da ilgili sonuçları bulma               |
| **Otomatik Özetleme**        | Haberlerin kısa versiyonları                   |
| **Sohbet Robotları**         | Bankacılık, sağlık veya eğitim alanında destek |

---

# 🚀 Gelişmiş Konulara Giriş

* **Transformer Mimarisi** (Attention is all you need - 2017)
* **BERT / GPT** gibi önceden eğitilmiş dil modelleri
* **Zero-shot / Few-shot learning** kavramları
* **Semantic Search & Vector Databases** (FAISS, ChromaDB)

---

# 🎓 Nereden Başlamalı?

1. **Python temellerini** öğren.
2. `NLTK`, `spaCy`, `TextBlob` gibi kütüphanelerle projeler yap.
3. Hugging Face üzerinden **önceden eğitilmiş modelleri** dene.
4. Kaggle’da **NLP yarışmalarına katıl.**
5. Makaleler ve kitaplar ile teorik temeli güçlendir:

   * *Speech and Language Processing (Jurafsky & Martin)*
   * *The Hundred-Page Machine Learning Book*

---



In [1]:
# Gerekli kütüphaneyi yükle
!pip install nltk --quiet

In [2]:


from nltk.tokenize.toktok import ToktokTokenizer

# Tokenizer'ı oluştur
tokenizer = ToktokTokenizer()

# Örnek Türkçe metin
metin = "Doğal dil işleme, dil ve bilgisayar bilimini birleştirir."

# Tokenize et
kelimeler = tokenizer.tokenize(metin)

# Sonuç
print(kelimeler)


['Doğal', 'dil', 'işleme', ',', 'dil', 've', 'bilgisayar', 'bilimini', 'birleştirir', '.']


In [3]:
!pip install googletrans==4.0.0-rc1 textblob --quiet


  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.1/55.1 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m133.4/133.4 kB[0m [31m9.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.6/42.6 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.8/58.8 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m65.0/65.0 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m48.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.6/53.6 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for googletrans (setup.py) ... [?25l[?25hdone
[31mERROR: pip's dependency resolver does not cu

In [5]:
from googletrans import Translator
from textblob import TextBlob

# 1. Çeviri
translator = Translator()
turkce_metin = "Bu ürün mükemmel çalışıyor!"
ceviri = translator.translate(turkce_metin, dest='en')
print("İngilizce Çeviri:", ceviri.text)

# 2. Duygu analizi (İngilizce çeviri üzerinden)
yorum = TextBlob(ceviri.text)
print("Duygu Analizi:", yorum.sentiment)

İngilizce Çeviri: This product works perfectly!
Duygu Analizi: Sentiment(polarity=1.0, subjectivity=1.0)


| Değer Aralığı             | Açıklama            |
| ------------------------- | ------------------- |
| `polarity`: -1.0 → +1.0   | Negatiften pozitife |
| `subjectivity`: 0.0 → 1.0 | Nesnelden öznelliğe |


In [6]:
### 📍 Örnek 3: Named Entity Recognition (spaCy)

import spacy
nlp = spacy.load("en_core_web_sm")  # Küçük, hızlı İngilizce NLP modeli

doc = nlp("Elon Musk founded SpaceX in California.")  # Metni analiz et

for ent in doc.ents:  # Tüm 'entity'leri (varlıkları) döngüye al
    print(ent.text, ent.label_)  # Varlığın kendisini ve türünü yazdır



Elon Musk PERSON
California GPE


In [7]:
!pip install transformers --quiet



In [17]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

# Model ve tokenizer'ı yükle
model_name = "savasy/bert-base-turkish-ner-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

# Varlık tanıma pipeline'ı
ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

# Örnek Türkçe metin
metin = "Atatürk 1923'te Türkiye Cumhuriyeti'ni kurdu."

# Varlık tanıma
sonuclar = ner_pipeline(metin)

# Sonuçları yazdır
for sonuc in sonuclar:
    print(f"{sonuc['word']} → {sonuc['entity_group']}")


Some weights of the model checkpoint at savasy/bert-base-turkish-ner-cased were not used when initializing BertForTokenClassification: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForTokenClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForTokenClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu


Eyyüp → PER
İstanbul → LOC


In [18]:
!pip install -q transformers sentence-transformers scikit-learn

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m101.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m25.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m52.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.9/127.9 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [19]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# Türkçe destekli bir çok dilli model
model = SentenceTransformer("paraphrase-multilingual-MiniLM-L12-v2")

# Örnek iki Türkçe cümle
cümle1 = "Ankara Türkiye'nin başkentidir."
cümle2 = "Türkiye'nin başkenti Ankara'dır."

# Gömme (embedding) vektörlerini üret
embeddings = model.encode([cümle1, cümle2])

# Benzerliği hesapla
benzerlik = cosine_similarity([embeddings[0]], [embeddings[1]])

print(f"Cümle Benzerliği: {benzerlik[0][0]:.2f}")


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.89k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Cümle Benzerliği: 1.00


In [22]:
from transformers import pipeline
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

metin = """
Yapay zekâ, günümüzde sağlık, eğitim, ulaşım ve finans gibi birçok sektörde devrim yaratmaktadır.
Özellikle doğal dil işleme teknolojileri sayesinde insanlar ile makineler arasında çok daha etkili iletişim kurulabilmektedir.
"""

ozet = summarizer(metin, max_length=100, min_length=20, do_sample=False)
print(ozet[0]['summary_text'])


Device set to use cpu


Özellikle doğal dil işleme teknolojileri sayesinde insanlar ile makineler arasında çok daha etkili iletişim kurulabilmektedir.


In [23]:
from transformers import pipeline

qa = pipeline("question-answering", model="deepset/roberta-base-squad2")

context = """
Atatürk, 1881 yılında Selanik'te doğmuştur. Türkiye Cumhuriyeti'nin kurucusudur.
Cumhurbaşkanı olarak uzun yıllar görev yapmış, birçok reform gerçekleştirmiştir.
"""

soru = "Atatürk nerede doğmuştur?"

cevap = qa(question=soru, context=context)
print("Cevap:", cevap["answer"])


config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

Device set to use cpu


Cevap: Selanik


In [24]:
!pip install langdetect --quiet



[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/981.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━[0m [32m522.2/981.5 kB[0m [31m15.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone


In [25]:
from langdetect import detect

metin = "Merhaba dünya"
print("Tespit edilen dil:", detect(metin))  # Çıktı: 'tr'

Tespit edilen dil: tr


In [26]:
#Metin sınıflandırma
from transformers import pipeline

classifier = pipeline("text-classification", model="nlptown/bert-base-multilingual-uncased-sentiment")
sonuc = classifier("Bu ürün harika!")  # Türkçe destekli
print(sonuc)


config.json:   0%|          | 0.00/953 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


[{'label': '5 stars', 'score': 0.3986680805683136}]


🎯 Nerede Kullanılır?
* E-ticaret yorumları puanlama

* Müşteri geri bildirimlerini analiz etme

* Sosyal medya içerik analizi

In [34]:
from transformers import pipeline

# Model tanımı
classifier = pipeline("zero-shot-classification", model="facebook/bart-large-mnli")

# Metin ve etiketler
metin ="Recently, an increase in tick bite cases has been observed in hospital records." #ingilizce de daha iyi sonuçlar veriyor, türkçeye göre

etiketler = ["Sports", "Economy", "Technology", "Health"]

# Sınıflandırma
sonuc = classifier(metin, candidate_labels=etiketler)

# En uygun sınıf
print("✅ En uygun sınıf:", sonuc["labels"][0])
print("\n🎯 Tüm sınıf olasılıkları:")

# Tüm etiket ve skorları sırayla yazdır
for label, score in zip(sonuc["labels"], sonuc["scores"]):
    print(f"{label}: {score:.2f}")


Device set to use cpu


✅ En uygun sınıf: Health

🎯 Tüm sınıf olasılıkları:
Health: 0.76
Economy: 0.17
Sports: 0.04
Technology: 0.04


In [35]:
!pip install yake --quiet



[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/60.2 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.2/60.2 kB[0m [31m3.5 MB/s[0m eta [36m0:00:00[0m
[?25h[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/356.9 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m356.9/356.9 kB[0m [31m13.5 MB/s[0m eta [36m0:00:00[0m
[?25h

In [36]:
#Bir metnin anahtar kavramlarını belirlemek.
import yake

text = "Yapay zekâ sağlık, eğitim ve ulaşım gibi alanlarda devrim yaratıyor."
kw_extractor = yake.KeywordExtractor(lan="tr", n=1, top=5)
keywords = kw_extractor.extract_keywords(text)

for k in keywords:
    print(k[0])

Yapay
sağlık
eğitim
yaratıyor
zekâ




## 🧠 1. Tanımlar

### 🟨 NLP (Natural Language Processing - Doğal Dil İşleme)

İnsan dilini bilgisayarların **anlamasını, işlemesini ve üretmesini** sağlayan **yapay zekâ alanıdır**.

> NLP bir **alan/dallanma**dır. İçinde tokenization, duygu analizi, çeviri, sınıflandırma gibi görevler vardır.

---

### 🟦 LLM (Large Language Models - Büyük Dil Modelleri)

Milyarlarca kelimeyle eğitilmiş, çok büyük yapay sinir ağlarıdır. LLM’ler, NLP görevlerini **tek modelle çok yönlü** yapabilir.

> LLM bir **teknolojidir**, NLP görevlerini gerçekleştiren bir "araç/motor" gibi düşünülebilir.

---

## ⚙️ 2. Yapısal Farklar

| Özellik        | NLP                                                        | LLM                                                              |
| -------------- | ---------------------------------------------------------- | ---------------------------------------------------------------- |
| 🎯 Amaç        | İnsan dili ile ilgili görevleri çözmek                     | Dil görevlerini bağlamlı, çok yönlü ve etkili şekilde çözmek     |
| 🔧 Teknoloji   | Klasik ML, kural tabanlı sistemler, istatistiksel modeller | Derin öğrenme, Transformer, attention tabanlı dev yapılar        |
| 🧩 Bileşenler  | Tokenizer, Lemmatizer, SVM, CRF, RNN, Naive Bayes vb.      | GPT, BERT, T5, LLaMA, Falcon, Claude, Gemini                     |
| 📚 Veri boyutu | Küçük/orta ölçekli veriyle eğitilir                        | Devasa veriyle (terabyte+) önceden eğitilir                      |
| 📌 Görevler    | Belirli görev için model geliştirilir                      | Tek model çok sayıda görevi çözebilir                            |
| 🔄 Öğrenme     | Genellikle gözetimli                                       | Önceden eğitilmiş + sıfır/az örnekle öğrenebilir (zero/few-shot) |

---

## 🧪 3. Uygulama Karşılaştırması

| Görev                   | Klasik NLP Yaklaşımı                | LLM ile Çözüm                                     |
| ----------------------- | ----------------------------------- | ------------------------------------------------- |
| **Duygu Analizi**       | Naive Bayes, SVM, TF-IDF ile eğitim | GPT veya BERT ile bağlamlı duygu çıkarımı         |
| **Metin Sınıflandırma** | Öznitelik mühendisliği + model      | LLM ile prompt ile sınıflandırma                  |
| **Soru Cevaplama**      | Cevap cümlesini bulma (rule-based)  | GPT-4: bağlamdan mantıksal yanıt üretir           |
| **Özetleme**            | Cümle çıkarımı veya istatistiksel   | Abstraktif, yaratıcı özetleme (T5, BART, GPT)     |
| **Metin Oluşturma**     | Yok (NLP bunu iyi yapamazdı)        | LLM'ler özgün, doğal içerik üretir (ChatGPT gibi) |

---

## 🔍 4. Örnek Üzerinden Karşılaştırma

### Girdi:

> “Bu ürün fiyatına göre çok iyi ama kargoda sorun yaşadım.”

| NLP Yöntemi | "Olumlu" veya "Olumsuz" karar vermeye çalışır                    |
| ----------- | ---------------------------------------------------------------- |
| LLM (GPT)   | Hem olumlu hem olumsuz yönleri analiz eder, detaylı yorum üretir |

---

## 🎯 5. Kısaca Özet

| Kriter           | NLP                        | LLM                                |
| ---------------- | -------------------------- | ---------------------------------- |
| Ne?              | Alan (bilim dalı)          | Bu alanda geliştirilen büyük model |
| Ölçek            | Küçük-orta                 | Devasa                             |
| Esneklik         | Düşük (görev özel)         | Yüksek (çok amaçlı)                |
| Bilgi kapasitesi | Sınırlı (eğitildiği kadar) | Genel bilgiye sahip                |
| Örnek            | `spaCy`, `NLTK`, `Gensim`  | `GPT-4`, `BERT`, `Claude`          |

---

## 🧭 NLP & LLM İlişkisi:

> 🧩 **LLM’ler, NLP'nin bir ürünüdür.**
> Yani, LLM'ler NLP problemlerini çözmek için geliştirilmiş ileri düzey modellerdir.

---


