
# Vectorize İşlemi ve TF-IDF Vectorizer ile Uygulama

## Vectorize İşlemi Nedir?

Doğal dil işleme (NLP) alanında **vectorize etmek**, metinsel verileri sayısal (numerik) forma dönüştürmek anlamına gelir.

>  Kısacası: Kelimeleri sayılara çeviririz, böylece algoritmalar "dili" anlayabilir.

---

## TF-IDF (Term Frequency - Inverse Document Frequency) Vectorizer

###  Amaç:
Kelimenin sadece kaç kez geçtiğine değil, **ne kadar önemli** olduğuna da odaklanır.

###  Formül:
```
TF-IDF(t, d) = TF(t, d) * IDF(t)
```

- **TF (Term Frequency):** Kelimenin dokümanda kaç kez geçtiği.
- **IDF (Inverse Document Frequency):** O kelimenin tüm dokümanlardaki nadirliği.

---

##  Basit Örnek Üzerinden Açıklama

### Belgeler:
```
D1: Python öğrenmek çok eğlenceli.
D2: Python ile yapay zeka projeleri geliştirmek istiyorum.
D3: Yapay zeka ve makine öğrenmesi geleceği şekillendiriyor.
```

### Python ile TF-IDF Vectorizer Uygulaması

```python
from sklearn.feature_extraction.text import TfidfVectorizer

# Veri kümesi
documents = [
    "Python öğrenmek çok eğlenceli.",
    "Python ile yapay zeka projeleri geliştirmek istiyorum.",
    "Yapay zeka ve makine öğrenmesi geleceği şekillendiriyor."
]

# Vectorizer tanımı
vectorizer = TfidfVectorizer()

# TF-IDF matrisini oluştur
tfidf_matrix = vectorizer.fit_transform(documents)

# Özellik isimleri
print("Kelime Özellikleri:")
print(vectorizer.get_feature_names_out())

# Matrisin TF-IDF değerleri
print("\nTF-IDF Matrisi:")
print(tfidf_matrix.toarray())
```

### Örnek Çıktı:
```
Kelime Özellikleri:
['eğlenceli' 'geleceği' 'geliştirmek' 'ile' 'istiyorum' 'makine' 
 'öğrenmek' 'öğrenmesi' 'projeleri' 'python' 'şekillendiriyor' 
 've' 'yapay' 'zeka']

TF-IDF Matrisi:
[[0.577 ... 0.        ]  # D1
 [0.    ... 0.534]       # D2
 [0.    ... 0.445]       # D3
]
```

> Not: TF-IDF sayesinde, her kelimenin dokümana göre **ağırlığı** belirlenir. Çok geçen ama anlamı az olan kelimeler (örneğin “ile”) düşük ağırlık alır.

---

## Ne İşe Yarar?

- **Makine öğrenmesi modellerine giriş için temel adımdır.**
- Metin sınıflandırma, spam tespiti, duygu analizi vb. alanlarda kullanılır.
- Kelimelerin bağlamdaki önem derecesini sayısal olarak ifade eder.

---

## Sonuç

TF-IDF Vectorizer, bir kelimenin belgedeki önemini **istatistiksel ağırlıkla** ölçerek daha anlamlı vektörler oluşturur. NLP projelerinde daha rafine, daha bilgi odaklı sonuçlar üretir.
