
#  TF-IDF Vectorizer ile Vectorize İşlemi Nedir?

##  Tanım

**Vectorize işlemi**, metin verisinin sayısal bir forma dönüştürülmesi işlemidir. Bu işlem, doğal dil işleme (NLP) projelerinde metinlerin makine öğrenmesi modellerinde kullanılabilmesi için zorunludur.

Metinler doğrudan sayılarla ifade edilemeyeceğinden, bu işlem sayesinde kelimeler veya belgeler bir vektör (sayı dizisi) haline getirilir.

---

##  TF-IDF (Term Frequency - Inverse Document Frequency) Nedir?

TF-IDF, bir kelimenin bir belgede ne kadar önemli olduğunu ölçen bir istatistiksel yöntemdir.

- **TF (Term Frequency)**: Bir kelimenin bir belgede kaç kez geçtiğidir.
- **IDF (Inverse Document Frequency)**: Kelimenin tüm belgelerde ne kadar nadir geçtiğini gösterir.

###  Formül:

\[
\text{TF-IDF}(t, d) = \text{TF}(t, d) \times \log\left(\frac{N}{df(t)}\right)
\]

- \( t \): Terim (kelime)
- \( d \): Belge
- \( N \): Toplam belge sayısı
- \( df(t) \): Kelimenin geçtiği belge sayısı

---

##  Örnek Uygulama

Aşağıdaki Python kodu ile 3 cümlelik bir örnek veri setinde TF-IDF vectorizer uygulayalım:

```python
from sklearn.feature_extraction.text import TfidfVectorizer

# Örnek belgeler
documents = [
    "Kediler harika evcil hayvanlardır.",
    "Köpekler sadık ve oyuncudur.",
    "Evcil hayvanlar insanlara mutluluk verir."
]

# TF-IDF vectorizer
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# Kelime-vektör eşlemesi
feature_names = vectorizer.get_feature_names_out()

# Sonuçları tablo halinde göster
import pandas as pd
df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)
print(df)
```

###  Çıktı Örneği:

|         | evcil | hayvanlardır | insanlara | kediler | köpekler | mutluluk | oyuncudur | sadık | verir |
|---------|-------|--------------|-----------|---------|----------|----------|------------|--------|--------|
| **Doc1**| 0.47  | 0.73         | 0         | 0.47    | 0        | 0        | 0          | 0      | 0      |
| **Doc2**| 0     | 0            | 0         | 0       | 0.63     | 0        | 0.63       | 0.63   | 0      |
| **Doc3**| 0.52  | 0            | 0.52      | 0       | 0        | 0.52     | 0          | 0      | 0.52   |

---

##  Özet

- **Vectorize** işlemi, metinleri sayısal hale getirir.
- **TF-IDF**, kelime önemine göre ağırlıklı vektörler oluşturur.
- Bu vektörler, makine öğrenmesi algoritmalarında kullanılır.