# Vectorize İşlemi ve TF-IDF Vectorizer ile Örnekler

##  Vectorize (Vektörleştirme) Nedir?

Makine öğrenmesinde ve doğal dil işleme (NLP) uygulamalarında, metin verileri doğrudan sayısal algoritmalarla işlenemez. Bu nedenle **vektörleştirme**, metinleri sayısal vektörlere dönüştürme işlemidir.

Örneğin:"Merhaba dünya"



bu cümle, sayısal bir modelin anlayabileceği şekilde bir **vektör** haline getirilmelidir.

---

## 📌 TF-IDF (Term Frequency – Inverse Document Frequency) Nedir?

TF-IDF, bir kelimenin bir belgede ne kadar önemli olduğunu belirlemek için kullanılan istatistiksel bir yöntemdir.

### Bileşenleri:
- **TF (Term Frequency)**: Bir kelimenin belgede kaç kez geçtiğini ölçer.
- **IDF (Inverse Document Frequency)**: Bu kelimenin tüm belgeler arasında ne kadar nadir olduğunu ölçer.

### Formül:TF-IDF(w, d, D) = TF(w, d) * log(N / DF(w))
- `w`: kelime
- `d`: belge
- `D`: belge koleksiyonu
- `N`: toplam belge sayısı
- `DF(w)`: `w` kelimesinin içinde bulunduğu belge sayısı

---

In [4]:

## 🧪 Örnek Uygulama (Python – scikit-learn ile)
from sklearn.feature_extraction.text import TfidfVectorizer

# Örnek belgeler
belgeler = [
    "kedi köpek ve kuş",
    "kedi ve köpek",
    "kuş uçar"
]

# TF-IDF vectorizer nesnesi oluştur
vectorizer = TfidfVectorizer()

# Vektörleştirme işlemi
tfidf_matrisi = vectorizer.fit_transform(belgeler)

# Kelime adları
kelimeler = vectorizer.get_feature_names_out()

# Matrisin DataFrame haline getirilmesi
import pandas as pd

df = pd.DataFrame(tfidf_matrisi.toarray(), columns=kelimeler)
print(df)


      kedi       kuş    köpek      uçar       ve
0  0.50000  0.500000  0.50000  0.000000  0.50000
1  0.57735  0.000000  0.57735  0.000000  0.57735
2  0.00000  0.605349  0.00000  0.795961  0.00000


Her hücredeki değer, o kelimenin ilgili belgede ne kadar önemli olduğunu gösterir.
uçar kelimesi sadece 3. belgede geçtiği için yüksek bir TF-IDF değerine sahiptir.
kedi ve köpek gibi sık geçen kelimelerin değeri daha dengelidir.