<span style="color:skyblue">

# TF-IDF (Term Frequency-Inverse Document Frequency) Vektörizasyonu
</span>


### Matematiksel Tanım


TF-IDF, bir terimin bir belgedeki önemini hesaplamak için kullanılan bir sayısal istatistiktir. İki ana bileşenden oluşur:

#### Terim Frekansı (TF)
Bir terimin belge içindeki sıklığını ölçer:

$$
TF(t,d)=P(t∣d)
$$

#### Ters Belge Frekansı (IDF)
Terimin tüm koleksiyon içindeki yayılmasını ölçer:

$$
IDF(t) = \log_{2}\left(\frac{N}{DF(t)}\right)
$$

Burada:
-  $N$ toplam belge sayısı
- $DF(t)$ terimin $t$ geçtiği belge sayısı

#### TF-IDF Puanı

Son TF-IDF puanı şu şekilde hesaplanır:

$$
TF-IDF(t,d) = TF(t,d) \times IDF(t)
$$



### Öneri Sistemlerindeki Önemi


TF-IDF vektörizasyonu:
- Metinleri sayısal vektörlere dönüştürür
- Nadir terimlere daha yüksek ağırlık verir
- Yaygın terimlerin etkisini azaltır
- Belge benzerliklerinin hesaplanmasına olanak sağlar


<span style="color:skyblue">

# Kosinüs Benzerliği
</span>

### Matematiksel Tanım


Kosinüs benzerliği, iki vektör arasındaki açının kosinüsünü hesaplayarak benzerliği ölçer:

$$
\cos(\theta) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|}
$$

Burada:

-  $A \cdot B$  iki vektörün nokta çarpımı
-  $||\mathbf{A}||$  ve $||\mathbf{B}||$ vektörlerin Öklid normları

Açık forma:

$$
\cos(\theta) = \frac{\sum A_i \times B_i}{\sqrt{\sum A_i^2} \times \sqrt{\sum B_i^2}}
$$


### Öneri Sistemlerindeki Önemi


Kosinüs benzerliği:
- -1 ile 1 arasında normalize edilmiş bir benzerlik puanı üretir
- Vektör uzunluklarından bağımsızdır
- Seyrek (sparse) vektörler için etkilidir
- Belge uzunluğundan etkilenmez
<br><br>

<span style="color:skyblue">

# TF-IDF ve Kosinüs Benzerliğinin Birlikte Kullanımı
</span>


Öneri sistemlerinde bu iki tekniğin birlikte kullanımı şu adımlarla gerçekleşir:

1. Metin Vektörizasyonu:
   ```python
   vectorizer = TfidfVectorizer()
   tfidf_matrix = vectorizer.fit_transform(documents)
   ```

2. Benzerlik Hesaplama:
   ```python
   similarities = cosine_similarity(tfidf_matrix)
   ```



#### Avantajları

- Metin belgelerini etkili bir şekilde karşılaştırır
- Yaygın kelimelerden kaynaklanan gürültüyü azaltır
- Ölçeklenebilir ve verimli hesaplama sağlar
- Dil bağımsız çalışır



#### Kısıtlamalar

- Kelimelerin anlamsal ilişkilerini yakalamaz
- Kelime sırası bilgisini kaybeder
- Eşanlamlı kelimeleri farklı özellikler olarak değerlendirir



#### Örnek Hesaplama

İki belge için basit bir örnek:

**Belge 1:** "öneri sistem makine öğrenme"  
**Belge 2:** "öneri sistem derin öğrenme"

1. **TF-IDF Matrisi:**

<center>

|         | öneri | sistem | makine | öğrenme | derin   |
|:-------:|:-----:|:------:|:------:|:-------:|:-------:|
|Belge 1  | 0.4   | 0.4    | 0.5    | 0.4     | 0       |
|Belge 2  | 0.4   | 0.4    | 0      | 0.4     | 0.5     |
</center>

<br>

2. **Kosinüs Benzerliği:**

$$
\cos(\theta) = \frac{(0.4 \times 0.4) + (0.4 \times 0.4) + (0.5 \times 0) + (0.4 \times 0.4) + (0 \times 0.5)}{\sqrt{(0.4^2 + 0.4^2 + 0.5^2 + 0.4^2 + 0^2)} \times \sqrt{(0.4^2 + 0.4^2 + 0^2 + 0.4^2 + 0.5^2)}} \approx 0.78
$$

Bu sonuç, iki belgenin oldukça benzer olduğunu gösterir.