### 1-Vectorize işlemi nedir? TFIDF vectorizer üzerinden örneklerle açıkladığınız bir markdown oluşturunuz.

# Vektörize İşlemi ne demektir ?
Makine öğrenmesi modelleri verileri sayısal biçimde işler. Ancak metin, kategorik değer gibi veriler doğrudan kullanılmaz. Bu nedenle **vectorize işlemi**, bu verileri modelin anlayabileceği şekilde **sayısal vektörlere** dönüştürme işlemidir.




### Neden vektörize işleme gerek duyarız:
--> Çünkü Metin gibi veriler string türündedir, matematiksel işlemler yapılamaz ve makine öğrenmesi algoritmaları sayılar girdiler ile çalışır.
Vektöre dönüştürme sayesinde bu veriler modelin eğitilmesinde kullanılabilir.(lineer cebirsel optimizasyonlara olanak tanır).
Özellikle doğal dil işleme projelerinde olmazsa olmazdır.

#### Vectorize Yöntemleri:
- **One-Hot Encoding:** Her kategori için ayrı bir sütun oluşturur. 1 ve 0 ile temsil edilir.
- **Count Vectorizer:** Her kelimenin kaç kez geçtiğini sayar ve bileşen olarak kullanır.
- **TF-IDF Vectorizer:** Hem kelimenin belge içindeki sıklığını hem de tüm belgelerdeki nadirliğini dikkate alır. 

## TFIDF vectorizer üzerinden örneklerle açıklayalım :

**TF-IDF (Term Frequency – Inverse Document Frequency)**, bir kelimenin bir belge içinde ne kadar önemli olduğunu gösteren bir sayısal değerdir. Bu yöntem özellikle metin sınıflandırma işlemlerinde çok kullanılır.
#### Bileşenler:
- **TF (Term Frequency):** Kelimenin, belge içindeki tekrar oranı  
- **IDF (Inverse Document Frequency):** Kelimenin tüm belgeler arasında ne kadar az geçtiğini ölçer
 
*terimsel olarak baktıysak örneğimize geçelim...*

#### Örnek cümleler:

----------------------------------

1."müzik dinlemek ruhu rahatlatır"                   
2."kitap okumak insanı geliştirir"                 
3. "spor yapmak bedeni güçlendirir"                  
4. "spor ve müzik birlikte yapılabilir" 

-----------------------------------

yukarıda 4 cümlemiz var ve bu cümlelerde geçen terimler şu şekilde :

['müzik', 'dinlemek', 'ruhu', 'rahatlatır',  'kitap', 'okumak', 'insanı', 'geliştirir',  'spor', 'yapmak', 'bedeni', 'güçlendirir', 
've', 'birlikte', 'yapılabilir']


ilk olarak TF halini hesaplayacağız.
### 1. TF (Term Frequency)

4.'de "spor" ve "müzik" birer kez geçiyor, toplam kelime sayısı: 5  
- TF(spor, 4) = 1 / 5 = 0.2  
- TF(müzik, 4) = 1 / 5 = 0.2


sonrasında IDF
### 2. IDF (Inverse Document Frequency)

- “müzik” → 1. ve 4. → geçiyor → IDF = log(4 / 2) ≈ 0.301  
- “spor” → 3. ve 4. → geçiyor → IDF = log(4 / 2) ≈ 0.301  
- “geliştirir” → sadece 2.’de → IDF = log(4 / 1) ≈ 0.602


TF-IDF çarpımı ile skoru öğrenicez
### 3. TF-IDF

- TF-IDF(müzik, 4) = 0.2 × 0.301 ≈ **0.060**  
- TF-IDF(spor, 4) = 0.2 × 0.301 ≈ **0.060**  
- TF-IDF(geliştirir, 2) = 1/4 × 0.602 = **0.150**

“müzik” ve “spor” iki belgede geçtiği için IDF’leri düşüktür.“geliştirir” gibi nadir kelimeler daha yüksek TF-IDF alır.Bu sayede model, ayırt edici ve bilgi taşıyan kelimelere odaklanabilir.Yorumlarını yapabiliriz bu skorlar ile.




### 2- Son derste geliştirdiğimiz model üzerinde çalışarak skor yükseltmeye çalışınız:

In [3]:
import pandas as pd

In [5]:
df = pd.read_csv("spam_ham_dataset.csv")
df.head()

Unnamed: 0.1,Unnamed: 0,label,text,label_num
0,605,ham,Subject: enron methanol ; meter # : 988291\nth...,0
1,2349,ham,"Subject: hpl nom for january 9 , 2001\n( see a...",0
2,3624,ham,"Subject: neon retreat\nho ho ho , we ' re arou...",0
3,4685,spam,"Subject: photoshop , windows , office . cheap ...",1
4,2030,ham,Subject: re : indian springs\nthis deal is to ...,0


In [6]:
df = df[["text", "label_num"]]
df.head()


Unnamed: 0,text,label_num
0,Subject: enron methanol ; meter # : 988291\nth...,0
1,"Subject: hpl nom for january 9 , 2001\n( see a...",0
2,"Subject: neon retreat\nho ho ho , we ' re arou...",0
3,"Subject: photoshop , windows , office . cheap ...",1
4,Subject: re : indian springs\nthis deal is to ...,0


In [7]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [9]:
veri = df["text"]
etiket = df["label_num"]

veri_egitim, veri_test, etiket_egitim, etiket_test = train_test_split(veri, etiket, test_size=0.2, random_state=42)

vectorizer = TfidfVectorizer(stop_words="english", max_df=0.85 , min_df=2,ngram_range=(1, 2))
vektor_egitim = vectorizer.fit_transform(veri_egitim)
vektor_test = vectorizer.transform(veri_test)

# yukarıda metin verilerimizi makine öğrenmesi algoritmalarının anlayabileceği yani sayısal forma dönüştürmk için TFIDF vectorizer kullandım.
# stop_words="english" parametresi kullanarak, İngilizce'deki "the", "is", "and" gibi anlam taşımayan sık kelimeleri filtremiş oldum.
# max_df=0.85 çok sık geçen ama anlam taşımayan kelimeleri eledim.Modeli daha ayırt edici kelimelere odakladım.
# min_df=2 sadece bir-iki mesajda geçen kelimeleri eledim.Çünkü bu kelimeler genelde çok özel ya da anlamsız kelimeler oluyor ve modele katkı sağlamıyor.
# ngram_range=(1, 2) parametresinde tek kelimelerin yanı sıra iki kelimelik kalıpları da dahil ettim.Özellikle spam mesajlarda geçen “free offer”, “click now” gibi ifadeler modelin daha iyi anlamasına yardımcı oluyor.
# fit_transform eğitim verisindeki kelimeleri analiz etti ve bunları vektörlere çevirdi.
# transform test verisini aynı kelime bilgisiyle vektörleştirdi.

model = MultinomialNB()
model.fit(vektor_egitim, etiket_egitim)

tahmin = model.predict(vektor_test)

accuracy_score(etiket_test, tahmin)


0.9584541062801932

#### Yaklaşık olarak doğruluk oranını 0.92'den 0.95 e çıkarmış olduk.

##### noktalama vb. ifadelerinde düzenlemensini gerçekleştirip sonrasında vektörizemizi gerçekleştirirsek nasıl bir sonuç alırız bunu da merak ettiğim ve doğruluk oranının artıcağını düşündüm için araştırmasını yaptım ve şu adımları izledim:

In [12]:
import re

re → regular expressions (düzenli ifadeler) modülüdür.Metinler üzerinde arama, değiştirme, filtreleme gibi işlemleri kolayca yapmanı sağlar.

In [24]:
def temizle(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    return text
df["text_temiz"] = df["text"].apply(temizle)

veri = df["text_temiz"]
etiket = df["label_num"]

veri_egitim, veri_test, etiket_egitim, etiket_test = train_test_split(veri, etiket, test_size=0.2, random_state=42)

vectorizer = TfidfVectorizer(stop_words="english", max_df=0.85, min_df=2, ngram_range=(1, 2))
vektor_egitim = vectorizer.fit_transform(veri_egitim)
vektor_test = vectorizer.transform(veri_test)

model = MultinomialNB()
model.fit(vektor_egitim, etiket_egitim)
tahmin = model.predict(vektor_test)

accuracy_score(etiket_test, tahmin)


0.966183574879227

#### Sonuç olarak, gerçekleştirdiğim metin temizleme işlemi sonrasında modelin doğruluk oranı %92'den %96'ya yükseldi. Bu da yapılan ön işlemenin model performansına olumlu bir katkı sağladığını göstermektedir.
