<a href="https://colab.research.google.com/github/gulcihanglmz/natural-language-processing/blob/main/term__frequency_%E2%80%94_inverse_document_frequency%E2%80%94TF_IDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**TF-IDF, feature engineering**
* Terim Frekansı (TF) ve Ters Doküman Frekansı (IDF)

**Kelimelerin metin içerisinde ne kadar önemli oldugunu belirler**

* **Term Frequency (TF)**: Bir kelimenin bir belgede ne kadar sık geçtiğini ölçer.Eğer bir kelime belgede çok geçiyorsa, TF değeri büyük olur.
* **Inverse Document Frequency (IDF)**: Bir kelimenin tüm belgelerdeki yaygınlığını ölçer. Bir kelimenin
çok belgede geçiyorsa, o kelime çok fazla bilgi sağlamaz.Eğer bir kelime çok fazla belgede geçiyorsa, bu kelimenin IDF değeri düşük olur çünkü kelime genel olarak yaygındır ve ayırt edici değildir.
Buna karşılık, az sayıda belgede geçen kelimenin IDF değeri büyük olur çünkü bu kelime nadir ve muhtemelen daha anlamlıdır.

In [None]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# documan oluştur
document = ["Cats are very cute animals",
            "Cats and dogs are very cute animals",
            "Cows produce milk"]

In [None]:
# vectorizer tanımlaması
tfidf_vectorizer = TfidfVectorizer()

In [None]:
# metinleri sayısal hale getir
tfidf_vectorizer_vectors = tfidf_vectorizer.fit_transform(document)
print(tfidf_vectorizer_vectors.toarray())

[[0.         0.4472136  0.4472136  0.4472136  0.         0.4472136
  0.         0.         0.         0.4472136 ]
 [0.45212331 0.34385143 0.34385143 0.34385143 0.         0.34385143
  0.45212331 0.         0.         0.34385143]
 [0.         0.         0.         0.         0.57735027 0.
  0.         0.57735027 0.57735027 0.        ]]


In [None]:
'''
Bag of Words:
CountVectorizer (BoW)
* Kelime kaç kez geçmiş onu sayar.
* 0, 1, 2 gibi sayılar (kelime frekansları).
* Kelimenin önemini ya da anlamını bilmez.

TF-IDF:
* Kelimenin sadece dökümanda geçme sıklığına değil, koleksiyondaki önemine bakar.
* 0 ile 1 arasında float değerler (göreceli önem).
* Herkeste geçen kelimelere düşük, nadir kelimelere yüksek değer verir.

Word Embedding:
* Her kelimeyi bir anlam uzayında gösterir. (Vektörün yönü ve büyüklüğü anlam içerir.)
* Genelde 100-300 boyutlu float vektörler (örneğin [0.32, -0.57, 0.88, ...])
* Kelimeler arasındaki anlamsal ilişkileri yakalamak.

'''

'\n\nTF-IDF:\n* Kelimenin sadece dökümanda geçme sıklığına değil, koleksiyondaki önemine bakar.\n* 0 ile 1 arasında float değerler (göreceli önem).\n* Herkeste geçen kelimelere düşük, nadir kelimelere yüksek değer verir.\n\n\n'

In [None]:
# kelime kumesini incele
feature_names = tfidf_vectorizer.get_feature_names_out()
feature_names

array(['and', 'animals', 'are', 'cats', 'cows', 'cute', 'dogs', 'milk',
       'produce', 'very'], dtype=object)

In [None]:
df_tfidf = pd.DataFrame(tfidf_vectorizer_vectors.toarray(), columns=feature_names)
df_tfidf

Unnamed: 0,and,animals,are,cats,cows,cute,dogs,milk,produce,very
0,0.0,0.447214,0.447214,0.447214,0.0,0.447214,0.0,0.0,0.0,0.447214
1,0.452123,0.343851,0.343851,0.343851,0.0,0.343851,0.452123,0.0,0.0,0.343851
2,0.0,0.0,0.0,0.0,0.57735,0.0,0.0,0.57735,0.57735,0.0


In [None]:
# tfidf değerlerinin ortalaması
tf_idf = df_tfidf.mean(axis=0)
tf_idf

Unnamed: 0,0
and,0.150708
animals,0.263688
are,0.263688
cats,0.263688
cows,0.19245
cute,0.263688
dogs,0.150708
milk,0.19245
produce,0.19245
very,0.263688


# SMS Spam Collection Dataset TF-IDF

In [None]:
df = pd.read_csv("/content/drive/MyDrive/NLP/spam.csv", encoding="ISO-8859-1")
df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


In [None]:
df = df.drop(["Unnamed: 2", "Unnamed: 3", "Unnamed: 4"], axis=1)
df.head()

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [None]:
# stop words
import nltk
import re
nltk.download("stopwords")
from nltk.corpus import stopwords
stop_words = set(stopwords.words("english"))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
# Data cleaning fonksiyonu
def cleaned_text(text):
    if isinstance(text, str):  # Eğer veri tipi string değilse hata almamak için kontrol et
        text = text.lower()
        text = " ".join([word for word in text.split() if word not in stop_words])
        text = re.sub(r"[^a-zA-Z\s]", "", text)
        text = " ".join([word for word in text.split() if len(word) > 2])
        return text
    return ""  # Eğer NaN veya başka bir tip gelirse boş string döndür

In [None]:
cleaned_df = df["v2"].apply(cleaned_text)
cleaned_df.head()

Unnamed: 0,v2
0,jurong point crazy available bugis great world...
1,lar joking wif oni
2,free entry wkly comp win cup final tkts may te...
3,dun say early hor already say
4,nah think goes usf lives around though


In [None]:
# tf-idf vectorizer tanımlaması
# metni otomatik olarak boşluklardan ayırıp kelimelere böler(split işlemi otomatik olur)
tfidf_vectorizer = TfidfVectorizer()

In [None]:
x = tfidf_vectorizer.fit_transform(cleaned_df)

In [None]:
# kelime kümesi incelemesi
feature_names = tfidf_vectorizer.get_feature_names_out()
feature_names

array(['aah', 'aaniye', 'aaooooright', ..., 'zoom', 'zouk', 'zyada'],
      dtype=object)

In [None]:
tf_idf_score = x.mean(axis=0).A1
tf_idf_score # her kelimenin tf-idf değeri

array([2.33176110e-04, 1.77183142e-05, 1.56222734e-04, ...,
       5.79104085e-05, 5.98834438e-05, 3.76077521e-05])

In [None]:
# tf-idf değerini içeren df
df_tfidf = pd.DataFrame(tf_idf_score, index=feature_names, columns=["tf-idf"])
df_tfidf.sort_values(by="tf-idf", ascending=False).head(15)

Unnamed: 0,tf-idf
call,0.021224
get,0.013978
come,0.011549
ltgt,0.010926
good,0.010037
know,0.010014
now,0.009999
got,0.009834
sorry,0.009803
like,0.00964
