# TF-IDF
## TF কাকে বলে?
#### TF(Term frequency): মানে কোন শব্দ তোমার বাক্যে কতবার এসেছে বা আছে সেটা একটা সংখ্যায় প্রকাশ করা যেন মেশিন এটা বিশ্লেষণ করতে পারে। 
একটা শব্দ একটা ডকুমেন্ট বা একটা বাক্যে কয়বার আছে। <br>
যেমনঃ I am Bangladeshi and i love Bangladesh.<br>
এই বাক্যে:<br>
I --> 2 বার আছে<br>
am ---> ১ বার আছে<br>
Bnagladesh ---> ১ বার আছে<br>
and ---> ১ বার আছে<br>
love ---> ১ বার আছে<br>
Bangladeshi ---> ১ বার আছে<br>

### TF এর ফর্মুলাঃ 
TF(word) = (একটা শব্দ কতবার আছে বা এসেছে / মোট শব্দ সংখ্যা) <br>
TF('I') = 2/7 = 0.285 <br>
TF('love') = 1/7 = 0.142 <br>



In [8]:
# Term Frequency
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# Step 1: Sample sentence
text = "I am Bangladeshi and i love Bangladesh."

# Step 2: Preprocess - lowercase and tokenize
words = text.lower().replace(".", "").split()

# Step 3: Count word frequencies
word_counts = Counter(words)
total_words = len(words)

# Step 4: Calculate TF for each word
tf_scores = {word: round(count / total_words, 3) for word, count in word_counts.items()}
print("Term Frequencies (TF):\n")
for word, tf in tf_scores.items():
    print(f"{word}: {tf}")

Term Frequencies (TF):

i: 0.286
am: 0.143
bangladeshi: 0.143
and: 0.143
love: 0.143
bangladesh: 0.143


# IDF
### IDF কাকে বলেঃ
IDF: Inverse Document Frequency <br>
একটা শব্দ সব ডকুমেন্টে কতটা কমন। <br>
যদি কোন শব্দ অরায় সব বাক্যে থাকে তাহলে সে খুব সাধারণ শব্দ, তার IDF কম হবে।<br>
যদি কোন শব্দ একটা বা দুইটা বাক্যে মাত্র ১ বার থাকে সে দুর্ল্ভ বা গুরত্তবপুর্ণ , তার মানে IDF বেশি হবে।<br>
যেমনঃ <br>
'I love my country'<br>
'I love python prgramming.'<br>
'I love coding.'<br>
৩ টা বাক্যে  i , love আছে, এটা সাধারণ শব্দ যার IDF আসলে কম।<br>

##### IDF এর ফর্মুলাঃ 
IDF(word) = log(মোট ডকুমেন্টের সংখ্যা / যে সব ডকুমেন্টে এই শব্দ আছে)<br>
IDF(country) = log(3/1) = 0.477<br>
IDF(I) = log(3/3) = 0<br>


## TF*IDF
একটা শব্দ একটা ডকুমেন্টে কতটা গুর্তবপুর্ণ। <br>
ফর্মুলাঃ TF*IDF

In [3]:
# Tf
from sklearn.feature_extraction.text import TfidfVectorizer

In [10]:
text = 'I am Bangladeshi and i love Bangladesh.'
text1 = 'I know python programming'
text2 = 'I love to stay in Bangladesh'

In [11]:
# make objects
tfidf = TfidfVectorizer()

In [12]:
# fit transform
tf_fit = tfidf.fit_transform([text,text1,text2])

In [13]:
# check every vocabulary or word in endcoding 
tfidf.vocabulary_

{'am': 0,
 'bangladeshi': 3,
 'and': 1,
 'love': 6,
 'bangladesh': 2,
 'know': 5,
 'python': 8,
 'programming': 7,
 'to': 10,
 'stay': 9,
 'in': 4}

In [None]:
# showing every word importency
print(tf_fit)

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 13 stored elements and shape (3, 11)>
  Coords	Values
  (0, 0)	0.49047908420610337
  (0, 3)	0.49047908420610337
  (0, 1)	0.49047908420610337
  (0, 6)	0.3730219858594306
  (0, 2)	0.3730219858594306
  (1, 5)	0.5773502691896257
  (1, 8)	0.5773502691896257
  (1, 7)	0.5773502691896257
  (2, 6)	0.3730219858594306
  (2, 2)	0.3730219858594306
  (2, 10)	0.49047908420610337
  (2, 9)	0.49047908420610337
  (2, 4)	0.49047908420610337


In [15]:
tfidf.get_feature_names_out()


array(['am', 'and', 'bangladesh', 'bangladeshi', 'in', 'know', 'love',
       'programming', 'python', 'stay', 'to'], dtype=object)

In [17]:
print(tf_fit.toarray())

[[0.49047908 0.49047908 0.37302199 0.49047908 0.         0.
  0.37302199 0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.57735027
  0.         0.57735027 0.57735027 0.         0.        ]
 [0.         0.         0.37302199 0.         0.49047908 0.
  0.37302199 0.         0.         0.49047908 0.49047908]]


# Apply Tf-IDF for Email spam