🔹 TF-IDF কী?
TF-IDF এর পুরো নাম: Term Frequency – Inverse Document Frequency।
<br>
এটি একটি পদ্ধতি, যার মাধ্যমে আমরা কোনো document-এর মধ্যে প্রতিটি শব্দের গুরুত্ব (importance) হিসেব করি।<br>
🔹 কেন ব্যবহার করব?
আমরা যখন টেক্সট ডেটা দিয়ে মেশিন লার্নিং বা NLP মডেল ট্রেইন করি, তখন সেই টেক্সটকে সংখ্যায় রূপান্তর করতে হয়। TF-IDF সেই কাজটা করে।
<br>
✅ এটি গুরুত্বপূর্ণ শব্দগুলোকে বেশি ওজন (weight) দেয় এবং সাধারণ শব্দগুলোকে কম গুরুত্ব দেয় (যেমন: "the", "is", "and" ইত্যাদি)।<br>
✅ এটি শব্দের প্রাসঙ্গিকতা (relevance) বোঝাতে সাহায্য করে।<br>
✅ 1. Term Frequency (TF)
একটি ডকুমেন্টে কোনো শব্দ কতবার আছে — সেটা মাপে।
<br>
𝑇𝐹(𝑡)=
শব্দটি যতবার আছে
/মোট শব্দ সংখ্যা ডকুমেন্টে

<br>
✅ 2. Inverse Document Frequency (IDF)
যে শব্দ বেশি ডকুমেন্টে আছে, তার গুরুত্ব কমিয়ে দেয়।
<br>
IDF(t)=log( মোট ডকুমেন্ট সংখ্যা/
1+যেসব ডকুমেন্টে শব্দটি আছে)<br>
✅ TF-IDF:

TF-IDF(t)=TF(t)×IDF(t)

In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
texts = [
    "Lorem Ipsum is simply dummy text of the printing and typesetting industry.",
    "Lorem Ipsum has been the industry's standard dummy text ever since the 1500s.",
    "It has survived not only five centuries."
]

In [3]:
# make object
tfvetor = TfidfVectorizer()

In [4]:
# fit and transform
tfidf_matrix = tfvetor.fit_transform(texts)

In [5]:
# see words
print(tfvetor.get_feature_names_out())


['1500s' 'and' 'been' 'centuries' 'dummy' 'ever' 'five' 'has' 'industry'
 'ipsum' 'is' 'it' 'lorem' 'not' 'of' 'only' 'printing' 'simply' 'since'
 'standard' 'survived' 'text' 'the' 'typesetting']


In [None]:
# show in matrix form and conver text to array
print(tfidf_matrix.toarray())

[[0.         0.32494953 0.         0.         0.24713249 0.
  0.         0.         0.24713249 0.24713249 0.32494953 0.
  0.24713249 0.         0.32494953 0.         0.32494953 0.32494953
  0.         0.         0.         0.24713249 0.24713249 0.32494953]
 [0.30451604 0.         0.30451604 0.         0.2315923  0.30451604
  0.         0.2315923  0.2315923  0.2315923  0.         0.
  0.2315923  0.         0.         0.         0.         0.
  0.30451604 0.30451604 0.         0.2315923  0.46318459 0.        ]
 [0.         0.         0.         0.38988801 0.         0.
  0.38988801 0.29651988 0.         0.         0.         0.38988801
  0.         0.38988801 0.         0.38988801 0.         0.
  0.         0.         0.38988801 0.         0.         0.        ]]


## 🔹 Hashing Vectorizer কী?
Hashing Vectorizer টেক্সটকে সংখ্যায় রূপান্তর করার একটা পদ্ধতি। এটা প্রতিটি শব্দকে একটা নির্দিষ্ট ফিক্সড সাইজের vector-এ রূপান্তর করে hashing function ব্যবহার করে।
<br>
🧠 মানে, কোনো শব্দ কী সেটা না দেখে, তার উপর একটা ম্যাথমেটিকাল ফাংশন চালিয়ে তাকে একটা নির্দিষ্ট position-এ পাঠিয়ে দেয়।