
### **কাউন্ট ভেক্টরাইজার কী?**  
**Count Vectorizer** হল মেশিন লার্নিং-এ টেক্সট ডেটাকে **সংখ্যায় রূপান্তর** করার একটি পদ্ধতি। এটি টেক্সটের প্রতিটি শব্দ (word) কতবার **দেখা গিয়েছে** সেটা গণনা করে, আর সেই সংখ্যাগুলোকে একটি **ম্যাট্রিক্স** (সারণি) আকারে সাজায়।  

---

### **কাজ করার পদ্ধতি:**  
১. **ভোকাবুলারি তৈরি (Build Vocabulary):**  
   - প্রথমে এটি সমস্ত টেক্সট ডেটা (যেমন: বাক্য বা ডকুমেন্ট) পড়ে **ইউনিক শব্দগুলোর একটি লিস্ট** তৈরি করে। এই লিস্টকে বলে **Vocabulary** (ভোকাবুলারি)।  
   - *উদাহরণ:* ["I love cats", "I love dogs"] → Vocabulary: ["I", "love", "cats", "dogs"]  

২. **শব্দ গণনা (Count Words):**  
   - প্রতিটি টেক্সটকে **সংখ্যার ভেক্টরে** (একটি সিরিজ অফ নাম্বার) রূপান্তর করে।  
   - প্রতিটি সংখ্যা দেখায় **ভোকাবুলারির শব্দটি কতবার** সেই টেক্সটে আছে।  
   - *উদাহরণ:*  
     - "I love cats" → [1, 1, 1, 0] (কারণ "I" ১ বার, "love" ১ বার, "cats" ১ বার, "dogs" ০ বার)।  
     - "I love dogs" → [1, 1, 0, 1]  

---

### **গুরুত্বপূর্ণ ফিচারস (Features):**  
- **Stop Words:** অপ্রয়োজনীয় শব্দ (যেমন: "and", "the") বাদ দেওয়া যায়।  
- **Lowercase:** সব শব্দকে **ছোট হাতের অক্ষরে** (lowercase) রূপান্তর করে (যেমন: "Cat" → "cat")।  
- **N-grams:** শুধু একক শব্দ না, **শব্দজোড়** (যেমন: "good boy") কাউন্ট করা যায়।  

---



### **কেন ব্যবহার করব?**  
- **মেশিন লার্নিং মডেল** (যেমন: Naive Bayes, SVM) শুধু **সংখ্যা** বোঝে, টেক্সট না।  
- **টেক্সট ক্লাসিফিকেশন** (যেমন: স্পাম ডিটেকশন), **সেন্টিমেন্ট অ্যানালাইসিস**-এ এটি খুবই জনপ্রিয়।  

---

### **সীমাবদ্ধতা (Limitations):**  
- শুধু **শব্দের ফ্রিকোয়েন্সি** গণনা করে, শব্দের **অর্থ** বা **পরিপেক্ষিতা** বোঝে না।  
- বড় ভোকাবুলারি হলে ম্যাট্রিক্স **স্পার্স** (অনেক শূন্য) হতে পারে, যা মডেলের জন্য চ্যালেঞ্জিং।

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

In [11]:
dataset = [
    'My name is Mahtab Haque',
    'I study at CUET',
    'I live in Dhaka',
    'I was born in DHaka'
]

In [12]:
cv = CountVectorizer()
x = cv.fit_transform(dataset)
x

<4x13 sparse matrix of type '<class 'numpy.int64'>'
	with 15 stored elements in Compressed Sparse Row format>

In [13]:
cv.get_feature_names_out()

array(['at', 'born', 'cuet', 'dhaka', 'haque', 'in', 'is', 'live',
       'mahtab', 'my', 'name', 'study', 'was'], dtype=object)

In [14]:
x.toarray()

array([[0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0],
       [1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1]])