# CountVectorizer ile Metni Sayısal Olarak Görselleştirme

CountVectorizer, metin verisini Bag of Words yaklaşımını kullanarak bir matris (matrix) formuna dönüştüren çok kullanışlı bir araçtır.

**CountVectorizer Matrisi Nasıl Çalışır?**

CountVectorizer tarafından oluşturulan matriste:

**Her satır (row) →** bir cümleyi veya dokümanı temsil eder

**Her sütun (column) →** vocabulary’deki benzersiz bir kelimeyi temsil eder

**Her hücre (cell) →** o kelimenin ilgili cümlede kaç kez geçtiğini (frekans) gösterir

CountVectorizer, Bag of Words modelinin otomatik olarak uygulanmasını sağlar.

# Adım 1: Gerekli Kütüphaneleri İçe Aktarma ve Corpus Tanımlama

Bu adımda, metni sayısal forma dönüştürmek için gerekli olan kütüphaneleri içe aktaracak ve analiz edeceğimiz metinleri içeren bir corpus tanımlayacağız.

**1. NumPy (numpy)**

**2. Scikit-learn (sklearn)**


In [13]:
from sklearn.feature_extraction.text import CountVectorizer
documents = [
    "I love NLP",
    "Machine learning is fun",
    "NLP is powerful",
    "Students are learning NLP"
]

# Adım 2: sklearn Vectorizer Tanımlama

Bu adımda, metni sayısal forma dönüştürmek için **scikit-learn kütüphanesindeki CountVectorizer sınıfını** tanımlayacağız.

CountVectorizer, metni otomatik olarak:
*   kelimelere ayırır (tokenization)
*   vocabulary oluşturur
*   kelime frekanslarını hesaplar
*  ve Bag of Words matrisi üretir

Bu sınıf, davranışını kontrol etmek için çeşitli hyperparameter (ayarlanabilir parametreler) alabilir.

**Önemli Hyperparameter’lar**

**1️⃣ ngram_range:** Bu parametre, modelin hangi kelime gruplarını feature olarak kullanacağını belirler.

**2️⃣ stop_words:** Bu parametre, model için çok fazla anlam taşımayan yaygın kelimeleri kaldırır.

**3️⃣ max_features:** Bu parametre, vocabulary boyutunu sınırlar.

In [14]:
vectorizer = CountVectorizer(
    stop_words="english",
    ngram_range=(1, 2),
    max_features=20
)

# Adım 3: Vectorizer’ı Eğitme (Fit) ve Metni Dönüştürme (Transform)

Bu adımda, tanımladığımız CountVectorizer’ı corpus üzerinde kullanarak metni sayısal forma dönüştüreceğiz.

Bu işlem iki temel aşamadan oluşur:

**1️⃣ Fit İşlemi (Modelin Vocabulary Öğrenmesi)**

Fit işlemi, vectorizer’ın corpus’u inceleyerek:

tüm benzersiz kelimeleri öğrenmesini, vocabulary oluşturmasını, her kelimeye bir indeks atamasını sağlar.

**2️⃣ Transform İşlemi (Metni Sayısal Forma Dönüştürme)**

Transform işlemi, öğrenilen vocabulary kullanılarak metni sayısal vektörlere dönüştürür.

In [15]:
X = vectorizer.fit_transform(documents)
feature_names = vectorizer.get_feature_names_out()
print("Features:")
print(feature_names)
print("\nDocument-Term Matrix:")
print(X.toarray())

Features:
['fun' 'learning' 'learning fun' 'learning nlp' 'love' 'love nlp'
 'machine' 'machine learning' 'nlp' 'nlp powerful' 'powerful' 'students'
 'students learning']

Document-Term Matrix:
[[0 0 0 0 1 1 0 0 1 0 0 0 0]
 [1 1 1 0 0 0 1 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0]
 [0 1 0 1 0 0 0 0 1 0 0 1 1]]


**KAYNAK:** [**https://www.geeksforgeeks.org/**](https://www.geeksforgeeks.org/)