<a href="https://colab.research.google.com/github/saribasmetehan/CountVectorizer/blob/main/countvectorizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
# Frekansları oluşturmak

data = ["Uykucu Ülkü, ucu tüllü üç örtüyü ütüyle ütüleyip de mi üstüne örtünmeli, üç örtünün ucunu tülleyip ütüleyip de mi üstüne örtünmeli?"]

vectorizer_test = CountVectorizer()
X_test = vectorizer_test.fit_transform(data)

df_test = pd.DataFrame(X_test.toarray(), columns=vectorizer_test.get_feature_names_out())

In [None]:
# Frekansları görmek

df_test

Unnamed: 0,de,mi,tülleyip,tüllü,ucu,ucunu,uykucu,örtünmeli,örtünün,örtüyü,ülkü,üstüne,ütüleyip,ütüyle,üç
0,2,2,1,1,1,1,1,2,1,1,1,2,2,1,2


In [None]:
cumleler = [
  "Makine öğrenimi veri bilimi ve veri analizi için gereklidir.",
  "Veri bilimi projelerinde veri temizleme ve veri analizi önemlidir.",
  "Veri analizi, veri bilimi ve makine öğrenimi için temel bir adımdır.",
  "Veri temizleme ve veri analizi, veri bilimi projelerinde önemli bir rol oynar.",
  "Veri bilimi ve makine öğrenimi projelerinde veri analizi sıkça kullanılır."
  ]

In [None]:
vectorizer = CountVectorizer()

In [None]:
# Listeyi kelime-frekans matrisine dönüştürmek

X = vectorizer.fit_transform(cumleler)

In [None]:
# Matristeki olarak kullanılan tüm benzersiz kelimeleri almak

feature_names = vectorizer.get_feature_names_out()

In [None]:
feature_names

array(['adımdır', 'analizi', 'bilimi', 'bir', 'gereklidir', 'için',
       'kullanılır', 'makine', 'oynar', 'projelerinde', 'rol', 'sıkça',
       'temel', 'temizleme', 've', 'veri', 'önemli', 'önemlidir',
       'öğrenimi'], dtype=object)

In [None]:
# Matrisi (sparse matrix) array formatına dönüştürmek ve görüntülemek
X.toarray()

array([[0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 3, 0, 1, 0],
       [1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 2, 0, 0, 1],
       [0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 3, 1, 0, 0],
       [0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 2, 0, 0, 1]])

In [None]:
# Bazı metrikleri deniyorum
# Features sayısını 5 ile sınırladım

vectorizer_5 = CountVectorizer(max_features = 5)

In [None]:
Y = vectorizer_5.fit_transform(cumleler)
feature_names_5 = vectorizer_5.get_feature_names_out()

feature_names_5

array(['analizi', 'bilimi', 'projelerinde', 've', 'veri'], dtype=object)

In [None]:
Y.toarray()

array([[1, 1, 0, 1, 2],
       [1, 1, 1, 1, 3],
       [1, 1, 0, 1, 2],
       [1, 1, 1, 1, 3],
       [1, 1, 1, 1, 2]])

In [None]:
# Cümleyi hem tekli grup (Unigram) hem de iki kelimelik grup (Bigram) şeklinde değerlindiriyorum

vectorizer_bigram = CountVectorizer(ngram_range=(1,2))

In [None]:
Z = vectorizer_bigram.fit_transform(cumleler)
feature_bigram = vectorizer_bigram.get_feature_names_out()

feature_bigram

array(['adımdır', 'analizi', 'analizi için', 'analizi sıkça',
       'analizi veri', 'analizi önemlidir', 'bilimi',
       'bilimi projelerinde', 'bilimi ve', 'bir', 'bir adımdır',
       'bir rol', 'gereklidir', 'için', 'için gereklidir', 'için temel',
       'kullanılır', 'makine', 'makine öğrenimi', 'oynar', 'projelerinde',
       'projelerinde veri', 'projelerinde önemli', 'rol', 'rol oynar',
       'sıkça', 'sıkça kullanılır', 'temel', 'temel bir', 'temizleme',
       'temizleme ve', 've', 've makine', 've veri', 'veri',
       'veri analizi', 'veri bilimi', 'veri temizleme', 'önemli',
       'önemli bir', 'önemlidir', 'öğrenimi', 'öğrenimi için',
       'öğrenimi projelerinde', 'öğrenimi veri'], dtype=object)

In [None]:
Z.toarray()

array([[0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 1, 1, 0, 0, 0, 0, 1, 0, 0,
        1],
       [0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 3, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        0],
       [1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0,
        0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 2, 1, 1, 0, 0, 0, 0, 1, 1, 0,
        0],
       [0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0,
        1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 3, 1, 1, 1, 1, 1, 0, 0, 0, 0,
        0],
       [0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
        0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 2, 1, 1, 0, 0, 0, 0, 1, 0, 1,
        0]])