In [6]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
 
# инициализируем
vectorizer = CountVectorizer()
# составляем корпус документов
corpus = [
  'слово1 слово2 слово3',
  'слово2 слово3',
  'слово1 слово2 слово1',
  'слово4'
]
# подсчитываем
X = vectorizer.fit_transform(corpus)
 
# таким образом будет подсчитана следующая структура:
#        | слово1 | слово2 | слово3 | слово4
# текст1 |   1    |    1   |   1    |   0
# текст2 |   0    |    1   |   1    |   0
# текст3 |   2    |    1   |   0    |   0
# текст4 |   0    |    0   |   0    |   1
 
# чтобы получить сгенерированный словарь, из приведенной структуры CountVectorizer, стоит отметить что порядок совпадает с матрицей
print(vectorizer.get_feature_names())  # ['слово1', 'слово2', 'слово3', 'слово4']
 
# чтобы узнать индекс токена в словаре
print(vectorizer.vocabulary_.get('слово3')) # вернет 2
 
# показать матрицу
print(X.toarray())
 
# теперь можно быстро подсчитать вектор для нового документа
vectorizer.transform(["слово1 слово4 слово4"])  # результат [[1 0 0 2]]
 
# чтобы узнать количественное вхождение каждого слова:
matrix_freq = np.asarray(X.sum(axis=0)).ravel()
print(matrix_freq)
final_matrix = np.array([np.array(vectorizer.get_feature_names()), matrix_freq])
print(final_matrix)

['слово1', 'слово2', 'слово3', 'слово4']
2
[[1 1 1 0]
 [0 1 1 0]
 [2 1 0 0]
 [0 0 0 1]]
[3 3 2 1]
[['слово1' 'слово2' 'слово3' 'слово4']
 ['3' '3' '2' '1']]
