In [1]:
corpus = [
    "Принес я ее домой на ладони",
    "Было это двенадцать лет назад", 
    "Месячный щенок-фокстерьер по имени Глаша", 
    "Расцветкой напоминает березовую чурочку",
    "Нос как крошечная боксерская перчатка"
]

In [2]:
vocabulary = set()
for sent in corpus:
    for word in sent.split():
        vocabulary.add(word.lower())
        
print(vocabulary)

{'ладони', 'имени', 'месячный', 'это', 'домой', 'нос', 'крошечная', 'боксерская', 'по', 'было', 'чурочку', 'двенадцать', 'глаша', 'я', 'как', 'расцветкой', 'лет', 'ее', 'щенок-фокстерьер', 'перчатка', 'березовую', 'принес', 'на', 'назад', 'напоминает'}


In [3]:
import numpy as np

vocabulary = np.sort(np.array(list(vocabulary)))

print(vocabulary)

['березовую' 'боксерская' 'было' 'глаша' 'двенадцать' 'домой' 'ее' 'имени'
 'как' 'крошечная' 'ладони' 'лет' 'месячный' 'на' 'назад' 'напоминает'
 'нос' 'перчатка' 'по' 'принес' 'расцветкой' 'чурочку' 'щенок-фокстерьер'
 'это' 'я']


In [4]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder(sparse=False)

vocabulary2d = vocabulary.reshape((len(vocabulary), 1))

onehot_encoded = onehot_encoder.fit_transform(vocabulary2d)

print(onehot_encoded)

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
  0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.



In [5]:
vocabulary2d

array([['березовую'],
       ['боксерская'],
       ['было'],
       ['глаша'],
       ['двенадцать'],
       ['домой'],
       ['ее'],
       ['имени'],
       ['как'],
       ['крошечная'],
       ['ладони'],
       ['лет'],
       ['месячный'],
       ['на'],
       ['назад'],
       ['напоминает'],
       ['нос'],
       ['перчатка'],
       ['по'],
       ['принес'],
       ['расцветкой'],
       ['чурочку'],
       ['щенок-фокстерьер'],
       ['это'],
       ['я']], dtype='<U16')

In [6]:
len(onehot_encoded) == len(vocabulary)

True

In [7]:
len(onehot_encoded[0]) == len(vocabulary)

True

In [9]:
word_to_vec = {vocabulary[i]: onehot_encoded[i] for i in range(len(vocabulary))}

print(word_to_vec)

{'березовую': array([1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'боксерская': array([0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'было': array([0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'глаша': array([0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'двенадцать': array([0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'домой': array([0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'ее': array([0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), 'имени': array([0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0.,

In [None]:
document = corpus[0]
document_vec = []
for word in vocabulary:
    if word in document.lower():
        document_vec.append(word_to_vec[word])
    else:
        document_vec.append(np.zeros(len(vocabulary)))
        
print(document_vec)

[array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0.]), array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

In [10]:
corpus[0]

'Принес я ее домой на ладони'

In [11]:
document = corpus[0]
document_vec = np.zeros(len(vocabulary))

for word in document.split():
    document_vec += word_to_vec[word.lower()]
    
print(document_vec)

[0. 0. 0. 0. 0. 1. 1. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.
 1.]


In [20]:
?CountVectorizer

In [21]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(tokenizer=lambda x: x.split())

count_matrix = count_vectorizer.fit_transform(corpus)

count_array = count_matrix.toarray()

df = pd.DataFrame(
    data=count_array,
    columns=count_vectorizer.get_feature_names_out()
)

df.head()

Unnamed: 0,березовую,боксерская,было,глаша,двенадцать,домой,ее,имени,как,крошечная,...,напоминает,нос,перчатка,по,принес,расцветкой,чурочку,щенок-фокстерьер,это,я
0,0,0,0,0,0,1,1,0,0,0,...,0,0,0,0,1,0,0,0,0,1
1,0,0,1,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,0,0,0,1,0,0,0,1,0,0,...,0,0,0,1,0,0,0,1,0,0
3,1,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,1,0,0,0
4,0,1,0,0,0,0,0,0,1,1,...,0,1,1,0,0,0,0,0,0,0


In [22]:
count_array

array([[0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
        0, 0, 1],
       [0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 1, 0],
       [0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0,
        1, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1,
        0, 0, 0],
       [0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0,
        0, 0, 0]], dtype=int64)

In [None]:
print(type(count_matrix))

<class 'scipy.sparse.csr.csr_matrix'>
