Векторизация - это важный этап перед тем, как тексты можно скармливать классификатору или другому ИИ-алгоритму. Здесь я привожу пример, как векторизовать смешные и несмешные тексты так, чтобы до их автоматической классификации оставалось рукой подать.

In [None]:
# Даны твиты: смешные и не очень.
funny_tweets = ['буратино утонул',
                'водяной утонул',
                'русалка села на шпагат',
                'змея села на шпагат']
not_funny_tweets = ['у любви у нашей села батарейка',
                    'лодка села на мель',
                    'русалка и водяной в гостях у сказки',
                    'змея в траве фото']

In [None]:
# Создаем словарь.
vocabulary = []
for tweet in funny_tweets+not_funny_tweets:
    tweet_split = tweet.split()
    for token in tweet_split:
        if token not in vocabulary:
            vocabulary.append(token)

In [None]:
vocabulary

['буратино',
 'утонул',
 'водяной',
 'русалка',
 'села',
 'на',
 'шпагат',
 'змея',
 'у',
 'любви',
 'нашей',
 'батарейка',
 'лодка',
 'мель',
 'и',
 'в',
 'гостях',
 'сказки',
 'траве',
 'фото']

In [None]:
# Векторизуем каждый твит на основе bag-of-words:
# для каждого токена в словаре подсчитаем, сколько раз
# он употребляется в твите. Большинство значений будут равны 0.
funny_tweet_vectors = []
for ft in funny_tweets:
    tweet_vec = []
    ft_split = ft.split()
    for v in vocabulary:
        tweet_vec.append(ft_split.count(v))
    funny_tweet_vectors.append(tweet_vec)

not_funny_tweet_vectors = []
for nft in not_funny_tweets:
    tweet_vec = []
    nft_split = nft.split()
    for v in vocabulary:
        tweet_vec.append(nft_split.count(v))
    not_funny_tweet_vectors.append(tweet_vec)

In [None]:
# Вот такие смешные вектора:
funny_tweet_vectors

[[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]

In [None]:
# А вот такие несмешные:
not_funny_tweet_vectors

[[0, 0, 0, 0, 1, 0, 0, 0, 2, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1]]

In [None]:
# Вот пришел нам новый твит:
new_tweet = 'буратино в гостях у сказки'

In [None]:
# Векторизуем
new_tweet_vector = []
new_tweet_split = new_tweet.split()
for v in vocabulary:
    new_tweet_vector.append(new_tweet_split.count(v))
print(new_tweet_vector)

[1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0]


In [None]:
# Теперь нам надо понять, новый твит смешной или нет?
# Найдем твит, ближайший к нашему в многомерном пространтсве, т.е. такой твит,
# евклидово расстояние до которого будет наименьшим.
# Будем использовать библиотеку math.
import math

In [None]:
distances = []
all_tweet_vectors = funny_tweet_vectors + not_funny_tweet_vectors
for tweet_vector in all_tweet_vectors:
    distances.append(math.dist(new_tweet_vector, tweet_vector))

In [None]:
# Вот такие расстояния у нас получились. И уже видно,
# что расстояние до несмешного твита меньше остальных.
distances

[2.23606797749979,
 2.6457513110645907,
 3.0,
 3.0,
 3.0,
 3.0,
 2.0,
 2.6457513110645907]

In [None]:
# Но все же напечатаем твит с наименьшим расстоянием:
all_tweets = funny_tweets + not_funny_tweets
all_tweets[distances.index(min(distances))]
# И он несмешной! Ура!

'русалка и водяной в гостях у сказки'

In [None]:
# А теперь на входе вот такой твит:
new_tweet_2 = 'русалка села на мель а шпагат утонул'
# Я думаю, это смешной твит :D
# Это что-то типа абсурдизм.
# Но давайте спросим у ИИ.

In [None]:
# Векторизуем
# Заметьте, что токен "а", которого нет в словаре, будет проигнорирован
# нашим алгоритмом.
new_tweet_vector_2 = []
new_tweet_split_2 = new_tweet_2.split()
for v in vocabulary:
    new_tweet_vector_2.append(new_tweet_split_2.count(v))
print(new_tweet_vector_2)

[0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0]


In [None]:
distances_2 = []
for tweet_vector in all_tweet_vectors:
    distances_2.append(math.dist(new_tweet_vector_2, tweet_vector))

In [None]:
# Все красиво. См. значение 1.41 в третьем твите.
distances_2
# ИИ тоже ценит абсурдистский юмор.

[2.449489742783178,
 2.449489742783178,
 1.4142135623730951,
 2.0,
 3.4641016151377544,
 2.0,
 3.3166247903554,
 3.1622776601683795]

In [None]:
all_tweets[distances_2.index(min(distances_2))]

'русалка села на шпагат'

In [None]:
# Ну и напоследок вот такой твит:
new_tweet_3 = 'русалка села на змея горыныча фото'
# Даже не знаю, смеяться ли. Решите сами - с помощью ИИ, конечно.