In [None]:
from keras.preprocessing.text import Tokenizer
import numpy as np


'''Прямое кодирование слов с использованием керас'''

samples = ['The cat sat on the mat.', 'The dog eat my homework.']

# Создание токенизатора и его настройка на учет только 1000 наиболее часто используемых слов.
tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples) # Создание индекса всех слов

# Преобразование строк в списки целочисленных индексов
sequences = tokenizer.texts_to_sequences(samples)

# Прямые бинарные представления. Но этот токенизатор подддердивает и другие режимы векторизации.
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

'''Прямое кодирование на уровне слов с использованием хеширования (упрощенно).'''

# Слова будут сохраняться как векторы с размером 1000. Если число слов близко к 1000, то будет множество хеш-коллизий, снижающих точность этого метода кодирования
dimensionality = 1000
max_length = 10

results = np.zeros(
    (len(samples),
     max_length,
     dimensionality)
)
for i, samples in enumerate(samples):
    for j, word in list(enumerate(samples.split()))[:max_length]:
        # Хеширование слов в случ. целочисл-ые индексы от 0 до 1000
        index = abs(hash(word)) % dimensionality
        
        results[i, j, index] = 1.

print(results)