In [1]:
import numpy as np
from keras.preprocessing.text import Tokenizer

In [2]:
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

- Word level one-hot encoding
- Character level one-hot encoding

In [16]:
def one_hot_encoder(samples, max_len=10, is_word_level=True, is_verbose=False):
    
    token_index = {}
    
    if is_word_level:
    
        # build the token index
        for sample in samples:
            for word in sample.lower().split():
                if word not in token_index:
                    token_index[word] = len(token_index)+1

        result = np.zeros((len(samples), max_len, max(token_index.values())+1))

        for i, sample in enumerate(samples):
            for j, word in list(enumerate(sample.lower().split()))[:max_len]:
                index = token_index[word]
                result[i, j, index] = 1

    else:
        import string
        
        max_len=50
        all_ascii_characters = string.printable
        # build the token index
        token_index = dict(zip(range(1,len(all_ascii_characters)+1), all_ascii_characters))
        
        result = np.zeros((len(samples), max_len, max(token_index.keys())+1))
        
        for i, sample in enumerate(samples):
            for j, character in enumerate(sample.lower()):
                index = token_index.get(character)
                result[i, j, index] = 1
    
    if is_verbose:
        print("Token index: {}".format(token_index.items()))
    
    return result

In [17]:
one_hot_encoder(samples, is_verbose=True)

Token index: dict_items([('the', 1), ('cat', 2), ('sat', 3), ('on', 4), ('mat.', 5), ('dog', 6), ('ate', 7), ('my', 8), ('homework.', 9)])


array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]

- Using Keras

In [19]:
tokenizer = Tokenizer(num_words=1000)

In [20]:
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)

In [21]:
sequences

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [22]:
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')
word_index = tokenizer.word_index
one_hot_results

array([[0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.]])

In [23]:
word_index

{'the': 1,
 'cat': 2,
 'sat': 3,
 'on': 4,
 'mat': 5,
 'dog': 6,
 'ate': 7,
 'my': 8,
 'homework': 9}