In [1]:
# load packages
import os
import sys
import numpy as np

In [2]:
# random samples
samples = ["The cat sat on the mat.", "The dog ate my homework."]

In [3]:
token_index = dict()

In [4]:
# create word-index mapping for each unique word in the sample
for sample in samples:
    word_tokens = sample.split()
    for word in word_tokens:
        if word not in token_index:
            token_index[word] = len(token_index) + 1
        else:
            continue

In [5]:
"number of unique words = ", len(token_index)

('number of unique words = ', 10)

In [6]:
token_index

{'The': 1,
 'cat': 2,
 'sat': 3,
 'on': 4,
 'the': 5,
 'mat.': 6,
 'dog': 7,
 'ate': 8,
 'my': 9,
 'homework.': 10}

In [7]:
max_len = 10 # set max number of words in each sample

In [8]:
# variable to hold one-hot-encoded word vectors
one_hot_encoded = np.zeros(shape=(len(samples), max_len, len(token_index)+1)) # extra place for zero vector

In [9]:
one_hot_encoded[0], one_hot_encoded[1]

(array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

In [10]:
one_hot_encoded.shape

(2, 10, 11)

In [11]:
# now lets fill the variable with encoded vectors for each word form the word-mapping index
for i in range(len(samples)):
    word_tokens = samples[i].split()[:max_len]
    for j in range(len(word_tokens)):
        index = token_index[word_tokens[j]]
        one_hot_encoded[i, j, index] = 1

In [12]:
one_hot_encoded[0], one_hot_encoded[1]

(array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]),
 array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

There you have your one-hot encoded word vectors.

## Lets do the same using Keras API

In [13]:
import tensorflow as tf
tf.__version__

'1.10.0'

In [14]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

In [15]:
tokenizer = Tokenizer(num_words=100, lower=False) # take accounbt for only most frequent 100 words

In [16]:
samples

['The cat sat on the mat.', 'The dog ate my homework.']

In [17]:
tokenizer.fit_on_texts(samples) # train your tokenizer on the available data

In [18]:
sequences = tokenizer.texts_to_sequences(samples) # generate sequences for the train data

In [19]:
sequences[0], sequences[1]

([1, 2, 3, 4, 5, 6], [1, 7, 8, 9, 10])

In [20]:
# encoded = [to_categorical(seq, num_classes=max_len+1) for seq in sequences]

In [21]:
one_hot_encoded_keras = tokenizer.texts_to_matrix(samples, mode="binary")

In [22]:
one_hot_encoded_keras[0], one_hot_encoded_keras[1]

(array([0., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
 array([0., 1., 0., 0., 0., 0., 0., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]))

In [23]:
# now lets get the word-index mapping to retrieve the word
word_index_keras = tokenizer.word_index
"number of unique words = ", len(word_index_keras)

('number of unique words = ', 10)

In [24]:
word_index_keras

{'The': 1,
 'cat': 2,
 'sat': 3,
 'on': 4,
 'the': 5,
 'mat': 6,
 'dog': 7,
 'ate': 8,
 'my': 9,
 'homework': 10}

Thats the way you do it using Keras APIs.