### Import required libraries

In [11]:
import torch
import os
import unicodedata
import string
from io import open

### Create name dataset
##### We will create dictionary with list of language and respective names. e.g. { 'English': ['...', '.....', ....], 'Dutch': [......] }

In [37]:
all_categories = []
category_lines = {}

def unicodeToAscii(s):
    return unicodedata.normalize('NFKD', s).encode('ascii', 'ignore').decode('utf-8')

def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

In [46]:
for name in os.listdir('data/names'):
    if '.txt' in name:
        category = os.path.splitext(os.path.basename(name))[0]
        all_categories.append(category)
        lines = readLines('data/names/{}'.format(name))
        category_lines[category] = lines

n_categories = len(all_categories)

In [54]:
# To get top 10 english names
category_lines['English'][:10]

['Abbas',
 'Abbey',
 'Abbott',
 'Abdi',
 'Abel',
 'Abraham',
 'Abrahams',
 'Abrams',
 'Ackary',
 'Ackroyd']

### Turning names into Tensors
##### We use one-hot encoding to represent every letter

In [65]:
# List of all letters
all_letters = string.ascii_letters + " .,;'"
n_letters = len(all_letters)
all_letters

"abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ .,;'"

In [82]:
def letterToIndex(letter):
    return all_letters.find(letter)

def letterToTensor(letter):
    tensor = torch.zeros(1, n_letters)
    tensor[0][letterToIndex(letter)] = 1
    return tensor

def lineToTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for i, letter in enumerate(line):
        tensor[i][0][letterToIndex(letter)] = 1
        
    return tensor

print(f'Index for b = {letterToIndex("b")}')

Index for b = 1


In [88]:
tensor = lineToTensor('hello')
print(f'Size of tensor -- {tensor.shape}')
print(tensor)

Size of tensor -- torch.Size([5, 1, 57])
tensor([[[0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0.]],

        [[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
          0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.