# 문자 단위 RNN으로 이름 분류하기
- 문자 하나(ex. a, b,....,z)를 하나의 one-hot벡터로 표현하여 예측 실시
- 한 문자의 벡터 길이는 alphabet의 길이(26)이다.
- 18개 언어로 된 수천 개의 성을 훈련시킨 후, 철자에 따라 이름이 어떤 언어인지 예측

#  DataLoad
- data/name 디렉토리에 18개 텍스트 파일이 포함되어 있다.
- 각 파일에는 한 줄에 하나의 이름이 포함되어 있다.(로마자)
- ASCII로 변환해야 한다.

In [232]:
# data 보기
from io import open
import glob
import os

path = 'data/names/'
filenames = glob.glob(path + '*.txt')
print(filenames)
print('')
print(len(filenames))

['data/names\\Arabic.txt', 'data/names\\Chinese.txt', 'data/names\\Czech.txt', 'data/names\\Dutch.txt', 'data/names\\English.txt', 'data/names\\French.txt', 'data/names\\German.txt', 'data/names\\Greek.txt', 'data/names\\Irish.txt', 'data/names\\Italian.txt', 'data/names\\Japanese.txt', 'data/names\\Korean.txt', 'data/names\\Polish.txt', 'data/names\\Portuguese.txt', 'data/names\\Russian.txt', 'data/names\\Scottish.txt', 'data/names\\Spanish.txt', 'data/names\\Vietnamese.txt']

18


In [233]:
import unicodedata
import string # 모든 알파벳을 출력하기 위해 import

print(string.hexdigits) # 16진수 표현하는 문자들
print(string.punctuation) # 특수문자, 특수기호
print(string.whitespace) # 공백문자
print(string.printable) # 모든 문자 + 기호

all_letters = string.ascii_letters + ' .,;' # 알파벳(대 + 소) + 공백 + ,.;
all_letters

0123456789abcdefABCDEF
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
 	

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	



'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ .,;'

In [234]:
# 유니코드 문자열을 일반 ASCII로 변환
# 한 단어를 문자 하나하나로 쪼개서 각각을 ascii로 변환
# 또한 변환된 단어의 분류가 'Mn'이 아니고 all_letters에 포함되어 있으면 출력
def Unicode_to_Ascii(s):
    word = ''.join(c for c in unicodedata.normalize('NFD', s)
           if unicodedata.category(c) != 'Mn' # Nonspacing Mark, 특정 언어에서 사용되는 기호
            and c in all_letters) # c가 all_letter에 포함되어 있는 것
    
    return word

print(Unicode_to_Ascii('Ślusàrski'))

Slusarski


In [235]:
# 각 파일로부터 이름 불러오기
def readline(filename):
    lines = open(filename, encoding = 'utf-8').read().strip().split('\n')
    names = [name for name in lines]
    
    return names

lan_list = []
lan_name_list = {}

# 국가별 이름 목록사전 만들기{lan : [name1, name2...]}
for filename in filenames:
    lan = os.path.splitext(os.path.basename(filename))[0]
    lan_list.append(lan)
    name = readline(filename)
    lan_name_list[lan] = name
    
lan_n = len(lan_name_list)
print(lan_name_list_n)

18


### 변수 설명
- lan_list : 국가 목록
- lan_name_list : 국가별 이름 목록
- lan_name_list_n : 국가 개수

# 이름을 Tensor로 변환
- 하나의 문자(ex. a)를 표현하기 위해서는 size가 1xn_letter인 One-hot 벡터를 사용한다.
- a : Tensor[[1,0,0,0......,0]]
- b : Tensor[[0,1,0,0.......0]]
- z : Tensor[[0,0,0,0.......1]]
<br><br>
- 단어를 만들어 주기 위해 2차원 행렬(len_of_word x 1 x n_letters)

In [236]:
import torch

# 한 letter의 index값을 출력
def Letter_to_Index(letter):
    letter_index = all_letters.find(letter) 
     
    return letter_index

# 각 letter별 index사전 만들기(one-hot 벡터)
def Letter_to_Tensor(letter):
    letter_tensor = torch.zeros(1, len(all_letters))
    letter_tensor[0][Letter_to_Index(letter)] = 1
    
    return letter_tensor

def Name_to_Tensor(name):
    tensor = torch.zeros(len(name), 1, len(all_letters))
    for i, c in enumerate(name):
        tensor[i][0][Letter_to_Index(c)] = 1
        
    return tensor

print(Letter_to_Tensor('j'))
print(Name_to_Tensor('justin').size())

tensor([[0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
         0., 0.]])
torch.Size([6, 1, 56])


# RNN 생성
- input layer와 hidden layer가 합쳐져 output layer(i2o)를 형성
- input layer와 hideen layer가 합쳐져 다음 hidden layer(i2h)를 형성
- i2o인 경우 sofrmax 함수를 이용해 확률값 출력하고 정답label과 오차값 계산
- i2h인 경우 두 번째 h2로 
넘어간다.

# 진행 과정
1. 이름 하나를 구성하는 각각의 letter들이 한 글자씩 input으로 들어간다.
2. 

In [237]:
import torch.nn as nn

class RNN(nn.Module):
    
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()
        
        self.hidden_size = hidden_size
        
        self.i2h = nn.Linear(input_size + hidden_size, hidden_size)
        self.i2o = nn.Linear(input_size + hidden_size, output_size)
        self.softmax = nn.LogSoftmax(dim = 1)
        
    def forward(self, input, hidden):
        
        combined = torch.cat((input, hidden), 1) # 열로 붙이기
        hidden = self.i2h(combined)
        output = self.i2o(combined)
        output = self.softmax(output)
        
        return output, hidden

    def initHidden(self):
        
        return torch.zeros(1, self.hidden_size)
    
hidden_n = 128
letter_n = len(all_letters)
lan_n = len(lan_name_list)


rnn = RNN(letter_n, hidden_n, lan_n)

In [238]:
with torch.no_grad():
    input = Letter_to_Tensor('a')
    hidden = torch.zeros(1, hidden_n)

    output, hidden = rnn(input, hidden)
    print(output) # 출력은 국가 중 하나이고, 값이 높을수록 가능성이 높다.

tensor([[-2.8790, -2.9147, -2.9150, -2.9073, -2.9154, -3.0303, -2.9035, -2.7867,
         -2.8104, -2.8394, -2.9078, -2.9421, -2.8714, -2.9415, -2.9674, -2.8837,
         -2.8965, -2.7512]])


In [239]:
with torch.no_grad():
    input = Name_to_Tensor('justin')
    hidden = torch.zeros(1, hidden_n)
    output, hidden = rnn(input[0], hidden)
    
    print(output) # 출력은 국가 중 하나이고, 값이 높을수록 가능성이 높다.

tensor([[-2.9676, -2.9481, -2.8606, -2.9606, -2.9689, -2.8968, -2.9463, -2.7975,
         -2.8467, -2.8596, -2.8648, -2.9560, -2.8441, -2.8501, -2.8478, -2.9167,
         -2.9189, -2.8033]])


# 학습하기 전 준비과정
도움되는 함수 몇 가지가 필요하다.
 1. output 결과로부터 가장 큰 값이 무엇인지 출력하기(가장 가능성이 큰 국가 출력)
 2. 학습 예시를 출력해주는 함수

In [243]:
def LanfromOutput(output):
    top_val, top_i = output.topk(1) # Tensor내에 최대값의 value와 index 찾기(input값으로 개수 선택)
    lan_i = top_i[0].item()
    
    return lan_list[lan_i], lan_i

LanfromOutput(output)

('Greek', 7)

In [241]:
# 학습 예시(이름과 언어) 얻는 빠른 방법도 필요하다.
import random

def RandomChoice(l):
    lan_random = l[random.randint(0, len(l) - 1)]
    
    return lan_random

def RandomTrainingExample():
    lan_random = RandomChoice(lan_list) # 랜덤 국가 선택
    name = RandomChoice(lan_name_list[lan_random]) # 선택된 국가 중 랜덤 이름 선택
    lan_tensor = torch.tensor([lan_list.index(lan_random)], dtype = torch.long) # 국가 index의 tensor
    name_tensor = Name_to_Tensor(name) # 이름을 tensor로
    
    return lan_random, name, lan_tensor, name_tensor

for i in range(10):
    lan, name, lan_tensor, name_tensor = RandomTrainingExample()
    print('Langauge : %s / name = %s' %(lan, name))

Langauge : Irish / name = Sullivan
Langauge : French / name = Denis
Langauge : Vietnamese / name = Quyen
Langauge : Arabic / name = Bazzi
Langauge : German / name = Wendell
Langauge : Vietnamese / name = Duong
Langauge : Spanish / name = Del bosque
Langauge : Irish / name = Brady
Langauge : Arabic / name = Wasem
Langauge : Portuguese / name = Rios


# 학습 과정
1. input과 target의 Tensor 생성
2. 0으로 초기화 된 hidden layer 생성
3. 각 문자 읽기 - 다음 문자를 위한 은닉 상태 유지
4. output과 target 비교하여 오차 계산
5. 오차 역전파
6. output과 loss 출력

In [246]:
# 일단 optimizer를 사용 안하고 그냥 했는데... 일단 그냥 해봄
# import torch.optim as optim
# optimizer = optim.SGD(rnn.parameters(), lr = 0.005)

loss_function = nn.NLLLoss()
learning_rate = 0.005

def train(lan_tensor, name_tensor):
    
    hidden = rnn.initHidden()
    
    rnn.zero_grad()
    
    for i in range(name_tensor.size(0)):
        output, hidden = rnn(name_tensor[i], hidden)
        
    loss = loss_function(output, lan_tensor)
    loss.backward()
    
    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)
        
    return output, loss.item()

In [253]:
import time
import math

iter_n = 100000

loss_avg = 0
loss_list = []

def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

start = time.time()


for i in range(1, iter_n + 1):
    lan, name, lan_tensor, name_tensor = RandomTrainingExample()
    output, loss = train(lan_tensor, name_tensor)
    loss_avg += loss
    loss_list.append(loss)
    
    if i % 5000 == 0:
        guess, guess_i = LanfromOutput(output)
        correct = '✓' if guess == lan else  '✗ (%s)' % lan
        print('%d %d%% (%s) %.4f %s / %s %s' % (i, i / iter_n * 100, timeSince(start), loss, name, guess, correct))

5000 5% (0m 10s) 1.4001 Than / Vietnamese ✓
10000 10% (0m 21s) 2.3506 Allard / Japanese ✗ (French)
15000 15% (0m 33s) 1.3489 Almeida / Portuguese ✓
20000 20% (0m 43s) 2.1541 Fabron / English ✗ (French)
25000 25% (0m 54s) 0.4109 Antonini / Italian ✓
30000 30% (1m 5s) 2.1287 Cerney / Dutch ✗ (Czech)
35000 35% (1m 16s) 2.4284 Greenwood / Scottish ✗ (English)
40000 40% (1m 27s) 1.8618 Fabian / Arabic ✗ (French)
45000 45% (1m 39s) 2.6074 Alsop / Scottish ✗ (English)
50000 50% (1m 50s) 2.1932 Ferro / Portuguese ✗ (Italian)
55000 55% (2m 1s) 1.8700 Awad / Chinese ✗ (Arabic)
60000 60% (2m 14s) 1.8602 Renaud / German ✗ (French)
65000 65% (2m 26s) 1.3831 Nestrojil / Czech ✓
70000 70% (2m 38s) 2.0325 Monet / German ✗ (French)
75000 75% (2m 50s) 2.0827 Reyer / German ✗ (French)
80000 80% (3m 3s) 0.0812 Morrison / Scottish ✓
85000 85% (3m 14s) 1.0953 Rodriquez / Spanish ✓
90000 90% (3m 25s) 1.9062 Roosevelt / French ✗ (Dutch)
95000 95% (3m 36s) 2.6587 Kim / Korean ✗ (Vietnamese)
100000 100% (3m 47s

# 나만의 방식으로 재도전
- 문서에 나와있는 방식은 너무 복잡하다.
- 좀 더 간단하게 구현 시도!

# Data load

In [260]:
import glob
from io import open

path = 'data/names/'
filenames = glob.glob(path + '*.txt')
print(filenames)
print('Number of Language : %d' %len(filenames))

['data/names\\Arabic.txt', 'data/names\\Chinese.txt', 'data/names\\Czech.txt', 'data/names\\Dutch.txt', 'data/names\\English.txt', 'data/names\\French.txt', 'data/names\\German.txt', 'data/names\\Greek.txt', 'data/names\\Irish.txt', 'data/names\\Italian.txt', 'data/names\\Japanese.txt', 'data/names\\Korean.txt', 'data/names\\Polish.txt', 'data/names\\Portuguese.txt', 'data/names\\Russian.txt', 'data/names\\Scottish.txt', 'data/names\\Spanish.txt', 'data/names\\Vietnamese.txt']
Number of Language : 18


# 국가별 이름 사전 만들기
- {국가1 : [이름1, 이름2...], 국가2 : [이름1, 이름2...]}

In [265]:
import os

os.path.splitext(os.path.basename('a.txt'))

('a', '.txt')

In [267]:
os.path.splitext(os.path.basename(filename))

('Vietnamese', '.txt')

In [279]:
lan = [os.path.splitext(os.path.basename(filename))[0] for filename in filenames]