In [1]:
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.optim as optim
import torch.nn.functional as F
import numpy as np

torch.manual_seed(1)

<torch._C.Generator at 0x7fef89175930>

* http://pytorch.org/docs/master/
* https://github.com/rguthrie3/DeepLearningForNLPInPytorch

# 1. What is a Pytorch? 

텐서와 옵티마이저, 뉴럴넷 등 GPU 연산에 최적화된 모듈을 이용하여 빠르게 <strong>딥러닝 모델을 구현할 수 있는 프레임워크</strong> <br>
Facebook이 밀고 있던 lua 기반의 torch를 python 버전으로 포팅함

# 2. What is difference between Pytorch and Tensorflow? 

* https://medium.com/towards-data-science/pytorch-vs-tensorflow-spotting-the-difference-25c75777377b
* http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture8.pdf
* https://devblogs.nvidia.com/parallelforall/recursive-neural-networks-pytorch/?utm_campaign=Revue%20newsletter&utm_medium=Newsletter&utm_source=revue

# 3. Why Pytorch? 

* Pythonic 
* Easy debugging
* Intuitive => Easy to understand

# 1> Pytorch Basic 

* Tensor
* Variable

파이토치의 가장 기본 단위는 Tensor이다. 디폴트 Tensor는 FloatTensor이고, LongTensor, ByteTensor, 등 여러 종류가 있다. 

## 1. 텐서 만들기 

In [2]:
V_data = [1., 2., 3.] # 벡터
V = torch.Tensor(V_data) # 파이썬의 리스트를 바로 랩핑할 수 있다.
print(V)

M_data = [[1., 2., 3.], [4., 5., 6]] # 매트릭스
M = torch.Tensor(M_data)
print(M)

T_data = [[[1.,2.], [3.,4.]], # 3차원 텐서
          [[5.,6.], [7.,8.]]]
T = torch.Tensor(T_data)
print(T)


 1
 2
 3
[torch.FloatTensor of size 3]


 1  2  3
 4  5  6
[torch.FloatTensor of size 2x3]


(0 ,.,.) = 
  1  2
  3  4

(1 ,.,.) = 
  5  6
  7  8
[torch.FloatTensor of size 2x2x2]



numpy 객체도 막 가져올 수 있다

In [3]:
V_data = np.array([1.,2.,3.])# 벡터
V = torch.Tensor(V_data) # 파이썬의 리스트를 바로 랩핑할 수 있다.
print(V)

M_data = np.array([[1., 2., 3.], [4., 5., 6]]) # 매트릭스
M = torch.Tensor(M_data)
print(M)

T_data = np.array([[[1.,2.], [3.,4.]], # 3차원 텐서
          [[5.,6.], [7.,8.]]])
T = torch.Tensor(T_data)
print(T)


 1
 2
 3
[torch.FloatTensor of size 3]


 1  2  3
 4  5  6
[torch.FloatTensor of size 2x3]


(0 ,.,.) = 
  1  2
  3  4

(1 ,.,.) = 
  5  6
  7  8
[torch.FloatTensor of size 2x2x2]



In [4]:
x = torch.randn((3, 4, 5)) # 3x4x5 텐서를 랜덤으로 초기화하기
print(x) # FloatTensor가 디폴트


(0 ,.,.) = 
 -2.9718  1.7070 -0.4305 -2.2820  0.5237
  0.0004 -1.2039  3.5283  0.4434  0.5848
  0.8407  0.5510  0.3863  0.9124 -0.8410
  1.2282 -1.8661  1.4146 -1.8781 -0.4674

(1 ,.,.) = 
 -0.7576  0.4215 -0.4827 -1.1198  0.3056
  1.0386  0.5206 -0.5006  1.2182  0.2117
 -1.0613 -1.9441 -0.9596  0.5489 -0.9901
 -0.3826  1.5037  1.8267  0.5561  1.6445

(2 ,.,.) = 
  0.4973 -1.5067  1.7661 -0.3569 -0.1713
  0.4068 -0.4284 -1.1299  1.4274 -1.4027
  1.4825 -1.1559  1.6190  0.9581  0.7747
  0.1940  0.1687  0.3061  1.0743 -1.0327
[torch.FloatTensor of size 3x4x5]



In [5]:
x[0] # indexing도 직관적이다


-2.9718  1.7070 -0.4305 -2.2820  0.5237
 0.0004 -1.2039  3.5283  0.4434  0.5848
 0.8407  0.5510  0.3863  0.9124 -0.8410
 1.2282 -1.8661  1.4146 -1.8781 -0.4674
[torch.FloatTensor of size 4x5]

In [6]:
x[0][0]


-2.9718
 1.7070
-0.4305
-2.2820
 0.5237
[torch.FloatTensor of size 5]

In [7]:
x[0][0][0]

-2.9718289375305176

## 2. 텐서 연산 

In [8]:
x = torch.Tensor([ 1., 2., 3. ])
y = torch.Tensor([ 4., 5., 6. ])
z = x + y
print(z)


 5
 7
 9
[torch.FloatTensor of size 3]



### 앞으로 자주 쓰게 될 연산 <strong>cat</strong> => concat : 두 텐서를 연결한다

In [9]:
# By default, it concatenates along the first axis (concatenates rows)
x_1 = torch.randn(2, 5)
y_1 = torch.randn(3, 5)
z_1 =torch.cat([x_1, y_1]) # 디폴트는 첫번째 차원 기준으로 콘캣 (0)
print(z_1)

# Concatenate columns:
x_2 = torch.randn(2, 3)
y_2 = torch.randn(2, 5)
z_2 = torch.cat([x_2, y_2], 1) # 두번째 인자로 콘캣할 차원축을 선택할 수 있다.
print(z_2)


 1.0930  0.7769 -1.3128  0.7099  0.9944
-0.2694 -0.6491 -0.1373 -0.2954 -0.7725
-0.2215  0.5074 -0.6794 -1.6115  0.5230
-0.8890  0.2620  0.0302  0.0013 -1.3987
 1.4666 -0.1028 -0.0097 -0.8420 -0.2067
[torch.FloatTensor of size 5x5]


 1.0672  0.1732 -0.6873  0.3620  0.3776 -0.2443 -0.5850  2.0812
 0.3111  0.2358 -1.0658 -0.1186  0.4903  0.8349  0.8894  0.4148
[torch.FloatTensor of size 2x8]



### 앞으로 자주 쓰게 될 연산 <strong>view</strong> => reshape

In [10]:
x = torch.randn(2, 3, 4)
print(x)
print(x.view(2, 12)) # Reshape to 2 rows, 12 columns
print(x.view(2, -1)) # Same as above.  If one of the dimensions is -1, its size can be inferred


(0 ,.,.) = 
  0.0507 -0.9644 -2.0111  0.5245
  2.1332 -0.0822  0.8388 -1.3233
  0.0701  1.2200  0.4251 -1.2328

(1 ,.,.) = 
 -0.6195  1.5133  1.9954 -0.6585
 -0.4139 -0.2250 -0.6890  0.9882
  0.7404 -2.0990  1.2582 -0.3990
[torch.FloatTensor of size 2x3x4]



Columns 0 to 9 
 0.0507 -0.9644 -2.0111  0.5245  2.1332 -0.0822  0.8388 -1.3233  0.0701  1.2200
-0.6195  1.5133  1.9954 -0.6585 -0.4139 -0.2250 -0.6890  0.9882  0.7404 -2.0990

Columns 10 to 11 
 0.4251 -1.2328
 1.2582 -0.3990
[torch.FloatTensor of size 2x12]



Columns 0 to 9 
 0.0507 -0.9644 -2.0111  0.5245  2.1332 -0.0822  0.8388 -1.3233  0.0701  1.2200
-0.6195  1.5133  1.9954 -0.6585 -0.4139 -0.2250 -0.6890  0.9882  0.7404 -2.0990

Columns 10 to 11 
 0.4251 -1.2328
 1.2582 -0.3990
[torch.FloatTensor of size 2x12]



## 2. Computation Graphs and Automatic Differentiation 

딥러닝 프레임워크의 가장 큰 장점인 자동 미분 기능을 사용하려면 텐서를 특별한 형태로 바꿔줘야 한다. (<strong>Variable</strong>)

In [11]:
# Variables wrap tensor objects
x = Variable( torch.Tensor([1., 2., 3]), requires_grad=True )
# You can access the data with the .data attribute
print(x.data)

# You can also do all the same operations you did with tensors with Variables.
y = Variable( torch.Tensor([4., 5., 6]), requires_grad=True )
z = x + y
print(z.data)

# BUT z knows something extra.
print(z.grad_fn)


 1
 2
 3
[torch.FloatTensor of size 3]


 5
 7
 9
[torch.FloatTensor of size 3]

<torch.autograd.function.AddBackward object at 0x7fef88766a98>


In [12]:
# Lets sum up all the entries in z
s = z.sum()
print(s)
print(s.grad_fn)

Variable containing:
 21
[torch.FloatTensor of size 1]

<torch.autograd.function.SumBackward object at 0x7fef88766d68>


In [13]:
s.backward() # calling .backward() on any variable will run backprop, starting from it.
print(x.grad)

Variable containing:
 1
 1
 1
[torch.FloatTensor of size 3]



$$ s = \overbrace{x_0 + y_0}^\text{$z_0$} + \overbrace{x_1 + y_1}^\text{$z_1$} + \overbrace{x_2 + y_2}^\text{$z_2$} $$

$$ \frac{\partial s}{\partial x_0} $$

## 3. torch Module 

파이토치는 모델을 클래스처럼 다루는데, torch.nn.Module을 상속받아서 부모 클래스를 초기화하면 된다. <br>
선정의 된 함수 foward를 통해 모델링을 하고 나서, Variable을 인자 값으로 보내면 forward 계산을 하면서 Parameter와의 backward 연결을 알아서 한다.

In [14]:
class simpleNN(nn.Module):
    
    def __init__(self):
        super(simpleNN, self).__init__() # 부모 클래스까지 초기화
        self.linear = nn.Linear(2,2)
    
    def forward(self,inputs):
        return F.sigmoid(self.linear(inputs))

In [15]:
snn = simpleNN()

In [16]:
snn

simpleNN (
  (linear): Linear (2 -> 2)
)

In [17]:
for param in snn.named_parameters():
    print(param)

('linear.weight', Parameter containing:
-0.1214  0.0574
-0.6365  0.3755
[torch.FloatTensor of size 2x2]
)
('linear.bias', Parameter containing:
 0.0508
-0.6430
[torch.FloatTensor of size 2]
)


In [18]:
inputs = Variable(torch.randn(1,2))
inputs

Variable containing:
-1.0952 -0.2831
[torch.FloatTensor of size 1x2]

In [19]:
outputs = snn(inputs)
outputs

Variable containing:
 0.5418  0.4870
[torch.FloatTensor of size 1x2]

### 주요 모듈 : nn.Linear (Affine Maps)

$$ f(x) = Ax + b $$

In [20]:
lin = nn.Linear(5, 3) # maps from R^5 to R^3, parameters A, b
data = Variable( torch.randn(2, 5) ) # data is 2x5.  A maps from 5 to 3... can we map "data" under A?
print(lin(data))

Variable containing:
 0.4825  0.0247  0.4566
-0.0652 -0.7002 -0.4353
[torch.FloatTensor of size 2x3]



### 주요 모듈 : 비선형 함수들 (Non-Linearities)

In [21]:
data = Variable( torch.randn(2, 2) )
print(data)
print(F.relu(data))
print(F.tanh(data))
print(F.sigmoid(data))

Variable containing:
-1.0246 -1.0300
-1.0129  0.0055
[torch.FloatTensor of size 2x2]

Variable containing:
1.00000e-03 *
  0.0000  0.0000
  0.0000  5.5350
[torch.FloatTensor of size 2x2]

Variable containing:
-0.7717 -0.7739
-0.7670  0.0055
[torch.FloatTensor of size 2x2]

Variable containing:
 0.2641  0.2631
 0.2664  0.5014
[torch.FloatTensor of size 2x2]



### 주요 모듈 : Softmax

In [22]:
# Softmax is also in torch.functional
data = Variable( torch.randn(5) )
print(data)
print(F.softmax(data))
print(F.softmax(data).sum()) # Sums to 1 because it is a distribution!
print(F.log_softmax(data))

Variable containing:
-0.9347
-0.9882
 1.3801
-0.1173
 0.9317
[torch.FloatTensor of size 5]

Variable containing:
 0.0481
 0.0456
 0.4867
 0.1089
 0.3108
[torch.FloatTensor of size 5]

Variable containing:
 1
[torch.FloatTensor of size 1]

Variable containing:
-3.0350
-3.0885
-0.7201
-2.2176
-1.1686
[torch.FloatTensor of size 5]



### 옵티마이저

In [23]:
optimizer = optim.Adam(snn.parameters(),lr=0.01)

# 실전 예제 : BoW-Classifier 

In [24]:
from konlpy.tag import Mecab
import random
import re
import numpy
from collections import Counter
flatten = lambda l: [item for sublist in l for item in sublist]
tagger = Mecab()

## 1. 데이터 로드 

In [25]:
data = open('./data/DOMAIN_10D_300EA_DATA_170427.txt','r',encoding='utf-8').readlines()
data = [[d.split('\t')[0],d.split('\t')[1][:-1]] for d in data]
random.shuffle(data)

In [26]:
data[:5]

[['청천 나들이펜션 한들+후평나들이방 <br>8월 1314일예약해주세요<br> 010 2885 4816 <br>전화예약만받는다네요<br>예약좀해주세요ㅎ',
  'HOTEL'],
 ['그럼. 음식점 퀵배달을 문비서를 통해 서비스신청을 하면 제때 이용 가능할지요. 제주도에는 위치나 시간에 따라 퀵서비스 이용에 제약이 많은것 같던데요.',
  'QUICK'],
 ['예를들면 한국에 계신 부모님 꽃 배달 부탁이라던가', 'FLOWER'],
 ['앗. 퀵 취소 부탁 드려요', 'QUICK'],
 ['스시마츠모토 오늘 12시30분에 2인. 다이로 예약될까요?', 'RESTAURANT']]

In [27]:
X, y = zip(*data)
X,y = list(X),list(y)

## 2. 간단한 전처리 후, Variable로 준비

### 숫자 마스킹 

In [30]:
re.sub('\d',"#","12월 25일 크리스마스")

'##월 ##일 크리스마스'

In [31]:
for i,x in enumerate(X):
    X[i] = re.sub('\d',"#",x)

In [32]:
X[:10]

['청천 나들이펜션 한들+후평나들이방 <br>#월 ####일예약해주세요<br> ### #### #### <br>전화예약만받는다네요<br>예약좀해주세요ㅎ',
 '그럼. 음식점 퀵배달을 문비서를 통해 서비스신청을 하면 제때 이용 가능할지요. 제주도에는 위치나 시간에 따라 퀵서비스 이용에 제약이 많은것 같던데요.',
 '예를들면 한국에 계신 부모님 꽃 배달 부탁이라던가',
 '앗. 퀵 취소 부탁 드려요',
 '스시마츠모토 오늘 ##시##분에 #인. 다이로 예약될까요?',
 '세금 계산서 발행 이체도 된다고 들었는데 사실 인가요?',
 '약간 이른데요. 오후 비행기는 없나요?',
 '동일한 비행기로 성인#명 초등학교 #학년 #명 비행기표 예매 부탁합니다.',
 '배송할께 있는데 어떻게 해야하나요? 경비실에 맡겨놓으면 픽업해가시나요?',
 '해외여행 페키지 상품 좀 알아봐주세요. 여행 가격은#인당 ##~ ##만원 / #박 #일 ~ #박 #일 / 인원 ## ~##명 / 출발일 ##월 말 ~ ##월 초']

### 형태소 분석(Tokenize)

In [33]:
X = [tagger.morphs(x) for x in X]

### 전체 어휘 정의

In [34]:
vocab = list(set(flatten(X)))
len(vocab)

4674

### 불용어 지정 

In [35]:
vocab_frequency = Counter(flatten(X))

In [36]:
vocab_frequency.most_common()[:10]

[('#', 1152),
 ('?', 1022),
 ('.', 780),
 ('는', 709),
 ('주', 694),
 ('br', 678),
 ('하', 637),
 ('##', 527),
 ('세요', 501),
 ('에', 499)]

In [37]:
stopwords = [w for w,f in vocab_frequency.items() if f==1]

In [38]:
len(stopwords)

2294

### 사전 정의 

In [39]:
word2index={}

for vo in vocab:
    if vo not in stopwords and vo not in word2index.keys():
        word2index[vo]=len(word2index)
        
index2word = {v:k for k,v in word2index.items()}

In [40]:
len(word2index)

2380

In [41]:
target2index = {}

for ta in list(set(y)):
    if ta not in target2index.keys():
        target2index[ta]=len(target2index)

index2target = {v:k for k,v in target2index.items()}

In [42]:
target2index

{'AIRPLANE': 0,
 'FLOWER': 7,
 'HOTEL': 2,
 'INQUIRY': 4,
 'OTHER': 3,
 'PARCEL': 9,
 'QUICK': 1,
 'RESTAURANT': 6,
 'SCHEDULE': 8,
 'WEATHER': 5}

### 데이터 스플릿 

In [43]:
data = list(zip(X,y))

train_data = data[:int(len(data)*0.9)]
test_data = data[int(len(data)*0.9):]

In [44]:
print(len(train_data),(len(test_data)))

2700 300


### Variable 준비

In [45]:
def make_bow_vector(sentence, word_to_ix):
    vec = torch.zeros(len(word_to_ix))
    for word in sentence:
        if word in word_to_ix.keys():
            vec[word_to_ix[word]] += 1
    return Variable(vec).view(1, -1)

In [46]:
make_bow_vector(X[0],word2index)

Variable containing:
    0     0     0  ...      0     0     0
[torch.FloatTensor of size 1x2380]

In [47]:
for i,(x,y) in enumerate(train_data):
    train_data[i]= [make_bow_vector(x,word2index),Variable(torch.LongTensor([target2index[y]]))]

In [48]:
train_data[0]

[Variable containing:
     0     0     0  ...      0     0     0
 [torch.FloatTensor of size 1x2380], Variable containing:
  2
 [torch.LongTensor of size 1]]

## 3. BoWClassifier 정의

In [81]:
class BoWClassifier(nn.Module):
    
    def __init__(self,vocab_size,output_size):
        super(BoWClassifier, self).__init__()
        
#         self.layer = nn.Linear(vocab_size,hidden_size)
        self.outlayer = nn.Linear(vocab_size,output_size)

    def forward(self,inputs):
        
#         out = F.relu(self.layer(inputs))
        
        return F.log_softmax(self.outlayer(inputs))

In [90]:
model = BoWClassifier(len(word2index),len(target2index))
loss_function = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(),lr=0.0001)

## 4. 트레이닝

In [91]:
STEP=300

In [92]:
for step in range(STEP):
    for i, (x,y) in enumerate(train_data):
        model.zero_grad()

        pred = model(x)
        loss = loss_function(pred,y)
        loss.backward()
        optimizer.step()

    if step % 10==0:
        print('epoch [%d/%d], loss : %.2f' % (step,STEP,loss.data.tolist()[0]))

epoch [0/300], loss : 2.33
epoch [10/300], loss : 2.05
epoch [20/300], loss : 1.89
epoch [30/300], loss : 1.77
epoch [40/300], loss : 1.68
epoch [50/300], loss : 1.60
epoch [60/300], loss : 1.53
epoch [70/300], loss : 1.46
epoch [80/300], loss : 1.40
epoch [90/300], loss : 1.34
epoch [100/300], loss : 1.28
epoch [110/300], loss : 1.23
epoch [120/300], loss : 1.18
epoch [130/300], loss : 1.13
epoch [140/300], loss : 1.09
epoch [150/300], loss : 1.04
epoch [160/300], loss : 1.00
epoch [170/300], loss : 0.96
epoch [180/300], loss : 0.93
epoch [190/300], loss : 0.89
epoch [200/300], loss : 0.86
epoch [210/300], loss : 0.83
epoch [220/300], loss : 0.80
epoch [230/300], loss : 0.78
epoch [240/300], loss : 0.75
epoch [250/300], loss : 0.73
epoch [260/300], loss : 0.70
epoch [270/300], loss : 0.68
epoch [280/300], loss : 0.66
epoch [290/300], loss : 0.64


In [112]:
torch.save(model.state_dict(), './model/bowclassifier.pkl')

## 5. 테스트 

In [113]:
model.load_state_dict(torch.load('./model/bowclassifier.pkl'))

In [114]:
accuracy=0

In [115]:
for test in test_data:
    input_ = make_bow_vector(test[0],word2index)
    pred = model(input_).max(1)[1] # greedy decoding
    if test[1]==index2target[pred.data.tolist()[0]]:
        accuracy+=1

print(accuracy/len(test_data)*100)

81.33333333333333


In [128]:
random_test = random.choice(test_data)

input_ = make_bow_vector(random_test[0],word2index)
pred = model(input_).max(1)[1]

print("input : %s" % ' '.join(random_test[0]))
print("ground truth : %s" % random_test[1])
print("prediction : %s" % index2target[pred.data.tolist()[0]])

input : 안녕 하 세요 ~ 비행기 표 구해 주 세요 < br > 제주 에서 서울 #/## ##.## 진에어 . 서울 에서 제주 #.## ## 시 ## 분 아시아 나
ground truth : AIRPLANE
prediction : AIRPLANE


# What is Next?! 

* https://github.com/yunjey/pytorch-tutorial
* https://github.com/rguthrie3/DeepLearningForNLPInPytorch/blob/master/Deep%20Learning%20for%20Natural%20Language%20Processing%20with%20Pytorch.ipynb
* https://github.com/bharathgs/Awesome-pytorch-list
* https://github.com/DSKSD/cs-224n-Pytorch