# [프로젝트2] 토치 기반 모델링 기초 이해

---


## 프로젝트 목표
---
- 딥러닝 프레임워크 중 하나인 PyTorch 사용법 이해
- PyTorch를 활용하여 간단한 자연어 딥러닝 모델 제작 및 학습


## 프로젝트 목차
---

1. **딥러닝 모델 구성:** PyTorch를 통하여 기본적인 선형 레이어와 활성화 함수를 만들어봅니다.

2. **간단한 딥러닝 모델 제작 및 학습 진행:** PyTorch를 통하여 모델 구성부터 학습까지 진행해봅니다.


## 프로젝트 개요
---

프로젝트 1에서 불러오고 자연어 전처리한 데이터를 바탕으로 본격적으로 분류 문제를 딥러닝 모델로 해결해 보고자 합니다.

이전에 앞으로 프로젝트에서 사용할 예정인 `Pytorch` 딥러닝 프레임워크 사용법을 익혀봅시다.


`Pytorch` 는 tensorflow와 유사한 최신 딥러닝 프레임워크 중 하나입니다. Facebook에서 개발되었으며, 2016년 오픈소스화되었습니다. 

특히 자연어 처리 분야에서 `Pytorch` 관련 논문의 비율이 앞도적으로 늘어나고 있습니다. 

따라서, 이번 프로젝트에서는 자연어 처리 분야에서의 `Pytorch` 사용법을 알아볼 것입니다.

## 1. 딥러닝 모델 구성

---

먼저 토치 라이브러리를 불러옵니다.

In [1]:
import torch
import torch.nn as nn # 신경망 모델 등 모델(레이어)을 만들 때 주로 사용됩니다.
import torch.nn.functional as F # 입력/출력값에 대하여 직접적인 계산을 할 때 주로 사용됩니다.
import torch.optim as optim # optimizer 관련


### 1.1. Fully-connected layer (linear layer)

---

딥러닝 모델에서 가장 기본적으로 쓰이는 선형 레이어를 만들어 봅니다.

$$f(x)=Ax+b$$

In [2]:
fc = nn.Linear(4, 3) # 4-dim 입력값 (x) 을 3-dim 출력값 (f(x))으로 매핑합니다.
x = torch.randn(2, 4) # batch size 2이고 차원이 4인 랜덤 정규분포 벡터를 가져옵니다.
fx = fc(x) # fully-connected layer를 태운 출력값이 나옵니다.

print('shape of x: ', x.shape)
print('shape of f(x): ', fx.shape)
print('x: ', x)
print('f(x): ', fx)

shape of x:  torch.Size([2, 4])
shape of f(x):  torch.Size([2, 3])
x:  tensor([[ 0.2187,  0.3610, -0.8238,  0.3890],
        [ 2.0780, -1.2999, -0.0493,  1.0665]])
f(x):  tensor([[-0.1422, -0.9860, -0.2535],
        [-0.4592, -0.1136,  0.4756]], grad_fn=<AddmmBackward>)



### 1.2. Activation function

---

딥러닝 모델에서 선형 레이어와 함께 쓰여 비선형을 부여해주는 활성화 함수를 사용해 봅시다.

$$g(x)=\sigma(x)$$

In [3]:
x = torch.randn(2, 4)
relu_x = F.relu(x) # ReLU 활성화 함수
sigmoid_x = torch.sigmoid(x) # sigmoid 활성화 함수 (F.sigmoid를 사용해도 되나 최근 버전에서는 torch.sigmoid를 쓸 것을 권장합니다.)
tanh_x = torch.tanh(x) # tanh 활성화 함수 (F.tanh를 사용해도 되나 최근 버전에서는 torch.tanh를 쓸 것을 권장합니다.)

print(x)
print(relu_x)
print(sigmoid_x)
print(tanh_x)

tensor([[-0.1937, -1.5797, -0.4643, -0.9161],
        [-0.1153, -0.4797, -1.6657, -3.0039]])
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.]])
tensor([[0.4517, 0.1708, 0.3860, 0.2858],
        [0.4712, 0.3823, 0.1590, 0.0473]])
tensor([[-0.1913, -0.9186, -0.4336, -0.7240],
        [-0.1148, -0.4460, -0.9310, -0.9951]])


In [4]:
relu = nn.ReLU() # nn 을 통하여 활성화 함수도 모듈화하여 사용할 수 있습니다.
relu_xx = relu(x)

print(x)
print(relu_xx)

tensor([[-0.1937, -1.5797, -0.4643, -0.9161],
        [-0.1153, -0.4797, -1.6657, -3.0039]])
tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.]])


In [5]:
softmax_x0 = F.softmax(x, dim=0) # 0번째를 기준으로 softmax 함수를 적용합니다.
softmax_x1 = F.softmax(x, dim=1) # 1번째를 기준으로 softmax 함수를 적용합니다.

log_softmax_x1 = F.log_softmax(x, dim=1) # 손실 함수의 안정성 등을 위하여 log-softmax 출력값을 사용하기도 합니다.

print(x)
print(softmax_x0)
print(softmax_x1)
print(torch.log(softmax_x1))
print(log_softmax_x1)

tensor([[-0.1937, -1.5797, -0.4643, -0.9161],
        [-0.1153, -0.4797, -1.6657, -3.0039]])
tensor([[0.4804, 0.2497, 0.7688, 0.8897],
        [0.5196, 0.7503, 0.2312, 0.1103]])
tensor([[0.4002, 0.1001, 0.3053, 0.1943],
        [0.5096, 0.3540, 0.1081, 0.0284]])
tensor([[-0.9157, -2.3017, -1.1863, -1.6381],
        [-0.6742, -1.0386, -2.2246, -3.5628]])
tensor([[-0.9157, -2.3017, -1.1863, -1.6381],
        [-0.6742, -1.0386, -2.2246, -3.5628]])


## 2. 간단한 딥러닝 모델 제작 및 학습 진행

---

Bag-of-Words 표현을 입력값으로 받는 간단한 분류 모델을 만들어보도록 하겠습니다.


### 2.1. Bag-of-Words 표현

---

자연어 데이터를 표현하는 방법 중 하나로, 각 단어에 인덱스를 부여한 뒤 주어진 데이터에 나타난 단어의 개수를 인덱스에 표현하여 나타낸 벡터입니다.

In [6]:
train_data = [("I want to eat pizza".split(), "ENGLISH"),
              ("나는 피자를 먹고 싶다".split(), "KOREAN"),
              ("She have to go on a business trip next week".split(), "ENGLISH"),
              ("그녀는 다음 주에 출장을 다녀와야 한다".split(), "KOREAN")]

test_data = [("I will eat pizza next week".split(), "ENGLISH"),
             ("나는 다음 주에 피자를 먹을 것이다".split(), "KOREAN")]

In [7]:
word_to_ix = {} # 단어에 인덱스를 부여하는 딕셔너리를 만듭니다.
data = train_data + test_data
for sent, _ in data:
    for word in sent:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)
print(word_to_ix)

{'I': 0, 'want': 1, 'to': 2, 'eat': 3, 'pizza': 4, '나는': 5, '피자를': 6, '먹고': 7, '싶다': 8, 'She': 9, 'have': 10, 'go': 11, 'on': 12, 'a': 13, 'business': 14, 'trip': 15, 'next': 16, 'week': 17, '그녀는': 18, '다음': 19, '주에': 20, '출장을': 21, '다녀와야': 22, '한다': 23, 'will': 24, '먹을': 25, '것이다': 26}


In [8]:
label_to_ix = {"ENGLISH": 0, "KOREAN": 1} # 라벨에 인덱스를 부여하는 딕셔너리를 만듭니다.

### 2.2. 딥러닝 모델 만들기

---

In [10]:
VOCAB_SIZE = len(word_to_ix) # 데이터의 총 단어 개수
NUM_CLASSES = len(label_to_ix) # 총 클래스 개수
VOCAB_SIZE
NUM_CLASSES

2

In [11]:
class Classifier(nn.Module): # 모델을 만들 때 nn.Module을 상속받습니다.
    
    def __init__(self, num_classes, vocab_size):
        super(Classifier, self).__init__()
        
        # 레이어를 정의합니다.
        self.fc = nn.Linear(vocab_size, num_classes)
    
    def forward(self, x):
        # 모델에 데이터를 넣었을 때 동작하는 기작을 이 함수에 입력합니다.
        x = self.fc(x)
        out = F.log_softmax(x, dim=1)
        return out

In [11]:
def make_bow_vector(sentence, word_to_ix):
    # 문장을 bag-of-word 표현으로 나타내는 함수입니다.
    vec = torch.zeros(len(word_to_ix))
    for word in sentence:
        vec[word_to_ix[word]] += 1
    return vec.view(1, -1)

In [12]:
def make_target(label, label_to_ix):
    return torch.LongTensor([label_to_ix[label]])


### 2.3. 모델 학습 및 평가
---


In [13]:
model = Classifier(NUM_CLASSES, VOCAB_SIZE)

모델의 파라미터 초기값을 출력합니다.

In [14]:
for param in model.parameters():
    print(param)

Parameter containing:
tensor([[-0.0973, -0.0640,  0.0943,  0.1337, -0.1912, -0.1743, -0.1360, -0.0103,
          0.0417,  0.1136, -0.1618, -0.0251, -0.1848, -0.0497,  0.1415, -0.1445,
         -0.1659,  0.1533,  0.0375, -0.0732,  0.0766,  0.1029,  0.0460,  0.1854,
          0.1796, -0.1088, -0.0535],
        [ 0.1397,  0.1774,  0.1178, -0.0821, -0.0831,  0.0681,  0.1147, -0.0235,
         -0.1529, -0.1632, -0.1259,  0.1004, -0.0041,  0.0422, -0.0726, -0.0936,
          0.0322, -0.0291, -0.0349, -0.1486, -0.1061,  0.0128,  0.0402,  0.1625,
          0.1030, -0.1910, -0.1479]], requires_grad=True)
Parameter containing:
tensor([-0.0834, -0.0784], requires_grad=True)


테스트 데이터에 대하여 모델의 출력값을 내봅니다.

In [15]:
with torch.no_grad(): # 그래디언트를 계산하지 않는 모드입니다. (평가할 때 등)
    for instance, label in test_data:
        bow_vec = make_bow_vector(instance, word_to_ix)
        log_probs = model(bow_vec)
        print(f'prob. of data [{" ".join(instance)}] is {log_probs.exp().numpy()}.')

prob. of data [I will eat pizza next week] is [[0.48165223 0.5183478 ]].
prob. of data [나는 다음 주에 피자를 먹을 것이다] is [[0.48417822 0.51582175]].


손실 함수와 옵티마이저를 설정합니다.

In [16]:
loss_function = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

모델 학습을 진행합니다.

In [17]:
for epoch in range(100):
    for instance, label in train_data:
        # 기존 모델의 파라미터 별로 계산해놓은 그래디언트를 없앱니다.
        model.zero_grad()
        
        # 데이터를 학습 가능하도록 벡터화 합니다.
        bow_vec = make_bow_vector(instance, word_to_ix)
        target = make_target(label, label_to_ix)
        
        # 데이터를 모델에 넣어 forward pass를 진행합니다.
        log_probs = model(bow_vec)
        
        # 로스를 계산합니다.
        loss = loss_function(log_probs, target)
        
        # 그래디언트를 계산합니다.
        loss.backward()
        
        # 옵티마이저를 통하여 파라미터를 업데이트합니다.
        optimizer.step()

모델 평가를 진행합니다.

In [18]:
with torch.no_grad():
    for instance, label in test_data:
        bow_vec = make_bow_vector(instance, word_to_ix)
        log_probs = model(bow_vec)
        print(f'prob. of data [{" ".join(instance)}] is {log_probs.exp().numpy()}.')

prob. of data [I will eat pizza next week] is [[0.96946967 0.03053034]].
prob. of data [나는 다음 주에 피자를 먹을 것이다] is [[0.01835033 0.9816497 ]].
