# **CNN을 이용한 자연어 처리**

---
- 참고도서
  - 파이토치로 배우는 자연어처리(델립라오, 브라이언 맥머핸 지음 / 박해선 옮김 | 한빛미디어)
  - 텐서플로 2와 머신러닝으로 시작하는 자연어 처리 (전창욱, 최태균, 조종현, 신성진 지음 | 위키북스)
---

## PyTorch로 CNN 구현하기

#### 데이터 만들기
- 특성 벡터를 만들기 위하여 실제 데이터와 크기가 같은 3차원의 인공 데이터 텐서 생성
- 파이토치의 Conv1d 클래스의 객체를 생성한 3차원 데이터 텐서에 적용함

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [15]:
import torch
import torch.nn as nn
import torch.nn.functional as F


In [3]:
batch_size = 2 
one_hot_size = 10
sequence_width = 7

data = torch.randn(batch_size, one_hot_size, sequence_width)
data

tensor([[[ 0.7576, -0.0045, -1.9715, -0.5319, -0.2123,  0.2447, -0.6172],
         [-0.1312, -0.2751, -1.7393,  0.8883, -1.6621, -1.0706, -0.1837],
         [ 0.0487,  0.1725,  1.5112, -0.2176, -0.5876,  0.3950,  1.0962],
         [ 0.9788, -0.3444,  2.0185, -1.0012,  1.1342,  1.4656, -0.0960],
         [ 0.3063,  0.1864, -0.8776,  0.8486,  0.7107,  0.8068, -2.1056],
         [ 0.6060, -0.9974, -0.8422,  1.5139,  0.2831,  1.2560,  0.5766],
         [-1.7194, -0.0405, -0.1482, -0.9285, -1.3134,  0.7190, -1.0809],
         [ 1.2016,  0.3256,  0.4886,  0.5783, -0.7330, -2.3401,  1.5176],
         [-0.8773,  0.6862, -0.7837,  0.4169,  1.3590, -1.8919, -0.4479],
         [ 0.1601,  0.2753,  0.8682, -1.0069,  1.5728, -0.5722,  0.3867]],

        [[ 0.0409,  0.2428, -0.4886, -2.4076, -0.9827, -0.2258,  1.9579],
         [-0.8736,  0.7104,  0.8309, -1.5838, -0.0865, -2.4078, -1.1908],
         [-1.3877,  1.0680, -1.7280,  1.4052,  1.9184,  0.2795, -2.1694],
         [ 0.0575, -0.7633, -0.2839,

In [9]:
#  1D convolution 연산은 가로로만 이동하면서 output을 계산
conv1 = nn.Conv1d(in_channels=one_hot_size, out_channels=16, kernel_size=3)
intermediate1 = conv1(data)

print(data.size())
print(intermediate1.size())

torch.Size([2, 10, 7])
torch.Size([2, 16, 5])


Parameters

* in_channels: input의 feature dimension
* out_channels: output으로 내고싶은 dimension
* kernel_size: time step을 얼마만큼 볼 것인가(=frame size = filter size)
* stride: kernel을 얼마만큼씩 이동하면서 적용할 것인가 (Default: 1) -> 아래 추가 설명
* dilation: kernel 내부에서 얼마만큼 띄어서 kernel을 적용할 것인가 (Default: 1) -> 아래 추가 설명
* padding: 한 쪽 방향으로 얼마만큼 padding할 것인가 (그 만큼 양방향으로 적용) (Default: 0)
* groups: kernel의 height를 조절 (Default: 1) -> 아래 추가 설명
* bias: bias term을 둘 것인가 안둘 것인가 (Default: True)
* padding_mode: 'zeros', 'reflect', 'reflect', 'replicate', 'circular' (Default: 'zeros')  

- 데이터에 합성곱 반복 적용
  - 합성곱을 추가하여 출력 텐서의 크기를 줄이는 작업을 반복 적용
  - 코드에서는 3번의 합성곱 후에 출력의 마지막 차원이 size=1이 되도록 구성

In [10]:
conv2 = nn.Conv1d(in_channels=16, out_channels=32, kernel_size=3)
conv3 = nn.Conv1d(in_channels=32, out_channels=64, kernel_size=3)

intermediate2 = conv2(intermediate1)
intermediate3 = conv3(intermediate2)

print(intermediate2.size())
print(intermediate3.size())

torch.Size([2, 32, 3])
torch.Size([2, 64, 1])


In [11]:
y_output = intermediate3.squeeze()
print(y_output.size())

torch.Size([2, 64])


In [12]:
intermediate2.mean(dim=0).mean(dim=1).sum()

tensor(nan, grad_fn=<SumBackward0>)

In [13]:
# 특성 벡터를 줄이는 방법 1
print(intermediate1.view(batch_size, -1).size())

# 특성 벡터를 줄이는 방법 2
print(torch.mean(intermediate1, dim=2).size())
# print(torch.max(intermediate1, dim=2).size())
# print(torch.sum(intermediate1, dim=2).size())

torch.Size([2, 80])
torch.Size([2, 16])


- 배치 정규화와 Conv1D 층 사용하기
  - 전체 모델을 다시 만들지 않고 배치 정규화를 사용하는 방법

In [16]:
conv1 = nn.Conv1d(in_channels=one_hot_size, out_channels=16, kernel_size=3)
conv2 = nn.Conv1d(in_channels=16, out_channels=32, kernel_size=3)
conv3 = nn.Conv1d(in_channels=32, out_channels=64, kernel_size=3)

conv1_bn = nn.BatchNorm1d(num_features=16)
conv2_bn = nn.BatchNorm1d(num_features=32)
    
intermediate1 = conv1_bn(F.relu(conv1(data)))
intermediate2 = conv2_bn(F.relu(conv2(intermediate1)))
intermediate3 = conv3(intermediate2)

print(intermediate1.size())
print(intermediate2.size())
print(intermediate3.size())

torch.Size([2, 16, 5])
torch.Size([2, 32, 3])
torch.Size([2, 64, 1])


In [17]:
# 노트: 
# 배치 정규화는 배치와 시퀀스 차원에 대해 통곗값을 계산합니다. 
# 다른 말로하면 BatchNorm1d에 입력되는 텐서의 크기는 (B, C, L)입니다(B는 배치, C는 채널, L은 길이).
# 각 (B, L) 슬라이스마다 원점에 평균을 맞춥니다. 
# 이는 공변량 변화(covariate shift)를 줄입니다.

intermediate2.mean(dim=(0, 2))

tensor([ 1.9868e-08,  9.9341e-09,  0.0000e+00,  0.0000e+00, -5.9605e-08,
         0.0000e+00, -1.9868e-08,  0.0000e+00,  1.9868e-08,  0.0000e+00,
         3.9736e-08, -3.9736e-08,  1.0928e-07, -1.9868e-08, -7.9473e-08,
         7.9473e-08,  0.0000e+00, -1.9868e-08, -4.9671e-08,  0.0000e+00,
        -1.9868e-08,  3.9736e-08,  0.0000e+00, -5.9605e-08, -9.9341e-09,
        -1.9868e-08,  0.0000e+00, -1.9868e-08,  1.9868e-08,  0.0000e+00,
        -1.9868e-08,  0.0000e+00], grad_fn=<MeanBackward1>)

- 여러 하이퍼파라미터 설정으로 합성곱 만들기

In [18]:
def describe(x):
    print("타입: {}".format(x.type()))
    print("크기: {}".format(x.shape))
    print("값: \n{}".format(x))

In [19]:
x = torch.randn(1, 2, 3, 3)
describe(x)

conv1 = nn.Conv2d(in_channels=2, out_channels=1, kernel_size=2)
describe(conv1.weight)
describe(conv1(x))

타입: torch.FloatTensor
크기: torch.Size([1, 2, 3, 3])
값: 
tensor([[[[ 0.4789, -0.4305, -1.4366],
          [-1.1571, -0.2315, -0.1990],
          [-1.1098,  0.5366, -0.9539]],

         [[-0.8122, -0.2839,  0.0485],
          [-0.6061, -0.0737,  0.3725],
          [ 1.1321,  0.4685, -0.0777]]]])
타입: torch.FloatTensor
크기: torch.Size([1, 2, 2, 2])
값: 
Parameter containing:
tensor([[[[-0.0796, -0.0980],
          [-0.2961, -0.1258]],

         [[-0.0006, -0.2372],
          [ 0.0707,  0.1871]]]], requires_grad=True)
타입: torch.FloatTensor
크기: torch.Size([1, 1, 2, 2])
값: 
tensor([[[[0.6016, 0.5363],
          [0.7760, 0.1439]]]], grad_fn=<ThnnConv2DBackward>)


In [20]:
x = torch.randn(1, 1, 3, 3)
describe(x)

conv1 = nn.Conv2d(in_channels=1, out_channels=2, kernel_size=2)
describe(conv1.weight)
describe(conv1(x))

타입: torch.FloatTensor
크기: torch.Size([1, 1, 3, 3])
값: 
tensor([[[[ 2.4933, -0.7148, -1.3619],
          [-0.9292,  0.7830,  1.6472],
          [-1.8585, -0.2598, -1.3071]]]])
타입: torch.FloatTensor
크기: torch.Size([2, 1, 2, 2])
값: 
Parameter containing:
tensor([[[[ 0.3624, -0.1627],
          [-0.0152,  0.2332]]],


        [[[ 0.2244,  0.0540],
          [ 0.2330,  0.2627]]]], requires_grad=True)
타입: torch.FloatTensor
크기: torch.Size([1, 2, 2, 2])
값: 
tensor([[[[ 0.9779,  0.0960],
          [-0.7352, -0.5238]],

         [[ 0.2211,  0.0922],
          [-0.9564, -0.4283]]]], grad_fn=<ThnnConv2DBackward>)


## 자연어 처리에서 CNN
- CNN을 이용한 문장 분류 아키텍처
<img src='https://drive.google.com/uc?export=download&id=1Si0ma4WjKI0Hp02bTv7lizAYrTQtfQ7R' /><br>

  - n개의 단어로 이루어진 리뷰 문장을 각 단어별로 k차원의 행벡터로 임베딩
  - CNN 필터의 크기는 2, 3
  - 필터 개수만큼의 Feature Map을 만들고 Max-Pooling 과정을 거쳐 클래스 개수(긍정 혹은 부정:2개)만큼의 스코어를 출력하는 네트워크 구조
<br><br>
- 자연어 처리에 사용되는 CNN
<img src='https://drive.google.com/uc?export=download&id=1bxzttajTIt1cMFrNTlOVvwmUptfo9rZl' /><br>

  - 이미지 처리에 사용되는 2D CNN과 달리 1D CNN 사용
  - 1D CNN: 커널의 넓이를 문장 행렬에서의 임베딩 벡터의 차원과 동일하게 설정
    - 예: 커널 사이즈 = 2 이면 높이가 2, 너비가 임베딩 벡터의 차원인 커널
<br><br>
- 논문: http://emnlp2014.org/papers/pdf/EMNLP2014181.pdf