CNN을 활용한 텍스트 분류 방법을 다룹니다. 이전까지 딥러닝을 이용한 자연어 처리는 RNN에 국한된 느낌이 매우 강했습니다. 텍스트 문장은 여러 단어로 이루어지고, 그 길이가 문장마다 상이하며, 문장 내 단어들은 같은 문장내의 단어에 따라서 영향받기 때문입니다. 더 비약적으로 표현하자면 time-step t에 등장하는 단어 $w_t$는 이전 time-step에 등장한 단어들 $w_1, \dots, w_{t-1}$에 의존하기 때문입니다.

순서 개념이 도입되어야 하기 때문에 RNN의 사용은 불가피하다고 여겨졌습니다. 한 논문의 CNN을 활용한 방법을 처음으로 소개하면서 새로운 시각이 열렸습니다.

<br></br>
![](./images/8-5-1-cnn.jpg)
<br></br>

### 합성곱 연산

CNN은 영상 처리 분야에서 매우 큰 성과를 거두고 있습니다. CNN의 목적 자체가, 기존의 전통적인 영상처리에서 사용되던 각종 합성곱 필터의 자동 구성을 위한 학습이기 때문입니다.

#### 합성곱 필터

전통적인 영상 처리 분야에서는 손으로 한땀 한땀 만들어낸 필터를 사용하여 $윤각선^{edge}$을 검출하는 등의 전처리 과정을 거치고, 거시거 얻어낸 특징을 통해 $객체\ 탐지^{object\ detection}$등을 구현하고 했습니다. 예를 들어 주어진 이미지에서 윤곽선을 찾기 위한 합성곱 필터는 다음과 같습니다.

<br></br>
![](./images/8-5-1-filter.jpg)
<br></br>

이 필터를 이미지에 적용하기 전과 후의 모습은 다음과 같습니다.

<br></br>
![](./images/8-5-1-output.jpg)
<br></br>

이처럼 딥러닝 이전의 영상 처리의 경우에는, 전처리 모듈에서 해결하고자하는 문제에 따라 여러 필터를 직접 적용하여 특징들을 얻어낸 후, 다음 단계의 모듈을 적용하여 문제를 해결하는 방식이였습니다.

### 합성곱 계층

만약 문제별로 필요한 합성곱 필터를 자동으로 찾아준다면 어떻게 될까요? CNN이 그런 역할을 합니다. 합성곱 연산을 통해 피드포워드된 값에 역전파를 수행하여 더 나은 합성곱 필터 값을 찾아나갑니다. MLE를 통한 최적화가 수행된 후에는 해당 데이터셋의 특징을 잘 추출하는 여러 종류의 합성곱 필터를 찾아낼 수 있습니다.

<br></br>
![](./images/8-5-2-op.jpg)
<br></br>

합성곱 필터 연산의 피드포워드 연산은 다음과 같습니다. 필터가 주어진 이미지에서 차례로 합성곱 연산을 수행합니다. 상당히 많은 연산이 병렬로 수행됨을 알 수 있습니다.

<br></br>
$$
y_{1,1} = Convolution(x_{1,1}, \dots, x_{3,3}, \theta)\ \text{where}\ \theta = \{k_{1,1},\dots,k_{3,3}\} \\
= x_{1,1} * k_{1,1} + \dots + x_{3,3}*k_{3,3} \\
= \sum_{i=1}^3\sum_{j=1}^3x_{i,j}*k_{i,j}
$$
<br></br>

기본적으로 합성곱 연산의 결과물은 필터의 크기에 따라 입력보다 크기가 줄어듭니다. 앞의 그림에서도 필터가 3x3이므로, 6x6 입력에 적용하면 4x4 크기의 결과물을 얻을 수 있습니다. 입력과 같은 크기를 유지하고자 한다면 결과물의 바깥에 패딩을 추가할 수 있습니다. 즉, 입력 차원의 크기와 필터의 크기가 주어졌을때, 출력 차원의 크기는 다음과 같이 계산할 수 있습니다.

<br></br>
$$
\text{output_size = input_size - filter_size + 1}
$$
<br></br>

이처럼 CNN은 패턴을 감지하는 필터를 자동으로 최적화함으로써 영상 처리 등의 분야에서 빼놓을 수 없는 중요한 역할을 담당합니다. 또한 이미지뿐만 아니라 음성 분야에서도 효과를 보고 있습니다. 음성 또는 오디오 신호의 경우 $Fourier Transform$을 통해 2차원의 시계열 데이터를 얻을 수 있는데, 그러한 데이터에서도 마찬가지로 패턴을 찾아내는 합성곱 연산이 매우 유요합니다.

<br></br>
![](./images/8-5-2-sound.jpg)
<br></br>

### 텍스트 분류에 CNN 적용하기

그렇다면 텍스트 분류 과정에는 CNN을 어떻게 적용할까요?

먼저 원핫 벡터를 표현하는 인데스 값을 단어 임베딩 벡터로 변환하면 1차원 벡터가 됩니다. 그리고 문장 내의 모든 time-step의 단어 임베딩 벡터를 합치면 2차원의 행렬이 됩니다. 이때 합성곱 연산을 수행하면 이제 텍스트에서도 CNN이 효과적으로 발휘됩니다.

<br></br>
![](./images/8-5-3-cnn.jpg)
<br></br>

각 텐서별 크기에서 맨 앞에 미니배치를 위한 차원을 추가하면 실제 구현에서의 텐서 크기가 됩니다.

필터들은 우리가 배워야하는 신경망 가중치 파라미터이므로 $\theta$로 표현합니다. 그리고 input은 RNN의 경우와 마찬가지로 임베딩 계층을 거친 결과값이라고 가정합니다. 따라서 n개의 문장이 각각 m개의 time-step을 가지고 있고, 각 time-step은 문장 내 단어로 d차원의 벡터로 표현합니다. 여기에 각 합성곱 연산을 위한 필터는 찾고자 하는 w개의 단어에 대한 패턴을 찾기위한 d차원의 w x d 크기를 갖습니다.

<br></br>
$$
\text{cnn_out = CNN(input,\theta)} \\
|input| = (n,m,d) = (n, 1, m, d) \\
|\theta| = (\#\ filters, w, d) \\
|cnn\ out| = (n,\#\ filters, m - w + 1, d - d + 1) \\
\text{where n = batch_size} \\
$$
<br></br>

이처럼 우리는 정해진 길이 w의 단어 조합 패턴을 검사할 수 있습니다. 이때 w를 1개가 아니라 여러개로 다양하게 설정하면, 다양한 길이의 단어 조합 패턴을 찾아낼 수 있습니다. 

CNN 계층의 결과값은 필터별 점수라고 볼 수 있습니다. 즉, 필터가 각각의 특징을 나타낸다고 봤을때, 각 특징별 점수가 될 것입니다. 따라서 우리는 문장내에서 각 특징 또는 원하는 단어 조합 패턴이 나타나는지 확인해야합니다. 이를 위해 이전 단계에서 구한 $\text{cnn_out}$을 max pooling하여 문장당 각 특징에 대한 최고 점수를 구합니다. 맥스 풀링 계층은 특징별 최고 점수를 뽑아주시만, 이 과정에서 가변 길이의 $\text{cnn_out}$을 고정 길이로 바꿔주는 역할도 합니다. 맥스 풀링 계층의 결과는 문장의 임베딩 벡터가 되는데, 이 벡터의 크기는 특징의 개수와 같습니다.

<br></br>
![](./images/8-5-3-cnnarch.jpg)
<br></br>

<br></br>
$$
\text{cnn_out}_i = CNN(input,\theta_i) \\
\text{where}\ |\theta_i| = (\# filters, w_i, d), w_i \in \{w_1, w_2, \dots, w_h\} \\
\text{pool_out}_i = max_pooling(\text{cnn_out}_i) \\
|\text{pool_out}_i| = (n, \# filters) \\
\text{pool_out} = [poolout_1;poolout_2;\dots;poolout_h] \\
|\text{pool_out}| = (n, h\ x\ \# filters) 
$$
<br></br>

이렇게 얻어진 문장별 임베딩 벡터에서 `softmax` 함수를 통해, 클래스별 확률값을 가진 불연속적인 확률 분포를 반환하면 분류를 위한 피드포워드가 끝납니다.

<br></br>
$$
\hat{y} = softmax(\text{pool_out}W+b) \\
\text{where}\ W \in R^{(h\ x\ \#\ filters) x |C|}, b \in R^{|C|}
\\
|\hat{y}| = (n,|C|) \\
\text{where}\ \hat{y} = P(y|x)
$$
<br></br>

여기에 RNN을 활용한 텍스트 분류때와 마찬가지로 교차 엔트로피 손실 함수를 적용하여, 이를 최소화하도록 최적화를 수행하면 CNN 신경망 또한 훈련될 것입니다.

CNN을 이용한 텍스트 분류에 관란 더 직접적인 예를 들어보겠습니다. 특정 문장에 대해 긍정/ 부정 분류를 하는 문제가 있다고 가정합니다. 문장은 여러 단어로 이루어져 있고, 각 단어는 임베딩 계층을 통해 단어 임베딩 벡터로 변환된 상태입니다. 각 단어의 임베딩 벡터는 비슷한 의미를 가진 단어일수록 비슷한 값의 벡터값을 가집니다. 예를 들어 "good"이라는 던어는 그에 해당하는 임베딩 벡터로 구성될 것입니다. 그리고 "better", "best", "great"등의 단어들도 "good"과 비슷한 벡터값을 가질 것입니다. 이때 쉽게 예상할 수 있듯이 "good"은 긍정/ 부정 분류에 있어서 긍정을 나타내는 매우 중요한 신호로 작용할 것입니다.

그렇다면 "good"에 해당하는 임베딩 벡터의 패턴을 감지하는 필터를 가진다면 "good"뿐만 아니라 "better", "best"등의 단어들도 함께 감지할 수 있을 것입니다.

### 파이토치 구현 예제

In [2]:
import torch
import torch.nn as nn

class CNNClassifier(nn.Module):
    
    def __init__(self,
                 input_size,
                 word_vec_dim,
                 n_classes,
                 dropout_p = 0.5,
                 window_sizes = [3, 4, 5],
                 n_filters = [100, 100, 100]):
        
        ## Vocabulary Size
        self.input_size = input_size
        self.word_vec_dim = word_vec_dim
        self.n_classes = n_classes
        self.dropout_p = dropout_p
        
        ## window_size means that how many words a pattern covers
        self.window_sizes = window_sizes
        
        ## n_filters means how many patterns to cover
        self.n_filters = n_filters
        
        super().__init__()
        
        self.emb = nn.Embedding(input_size, word_vec_dim)
        
        ## Since number of convolution layers would vary depend on len(window_sizes),
        ## we use "setattr" and "getattr" methods to add layers to nn.Module object.
        for window_size, n_filters in zip(window_sizes, n_filters):
            cnn = nn.Conv2d(in_channels = 1,
                            out_channels = n_filter,
                            kernel_size = (window_size, word_vec_dim))
            setattr(self, "cnn-%d-%d" % (window_size, n_filter), cnn)
            
        ## Becuase below layers are just operations,
        ## it does not have learnable parameters.
        ## So we just declare once
        self.relu = nn.ReLU()
        self.dropout = nn.Dropout(dropout_p)
        
        ## An input of generator layer is max values from each filter
        self.generator = nn.Linear(sum(n_filters), n_classes)
        
        ## We use LogSoftmax + NLLLoss instead of Softmax and CrossEntropy
        self.activation = nn.LogSoftmax(dim = -1)
        
    def forward(self, x):
        
        ## |x| = (batch_size, length)
        x = self.emb(X)
        
        ## |x| = (batch_size, length, word_vec_dim)
        min_length = max(self.window_sizes)
        
        if min_length > x.size(1):
            ## Because some input is not long enough for maximum length of window size,
            ## we add zero tensor for padding
            
            ## |pad| = (batch_size, min_length  - length, word_vec_dim)
            pad = x.new(x.size(0), min_length - x.size(1), self.word_vec_dim).zero_()
            
            ## |x| = (batch_size, min_length, word_vec_dim)
            x = torch.cat([x, pad], dim = 1)
            
        ## In ordinary case of vision task, you may have 3 channels on tensor,
        ## But in this case, you would hvae just 1 channel,
        ## which is added by "unsqueeze" method in below:
        ## |x| = (batch_size, 1, length, word_vec_dim)
        x = x.unsqueeze()
        
        cnn_outs = []
        
        for window_size, n_filter in zip(self.window_sizes, self.n_filters):
            cnn = getattr(self, "cnn-%d-%d" % (window_size, n_filter))
            cnn_out = self.dropout(self.relu(cnn(x)))
            
            ## |x| = (batch_size, n_filter, length - window_size + 1, 1)
            
            ## In case of max pooling, we does not know the pooling size,
            ## because it depends on the length of the sentence
            ## Therefore, we use instant function using "nn.functional" package.
            
            ## |cnn_out| = (batch_size, n_filter)
            cnn_out = nn.functional.max_pool1d(input = cnn_out.squeeze(-1),
                                               kernel_size = cnn_out.size(-2)).squeeze(-1)
            
            cnn_outs += [cnn_out]
            
            ## Merge output tensors from each convolution layer
            ## |cnn_outs| = (batch_size, sum(n_filters))
            cnn_outs = torch.cat(cnn_outs, dim = -1)
            
            ## |y| = (batch_size, n_classes)
            y = self.activation(self.generator(cnn_outs))
            
            return y