# RNN과 CNN을 활용한 텍스트 분류

저자의 텍스트 분류 코드: [https://github.com/kh-kim/simple-ntc](https://github.com/kh-kim/simple-ntc)

## 1. RNN Classifier

![RNN image](https://pat-coady.github.io/rnn/assets/rnn_diagram.png)

* RNN 텍스트 분류기 구조 (책의 250p에도 RNN 구조 그림이 있습니다.)
* RNN을 사용한 텍스트 분류:
 * RNN은 문장의 단어를 순차적으로 입력받으며 학습한다.
 * RNN의 마지막 hidden state h_t을 입력 문장의 representation으로 봄
 * 최종적으로 softmax를 사용해 특정 class로 예상하는 확률들을 계산한다.

실제 저자의 구현은 아래와 같습니다.

In [20]:
# %load simple-ntc/simple_ntc/rnn.py
import torch.nn as nn


class RNNClassifier(nn.Module):

    def __init__(self, 
                 input_size, 
                 word_vec_dim, 
                 hidden_size, 
                 n_classes,
                 n_layers=4, 
                 dropout_p=.3
                 ):
        
        # RNN 파라미터
        self.input_size = input_size  # vocabulary_size
        self.word_vec_dim = word_vec_dim
        self.hidden_size = hidden_size
        self.n_classes = n_classes
        self.n_layers = n_layers
        self.dropout_p = dropout_p

        super().__init__()

        # RNN 레이어 구성
        self.emb = nn.Embedding(input_size, word_vec_dim)
        self.rnn = nn.LSTM(input_size=word_vec_dim,
                           hidden_size=hidden_size,
                           num_layers=n_layers,
                           dropout=dropout_p,
                           batch_first=True,
                           bidirectional=True
                           )
        self.generator = nn.Linear(hidden_size * 2, n_classes)
        
        # We use LogSoftmax + NLLLoss instead of Softmax + CrossEntropy
        # -> https://pytorch.org/docs/stable/nn.html#torch.nn.CrossEntropyLoss
        # -> 위글을 참고하면 Logsoftmax + NLLLoss = Softmax + CrossEntropy입니다.
        self.activation = nn.LogSoftmax(dim=-1)

    def forward(self, x):
        # |x| = (batch_size, length)
        x = self.emb(x)
        # |x| = (batch_size, length, word_vec_dim)
        #  _  = LSTM의 cell state
        x, _ = self.rnn(x)
        # |x| = (batch_size, length, hidden_size * 2)
        y = self.activation(self.generator(x[:, -1]))
        # |y| = (batch_size, n_classes)

        return y
        

## Multi-layer bi-LSTM with dropout?

* Pytorch의 nn.lstm은 멀티 레이어, 양방향 레이어, dropout을 파라미터로 설정해줄 수 있습니다.
* RNN 계열에서 dropout은 [Recurrent Neural Network Regularization](https://arxiv.org/abs/1409.2329) 논문에서 처음으로 잘 동작하도록 사용했다고 합니다. ([관련 블로그 글](http://sanghyukchun.github.io/89/))
* 중요한 부분은 아래 option2 그림처럼 multi-layer에서 dropout이 사용되며, dropout은 recurrent connection이 아닌 부분에만 적용해야 하는 것이라고 합니다.

* Reference: (https://discuss.pytorch.org/t/lstm-dropout-clarification-of-last-layer/5588)

![multi-layer LSTM with dropout](https://discuss.pytorch.org/uploads/default/original/2X/6/62f94ceee433b693ef73be231f51ae4291e53880.png)

## 2. CNN Classifier

![](http://i.imgur.com/JN72JHW.png)

* CNN 텍스트 분류기 구조 ([Yoon Kim(2014)](http://emnlp2014.org/papers/pdf/EMNLP2014181.pdf))

* CNN을 사용한 텍스트 분류:
 * 문장의 단어들을 window 단위로 convolution 하여 feature를 추출한다.
 
저자의 구현은 아래와 같습니다.

In [22]:
# %load simple-ntc/simple_ntc/cnn.py
import torch
import torch.nn as nn


class CNNClassifier(nn.Module):

    def __init__(self,
                 input_size,
                 word_vec_dim,
                 n_classes,
                 use_batch_norm=False,
                 dropout_p=.5,
                 window_sizes=[3, 4, 5],
                 n_filters=[100, 100, 100]
                 ):
        # CNN 파라미터
        self.input_size = input_size  # vocabulary size
        self.word_vec_dim = word_vec_dim
        self.n_classes = n_classes
        self.use_batch_norm = use_batch_norm
        self.dropout_p = dropout_p
        # window_size means that how many words a pattern covers.
        self.window_sizes = window_sizes
        # n_filters means that how many patterns to cover.
        self.n_filters = n_filters

        super().__init__()

        # CNN 텍스트 분류기 레이어 구조
        self.emb = nn.Embedding(input_size, word_vec_dim)
        # Since number of convolution layers would be vary depend on len(window_sizes),
        # we use 'setattr' and 'getattr' methods to add layers to nn.Module object.
        # -> custom layer을 추가(setattr)하고, 불러와 사용하는 것(getattr)
        for window_size, n_filter in zip(window_sizes, n_filters):
            cnn = nn.Conv2d(in_channels=1,
                            out_channels=n_filter,
                            kernel_size=(window_size, word_vec_dim)
                            )
            setattr(self, 'cnn-%d-%d' % (window_size, n_filter), cnn)

            if use_batch_norm:
                bn = nn.BatchNorm2d(n_filter)
                setattr(self, 'bn-%d-%d' % (window_size, n_filter), bn)
        # Because below layers are just operations, 
        # (it does not have learnable parameters)
        # we just declare once.
        
        if not use_batch_norm:
            self.dropout = nn.Dropout(dropout_p)
        self.relu = nn.ReLU()
        # An input of generator layer is max values from each filter.
        self.generator = nn.Linear(sum(n_filters), n_classes)
        # We use LogSoftmax + NLLLoss instead of Softmax + CrossEntropy
        self.activation = nn.LogSoftmax(dim=-1)

    def forward(self, x):
        # |x| = (batch_size, length)
        x = self.emb(x)
        # |x| = (batch_size, length, word_vec_dim)
        min_length = max(self.window_sizes)
        if min_length > x.size(1):
            # Because some input does not long enough for maximum length of window size,
            # we add zero tensor for padding.
            pad = x.new(x.size(0), min_length - x.size(1), self.word_vec_dim).zero_()
            # |pad| = (batch_size, min_length - length, word_vec_dim)
            x = torch.cat([x, pad], dim=1)
            # |x| = (batch_size, min_length, word_vec_dim)

        # In ordinary case of vision task, you may have 3 channels on tensor,
        # but in this case, you would have just 1 channel,
        # which is added by 'unsqueeze' method in below:
        x = x.unsqueeze(1)
        # |x| = (batch_size, 1, length, word_vec_dim)

        cnn_outs = []
        for window_size, n_filter in zip(self.window_sizes, self.n_filters):
            cnn = getattr(self, 'cnn-%d-%d' % (window_size, n_filter))
            if self.use_batch_norm:
                bn = getattr(self, 'bn-%d-%d' % (window_size, n_filter))
                cnn_out = bn(self.relu(cnn(x)))
            else:
                cnn_out = self.dropout(self.relu(cnn(x)))
            # |cnn_out| = (batch_size, n_filter, length - window_size + 1, 1)

            # In case of max pooling, we does not know the pooling size,
            # because it depends on the length of the sentence.
            # Therefore, we use instant function using 'nn.functional' package.
            # This is the beauty of PyTorch. :)
            cnn_out = nn.functional.max_pool1d(input=cnn_out.squeeze(-1),
                                               kernel_size=cnn_out.size(-2)
                                               ).squeeze(-1)
            # |cnn_out| = (batch_size, n_filter)
            cnn_outs += [cnn_out]
        # Merge output tensors from each convolution layer.
        cnn_outs = torch.cat(cnn_outs, dim=-1)
        # |cnn_outs| = (batch_size, sum(n_filters))
        y = self.activation(self.generator(cnn_outs))
        # |y| = (batch_size, n_classes)

        return y


## 3. 학습/테스트 데이터

저자의 경우 클리앙 사이트의 글을 크롤링한 후, 게시글의 카테고리 분류를 수행했습니다.

그러나 저자가 데이터를 제공하고 있지 않고, [클리앙 크롤링 코드](https://github.com/kh-kim/clien_crawler)는 제대로 동작하지 않는 것 같아
저는 [AI hub의 한국어 대화 데이터](http://www.aihub.or.kr/content/553)를 사용하겠습니다.

![한국어 대화 데이터 구조](http://www.aihub.or.kr/sites/default/files/%E1%84%83%E1%85%A2%E1%84%92%E1%85%AA%E1%84%83%E1%85%A6%E1%84%8B%E1%85%B5%E1%84%90%E1%85%A5_%E1%84%80%E1%85%AE%E1%84%89%E1%85%A5%E1%86%BC%E1%84%83%E1%85%A9.JPG)

해당 데이터는 AI hub를 통해 직접 다운 받으셔야 합니다.
학습을 위한 데이터는 제가 공유드린 parsing.py 파일을 사용해 간단하게 생성할 수 있습니다.

이번 텍스트 분류 실습에서는 대화의 카테고리를 분류해보는 것을 해보도록 하겠습니다.

데이터는 대략 아래와 같습니다.

In [23]:
!head -10 data/dialog/category_corpus.txt.shuf

펜션/캠핑장	재료는 직접 사 와야 하나요?
상가	건물이 몇 년도에 지어졌어요?
모텔/여관	제일 작은방은 없나요?
pc방	네 화장실 다녀온 후 라면 가지러 오겠습니다
화장품	여기 이 제품 새 제품 있나요?
미용실	남자만 머리할 수 있어요?
옷수선집	영업시간 좀 문의드려요
카페	몇 시에서 몇 시까지 영업하세요?
신발	요 신발은 몇 문이에요?
반찬가게	혹시 현금영수증 돼요?


## 4. Code

저자 코드의 구조를 살펴보면..

In [15]:
%ll simple-ntc

total 72
-rwxr-xr-x  1 DongGyun  staff  8624  9 23 19:52 [31mREADME.md[m[m*
drwxr-xr-x  4 DongGyun  staff   128 10  1 19:22 [34m__pycache__[m[m/
-rwxr-xr-x  1 DongGyun  staff  4609  9 23 19:52 [31mclassify.py[m[m*
-rwxr-xr-x  1 DongGyun  staff  3396  9 23 19:52 [31mdata_loader.py[m[m*
-rwxr-xr-x  1 DongGyun  staff  1201  9 23 19:52 [31mget_confusion_matrix.py[m[m*
drwxr-xr-x  8 DongGyun  staff   256 10  2 22:24 [34msimple_ntc[m[m/
-rwxr-xr-x  1 DongGyun  staff  4045  9 23 19:52 [31mtrain.py[m[m*
-rwxr-xr-x  1 DongGyun  staff   725  9 23 19:52 [31mutils.py[m[m*


* train.py: 학습 할때 실행하게 될 파이썬 코드입니다. 학습의 파라미터 설정에 대한 정보를 넘겨줄 수 있고, 학습 결과를 어떻게 저장할지 등을 설정합니다.
* classify.py:
* data_loader.py:
* utils.py:
* get_confusion_matrix.py:

In [16]:
%ll simple-ntc/simple_ntc

total 32
-rwxr-xr-x  1 DongGyun  staff     0  9 23 19:52 [31m__init__.py[m[m*
drwxr-xr-x  6 DongGyun  staff   192 10  1 19:20 [34m__pycache__[m[m/
-rwxr-xr-x  1 DongGyun  staff  4212  9 23 19:52 [31mcnn.py[m[m*
-rwxr-xr-x  1 DongGyun  staff  1449  9 23 19:52 [31mrnn.py[m[m*
-rwxr-xr-x  1 DongGyun  staff  3771  9 23 19:52 [31mtrainer.py[m[m*


* rnn.py & cnn.py: 앞서 설명드렸던 RNN, CNN 모델 파일입니다.
* trainer.py: 저자는 pytorch 모델 학습의 코드를 더 간략하게 작성하기 위하여 ignite를 사용했습니다. 이 파일은 그 ignite 사용에 대한 부분이 포함되어 있습니다.

# 5. Training

In [24]:
%ll data/dialog

total 186480
-rw-r--r--  1 DongGyun  staff         0 10  3 16:29 Domain_corpus.txt
-rw-r--r--  1 DongGyun  staff   5885165 10  3 16:29 Intent_corpus.txt
-rw-r--r--  1 DongGyun  staff   2720816 10  3 16:29 category_corpus.txt
-rw-r--r--  1 DongGyun  staff   2720816 10  3 16:29 category_corpus.txt.shuf
-rw-r--r--  1 DongGyun  staff   2450240 10  3 16:29 category_corpus.txt.shuf.train
-rw-r--r--  1 DongGyun  staff    270576 10  3 16:29 category_corpus.txt.shuf.valid
-rw-------  1 DongGyun  staff  35637997  5  7 16:39 dialog.json
-rw-------  1 DongGyun  staff  23974499  5  7 16:53 dialog.xml
-rw-r--r--  1 DongGyun  staff   2720816 10  1 19:07 dialog_category.data
-rw-r--r--  1 DongGyun  staff   2720816 10  1 19:16 raw_corpus.shuf.txt
-rw-r--r--  1 DongGyun  staff   2459022 10  1 19:18 raw_corpus.train.txt
-rw-r--r--  1 DongGyun  staff   2720816 10  1 19:13 raw_corpus.txt
-rw-r--r--  1 DongGyun  staff    262388 10  1 19:17 raw_corpus.valid.txt
-rw-------  1 DongGyun  staff   9036454  5  7 1

\# 콘솔에서 아래 명령어를 통해 학습을 수행합니다.

\# RNN
python simple-ntc/train.py --model_fn ./models/model.pth --train ./data/dialog/category_corpus.txt.shuf.train --valid ./data/dialog/category_corpus.txt.shuf.valid --rnn --gpu_id -1

\# CNN
python simple-ntc/train.py --model_fn ./models/model.pth --train ./data/dialog/category_corpus.txt.shuf.train --valid ./data/dialog/category_corpus.txt.shuf.valid --rnn --gpu_id -1

\# RNN&CNN ensemble
python simple-ntc/train.py --model_fn ./models/model.pth --train ./data/dialog/category_corpus.txt.shuf.train --valid ./data/dialog/category_corpus.txt.shuf.valid --rnn -cnn --gpu_id -1

# 6. Inference

In [47]:
!head -n 10 ./data/dialog/category_corpus.txt.shuf.valid | awk -F'\t' '{ print $2 }' | python simple-ntc/classify.py --model ./models/rnn_model.pth --gpu_id -1 --top_k 3

펜션/캠핑장 호텔 모텔/여관	재료는 직접 사 와야 하나요?
상가 주택 토지	건물이 몇 년도에 지어졌어요?
당구장 카페 모텔/여관	제일 작은방은 없나요?
pc방 일반홀서빙음식점 당구장	네 화장실 다녀온 후 라면 가지러 오겠습니다
화장품 의류 가방	여기 이 제품 새 제품 있나요?
미용실 약국 화장품	남자만 머리할 수 있어요?
세탁소 여권 옷수선집	영업시간 좀 문의드려요
제과점 카페 셀프서비스음식점	몇 시에서 몇 시까지 영업하세요?
신발 의류 가방	요 신발은 몇 문이에요?
셀프서비스음식점 일반홀서빙음식점 세탁소	혹시 현금영수증 돼요?


In [46]:
!head -n 10 ./data/dialog/category_corpus.txt.shuf.valid | awk -F'\t' '{ print $2 }' | python simple-ntc/classify.py --model ./models/cnn_model.pth --gpu_id -1 --top_k 3

펜션/캠핑장 옷수선집 상가	재료는 직접 사 와야 하나요?
상가 주택 가방	건물이 몇 년도에 지어졌어요?
일반홀서빙음식점 반찬가게 카페	제일 작은방은 없나요?
pc방 일반홀서빙음식점 셀프서비스음식점	네 화장실 다녀온 후 라면 가지러 오겠습니다
화장품 신발 의류	여기 이 제품 새 제품 있나요?
미용실 일반홀서빙음식점 청과물	남자만 머리할 수 있어요?
옷수선집 셀프서비스음식점 일반홀서빙음식점	영업시간 좀 문의드려요
카페 일반홀서빙음식점 옷수선집	몇 시에서 몇 시까지 영업하세요?
신발 가방 의류	요 신발은 몇 문이에요?
일반홀서빙음식점 카페 셀프서비스음식점	혹시 현금영수증 돼요?
