## [문자]청와대 청원 : 청원의 주제가 무엇일까?

텍스트 데이터를 분석하여 청원 주제를 분류 해보세요.
### 1. train.csv / test.csv
- index: index
- category: 청원 주제/범주
- data: 청원 내용

### 2. submission.csv (제출 파일 형식)

### 3. 라벨 종류
- 0 : 인권/성평등
- 1 : 문화/예술/체육/언론
- 2 : 육아/교육

### NLP(자연어 처리)
1. 한국어는 영어와 달리 단어별로 토큰화를 이루게 되면 해석이 달라지므로 ***형태소 토큰화***가 이루어져야 합니다.
2. ex) 문장: 에디가 책을 읽었다.
 - 단어 토큰화: ['에디가', '책을', '읽었다']
 - 형태소 토큰화: 자립 형태소['에디', '책'], 의존 형태소['-가', '-을', '읽-', '-었', '-다']
3. 전처리 과정에서 제거해야 하는 데이터는 '자연어가 아니면서 아무 의미도 갖지 않는 글자(특수 문자 등)와 분석하고자 하는 목적에 맞지 않는 불필요 단어들입니다.
4. 한국어 전처리 패키지
 - PyKoSpacing: 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다.
 - Py-Hanspell: 네이버의 '맞춤법 검사기' 바탕으로 만들어진 패키지로 띄어쓰기와 맞춤법을 지원합니다.
 - SOYNLP: 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저(단어 토큰화 모델)입니다.
 - KoNLPy: 한나눔(Hannanum), 꼬꼬마(Kkma), 메캅(Mecab), 코모란(Komoran), okt(Twitter)와 같은 형태소 분석기를 제공하는 패키지입니다.

#### `1.` 필요 패키지 설치

In [1]:
!pip install konlpy
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

fatal: destination path 'Mecab-ko-for-Google-Colab' already exists and is not an empty directory.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Done
Installing mecab-0.996-ko-0.9.2.tar.gz.....
Downloading mecab-0.996-ko-0.9.2.tar.gz.......
from https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
--2022-03-18 00:21:49--  https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
Resolving bitbucket.org (bitbucket.org)... 104.192.141.1, 2406:da00:ff00::22c0:3470, 2406:da00:ff00::6b17:d1f5, ...
Connecting to bitbucket.org (bitbucket.org)|104.192.141.1|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=W93CgT9POqA%2FKlgCCwuwEXm8V%2F8%3D&Expires=1647564199&AWSAccessKeyId=AKIA6KOSE3BNA7WTAGHW&versionId=null&response-content-disposition=attachment%3B%20filename%3D%22mecab-0.996-ko-0.9.2.tar.gz%22&response-con

#### `2.` 라이브러리 임포트

In [2]:
import pandas as pd
import numpy as np
import re
from tqdm import tqdm                                             # 진행률을 보여주는 라이브러리입니다.
from konlpy.tag import Okt                                        # 자연어 처리를 위한 형태소 분석기입니다.
from konlpy.tag import Mecab                                      # 자연어 처리를 위한 형태소 분석기입니다.
from tensorflow.keras.preprocessing.text import Tokenizer         # 텍스트 토근화에 필요한 함수입니다.
from tensorflow.keras.preprocessing.sequence import pad_sequences # 병렬 연산을 위해서 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업을 도와주는 함수입니다.
from tensorflow.keras.models import Sequential                    # 순차적으로 레이어 층을 더해주는 순차모델입니다
from tensorflow.keras.utils import to_categorical                 # 레이블 데이터의 원-핫 인코딩을 위한 함수입니다.
from tensorflow.keras.layers import Dense, LSTM, Embedding        # 은닉층 생성 함수 Dense, 은닉층 계산 모델 LSTM, 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꿔 주는 Embedding
from tensorflow.keras.callbacks import EarlyStopping              # 성능의 개선이 없는 경우 자동으로 학습을 종료하는 함수입니다.
from tensorflow.keras.callbacks import ModelCheckpoint            # 모델이 최적의 성능을 낼 때 자동으로 저장해주는 함수입니다.
from tensorflow.keras.models import load_model                    # 최적의 성능 가중치가 저장된 모델을 불러오는 함수입니다.
from google.colab import drive                                    # 구글 드라이브에 연결하기 위한 라이브러리입니다.
drive.mount('/content/gdrive/')

Mounted at /content/gdrive/


#### `3.` 데이터 로드

In [3]:
train_data = pd.read_csv('/content/gdrive/MyDrive/Dacon/Blue House Petition：What is the theme of the petition？/청와대 청원/train.csv')
test_data = pd.read_csv('/content/gdrive/MyDrive/Dacon/Blue House Petition：What is the theme of the petition？/청와대 청원/test.csv')
submission_data = pd.read_csv('/content/gdrive/MyDrive/Dacon/Blue House Petition：What is the theme of the petition？/청와대 청원/sample_submission.csv')

#### `4.` 데이터 정보 확인

In [4]:
display(train_data.head())
print('train_data.info()', train_data.info())
display(test_data.head())
print('test_data.info()', test_data.info())
display(submission_data.head())
print('submission_data.info()', submission_data.info())

Unnamed: 0,index,category,data
0,0,2,신혼부부위한 주택정책 보다 보육시설 늘려주세요.. 국민세금으로 일부를 위한 정책펴지...
1,1,0,학교이름에 '남자'도 붙여주세요. 울산여자중학교에 재학중인 학생입니다 최근 양성평등...
2,2,1,"빙상연맹, 대한축구협회등 각종 체육협회의 비리를 철저하게 밝혀주세요.. 최근 동계올..."
3,3,1,"티비 12세,15세 관람가도 연령확인 의무화 하자.. 제기 에전에 티비를 보다가 잠..."
4,4,1,무더운 여름철엔 남성들도 시원한 자율복장을 해야. 무더운 여름철에는 남성들도 노넥타...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40000 entries, 0 to 39999
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   index     40000 non-null  int64 
 1   category  40000 non-null  int64 
 2   data      39992 non-null  object
dtypes: int64(2), object(1)
memory usage: 937.6+ KB
train_data.info() None


Unnamed: 0,index,data
0,0,소년법 폐지해주세요. 법 아래에서 보호받아야 할 아이들이\n법으로 인해 보호받지 못...
1,1,국공립 유치원 증설에 관하여. 국공립 유치원 부지 학보와건립및 증설에\n*지역 어린...
2,2,나경원파면. 나경원의원의 동계올림픽 위원을 파면해 주세요
3,3,국민위원에가 삼성편만들어요. 삼성에서 11년간 일하고 혈암과 백혈병 진단을 받은 ...
4,4,"방과후,유치원,어린이집 영어교육을 유지시켜주세요. 저는 아이 셋 키우는 평범한 주부..."


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   index   5000 non-null   int64 
 1   data    5000 non-null   object
dtypes: int64(1), object(1)
memory usage: 78.2+ KB
test_data.info() None


Unnamed: 0,index,category
0,0,0
1,1,0
2,2,0
3,3,0
4,4,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   index     5000 non-null   int64
 1   category  5000 non-null   int64
dtypes: int64(2)
memory usage: 78.2 KB
submission_data.info() None


#### `5-1.` 데이터 전처리: 데이터 정제

In [5]:
# 데이터의 정보를 확인한 결과 data에 NaN 값이 존재합니다. 데이터의 특성상 결측값을 채우기에는 어려운 부분이 있고 결측값의 개수가 적으므로 결측값이 있는 행을 삭제하겠습니다.
train_data = train_data.dropna()

# train_data와 test_data의 값을 확인해 보면 '\\n'을 확인할 수 있습니다. 이는 이스케이프(Escape) 문자로 \(backslash)를 앞에 붙여 php에 정의되어 있는 원래의 의미를 벗어나는 문자입니다. 여기서 '\\n'은 줄 바꿈을 의미합니다.
# 이스케이프 문자를 제거하기 위해 한글의 범위를 지정할 수 있는 정규 표현식을 이용하겠습니다. 자음의 범위: ㄱ ~ ㅎ, 모음의 범위:ㅏ ~ ㅣ, 완성형 한글의 범위: 가 ~ 힣, ^: not을 의미함
# train_data['data'] 열의 값들을 string형으로 바꾼 뒤 정규 표현식 범위의 해당되지 않는 것들을 공백으로 바꿉니다.
train_data['data'] = train_data['data'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '')
test_data['data'] = test_data['data'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', '')

  import sys
  


#### `5-2-1.` 데이터 전처리: 형태소 분석기를 이용한 토큰화 및 불용어 제거(Okt)

In [6]:
# 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어를 '불용어(Stopword)'라고 합니다 불용어 제거는 자연어 처리의 매우 중요한 정규화 작업 중 하나로써 메모리 확보와 기계로 하여금 중요한 단어로 오인될 수 있는 가능성을
# 사전에 배제하는 역할을 합니다. https://www.ranks.nl/stopwords/korean 해당 링크는 보편적으로 선택할 수 있는 한국어 불용어 리스트를 보여줍니다. 하지만 여전히 절대적인 기준은 아닙니다. 또한 불용어가 많은 경우에는 코드 내에서 직접
# 정의하지 않고 txt 파일이나 csv 파일로 정리해놓고 이를 불러와서 사용하기도 합니다. 이제 불용어를 제거하기 위해 불용어를 우선 정의하겠습니다.
stopwords = ['가', '걍', '과', '나', '는', '들', '도', '다', '등', '로', '를', '마', '아', '의', '이', '어', '은', '와', '을', '여', '에', '저', '좀', '잘', '자', '제', '한', '휴', '으로', '하다']

# 형태소 분석기 모델을 okt 변수에 할당하여 객체를 생성합니다.
tokenizer_okt = Okt()

# train_data['data']열의 길이만큼 반복하면서 토큰화와 불용어 제거를 수행합니다.
okt_x_train = []                                                                   # 토큰화 및 불용어 제거가 된 값을 넘겨받을 변수를 생성합니다.
for sentence, i in zip(train_data['data'], tqdm(range(len(train_data['data'])))) : # train_data['data']의 값들을 열의 길이만큼 반복하면서 
    temp_x = []                                                                    # 토큰화 후 불용어를 제거한 최종 값을 받을 변수를 생성합니다.
    temp_x = tokenizer_okt.morphs(sentence, stem=True)                             # Okt 분석기의 morphs 함수를 사용하여 sentence 변수에 저장된 train_data['data']의 값들을 값들의 형태소 분석을 진행합니다.
    temp_x = [word for word in temp_x if not word in stopwords]                    # temp_x 변수에 저장된 값을 word 변수에 하나씩 넘겨주어 stopwords와 비교를 합니다. 불용어로 정의해 놓은 값에 word 값이 없다면 해당 word 값을 temp_x 변수에 저장합니다.
    okt_x_train.append(temp_x)                                                     # okt_x_train 리스트 변수에 불용어 제거가 수행된 값을 하나씩 넣어줍니다.

# test_data['data']열의 길이만큼 반복하면서 토큰화와 불용어 제거를 수행합니다.
okt_x_test = []                                                                    # 토큰화 및 불용어 제거가 된 값을 넘겨받을 변수를 생성합니다.
for sentence, i in zip(test_data['data'], tqdm(range(len(test_data['data'])))) :   # test_data['data']의 값들을 열의 길이만큼 반복하면서 
    temp_x = []                                                                    # 토큰화 후 불용어를 제거한 최종 값을 받을 변수를 생성합니다.
    temp_x = tokenizer_okt.morphs(sentence, stem=True)                             # Okt 분석기의 morphs 함수를 사용하여 sentence 변수에 저장된 test_data['data']의 값들을 값들의 형태소 분석을 진행합니다.
    temp_x = [word for word in temp_x if not word in stopwords]                    # temp_x 변수에 저장된 값을 word 변수에 하나씩 넘겨주어 stopwords와 비교를 합니다. 불용어로 정의해 놓은 값에 word 값이 없다면 해당 word 값을 temp_x 변수에 저장합니다.
    okt_x_test.append(temp_x)                                                      # okt_x_test 리스트 변수에 불용어 제거가 수행된 값을 하나씩 넣어줍니다.

100%|█████████▉| 39991/39992 [42:24<00:00, 15.71it/s]
100%|█████████▉| 4999/5000 [08:25<00:00,  9.88it/s]


#### `5-2-2.` 데이터 전처리: 형태소 분석기를 이용한 토큰화 및 불용어 제거(Mecab), 단어 집합(Vocabulary) 생성

In [7]:
# 형태소 분석기 모델을 okt 변수에 할당하여 객체를 생성합니다.
tokenizer_mc = Mecab()

# train_data['data']열의 길이만큼 반복하면서 토큰화와 불용어 제거를 수행합니다.
mc_x_train = []                                                                    # 토큰화 및 불용어 제거가 된 값을 넘겨받을 변수를 생성합니다.
for sentence, i in zip(train_data['data'], tqdm(range(len(train_data['data'])))) : # train_data['data']의 값들을 열의 길이만큼 반복하면서 
    temp_x = []                                                                    # 토큰화 후 불용어를 제거한 최종 값을 받을 변수를 생성합니다.
    temp_x = tokenizer_mc.morphs(sentence)                                         # Mecab 분석기의 morphs 함수를 사용하여 sentence 변수에 저장된 train_data['data']의 값들의 형태소 분석을 진행합니다.
    temp_x = [word for word in temp_x if not word in stopwords]                    # temp_x 변수에 저장된 값을 word 변수에 하나씩 넘겨주어 stopwords와 비교를 합니다. 불용어로 정의해 놓은 값에 word 값이 없다면 해당 word 값을 temp_x 변수에 저장합니다.
    mc_x_train.append(temp_x)                                                      # mc_x_train 리스트 변수에 불용어 제거가 수행된 값을 하나씩 넣어줍니다.

# test_data['data']열의 길이만큼 반복하면서 토큰화와 불용어 제거를 수행합니다.
mc_x_test = []                                                                     # 토큰화 및 불용어 제거가 된 값을 넘겨받을 변수를 생성합니다.
for sentence, i in zip(test_data['data'], tqdm(range(len(test_data['data'])))) :   # test_data['data']의 값들을 열의 길이만큼 반복하면서 
    temp_x = []                                                                    # 토큰화 후 불용어를 제거한 최종 값을 받을 변수를 생성합니다.
    temp_x = tokenizer_mc.morphs(sentence)                                         # Mecab 분석기의 morphs 함수를 사용하여 sentence 변수에 저장된 test_data['data']의 값들의 형태소 분석을 진행합니다.
    temp_x = [word for word in temp_x if not word in stopwords]                    # temp_x 변수에 저장된 값을 word 변수에 하나씩 넘겨주어 stopwords와 비교를 합니다. 불용어로 정의해 놓은 값에 word 값이 없다면 해당 word 값을 temp_x 변수에 저장합니다.
    mc_x_test.append(temp_x)                                                       # mc_x_test 리스트 변수에 불용어 제거가 수행된 값을 하나씩 넣어줍니다.

100%|█████████▉| 39991/39992 [01:23<00:00, 480.86it/s]
100%|█████████▉| 4999/5000 [00:08<00:00, 580.09it/s]


#### `5-3.` 데이터 전처리: 단어 기반 인코딩

In [8]:
# 단어 집합의 크기를 알아보고 vocabulary 크기를 지정하겠습니다.
print('okt_x_train 단어 집합의 크기 : {}'.format(len(okt_x_train)))
print('okt_x_test 단어 집합의 크기 : {}'.format(len(okt_x_test)))
print('mc_x_train 단어 집합의 크기 : {}'.format(len(mc_x_train)))
print('mc_x_test 단어 집합의 크기 : {}'.format(len(mc_x_test)))

# 위 5-2-2 과정에서 불용어를 제거하고 형태소 분석이 완료된 데이터를 토큰화합니다. 먼저 vocabulary의 사이즈를 지정합니다.
vocab_size = 30000

# okt 분석기를 사용한 데이터
tokenizer_okt = Tokenizer(vocab_size)   # Tokenizer 객체를 생성하고 단어 빈도수가 높은 순으로 30000개만 사용합니다. 
tokenizer_okt.fit_on_texts(okt_x_train) # 문자 데이터를 입력받아서 리스트의 형태로 변환합니다.

# mecab 분석기를 사용한 데이터
tokenizer_mc = Tokenizer(vocab_size)  # Tokenizer 객체를 생성하고 단어 빈도수가 높은 순으로 30000개만 사용합니다. 
tokenizer_mc.fit_on_texts(mc_x_train) # 문자 데이터를 입력받아서 리스트의 형태로 변환합니다.

okt_x_train 단어 집합의 크기 : 39992
okt_x_test 단어 집합의 크기 : 5000
mc_x_train 단어 집합의 크기 : 39992
mc_x_test 단어 집합의 크기 : 5000


#### `5-4.` 시퀀스 변환

In [9]:
# 토큰화가 진행된 데이터를 시퀀스화 합니다. (문장의 고유 정수를 붙여주는 작업)
encode_okt_x_train = tokenizer_okt.texts_to_sequences(okt_x_train) # okt 분석기를 이용한 train_data
encode_okt_x_test = tokenizer_okt.texts_to_sequences(okt_x_test)   # okt 분석기를 이용한 test_data

encode_mc_x_train = tokenizer_mc.texts_to_sequences(mc_x_train)    # mecab 분석기를 이용한 train_data
encode_mc_x_test = tokenizer_mc.texts_to_sequences(mc_x_test)      # mecab 분석기를 이용한 test_data

#### `5-5.` 패딩 설정

In [10]:
# 이제 길이가 다른 문장들을 모두 동일한 길이로 바꿔주는 패딩 작업을 진행해보겠습니다. 먼저 문장의 최대 길이를 확인하고 최대 길이에 맞춰 패딩을 진행하겠습니다.
okt_max_len = max(len(item) for item in encode_okt_x_train)
mc_max_len = max(len(item) for item in encode_mc_x_train)
print('okt_max_len: {}, mc_max_len: {}'.format(okt_max_len, mc_max_len))

# 문장의 길이를 일정하게 맞춰는 작업을 진행합니다. maxlen=: 최대 길이를 지정합니다.
pad_okt_x_train = pad_sequences(encode_okt_x_train, maxlen=okt_max_len)
pad_okt_x_test = pad_sequences(encode_okt_x_test, maxlen=okt_max_len)
pad_mc_x_train = pad_sequences(encode_mc_x_train, maxlen=mc_max_len)
pad_mc_x_test = pad_sequences(encode_mc_x_test, maxlen=mc_max_len)

okt_max_len: 8747, mc_max_len: 9668


#### `6-1.` 모델 생성 및 학습(okt)

In [11]:
# 레이블 데이터를 원-핫 인코딩을 거쳐 나눕니다.
y_train = to_categorical(train_data['category'])

# 하이퍼파라미터를 지정합니다. 임베딩 벡터의 차원은 32로 설정하겠습니다.
embedding_dim = 32

# 은닉 상태의 크기는 32로 설정하겠습니다.
hidden_units = 32

# 클래스 레이블의 개수를 지정합니다.
num_classes = 3

# 하이퍼파라미터인 임베딩 벡터의 차원은 32, 은닉 상태의 크기는 32입니다. 단어 집합의 크기는 앞서 30,000으로 정했습니다.
# 모델은 다 대 일 구조의 LSTM을 사용합니다. 해당 모델은 마지막 시점에서 3개의 선택지 중 하나의 선택지를 예측하는 다중 클래스 분류 문제를 수행하는 모델입니다.
# 다중 클래스 분류 문제의 경우, 출력층에 소프트맥스 회귀를 사용해야 하므로 활성화 함수로는 소프트맥스 함수를 사용하고, 손실 함수로 크로스 엔트로피 함수를 사용합니다. 하이퍼파라미터인 배치 크기는 128이며, 30 에포크를 수행합니다.
# 가운데 층에서 sigmoid를 쓰지 않는 이유는 입력값이 1이 들어갔을 때 출력이 0되는 정리하자면 가중치가 소실되어 학습이 전혀 되지 않기 때문입니다.
okt_model = Sequential()
okt_model.add(Embedding(vocab_size, embedding_dim))
okt_model.add(LSTM(hidden_units))
okt_model.add(Dense(num_classes, activation='softmax')) 

# 검증 데이터 손실(val_loss)이 증가하면, 과적합 징후이므로 검증 데이터 손실이 4회 증가하면 정해진 에포크에 도달하지 못하여도 학습을 조기 종료합니다.
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4)

# 검증 데이터의 정확도(val_acc)가 이전보다 좋아질 경우에만 모델을 저장합니다.
mc = ModelCheckpoint('okt_best_model.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)

okt_model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])
# validation_data가 없기때문에 모델이 데이터의 20%를 검증 데이터로 사용합니다.
okt_history = okt_model.fit(pad_okt_x_train, y_train, batch_size=128, epochs=30, callbacks=[es, mc], validation_split = 0.2)

Epoch 1/30
Epoch 1: val_acc improved from -inf to 0.85861, saving model to okt_best_model.h5
Epoch 2/30
Epoch 2: val_acc improved from 0.85861 to 0.86323, saving model to okt_best_model.h5
Epoch 3/30
Epoch 3: val_acc did not improve from 0.86323
Epoch 4/30
Epoch 4: val_acc did not improve from 0.86323
Epoch 5/30
Epoch 5: val_acc did not improve from 0.86323
Epoch 6/30
Epoch 6: val_acc did not improve from 0.86323
Epoch 7/30
Epoch 7: val_acc did not improve from 0.86323
Epoch 7: early stopping


#### `6-2.` 모델 생성 및 학습(mecab)

In [12]:
# 하이퍼파라미터를 지정합니다. 임베딩 벡터의 차원은 32로 설정하겠습니다.
embedding_dim = 32

# 은닉 상태의 크기는 32로 설정하겠습니다.
hidden_units = 32

# 클래스 레이블의 개수를 지정합니다.
num_classes = 3

# 하이퍼파라미터인 임베딩 벡터의 차원은 32, 은닉 상태의 크기는 32입니다. 단어 집합의 크기는 앞서 30,000으로 정했습니다.
# 모델은 다 대 일 구조의 LSTM을 사용합니다. 해당 모델은 마지막 시점에서 3개의 선택지 중 하나의 선택지를 예측하는 다중 클래스 분류 문제를 수행하는 모델입니다.
# 다중 클래스 분류 문제의 경우, 출력층에 소프트맥스 회귀를 사용해야 하므로 활성화 함수로는 소프트맥스 함수를 사용하고, 손실 함수로 크로스 엔트로피 함수를 사용합니다. 하이퍼파라미터인 배치 크기는 128이며, 30 에포크를 수행합니다.
mc_model = Sequential()
mc_model.add(Embedding(vocab_size, embedding_dim))
mc_model.add(LSTM(hidden_units))
mc_model.add(Dense(num_classes, activation='softmax'))

# 검증 데이터 손실(val_loss)이 증가하면, 과적합 징후이므로 검증 데이터 손실이 4회 증가하면 정해진 에포크에 도달하지 못하여도 학습을 조기 종료합니다.
es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4)

# 검증 데이터의 정확도(val_acc)가 이전보다 좋아질 경우에만 모델을 저장합니다.
mc = ModelCheckpoint('mc_best_model.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)

mc_model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['acc'])
# validation_data가 없기때문에 모델이 데이터의 20%를 검증 데이터로 사용합니다.
mecab_history = mc_model.fit(pad_mc_x_train, y_train, batch_size=128, epochs=30, callbacks=[es, mc], validation_split = 0.2)

Epoch 1/30
Epoch 1: val_acc improved from -inf to 0.84961, saving model to mc_best_model.h5
Epoch 2/30
Epoch 2: val_acc improved from 0.84961 to 0.85498, saving model to mc_best_model.h5
Epoch 3/30
Epoch 3: val_acc did not improve from 0.85498
Epoch 4/30
Epoch 4: val_acc improved from 0.85498 to 0.85898, saving model to mc_best_model.h5
Epoch 5/30
Epoch 5: val_acc did not improve from 0.85898
Epoch 6/30
Epoch 6: val_acc did not improve from 0.85898
Epoch 6: early stopping


#### `7.` 모델 예측

In [21]:
# 가장 성능이 좋았던 모델을 불러옵니다.
okt_load_model = load_model('okt_best_model.h5')
mc_load_model = load_model('mc_best_model.h5')

# 답안 제출 파일을 복사하여 각각 각기 다른 분석기를 사용한 답안을 작성할 예정입니다.
submission_okt = submission_data.copy()
submission_mc = submission_data.copy()

# Okt 분석기를 사용한 답안을 작성합니다.
okt_y_pred = okt_load_model.predict(pad_okt_x_test, verbose=0) 
okt_result = okt_y_pred.argmax(axis=-1)
submission_okt['category'] = okt_result
submission_okt.to_csv('/content/gdrive/MyDrive/Dacon/Blue House Petition：What is the theme of the petition？/answer/submission_okt.csv', encoding='utf-8', index = False)

# Mecab 분석기를 사용한 답안을 작성합니다.
mc_y_pred = mc_load_model.predict(pad_mc_x_test, verbose=0) 
mc_result = mc_y_pred.argmax(axis=-1)
submission_mc['category'] = mc_result
submission_mc.to_csv('/content/gdrive/MyDrive/Dacon/Blue House Petition：What is the theme of the petition？/answer/submission_mc.csv', encoding='utf-8', index = False)

#### 참고 사이트
1. https://wikidocs.net/book/2155
2. https://www.itworld.co.kr/news/187793
3. https://dacon.io/competitions/open/235597/codeshare/955?page=1&dtype=recent
4. https://wikidocs.net/64517