# 자연어처리

RNN 을 활용한 텍스트 분류 (Text Classification)

## 확인

1. GPU 옵션 켜져 있는지 확인할 것!!! (수정 - 노트설정 - 하드웨어설정 (GPU))

## 순서

1. **import**: 필요한 모듈 import
2. **전처리**: 학습에 필요한 데이터 전처리를 수행합니다.
3. **모델링(model)**: 모델을 정의합니다.
4. **컴파일(compile)**: 모델을 생성합니다.
5. **학습 (fit)**: 모델을 학습시킵니다.

## 문제

-------------------------------
**자연어 처리**<br/><br/>

주어진 `spam.csv` file을 활용하여 스팸 메일 분류기를 만듭니다.

-----------------------------------


## 필요한 모듈 import

In [None]:
import json
import tensorflow as tf
import numpy as np
import urllib
import pandas as pd

pd.set_option('display.max_colwidth', None)

# 필요한 module import


## 필요한 데이터 셋 다운로드

In [None]:
# 데이터셋 다운로드
url = 'https://www.dropbox.com/s/iwm9kucrx5i6h2e/spam.csv?dl=1'
urllib.request.urlretrieve(url, 'spam.csv')

('spam.csv', <http.client.HTTPMessage at 0x7f17419d3110>)

## 데이터 로드

In [None]:
# 데이터셋 로드
df = pd.read_csv('spam.csv', encoding='latin1')
df = df[['v1', 'v2']]
df

Unnamed: 0,v1,v2
0,ham,"Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives around here though"
...,...,...
5567,spam,"This is the 2nd time we have tried 2 contact u. U have won the å£750 Pound prize. 2 claim is easy, call 087187272008 NOW1! Only 10p per minute. BT-national-rate."
5568,ham,Will Ì_ b going to esplanade fr home?
5569,ham,"Pity, * was in mood for that. So...any other suggestions?"
5570,ham,The guy did some bitching but I acted like i'd be interested in buying something else next week and he gave it to us for free


## 전처리: 데이터셋 구성(sentences, labels)

다음과 같이 `v1` 컬럼의 `ham`은 0으로 `spam`은 1로 변환합니다.

In [None]:
# 코드를 입력해 주세요
df['v1'] = 

In [None]:
df['v1'].value_counts()

0    4825
1     747
Name: v1, dtype: int64

## train / valid 데이터셋 분리

In [None]:
from sklearn.model_selection import train_test_split

SEED = 123

데이터셋 분할 옵션

- test_size=0.2
- stratify 지정
- random_state=SEED 지정

In [None]:
train_sentence, valid_sentence, train_label, valid_label = # 코드를 입력해 주세요

In [None]:
train_sentence.shape, valid_sentence.shape

((4457,), (1115,))

In [None]:
train_sentence[:5]

4128                                                                                                                                  Me i'm not workin. Once i get job...
134     Want 2 get laid tonight? Want real Dogging locations sent direct 2 ur mob? Join the UK's largest Dogging Network bt Txting GRAVEL to 69888! Nt. ec2a. 31p.msg@150p
2360                                             Had the money issue weigh me down but thanks to you, I can breathe easier now. I.ll make sure you dont regret it. Thanks.
3545                          SO IS TH GOWER MATE WHICH IS WHERE I AM!?! HOW R U MAN? ALL IS GOOD IN WALES ILL B BACK åÔMORROW. C U THIS WK? WHO WAS THE MSG 4? åÐ RANDOM!
3253                                                                                                                                I can make lasagna for you... vodka...
Name: v2, dtype: object

In [None]:
train_label.shape, valid_label.shape

((4457,), (1115,))

In [None]:
train_label[:5]

4128    0
134     1
2360    0
3545    0
3253    0
Name: v1, dtype: int64

## Tokenizer 정의

단어의 토큰화를 진행합니다.

* `num_words`: 단어 max 사이즈를 지정합니다. 가장 **빈도수가 높은** 단어부터 저장합니다.
* `oov_token`: 단어 토큰에 없는 단어를 어떻게 표기할 것인지 지정해줍니다.

## Tokenizer로 학습시킬 문장에 대한 토큰화 진행

`fit_on_texts`로 학습할 문장에 대하여 **토큰화**를 진행합니다.

## 문장(sentences)을 Sequence로 변환

`texts_to_sequences`: 문장을 숫자로 **치환** 합니다. Train Set, Valid Set 모두 별도로 적용해주어야 합니다.

## 시퀀스의 길이를 맞춰주기

3가지 옵션을 입력해 줍니다.

* `maxlen`: 최대 문장 길이를 정의합니다. 최대 문장길이보다 길면, 잘라냅니다.
* `truncating`: 문장의 길이가 `maxlen`보다 길 때 앞을 자를지 뒤를 자를지 정의합니다.
* `padding`: 문장의 길이가 `maxlen`보다 짧을 때 채워줄 값을 앞을 채울지, 뒤를 채울지 정의합니다.

## 모델 정의 (Sequential)

출력층은 `Dense(1, activation='sigmoid')`로 설정 합니다.

In [None]:
model = Sequential([
    

])

요약 확인

In [None]:
model.summary()

## 컴파일 (compile)

알맞은 `loss`와 `metric`을 설정합니다.

## ModelCheckpoint: 체크포인트 생성

`val_loss` 기준으로 epoch 마다 최적의 모델을 저장하기 위하여, ModelCheckpoint를 만듭니다.
* `checkpoint_path`는 모델이 저장될 파일 명을 설정합니다.
* `ModelCheckpoint`을 선언하고, 적절한 옵션 값을 지정합니다.

## 학습 (fit)

## 학습 완료 후 Load Weights (ModelCheckpoint)

학습이 완료된 후에는 반드시 `load_weights`를 해주어야 합니다.

그렇지 않으면, 열심히 ModelCheckpoint를 만든 의미가 없습니다.

In [None]:
model.

## 모델 평가 (Evaluate)

`model.evaluate()`

In [None]:
model.evaluate()