In [36]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('seaborn-whitegrid') # sns에 흰색 그리드 유지
import missingno # 결측치 시각화

# KFold (교차 검증을 사용하기 위해)
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 교차검증 함수
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_validate

# 학습 데이터와 검증 데이터로 나누는 함수
from sklearn.model_selection import train_test_split

# 데이터 전처리
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 하이퍼 파라미터 튜닝
from sklearn.model_selection import GridSearchCV

# 평가 함수
from sklearn.metrics import accuracy_score

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import BaggingClassifier
from sklearn.ensemble import VotingClassifier
from xgboost import XGBClassifier


# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from xgboost import  XGBRegressor

# 머신러닝 알고리즘 - 군집
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift

# 머신러닝 알고리즘 - 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 딥러닝 알고리즘 
from keras.models import Sequential
from keras.layers import Dense
import tensorflow as tf

# 다중분류를 위한 원핫 인코더
from keras.utils import to_categorical

# 학습 자동 중단
from keras.callbacks import EarlyStopping

# 모델 저장
from keras.callbacks import ModelCheckpoint

# 저장된 딥러닝 모델 불러오기
from keras.models import load_model

# 이미지 처리
from keras.utils import np_utils
from keras.layers import Dropout
from keras.layers import Flatten
from keras.layers import Conv2D
from keras.layers import MaxPooling2D

# 자연어 처리
from keras.layers import Embedding
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.text import text_to_word_sequence
from keras.preprocessing.sequence import pad_sequences

# 저장
import pickle

# 시간 모듈
import time

# 그래프 설정
# plt.rcParams['font.family'] = 'Malgun Gothic'   # 윈도우용
plt.rcParams['font.family'] = 'AppleGothic'   # 맥용
plt.rcParams['font.size'] = 10                 # 폰트 크기
plt.rcParams['figure.figsize'] = 10,8          # 그래프 크기
plt.rcParams['axes.unicode_minus'] = False     # - 기호 깨짐 방지


# 경고 메시지가 안나오게 하기
import warnings
warnings.filterwarnings('ignore')

### 문장 자르기

In [37]:
# 테스트 문자열
text = '해보지 않으면 해낼 수 없다'

In [38]:
# 해당 텍스트를 토큰화 한다.
result = text_to_word_sequence(text)
print(f'원본 : {text}')
print(f'토큰화 : {result}')

원본 : 해보지 않으면 해낼 수 없다
토큰화 : ['해보지', '않으면', '해낼', '수', '없다']


### 단어 빈도수 세기

In [39]:
docs = [
    '먼저 텍스트의 각 단어를 나누어 토큰화 합니다',
    '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
    '토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.'
]

In [40]:
# 토큰화 함수를 통해 정리를 한다.
token = Tokenizer()
token.fit_on_texts(docs)

In [41]:
# 단어의 빈도수
token.word_counts

OrderedDict([('먼저', 1),
             ('텍스트의', 2),
             ('각', 1),
             ('단어를', 1),
             ('나누어', 1),
             ('토큰화', 3),
             ('합니다', 1),
             ('단어로', 1),
             ('해야', 1),
             ('딥러닝에서', 2),
             ('인식됩니다', 1),
             ('한', 1),
             ('결과는', 1),
             ('사용할', 1),
             ('수', 1),
             ('있습니다', 1)])

In [42]:
# 전체 문장의 개수
token.document_count

3

In [43]:
# 각 단어가 몇개의 문장에 포함되어 있는가.
token.word_docs

defaultdict(int,
            {'먼저': 1,
             '각': 1,
             '나누어': 1,
             '단어를': 1,
             '토큰화': 3,
             '합니다': 1,
             '텍스트의': 2,
             '해야': 1,
             '딥러닝에서': 2,
             '인식됩니다': 1,
             '단어로': 1,
             '있습니다': 1,
             '사용할': 1,
             '한': 1,
             '결과는': 1,
             '수': 1})

In [44]:
# 각 단어의 부여된 인덱스
token.word_index

{'토큰화': 1,
 '텍스트의': 2,
 '딥러닝에서': 3,
 '먼저': 4,
 '각': 5,
 '단어를': 6,
 '나누어': 7,
 '합니다': 8,
 '단어로': 9,
 '해야': 10,
 '인식됩니다': 11,
 '한': 12,
 '결과는': 13,
 '사용할': 14,
 '수': 15,
 '있습니다': 16}

### 딥러닝

In [45]:
# 평가글 
docs = [
    '너무 재밌네요',
    '최고예요',
    '참 잘 만든 영화입니다',
    '추천하고 싶은 영화입니다',
    '한번 더 보고 싶네요',
    '글쎄요',
    '별로에요',
    '생각보다 지루하네요',
    '연기가 어색해요',
    '재미없어요'
]

In [46]:
# 결과 데이터
# 긍정은 1, 부정은 0으로 선정
classes = np.array([1,1,1,1,1,0,0,0,0,0])

In [47]:
# 토큰화
token = Tokenizer()
token.fit_on_texts(docs) # 토큰화 함수에 문장 적용하기

In [48]:
token.word_index

{'영화입니다': 1,
 '너무': 2,
 '재밌네요': 3,
 '최고예요': 4,
 '참': 5,
 '잘': 6,
 '만든': 7,
 '추천하고': 8,
 '싶은': 9,
 '한번': 10,
 '더': 11,
 '보고': 12,
 '싶네요': 13,
 '글쎄요': 14,
 '별로에요': 15,
 '생각보다': 16,
 '지루하네요': 17,
 '연기가': 18,
 '어색해요': 19,
 '재미없어요': 20}

In [49]:
# 각 문장을 토큰화 시킨 데이터를 단어 인덱스로 변환
x = token.texts_to_sequences(docs)
x

[[2, 3],
 [4],
 [5, 6, 7, 1],
 [8, 9, 1],
 [10, 11, 12, 13],
 [14],
 [15],
 [16, 17],
 [18, 19],
 [20]]

In [50]:
# 각 리스트의 데이터의 개수를 최대 개수로 통일한다.
padded_x = pad_sequences(x, 4)
padded_x

array([[ 0,  0,  2,  3],
       [ 0,  0,  0,  4],
       [ 5,  6,  7,  1],
       [ 0,  8,  9,  1],
       [10, 11, 12, 13],
       [ 0,  0,  0, 14],
       [ 0,  0,  0, 15],
       [ 0,  0, 16, 17],
       [ 0,  0, 18, 19],
       [ 0,  0,  0, 20]], dtype=int32)

In [51]:
# 단어의 수를 파악한다.
word_size = len(token.word_index) + 1
word_size

21

In [55]:
# 학습 모델을 구성한다.
model = Sequential()
# Embedding : 많은 단어의 수를 줄인다.
# 첫번째 : 전체 단어의 수, 두번째 : 줄어든 사이즈
# 세번째 : 입력층의 노드의 개수
model.add(Embedding(word_size, 8, input_length=4))
# 1차원으로 변경
model.add(Flatten())
# 출력
model.add(Dense(1, activation='sigmoid'))

In [56]:
# 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam',
             metrics = ['accuracy'])

In [58]:
# 학습
model.fit(padded_x, classes, epochs=20, verbose=0)

<tensorflow.python.keras.callbacks.History at 0x7ff19a5c7dc0>

In [59]:
# 정확도 확인
model.evaluate(padded_x, classes)[1]



0.8999999761581421