In [2]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth

# ARIMA (시계열 예측)
from statsmodels.tsa.arima_model import ARIMA
import statsmodels.api as sm

# 시간 측정을 위한 시간 모듈
import datetime
# 주식 정보를 읽어오기 위한 라이브러리
from pandas_datareader import data

# 형태소 백터를 생성하기 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
# 형태소 백터를 학습 백터로 변환한다.
from sklearn.feature_extraction.text import TfidfTransformer

# 데이터 수집
import requests
from bs4 import BeautifulSoup
import re
import time
import os
import json

# 한국어 형태소 분석
from konlpy.tag import Okt, Hannanum, Kkma, Mecab, Komoran

# 워드 클라우드를 위한 라이브러리
from collections import Counter
import pytagcloud
from IPython.display import Image

# 출력 창 청소를 위한 함수
from IPython.display import clear_output

# 저장
import pickle

# 딥러닝
import tensorflow as tf

# 딥러닝 모델 구조를 정의하는 것
from tensorflow.keras.models import Sequential
# 층구조를 정의하는 것
from tensorflow.keras.layers import Dense
# 활성화 함수를 정의하는 것
from tensorflow.keras.layers import Activation
# CNN : 커널을 통해 합성곱을 구하는 것. 이미지의 특징이 두드러 지게 처리한다.
from tensorflow.keras.layers import Conv2D
# MaxPooling : 불필요한 부분을 제거한다.
from tensorflow.keras.layers import MaxPooling2D
# Flatten : CNN과 MaxPooling을 하면 2차원으로 결과가 나오기 때문에 
# 1차원으로 변환하는 것
from tensorflow.keras.layers import Flatten
# Dropout : 이미지나 영상은 많은 은닉층을 가지고 있어야 데이터 학습 및 탐색이
# 가능하다. 은닉층이 많으면 과적합 될 우려가 있다. 이에 은닉층에 있는 노드를
# 경우에 따라 사용하지 않게 하여 과적합을 예방할 수 있다.
from tensorflow.keras.layers import Dropout
# Embedding : 단어의 수를 줄여준다.
from tensorflow.keras.layers import Embedding

# 다중 분류를 위한 원핫 인코딩
# 결과데이터의 종류 수 만큼 결과데이터의 컬럼을 늘리는 작업
from tensorflow.keras.utils import to_categorical

# 저장된 학습 모델을 읽어온다.
from tensorflow.keras.models import load_model

# epoch마다 모델을 저장하는 함수
from tensorflow.keras.callbacks import ModelCheckpoint
# 더이상 성능 향상이 이루어지지 않는다면 조기 중단 시킬 수 있다.
from tensorflow.keras.callbacks import EarlyStopping

# 문장을 잘라준다.
from tensorflow.keras.preprocessing.text import Tokenizer
# 모든 문장 데이터의 단어 데이터를 수를 동일한 수로 맞춰준다.
from tensorflow.keras.preprocessing.sequence import pad_sequences
# 문자열을 단어 사전으로 만들어준다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 현재 프로젝트를 gpu에 할당한다.
# 컴퓨터의 GPU는 메모리를 가지고 있다.
gpus = tf.config.experimental.list_physical_devices('GPU')
# gpu가 있다면..
if len(gpus) > 0 :
    try :
        for gpu in gpus :
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e :
        print(e)

### 문장자르기

In [3]:
# 테스트 문자열
text = '해보지 않으면 해낼 수 없다'

In [4]:
# 주어진 문자열을 토큰화 한다.
result = text_to_word_sequence(text)
print(f'원본 : {text}')
print(f'토큰화 : {result}')

원본 : 해보지 않으면 해낼 수 없다
토큰화 : ['해보지', '않으면', '해낼', '수', '없다']


### 단어 빈도수

In [5]:
docs = {
    '먼저 텍스트와 각 단어를 나누어 토큰화 합니다',
    '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
    '토큰화 한 결과는 딥러닝에서 사용할 수 있다.'
}

In [6]:
# 토큰화 함수를 통해 전처리를 한다.
token = Tokenizer()
token.fit_on_texts(docs)

In [7]:
# 단어의 빈도수
# 전체 에서 어떤 단어가 몇 개씩 나왔는지....
token.word_counts

OrderedDict([('텍스트의', 1),
             ('단어로', 1),
             ('토큰화', 3),
             ('해야', 1),
             ('딥러닝에서', 2),
             ('인식됩니다', 1),
             ('한', 1),
             ('결과는', 1),
             ('사용할', 1),
             ('수', 1),
             ('있다', 1),
             ('먼저', 1),
             ('텍스트와', 1),
             ('각', 1),
             ('단어를', 1),
             ('나누어', 1),
             ('합니다', 1)])

In [8]:
# 전체 문장의 개수
token.document_count

3

In [9]:
# 각 단어가 몇개의 문장에 나왔었는지.
token.word_docs

defaultdict(int,
            {'해야': 1,
             '딥러닝에서': 2,
             '단어로': 1,
             '인식됩니다': 1,
             '토큰화': 3,
             '텍스트의': 1,
             '있다': 1,
             '한': 1,
             '수': 1,
             '결과는': 1,
             '사용할': 1,
             '합니다': 1,
             '나누어': 1,
             '각': 1,
             '단어를': 1,
             '먼저': 1,
             '텍스트와': 1})

In [10]:
# 각 단어에 부여된 인덱스
token.word_index

{'토큰화': 1,
 '딥러닝에서': 2,
 '텍스트의': 3,
 '단어로': 4,
 '해야': 5,
 '인식됩니다': 6,
 '한': 7,
 '결과는': 8,
 '사용할': 9,
 '수': 10,
 '있다': 11,
 '먼저': 12,
 '텍스트와': 13,
 '각': 14,
 '단어를': 15,
 '나누어': 16,
 '합니다': 17}

### 딥러닝

In [11]:
# 평가글
docs = [
    '너무 재미있네요',
    '최고에요',
    '참 잘 만든 영화에요',
    '추천하고 싶은 영화입니다',
    '한번 더 보고 싶네요',
    '글쎄요',
    '별로에요',
    '생각보다 지루하네요',
    '연기가 어색해요',
    '재미없어요'
]

In [12]:
# 결과 데이터
classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

In [13]:
# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)

In [14]:
token.word_index

{'너무': 1,
 '재미있네요': 2,
 '최고에요': 3,
 '참': 4,
 '잘': 5,
 '만든': 6,
 '영화에요': 7,
 '추천하고': 8,
 '싶은': 9,
 '영화입니다': 10,
 '한번': 11,
 '더': 12,
 '보고': 13,
 '싶네요': 14,
 '글쎄요': 15,
 '별로에요': 16,
 '생각보다': 17,
 '지루하네요': 18,
 '연기가': 19,
 '어색해요': 20,
 '재미없어요': 21}

In [15]:
# 각 문장을 토큰화 시킨 데이터를 단어 인덱스로 변환한다.
X = token.texts_to_sequences(docs)
X

[[1, 2],
 [3],
 [4, 5, 6, 7],
 [8, 9, 10],
 [11, 12, 13, 14],
 [15],
 [16],
 [17, 18],
 [19, 20],
 [21]]

In [16]:
# 각 리스트의 데이터의 개수를 최대 개수로 통일한다.
padded_x = pad_sequences(X, 4)
padded_x

array([[ 0,  0,  1,  2],
       [ 0,  0,  0,  3],
       [ 4,  5,  6,  7],
       [ 0,  8,  9, 10],
       [11, 12, 13, 14],
       [ 0,  0,  0, 15],
       [ 0,  0,  0, 16],
       [ 0,  0, 17, 18],
       [ 0,  0, 19, 20],
       [ 0,  0,  0, 21]])

In [19]:
# 원핫 인코딩을 위한 다언이 개수를 파악한다.
# 여기서 만든 단어 사전이 1부터 시작하므로 인덱스 0번째를 위해
# 전체 단어수에 1을 더한다.
word_size = len(token.word_index) + 1
word_size

22

In [20]:
# 학습 모델을 구성한다.
model = Sequential()
# Embaedding
# 단어 값들을 원핫 인코딩을 수행한 후 결과와 상관관계 높은(빈도가 높은) 단어 
# 단어 컬럼을 기준으로 지정한 컬럼수 만큼 선택하여 다른 컬럼의 데이터를
# 압축하는 은닉층
model.add(Embedding(word_size, 8, input_length=4))
# 1차원으로 변경
model.add(Flatten())

# 출력층
model.add(Dense(1))
model.add(Activation('sigmoid'))

In [21]:
# 컴파일
model.compile(loss='binary_crossentropy', optimizer='adam',
              metrics=['accuracy'])

In [22]:
# 학습
model.fit(padded_x, classes, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<tensorflow.python.keras.callbacks.History at 0x288b82ccd90>

In [23]:
a1 = model.evaluate(padded_x, classes)
print(f'손실률 : {a1[0]}')
print(f'정확도 : {a1[1]}')

손실률 : 0.6510268449783325
정확도 : 0.8999999761581421
