In [1]:
# 기본
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 경고 뜨지 않게 설정
import warnings
warnings.filterwarnings('ignore')

# 그래프 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['font.size'] = 16
plt.rcParams['figure.figsize'] = 20, 10
plt.rcParams['axes.unicode_minus'] = False

# 데이터 전처리 알고리즘
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

# 학습용과 검증용으로 나누는 함수
from sklearn.model_selection import train_test_split

# 교차 검증
# 지표를 하나만 설정할 경우
from sklearn.model_selection import cross_val_score
# 지표를 하나 이상 설정할 경우
from sklearn.model_selection import cross_validate
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 모델의 최적의 하이퍼파라미터를 찾기 위한 도구
from sklearn.model_selection import GridSearchCV

# 평가함수
# 분류용
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# 회귀용
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error

# 머신러닝 알고리즘 - 분류
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import VotingClassifier

# 머신러닝 알고리즘 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import GradientBoostingRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.ensemble import VotingRegressor

# 차원축소
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# 군집화
from sklearn.cluster import KMeans
from sklearn.cluster import MeanShift
from sklearn.cluster import estimate_bandwidth

# ARIMA (시계열 예측)
from statsmodels.tsa.arima_model import ARIMA
import statsmodels.api as sm

# 시간 측정을 위한 시간 모듈
import datetime
# 주식 정보를 읽어오기 위한 라이브러리
from pandas_datareader import data

# 형태소 백터를 생성하기 위한 라이브러리
from sklearn.feature_extraction.text import CountVectorizer
# 형태소 백터를 학습 백터로 변환한다.
from sklearn.feature_extraction.text import TfidfTransformer

# 데이터 수집
import requests
from bs4 import BeautifulSoup
import re
import time
import os
import json

# 한국어 형태소 분석
from konlpy.tag import Okt, Hannanum, Kkma, Mecab, Komoran

# 워드 클라우드를 위한 라이브러리
from collections import Counter
import pytagcloud
from IPython.display import Image

# 출력 창 청소를 위한 함수
from IPython.display import clear_output

# 저장
import pickle

# 딥러닝
import tensorflow as tf

# 딥러닝 모델 구조를 정의하는 것
from tensorflow.keras.models import Sequential
# 층구조를 정의하는 것
from tensorflow.keras.layers import Dense
# 활성화 함수를 정의하는 것
from tensorflow.keras.layers import Activation

# 현재 프로젝트를 gpu에 할당한다.
# 컴퓨터의 GPU는 메모리를 가지고 있다.
gpus = tf.config.experimental.list_physical_devices('GPU')
# gpu가 있다면..
if len(gpus) > 0 :
    try :
        for gpu in gpus :
            tf.config.experimental.set_memory_growth(gpu, True)
    except RuntimeError as e :
        print(e)

pygame 2.0.1 (SDL 2.0.14, Python 3.8.5)
Hello from the pygame community. https://www.pygame.org/contribute.html


### np.random.seed()
- np.random.seed()를 고정한 상태로 알고리즘을 실행하여, 난수의 생성 패턴을 동일하게 관리
- random seed가 리셋되지 않으면 매번 서로 다른수가 나타난다.
-  [0,1) 사이의 실수로 난수를 구하며, random.ranint(a,b) 는 [a,b] 사이의 정수로 난수를 구한다
-  동일한 순서로 난수를 발생시켜야 할 경우가 있다. 난수 발생을 위해서는 적절한 시드(seed)를 난수발생기에 주어야 한다. 만약 시드가 같다면 동일한 난수를 발생시키게 된다. random.seed(a=None)을 통해 시드를 설정

#### 랜덤 시드값을 설정
- 텐서플로는 최초의 가중치와 바이어스를 랜덤하게 설정해서 시작한다.
- 랜덤 시드를 고정하면 예제를 실행할 때 마다 같은 패턴의 랜덤으로 설정할 수 있다.
- 모든 테스트를 같은 조건으로 할 수 있도록 환경을 설정하고 그 테스트를 통해서 각종 값들(학습률, 은닉층 수 등) 개발자가 수정할 수 있도록 도움을 줄 수 있다.

In [2]:
np.random.seed(1)
tf.random.set_seed(1)

In [6]:
# 데이터를 읽어온다.
df1 = pd.read_csv('data/ThoraricSurgery.csv')
df1

Unnamed: 0,293,1,3.8,2.8,0,0.1,0.2,0.3,0.4,0.5,12,0.6,0.7,0.8,1.1,0.9,62,0.10
0,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60,0
1,8,2,3.19,2.50,1,0,0,0,1,0,11,0,0,1,1,0,66,1
2,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80,1
3,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56,0
4,18,2,2.96,1.67,0,0,0,0,0,0,12,0,0,0,1,0,61,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
464,98,6,3.04,2.40,2,0,0,0,1,0,11,0,0,0,1,0,76,0
465,369,6,3.88,2.72,1,0,0,0,1,0,12,0,0,0,1,0,77,0
466,406,6,5.36,3.96,1,0,0,0,1,0,12,0,0,0,0,0,62,0
467,25,8,4.32,3.20,0,0,0,0,0,0,11,0,0,0,0,0,58,1


In [7]:
# 입력과 결과로 나눈다.
X = df1.drop('0.10', axis=1)
y = df1['0.10']

display(X)
display(y)

Unnamed: 0,293,1,3.8,2.8,0,0.1,0.2,0.3,0.4,0.5,12,0.6,0.7,0.8,1.1,0.9,62
0,1,2,2.88,2.16,1,0,0,0,1,1,14,0,0,0,1,0,60
1,8,2,3.19,2.50,1,0,0,0,1,0,11,0,0,1,1,0,66
2,14,2,3.98,3.06,2,0,0,0,1,1,14,0,0,0,1,0,80
3,17,2,2.21,1.88,0,0,1,0,0,0,12,0,0,0,1,0,56
4,18,2,2.96,1.67,0,0,0,0,0,0,12,0,0,0,1,0,61
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
464,98,6,3.04,2.40,2,0,0,0,1,0,11,0,0,0,1,0,76
465,369,6,3.88,2.72,1,0,0,0,1,0,12,0,0,0,1,0,77
466,406,6,5.36,3.96,1,0,0,0,1,0,12,0,0,0,0,0,62
467,25,8,4.32,3.20,0,0,0,0,0,0,11,0,0,0,0,0,58


0      0
1      1
2      1
3      0
4      0
      ..
464    0
465    0
466    0
467    1
468    0
Name: 0.10, Length: 469, dtype: int64

In [9]:
# 딥러닝 구조를 설계한다.
# 각 층의 구조를 관리하는 객체를 생성한다.
model = Sequential()

# 층을 쌓는 부분
# 케라스는 은닉층과 출력층만 설정한다.
# 첫번째 은닉층을 설정할 때 input_dim을 통해 입력층의 노드 수를 설정한다.
# 입력층의 노드의 수는 결과데이터의 수와 일치해야 한다.
# 은닉층의 노드의 수는 정해진 규칙은 없다. 
# 많으면 학습 시간이 오래걸리지만 학습을 잘하게 되고 너무 학습을
# 많이하게 되면 과적합이 발생할 수 있다.
model.add(Dense(30, input_dim=17))
# 활성화 함수
# relu : 역전파시 가중치 소실이 발생하지 않도록 예방하는 함수
model.add(Activation('relu'))

# 출력층
# 마직에 구성하는 것은 무조건 출력층이다.
# 노드의 개수는 결과의 수로 설정해야 한다.
model.add(Dense(1))
# 활성화 함수
# 출력층의 활성화 함수는 최종 결과를 계산하기 위한 함수이다.
# 2진 분류 : sigmoid
# 다중 분류 : softmax
model.add(Activation('sigmoid'))

#### 딥러닝 구조 컴파일
- 위에서 설정한 각 층의 정보를 토대로 딥러닝 모델을 생성한다.
- loss : 손실함수. 예측결과와 진짜결과 비교하여 오차 정도를 파악하는 함수
- metrics : 평가함수. 손실함수를 통해 구한 오차 정도를 평가할 지표
- optimizer : 손실 정도에 따라 가중치를 수정하는 경사하강법 설정

In [10]:
model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])

#### 학습
- X : 입력
- y : 결과
- epochs : 학습과 오차수정 작업을 얼마나 시도할 것인지..
- 최적의 값으로 수정되었는데도 계속 작업을 해나가게 되면 과적합 현상이 벌어질수도 있다.
- batch_size : 한번에 몇개의 로우를 추출해서 학습시킬 것인지..
- 수치가 크면 학습 속도가 빨라지지만 GPU 메모리를 너무 많이 사용해 오류가 발생할 수도 있다.
- 수치가 적으면 GPU 메모리를 적게 사용하지만 엄청 오래 걸릴 수도 있다.
- batch_size를 1로 줬는데도 오류가 발생하면 GPU 메모리가 부족한 것으로써
- GPU를 늘리던가 CPU로 작업을 해야 한다.

In [11]:
model.fit(X, y, epochs=100, batch_size=10)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x163bc6eaf40>

In [12]:
# 손실률과 정확도
r1 = model.evaluate(X, y)
print(f'손실률 : {r1[0]}')
print(f'정확도 : {r1[1]}')

손실률 : 0.1267562210559845
정확도 : 0.8742004036903381


In [13]:
result = (model.predict(X) > 0.5).astype('int')
result

array([[0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
    