# [머신러닝 기반 시계열 분석 2 실습]
# ANN
## [ANN 실전]

##### jupyter notebook 단축키

- ctrl+enter: 셀 실행   
- shift+enter: 셀 실행 및 다음 셀 이동   
- alt+enter: 셀 실행, 다음 셀 이동, 새로운 셀 생성
- a: 상단에 새로운 셀 만들기
- b: 하단에 새로운 셀 만들기
- dd: 셀 삭제(x: 셀 삭제)
- 함수 ( ) 안에서 shift+tab: arguments description. shift+tab+tab은 길게 볼 수 있도록

In [None]:
!git clone https://github.com/KU-DIC/LG_time_series_day05.git #코랩 사용

## 1. 모듈 불러오기

In [None]:
''' 기본 모듈 및 시각화 모듈 '''
from IPython.display import display, HTML, Image
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

''' 데이터 전처리 모듈 '''
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split

''' Linear Regression 모듈 '''
from sklearn.linear_model import LinearRegression

''' Neural Network Classifier(분류기) 모듈 '''
from sklearn.neural_network import MLPClassifier

''' Neural Network Regressor 모듈 '''
from sklearn.neural_network import MLPRegressor

''' 결과 평가용 모듈 '''
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

## 2. 분석데이터: Universal Bank (이진 분류 문제)

### 설명변수 (X)
- Age
- Experience
- Income
- ZIP Code
- Family
- CCAvg
- Education
- Mortgage
- Securities Account
- CD Account
- Online
- CreditCard

### 반응변수 (Y)
- Personal Loan

### 데이터 불러오기

In [None]:
data = pd.read_csv('/content/LG_time_series_day05/data/UniversalBank.csv')
# data = pd.read_csv('./data/UniversalBank.csv', index_col=0) # 로컬

## 1-1. 데이터 전처리 및 탐색적 데이터 분석

### 데이터 확인

### 클래스 비율 확인 : Personal Loan 변수

### 설명변수(X)와 반응변수(Y) 정의

### 학습 데이터(Training Dataset)와 테스트 데이터(Testing Dataset) 분리
- 학습데이터와 테스트 데이터의 클래스 비율이 달라지지 않도록 stratify 옵션 사용

### Matplotlib 을 이용한 클래스 비율 plotting
- import matplotlib.pyplot as plt
- plt.figure: plot을 그리기 위해 가장 먼저 선언 & plot 크기 지정
- plt.subplot: plot을 한번에 여러개 그리기 위해 선언(행크기/열크기/열번호or행번호)
- plt.hist: 히스토그램
- plt.plot(x,y): 2차원 
- plt.xlim: x축 (최소,최대) 지정
- plt.ylim: y축 (최소,최대) 지정
- plt.title: 해당 plot의 제목 지정
- plt.show(): plot을 그리기 위해 가장 "마지막" 선언

In [None]:
plt.figure(figsize=(18, 6))

plt.subplot(121)
plt.hist(train_y)
plt.ylim(0, 3500)
plt.xticks(np.arange(0, 2, 1))
plt.title('Training Data)')

plt.subplot(122)
plt.hist(test_y)
plt.ylim(0, 3500)
plt.xticks(np.arange(0, 2, 1))
plt.title('Testing Data')
plt.show()

### 정규화 : Standardization(표준정규화) with Standard Scaler



- 설명변수(X) 내 변수별 평균이 0이 되도록 변환
- Training Data를 기준으로 Scaler를 구성한 뒤, Testing Data에 Scaler를 적용

In [None]:
x.describe()

In [None]:
scaler = StandardScaler()
scaler.fit(?)

train_x = ?
test_x = ?

## 1-2. 모델링: Multilayer Perceptron (MLP) Classifier

<a href='http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html'> Scikit-Learn MLP Classifier Manual </a>

### MLP Classifier 구조 및 정의

In [None]:
clf_mlp = MLPClassifier(activation='relu', alpha=0.0001, batch_size=10,
                        hidden_layer_sizes=(?), max_iter=500,
                        solver='adam', verbose = True, random_state = 2022)

### MLP Classifier 학습

In [None]:
clf_mlp.fit(train_x, train_y)

### 학습 상태 확인 (learning curve)

In [None]:
# 그래프 배경화면 만들기
plt.figure(figsize=(20,10))

train_loss_values = clf_mlp.loss_curve_
plt.plot(train_loss_values,label='Train Loss')

plt.legend(fontsize=20)
plt.title("Learning Curve of trained MLP Classifier", fontsize=18)
plt.show()

## 1-3. Multilayer Perceptron 모델 성능 평가

### 학습된 MLP Classifier 결과 확인: Training Data

In [None]:
plt.figure(figsize=(5, 4))
sns.heatmap(data=cm_train, annot=True, fmt='d', annot_kws={'size': 18}, cmap='Blues')
plt.show()

### 학습된 MLP Classifier 성능 평가: 다양한 평가 지표


- 다양한 분류 평가 지표를 계산하기 위한 함수 정의

In [None]:
def validation_measure(cm):
    TN, FP, FN, TP = cm.flatten()
    accuracy = (TP+TN)/(TP+TN+FP+FN)
    sensitivity = TP/(TP+FN)
    specificity = TN/(TN+FP)
    precision = TP/(TP+FP)
    F1_score = 2/(1/sensitivity + 1/precision)
    return accuracy, sensitivity, specificity, precision, F1_score

In [None]:
train_acc, train_sens, train_spec, train_prec, train_f1 = validation_measure(cm_train)
print('Train Accuracy   : {:.3f}'.format(train_acc))
print('Train Sensitivity: {:.3f}'.format(train_sens))
print('Train Specificity: {:.3f}'.format(train_spec))
print('Train Precision  : {:.3f}'.format(train_prec))
print('Train F1 Score   : {:.3f}'.format(train_f1))

### 학습된 MLP Classifier 성능 평가: Testing Data

In [None]:
plt.figure(figsize=(5, 4))
sns.heatmap(data=cm_test, annot=True, fmt='d', annot_kws={'size': 18}, cmap='Blues')
plt.show()

### 학습된 MLP Classifier 성능 평가: 다양한 평가 지표

In [None]:
test_acc, test_sens, test_spec, test_prec, test_f1 = validation_measure(cm_test)
print('Test Accuracy   : {:.3f}'.format(test_acc))
print('Test Sensitivity: {:.3f}'.format(test_sens))
print('Test Specificity: {:.3f}'.format(test_spec))
print('Test Precision  : {:.3f}'.format(test_prec))
print('Test F1 Score   : {:.3f}'.format(test_f1))

## 2. 분석 데이터 : California Housing Data (수치 예측)

### 데이터 구조  
- 데이터: 1990년 캘리포니아의 각 행정 구역 내 주택 가격  
- 관측치 개수: 20640개
- 변수 개수: 설명변수 8개 / 반응변수 1개

### 설명 변수(X)      
- MedInc : 행정 구역 내 소득의 중앙값
- HouseAge : 행정 구역 내 주택 연식의 중앙값
- AveRooms : 평균 방 갯수
- AveBedrms : 평균 침실 갯수
- Population : 행정 구역 내 인구 수
- AveOccup : 평균 자가 비율
- Latitude : 해당 행정 구역의 위도
- Longitude : 해당 행정 구역의 경도 

### 반응 변수(Y)
- House Value: 주택가격

In [None]:
data = pd.read_csv('/content/LG_time_series_day05/data/California.csv')
# data = pd.read_csv('./data/California.csv') # 로컬

## 2-1. 데이터 전처리 및 탐색적 데이터 분석

### 데이터 확인

### 설명변수(X)와 반응변수(Y) 정의 : House Value 변수

### 학습데이터(Training Dataset)와 테스트 데이터(Testing Dataset) 분리

### 정규화 : Standardization(표준정규화) with Standard Scaler

In [None]:
x.describe()

In [None]:
scaler = StandardScaler()
scaler.fit(?)

train_x = ?
test_x = ?

## 2-2. Multilayer Perceptron (MLP) Regressor

### MLP Regressor 정의
<a href='http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html'> Scikit-Learn MLP Regressor Manual </a>

- <b>activation</b> - activation function 타입 (identity, logistic, tanh, <font color='red'>relu</font>) <br>
- <b>batch_size</b> - stochastic optimizer가 사용할 minibatch 크기 <br>
- <b>max_iter  </b> - stochastic optimizer의 최대 iteration 횟수 ( = Epochs )<br>
- <b>alpha     </b> - Learning Rate (과적합 방지용) <br>
- <b>solver    </b> - 경사하강법의 종류 (<font color='red'>adam</font>, sgd, lbfgs) <br>

In [None]:
reg_mlp = MLPRegressor(activation='relu', alpha=1E-3, batch_size=25,
                       hidden_layer_sizes=(?), max_iter=1000,
                       solver='adam', verbose = True, random_state = 2022)

### MLP Regressor 학습

In [None]:
reg_mlp.fit(train_x, train_y)

### 학습 상태 확인 (learning curve)

In [None]:
plt.figure(figsize=(20,10))

train_loss_values = reg_mlp.loss_curve_
plt.plot(train_loss_values,label='Train Loss')

plt.legend(fontsize=20)
plt.title("Learning Curve of trained MLP Regressor", fontsize=18)
plt.show()

## 2-3. Multilayer Perceptron 모델 성능 평가

### 학습된 MLP Regressor 결과 확인 및 성능 평가 : Training Data

In [None]:
def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true-y_pred)/y_true))*100

In [None]:
print("Training MSE : {:.3f}".format(mean_squared_error(train_y, train_y_pred)))
print("Training RMSE : {:.3f}".format(np.sqrt(mean_squared_error(train_y, train_y_pred))))
print("Training MAE : {:.3f}".format(mean_absolute_error(train_y, train_y_pred)))
print("Training MAPE : {:.3f}".format(mean_absolute_percentage_error(train_y, train_y_pred)))
print("Training R2 : {:.3f}".format(r2_score(train_y, train_y_pred)))

In [None]:
# 산점도 그래프
fig_values = np.concatenate([train_y.squeeze(), train_y_pred.squeeze()])
vmin = np.min(fig_values) * 0.95
vmax = np.max(fig_values) * 1.05

plt.figure(figsize=(8, 8))
plt.title('Actual values vs. Predicted values (Training Data)', size=18)
plt.scatter(train_y, train_y_pred)
plt.plot([vmin, vmax], [vmin, vmax], color='grey', linestyle='dashed')
plt.xlabel('Actual', size=16)
plt.ylabel('Predicted', size=16)
plt.show()

### 학습된 MLP Regressor 결과 확인 및 성능 평가 : Testing Data

In [None]:
print("Testing MSE : {:.3f}".format(mean_squared_error(test_y, test_y_pred)))
print("Testing RMSE : {:.3f}".format(np.sqrt(mean_squared_error(test_y, test_y_pred))))
print("Testing MAE : {:.3f}".format(mean_absolute_error(test_y, test_y_pred)))
print("Testing MAPE : {:.3f}".format(mean_absolute_percentage_error(test_y, test_y_pred)))
print("Testing R2 : {:.3f}".format(r2_score(test_y, test_y_pred)))

In [None]:
# 산점도 그래프
fig_values = np.concatenate([test_y.squeeze(), test_y_pred.squeeze()])
vmin = np.min(fig_values) * 0.95
vmax = np.max(fig_values) * 1.05

plt.figure(figsize=(8, 8))
plt.title('Actual values vs. Predicted values (Testing Data)', size=18)
plt.scatter(test_y, test_y_pred)
plt.plot([vmin, vmax], [vmin, vmax], color='grey', linestyle='dashed')
plt.xlabel('Actual', size=16)
plt.ylabel('Predicted', size=16)
plt.show()