# Multilayer Perceptron 회귀 문제 실습: 실전과제문항

## 0. 모듈 불러오기

In [None]:
''' 기본 모듈 및 시각화 모듈 '''
from IPython.display import display
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

''' 데이터 전처리 모듈 '''
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

''' Multilayer Perceptron 모듈 '''
from sklearn.neural_network import MLPClassifier
from sklearn.neural_network import MLPRegressor

''' 결과 평가용 모듈 '''
from sklearn.metrics import confusion_matrix, accuracy_score, f1_score, precision_score, recall_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, mean_absolute_percentage_error

''' 기타 optional'''
pd.options.display.float_format = '{:.4f}'.format

! git colne https://github.com/hansam95/test.git

## 1. 데이터 불러오기
### Toyota Corolla Data (Toyota 중고차 가격 예측 회귀 문제)

### 설명변수 (X)
- Mfg_Month
- Mfg_Year
- KM
- Fuel_Type
...
- Radio_cassette
- Tow_Bar

### 반응변수 (Y)
- Price

In [None]:
data = pd.read_csv('''Answer''')

## 2. 데이터 전처리하기

### 데이터 확인

In [None]:
print('Data shape: {}'.format(data.'''Answer'''))
data.head(2)

### Column별 기초 통계량 확인

In [None]:
data.'''Answer'''

### 불필요한 변수 제거

In [None]:
# Id, Model column 고유 개수
num_id = len(data['''Answer'''].unique())
num_model = len(data['''Answer'''].unique())

print(f'ID: {num_id}')
print(f'Model: {num_model}')

In [None]:
# 변수 제거
data.drop(columns=['''Answer''', '''Answer'''], axis=1, inplace=True)

### 범주형 설명변수에 대한 Dummy 변수 생성

In [None]:
display(data['Fuel_Type'])
display(data.groupby('Fuel_Type')['Fuel_Type'].count())

### 원핫인코딩

<img src="https://z-images.s3.amazonaws.com/d/d5/MtimFxh.png" width="600"></img><br>
<a href='https://z-images.s3.amazonaws.com/d/d5/MtimFxh.png'> https://z-images.s3.amazonaws.com/d/d5/MtimFxh.png </a>

In [None]:
# 원핫인코딩
data_new = pd.get_dummies(data)

In [None]:
data.head(2)

In [None]:
data_new.head(2)

### 설명변수(X)와 반응변수(Y) 정의

In [None]:
X = '''Answer'''
y = '''Answer'''

### 학습데이터(Training Dataset)와 테스트 데이터(Testing Dataset) 분리

In [None]:
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.3)

### 정규화 : Standardization(표준정규화) with Standard Scaler

In [None]:
train_X.'''Answer'''

In [None]:
# 정규화
scaler = StandardScaler()
scaler.fit(train_X)

train_X = scaler.transform(train_X)
test_X = scaler.transform(test_X)

In [None]:
pd.DataFrame(train_X, columns = X.columns).'''Answer'''

## 3. 모델링: Multilayer Perceptron (MLP) Regressor

### MLP Regressor 정의
<a href='http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html'> Scikit-Learn MLP Regressor Manual </a>

- <b>hiddent_layer_sizes</b> - hidden layer 개수 
- <b>activation</b> - activation function 타입 (identity, logistic, tanh, <font color='red'>relu</font>)
- <b>solver    </b> - 경사하강법의 종류 (<font color='red'>adam</font>, sgd, lbfgs) <br>
- <b>batch_size</b> - 모델에 한번에 입력되는 데이터의 수 
- <b>learning_rate_init</b> - 한번 업데이트 하는 step size
- <b>max_iter </b> - 최대 학습 횟수 ( = Epochs )
- <b>verbose </b> - 학습 진행과정 출력 여부
- <b>random_state </b> - 랜덤시드

In [None]:
reg_mlp = MLPRegressor(hidden_layer_sizes=10,
                        activation='''Answer''',
                        solver='''Answer''',
                        batch_size=32,
                        learning_rate_init=0.01,
                        max_iter=200,
                        verbose=True,
                        random_state=0)

### MLP Regressor 학습

In [None]:
reg_mlp.fit(train_X, train_y)

### 학습 상태 확인 (learning curve)

In [None]:
plt.figure(figsize=(18,8))

train_loss_values = reg_mlp.loss_curve_
plt.plot(train_loss_values,label='Train Loss')

plt.legend(fontsize=20)
plt.title("Learning Curve of trained MLP Regressor", fontsize=20)
plt.show()

## 4. Multilayer Perceptron 모델 성능 평가

### 학습된 MLP Regressor 결과 확인 및 성능 평가 : Training Data

In [None]:
# 학습한 데이터에 대한 예측값
train_y_pred = reg_mlp.'''Answer'''

train_mae = mean_absolute_error(train_y, train_y_pred)
train_mse = mean_squared_error(train_y, train_y_pred)
train_mape = mean_absolute_percentage_error(train_y, train_y_pred)
train_r2 = r2_score(train_y, train_y_pred)

print('Train MAE  : {:.3f}'.format(train_mae))
print('Train MSE  : {:.3f}'.format(train_mse))
print('Train MAPE : {:.3f}'.format(train_mape))
print('Train R2   : {:.3f}'.format(train_r2))

### 학습된 MLP Regressor 결과 확인 및 성능 평가 : Testing Data

In [None]:
# 학습한 데이터에 대한 예측값
test_y_pred = reg_mlp.'''Answer'''

test_mae = mean_absolute_error(test_y, test_y_pred)
test_mse = mean_squared_error(test_y, test_y_pred)
test_mape = mean_absolute_percentage_error(test_y, test_y_pred)
test_r2 = r2_score(test_y, test_y_pred)

print('Test MAE  : {:.3f}'.format(test_mae))
print('Test MSE  : {:.3f}'.format(test_mse))
print('Test MAPE : {:.3f}'.format(test_mape))
print('Test R2   : {:.3f}'.format(test_r2))

### MLP Regressor 예측 결과 결과 확인 : Testing Data

In [None]:
# 산점도 그래프
fig_values = np.concatenate([test_y.squeeze(), test_y_pred.squeeze()])
vmin = np.min(fig_values) * 0.95
vmax = np.max(fig_values) * 1.05

plt.figure(figsize=(8, 8))
plt.title('Actual values vs. Predicted values (Testing Data)', size=18)
plt.scatter(test_y, test_y_pred)
plt.plot([vmin, vmax], [vmin, vmax], color='grey', linestyle='dashed')
plt.xlabel('Actual', size=16)
plt.ylabel('Predicted', size=16)
plt.show()