# 안녕하세요^^ 

# AI 모델링 시간에 오신 여러분을 환영합니다.

## 오늘은 날씨, 미세먼지, 공휴일 데이터를 활용하여 서울시 <u>생활인구</u>를 예측해 보겠습니다.

<img src = "https://images.unsplash.com/photo-1546874177-9e664107314e?ixlib=rb-4.0.3&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1000&q=80" width=100% align="center"/>


<div align="right">Photo by <a href="https://unsplash.com/@yohoney?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText">Yohan Cho</a> on <a href="https://unsplash.com/photos/Mwvhyd22Lyw?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText" >Unsplash</a></div>
  

---

# Chapter3. AI 모델링
### **1) 실습 순서**
- 환경 준비
- Train, Test 데이터셋 분할
- 데이터 정규화 (MinMaxScaler)
- 머신러닝 모델 구현
- 머신러닝 성능 평가
- 결과 예측하기

### **2) 실습 내용**

- 대상 데이터를 읽어와 탐색하며 이해합니다.
- 데이터에서 Feature와 Target을 분리합니다.
- 데이터를 학습용 데이터와 평가용 데이터로 분리합니다.
- Feature Scaling 작업을 통해 변수들의 범위를 일정한 수준으로 조정합니다.
- 다양한 머신러닝 알고리즘을 사용해 모델링합니다.
- 성능 평가 결과를 이해하고 설명합니다.

---

## 0. 환경 준비
> **① 필요 라이브러리 불러오기** <br>
> **② 데이터 불러오기**

### **① 필요한 라이브러리 불러오기**
- **pandas** : 데이터를 처리하고 분석하는데 효과적인 패키지
- **matplotlib** : 데이터를 차트나 플롯으로 그려주는 시각화 라이브러리 패키지
- **seaborn** : matplolib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지
- **sklearn** : 파이썬에서 머신러닝 분석을 할 때 유용하게 사용할 수 있는 라이브러리

In [None]:
# 여기에 입력하세요.
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')

plt.rc('font', family='Malgun Gothic')
sns.set(font="Malgun Gothic",#"NanumGothicCoding", 
        rc={"axes.unicode_minus":False}, # 마이너스 부호 깨짐 현상 해결
        style='darkgrid')

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

### **② 데이터 불러오기** 

In [None]:
# 아래에 실습코드를 작성하고 결과를 확인합니다.
df = pd.read_csv("./data/PREPROCESSING_LOCAL_PEOPLE_2017_2019.csv")
df.head()

---

## 1. Train, Test  데이터셋 분할
> **① Feature / Target 데이터 분리하기** <br>
> **② Train(학습용) / Test(검증용) 데이터 셋 나누기**

#### __① Feature / Target 데이터 분리__
- Feature는 X, Target은 y로 분리

In [None]:
# Feature는 Target('총생활인구수') 제외한 나머지 
x = df.drop(columns=['총생활인구수']).values

# Target은 '총생활인구수'
y = df['총생활인구수'].values

In [None]:
print(x.shape, y.shape)

#### __② Train / Test 데이터 Set 나누기__
- x, y 값을 가지고 7:3 비율로 Train, Test 을 나누세요.<br>

<img src="https://i.stack.imgur.com/pXAfX.png" width=600> 

<div align="right">Image by <a href="https://datascience.stackexchange.com/questions/61467/clarification-on-train-test-and-val-and-how-to-use-implement-it">"clarification on train, test and val and how to use"</a> on <a href="https://datascience.stackexchange.com/" >datascience.stackexchange</a></div>

In [None]:
# 라이브러리 임포트
from sklearn.model_selection import train_test_split

# 데이터 Set 나누기 (Train:Test = 7:3)
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.3, random_state=42)

print(x_train.shape, y_train.shape)

## 2. 데이터 스케일링

입력 변수(Feature)들의 값을 일정한 수준으로 맞춰 주는 것은 Feature Scalining 이라 합니다.<br> 
데이터 스케일링의 목적은 컬럼 별 차이를 왜곡하지 않고 공통 척도로 변경하기 위함입니다. <br>
가령 아래처럼 나이의 범위는 (0 ~ 100) 이고 , 소득의 범위는 (0 ~ 10,000,000) 이라고 하면 소득은 나이의 약 100,000배이며 범위의 Range도 넓습니다.<br> 
이 데이터를 그대로 사용하면 소득을 본질적으로 더 큰 값이기 때문에 나이 피쳐보다 더 큰 영향을 미치게 됩니다.

#### __① MinMax Scaler (정규화)__
- Min-Max Scaling은 모든 피처가 정확하게 [0,1] 사이에 위치하도록 데이터를 변경한다.
<img src="https://ashutoshtripathicom.files.wordpress.com/2021/06/image-3.png" width=600>

<div align="right">Image by <a href="https://ashutoshtripathi.com/2021/06/12/what-is-feature-scaling-in-machine-learning-normalization-vs-standardization/">"WHAT IS FEATURE SCALING IN MACHINE LEARNING"</a> on <a href="https://ashutoshtripathi.com/" >Data Science Duniya</a></div>


In [None]:
# 라이브러리 임포트
from sklearn.preprocessing import MinMaxScaler

# 스케일러 호출
scaler = MinMaxScaler()

# 스케일링 (Train, Test)
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

---

## 3. 머신러닝 모델 구현
> **① 단일 모델**
>> - *선형회귀(LinearRegression)*
>> - *K-최근접 이웃 회귀 (K-NN Regression)*
>> - *의사결정나무(DecisionTree)*

> **② 앙상블(Ensemble) 모델** 
>> - *배깅(Bagging) : RandomForest*
>> - *부스팅(Boosting) : XGBoost*

#### __① 단일 모델__
##### - __선형 회귀(Linear Regression)__

선형 회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법입니다. 알 수 없는 변수 또는 종속 변수와 알려진 변수 또는 독립 변수를 선형 방정식으로 수학적으로 모델링합니다.

__[라이브러리 임포트]__

In [None]:
# 라이브러리 임포트
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

__[모델 학습하기]__

In [None]:
# 모델 학습하기
lr_model = LinearRegression()
lr_model.fit(x_train, y_train)

__[모델 예측하기]__

In [None]:
# 예측하기
lr_predict = lr_model.predict(x_test)

In [None]:
print(lr_model.score(x_train, y_train)) 
print(lr_model.score(x_test, y_test)) 

__[모델 성능 평가하기]__<br>
회귀모델에서는 얼마나 정확하게 예측을 했는지가 중요합니다. 동일하게 예측하는 것이 가장 좋겠지만, 그렇지 않을 경우 실제값과 가장 가깝게 예측한 모델이 성능이 좋은 모델입니다.<br>
따라서, 성능평가를 위해서는 실제값과 예측값을 비교해야 합니다. 
> * __MAE (Mean Absolute Error)__<br>
> 실제값과 예측값의 차이를 절댓값에 관한 평균<br>
> * __MSE (Mean Squared Error)__<br>
> 실제값과 예측값의 차이를 제곱한 값들의 평균
> * __RMSE (Root Mean Squared Error)__<br>
> 오류의 크기를 줄이기 위해 MSE 에 루트를 씌운 값
> * __R2 Score (Coefficient of Determination )__<br>
> 분산 기반의 평가 지표로, 1에 가까울 수록 좋은 모델이라고 할 수 있음.


In [None]:
model_evaluation = pd.DataFrame(columns=['Model', 'MAE', 'MSE', 'RMSE', 'R2-Score'])
pd.set_option('display.float_format', '{:.5f}'.format) 

In [None]:
# 성능 평가하기
lr_mae = mean_absolute_error(y_test, lr_predict)
lr_mse = mean_squared_error(y_test, lr_predict)
lr_rmse = (mean_squared_error(y_test,lr_predict))*(1/2)
lr_r2 = r2_score(y_test,lr_predict)

print('LinearRegression')
print("Mean Absolute Error : {0:.5f}".format(lr_mae))
print("Mean Squared Error : {0:.5f}".format(lr_mse))
print("Root Mean Squared Error : {0:.5f}".format(lr_rmse))
print("r2-Score : ",lr_r2)

In [None]:
model_evaluation = model_evaluation.append({'Model' : 'Linear', 
                         'MAE' : lr_mae, 
                         'MSE' : lr_mse, 
                         'RMSE' : lr_rmse, 
                         'R2-Score' : lr_r2}, ignore_index=True)                            

In [None]:
plt.figure(figsize=(40,10))
plt.plot(y_test[-100:], color='r')
plt.plot(lr_predict[-100:])

##### - __K-최근접 이웃 회귀 (K-NN Regression)__

K-NN Regression(K-최근접 이웃 회귀) 알고리즘은 주변의 가장 가까운 K개의 샘플을 통해 값을 예측하는 방식이다. 예를 들어 가장 간단한 방식으로는 K개 샘플의 평균을 이용할 수 있다. 

In [None]:
# 라이브러리 임포트
from sklearn.neighbors import KNeighborsRegressor

# 모델 불러오기
knn_model = KNeighborsRegressor()

# 모델 학습하기
knn_model.fit(x_train, y_train)

# 예측하기
knn_predict = knn_model.predict(x_test)

# 성능 평가하기
knn_mae = mean_absolute_error(y_test, knn_predict)
knn_mse = mean_squared_error(y_test, knn_predict)
knn_rmse = (mean_squared_error(y_test,knn_predict))*(1/2)
knn_r2 = r2_score(y_test,knn_predict)

print('K-NN Regression')
print("Mean Absolute Error : {0:.5f}".format(knn_mae))
print("Mean Squared Error : {0:.5f}".format(knn_mse))
print("Root Mean Squared Error : {0:.5f}".format(knn_rmse))
print("r2-Score : ",knn_r2)

In [None]:
model_evaluation = model_evaluation.append({'Model' : 'K-NN', 
                         'MAE' : knn_mae, 
                         'MSE' : knn_mse, 
                         'RMSE' : knn_rmse, 
                         'R2-Score' : knn_r2}, ignore_index=True)       

In [None]:
plt.figure(figsize=(40,10))
plt.plot(y_test[-100:], color='r')
plt.plot(knn_predict[-100:])

##### - __의사결정나무(DecisionTree)__

주어진 입력값들의 조합에 대한 의사결정규칙(rule)에 따라 출력값을 예측하는 모형으로 트리구조의 그래프로 표현할 수 있습니다. 의사결정나무모형의 예측력은 다른 지도학습 기법들에 비해 대체로 떨어지나 해석이 수월하다는 장점이 있습니다.

In [None]:
# 라이브러리 임포트
from sklearn.tree import DecisionTreeRegressor

# 모델 불러오기
dt_model = DecisionTreeRegressor()

# 모델 학습하기
dt_model.fit(x_train, y_train)

# 예측하기
dt_predict = dt_model.predict(x_test)

# 성능 평가하기
dt_mae = mean_absolute_error(y_test, dt_predict)
dt_mse = mean_squared_error(y_test, dt_predict)
dt_rmse = (mean_squared_error(y_test,dt_predict))*(1/2)
dt_r2 = r2_score(y_test,dt_predict)

print('DecistionTree Regression')
print("Mean Absolute Error : {0:.5f}".format(dt_mae))
print("Mean Squared Error : {0:.5f}".format(dt_mse))
print("Root Mean Squared Error : {0:.5f}".format(dt_rmse))
print("r2-Score : ",dt_r2)

In [None]:
model_evaluation = model_evaluation.append({'Model' : 'DecistionTree', 
                         'MAE' : dt_mae, 
                         'MSE' : dt_mse, 
                         'RMSE' : dt_rmse, 
                         'R2-Score' : dt_r2}, ignore_index=True)    

In [None]:
model_evaluation

In [None]:
plt.figure(figsize=(40,10))
plt.plot(y_test[-100:], color='r')
plt.plot(dt_predict[-100:])

#### __② 앙상블(Essenble) 모델__
- 배깅(Bagging) : Bootstrap aggregation을 줄여 bagging이라고 부른다. Bootstrap으로 생성된 sample data sets 각각으로 모델을 만든 뒤 모델의 평균값으로 예측을 하는 방법. 대표적으로 랜덤 포레스트(Random Forest) 모델이 있습니다.

- 부스팅 (Boosting): 성능이 약한 학습기를 여러개 연결하여 순차적으로 학습을 하되, 이전 학습에 대하여 잘못 예측된 데이터에 가중치를 부여해 오차를 보완해 나가는 방식. 대표적으로 XGBoost, LGBM 등이 있습니다.

<table>
    <tr>
        <td>
            <img src="https://itwiki.kr/images/f/f8/%EB%B0%B0%EA%B9%85%28Bagging%29.png" width=300>
        </td>
         <td>
            <img src="https://itwiki.kr/images/4/45/%EB%B6%80%EC%8A%A4%ED%8C%85%28Boosting%29.png" width=300>
        </td>
    </tr>
</table>

<div align="right">Image by <a href="https://itwiki.kr/w/%EC%95%99%EC%83%81%EB%B8%94_%EA%B8%B0%EB%B2%95">앙상블 기법</a> on <a href="https://itwiki.kr/" >IT Wiki</a></div>


##### - __랜덤 포레스트(Random Forest)__

Bagging 대표적인 모델로써, 훈련셋트를 무작위로 각기 다른 서브셋으로 데이터셋을 만들고<br>
여러개의 DecisonTree로 학습하고 다수결로 결정하는 모델

> **주요 Hyperparameter**
> - random_state: 랜덤 시드 고정 값. 고정해두고 튜닝할 것!
> - n_jobs: CPU 사용 갯수
> - max_depth: 깊어질 수 있는 최대 깊이. 과대적합 방지용
> - n_estimators: 앙상블하는 트리의 갯수
> - max_features: 최대로 사용할 feature의 갯수. 과대적합 방지용
> - min_samples_split: 트리가 분할할 때 최소 샘플의 갯수. default=2. 과대적합 방지용

In [None]:
# 라이브러리 임포트
from sklearn.ensemble import RandomForestRegressor

# 모델 불러오기
rfc_model = RandomForestRegressor()

# 모델 학습하기
rfc_model.fit(x_train, y_train)

# 예측하기
rfc_predict = rfc_model.predict(x_test)

# 성능 평가하기
rfc_mae = mean_absolute_error(y_test, rfc_predict)
rfc_mse = mean_squared_error(y_test, rfc_predict)
rfc_rmse = (mean_squared_error(y_test,rfc_predict))*(1/2)
rfc_r2 = r2_score(y_test,rfc_predict)

print('RandomForest Regression')
print("Mean Absolute Error : {0:.5f}".format(rfc_mae))
print("Mean Squared Error : {0:.5f}".format(rfc_mse))
print("Root Mean Squared Error : {0:.5f}".format(rfc_rmse))
print("r2-Score : ",rfc_r2)

In [None]:
model_evaluation = model_evaluation.append({'Model' : 'RandomForest', 
                         'MAE' : rfc_mae, 
                         'MSE' : rfc_mse, 
                         'RMSE' : rfc_rmse, 
                         'R2-Score' : rfc_r2}, ignore_index=True)    

In [None]:
model_evaluation = pd.concat(pd.DataFrame({'Model' : 'RandomForest', 
                         'MAE' : rfc_mae, 
                         'MSE' : rfc_mse, 
                         'RMSE' : rfc_rmse, 
                         'R2-Score' : rfc_r2})) 

In [None]:
model_evaluation

##### - __XGBoost(Extreme Gradient Boosting)__

여러개의 DecisionTree를 결합하여 Strong Learner 만드는 Boosting 앙상블 기법<br>
Kaggle 대회에서 자주 사용하는 모델이다.<br>

> **주요 특징**
> - scikit-learn 패키지가 아닙니다.
> - 성능이 우수함
> - 학습시간이 오래 걸립니다.

> **주요 Hyperparameter**
> - random_state: 랜덤 시드 고정 값. 고정해두고 튜닝할 것!
> - n_jobs: CPU 사용 갯수
> - learning_rate: 학습율. 너무 큰 학습율은 성능을 떨어뜨리고, 너무 작은 학습율은 학습이 느리다. 적절한 값을 찾아야함. n_estimators와 같이 튜닝. default=0.1
> - n_estimators: 부스팅 스테이지 수. (랜덤포레스트 트리의 갯수 설정과 비슷한 개념). default=100
> - max_depth: 트리의 깊이. 과대적합 방지용. default=3. 
> - subsample: 샘플 사용 비율. 과대적합 방지용. default=1.0
> - max_features: 최대로 사용할 feature의 비율. 과대적합 방지용. default=1.0

In [None]:
# 패키지 설치
!pip install xgboost

In [None]:
# 라이브러리 임포트
from xgboost import XGBRegressor

# 모델 불러오기
xgb_model = XGBRegressor()  

# 모델 학습하기
xgb_model.fit(x_train, y_train)

# 예측하기
xgb_predict = xgb_model.predict(x_test)

# 성능 평가하기
xgb_mae = mean_absolute_error(y_test, xgb_predict)
xgb_mse = mean_squared_error(y_test, xgb_predict)
xgb_rmse = (mean_squared_error(y_test,xgb_predict))*(1/2)
xgb_r2 = r2_score(y_test,xgb_predict)

print('XGBoost Regression')
print("Mean Absolute Error : {0:.5f}".format(xgb_mae))
print("Mean Squared Error : {0:.5f}".format(xgb_mse))
print("Root Mean Squared Error : {0:.5f}".format(xgb_rmse))
print("r2-Score : ",xgb_r2)

In [None]:
plt.figure(figsize=(80,20))
plt.plot(y_test[-24:], color='r')
plt.plot(xgb_predict[-24:])

In [None]:
model_evaluation = model_evaluation.append({'Model' : 'XGBoost', 
                         'MAE' : xgb_mae, 
                         'MSE' : xgb_mse, 
                         'RMSE' : xgb_rmse, 
                         'R2-Score' : xgb_r2}, ignore_index=True)    

## 4. 머신러닝 모델 성능 비교하기
> **① 모델 성능 비교하기** <br>
> **② 변수 중요도(Feature Importance) 확인하기**

#### __① 모델 성능 비교하기__

In [None]:
model_evaluation

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 5), sharey=True)
fig.suptitle('Model Evaluation')

# MAE
sns.barplot(ax=axes[0], x=model_evaluation['MAE'], y=model_evaluation['Model'])
axes[0].set_title("MAE")

# RMSE
sns.barplot(ax=axes[1], x=model_evaluation['RMSE'], y=model_evaluation['Model'])
axes[1].set_title("RMSE")

# R2-Score
sns.barplot(ax=axes[2], x=model_evaluation['R2-Score'], y=model_evaluation['Model'])
axes[2].set_title('R2-Score')

#### __② 변수 중요도(Feature Importance) 확인하기__

In [None]:
feature = df.drop(columns=['총생활인구수'])

xgb_importances_values = xgb_model.feature_importances_
xgb_importances = pd.Series(xgb_importances_values, index = feature.columns)
xgb_top10 = xgb_importances.sort_values(ascending=False)[:10]

plt.figure(figsize=(8,6))
plt.title('XGB Top 10 Feature Importances')
sns.barplot(x=xgb_top10, y=xgb_top10.index)
plt.show()

In [None]:
rfc_importances_values = rfc_model.feature_importances_
rfc_importances = pd.Series(rfc_importances_values, index = feature.columns)
rfc_top10 = rfc_importances.sort_values(ascending=False)[:10]

plt.figure(figsize=(8,6))
plt.title('RFC Top 10 Feature Importances')
sns.barplot(x=rfc_top10, y=rfc_top10.index)
plt.show()

## 4. 모델 저장하기
> **① 학습시킨 모델 저장하기** <br>
> **② 저장한 모델 불러와서 사용하기**

#### __① 학습시킨 모델 저장하기__

In [None]:
import joblib

In [None]:
# 라이브러리 임포트
import joblib

#model 저장
joblib.dump(xgb_model,'./model/LOCAL_PEOPLE.pkl')

#### __② 저장한 모델 불러와서 사용하기__

In [None]:
load_model = joblib.load('./model/LOCAL_PEOPLE.pkl')

In [None]:
df_2021 = pd.read_csv('./data/test/TEST_LOCAL_PEOPLE_2021.csv')

In [None]:
df_2021.head()

In [None]:
# get_dummies를 활용하여 범주형 데이터 가변수화 진행
df_2021 = pd.get_dummies(df_2021, columns=['Month', 'Day', '요일'])

In [None]:
# Feature는 Target('총생활인구수') 제외한 나머지 
x_2021 = df_2021.drop(columns=['총생활인구수']).values

# Target은 '총생활인구수'
y_2021 = df_2021['총생활인구수'].values

In [None]:
# 스케일링하기
x_2021 = scaler.transform(x_2021)

In [None]:
# 불러온 모델로 예측하기
predict_2021 = load_model.predict(x_2021)

In [None]:
# 새로운 데이터 기준으로 성능 평가하기
model_mae = mean_absolute_error(y_2021, predict_2021)
model_mse = mean_squared_error(y_2021, predict_2021)
model_rmse = (mean_squared_error(y_2021,predict_2021))*(1/2)
model_r2 = r2_score(y_2021,predict_2021)

print('XGBoost Regression')
print("Mean Absolute Error : {0:.5f}".format(model_mae))
print("Mean Squared Error : {0:.5f}".format(model_mse))
print("Root Mean Squared Error : {0:.5f}".format(model_rmse))
print("r2-Score : ",model_r2)

In [None]:
plt.figure(figsize=(80,20))
plt.plot(y_2021, color='r')
plt.plot(predict_2021)

---

### <font color="red"> [실습]</font> 
앞선 실습 과정에서 배운 머신러닝 모델 중 어떤 것이든 좋습니다. 원하는 모델을 선택해서 학습을 시켜보세요.

__<font color=red>[Q]</font> '총생활인구수'를 y(target)으로 하고 나머지 컬럼을 x(feature)로 만드세요.__
- target 변수:Y, feature 변수:X

In [None]:
# 여기에 입력하세요.
X = df.drop(columns=['총생활인구수']).values
Y = df['총생활인구수'].values

#### __<font color='red'>[Q]</font> x와 y 값을 가지고 8:2 비율로 Train, Test 데이터 셋을 나누세요.__
- train 데이터 셋 : X_train, Y_train<br>
- test 데이터 셋 : X_test, Y_test<br>

In [None]:
# 여기에 입력하세요.

# 라이브러리 임포트
from sklearn.model_selection import train_test_split

# 데이터 Set 나누기 (Train:Test)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y,  test_size=0.2)

#### __<font color='red'>[Q]</font> 사이킷런의 MinMaxScaler를 활용하여 x_train, x_test 데이터를 정규화 하세요.__

In [None]:
# 라이브러리 임포트
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

#### __<font color='red'>[Q]</font> 원하는 모델을 선택하고 아래의 조건으로 학습을 시켜 보세요.__
- 모델 변수명은 'self_model'로 저장하세요.
- mae, rmse, r2-score 성능 지표를 사용하여 모델을 평가해 보세요.

In [None]:
#여기에 입력하세요.
# 라이브러리 임포트
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 모델 불러오기
self_model = RandomForestRegressor(max_depth=10, n_estimators=100, random_state=32)

# 모델 학습하기
self_model.fit(X_train, Y_train)

# 예측하기
self_predict = self_model.predict(X_test)

# 성능 평가하기
self_mae = mean_absolute_error(Y_test, self_predict)
self_mse = mean_squared_error(Y_test, self_predict)
self_rmse = (mean_squared_error(Y_test,self_predict))*(1/2)
self_r2 = r2_score(Y_test,self_predict)

print('Self Model Evaluation')
print("Mean Absolute Error : {0:.5f}".format(self_mae))
print("Mean Squared Error : {0:.5f}".format(self_mse))
print("Root Mean Squared Error : {0:.5f}".format(self_rmse))
print("r2-Score : ",self_r2)

#### __<font color='red'>[Q]</font> 학습이 완료된 모델을 저장해 보세요.__
- 모델 저장 파일명은 'self_model.pkl'로 합니다.

In [None]:
# 여기에 실습해 보세요.
# 라이브러리 임포트
import joblib

#model 저장
joblib.dump(self_model,'./model/self_model.pkl')