<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

<img src = "https://github.com/Jangrae/img/blob/master/medical2.png?raw=true" width=800 align="left"/>

# 실습 내용

- 다양한 알고리즘으로 모델을 만들고 성능을 예측합니다.
- 성능이 좋을 것으로 판단된 모델의 성능을 튜닝합니다.
- 튜닝된 모델의 성능을 평가합니다.

# 1.환경 준비

- 기본 라이브러리와 대상 데이터를 가져와 이후 과정을 준비합니다.

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format = 'retina'

In [None]:
# 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/insurance.csv'
data = pd.read_csv(path)

# 2.데이터 이해

- 분석할 데이터를 충분히 이해할 수 있도록 다양한 탐색 과정을 수행합니다.

In [None]:
# 데이터 살펴보기
data.head()

**데이터 설명**

- age: 나이
- sex: 성별(female, male)
- bmi: 체질량지수(체중을 키의 제곱으로 나눈 값, 적정수준:18.5 - 24.9)
- children: 자녀 수
- smoker: 흡연 여부
- region: 거주지역(northeast, southeast, southwest, northwest)
- charges: 건강보험에서 지불한 의료비 - Target

In [None]:
# 기술통계 확인
data.describe()

# 3.데이터 준비

- 전처리 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

**1) x, y 분리**

In [None]:
# target 확인
target = 'charges'

# 데이터 분리
x = data.drop(target, axis=1)
y = data.loc[:, target]

**2) 가변수화**

In [None]:
# 가변수화 대상: sex, smoker, region
dumm_cols = ['sex', 'smoker', 'region']

# 가변수화
x = pd.get_dummies(x, columns=dumm_cols, drop_first=True)

# 확인
x.head()

**3) 학습용, 평가용 데이터 분리**

In [None]:
# 모듈 불러오기
from sklearn.model_selection import train_test_split

# 데이터 분리
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

**4) 정규화**

In [None]:
# 모듈 불러오기
from sklearn.preprocessing import MinMaxScaler

# 정규화
scaler = MinMaxScaler()
scaler.fit(x_train)
x_train_s = scaler.transform(x_train)
x_test_s = scaler.transform(x_test)

# 4.성능 예측

- 여러 알고리즘으로 모델을 만들고 K-Fold CV로 성능을 예측합니다.
- 하이퍼파라미터를 설정하지 않고 진행합니다.
- 각 모델의 성능 정보를 수집해 마지막에 비교합니다.

In [None]:
# xgboost 설치
# pip install xgboost

In [None]:
# lightgbm 설치
# pip install lightgbm

- 이후 사용할 함수를 모두 불러옵니다.

In [None]:
# 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.metrics import mean_absolute_error, r2_score

**1) Linear Regression**

- Linear Regression 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = LinearRegression()

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result = {}
result['Linear Regression'] = cv_score.mean()

**2) KNN**

- KNN 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = KNeighborsRegressor()

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train_s, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['KNN'] = cv_score.mean()

**3) Decision Tree**

- Decision Tree 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = DecisionTreeRegressor(random_state=1)

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['Decision Tree'] = cv_score.mean()

**4) SVM**

- SVM 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = SVR(kernel='linear', C=1)

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train_s, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['SVM'] = cv_score.mean()

**5) Random Forest**

- Random Forest 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = RandomForestRegressor(random_state=1)

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['Random Forest'] = cv_score.mean()

**6) XGBoost**

- XGBoost 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = XGBRegressor(random_state=1)

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['XGBoost'] = cv_score.mean()

**7) LightGBM**

- LightGBM 알고리즘으로 모델링하고 K-Fold CV로 성능을 검증합니다.

In [None]:
# 선언하기
model = LGBMRegressor(random_state=1)

In [None]:
# 성능예측
cv_score = cross_val_score(model, x_train, y_train, cv=5)

In [None]:
# 결과확인
print('평균:', cv_score.mean())

In [None]:
# 결과수집
result['LightGBM'] = cv_score.mean()

# 5.결과 확인

- 예측된 각 모델의 성능을 비교합니다.

In [None]:
# 성능 비교
print('=' * 40)
for m_name, score in result.items():
    print(m_name, score.round(3))
print('=' * 40)

In [None]:
# 성능 시각화 비교
plt.barh(list(result.keys()), result.values())
plt.show()

# 6.성능 튜닝

- 위에서 성능이 가장 좋을 것으로 예측된 모델을 튜닝합니다.
- 본 실습에서는 Random Forest 모델 성능을 튜닝합니다.

In [None]:
# 기본 모델 선언
model_rfr = RandomForestRegressor(random_state=2022)

# 파라미터 지정
  # max_depth: range(1, 21)
param = {'max_depth': range(1, 21)}

# 모델 선언
model = GridSearchCV(model_rfr,
                     param,
                     cv=5,
                     scoring='r2')

In [None]:
# 학습하기(많은 시간이 소요될 수 있음)
model.fit(x_train, y_train)

In [None]:
# 최적 파라미터, 예측 최고 성능
print(model.best_params_)
print(model.best_score_)

In [None]:
# 변수 중요도 시각화
plt.figure(figsize=(6, 5))
plt.barh(list(x), model.best_estimator_.feature_importances_)
plt.show()

# 7.성능 평가

- 최적 파라미터로 학습된 모델에 대해 최종 성능 평가를 진행합니다.

In [None]:
# 예측하기
y_pred = model.predict(x_test)

In [None]:
# 성능평가
print(mean_absolute_error(y_test, y_pred))
print(r2_score(y_test, y_pred))