<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

<img src = "https://github.com/Jangrae/img/blob/master/medical2.png?raw=true" width=800 align="left"/>

# 실습 내용

- 다양한 알고리즘으로 성능이 최적화된 모델을 만듭니다.
- 성능이 좋을 것으로 예상되는 모델을 선정해 새로운 데이터에 대해 예측을 수행합니다.

# 1.환경 준비

- 기본 라이브러리와 대상 데이터를 가져와 이후 과정을 준비합니다.

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import joblib
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format = 'retina'

- 학습용 데이터를 불러옵니다.
- 평가용 데이터는 이후에 불러오게 됩니다.

In [2]:
# 학습용 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/insurance_train.csv'
data = pd.read_csv(path)

# 2.데이터 이해

- 분석할 데이터를 충분히 이해할 수 있도록 다양한 탐색 과정을 수행합니다.

**데이터 설명**

- age: 나이
- sex: 성별(female, male)
- bmi: 체질량지수(체중을 키의 제곱으로 나눈 값, 적정수준:18.5 - 24.9)
- children: 자녀 수
- smoker: 흡연 여부
- region: 거주지역(northeast, southeast, southwest, northwest)
- **charges: 건강보험에서 지불한 의료비 - Target**

In [3]:
# 데이터 살펴보기
data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,41,female,31.6,0,no,southwest,6186.127
1,30,male,25.46,0,no,northeast,3645.0894
2,18,female,30.115,0,no,northeast,21344.8467
3,61,female,29.92,3,yes,southeast,30942.1918
4,34,female,27.5,1,no,southwest,5003.853


In [4]:
# 기술통계 확인
data.describe()

Unnamed: 0,age,bmi,children,charges
count,1238.0,1238.0,1238.0,1238.0
mean,39.236672,30.648522,1.096931,13164.000669
std,13.984795,6.129289,1.203057,11994.023291
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.22,0.0,4755.80985
50%,40.0,30.305,1.0,9333.01435
75%,51.0,34.49625,2.0,16443.294663
max,64.0,53.13,5.0,63770.42801


In [None]:
# 상관관계 




In [None]:
# Target 분포 확인




In [None]:
# 흡연자 비율




In [None]:
# 남녀 비율




# 3.데이터 준비

- 전처리 과정을 통해 머신러닝 알고리즘에 사용할 수 있는 형태의 데이터를 준비합니다.

**1) x, y 분리**

In [5]:
# x, y 분리
target = 'charges'
x = data.drop(target, axis = 1)
y = data.loc[:, target]

**2) 가변수화**

In [6]:
# 가변수화

dum_cols = ['sex', 'smoker', 'region']

x = pd.get_dummies(x, columns = dum_cols, drop_first=True, dtype=int)

In [7]:
x.head()

Unnamed: 0,age,bmi,children,sex_male,smoker_yes,region_northwest,region_southeast,region_southwest
0,41,31.6,0,0,0,0,0,1
1,30,25.46,0,1,0,0,0,0
2,18,30.115,0,0,0,0,0,0
3,61,29.92,3,0,1,0,1,0
4,34,27.5,1,0,0,0,0,1


**3) 학습용, 평가용 데이터 분리**

In [9]:
# 학습용, 평가용 데이터 분리
from sklearn.model_selection import train_test_split

x_train, x_val, y_train, y_val = train_test_split(x, y, train_size=0.3, random_state=1)

# 4.모델링

- 하이퍼파라미터 최적화 과정을 통해 최선의 성능을 갖는 모델을 만들고 성능을 검증합니다.
- 각 모델을 joblib.dump() 함수를 사용해 저장합니다.

In [10]:
# xgboost 설치
!pip install xgboost



In [11]:
# lightgbm 설치
!pip install lightgbm



- 이후 사용할 함수를 모두 불러옵니다.

In [21]:
# 라이브러리 불러오기 - 회귀
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score
from  sklearn.model_selection import GridSearchCV
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from sklearn.ensemble import RandomForestRegressor 

from sklearn.metrics import *

**1) Linear Regression**

- Linear Regression 알고리즘으로 모델링하고 성능을 검증합니다.
- 모델을 파일로 저장힙니다.

In [15]:
# 모델링
model = LinearRegression()

# 학습하기
model.fit(x_train, y_train)

# 결과확인
print(model.best_params_)
print(model.best_score_)

# 예측하기
y_val_pred = model.predict(x_val)

# 평가하기
print('MAE:', mean_absolute_error(y_val, y_val_pred))
print('R2:', r2_score(y_val, y_val_pred))

MAE: 4433.080654750772
R2: 0.7348925594466016


In [16]:
# 모델저장
joblib.dump(model, 'model_linear.pkl')

['model_linear.pkl']

**2) Decision Tree**

- 하이퍼파라미터 최적화 과정을 통해 최선의 성능을 갖는 Decision Tree 모델을 만들고 성능을 검증하세요.
- 변수 중요도를 시각화해 확인하고, 모델을 파일로 저장힙니다.

In [31]:
# 파라미터 선언
param = {'max_depth': range(1, 21)}

model = GridSearchCV(DecisionTreeRegressor(), param_grid=param, cv=5)

model.fit(x_train, y_train)

y_val_pred = model.predict(x_val)

In [32]:
# 변수 중요도 시각화

# 최적 파라미터, 최고 성능 확인

# 평가하기
print('MAE:', mean_absolute_error(y_val, y_val_pred))
print('R2:', r2_score(y_val, y_val_pred))

MAE: 2950.6903475710715
R2: 0.838850884011542


In [None]:
# 모델저장
joblib.dump(model, 'model_tree.pkl')

**3) Random Forest**

- 하이퍼파라미터 최적화 과정을 통해 최선의 성능을 갖는 Random Forest 모델을 만들고 성능을 검증하세요.
- 변수 중요도를 시각화해 확인하고, 모델을 파일로 저장힙니다.

In [35]:
# 파라미터 선언


param = {'max_depth': range(1, 21)}

# GridSearchCV 객체 생성
model = GridSearchCV(RandomForestRegressor(), param_grid=param, cv=5)

# 모델 학습
model.fit(x_train, y_train)

y_val_pred = model.predict(x_val)

In [36]:
# 변수 중요도 시각화


# 평가하기
print('MAE:', mean_absolute_error(y_val, y_val_pred))
print('R2:', r2_score(y_val, y_val_pred))

MAE: 2775.212374566022
R2: 0.849937313130386


In [44]:
# 모델저장
joblib.dump(model, 'model_forest.pkl')

['model_forest.pkl']

**4) LightGBM**

- 하이퍼파라미터 최적화 과정을 통해 최선의 성능을 갖는 LightGBM 모델을 만들고 성능을 검증하세요.
- 변수 중요도를 시각화해 확인하고, 모델을 파일로 저장힙니다.

In [41]:
# 파라미터 선언
param = {'max_depth': range(1, 21)}

# GridSearchCV 객체 생성
model = GridSearchCV(LGBMRegressor(verbose=-1), param_grid=param, cv=5)

# 모델 학습
model.fit(x_train, y_train)

y_val_pred = model.predict(x_val)

In [42]:
# 변수 중요도 시각화


# 평가하기
print('MAE:', mean_absolute_error(y_val, y_val_pred))
print('R2:', r2_score(y_val, y_val_pred))

MAE: 2779.0133123668484
R2: 0.8391741087169121


In [None]:
# 모델저장
joblib.dump(model, 'model_lgbm.pkl')

# 5.성능평가

- 가장 좋은 성능을 보였던 모델을 joblib.load() 함수를 사용해 불러옵니다.
- 불러온 모델로 새로운 데이터에 대해 예측을 수행합니다.

In [45]:
# 모델 불러오기
model = joblib.load('model_forest.pkl')

In [46]:
# 평가용 데이터 불러오기
path = 'https://raw.githubusercontent.com/jangrae/csv/master/insurance_test.csv'
new_data = pd.read_csv(path)

# 확인
new_data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region
0,19,female,27.9,0,yes,southwest
1,18,male,33.77,1,no,southeast
2,28,male,33.0,3,no,southeast
3,33,male,22.705,0,no,northwest
4,32,male,28.88,0,no,northwest


- 원본 데이터프레임을 유지하기 위해 새로운 데이터프레임으로 복사합니다.
- 복사된 데이터프레임에 대해 가변수화를 수행합니다.

In [47]:
# 데이터 복사
x_test = new_data.copy()

# 가변수화
dumm_cols = ['sex', 'smoker', 'region']
x_test = pd.get_dummies(x_test, columns=dumm_cols, drop_first=True, dtype=int)

# 확인
x_test.head()

Unnamed: 0,age,bmi,children,sex_male,smoker_yes,region_northwest,region_southeast,region_southwest
0,19,27.9,0,0,1,0,0,1
1,18,33.77,1,1,0,0,1,0
2,28,33.0,3,1,0,0,1,0
3,33,22.705,0,1,0,1,0,0
4,32,28.88,0,1,0,1,0,0


- 가변수화된 결과를 대상으로 예측을 수행합니다.
- 참고: 예측을 위해서는 모델이 학습했던 데이터(x_train)과 데이터 구조가 같아야 합니다.

In [48]:
# 예측하기
y_pred = model.predict(x_test)

# 확인
y_pred[:10]

array([20472.24913545,  5497.94666928,  5687.85469019,  4157.93198445,
        5451.00223395,  3975.32340047,  8070.24937078,  8497.21092307,
        7680.98928815, 15848.07804816])

- 예측 결과를 'charges_pred' 이름의 열로 원본 데이터프레임에 추가합니다.

In [49]:
# 결과 합기기
new_data['charges_pred'] = y_pred

# 확인
new_data.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges_pred
0,19,female,27.9,0,yes,southwest,20472.249135
1,18,male,33.77,1,no,southeast,5497.946669
2,28,male,33.0,3,no,southeast,5687.85469
3,33,male,22.705,0,no,northwest,4157.931984
4,32,male,28.88,0,no,northwest,5451.002234
