-
Data fields
-
Age: 피보험자의 나이
-
Sex: 피보험자의 성별
-
BMI: 피보험자의 체질량 지수 ( 체중(kg) / 키(m)^2 )
-
Children: 피보험자의 자녀의 수
-
Smoker: 흡연 여부 (yes / no)
-
Region: 피보험자가 거주하는 지역 (Southeast / Southwest / Northeast / Northwest)
-
Charges: 보험료
-
- EDA 및 데이터 전처리
- 변수 분석
- Modeling
- Linear Regression
- Random Forest Regression
- XGB Regression
- Ridge Regression
- KNN Regression
- Gradient Boosting Regression
ML Models | Score |
---|---|
Gradient Boosting Regression | 0.915826 |
XGBRegression | 0.914670 |
RandomForestRegression | 0.911131 |
KNN Regression | 0.837118 |
LinearRegression | 0.828913 |
RidgeRegression | 0.828171 |
- 하이퍼파라미터 튜닝 (GridsearchCV)
- min_sample_leaf = 5
- n_estimators = 90
- 하이퍼 파라미터 튜닝한 Gradient Boosting Regression 모델
- Score
- r_square score : 약 0.918
- MAE : 약 0.163
- MSE : 약 0.071
- RMSE : 약 0.266