<a href="https://www.kaggle.com/code/kyeongsupchoi/model?scriptVersionId=155727521" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

<a id="introduction"></a>


* [프로젝트 소개](#introduction)

이 프로젝트는 의료 보험 데이터를 활용하여 보험료(charges)를 예측하는 모델을 개발하는 과정을 담고 있습니다. 전반적인 프로세스는 다음과 같은 세 가지 단계로 구성되어 있습니다.

* [1 단계: 탐색적 데이터 분석](#step-one)

CSV 파일에서 데이터를 로드하고, Pandas 라이브러리를 사용하여 데이터프레임을 생성합니다.
데이터의 기본적인 통계적 정보와 구조를 확인하기 위해 describe(), info(), head() 등의 함수를 사용합니다.
주요 변수들의 분포, 상관 관계 등을 시각적으로 탐색하여 데이터를 이해하는 단계입니다.

* [2 단계: 모델 학습](#step-two)

결정 트리 회귀 모델을 정의하고, 특정 속성을 기반으로 보험료를 예측하는데 사용됩니다.
훈련 데이터와 검증 데이터로 나누고, 훈련 데이터를 사용하여 모델을 훈련시킵니다.
학습된 모델을 활용하여 검증 데이터에 대한 예측값을 생성합니다.

* [3 단계: 모델 검증](#step-three)

모델이 얼마나 정확한지를 평가하기 위해 검증 데이터에 대한 예측값과 실제값 간의 평균 절대 오차(Mean Absolute Error, MAE)를 계산합니다.
또한, 결정 트리의 잎 노드 개수를 조절하여 모델의 복잡성에 따른 성능을 비교하는 실험을 수행합니다.
랜덤 포레스트 회귀 모델도 활용하여 성능을 평가하고 MAE를 계산합니다.
프로젝트는 데이터 분석, 모델 학습, 그리고 검증 단계를 거쳐 최종적으로 보험료 예측 모델을 개발하고 성능을 평가하는 것을 목표로 합니다. 이러한 결과를 통해 의료 보험료에 영향을 미치는 주요 요소들을 식별하고, 더 나은 예측 모델을 개선하기 위한 방향성을 도출할 수 있을 것입니다.







In [1]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.ensemble import RandomForestRegressor
import pandas as pd

<a id="step-one"></a>
# 1 단계: 탐색적 데이터 분석

In [2]:
# csv 파일에서 데이터프레임 로드하기
df = pd.read_csv("/kaggle/input/insurancesmoker/insurance.csv")

# 기본 데이터 요약
df.describe()

Unnamed: 0,age,bmi,children,charges
count,1338.0,1338.0,1338.0,1338.0
mean,39.207025,30.663397,1.094918,13270.422265
std,14.04996,6.098187,1.205493,12110.011237
min,18.0,15.96,0.0,1121.8739
25%,27.0,26.29625,0.0,4740.28715
50%,39.0,30.4,1.0,9382.033
75%,51.0,34.69375,2.0,16639.912515
max,64.0,53.13,5.0,63770.42801


In [3]:
# 기본값 정보
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [4]:
# 데이터프레임 첫 5 열
df.head()

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


<a id="step-two"></a>
# 2 단계: 모델 학습

In [5]:
# 모델을 정의합니다. 실행할 때마다 동일한 결과를 보장하려면 random_state에 숫자를 지정하십시오.
dec_model = DecisionTreeRegressor(random_state=1)

# 타겟 변수 설정
y = df["charges"]

# 기능 설정
X = df[["age", "bmi", "children"]]

# 테스트 분할
train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.3, random_state=0)

# 모델 훈련
dec_model.fit(train_X, train_y)

# 예측 생성
val_predictions = dec_model.predict(val_X)

<a id="step-three"></a>
# 3 단계: 모델 검증

In [6]:
# 예측 생성
val_predictions = dec_model.predict(val_X)

# 에러 계산
mean_absolute_error(val_y, val_predictions)

9782.212138360695

In [7]:
# 위의 코드는 주어진 max_leaf_nodes 값으로 결정 트리 회귀 모델을 생성하고, 훈련 데이터와 검증 데이터에 대해 평균 절대 오차(MAE)를 계산하는 함수를 정의하는 코드
def get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y):
    # max_leaf_nodes를 사용하여 DecisionTreeRegressor 모델 생성
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    # 훈련 데이터(train_X, train_y)를 사용하여 모델 학습
    model.fit(train_X, train_y)
    # 검증 데이터(val_X)에 대한 예측값 계산
    preds_val = model.predict(val_X)
    # 실제값(val_y)과 예측값(preds_val) 사이의 평균 절대 오차(MAE) 계산
    mae = mean_absolute_error(val_y, preds_val)
    # MAE 반환
    return(mae)

In [8]:
# MAE를 max_leaf_nodes의 다른 값과 비교
for max_leaf_nodes in [5, 50, 500, 5000]:
    my_mae = get_mae(max_leaf_nodes, train_X, val_X, train_y, val_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

Max leaf nodes: 5  		 Mean Absolute Error:  9212
Max leaf nodes: 50  		 Mean Absolute Error:  9110
Max leaf nodes: 500  		 Mean Absolute Error:  9768
Max leaf nodes: 5000  		 Mean Absolute Error:  9765


In [9]:
forest_model = RandomForestRegressor(random_state=1)
forest_model.fit(train_X, train_y)
melb_preds = forest_model.predict(val_X)
print(mean_absolute_error(val_y, melb_preds))

9527.031209224337
