<a href="https://colab.research.google.com/github/yuhui-0611/ESAA/blob/main/ESAA_YB_WEEK10_2_Code_Review.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 주제 및 데이터

[link text](https://www.kaggle.com/code/lohithmorampudi/regression-with-an-insurance-dataset)

- 보험료(보험 프리미엄)를 예측하는 회귀
> 고객의 특성(연령, 소득, 보험청구 이력 등)을 바탕으로 얼마나 많은 보험료가 청구될 것인가 혹은 보험료 수준이 얼마일 것인가를 예측

- 데이터

    - 각 행은 한 명의 보험 고객 혹은 보험 계약 건을 나타냄
    - 입력 변수(feature) = 연령(age), 연간 소득(annual income), 이전 청구 횟수(previous claims), 보험 기간(term), 기타 인구통계·계약 정보 등이 포함됨
    > 예: Discussion에서 “Annual Income”, “Previous Claims” 등이 언급됨
    - 목표 변수(target) = 연속형 수치로, 보험료(Premium), 비용(Cost) 등

# 코드

**1) 결측치 처리(Missing Value Handling)**

- 사용된 것: 수치형 변수의 평균/중앙값 대체, 범주형 변수의 최빈값(mode) 대체 혹은 'Unknown' 등으로 대체

- 이유: 회귀 모델은 입력값이 결측이면 해당 샘플을 사용하지 못하거나 오류가 생길 수 있으므로, 가능한 데이터를 최대한 살려야 함

- 결과: 데이터 손실을 최소화하면서 모델 학습에 필요한 완전한 입력 형태 확보함


---


**2) 변수 변환(Transformation)**

- 사용된 것: 로그 변환, 제곱근 변환, 또는 구간화(binning) 등의 비선형 변환

- 이유: 보험료 같이 분포가 한쪽으로 치우친(skewed) 경우, 로그 변환 등을 통해 정규성(normality) 또는 분포의 왜곡(skew)을 줄이면 회귀 모델(또는 일반 ML 모델)의 학습 안정성이 올라감

결과: 모델이 이상치(outlier)나 왜곡된 분포에 덜 민감해지고 예측 오차를 줄이는 데 도움


---


**3) 파생변수(Feature Engineering)**

- 사용된 것: 예컨대 총소득(total_income), 계약비율(contract_to_income), 나이 구간(age_bin) 등 의미 있는 변수 생성

- 이유: 원변수만으로는 설명하기 어려운 고객 리스크·계약 리스크 변수들을 통합하거나 비율 형태로 표현하면 모델의 설명력(explanatory power)이 증가

- 결과: 모델이 더 다양한 각도에서 패턴을 학습할 수 있게 되어 성능 향상 가능성이 생김


---


**4) 인코딩(Encoding) 및 스케일링(Scaling)**

- 사용된 것: 범주형 변수는 Label Encoding 또는 One-Hot Encoding, 수치형 변수는 StandardScaler 또는 MinMaxScaler 적용

- 이유: 머신러닝 알고리즘(특히 거리 기반 모델이나 일부 선형모델)은 입력 스케일(단위) 차이에 민감하고, 범주형은 숫자로 바꿔줘야 처리 가능

- 결과: 모델 학습이 안정적으로 이뤄지고, 각 변수의 기여도가 왜곡되지 않도록 함


---


**5) 모델 선택 및 학습(Modeling)**

- 사용된 것: 여러 회귀 모델 (예: 선형 회귀(Linear Regression), 랜덤 포레스트 회귀(Random Forest Regressor), 그래디언트 부스팅 회귀(Gradient Boosting Regressor) 등) 및 교차검증(Cross-Validation)

- 이유: 회귀 문제이므로 단일 모델만 보기보다는 여러 모델 비교를 통해 가장 잘 일반화 되는 모델을 선택하는 것이 중요

- 결과: 각 모델의 학습 오차(train error)와 검증 오차(validation error)를 비교하여 과적합 여부를 판단하고, 최적 모델을 선정


---


**6) 성능 평가(Performance Evaluation)**

- 사용된 것: 평균절대오차(MAE, Mean Absolute Error), 평균제곱근오차(RMSE, Root Mean Squared Error), R²(결정계수) 등의 회귀 지표

- 이유: 회귀 문제에서는 단순 정확도(acc = 맞다/아니다)가 아니라 예측값과 실제값의 오차 크기가 중요하기 때문

- 결과: 모델이 실제값과 얼마나 가까운지를 수치적으로 판단하고, 개선 여부를 판단

# 차별점 및 배운점

데이터 전처리와 변수 생성 과정을 거쳐 모델 입력 데이터를 최적화함

여러 회귀 모델을 비교하고 하이퍼파라미터 튜닝을 통해 성능을 극대화함

결과적으로 보험료 예측이라는 실용적 문제에 대해 머신러닝 모델이 실제로 적용 가능함을 보여줌

또한, 모델 해석 또는 변수 중요도 분석을 통해 어떤 고객 특성이 보험료에 영향을 많이 주는지 통찰을 제공함

이 과정을 통해 회귀 문제 설계 → 피처 엔지니어링 → 모델링 → 평가라는 전형적 워크플로우를 학습할 수 있었음