## 기본적인 EDA 접근 방식
- 데이터의 특징을 탐색하는 과정으로 시각화, 통계량, 더 나아가 모델링 기법을 통해 데이터에 내재된 패턴 파악

### 1. 기본적인 문제 정의 & 분석 목표 설정
- 이 데이터는 무엇을 보여주고 싶은가?
- 데이터에 담긴 값의 의미를 생각해보기
- 타겟 변수(궁금한 값)이 있는가?
- 어떤 관계를 탐색할 것인가? (타겟 변수에 영향을 주는 요인이 무엇인지?)
- 가설 설정 등

### 2. 데이터의 구조 파악하기
- 데이터의 행/열 개수
- 각 변수의 데이터 유형
- 기초적인 통계량(평균, 최대, 최소, 최빈, 빈도, 고유값, 중앙값 등)

### 3. 데이터의 품질 점검하기 (결측치/중복/이상치)
- 결측치 탐색하기(그에 따른 처리 전략 수립)
- 중복 데이터 탐색하기
  - pandas의 duplicated() 함수
- boxplot 또는 IQR(Inter-Quartile Range) 활용하여 이상치 탐색하기

### 4. 단변량 분석(단일 변수에 대한 탐색)
- 각 변수의 통계량, 분포를 통해 패턴 탐색
- 수치형 데이터: 히스토그램, 박스플롯 등
- 범주형 데이터: countplot, 파이 차트 등
> 이 변수는 어떻게 생겼는가? 어떠한 형태? 어떠한 패턴?

### 5. 이변량 분석(두 변수 간의 관계 탐색)
- 타겟 변수와 다른 변수와의 패턴/관계? (또는 서로 다른 변수 간의 관계)
- 수치형 x 수치형: 산점도, 상관관계 등
- 범주형 x 수치형: 박스플롯, 바이올린 플롯 등
- 범주형 x 범주형: 파이 차트, 막대 그래프, 히트맵 등
> 한 변수가 다른 변수에 영향을 주는가?

### 6. 다변량 분석(여러 개 변수 간의 관계 및 전체적인 패턴 파악)
- 복합적인 여러 개의 변수간의 패턴 파악
- 상관관계 히트맵
- seaborn의 pairplot() 함수

### 7. 핵심 인사이트 도출 및 결과 요약 정리
- 어떤 변수가 타깃에 가장 큰 영향을 주는가?
- 데이터의 분포적 특징은 무엇인가?
- 노이즈/편향/한계점 등은 무엇인가?
- 분석 목적에 맞는 설명 정리
- 핵심 그래프 선정
- 변수 간 주요 관계 요약
- 데이터의 특성·문제점·해석 가능한 인사이트 정리

*필요에 따라 파생 변수 생성 등 활용*

# Medical Insurance Charges (의료보험 비용)

Insurance Charges 데이터셋(Medical Cost Personal Dataset)은
개인의 나이, 성별, BMI, 흡연 여부, 가족 구성 등 기본 인구 통계 정보를 기반으로
의료 보험 비용(charges)이 어떻게 결정되는지를 분석하기 위해 수집된 자료

보험료 책정에 중요한 요인을 파악하는 연구나 헬스케어 분석 실습에서 널리 사용된다.

**건강·생활 요인이 보험 비용에 어떤 영향을 미치는지 분석.**

- `insurance.csv` 파일에 저장

| 컬럼명 | 설명 |
| --- | --- |
| `age` | 나이 (정책주체의 나이) |
| `sex` | 성별 (male / female) |
| `bmi` | 체질량지수 (Body Mass Index) |
| `children` | 자녀수 / 피보험자 부양가족 수 |
| `smoker` | 흡연 여부 (yes / no) |
| `region` | 거주 지역 (예: northeast, southeast, southwest, northwest) |
| `charges` | 보험 청구 비용 / 의료비용 (타겟 변수) |

## Guide
- 자유롭게 각 작업마다 코드 셀을 추가해서 EDA를 진행해보세요!
  - 코드 셀 추가하는 단축키 : esc + b
- 각 스텝마다에서 얻어진 객관적 사실을 각각 정리해보세요!
- 분석 진행이나 컬럼/값의 의미/해석 등을 생성형 AI의 도움을 통해 아이디어를 받아보세요!
- 아래의 코드셀의 스텝 설명들은 일종의 가이드입니다.


## 데이터의 기본 구조 파악하기
- 전체 shape 확인
- 컬럼별 타입 확인
- 기본 통계량(describe)으로 단위·범위 파악
- charges(보험료)의 평균·중앙값·분포
- region, sex, smoker, children 등의 빈도 파악

## 데이터의 품질 확인하기
- 결측치 탐색(확인, 비율)
- boxplot으로 각 feature의 이상치 탐색
- IQR로 정량적 이상치 판단 (개수, 비율 등)

## 단변량 분석

- 각 변수 별 분포 파악
- charges의 분포(히스토그램/KDE)
- BMI 분포 → 이상치 확인
- 나이에 따른 보험료 증가 추세 등

## 이변량, 다변량 분석
- smoker vs non-smoker의 보험료 비교
- 성별마다 보험료 차이?
- region에 따른 차이 존재 여부
- children 수에 따른 비용 증가 패턴
- 관계 분석
  - scatterplot(age vs charges)
  - scatterplot(bmi vs charges)
  - boxplot(bmi group vs charges)
  - correlation heatmap (수치형만)

## 핵심 인사이트 정리
- smoker와 non-smoker 사이 보험료 차이
- 나이가 증가할수록 보험료가 어떻게 상승하는지
- BMI와 보험료의 비선형적 관계
- region 및 성별 등 다른 요인의 영향력