### 1. 뇌졸중 데이터 분석 및 시각화 (EDA)
* 데이터 로드
* 데이터 기본 정보 확인
* 변수별 분포 시각화

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 한글 폰트 설정
# plt.rcParams['font.family'] = 'AppleGothic' # Mac
plt.rcParams['font.family'] = 'Malgun Gothic' # Windows
plt.rcParams['axes.unicode_minus'] = False # 마이너스 기호 깨짐 방지

print("라이브러리 로드 완료")

### 2. 데이터 로드
**중요**: `data` 폴더 안에 `health_checkup_data.csv` 파일이 있어야 함

In [None]:
try:
    data = pd.read_csv('../data/health_checkup_data.csv')
    print("데이터 로드 성공!")
    display(data.head())
except FileNotFoundError:
    print("오류: '../data/health_checkup_data.csv' 파일을 찾을 수 없습니다.")
    print("data 폴더에 원본 데이터 파일을 넣어주세요.")

### 3. 데이터 기본 정보 확인

In [None]:
if 'data' in locals():
    print("데이터 정보:")
    data.info()
    
    print("\n데이터 통계 요약:")
    display(data.describe())
    
    print("\n결측치 확인:")
    print(data.isnull().sum())

### 4. 변수별 분포 시각화
주요 변수(연령, 고혈압, BMI, 성별, 흡연)와 뇌졸중(stroke) 여부의 관계를 시각화

In [None]:
if 'data' in locals():
    # 시각화할 변수 목록
    features_to_plot = ['age', 'hypertension', 'bmi', 'gender', 'smoking_status']
    
    plt.figure(figsize=(15, 10))
    
    # 1. Age (연령)
    plt.subplot(2, 3, 1)
    sns.histplot(data=data, x='age', hue='stroke', kde=True, bins=30)
    plt.title('연령 분포 (age Distribution)')

    # 2. Hypertension (고혈압)
    plt.subplot(2, 3, 2)
    sns.countplot(data=data, x='hypertension', hue='stroke')
    plt.title('고혈압 여부 (hypertension Distribution)')

    # 3. BMI (체질량지수)
    plt.subplot(2, 3, 3)
    sns.histplot(data=data, x='bmi', hue='stroke', kde=True, bins=30)
    plt.title('BMI 분포 (bmi Distribution)')

    # 4. Gender (성별)
    plt.subplot(2, 3, 4)
    sns.countplot(data=data, x='gender', hue='stroke')
    plt.title('성별 (gender Distribution)')

    # 5. Smoking Status (흡연 상태)
    plt.subplot(2, 3, 5)
    sns.countplot(data=data, x='smoking_status', hue='stroke')
    plt.title('흡연 상태 (smoking_status Distribution)')
    
    plt.tight_layout()
    plt.show()