In [None]:
import pandas as pd
import numpy as np
from scipy import stats

# 1. 데이터 불러오기
df = pd.read_csv('전처리_완료.csv')

# 2. 수치형 변수 구간화 함수
def binning_data(df):
    # age 구간화
    df['age_cat'] = pd.cut(df['age'], bins=[0, 24, 30, 200], labels=['<25', '25-30', '>=30'])
    # height 구간화
    df['height_cat'] = pd.cut(df['height_cm'], bins=[0, 154, 159, 164, 300], labels=['<155', '155-159', '160-164', '>=165'])
    # weight 구간화
    df['weight_cat'] = pd.cut(df['weight_kg'], bins=[0, 59, 75, 500], labels=['<60', '60-75', '>75'])
    # gestational age 구간화
    df['ga_cat'] = pd.cut(df['gestational_age_자'], bins=[0, 36, 39, 100], labels=['<37', '37-39', '>=40'])
    # fetal weight 구간화
    df['fw_cat'] = pd.cut(df['fetal_weight_est'], bins=[0, 2499, 3500, 10000], labels=['<2500', '2500-3500', '>3500'])
    return df

df = binning_data(df)

# 3. 분석 대상 변수 리스트 (id, delivery_pref 제외 모든 열)
target_cols = [col for col in df.columns if col not in ['id', 'delivery_pref', 'age_cat', 'height_cat', 'weight_cat', 'ga_cat', 'fw_cat']]

results = []

for col in target_cols:
    # t-test 수행 (delivery_pref 0 vs 1)
    group0 = df[df['delivery_pref'] == 0][col]
    group1 = df[df['delivery_pref'] == 1][col]
    t_stat, p_val = stats.ttest_ind(group0, group1, nan_policy='omit')
    
    # 범주별 빈도/비율 계산 로직 (수치형은 위에서 만든 카테고리 사용)
    # ... (상세 루프 로직 생략, 핵심은 ttest_ind 사용)
    results.append({'Variable': col, 'p-value': round(p_val, 4)})

# 4. 결과 저장
final_df = pd.DataFrame(results)
final_df.to_excel('final_analysis_report.xlsx', index=False)
print("분석이 완료되어 엑셀 파일이 생성되었습니다.")