In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
import warnings

# 경고 메시지 무시
warnings.filterwarnings('ignore')

# --- 1. Pycharm용 코드 시작 ---

# 입력 파일 이름
input_filename = "processed_medical_insurance_v3.csv"

print(f"--- 다중 선형회귀 분석 (로그 변환 없음) ---")
print(f"데이터 파일: {input_filename}")

try:
    # --- 2. 데이터 로드 ---
    df = pd.read_csv(input_filename)

    # --- 3. 결측치 처리 (중요) ---
    # LinearRegression 모델은 NaN(결측치) 값을 처리할 수 없습니다.
    # 'sex'와 'alcohol_freq'에 결측치가 있으므로, 해당 행들을 제거합니다.
    original_rows = len(df)
    df_processed = df.dropna()
    processed_rows = len(df_processed)

    if df_processed.empty:
        print("오류: 결측치 제거 후 분석할 데이터가 남지 않았습니다.")
    else:
        print(f"원본 데이터: {original_rows} 행, 결측치 제거 후: {processed_rows} 행")

        # --- 4. X (독립변수) 와 Y (종속변수) 정의 ---

        # Y (종속변수) - 로그 변환 없음 (사용자 요청)
        Y = df_processed['annual_medical_cost']

        # X (독립변수) - Y값을 제외한 모든 변수
        X = df_processed.drop(columns=['annual_medical_cost'])

        # --- 5. 훈련/테스트 데이터 분리 ---
        X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

        # --- 6. 다중 선형회귀 모델 훈련 ---
        model = LinearRegression()
        model.fit(X_train, y_train)

        # --- 7. 모델 평가 (상관관계 확인) ---

        # 1) R-squared (R²) 점수: 모델의 전체 설명력
        y_pred = model.predict(X_test)
        r2 = r2_score(y_test, y_pred)

        print(f"\n--- 분석 결과 ---")
        print(f"모델 R-squared (설명력): {r2:.4f}")

        # 2) Coefficients (계수): 각 변수가 Y에 미치는 영향력
        print("\n--- 변수별 계수 (영향력) ---")
        coefficients = pd.Series(model.coef_, index=X.columns)
        print(coefficients)

except FileNotFoundError:
    print(f"오류: '{input_filename}' 파일을 찾을 수 없습니다.")
    print("Pycharm에서 .py 스크립트와 .csv 파일이 같은 폴더에 있는지 확인하세요.")
except Exception as e:
    print(f"알 수 없는 오류가 발생했습니다: {e}")

# --- Pycharm용 코드 끝 ---

--- 다중 선형회귀 분석 (로그 변환 없음) ---
데이터 파일: processed_medical_insurance_v3.csv
원본 데이터: 68515 행, 결측치 제거 후: 68515 행

--- 분석 결과 ---
모델 R-squared (설명력): 0.0662

--- 변수별 계수 (영향력) ---
age                  23.527032
sex                  20.453722
urban_rural         -11.622559
bmi                  27.268678
alcohol_freq         -5.769955
visits_last_year    337.924858
smoker_Current      937.037094
smoker_Former      -279.820664
smoker_Never       -657.216430
dtype: float64
