# 더미변수

In [None]:
# 데이터 준비: pandas DataFrame을 사용하여 결제 방식과 소비금액 데이터를 준비합니다.
# 더미 변수 생성: pd.get_dummies 함수로 결제 방식의 더미 변수를 생성합니다. drop_first=True 옵션으로 첫 번째 카테고리를 기준 범주로 설정하고, 이를 제외합니다. 이렇게 하면 '카드결제'가 기준 범주가 되며, '현금결제'와 '페이결제'에 대한 더미 변수만 생성됩니다.
# 모델 생성 및 적합: statsmodels의 OLS 클래스를 사용하여 종속변수 y와 독립변수 X에 대한 다중회귀분석 모델을 생성하고 적합시킵니다. 여기서 X는 상수항(절편)을 추가한 더미 변수입니다.
# 결과 출력: model.summary() 메소드를 호출하여 회귀분석 결과를 출력합니다. 이 결과에는 각 독립변수의 계수, 통계적 유의성(p-value), 모델의 결정계수(R-squared) 등이 포함됩니다.

In [2]:
import pandas as pd
import statsmodels.api as sm

# 예제 데이터 생성
data = {
    '결제방식': ['카드결제', '현금결제', '페이결제', '카드결제', '현금결제', '페이결제', '카드결제', '현금결제', '페이결제'],
    '소비금액': [200, 150, 180, 220, 160, 190, 210, 170, 200]
}
df = pd.DataFrame(data)

# 더미 변수 생성
# '카드결제'를 기준 범주로 하여 더미 변수를 생성합니다. pd.get_dummies 함수는 자동으로 범주형 변수를 더미 변수로 변환합니다.
# drop_first=True 옵션을 사용하여 첫 번째 범주('카드결제')에 대한 더미 변수를 제외하고, 기준(참조) 범주로 설정합니다.
df_dummies = pd.get_dummies(df['결제방식'], drop_first=True)

# 원본 데이터프레임에 더미 변수 추가
df = pd.concat([df, df_dummies], axis=1)

# 다중회귀분석 모델 생성 및 적합
X = df[['현금결제', '페이결제']]  # 독립변수. '카드결제'를 제외한 더미 변수를 사용합니다.
y = df['소비금액']  # 종속변수
X = sm.add_constant(X)  # 모델에 상수항(절편) 추가

model = sm.OLS(y, X).fit()  # OLS 모델 적합

# 결과 출력
print(model.summary())


                            OLS Regression Results                            
Dep. Variable:                   소비금액   R-squared:                       0.864
Model:                            OLS   Adj. R-squared:                  0.818
Method:                 Least Squares   F-statistic:                     19.00
Date:                Fri, 22 Mar 2024   Prob (F-statistic):            0.00254
Time:                        20:21:18   Log-Likelihood:                -31.669
No. Observations:                   9   AIC:                             69.34
Df Residuals:                       6   BIC:                             69.93
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        210.0000      5.774     36.373      0.0



In [None]:
# 카드 200 220  210  합계 630   # 기준범주
# 현금 : 150 160 170  합계 480  # 더미1
# 페이 :180 190 200   합계 570  #더미2

# 더미1 회귀계수 -50 : 480의 평균 160 과 기준범주 카드결제 평균 210과 차이 -50 즉 현금결제가 카드결제 대비 평균 50 소비액이 작다.
# 더미2 회귀계수 -20 : 570의 평균 190 과 기준범주 카드결제 평균 210과 차이 -20 즉 페이결제가 카드결제 대비 평균 20 소비액이 작다.
