# 다중 선형 회귀 분석

주어진 매출액, 광고비, 플랫폼 데이터로 회귀모델을 구축하고 각 소문제의 값을 구하시오.
- 매출액: 종속변수
- 광고비, 플랫폼(유통 플랫폼 수), 투자: 독립변수

In [2]:
import pandas as pd
df = pd.DataFrame({
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '플랫폼': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50],
    '투자':[100, 0, 200, 0, 10, 0, 5, 0, 20, 0,
          0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
    })
df.head(3)

Unnamed: 0,매출액,광고비,플랫폼,투자
0,300,70,15,100
1,320,75,16,0
2,250,30,14,200


In [4]:
# 모델 학습 summary 출력 (종속변수 : 매출액, 독립변수 : 광고비, 플랫폼)
from statsmodels.formula.api import ols
model = ols("매출액 ~ 광고비 + 플랫폼",data = df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Sun, 12 May 2024   Prob (F-statistic):            0.00226
Time:                        21:00:06   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

In [5]:
# 결정 계수 (R-squared)
# 0.512
model.rsquared

0.5116964327009041

In [7]:
# 회귀계수(광고비)
# 1.8194
model.params['광고비']

1.8194269419344606

In [8]:
# 회귀계수(플랫폼)
# 5.9288
model.params['플랫폼']

5.928755546950752

In [9]:
# 회귀계수(절편)
# 101.0239
model.params['Intercept']

101.02387228241548

In [10]:
# 광고비의 회귀계수가 통계적으로 유의한지 pvalue
# 0.038
model.pvalues['광고비']

0.0376435064769604

In [11]:
# 플랫폼의 회귀계수가 통계적으로 유의한지 pvalue
# 0.001
model.pvalues['플랫폼']

0.0006746810554564365

In [12]:
# 광고비 50, 플랫폼 20 일 때 매출액 예측
newdata = pd.DataFrame({
    '광고비' : [50],
    '플랫폼' : [20]
})
model.predict(newdata)

0    310.57033
dtype: float64

In [15]:
# 잔차 제곱합
print(model.resid)
print(sum(model.resid**2))
print((model.resid**2).sum())

0     -17.315091
1     -12.340982
2      11.390742
3      -5.153139
4     -29.668967
5     -13.908591
6     -13.243847
7     -27.863237
8       8.684909
9     -85.153139
10    -17.747482
11      5.583925
12    -11.882701
13    -13.908591
14    -13.243847
15      1.780541
16    -51.663616
17     25.437367
18    203.231552
19     56.984195
dtype: float64
58686.17827156107
58686.178271561075


In [14]:
# MSE
(model.resid**2).mean()

2934.3089135780538

In [16]:
# 광고비, 플랫폼 회귀계수의 95% 신뢰구간
# 광고비 : 0.117       3.522
# 플랫폼 : 2.912       8.945
# model.conf_int(alpha=0.05)
model.conf_int(alpha=0.05)

Unnamed: 0,0,1
Intercept,-50.283684,252.331429
광고비,0.116785,3.522069
플랫폼,2.912406,8.945105


In [17]:
# 광고비 50, 플랫폼 20일때 매출에대한 95% 신뢰구간과 예측구간
newdata = pd.DataFrame({
    '광고비' : [50],
    '플랫폼' : [20]
})
pred = model.get_prediction(newdata)
pred.summary_frame(alpha=0.05)
# 신뢰구간 268.612221	352.52844	
# 예측구간 179.700104	441.440556

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,310.57033,19.887098,268.612221,352.52844,179.700104,441.440556
