# 다중 선형 회귀 분석
다중 선형 회귀 분석은 여러 개의 독립 변수(설명 변수)를 사용하여 하나의 종속 변수(반응 변수)를 예측하는 통계적 기법입니다.

## 다중 선형 회귀의 주요 가정
* 선형성(Linearity): 독립 변수와 종속 변수 간의 관계가 선형적이다.
* 독립성(Independence): 오차 항들이 서로 독립적이어야 한다.
* 등분산성(Homoscedasticity): 오차 항의 분산이 일정해야 한다.
* 정규성(Normality): 오차 항이 정규 분포를 따른다.
* 다중공선성(Multicollinearity): 독립 변수들 간에 높은 상관관계가 없어야 한다.

In [1]:
import pandas as pd
data = {
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '직원수': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50]
    }
df = pd.DataFrame(data)
df

Unnamed: 0,매출액,광고비,직원수
0,300,70,15
1,320,75,16
2,250,30,14
3,360,80,20
4,315,72,19
5,328,77,17
6,310,70,16
7,335,82,19
8,326,70,15
9,280,80,20


In [4]:
from statsmodels.formula.api import ols
model = ols("매출액 ~ 광고비 + 직원수", data = df).fit()      # 이거에 대해 적합한 모델 확인 가능
print(model.summary())

#회귀식 y = 1.8194x1 + 5.9288x2 + b

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Mon, 24 Feb 2025   Prob (F-statistic):            0.00226
Time:                        09:04:50   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

* 기울기와 절편  -  params

In [5]:
model.params

Intercept    101.023872
광고비            1.819427
직원수            5.928756
dtype: float64

* 예측하기  -  predict

In [8]:
new = pd.DataFrame({"광고비" : [50], "직원수" : [20]})
model.predict(new)

# 광고비가 50이고 직원수가 20일때 값이 310 정도일 것이라고 예측해줌 

0    310.57033
dtype: float64

In [11]:
pred = model.get_prediction(new)
pred.summary_frame(alpha = 0.05)

# 실제 모집단의 평균이 (268.612221, 352.52844) 사이에 있을 것
# 새로운 관측값이 (179.700104, 441.440556) 사이에 포함되어 있을 확률이 95%이다 

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,310.57033,19.887098,268.612221,352.52844,179.700104,441.440556


## 범주형 변수

In [13]:
import pandas as pd
import statsmodels.api as sm

df = pd.read_csv("Data/study.csv")
df

Unnamed: 0,study_hours,material_type,score
0,71,강의,95
1,34,독학,63
2,91,도서,95
3,80,독학,80
4,40,강의,79
...,...,...,...
95,54,독학,68
96,54,독학,68
97,52,독학,75
98,24,독학,53


In [14]:
from statsmodels.formula.api import ols
model = ols("score ~ study_hours + material_type", data = df).fit()
print(model.summary())

# 범주형 데이터에 대해서도 해석방법은 동일
# R-squared: 예측값이 실제값을 97% 만큼 설명한다
# p-value: 통계적으로 유의미하다 

                            OLS Regression Results                            
Dep. Variable:                  score   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     991.9
Date:                Mon, 24 Feb 2025   Prob (F-statistic):           4.42e-72
Time:                        09:14:40   Log-Likelihood:                -238.89
No. Observations:                 100   AIC:                             485.8
Df Residuals:                      96   BIC:                             496.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
Intercept              59.2111    

* 원핫 인코딩

In [16]:
pd.get_dummies(df, drop_first=True)

# 더미형 테이터를 숫자형으로 만들어준다 (범주형X)
# True: 1,  False: 0

# 독립변수 간 상관관계가 있다 => 다중공산성 문제 있을수도 ; drop_first로 하나를 없앰 

Unnamed: 0,study_hours,score,material_type_도서,material_type_독학
0,71,95,False,False
1,34,63,False,True
2,91,95,True,False
3,80,80,False,True
4,40,79,False,False
...,...,...,...,...
95,54,68,False,True
96,54,68,False,True
97,52,75,False,True
98,24,53,False,True
