#### 회귀 분석
- 수치형 변수 간의 관계 또는 Input(원인)과 Output(결과) 간의 관계를 추정하거나 예측하는 사용

##### 상관계수 검정
- 두 변수 간의 선형적 관계를 확인하는 방법
- 두 변수 간의 연관성 정도를 강도와 방향으로 측정

In [2]:
# -1 <= r <= 1
    # 1에 가까울 수록 강한 양의 선형 관계
    # 0에 가까울 수록 약한 선형 관계
    # -1에 가까울 수록 강한 음의 선형 관계
    
# 선형관계는 pandas의 corr()로 계산
    # pandas.DataFrame.corr(method='pearson', numeric_only=False)
        # method = 'preason' : 피어슨 (기본값)
        # method = 'kendall' : 켄달의 타우
        # method = 'spearman' : 스피어만

In [3]:
# 학생들의 키와 몸무게 데이터로 상관 계수 구하기

import pandas as pd

# 주어진 데이터
data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

df.corr()

Unnamed: 0,키,몸무게
키,1.0,0.919509
몸무게,0.919509,1.0


In [4]:
# 혹은 두 변수에 대한 상관 관계만 구할 수도 있다
df['키'].corr(df['몸무게'])

0.9195090879163765

In [5]:
# method 바꿔서 해보기

display(df.corr(method='pearson'))
display(df.corr(method='spearman'))
display(df.corr(method='kendall'))

Unnamed: 0,키,몸무게
키,1.0,0.919509
몸무게,0.919509,1.0


Unnamed: 0,키,몸무게
키,1.0,0.9
몸무게,0.9,1.0


Unnamed: 0,키,몸무게
키,1.0,0.8
몸무게,0.8,1.0


In [6]:
# 상관계수와 t-검정 결과 확인하기
from scipy.stats import pearsonr, spearmanr, kendalltau

data = {
    '키': [150, 160, 170, 175, 165],
    '몸무게': [42, 50, 70, 64, 56]
}
df = pd.DataFrame(data)

# 가설 설정
    # 귀무 가설: 두 변수는 선형적 관계가 없다.
    # 대립 가설: 두 변수는 선형적 관계가 있다.
    
print(pearsonr(df['키'], df['몸무게']))
# PearsonRResult(statistic=0.9195090879163766, pvalue=0.02707945689558947)
# statistic 이 상관계수, 뒤가 p값
print(spearmanr(df['키'], df['몸무게']))
# SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)
print(kendalltau(df['키'], df['몸무게']))
# SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)

# 모두 0.05 보다 작은 p값으로 키와 몸무게는 선형적 관계가 있다.
# 상관계수는 statistic 값

PearsonRResult(statistic=0.9195090879163766, pvalue=0.02707945689558947)
SignificanceResult(statistic=0.8999999999999998, pvalue=0.03738607346849874)
SignificanceResult(statistic=0.7999999999999999, pvalue=0.08333333333333333)


##### 단순 선형 회귀 분석
- 하나의 독립변수로부터 하나의 종속변수와의 관계를 분석, 예측하는 방법
- '키워드 광고를 많이 하면 판매량이 어떻게 변할까?'
  - 키워드 광고 > 독립 변수
  - 판매량 > 종속 변수

In [7]:
# 키, 몸무게 데이터로 진행
import pandas as pd
data = {
    '키': [150, 160, 170, 175, 165, 155, 172, 168, 174, 158,
          162, 173, 156, 159, 167, 163, 171, 169, 176, 161],
    '몸무게': [42, 50, 70, 64, 56, 48, 68, 60, 65, 52,
            54, 67, 49, 51, 58, 55, 69, 61, 66, 53]
}
df = pd.DataFrame(data)

In [8]:
# 최소제곱법을 지표로 하는 단순 선형 회귀 모델을 ols로 만들 수 있다.
from statsmodels.formula.api import ols
model = ols("키 ~몸무게", df).fit()
# 요약을 출력할 수 있다.
print(model.summary())

# 결과 해석
    # 몸무게의 기울기(몸무게 - coef): 0.8658
    # 절편의 기울기(Intercept - coef): 115.0676
    # 결정계수(R2): R-suqared 0.892
    # 몸무게의 p-value: (몸무게 - P>|t): 0.000 (0에 아주가까운 값)

                            OLS Regression Results                            
Dep. Variable:                      키   R-squared:                       0.892
Model:                            OLS   Adj. R-squared:                  0.886
Method:                 Least Squares   F-statistic:                     148.0
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           4.04e-10
Time:                        21:46:05   Log-Likelihood:                -45.761
No. Observations:                  20   AIC:                             95.52
Df Residuals:                      18   BIC:                             97.51
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    115.0676      4.158     27.671      0.0

In [9]:
# 원하는 결과만 출력하기

# 회귀 모델의 결정 계수(R2) - rsquared
print('결정 계수', model.rsquared)
print('-'*50)

# 회귀 모델의 회귀 계수 (기울기와 절편) - model.params
    # Intercept    115.067639 > 절편
    # 몸무게            0.865844 > 기울기
print('기울기', model.params['몸무게'])
print('절편', model.params['Intercept'])
print('-'*50)

# 회귀 모델에서 몸무게의 회귀 계수가 통계적으로 유의한지 검정했을 때는 p-value - model.pvalues
print('pvalue:', model.pvalues['몸무게'])
print('-'*50)

결정 계수 0.8915914350087261
--------------------------------------------------
기울기 0.8658438852380184
절편 115.06763904471866
--------------------------------------------------
pvalue: 4.03793255993052e-10
--------------------------------------------------


In [10]:
# 예측하기

# 회귀 모델에 몸무게가 67일 때의 예측키 구하기
print(model.predict(pd.DataFrame({'몸무게':[67]}))[0])
print('-'*50)

173.0791793556659
--------------------------------------------------


In [11]:
# 평가 지표 계산하기

# 회귀 모델의 잔차 제곱합 구하기
df['잔차'] = df['키'] - model.predict(df)
display(df.head(3))
print('잔차제곱합:', sum(df['잔차']**2))

# MSE(mean squared error) 구하기 = 잔차의 제곱의 평균
print('Mean squared error:', (df['잔차']**2).mean())

# MES 라이브러리 사용하기
from sklearn.metrics import mean_squared_error
mean_squared_error(df['키'], model.predict(df))

Unnamed: 0,키,몸무게,잔차
0,150,42,-1.433082
1,160,50,1.640167
2,170,70,-5.676711


잔차제곱합: 113.74226638884456
Mean squared error: 5.687113319442227


5.687113319442227

In [12]:
# 심화

# 몸무게의 95% 신뢰 구간을 구하기
    # 신뢰 구간은 model.conf_int(alpha = 유의수준)으로 확인
display(model.conf_int(alpha=0.05))
print(model.conf_int(alpha=0.05).loc['몸무게'])

# 몸무게가 50일 때의 예측 키의 신뢰 구간과 예측 구간 
    # model.get_prediction(새로운 인풋).summary_frame(alpha)으로 확인
model.get_prediction({'몸무게':[50]}).summary_frame(alpha=0.05)

Unnamed: 0,0,1
Intercept,106.330992,123.804286
몸무게,0.716337,1.015351


0    0.716337
1    1.015351
Name: 몸무게, dtype: float64


Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,158.359833,0.794986,156.68963,160.030037,152.820798,163.898869


##### 다중 선형 회귀 분석
- 2개 이상의 독립변수와 하나의 종속변수 간의 관계를 분석

In [13]:
# 독립 변수: 광고비, 직원수
# 종속 변수: 매출액                 에 대한 관계 분석
import pandas as pd
data = {
    '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280,
            290, 300, 315, 328, 310, 335, 300, 400, 500, 600],
    '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80,
            68, 90, 72, 77, 70, 82, 40, 20, 75, 80],
    '직원수': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20,
            14, 5, 16, 17, 16, 14, 30, 40, 10, 50]
    }
df = pd.DataFrame(data)
print(df.head(3))

   매출액  광고비  직원수
0  300   70   15
1  320   75   16
2  250   30   14


In [14]:
# 문제1 | 최소제곱법을 이용한 다중 선형 회귀 모델을 구축하고 통계적 요약을 출력
from statsmodels.formula.api import ols
model = ols("매출액 ~ 광고비 + 직원수", df).fit()
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                    매출액   R-squared:                       0.512
Model:                            OLS   Adj. R-squared:                  0.454
Method:                 Least Squares   F-statistic:                     8.907
Date:                Thu, 28 Nov 2024   Prob (F-statistic):            0.00226
Time:                        21:46:05   Log-Likelihood:                -108.22
No. Observations:                  20   AIC:                             222.4
Df Residuals:                      17   BIC:                             225.4
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    101.0239     71.716      1.409      0.1

In [15]:
# 문제2 | 광고비와 매출액의 상관 계수
    # 그냥 상관계수라면 >> pd corr() 사용하면 됨
df['광고비'].corr(df['매출액'])

0.13316981737040343

In [16]:
# 문제3 | 광고비와 매출액의 t검정의 p value 구하기
    # t-검정의 p-value의 경우 scipy.stats.pearsonr을 사용
from scipy.stats import pearsonr
print(pearsonr(df['광고비'], df['매출액']))
pearsonr(df['광고비'], df['매출액'])[1]

PearsonRResult(statistic=0.13316981737040345, pvalue=0.5756778801904271)


0.5756778801904271

In [17]:
# 문제4 | 회귀모델의 결정계수
    # r2 는 model.rsquared
model.rsquared

0.5116964327009044

In [18]:
# 문제5 | 회귀 모델에서 회귀 계수(기울기와 절편)을 구하기
    # model.params를 이용
print(model.params)
# Intercept : 절편
# 광고비(독립변수1): 독립변수1의 기울기
# 직원수(독립변수2): 독립변수2의 기울기

print(model.params['Intercept'])
print(model.params['광고비'])
print(model.params['직원수'])

Intercept    101.023872
광고비            1.819427
직원수            5.928756
dtype: float64
101.02387228241548
1.8194269419344615
5.928755546950754


In [19]:
# 문제6 | 회귀 모델에서 광고비의 회귀 계수가 통계적으로 유의한지 검정했을 때의 p-value
    # 특정 독립변수의 p-value는 model.pvalues['독립변수']
model.pvalues['광고비']

0.037643506476960256

In [20]:
# 문제7 | 광고비 50, 직원 수 20인 데이터에 대한 매출액 예상
    # model.predict(new_df) 이용
model.predict(pd.DataFrame({'광고비':[50],
                            '직원수':[20]}))[0]

310.57033031815365

In [21]:
# 문제8 | 회귀 모델의 잔차의 제곱합 구하기
df['잔차'] = df['매출액'] - model.predict(df)
sum(df['잔차']**2)

58686.17827156106

In [22]:
# 문제9 | 회귀 모델의 MSE 구하기
    # mean squared error 잔차 제곱의 평균
(df['잔차']**2).mean()

2934.3089135780533

In [23]:
# 문제10 | 각 변수별 95%의 신뢰 구간 구하기
    # model.conf_int(alpha) 이용
print(model.conf_int(alpha=0.05).loc['광고비'])
print(model.conf_int(alpha=0.05).loc['직원수'])

0    0.116785
1    3.522069
Name: 광고비, dtype: float64
0    2.912406
1    8.945105
Name: 직원수, dtype: float64


In [26]:
# 문제11 | 광고비 45, 직원수 22 일 때 95% 신뢰 구간과 예측 구간을 구하기
    # 새로운 데이터에 대한 신뢰구간과 예측구간은 get_prediction(new_input).summary_frame(alpha)
    # mean_ci_lower 신뢰구간 / obs_ci_upper 예측 구간
model.get_prediction(pd.DataFrame({'광고비':[45], '직원수':[22]})).summary_frame(alpha=0.05)

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,313.330707,22.502058,265.855514,360.8059,180.58875,446.072663


##### 범주형 변수
- 회귀 분석에서 범주형 변수 사용하기
- 통상적으로 원핫 인코딩을 이용해 수치화하고 사용

In [28]:
# 범주형 변수 자동 원-핫 인코딩하기
    # statsmodels 의 ols는 자동으로 범주형 데이터를 원핫 인코딩 처리해준다.
    
df = pd.read_csv("study.csv")
df

# material_type 이 범주형인 데이터

Unnamed: 0,study_hours,material_type,score
0,71,강의,95
1,34,독학,63
2,91,도서,95
3,80,독학,80
4,40,강의,79
...,...,...,...
95,54,독학,68
96,54,독학,68
97,52,독학,75
98,24,독학,53


In [35]:
# 회귀 모델 생성

# C(독립변수)를 하지 않아도 자동으로 처리해준다.
    # 하지만 C()붙이는 편이 더 안전하다고 생각..
from statsmodels.formula.api import ols
model = ols("score ~ material_type + study_hours", df).fit()
print(model.summary())

# 결과에서
    # 강의 > Intercept
    # 도서
    # 독학

                            OLS Regression Results                            
Dep. Variable:                  score   R-squared:                       0.969
Model:                            OLS   Adj. R-squared:                  0.968
Method:                 Least Squares   F-statistic:                     991.9
Date:                Thu, 28 Nov 2024   Prob (F-statistic):           4.42e-72
Time:                        21:55:03   Log-Likelihood:                -238.89
No. Observations:                 100   AIC:                             485.8
Df Residuals:                      96   BIC:                             496.2
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                          coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------------
Intercept              59.2111    