# 회귀분석

## 변수 유형별 분석 방법 

![image.png](attachment:image.png)


## 회귀분석 개념

- 하나 혹은 그 이상의 원인이 종속변수에 미치는 영향을 추적하여 식으로 표현하는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여 관심있는 변수를 예측하거나 추론하기 위해 사용하는 분석 방법
- 독립변수의 개수가 하나인 경우 <b>단순선형회귀분석</b>, 독립변수의 개수가 두 개 이상이면 <b>다중선형회귀분석</b>으로 분석함


## 단순선형회귀분석

<b>하나의 독립변수</b>가 종속변수에 미치는 영향을 추정할 수 있는 통계기법

![image-2.png](attachment:image-2.png)
<br>
<br>

### 선형회귀분석의 가정

- 독립변수와 종속변수 간의 선형성 (선형회귀분석에서 가장 중요한 가정)<br>
- 오차의 정규성 : 오차의 분포가 정규분포를 만족해야 함 <b>Q-Q plot</b>, <b>Shapiro-Wilk</b>검정 등을 활용하여 정규성 확인<br>

- 오차의 등분산성 : 오차의 분산은 독립변수 값과 무관하게 일정해야 함 <br>   
- 오차의 독립성 : 예측값의 변화에 따라 오차항이 특정한 패턴을 가지면 안 됨 <br> 
  Durbin-Watson 통계량이 2에 가까우면 독립성을 만족 <br>
  Durbin-Watson 통계량이 0에 가까우면 오차항 간에 양의 상관관계가 존재<br> 
  Durbin-Watson 통계량이 4에 가까우면 오차항 간에 음의 상관관계가 존재 <br>
<br>

<br>

![image.png](attachment:image.png)


### 회귀분석 시 검토사항

&emsp;F 통계량 : 모델 또는 모델 성분의 유의성을 검정하는 분산분석(ANOVA) 방식에 대한 검정 통계량



- <b>1) 모형이 데이터를 잘 적합하고 있는가</b> : 모형의 잔차를 그리고 <span style='color: #CD5C5C'>회귀진단</span>을 수행해 판단함<br><br>
- <b>2) 회귀모형이 통계적으로 유의한가</b> : 
    - 회귀분석의 결과로 산출되는 <span style='color: #CD5C5C'>F-통계량</span>의 p-value가 유의수준(a)보다 작으면 회귀식이 통계적으로 유의하다고 볼 수 있음<br>
    - H0 : 회귀모형은 유의하지 않다 (𝛽 = 0)<br>H1 : 회귀모형은 유의하다 ( 𝛽는 0이 아니다)<br><br>
- <b>3) 모형은 데이터를 얼마나 설명할 수 있는가</b> : <span style='color: #CD5C5C'>결정계수</span>(R-square)를 확인함
    - 결정계수는 0~1의 값을 가짐
    - 추정된 회귀식이 전체 데이터에서 설명할 수 있는 데이터의 비율을 의미함 (높을수록 높은 설명력)
    - 다변량 회귀분석의 경우 포함된 독립변수의 유의성에 관계없이 독립변수의 수가 많아지면 결정계수가 높아지는 경향을 보임<br>
        이를 보완하기 위해 수정된 결정계수(adjusted R square)를 활용하여 모형의 설명력을 판단함<br><br>
- <b>4) 모형 내의 회귀계수가 유의한가</b> : 회귀계수에 대한 <span style='color: #CD5C5C'>t통계량</span>의 p-value가 0.05보다 작으면 회귀계수가 통계적으로 유의하다고 볼 수 있음
<br><br>

#### statsmodels를 이용한 방법

> ols('y ~ x',data=df).fit()

<br>

- 모델.summary() : 적합 결과를 요약하여 제시함
- 모델.params : 변수의 회귀계수 (또는 y절편값) 
- 모델.resid : 잔차
- 모델.predict(X) : 새로운 데이터에 대한 예측값 


<b>[예제]</b>

kc_house_data 데이터의 sqft_living(주거공간의 평방 피트)를 독립변수, price를 종속변수로 설정하여 단순 선형 회귀분석을 실시한 후, 추정된 회귀모형에 대해 해석하라

In [1]:
import pandas as pd
import numpy as np
house = pd.read_csv('./data/kc_house_data.csv')

In [2]:
# 단순선형회귀에서는 하나의 독립변수만 필요
house = house[['price', 'sqft_living']]

In [None]:
house.corr()