In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

# 선형 회귀 분석 실습

### 데이터셋 : House Sales in King County, USA

- 2014년 5월 ~ 2015년 5월까지 King County 주택가격
- 출처: https://www.kaggle.com/harlfoxem/housesalesprediction

![image.png](attachment:image.png)

### 변수 설명

#### 독립변수(X)
- id : 고유한 id 값
- date: 집이 매각된 날짜
- bedrooms: 침실 수 
- bathrooms: 욕실 수
- sqft_living: 집의 평방 피트
- sqft_lot: 부지의 평방 피트
- floors: 집의 총 층 수
- waterfront: 물가가 보이는 집
- condition: 상태가 얼마나 좋은 지 여부
- grade: 주택에 부여되는 등급
- sqft_above: 지하실을 제외한 집의 평방 피트
- sqft_basement: 지하실의 평방 피트
- yr_built: 지어진 연도
- yr_renovated: 리모델링된 연도
- lat: 위도 좌표
- long: 경도 좌표
- sqft_living15: 2015년 당시 거실 면적(일부 개조를 의미하고, 부지 면적에 영향을 미칠 수도 있고 아닐 수도 있음)
- sqft_lot15: 2015년 당시 부지 면적(일부 개조를 의미함)

#### 종속변수(y)
- price: 주택 가격

### 데이터 전처리

#### 데이터 불러오기

#### 결측치 확인

### 탐색적 데이터 분석(EDA)

#### 기술통계 살펴보기

#### 종속변수(price)의 데이터 분포도 확인

#### 데이터 타입 분류

#### date 데이터 처리
- date: 4자리 수치형으로 변경

#### 새로운 변수 추가
- sold-built_years: date - yr_built

### 시각화를 통해 데이터 특징 파악

#### 변수별 분포(히스토그램)

### 산점도(Scatter plot)
- 종속변수(price)와 선형관계가 있을 것 같은 독립변수들을 몇개 추려서 산점도 그래프를 그려보겠습니다.

### 히트맵(Heatmap) - 상관관계 분석

# statsmodels를 이용한 회귀분석

- https://www.statsmodels.org/stable/index.html
- https://www.statsmodels.org/stable/api.html#regression

## 단순 선형 회귀

- 독립변수(X): sqft_living(집의 평방피트)
- 종속변수(y): price(가격)

#### 시각화

#### OLS model fit

분석결과의 주요 항목별 내용

- Dep. Variable: 종속변수(Target)
- Model : 학습모델 / OLS(Ordinary Least Square)
- Method : Least Squares / 잔차제곱합을 최소로 하는 파라미터 선택
- No.Observations : 데이터셋 크기
- Df Residuals :데이터셋크기에서 추정된 파라미터 수를 뺀 수
- Df Model : 독립변수 수
- Covariance Type : 공분산 종류(디폴트: nonrobust)
- R-squared : 결정계수, 모델의 설명력(0~1)
- Adj. R-Squared : 조정된 결정계수
- Std. Error : 계수의 표준오차
- F-statistic : F값
- Prob (F-statistic) : F값에 대한 p-value(모델 유의성 검정)
- Log-Likelihood : 최대 로그 우도
- AIC : Akaike's Information Criterion. 모델의 성능지표로 작을수록 좋은 모델
- BIC : Schwarz 베이지안 기준, AIC 수정
- Coef : 계수값
- P|t| : 계수 유의성 검정을 위한 p값
- Omnibus : 디아고스티노(D'Angostino's) 검정, 비대칭도와 첨도를 결합한 정규성 검정. 클수록 정규분포를 따름
- Prob(Omnnibus) : 디아고스티노(D'Angostino's) 검정에 대한 p값
- Skew : 왜도. 0에 가까울수록 대칭 (잔차들의 대칭여부)
- Kurtosis : 3에 가까울수록 정규분포 (음수이면 평평한 형태)
- Durbin-Watson : 잔차의 독립성 여부 판단
    - 1.5 ~2.5 사이일 때 독립적, 4에 가까울수록 자기상관을 가짐
- Jarque-Bera : 정규성 검정. 값이 클수록 정규분포를 따름
- Cond. No : 다중공선성 검정. 독립변수간 상관관계가 있는지 검정. 10이상이면 다중공선성이 있다고 판단

#### 추정된 절편과 회귀계수

-----

## 회귀모형의 가정 진단

- 모형의 선형성
- 잔차의 정규성
- 잔차의 등분산성
- 잔차의 독립성

#### 잔차 확인

- 잔차(residual): 실제 타겟값과 모델을 통해 추정한 값의 차이
    - $ e = y - \hat{y} $

#### 모형의 선형성(linearity)

- 독립변수와 종속변수의 산점도, 상관계수
- 해결 방안 : 변수변환, 비선형 모형 적합

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 잔차의 정규성

- 잔차가 정규분포를 따르는지 검정
- Q-Q plot : y=x 직선 위에 놓이는지 확인
- 첨도, 왜도, 정규성검정(Shapiro-Wilk / KS test)
- 해결방안 : 변수변환, 새로운 변수 추가, 모형 수정

![image.png](attachment:image.png)

#### 잔차의 등분산성

- 잔차의 분산이 동일한지 검정
- 예측값과 잔차에 대한 산점도를 확인
- 어떤 패턴을 띠지 않아야 함
- 해결방안 : 변수변환, 가중회귀분석

![image-2.png](attachment:image-2.png)

#### 잔차의 독립성

- 잔차들이 상관성이 있는지 확인
- 잔차를 시계열로 가정하여 자기상관계수를 구하여 진단
- 더빗왓슨(DW) 검정 : 0이면 양의 자기상관, 2이면 독립, 4이상이면 음의 자기상관을 가진다고 해석
- 잔차그래프, ACF(Auto Correlation Function) 그래프
- 해결방안 : ARIMA와 같은 시계열모형을 이용

![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### 예측값과 잔차의 산점도

![image.png](attachment:image.png)

#### 정규성 검정

- Q-Q 플롯

- 잔차 패턴 확인

- 샤피로-윌크 검정(Shapiro–Wilk test)

#### 독립성 검정

- 잔차 그래프

- ACF(Auto-Correlation Function)

#### 등분산성

- 잔차그래프

----

## 다중 선형 회귀

1. 모든 독립변수(id 제외)를 사용해서 다중 선형 회귀 분석
2. 선별한 독립변수들(bedrooms, sqft_living, waterfront, view, sold-built_years)로 다중 선형 회귀 분석

### 모든 독립변수(id 제외)를 사용하여 회귀분석 수행

#### 데이터 준비

#### 다중 회귀 모델 적합

#### 다중공선성(Multicollinearity)

- 모든 변수에 대하여 다중공선성 확인
- VIF(Variance Inflation Factor) : 분산팽창요인
    - $ VIF = {1 \over {1- R^2 }} $
    - VIF가 10이 넘으면 다중공선성 있다고 판단하며 5가 넘으면 주의할 필요가 있는 것으로 봄

- https://www.statsmodels.org/stable/generated/statsmodels.stats.outliers_influence.variance_inflation_factor.html
- https://en.wikipedia.org/wiki/Variance_inflation_factor

### 선별된 독립변수들을 사용한 다중 선형회귀

- 종속변수(price)는 로그변환
- 독립변수
    - bedrooms (연속형)
    - sqrt_living (연속형)
    - waterfront (범주형)
    - view (범주형)
    - sold-built_years: date - yr_built

#### 회귀모델 적합

#### 다중공선성 확인

#### 회귀모형의 가정 진단

#### 정규성 검정

- Q-Q 플롯

- 잔차 패턴 확인

- 샤피로-윌크 검정(Shapiro–Wilk test)

#### 독립성 검정

- 잔차 그래프

- ACF(Auto-Correlation Function)

#### 등분산성

- 잔차그래프

--------------