In [None]:
# 모듈 임포트
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import warnings
warnings.filterwarnings('ignore')

### 회귀분석의 목적

|설명모형|예측모형|
|---|---|
|전통적인 통계분야로서 데이터가 적은 모형|데이터마이닝 분야로서 데이터가 충분한 모형|
| ${\hat y} = \beta_1 X + \beta_0 $ 에서 $X$ 에 초점을 둠|  ${\hat y} = \beta_1 X + \beta_0 $ 에서 $\hat y$ 에 초점을 둠|
|종속(타깃,출력)변수와 독립(피처,예측)변수들간의 관계를 **설명**|새로운 사례에 대해 출력값을 **예측**<br>적합된 모형을 이용하여 알려지지 않은 데이터에 대한 **예측**|
|모집단에서 가정하는 가설적 관계에 대한 정보를 <br> 최대한 반영할 수 있도록 전체 데이터 집합 사용하여 최상의 적합모형 추정|학습용 데이터세트(모형 추정)와 평가용 데이터세트(모형 성능평가)로 나눔|

---

## LinearRegression을 이용한 주택 가격 예측

### 데이터셋 : House Sales in King County, USA

- 2014년 5월 ~ 2015년 5월까지 King County 주택가격
- kc_house_data.csv
- 출처: https://www.kaggle.com/harlfoxem/housesalesprediction

### 데이터 준비

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('kc_house_data.csv')
df.head(3)

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062


In [3]:
df.isna().sum()

id               0
date             0
price            0
bedrooms         0
bathrooms        0
sqft_living      0
sqft_lot         0
floors           0
waterfront       0
view             0
condition        0
grade            0
sqft_above       0
sqft_basement    0
yr_built         0
yr_renovated     0
zipcode          0
lat              0
long             0
sqft_living15    0
sqft_lot15       0
dtype: int64

In [7]:
df.drop(columns='id').describe().style.background_gradient(cmap='Blues')

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
count,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0,21613.0
mean,540088.141767,3.370842,2.114757,2079.899736,15106.967566,1.494309,0.007542,0.234303,3.40943,7.656873,1788.390691,291.509045,1971.005136,84.402258,98077.939805,47.560053,-122.213896,1986.552492,12768.455652
std,367127.196483,0.930062,0.770163,918.440897,41420.511515,0.539989,0.086517,0.766318,0.650743,1.175459,828.090978,442.575043,29.373411,401.67924,53.505026,0.138564,0.140828,685.391304,27304.179631
min,75000.0,0.0,0.0,290.0,520.0,1.0,0.0,0.0,1.0,1.0,290.0,0.0,1900.0,0.0,98001.0,47.1559,-122.519,399.0,651.0
25%,321950.0,3.0,1.75,1427.0,5040.0,1.0,0.0,0.0,3.0,7.0,1190.0,0.0,1951.0,0.0,98033.0,47.471,-122.328,1490.0,5100.0
50%,450000.0,3.0,2.25,1910.0,7618.0,1.5,0.0,0.0,3.0,7.0,1560.0,0.0,1975.0,0.0,98065.0,47.5718,-122.23,1840.0,7620.0
75%,645000.0,4.0,2.5,2550.0,10688.0,2.0,0.0,0.0,4.0,8.0,2210.0,560.0,1997.0,0.0,98118.0,47.678,-122.125,2360.0,10083.0
max,7700000.0,33.0,8.0,13540.0,1651359.0,3.5,1.0,4.0,5.0,13.0,9410.0,4820.0,2015.0,2015.0,98199.0,47.7776,-121.315,6210.0,871200.0


### 데이터 탐색 및 전처리

In [14]:
df.dtypes

id                 int64
date              object
price            float64
bedrooms           int64
bathrooms        float64
sqft_living        int64
sqft_lot           int64
floors           float64
waterfront         int64
view               int64
condition          int64
grade              int64
sqft_above         int64
sqft_basement      int64
yr_built           int64
yr_renovated       int64
zipcode            int64
lat              float64
long             float64
sqft_living15      int64
sqft_lot15         int64
dtype: object

#### 데이터 전처리 함수

#### 변수별 히스토그램

#### 상관관계 히트맵

#### 주택가격과 상관관계

#### 주요 피처와 주택가격과의 관계(산점도, regplot)

#### 주택가격 예측에 영향이 작은 변수 삭제 

- price와 상관관계가 매우 약한(corr<0.2) 변수들 

- 'sqft_living'과 상관관계가 강한 변수들
    
- 'sold-built_years'를 도출한 변수들
  

##### 데이터 변환 함수 수정

### 선형 회귀 모델 학습/예측/평가

#### 회귀 모델의 절편, 회귀계수

#### 회귀계수를 큰 값 순으로 정렬

#### 회귀계수 시각화

#### 회귀계수 출력 및 시각화 함수 작성

#### 실제값과 예측값과의 차이

In [None]:
get_residual(y_test, y_pred)

### 교차 검증으로 MSE와 RMSE 측정

cross_val_score() 이용

-------

### 주택가격 price를 로그변환하여 회귀분석 진행 

#### 주택가격 price 분포

#### 로그변환된 price 분포

#### 모델 성능 평가 RMSLE(Root Mean Square Log Error)를 위한 함수 작성

- 오류 값의 로그에 대한 RMSE

#### RMSE 함수 작성

#### 회귀모델 성능 평가를 위한 함수 작성

- MSE, RMSE, RMSLE, MAE, R2 계산

#### 로그변환된 주택가격 회귀모델 학습 및 평가

#### 실제값과 예측값과의 차이

#### 회귀계수 

#### 회귀모델 학습 및 평가 수치 반환 함수 작성

------

### 범주형 변수 원한인코딩 후 회귀분석 진행

#### 범주형 변수 원핫인코딩

- waterfront, view

#### 로그변환, 원핫인코딩한 데이터로 회귀모델 예측

#### 회귀계수 

-------------------------------------------------