# Linear Regression
다음의 항목들에 대해서 학습합니다.

* 선형회귀(Linear Regression)
* 회귀모델 평가


## 1.환경준비

### (1) Import

In [None]:
#라이브러리들을 불러오자.
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split

import warnings    # 경고메시지 제외
warnings.filterwarnings(action='ignore')

### (2) data loading

In [None]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/boston.csv'
data = pd.read_csv(path)

|	변수	|	설명	|
|	----	|	----	|
|	**medv**	|	**타운별 집값(중위수), target**	|
|	crim	|	범죄율	|
|	zn	|	25,000 평방피트를 초과 거주지역 비율	|
|	indus	|	비소매상업지역 면적 비율, 편의시설(관공서, 주요 시설)	|
|	chas	|	찰스강변 위치(범주 : 강변1, 아니면 0)	|
|	nox	|	일산화질소 농도	|
|	rm	|	주택당 방 수	|
|	age	|	1940년 이전에 건축된 주택의 비율	|
|	dis	|	직업센터의 거리	|
|	rad	|	방사형 고속도로까지의 거리	|
|	tax	|	재산세율	|
|	ptratio	|	학생/교사 비율	|
|	black	|	인구 중 흑인 비율	|
|	lstat	|	인구 중 하위 계층 비율	|


## 2.데이터 이해

### (1) 둘러보기

In [None]:
# 상/하위 몇개 행을 살펴 봅시다.
data.head()

In [None]:
# 각 칼럼의 타입을 살펴 봅시다.
data.info()

## 3.데이터 준비

### (1) 데이터 정리

In [None]:
data.head()

In [None]:
data.drop(['black'], axis = 1, inplace = True)

### (2) 데이터분할1 : x, y 나누기

In [None]:
target = 'medv'
x = data.drop(target, axis=1)
y = data.loc[:, target]

### (3) NA 조치

### (4) 가변수화

### (5) 데이터분할2 : train : validation 나누기

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random_state = 2022)

### (6) Scaling

## 4.모델링 : 단순회귀

### (1)학습할 데이터 준비

* 모델링을 시작하기 전에...
    * 데이터를 살펴보면서, 어떤 변수가 집값을 예측하는데 가장 중요할까요?

* lstat(하위계층 비율)로만 집값(medv)을 예측하는 모델을 만들어 봅시다.

In [None]:
# 학습에 사용할 변수를 지정합니다.
features = ['lstat']

# 지정된 변수로 데이터셋을 만듭니다. 
# 학습과 검증시 아래 데이터셋 이름을 사용합니다.
x_train1 = x_train[features]
x_val1 = x_val[features]

In [None]:
x_train1.head()

### (2) 필요한 함수 불러오기
이 부분은 파일의 제일 첫 부분에서 한꺼번에 수행해도 좋습니다.

In [None]:
# 모델링용
from sklearn.linear_model import LinearRegression

# 회귀모델 평가용
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

### (3) 모델선언

In [None]:
model1 = LinearRegression()

### (4) 모델링(학습)

In [None]:
model1.fit(x_train1, y_train)

* 회귀계수 확인하기

In [None]:
print('회귀계수 : ', model1.coef_)
print('절편 : ', model1.intercept_)

### (5) 검증 : 예측

In [None]:
pred1 = model1.predict(x_val1)

### (6) 검증 : 평가

* 평가용 함수들은 대부분 (실제값, 예측값)

In [None]:
# 평균오차
mean_absolute_error(y_val   , pred1   )

## 5.평가

### (1) 오차의 비로 평가하기 : R2 Score

* 평균 모델의 오차와 회귀모델 오차
    * 평균 모델과 실제 값 과의 차이(SST)
    * 평균 모델과 회귀모델 과의 차이(SSR)
    * 실제 값과 회귀모델 과의 차이(SSE)


In [None]:
# 실제와 예측 데이터 5건씩 저장
tmp_y = y_val[:5]
tmp_p = pred1[:5]

# 실제값의 평균오차 저장
tmp_y_mean = tmp_y.mean()

In [None]:
# SST
sst = np.sum(np.power(tmp_y - tmp_y_mean, 2))

In [None]:
# SSE
sse = np.sum(np.power(tmp_y - tmp_p, 2))

In [None]:
# R2 Score = 1- SSE/SST
1 - (sse/sst)

In [None]:
# 제공된 함수와 비교해 봅시다.
r2_score(tmp_y, tmp_p)

### (2)오차의 양과 율로 평가하기

In [None]:
# MSE
mean_squared_error( y_val   , pred1   ) 

In [None]:
# RMSE
mean_squared_error( y_val   , pred1  , squared = False)

In [None]:
# MAE
mean_absolute_error(y_val   , pred1   )

In [None]:
# MAPE
mean_absolute_percentage_error(y_val   , pred1  )

In [None]:
# 1 - MAPE : 회귀모델의 정확도
1 -  mean_absolute_percentage_error(y_val   , pred1   )

## 6.연습문제
* 모델을 2개 더 만들어 봅시다. 여러분이 중요하다고 생각한 변수로 모델2, 모델3을 만들어 봅시다.
    * model2 : 중요하다고 생각한 변수1  --> medv
    * model3 : 중요하다고 생각한 변수2  --> medv
* 모델1,2,3의 성능을 비교해 봅시다.
* 평가는 RMSE, MAE, MAPE로 사용

### (1) 모델2

In [None]:
# 학습에 사용할 변수를 지정합니다.
features = [    ]
x_train2 = x_train[features]
x_val2 = x_val[features]

### (2) 모델3

In [None]:
# 학습에 사용할 변수를 지정합니다.
features = [    ]
x_train3 = x_train[features]
x_val3 = x_val[features]

## 7.모델링2 : 다중회귀

* 이번에는 다음의 변수로 예측하는 모델을 각각 만들어 봅시다.
    * model4 : lstat + ptratio 
    * model5 : lstat + ptratio + crim
    * model6 : 전체 변수

### (1) 모델4 

### (2) 모델5 

### (3) 모델6

### (4) 성능 비교 평가
지금까지 모델들에 대해서 성능 비교를 해 봅시다.

* 결과를 하나의 데이터프레임으로 저장해서 비교해 봅시다.