### 회귀
* 독립변수가 종속변수에 영향을 미치는지 알아보고자 할 때 사용
* 연속형 변수들에 대해 두 변수 사이의 적합도를 측정
* 단순회귀
    - 하나의 종속변수와 하나의 독립변수 사이의 관계 분석
* 다중회귀
    - 하나의 종속변수와 여러 독립변수 사이의 관계 분석

### Simple Linear Regression(단순 선형 회귀)
![image](images/회귀.png)
>
* 회귀 : 잔차를 최소화 하는 회귀계수를 찾아 최적의 모델 구현
     - 잔차 : 실제값 - 예측값

### 회귀 평가지표
* MSE(Mean Squared Error)(평균 제곱 오차)
    - 예측값과 실제값의 차이에 대한 제곱에 대하여 평균을 낸 값
    - 회귀 문제에서 가장 많이 사용하는 성능 지표
    - 모델을 평가하는 평가 지표로 오차를 나타내는 식이므로 수치가 적을 수록 좋은 모델
    - 다른 모델과 비교해야만 성능이 좋은지 알 수 있다.
* RMSE(Root Mean Squared Error)
    - 0에 가까울수록 좋은 모델
    - MSE에 ROOT를 쒸운 값
* MAE(Mean Absolute Error, 평균 절대 오차)
    - 오차를 나타내는 것으로 값이 낮을 수록 좋다
    - 예측값과 실제값의 차이에 대한 절대값에 대하여 평균을 낸 값
* MAPE(Mean Absolute Percentage Error, 평균 절대 비율 오차)
    - 실제값 대비 예측차이가 얼마나 있는지를 비율(%)로 측정
    - MAE의 단점을 보완한 지표
    - 퍼센트값을 가지며 0에 가까울수록 회귀모형의 성능이 좋다고 해석
* r2(결정계수)
    - 0~1 사이의 값을 표현해 주며 r2의 값이 높을수록 좋다
    - 예측 모델과 실제 모델이 얼마나 강한 상관관계를 가지고 있는지

### 보스턴 주택가격 예측
* 타겟 데이터
    - 1978년 보스턴 주택 가격
    - 506개 타운의 주택 가격 중앙값(단위 1,000달러)
* 특징 데이터
    - CRIM : 범죄율
    - ZM : 25,000평방 피트 당 주거용 토지의 비율
    - INDUS : 비소매상업지역 면적 비율
    - CHAS : 찰스강의 경계에 위치한 경우는 1, 아니면 0(통로가 하천을 향하면1, 아니면 0)
    - NOX : 일산화질소 농도(천만분의 1)
    - RM : 주택당 방수
    - AGE : 1940년 이전에 건축된 주택의 비율
    - DIS : 5개 주요 고용센터까지의 가중거리
    - RAD : 고속도로 접근성 지수
    - TAX : 재산세율
    - PTRATIO : 학생/교사 비율
    - B ; 인구 중 흑인 거주 비율
    - LSTAT : 인구 중 하위 계층 비율

In [1]:
import pandas as pd
from sklearn.datasets import load_boston
import numpy as np
import warnings
warnings.filterwarnings('ignore')

### 데이터 셋 로드

In [2]:
boston = load_boston()
boston

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
         4.9800e+00],
        [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
         9.1400e+00],
        [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
         4.0300e+00],
        ...,
        [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         5.6400e+00],
        [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
         6.4800e+00],
        [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         7.8800e+00]]),
 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
        18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
        15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
        13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
        21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
        35.4, 24.7, 3

In [3]:
df_boston = pd.DataFrame(boston.data, columns=boston.feature_names)
df_boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33


In [4]:
df_boston['PRICE']=boston.target
df_boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,PRICE
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = \
                    train_test_split(df_boston[boston.feature_names],
                                    df_boston['PRICE'],
                                    test_size=0.3,
                                    random_state=62)

### 모델 생성(knn)
* Regressor

In [6]:
from sklearn.neighbors import KNeighborsRegressor

kn = KNeighborsRegressor()
kn.fit( X_train, y_train )


KNeighborsRegressor()

#### 평가

In [7]:
pred = kn.predict( X_test )

In [8]:
from sklearn.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, pred)
r2 = r2_score(y_test, pred)

print('mse : ',mse)
print('r2_score : ',r2)
print('score', kn.score(X_train, y_train))
print('score', kn.score(X_test, y_test))

mse :  39.68836842105264
r2_score :  0.5605193830799897
score 0.6681288054881638
score 0.5605193830799897


### 랜덤포레스트

In [9]:
from sklearn.ensemble import RandomForestRegressor

rfc = RandomForestRegressor()
rfc.fit( X_train, y_train )

RandomForestRegressor()

In [10]:
pred = rfc.predict( X_test )
mse = mean_squared_error( y_test, pred )
r2 = r2_score( y_test, pred )

print("mse : ", mse)
print("r2_score : ", r2)
print("train score : ", rfc.score(X_train, y_train))
print("test score : ", rfc.score(X_test, y_test))

mse :  7.704195085526312
r2_score :  0.9146892516936223
train score :  0.9805655708305386
test score :  0.9146892516936223
