In [1]:
""" sklearn """
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt
import numpy as np

In [2]:
# sklearn 에 boston 데이터 set 이 있다.
boston = load_boston()
print(boston["DESCR"])

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

In [3]:
# col 들
boston.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR'])

In [4]:
# sklearn 에서 fitting 을 시켜줄 때 반드시 2-dimensional-array 로 만들어줘야 함
# >> 따라서 y_data 는 reshape 한다.
x_data = boston.data
y_data = boston.target.reshape(boston.target.size, 1)

x_data[:3]

array([[6.3200e-03, 1.8000e+01, 2.3100e+00, 0.0000e+00, 5.3800e-01,
        6.5750e+00, 6.5200e+01, 4.0900e+00, 1.0000e+00, 2.9600e+02,
        1.5300e+01, 3.9690e+02, 4.9800e+00],
       [2.7310e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        6.4210e+00, 7.8900e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9690e+02, 9.1400e+00],
       [2.7290e-02, 0.0000e+00, 7.0700e+00, 0.0000e+00, 4.6900e-01,
        7.1850e+00, 6.1100e+01, 4.9671e+00, 2.0000e+00, 2.4200e+02,
        1.7800e+01, 3.9283e+02, 4.0300e+00]])

In [5]:
# min-max scaler 를 사용해서 x date 를 min-max scaling 해준다.
# >> 모두 0 과 1 사이의 값으로 변환하게 된다.
from sklearn import preprocessing

minmax_scale = preprocessing.MinMaxScaler().fit(x_data)
x_scaled_data = minmax_scale.transform(x_data)

x_scaled_data[:3]

array([[0.00000000e+00, 1.80000000e-01, 6.78152493e-02, 0.00000000e+00,
        3.14814815e-01, 5.77505269e-01, 6.41606591e-01, 2.69203139e-01,
        0.00000000e+00, 2.08015267e-01, 2.87234043e-01, 1.00000000e+00,
        8.96799117e-02],
       [2.35922539e-04, 0.00000000e+00, 2.42302053e-01, 0.00000000e+00,
        1.72839506e-01, 5.47997701e-01, 7.82698249e-01, 3.48961980e-01,
        4.34782609e-02, 1.04961832e-01, 5.53191489e-01, 1.00000000e+00,
        2.04470199e-01],
       [2.35697744e-04, 0.00000000e+00, 2.42302053e-01, 0.00000000e+00,
        1.72839506e-01, 6.94385898e-01, 5.99382080e-01, 3.48961980e-01,
        4.34782609e-02, 1.04961832e-01, 5.53191489e-01, 9.89737254e-01,
        6.34657837e-02]])

In [6]:
""" Linear Regression with sklearn """

# Linear Regression 을 사용하기 전에, 
# Training data set 과 Test data set 을 나눠줘야 한다. (sampling 작업)
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = \
    train_test_split(x_scaled_data, y_data, test_size=0.2)  # test_size 는 전체 data 중 test data set 이 차지하는 비율이다.

In [7]:
X_train, len(X_train)

(array([[5.46824386e-02, 0.00000000e+00, 6.46627566e-01, ...,
         8.08510638e-01, 9.98260124e-01, 4.67715232e-01],
        [2.95673097e-03, 0.00000000e+00, 3.46041056e-01, ...,
         6.17021277e-01, 9.91149327e-01, 1.70253863e-01],
        [7.51939870e-05, 3.50000000e-01, 3.88563050e-02, ...,
         3.08510638e-01, 9.94553432e-01, 1.03752759e-01],
        ...,
        [2.11360069e-01, 0.00000000e+00, 6.46627566e-01, ...,
         8.08510638e-01, 7.17887942e-02, 9.00662252e-01],
        [1.73654275e-04, 8.25000000e-01, 5.75513196e-02, ...,
         2.23404255e-01, 9.96167230e-01, 3.80794702e-02],
        [3.54870660e-02, 0.00000000e+00, 6.46627566e-01, ...,
         8.08510638e-01, 8.42402542e-01, 3.42163355e-01]]), 404)

In [8]:
X_test, len(X_test)

(array([[1.12701062e-03, 8.00000000e-01, 5.31524927e-02, ...,
         1.00000000e+00, 9.47400272e-01, 1.05960265e-01],
        [1.00843117e-03, 4.00000000e-01, 2.18108504e-01, ...,
         5.31914894e-01, 1.00000000e+00, 3.44922737e-02],
        [4.12386754e-04, 8.00000000e-01, 5.31524927e-02, ...,
         1.00000000e+00, 9.64446013e-01, 1.74392936e-01],
        ...,
        [7.48107112e-03, 0.00000000e+00, 2.81524927e-01, ...,
         8.93617021e-01, 9.49518382e-01, 3.60927152e-01],
        [6.36175973e-02, 0.00000000e+00, 6.46627566e-01, ...,
         8.08510638e-01, 9.96948913e-01, 4.10044150e-01],
        [1.61036297e-01, 0.00000000e+00, 6.46627566e-01, ...,
         8.08510638e-01, 9.39533007e-01, 7.97185430e-01]]), 102)

In [9]:
y_train[:10], len(y_train)

(array([[16.7],
        [21.6],
        [32.7],
        [22.8],
        [16.2],
        [25. ],
        [31.2],
        [11.8],
        [31.5],
        [22.6]]), 404)

In [10]:
y_test[:10], len(y_test)

(array([[20.6],
        [32. ],
        [18.2],
        [15.6],
        [18.9],
        [24.1],
        [30.1],
        [23.4],
        [29. ],
        [24.1]]), 102)

In [11]:
# linear_model 의 모듈을 통해 Linear Regression 을 쉽게 사용 가능
# (아래 linear_model 은 sklearn 에서 제공하는 Normal Equation 로 만들어진 Linear Regression 모델이다.)
from sklearn import linear_model

regr = linear_model.LinearRegression(fit_intercept=True,  # 상수항의 유무
                                     normalize=False,  # 정규화 여부 (이미 min-max scaling 으로 정규화를 해줘여 여기선 패스)
                                     copy_X=True,  # 복사한 데이터로 분석할 것인가 ?
                                     n_jobs=-1)  # CPU 의 갯수 (만약 -1 이면 자동으로 최대 CPU 갯수로 맞춘다.)

regr.fit(X_train, y_train)  # fitting 과정 (반드시 training data set 을 넣어줘야 한다.)
regr  # 모델 생성

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=-1, normalize=False)

In [12]:
# 모델이 생성됐다는 말은, 즉 weight 의 값이 정해졌다는 말이다.
# 사실 위의 모델은,
# >> y^ = w0 + w1x1 + w2x2 + ... + w13x13
# 이고,
# regr.intercept_ (절편) 값은 w0 이다.
regr.coef_, regr.intercept_  # coefficient 와 intercept(절편) 값 출력

(array([[ -9.9222767 ,   4.64505449,   0.71812788,   2.40943166,
          -8.40367965,  19.78811348,  -0.41705201, -16.31977361,
           7.31070592,  -6.86376913,  -9.90869981,   3.52693003,
         -17.64932659]]), array([27.28651448]))

In [13]:
# 다시 정리
print("Coefficients : ", regr.coef_)
print("Intercept(w0) : ", regr.intercept_)

Coefficients :  [[ -9.9222767    4.64505449   0.71812788   2.40943166  -8.40367965
   19.78811348  -0.41705201 -16.31977361   7.31070592  -6.86376913
   -9.90869981   3.52693003 -17.64932659]]
Intercept(w0) :  [27.28651448]


In [14]:
""" 만들어진 모델에 대한 성능 비교 """

# predict() 를 사용하면 특정 값에 대해 예측을 할 수 있다.
# (scaled 된 값을 넣어야 한다. (왜냐하면 scaled 된 값을 위에서 학습시켰기 때문))
y_pred = regr.predict(X_test)  # x_test 의 row 10 까지 예측을 하라

y_pred[:10]

array([[16.03648324],
       [33.60037231],
       [13.85050044],
       [13.05558435],
       [19.29756484],
       [25.46863303],
       [35.22651697],
       [24.24011066],
       [32.09211036],
       [20.20571119]])

In [15]:
# RMSE 방법 (직접 구현)
np.sqrt(np.sum((y_test - y_pred) ** 2) / len(y_test))

3.8049314835406456

In [16]:
# RMSE 방법 (sklearn 사용)
from sklearn.metrics import mean_squared_error

np.sqrt(mean_squared_error(y_true=y_test, y_pred=y_pred))

3.8049314835406456