# 단순 선형 회귀
- 입력 특성에 따라 선형 함수를 만들어서 예측을 하는 알고리즘
- 독립 변수가 하나인 경우 특정 직선을 학습하는 방법
- 선형 회귀 모델을 잘 학습시키려면 MSE(평균 제곱 오차)값을 최소화 할 수 있는 파라미터(매개변수)를 선택
- 통계적 방식의 회귀 분석은 정규화 방식을 사용하여 문제 해결
- 머신러닝 경사하강법을 사용하여 문제 해결

## LinearRegression
- parameter(생성자 함수의 매개변수)
    - fit_intercept
        - 기본값 : True
        - 선형 모델에서 절편을 사용할지를 결정
    - normalize
        - 기본값: False
        - 정규화를 할 것인가? -> Scaler를 이용하여 데이터의 범위를 지정하는 것이 일반적
    - copy_x
        - 기본값: True
        - 입력된 독립 변수의 데이터를 복사하여 사용할 것인가?
    - n_jobs
        - 기본값: None
        - 계산 작업을 하는 cpu의 개수를 의미
    - positive
        - 기본값: False
        - 회귀 계수가 음수를 사용하지 않도록 설정

- 속성(class에서 사용하는 변수)
    - coef_
        - 선형 회귀에서 추정된 회귀 계수
    - rank_
        - 선형 독립 차원의 수(선형 독립 컬림의 개수)
            - 독립 변수(컬럼)의 개수와 rank_의 수가 같다면 모든 변수가 독립적
            - rank_의 수가 독립 변수의 개수보다 작은 경우 다중공선성(컬럼 간의 중복이 존재)이 존재
    - singular_
        - 독립 변수의 특이값
    - intercept_
        - 절편의 값

- 매서드 (class 안의 함수)
    - fit()
        - 모델을 학습
        - X : 학습 데이터 (독립 변수), 2차원 array 형태로 대입
        - y : 종속 변수 (타겟 데이터), array 형태로 대입
        - sample_weight: 옵션 -> 개별 데이터에서 특정 가중치
    - get_params()
        - 선형 회귀 모델을 생성할 때 지정한 매개변수의 값들을 출력
    - predict()
        - 선형 모델을 사용해서 예측
        - X : 평가 데이터(test 독립 변수)
        - 예측 값은 array 형태로 되돌려준다.
    - score()
        - 예측에 대한 결정 계수를 출력
        - X : 평가 데이터(독립 변수)
        - Y : 실제 종속 변수
        - sample_weight : 옵션 -> 개별 데이터의 특정 가중치

In [115]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [116]:
boston = pd.read_csv('../data_git/csv/boston.csv')

In [117]:
boston.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,Price
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


In [121]:
X_train, X_test, Y_train, Y_test = train_test_split(
    boston.drop('Price', axis = 1).values,
    boston['Price'],
    train_size = 0.3,
    random_state = 42
)

In [122]:
stdScaler = StandardScaler()

In [123]:
# train 데이터의 범위 지정
stdScaler.fit(X_train)

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [124]:
# 범위가 지정된 Scaler를 이용하여 데이터 스케일링
X_train_sc = stdScaler.transform(X_train)
X_test_sc = stdScaler.transform(X_test)

In [125]:
# 단순선형회귀 모델을 생성
lr = LinearRegression()
lr_sc = LinearRegression()

In [126]:
lr.fit(X_train, Y_train)
lr_sc.fit(X_train_sc, Y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [127]:
lr.score(X_test, Y_test)

0.7007474180149296

In [128]:
lr_sc.score(X_test_sc, Y_test)

0.7007474180149313

In [129]:
lr.coef_

array([-1.06413988e-01,  8.35043503e-03,  5.90326584e-02,  4.04417760e+00,
       -1.34817817e+01,  5.68442507e+00, -3.43017906e-02, -1.12498387e+00,
        8.58963508e-02, -1.70969203e-03, -1.02494347e+00,  1.32699724e-02,
       -3.79865881e-01])

In [130]:
lr.rank_

13

In [131]:
lr.intercept_

np.float64(18.917767647846453)

In [132]:
lr_sc.intercept_

np.float64(22.998013245033142)

In [133]:
# 해당 모델의 파라미터 값들을 확인
lr.get_params()

{'copy_X': True,
 'fit_intercept': True,
 'n_jobs': None,
 'positive': False,
 'tol': 1e-06}