# 단순 선형 회귀 
- 입력 특성에 따라 선형 함수를 만들어서 예측을 하는 알고리즘 
- 독립 변수 하나인 경우 특정 직선을 학습하는 방법 
- 선형 회귀 모델을 잘 학습을 시키려면 MSE(평균 제곱 오차)값을 최소화 할수 있는 파라미터(매개변수)를 선택 
- 통계적 방식의 회귀 분석은 정규화방식을 사용하여 문제 해결 
- 머신러닝 경사하강법을 사용하여 문제 해결 

## LinearRegression
    - parameter(생성자 함수의 매개변수)
        - fit_intercept
            - 기본값 : True
            - 선형 모델에서 절편을 사용할지를 결정
        - normalize
            - 기본값 : False
            - 정규화을 할것인가? -> Scaler를 이용하여 데이터의 범위를 지정하는 것이 일반적 
        - copy_x
            - 기본값 : True
            - 입력된 독립 변수의 데이터를 복사하여 사용할것인가?
        - n_jobs
            - 기본값 : None
            - 계산 작업을 하는 cpu의 개수를 의미
        - positive
            - 기본값 : False
            - 회귀 계수가 음수를 사용하지 않도록 설정 
    - 속성(class에서 사용하는 변수)
        - coef_
            - 선형 회귀에서 추정된 회귀 계수
        - rank_
            - 선형 독립 차원의 수(선형 독립 컬럼의 개수) 
                - 독립 변수(컬럼)의 개수와 rank_의 수가 같다면 모든 변수가 독립적 
                - rank_의 수가 독립 변수의 개수가 작은 경우 다중공선성(컬럼 간의 중복이 존재)이 존재
        - singular_
            - 독립 변수의 특이값
        - intercept_
            - 절편의 값
    - 매서드 (class 안의 함수)
        - fit()
            - 모델을 학습시키는 함수 
            - X : 학습 데이터 (독립 변수), 2차원 array형태로 대입 
            - y : 종속 변수(타깃 데이터), array 형태로 대입 
            - sample_weight : 옵션 -> 개별 데이터에서 특정 가중치 
        - get_params()
            - 선형 회귀 모델을 생성할때 지정한 매개변수의 값들을 출력 
        - predict()
            - 선형 모델을 사용해서 예측
            - X : 평가 데이터(test 독립 변수)
            - 예측 값은 array 형태로 되돌려준다. 
        - score()
            - 예측에 대한 결정 계수를 출력
            - X : 평가 데이터(독립 변수)
            - y : 실제 종속 변수
            - sample_weight : 옵션 -> 개별 데이터의 특정 가중치

In [None]:
import pandas as pd 
import numpy as np 
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

In [None]:
# boston 데이터 로드 
boston = pd.read_csv("../csv/boston.csv")

In [None]:
boston.head()

In [25]:
df = boston.copy()

In [26]:
boston.drop( ['B', 'CHAS', 'TAX', 'LSTAT'], axis=1, inplace=True )

In [27]:
# 데이터의 분할 
X_train, X_test, Y_train, Y_test = train_test_split(
    boston.drop('Price', axis=1).values, 
    boston['Price'].values, 
    test_size=0.3, 
    random_state=42
)

In [28]:
# StandardScaler class 생성
stdScaler = StandardScaler()

In [29]:
# train 데이터의 범위 지정
stdScaler.fit(X_train)

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [30]:
# 범위가 지정된 Scaler를 이용하여 데이터 스케일링
X_train_sc = stdScaler.transform(X_train)
X_test_sc = stdScaler.transform(X_test)

In [31]:
X_test.mean()

np.float64(14.854845080409358)

In [32]:
X_test_sc.mean()

np.float64(0.012666933429992136)

In [33]:
# 단순 선형회귀모델을 생성 
lr = LinearRegression()
lr_sc = LinearRegression()

In [34]:
# 모델 학습 
lr.fit(X_train, Y_train)
lr_sc.fit(X_train_sc, Y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [35]:
lr.score(X_test, Y_test)

0.66907750615926

In [36]:
lr_sc.score(X_test_sc, Y_test)

0.6690775061592593

In [37]:
from sklearn.metrics import r2_score, mean_absolute_error

In [38]:
pred =  lr.predict(X_test)
pred_sc = lr_sc.predict(X_test_sc)

In [39]:
mae = mean_absolute_error(Y_test, pred)
mae_sc = mean_absolute_error(Y_test, pred_sc)

In [40]:
print(round(mae, 2))
print(round(mae_sc, 2))

3.29
3.29


In [41]:
# 회귀 계수 확인 
lr.coef_

array([-1.99489555e-01,  1.66621733e-02, -3.27481615e-02, -2.31344538e+01,
        6.73799306e+00, -5.04405379e-02, -1.51530876e+00,  6.61177004e-02,
       -1.07588573e+00])

In [42]:
boston.columns

Index(['CRIM', 'ZN', 'INDUS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'PTRATIO',
       'Price'],
      dtype='object')

In [43]:
# rank 확인 -> 독립 차원의 수 
lr.rank_

9

In [44]:
# 선형 회귀의 절편 
lr.intercept_

np.float64(22.369901882005177)

In [45]:
lr_sc.intercept_

np.float64(23.015819209039577)

In [46]:
# 해당 모델의 파라미터 값들을 확인 
lr.get_params()

{'copy_X': True,
 'fit_intercept': True,
 'n_jobs': None,
 'positive': False,
 'tol': 1e-06}