# Multiple Linear Regression

단일 선형 회귀는 원인이 하나인 것의 결과를 얻는 것이었다면
다중 선형 회귀는 원인이 여럿인 경우의 결과를 얻는 것
다중 독립 변수들의 1차원적 결합의 형태라고 이해할 것


P 값을 알아보기
통계적인 뜻을 알고 있어야 할 것
0.05로 설정해두었다면, 95%의 확률을 가진 값들, 혹은 그 상태들의 모음은 95%의 확률로 볼 수 있는 가능성들...

다중 선형 회귀일 때
연관된 모든 가능성을 확인하고, 그 중에 관계성이 낮은 것들은 버리는 과정이 들어감..
연관성이 높은, 관련성이 높은 부분들만 남기고 나머지는 버리는 과정이 포함

다중 선형 회귀의 모델을 만드는 방법은 다섯가지가 있음
1. All-in
2. Backward Elimination
3. Forward Selection
4. Bidirectional Elimination
5. Score Comparison

2,3,4는 Stepwise Regression

대체로 Stepwise Regression이라고 하면 4번을 가리키는 경우가 많음

All-in은 모든 종속변수를 모두 넣는 방법
이 경우는 이미 해당 내용에 대해 모두 알고 있기 때문에 굳이 모델을 만들어야 할 필요가 없음
혹은 Backward Elimination을 시행하기 전의 준비 단계

Backward Elinination
모형 내의 유의미한 확률을 설정해야 함 - SL = 0.05로 하면 95%의 신뢰도를 갖는 확률을 설정
모델에서 가능한 종속변수들을 모두 넣기(All-in)
P-value값이 높은지 확인, 즉 SL보다 P값이 크면, 다음으로 진행, 그렇지 않으면 종료
연관성이 낮은 종속변수 제거
모델에 해당 변수 없이 맞추기 - 변수 하나를 없애는 순간 다른 변수들의 조건들이 모두 변동....

Forward Selection
모형 내의 유의미한 확률을 설정해야 함 - SL = 0.05로 하면 95%의 신뢰도를 갖는 확률을 설정
가능한 모든 단순 회귀 모형들을 넣을 것... P-값이 가장 낮은 독립 변수가 있는 모형을 하나 선정
해당 변수를 유지하고, 또 다른 단순 회귀 모형을 하나 더 추가할 것...
그리고 P-value값이 SL보다 낮으면, 다시 위의 과정을 반복하고, 그렇지 않으면 종료함

Bidirectional Eliminiation
SLENTER, SLSTAY 값을 설정
Forward Selection을 선택 - 새 variables는 P < SLENTER를 만족해야 함
Backward Elimination의 모든 과정을 진행 (기존 variables들은 P< SLSTAY를 만족해야 함)

All Possible Models
선형회귀를 잘 맞추기 위한 좋은 방법을 선택 (Akaike criterion같은 것)
모든 가능한 Regression models들을 만들기 (2^n -1)개의 조합 가능
그 중에 가장 최상의 criterion을 선택


## Importing the libraries

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset


In [None]:
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
print(X)

[[165349.2 136897.8 471784.1 'New York']
 [162597.7 151377.59 443898.53 'California']
 [153441.51 101145.55 407934.54 'Florida']
 [144372.41 118671.85 383199.62 'New York']
 [142107.34 91391.77 366168.42 'Florida']
 [131876.9 99814.71 362861.36 'New York']
 [134615.46 147198.87 127716.82 'California']
 [130298.13 145530.06 323876.68 'Florida']
 [120542.52 148718.95 311613.29 'New York']
 [123334.88 108679.17 304981.62 'California']
 [101913.08 110594.11 229160.95 'Florida']
 [100671.96 91790.61 249744.55 'California']
 [93863.75 127320.38 249839.44 'Florida']
 [91992.39 135495.07 252664.93 'California']
 [119943.24 156547.42 256512.92 'Florida']
 [114523.61 122616.84 261776.23 'New York']
 [78013.11 121597.55 264346.06 'California']
 [94657.16 145077.58 282574.31 'New York']
 [91749.16 114175.79 294919.57 'Florida']
 [86419.7 153514.11 0.0 'New York']
 [76253.86 113867.3 298664.47 'California']
 [78389.47 153773.43 299737.29 'New York']
 [73994.56 122782.75 303319.26 'Florida']
 [67532

## Encoding categorical data

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [None]:
print(X)

[[0.0 0.0 1.0 165349.2 136897.8 471784.1]
 [1.0 0.0 0.0 162597.7 151377.59 443898.53]
 [0.0 1.0 0.0 153441.51 101145.55 407934.54]
 [0.0 0.0 1.0 144372.41 118671.85 383199.62]
 [0.0 1.0 0.0 142107.34 91391.77 366168.42]
 [0.0 0.0 1.0 131876.9 99814.71 362861.36]
 [1.0 0.0 0.0 134615.46 147198.87 127716.82]
 [0.0 1.0 0.0 130298.13 145530.06 323876.68]
 [0.0 0.0 1.0 120542.52 148718.95 311613.29]
 [1.0 0.0 0.0 123334.88 108679.17 304981.62]
 [0.0 1.0 0.0 101913.08 110594.11 229160.95]
 [1.0 0.0 0.0 100671.96 91790.61 249744.55]
 [0.0 1.0 0.0 93863.75 127320.38 249839.44]
 [1.0 0.0 0.0 91992.39 135495.07 252664.93]
 [0.0 1.0 0.0 119943.24 156547.42 256512.92]
 [0.0 0.0 1.0 114523.61 122616.84 261776.23]
 [1.0 0.0 0.0 78013.11 121597.55 264346.06]
 [0.0 0.0 1.0 94657.16 145077.58 282574.31]
 [0.0 1.0 0.0 91749.16 114175.79 294919.57]
 [0.0 0.0 1.0 86419.7 153514.11 0.0]
 [1.0 0.0 0.0 76253.86 113867.3 298664.47]
 [0.0 0.0 1.0 78389.47 153773.43 299737.29]
 [0.0 1.0 0.0 73994.56 122782.75 3

## Splitting the dataset into the Training set and Test set

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

## Training the Multiple Linear Regression model on the Training set

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

## Predicting the Test set results

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[103015.2  103282.38]
 [132582.28 144259.4 ]
 [132447.74 146121.95]
 [ 71976.1   77798.83]
 [178537.48 191050.39]
 [116161.24 105008.31]
 [ 67851.69  81229.06]
 [ 98791.73  97483.56]
 [113969.44 110352.25]
 [167921.07 166187.94]]
