# Multiple Linear Regression

pada multiple linear regression terjadi jika terdapat banyak explanatory variabel ($x_i$) dari input/independent variabel dengan 1 output. formula :
$y=b_0+b_1.x_1+b_2.x_2+...$
Ada syarat agar multiple linear regression berhasil yaitu :
1. Linear. hubungan antara independent variabels dengan dependent variable harus linear (dapat dihubungkan dengan rumus garis dan bukan konsep linearity)
2. Sedikit atau tidak ada multicollinearity. dimana hubungan antar independet variabels hanya sedikit atau tidak ada sama sekali
3. Homocedascity. dimana residual berada pada range yang sama di sepanjang garis linear regression. residual adalah error antara nilai asli dengan nilai prediksi
4. sedikit atau tidak ada auto-correlation. dimana y(x) tidak berpengaruh terhadap y(x+1)

Sebenarnya kita tidak perlu untuk mengetahui data linear atau tidak, karena jika memang tidak sesuai kriteria, maka akurasinya akan buruk, sehingga kita mungkin akan memilih model lain.

Dalam hipotesa ada namanya null hypotesis dan alternative hypotesis. null hypotesis adalah asumsi awalnya benar dan kita coba untuk menyatakan salah pada null hypotesis itu, sehingga alternative hypotesis menjadi benar. keduanya harus saling kontradiksi

P-value adalah kemungkinan suatu kejadian terjadi. sedangkan alpha dalam statistik adalah batas keraguan sehingga jika P-value berada di bawah alpha maka hipotesa null dapat di reject.
null hypotesis : $H_0$,
alternative hypotesis : $H_1$

contoh: 
$H_0$: koin yang kedua sisinya adil
$H_1$: koin yang tidak adil (bisa berat sebelah atau kedua sisinya sama)

dengan menge-set 𝛂 = 0.05

kejadian :
1. kepala : P-value 0.5
2. kepala lagi : P-value 0.25
3. kepala lagi : P-value 0.125
4. kepala lagi : P-value 0.05675
5. kepala lagi : P-value 0.025

karena P-value sudah dibawah 0.05 maka null hypotesis dapat di-reject dan alternative hypotesis diterima sehingga koin tersebut tidak adil

konsep P-value ini dipakai untuk menentukan apakah suatu variable mempunyai pengaruh terhadap multiple linear regression. Eliminiasi variabel ini terjadi pada tiap model yang sudah jadi (yang sudah dilatih) dan terjadi berulang-ulang sampai tidak ada lagi independent variabel yang dapat dibuang atau dimasukkan sebagai predictor, sehingga kita tetap pada model saat ini. konsekuensi dari metode ini adalah pada model kita hanya terkandung predictor yang secara statistik signifikan saja (statistically significant) konsep ini juga dapat mengurangi multicolliniearity. ada 5 metode :
1. All-in. dimana semua independent variabel akan dimasukan sebagai predictor.
2. backward elimination. 
* Tentukan significane level (𝝰/SL) untuk setuju/stay dengan model (default 0.05)
* Memasukkan semua independent variabel
* Hitung P-value dari model yang didapatkan. Tentukan P-value tertinggi dari predictor, jika P>SL, maka menuju poin 4, jika tidak maka selesai
* hapus predictor
*buat model tanpa predictor yang dihapus (buat koefisien dan constanta baru), kembali ke poin 3

3. forward elimination
* Tentukan significance level (𝝰/SL) untuk masuk ke model selanjutnya (default 0.05)
* Tentukan dari semua predictor yang tersisa yang mana yang memiliki P-value terendah
* Jika predictor P-value<𝝰, maka menuju poin 4, jika tidak maka finish
* tambahkan predictor, dan buat model yang baru dengan koefisien dan konstanta yang baru

4. forward-backward elimination
* tentukan significance level diam dan masuk (SLSTAY dan SLENTER) masing-masing default 0.05
* Jalankan 1 iterasi forward elimintation
* Jalankan 1 iterasi backward elimination
* ulang kembali ke poin 2, sampai tidak ada predictor yang dapat dimasukkan ke model dan dibuang dari model



## Importing the libraries

In [17]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Importing the dataset

In [18]:
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

## Encoding categorical data

In [19]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoding',OneHotEncoder(),[3])],remainder='passthrough')
X=ct.fit_transform(X)

Categorical variables disini akan menghasilkan 3 dummy variables (state)

## Splitting the dataset into the Training set and Test set

In [25]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=0)

## Training the Multiple Linear Regression model on the Training set

In [21]:
from sklearn.linear_model import LinearRegression
#coding sama dengan simple linear regression
lr = LinearRegression()
lr.fit(X_train,y_train)

LinearRegression()

library LinearRegression akan meng-handle multicollinearity pada categorical variables (state dalam kasus ini)
Jika melihat pada coefficient pada dummy variables ke-3, ia akan menghilang jika koeffisien dummy variable 1 dan 2 ditambahkan dengannya, sehingga memang library ini akan menghandle multicolliniearity.
dan library ini akan menghandle P-value

## Predicting the Test set results

In [36]:
y_pred=lr.predict(X_test)
print("y_test vs y_pred\n",np.concatenate((y_test.reshape(len(y_test),1),y_pred.reshape(len(y_pred),1)),axis=1))
print("\nerror \n",(y_test-y_pred).reshape(len(y_test),1))
print("\nerror %\n",((y_test-y_pred)*100/y_test).reshape(len(y_test),1))

y_test vs y_pred [[103282.38       103015.20159795]
 [144259.4        132582.27760816]
 [146121.95       132447.73845175]
 [ 77798.83        71976.09851258]
 [191050.39       178537.48221057]
 [105008.31       116161.24230167]
 [ 81229.06        67851.69209676]
 [ 97483.56        98791.73374687]
 [110352.25       113969.43533014]
 [166187.94       167921.06569552]]

error 
 [[   267.17840205]
 [ 11677.12239184]
 [ 13674.21154825]
 [  5822.73148742]
 [ 12512.90778943]
 [-11152.93230167]
 [ 13377.36790324]
 [ -1308.17374687]
 [ -3617.18533014]
 [ -1733.12569552]]

error %
 [[  0.2586873 ]
 [  8.09453137]
 [  9.35808176]
 [  7.48434326]
 [  6.54953271]
 [-10.62099971]
 [ 16.46869717]
 [ -1.34194294]
 [ -3.27785372]
 [ -1.04287092]]


In [38]:
print("konstanta model : ",lr.intercept_)
print("koefisien model : ",lr.coef_)

konstanta model :  42467.52924853204
koefisien model :  [ 8.66383692e+01 -8.72645791e+02  7.86007422e+02  7.73467193e-01
  3.28845975e-02  3.66100259e-02]
