# Linear Regression

#### Import libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Kita akan memakai dataset [harga mobil](https://drive.google.com/file/d/19MAYnK5FzlJ1hVSQtHEfrPFb1jds3ecp/view?usp=sharing). Setelah kita download dataset, kita upload ke Google Colab. Load data dan masukan ke dataframe:

In [2]:
# path of data 
path = 'Data Latihan/Data Harga Mobil.csv'
df = pd.read_csv(path, index_col=0)
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium


Salah satu model yang kita kembangkan adalah
 **Linear Regression**.
Linear Regression adalah metode yang digunakan untuk membantu memahami relasi antara 2 variabel:
- The predictor/independent variable (X)
- The response/dependent variable (that we want to predict)(Y)

Hasil dari Linear Regression adalah **linear function** yang memprediksi variabel response (dependen) sebagai fungsi dari variabel predictor (independent).

\begin{equation*}
 Y: Response \ Variable\\
 X :Predictor\ Variables
\end{equation*}


 **Linear function:**
\begin{equation*}
Yhat = a + b  X
\end{equation*}


- a mengacu ke **intercept** dari regression, dalam artian: nilai Y ketika X adalah 0 
- b mengacu ke **slope** dari garis regression, dalam artian: nilai dengan Y berubah ketika X menjadi 1.





#### Mari kita memuat modul untuk linear regression

In [3]:
from sklearn.linear_model import LinearRegression

#### Buat regression object

In [4]:
lm = LinearRegression()

In [5]:
lm

LinearRegression()

#### Bagaimana Highway-mpg bisa membantu kita memprediksi harga mobil?

Untuk contoh berikut kami ingin melihat bagaimana highway-mpg dapat membantu kami memprediksi price.
Dengan menggunakan Simple Linear Regression, kita akan membuat fungsi linier dengan "highway-mpg" sebagai variabel prediktor dan "price" sebagai variabel respon.

In [6]:
X = df[['highway-mpg']]
Y = df['price']

Fit linear model menggunakan highway-mpg.

In [7]:
lm.fit(X,Y)

LinearRegression()

Output dari prediction 

In [8]:
Yhat=lm.predict(X)
Yhat[0:5]   

array([16236.50464347, 16236.50464347, 17058.23802179, 13771.3045085 ,
       20345.17153508])

In [9]:
print("Data:", X[:1])
print()
print("prediksi harganya:", lm.predict(X[:1]))

Data:    highway-mpg
0           27

prediksi harganya: [16236.50464347]


#### Berapakah nilai intercept (a) ?

In [10]:
lm.intercept_

38423.3058581574

#### Berapakah nilai slope (b) ?

In [11]:
lm.coef_

array([-821.73337832])

#### Prediksi harga dengan data baru

In [12]:
data_prediksi = [[26]]

print("Harga yang saya dapat berdasarkan data prediksi di atas adalah:", lm.predict(data_prediksi))

Harga yang saya dapat berdasarkan data prediksi di atas adalah: [17058.23802179]


  "X does not have valid feature names, but"


Dari perhitungan di atas, kita mendapatkan linear model dengan struktur:

 \begin{equation*}
Yhat = a + b  X
\end{equation*}

Nilai yang kita dapat:

**price** = 38423.31 - 821.73 x  **highway-mpg**

# Multiple Linear Regression

#### Import libraries

In [13]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Kita akan memakai dataset [harga mobil](https://drive.google.com/file/d/19MAYnK5FzlJ1hVSQtHEfrPFb1jds3ecp/view?usp=sharing). Setelah kita download dataset, kita upload ke Google Colab. Load data dan masukan ke dataframe:

In [14]:
# path of data 
path = 'Data Latihan/Data Harga Mobil.csv'
df = pd.read_csv(path, index_col=0)
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price,city-L/100km,horsepower-binned
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111.0,5000.0,21,27,13495.0,11.190476,Medium
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,3.47,2.68,9.0,111.0,5000.0,21,27,16500.0,11.190476,Medium
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,2.68,3.47,9.0,154.0,5000.0,19,26,16500.0,12.368421,Medium
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,3.19,3.4,10.0,102.0,5500.0,24,30,13950.0,9.791667,Medium
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,3.19,3.4,8.0,115.0,5500.0,18,22,17450.0,13.055556,Medium


Bagaimana jika kita ingin memprediksi harga mobil dengan menggunakan lebih dari satu variabel?

Jika kita ingin menggunakan lebih banyak variabel dalam model kita untuk memprediksi harga mobil, kita dapat menggunakan **Multiple Linear Regression**.
Multiple Linear Regression sangat mirip dengan Simple Linear Regression, tetapi metode ini digunakan untuk menjelaskan hubungan antara satu variabel respons kontinu (dependent) dan *dua atau lebih* variabel prediktor (independent).
Sebagian besar model regresi di beberapa kasus melibatkan banyak prediktor. Kita akan membangun model Multiple Liniear Regression dengan menggunakan empat variabel prediktor sebagai berikut:

 \begin{equation*}
Y: Response \ Variable\\
X_1 :Predictor\ Variable \ 1\\
X_2: Predictor\ Variable \ 2\\
X_3: Predictor\ Variable \ 3\\
X_4: Predictor\ Variable \ 4\\
\end{equation*}


 \begin{equation*}
a: intercept\\
b_1 :coefficients \ of\ Variable \ 1\\
b_2: coefficients \ of\ Variable \ 2\\
b_3: coefficients \ of\ Variable \ 3\\
b_4: coefficients \ of\ Variable \ 4\\
\end{equation*}


 Equation-nya sebagai berikut:

 \begin{equation*}
Yhat = a + b_1 X_1 + b_2 X_2 + b_3 X_3 + b_4 X_4
\end{equation*}



Kita tentukan predictors yang bagus untuk price yakni: 
- Horsepower
- Curb-weight
- Engine-size
- Highway-mpg

In [15]:
lm = LinearRegression()
lm

LinearRegression()

In [16]:
Z = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]

Fit linear model menggunakan empat variabel di atas.

In [17]:
lm.fit(Z, df['price'])

LinearRegression()

#### Berapa nilai intercept(a) yang didapat?

In [18]:
lm.intercept_

-15806.62462632922

#### Berapa nilai coefficients (b1, b2, b3, b4) yang didapat?

In [19]:
lm.coef_

array([53.49574423,  4.70770099, 81.53026382, 36.05748882])

#### Prediksi harga dengan data baru

In [20]:
data_prediksi = [[100, 2525, 100, 30]]

print("Harga yang saya dapat berdasarkan data prediksi di atas adalah:", lm.predict(data_prediksi))

Harga yang saya dapat berdasarkan data prediksi di atas adalah: [10664.64585429]


  "X does not have valid feature names, but"


Bagaimana estimasi linear model yang kita dapat?

Seperti yang sudah kita bahas di atas, kita memiliki equation seperti ini:

 \begin{equation*}
Yhat = a + b_1 X_1 + b_2 X_2 + b_3 X_3 + b_4 X_4
\end{equation*}

Maka kita mendapatkan linear function seperti berikut?

**Price** = -15678.742628061467 + 52.65851272 x **horsepower** + 4.69878948 x **curb-weight** + 81.95906216 x **engine-size** + 33.58258185 x **highway-mpg**