Multiple Linear Regression & Polynomial Regression merupakan pengembangan model Simple Linear Regression yang pernah kita pelajari sebelumnya

# Sample Dataset

In [None]:
import pandas as pd

pizza = {'diameter': [6, 8, 10, 14, 18], 
         'n_topping': [2, 1, 0, 2, 0],
         'harga': [7, 9, 13, 17.5, 18]}

train_pizza_df = pd.DataFrame(pizza)
train_pizza_df

* Pada sesi pembelajaran kali ini,kita akan kembali memanfaatkan dataset pizza,hanya saja kali ini kita akan menyertakan kolom baru yaitu jumlah topping/"n_topping"

* Dataset dibentuk dari suatu dictionary yang terdiri dari 3 buah keys yaitu diameter,n_topping,harga.dimana setiap keys ini akan menampung list berisi sekumpulan bilangan

* pd.DataFrame(pizza) ditampungkan ke dalam variable train_pizza_df

In [None]:
pizza = {'diameter': [8, 9, 11, 16, 12], 
         'n_topping': [2, 0, 2, 2, 0],
         'harga': [11, 8.5, 15, 18, 11]}

test_pizza_df = pd.DataFrame(pizza)
test_pizza_df

* Data Diameter,n_topping akan berperan sebagai features.
* Harga pizza akan berperan sebagai target.
* Karena disini akan diprediksi merupakan nilai continuous dan bukannya kategori, maka kasus ini termasuk dalam "Regression Tasks"

# Preprocessing Dataset

In [None]:
import numpy as np

X_train = np.array(train_pizza_df[['diameter', 'n_topping']])
y_train = np.array(train_pizza_df['harga'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

Sebelum melakukan proses training model,kita akan kelompokkan terlebih dahulu sekumpulan nilai features dan nilai target dari dataset yg kita miliki

* Diameter dan jumlah topping akan kita konversikan ke numpy array dan kita tampung ke dalam variabel X_train sebagai sekumpulan nilai features untuk training set
* Harga pizza juga akan kita konversikan menjadi numpy array untuk selanjutnya kita tampung ke dalam variabel y_train sebagai sekumpulan nilai target untuk training set
* X_train akan selalu berada dalam format array dua dimensi
* y_train akan selalu berada dalam format array satu dimensi

In [None]:
X_test = np.array(test_pizza_df[['diameter', 'n_topping']])
y_test = np.array(test_pizza_df['harga'])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

# Multiple Linear Regression

Multiple Linear Regression merupakan generalisasi dari Simple Linear Regression yang memungkinkan untuk menggunakan beberapa explanatory variables.

$y = \alpha + \beta_1x_1 + \beta_2x_2 + \dots + \beta_nx_n$

*𝑥 merupakan nilai features*

*jumlah 𝑥 bisa lebih dari satu*

*untuk setiap nilai 𝑥 akan dikalikan dengan beta*

Check referensi di https://en.wikipedia.org/wiki/Linear_regression

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
    
print(f'r_squared: {r2_score(y_test, y_pred)}')

* Hasil prediksi akan kita gunakan untuk mengukur performa dari model kita,untuk kasus kita kali ini kita akan gunakan "r2_score" sebagai pengukuran performanya
* Disini kita juga bisa menggunakan metric pengukuran performa yang lain

*Ternyata pada scikit learn tidak ada perbedaan antara implementasi Simple Linear Regression dan Multiple Linear Regression,yang berbeda itu hanya pada jumlah features yang dilewatkanya saja*

# Polynomial Regression

Polynomial Regression memodelkan hubungan antara independent variable $x$ dan dependent variable $y$ sebagai derajat polynomial dalam $x$.

* independent variable merupakan features
* dependent variable merupakan targets

Check referensi di https://en.wikipedia.org/wiki/Polynomial_regression

### Preprocessing Dataset

In [None]:
X_train = np.array(train_pizza_df['diameter']).reshape(-1, 1)
y_train = np.array(train_pizza_df['harga'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

* Untuk memnyederhanakan proses belajar kita akan mangkas jumlah features nya menjadi 1 features saja
* Kenapa perlu kita reshape ? karena pada scikit learn untuk featuresnya itu harus berada dalam array 2 dimensi

### Polynomial Regression: Quadratic

$y = \alpha + \beta_1x + \beta_2x^2$

* Quadratic = derajat polynomial dua
* Cubic = derajat polynomial tiga

*Nilai features tunggal akan direpresentasikan dalam format polynomial.Untuk kasus kali ini kita menggunakan polynomial derajat dua*

#### Polynomial Features

In [None]:
from sklearn.preprocessing import PolynomialFeatures

quadratic_feature = PolynomialFeatures(degree=2)
X_train_quadratic = quadratic_feature.fit_transform(X_train)

print(f'X_train_quadratic:\n{X_train_quadratic}\n')

* Degree merupakan derajat polynomial.
* Karena kasus kita kali ini ingin membentuk Quadratic Polynomial Regression makanya degreenya kita beri nilai "2"

Hasil Quadratic Polynomial Regression:
* 1 diperoleh dari nilai x dipangkatkan 0
* 6 diperoleh dari nilai x dipangkatkan 1
* 36 diperoleh dari nilai x dipangkatkan 2

dst.

#### Training Model

In [None]:
model = LinearRegression()
model.fit(X_train_quadratic, y_train)

*proses transformasi polynomial dikenakan pada features dan tidak dikenakan pada targets*

Pada scikit learn tidak ada perbedaan antara implementasi Simple Linear Regression dan Polynomial Linear Regression,yang berbeda hanyalah pada polynomial regression, kita perlu melakukan transformasi features ke dalam polynomial features sebelum dilakukan proses training model

#### Visualisasi Model

In [None]:
import matplotlib.pyplot as plt

X_vis = np.linspace(0, 25, 100).reshape(-1, 1) #baris 2
X_vis_quadratic = quadratic_feature.transform(X_vis) #baris 3
y_vis_quadratic = model.predict(X_vis_quadratic) #baris 4

plt.scatter(X_train, y_train) #baris 5
plt.plot(X_vis, y_vis_quadratic, '-r') #baris 6

plt.title('Perbandingan Diameter dan Harga Pizza')
plt.xlabel('Diameter (inch)')
plt.ylabel('Harga (dollar)')
plt.xlim(0, 25)
plt.ylim(0, 25)
plt.grid(True)
plt.show()

* Baris 2 : bentuk sederet bilangan mulai dari 0 sampai 25 sebanyak 100 data point.data point ini kemudian akan kita masukkan ke dalam variable "x_vis"
* Baris 3 :  "x_vis" akan kita kenakan proses transformasi.disini kita tidak menggunakan fit transform,tetapi kita hanya melakukan transform.karena kita akan menggunakan quadratic features yg kita bentuk sebelumnya
* Baris 4 : melakukan prediksi terhadap nilai x_vis_quadratic

*Visualisasi dua hal*
* Baris 5 : visualisasikan yang pertama adalah x_train dan y_train,data training kita visualisasikan sebagai scatter plot,dan ini akan menghasilkan data point (lima titik) menrepresentasikan kelima data point pada training set kita
* Baris 6 : Memplotting hasil prediksi dari model kita,plotting sebagai line plot (plotting garis) warna merah (Untuk polynomial regression bentuknya tidak lagi garis lurus)

### Polynomial Regression: Quadratic vs Cubic

In [None]:
# Training Set
plt.scatter(X_train, y_train) #plotting training dataset hasilnya berupa lima datapoint/lima titik

# Linear
model = LinearRegression() #membentuk model simple linear regression
model.fit(X_train, y_train) #melakukan training
X_vis = np.linspace(0, 25, 100).reshape(-1, 1) #menyiapkan 100 data point dengan jangkauan mulai dari 0 sampai 25,sebelum ditampung,kita reshape
y_vis = model.predict(X_vis) #features untuk melakukan prediksi
plt.plot(X_vis, y_vis, '--r', label='linear') #hasil prediksi ditampil secara visual,dengan garis putus-putus berwarna merah

# Quadratic
quadratic_featuriser = PolynomialFeatures(degree=2) #bedanya memiliki parameter derajat 2
X_train_quadratic = quadratic_feature.fit_transform(X_train) #melakukan fit transform terhadap nilai dari X_train
model = LinearRegression() #bentuk objek model
model.fit(X_train_quadratic, y_train) #melakukan proses training, dengan menggunakan features yang sudah kita transformasikan ke quadratic polynomial 
X_vis_quadratic = quadratic_feature.transform(X_vis) #X_vis akan kita transformasikan menjadi quadratic polynomial
y_vis = model.predict(X_vis_quadratic) #melakukan prediksi
plt.plot(X_vis, y_vis, '--g', label='quadratic') #dengan garis putus-putus berwarna hijau

# Cubic
cubic_feature = PolynomialFeatures(degree=3) #bedanya memiliki parameter derajat 2
X_train_cubic = cubic_feature.fit_transform(X_train)  #melakukan fit transform terhadap nilai dari X_train
model = LinearRegression() #bentuk objek model
model.fit(X_train_cubic, y_train) #melakukan proses training, dengan menggunakan features yang sudah kita transformasikan ke cubic polynomial 
X_vis_cubic = cubic_feature.transform(X_vis) # X_vis akan kita transformasikan menjadi cubic polynomial
y_vis = model.predict(X_vis_cubic) #melakukan prediksi
plt.plot(X_vis, y_vis, '--y', label='cubic') ##dengan garis putus-putus berwarna kuning

plt.title('Perbandingan Diameter dan Harga Pizza')
plt.xlabel('Diameter (inch)')
plt.ylabel('Harga (dollar)')
plt.legend()
plt.xlim(0, 25)
plt.ylim(0, 25)
plt.grid(True)
plt.show()

* Garis Putus-Putus Merah menrepresentasikan model Simple Linear Regression
* Garis Putus-Putus Hijau menrepresentasikan model Quadratic Polynomial Regression
* Garis Putus-Putus Kuning menrepresentasikan model Cubic Polynomial Regression