# Supervised Learning: Regression
---

Pemateri:
- Deasy Indrawati
- Leonard Yulianus

## Classification vs. Regression



```
# This is formatted as code
```

![Classification_Regression.png](attachment:1f1aa2bf-5360-439a-aa7d-cba60141e6c8.png)

Regression adalah permasalahan prediksi dalam machine learning yang variabel targetnya berupa continuous value. Sedangkan, dalam classification variabel targetnya adalah kategori/label.

<div class="alert alert-block alert-warning">
Berikan contoh permasalahan klasifikasi dan regresi!
</div>

Kita akan melihat berbagai jenis algoritma yang biasa digunakan untuk menyelesaikan permasalahan regresi. Untuk tujuan pembelajaran, kita akan menggunakan data dummy dengan 2 variabel, yaitu **X (independent variable/feature)** dan **y (dependent variable/target)**.

## Generate Data Dummy

Untuk generate data dummy, akan menggunakan formula $y = 3X^3 + 2X^2 + \epsilon$

generate 1000 data dengan rumus ini
epsilon: angka random kecil yang ditambahkan agar data tersebar

akan dibuatkan x dan y agar lebih mudah dipahami

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

plt.rcParams['figure.figsize'] = (20,10)
plt.rcParams['font.size'] = 16

In [None]:
np.random.seed(100)
X = np.random.rand(1000)
eps = np.random.normal(scale=0.25, size=1000)
y = 3 * X**3 + 2 * X**2 + eps
data = pd.DataFrame({'X': X, 'y': y})

## Exploratory Data Analysis

### Statistik Tentang Data

In [None]:
data.head()

In [None]:
data.info()

In [None]:
data.describe().T

### Plot Data

Karena data yang digunakan hanya terdiri dari 2 variabel, maka data dapat dengan mudah divisualisasikan menggunakan scatter plot.

In [None]:
plt.scatter(x=data['X'], y=data['y'], alpha=0.5)
plt.show()

### Cek Korelasi

Perlu juga melakukan pengecekan korelasi antar variabel agar dapat melihat gambaran hubungan antar variabel. Korelasi positif berarti 2 variabel tersebut bergerak ke arah bersamaan. Korelasi negatif berarti ketika variabel yang 1 bertambah, variabel yang lain berkurang. 

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://en.wikipedia.org/wiki/Correlation">Correlation</a></li>
    <li><a href="https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation">Correlation does not imply causation</a></li>
</ul>
</div>

In [None]:
sns.heatmap(data.corr(), annot=True)
plt.show()
#korelasi tinggi (hampir 1) karena data hanya ada 2 variable dan y dibentuk dari x

## Berbagai Jenis Algoritma Regresi

### Split Dataset

Untuk keperluan training dan testing model, data akan dibagi menjadi 2 bagian, yaitu **train data** dan **test data**.

<div class="alert alert-block alert-warning">
Mengapa dataset harus dibagi menjadi train data dan test data?
</div>

![Train_Test_Split.png](attachment:79925a41-1d28-490f-bb34-c3ed92252a9d.png)

Selain membagi dataset dengan cara di atas, terdapat beberapa cara membagi dataset menjadi train data dan test data yang sering digunakan, antara lain:
- [KFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)
- [ShuffleSplit](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.ShuffleSplit.html)

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/cross_validation.html">Cross-validation: evaluating estimator performance</a></li>
</ul>
</div>

note: kenapa split data? karena model harus diuji dulu lalu perform di data yang baru, kalau semua kalau jadi pengujian maka tidak ada pembuktian. model dianggap bagus kalau perform di data yang baru

training data jangan sedikit, tp test data juga perlu jumlah yang mumpuni biar hasi pengujiannya lebih mendekati aslinya

pembagian data ga harus 80% 20%. (baca KFold dan Shuffle Split)
KFold: misalnya data ada 3: maka data dibagi 3 dulu lalu salah satu dibagi 3 untuk test train, sisa 2nya jadi test-train dari model sebelumnya dimana sisa 2 ini juga dibagi 3 dengan test-train menggunakan posisi berbeda). real modeling pakai KFold

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(data[['X']], data['y'], test_size=0.2, random_state=100)

### Linear Regression

Linear regression mecoba menemukan persamaan linier yang paling dapat menjelaskan data, hal ini dilakukan dengan meminimalkan error prediksi.

$$\min{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$$

dimana

$$\hat{y}_i = w_0 + \sum_{j=1}^{p} w_j X_{ij}$$

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://deepai.org/machine-learning-glossary-and-terms/ordinary-least-squares">Ordinary Least Squares</a></li>
    <li><a href="https://www.cs.princeton.edu/courses/archive/fall18/cos324/files/linear-regression.pdf">Ordinary Least Squares Linear Regression (pdf)</a></li>
    <li><a href="https://tungmphung.com/regularization-for-linear-regression/">Regularization for Linear Regression</a></li>
</ul>
</div>

note: 
meminimalkan error dengan membuat banyak model dan memilih eror terendah. jadi akan dibuat banyak model dari "y", maka dicari persamaan garis lurusnya

kalau linear kurang kepake di data yang besar karena garis akan meningkat akibat peningkatan koefisien x

#### Train Model

In [None]:
from sklearn.linear_model import LinearRegression

linreg = LinearRegression()
linreg.fit(X_train, y_train)

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html">sklearn.linear_model.LinearRegression</a></li>
</ul>
</div>

#### Cek Koefisien ($w$)

In [None]:
print('Weight 0 = {:.3f}, Weight 1 = {:.3f}'.format(linreg.intercept_, linreg.coef_[0]))

Model regresi linear yang didapatkan adalah $y_i = -0.963 + 4.759 X_i$

Persamaan linier di atas dapat langsung digunakan untuk memprediksi $y$ dengan memasukkan nilai $X$.
Sebagai contoh, apabila $X = 2$, maka $y = -0.963 + 4.759 \times 2$, sehingga $y = 8.555$.

note: y= w0+w1
wo: intercept
w1: koefisien
maka akan dicari y dari koifisien

#### Visualize Model

In [None]:
X_viz = pd.DataFrame({'X': np.linspace(0, 1, num=1000)})
y_viz = linreg.predict(X_viz)

In [None]:
plt.scatter(x=X_train['X'], y=y_train, alpha=0.5)
plt.title('Linear Regression')
plt.plot(X_viz['X'], y_viz, color='red')
plt.show()

### Polynomial Regression

Polynomial regression sebenarnya sama saja dengan linear regression, akan tetapi feature (X) di-transform menjadi beberapa features baru sesuai dengan polynomial degree yang ditentukan sebelum akhirnya features tersebut digunakan sebagai input pada linear regression.

misalnya kalau X dibuat degree 3 maka x= x, x^2 dan x^3
jadi kolom x akan berrtambah seiring dengan penambahan degree
maka x jadi multivariat dan dimasukkan dalam rumus y=w0+wx
koefisien jadi 3

hasilnya garis makin mendekati sebaran y. hasilnya features(x) akan tetap punya hubungan dengan label(y) tapi features dibuat jadi 3 dimana hubungan antar features  tidak linear (polynomial), ga mesti garis lurus tapi ga ada kondisi dimana ketika x naik dan y turun

#### Train Model

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

polyreg = make_pipeline(PolynomialFeatures(degree=3, include_bias=False),
                        LinearRegression())
polyreg.fit(X_train, y_train)
print('Jumlah features setelah transformasi PolynomialFeatures = {}'.format(polyreg.named_steps['polynomialfeatures'].n_output_features_))

Pada contoh di atas, dengan menggunakan parameter `degree=3`, variabel $X$ ditransformasikan menjadi 3 variabel, yaitu $X$, $X^2$, dan $X^3$.

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html">sklearn.preprocessing.PolynomialFeatures</a></li>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.make_pipeline.html">sklearn.pipeline.make_pipeline</a></li>
</ul>
</div>

#### Cek Koefisien ($w$)

In [None]:
print('Weight 0 = {:.3f}, Weight 1-3 = {}'.format(polyreg.named_steps['linearregression'].intercept_,
                                                  [round(x, 3) for x in polyreg.named_steps['linearregression'].coef_]))

#akan muncul 3 koefisien
#maka akan mirip rumus y= 3x^3+2x^2+e

Model regresi linear yang didapatkan adalah $y_i = -0.028 + 0.378 X_i + 1.281 {X_i}^2 + 3.332 {X_i}^3$

#### Visualize Model

In [None]:
X_viz = pd.DataFrame({'X': np.linspace(0, 1, num=1000)})
y_viz = polyreg.predict(X_viz)

In [None]:
plt.scatter(x=X_train['X'], y=y_train, alpha=0.5)
plt.title('Polynomial Regression (degree=3)')
plt.plot(X_viz['X'], y_viz, color='red')
plt.show()
#hasilnya garis makin mendekati sebaran y. hasilnya features(x) akan tetap punya hubungan dengan label(y) tapi features dibuat jadi 3 
#dimana hubungan antar features  tidak linear (polynomial), ga mesti garis lurus tapi ga ada kondisi dimana ketika x naik dan y turun

### Decision Tree Regressor

#### Train Model

In [None]:
from sklearn import tree

dtreg = tree.DecisionTreeRegressor(criterion='squared_error',
                                   max_depth=None, #berapa ke bawah
                                   min_samples_split=2, #cabangnya min brp
                                   min_samples_leaf=1,
                                   max_leaf_nodes=None)
dtreg.fit(X_train, y_train)

DecisionTreeRegressor()

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html">sklearn.tree.DecisionTreeRegressor</a></li>
</ul>
</div>

#### Cek Decision Tree

In [None]:
print('Decision tree memiliki depth = {} dan jumlah node = {}'.format(dtreg.tree_.max_depth, dtreg.tree_.node_count))

In [None]:
tree.plot_tree(dtreg, max_depth=2)
plt.show()

#### Visualize Model

In [None]:
X_viz = pd.DataFrame({'X': np.linspace(0, 1, num=1000)})
y_viz = dtreg.predict(X_viz)

In [None]:
plt.scatter(x=X_train['X'], y=y_train, alpha=0.5)
plt.title('Decision Tree Regressor')
plt.plot(X_viz['X'], y_viz, color='red')
plt.show()

### Random Forest Regressor

#### Train Model

In [None]:
# termasuk ensemble method: bagging - random forest, boosting (setidaknya)
# ketika ada 1 data baru, data tsb masuk ke pohon2 tsb
# tiap pohon menghasilkan 1 prediksi lalu di agregat dlm bentuk rata2
from sklearn.ensemble import RandomForestRegressor

rfreg = RandomForestRegressor(n_estimators=100, #banyaknya pohon
                              criterion='squared_error',
                              max_depth=None,
                              min_samples_split=2,
                              min_samples_leaf=1,
                              max_leaf_nodes=None,
                              bootstrap=True,
                              max_samples=0.5, #setiap pohon ditrain dgn data yg berbeda sebanyak 50% dari data = 800*50% = 400
                              random_state=100)
rfreg.fit(X_train, y_train)

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html">sklearn.ensemble.RandomForestRegressor</a></li>
    <li><a href="https://en.wikipedia.org/wiki/Bootstrap_aggregating">Bootstrap aggregating</a></li>
</ul>
</div>

#### Visualize Model

In [None]:
X_viz = pd.DataFrame({'X': np.linspace(0, 1, num=1000)})
y_viz = rfreg.predict(X_viz)

In [None]:
plt.scatter(x=X_train['X'], y=y_train, alpha=0.5)
plt.title('Random Forest Regressor')
plt.plot(X_viz['X'], y_viz, color='red')
plt.show()

### Neural Network

juga disebut universal function approximeter.
dengan cukup memberikan hidden layer dan nodes bisa memperkirakan dgn batas keakuratan tertentu

![Neural_Network.png](attachment:7628729f-d984-4f2e-ae37-ab8598a00519.png)

<div class="alert alert-block alert-warning">
Apa kegunaan activation function? Jenis-jenis activation function?
</div>
tanpa activation function hanya kumpulan linear regression yg panjang pdhal data tidak selalu linear.
act function, membuat linear network menjadi tidak linear
tumpukan2 hidden layer itu lah yg menjadi tidak linear
contoh act function = sigmoid / logic function


input layer model neural network tergantung dimensi data kita
yang nentuin hidden layer adalah kita sebagai data sciencenya
hyper parameter tunning utk library mencari parameter yg optimal.

#### Train Model

In [None]:
from sklearn.neural_network import MLPRegressor

nnreg = MLPRegressor(hidden_layer_sizes=(100), # hidden layer 1 tapi 100 ke bawah # (10,10) hidden layer nya 10, tiap layer ada 10 nodes
                     activation='relu', # klo f(x) 0 maka hasilnya nol, ga bisa di bawah
                     max_iter=5000, # menunggu sampe di 5000 iterasi klo belum selesai yah selsai di 5000
                     batch_size='auto',
                     random_state=100)
nnreg.fit(X_train, y_train)

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html">sklearn.neural_network.MLPRegressor</a></li>
    <li><a href="https://www.v7labs.com/blog/neural-networks-activation-functions">12 Types of Neural Network Activation Functions: How to Choose?</a></li>
</ul>
</div>

#### Visualize Model

In [None]:
X_viz = pd.DataFrame({'X': np.linspace(0, 1, num=1000)})
y_viz = nnreg.predict(X_viz)

In [None]:
plt.scatter(x=X_train['X'], y=y_train, alpha=0.5)
plt.title('Neural Network')
plt.plot(X_viz['X'], y_viz, color='red')
plt.show()

## Evaluasi Model

### Underfitting vs. Overfitting

![Underfitting_Overfitting.png](attachment:52ca007c-15c2-499c-95d0-6d8de0fdcbf2.png)

Model dengan high bias tetapi low variance akan memiliki kecenderungan untuk underfit, sedangkan model dengan low bias tetapi high variance akan memiliki kecenderungan untuk overfit. Target utamanya adalah membuat model yang memiliki low bias dan low variance.

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff">Bias–variance tradeoff</a></li>
</ul>
</div>

### Metrics

Terdapat beberapa metrics yang umum digunakan untuk mengukur kemampuan prediksi model regresi, antara lain:
- $R^2$ (Coefficient of Determination) #max 1, makin besar makin bagus
$$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y}_i)^2}$$
- MSE (Mean Squared Error) #makin kecil makin bagus
$$\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$
- RMSE (Root Mean Squared Error) #makin kecil makin bagus
$$\text{RMSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \sqrt{(y_i - \hat{y}_i)^2}$$
- MAE (Mean Absolute Error) #makin kecil makin bagus
$$\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|$$
- MAPE (Mean Absolute Percentage Error) #makin kecil makin bagus
$$\text{MAPE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \frac{\left| y_i - \hat{y}_i \right|}{\max{(\epsilon, \left| y_i \right|)}}$$

<div class="alert alert-block alert-info">
Baca lebih lanjut:
<ul>
    <li><a href="https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics">Regression Metrics</a></li>
</ul>
</div>

In [None]:
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

def calculate_metrics(y_true, y_pred):
    r2 = r2_score(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    rmse = mean_squared_error(y_true, y_pred, squared=False)
    mae = mean_absolute_error(y_true, y_pred)
    mape = mean_absolute_percentage_error(y_true, y_pred)
    return [r2, mse, rmse, mae, mape]
    
# helper function untuk menampilkan beberapa metrics sekaligus
def print_regression_metrics(model_name, y_true, y_pred):
    r2, mse, rmse, mae, mape = calculate_metrics(y_true, y_pred)
    
    print('Evaluasi Performa Model: {}'.format(model_name))
    print('R squared: {:.2f}'.format(r2))
    print('MSE: {:.2f}'.format(mse))
    print('RMSE: {:.2f}'.format(rmse))
    print('MAE: {:.2f}'.format(mae))
    print('MAPE: {:.2f}'.format(mape))
    print()
    
    return [r2, mse, rmse, mae, mape]

### Evaluasi Model Regresi

#### Linear Regression

In [None]:
y_train_linreg = linreg.predict(X_train)
linreg_train_scores = print_regression_metrics('Linear Regression (Train Data)', y_train, y_train_linreg)

y_test_linreg = linreg.predict(X_test)
linreg_test_scores = print_regression_metrics('Linear Regression (Test Data)', y_test, y_test_linreg)

linreg_scores = {'metric_name': ['R squared', 'MSE', 'RMSE', 'MAE', 'MAPE'],
                 'train': linreg_train_scores,
                 'test': linreg_test_scores}
scores_df = pd.DataFrame(linreg_scores)
scores_df.plot.bar(x='metric_name', figsize=(20, 5))
plt.show()

#### Polynomial Regression

In [None]:
y_train_polyreg = polyreg.predict(X_train)
polyreg_train_scores = print_regression_metrics('Polynomial Regression (Train Data)', y_train, y_train_polyreg)

y_test_polyreg = polyreg.predict(X_test)
polyreg_test_scores = print_regression_metrics('Polynomial Regression (Test Data)', y_test, y_test_polyreg)

polyreg_scores = {'metric_name': ['R squared', 'MSE', 'RMSE', 'MAE', 'MAPE'],
                  'train': polyreg_train_scores,
                  'test': polyreg_test_scores}
scores_df = pd.DataFrame(polyreg_scores)
scores_df.plot.bar(x='metric_name', figsize=(20, 5))
plt.show()

#### Decision Tree Regressor

In [None]:
y_train_dtreg = dtreg.predict(X_train)
dtreg_train_scores = print_regression_metrics('Decision Tree Regressor (Train Data)', y_train, y_train_dtreg)

y_test_dtreg = dtreg.predict(X_test)
dtreg_test_scores = print_regression_metrics('Decision Tree Regressor (Test Data)', y_test, y_test_dtreg)

dtreg_scores = {'metric_name': ['R squared', 'MSE', 'RMSE', 'MAE', 'MAPE'],
                'train': dtreg_train_scores,
                'test': dtreg_test_scores}
scores_df = pd.DataFrame(dtreg_scores)
scores_df.plot.bar(x='metric_name', figsize=(20, 5))
plt.show()

#### Random Forest Regressor

In [None]:
y_train_rfreg = rfreg.predict(X_train)
rfreg_train_scores = print_regression_metrics('Random Forest Regressor (Train Data)', y_train, y_train_rfreg)

y_test_rfreg = rfreg.predict(X_test)
rfreg_test_scores = print_regression_metrics('Random Forest Regressor (Test Data)', y_test, y_test_rfreg)

rfreg_scores = {'metric_name': ['R squared', 'MSE', 'RMSE', 'MAE', 'MAPE'],
                'train': rfreg_train_scores,
                'test': rfreg_test_scores}
scores_df = pd.DataFrame(rfreg_scores)
scores_df.plot.bar(x='metric_name', figsize=(20, 5))
plt.show()

#### Neural Network

In [None]:
y_train_nnreg = nnreg.predict(X_train)
nnreg_train_scores = print_regression_metrics('Neural Network (Train Data)', y_train, y_train_nnreg)

y_test_nnreg = nnreg.predict(X_test)
nnreg_test_scores = print_regression_metrics('Neural Network (Test Data)', y_test, y_test_nnreg)

nnreg_scores = {'metric_name': ['R squared', 'MSE', 'RMSE', 'MAE', 'MAPE'],
                'train': nnreg_train_scores,
                'test': nnreg_test_scores}
scores_df = pd.DataFrame(nnreg_scores)
scores_df.plot.bar(x='metric_name', figsize=(20, 5))
plt.show()