# Introduction to Regression

*Linear Model* merupakan salah satu teknik yang paling umum digunakan dalam *supervised learning*. 

Pada kertas kerja ini, kita akan membahas 3 model linear yang akan digunakan untuk *regression* dan *classification*. Sebelumnya, kita akan membahas mengenai permasalahan regresi terlebih dahulu dengan menggunakan persamaan linear.

## Regression
Terdapat 3 (tiga) jenis linear regresi yang digunakan, 

* Simple Linear Regression: <br>
Persamaan regresi linear sederhana hanya terdiri dari 2 parameter utama. Sehingga, persamaan tersebut dapat kita tuliskan sebagai berikut: $\displaystyle y=mx+b+\epsilon $.

* Multiple Linear Regression:<br>
Persamaan regresi ini memiliki banyak variabel, namun memiliki dimensi tinggi *higher order dimension*. Persamaan tersebut dapat dituliskan sebagai berikut: $\displaystyle y=m_{1} x_{1} +m_{2} x_{2} +m_{3} x_{3} +b+\epsilon $
    
* Polynomial Regression:<br>
Persamaan *polynomial* memiliki derajat fleksibilitas tinggi. Pada umumnya, garis yang terbentuk dari funsi persamaan terlihat seperti gelombang. Persamaan tersebut dapat dituliskan sebagai berikut:
$\displaystyle y=m_{1} x_{1} +m_{2} x^{2}_{2} +m_{3} x^{3}_{3} +m_{i} x^{n}_{i} +b$

### Simple Linear Regression 
Bagian ini akan mendiskusikan mengenai *Simple linear regression* dengan cara membuat data dan sebarannya, kemudian kita akan mencari nilai parameter $x$.

Pertama, lakukan import library yang dibutuhkan. Terdapat 2 *library* yang kita butuhkan yatu *numpy* dan *matplotlib*. *Numpy* digunakan untuk membuat variabel dalam bentuk matriks sedangkan *matplotlib* digunakan untuk mem-plot atau memvisualisasikan data dalam bentuk *chart*.


In [None]:
#Import library
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

#### Buat data dummy
Pertama, kita akan men-generate 100 data *dummy* dengan memanfaatkan fungsi *uniform random distribution*. Data yang kita buat harus ke dalam rentang [0,1] dengan fungsi $ runif \in [0,1]$. Data ini akan digunakan sebagai input X.

In [None]:
# 100 samples uniform data
runif = np.random.uniform(size=100)
X = runif * 100

Berikutnya, kita akan menentukan koefisien *m* dan *b* dari persamaan linear, dan men-generate data *Y*. Di tahap ini kita akan memperkenalkan *noise* dalam data kita. *Noise* ini di-generate dari data distribusi random normal*(gaussian distribution)*.


In [None]:
# m and b coefficients
m,b = 4,6
# generate noise data
noise = np.random.normal(size=100) * 10
# generate Y data
Y = (m*X) + b + noise

Kedua data *X* dan *Y* memiliki bentuk **ndArray (Numpy Array)** sebagai bentuk *native* dari matriks.

In [None]:
# Plot the data
plt.figure(figsize=(16, 8)) # setting dimensi plot
plt.xlabel('X') # nama label untuk x-axis
plt.ylabel('Y') # nama label untuk y-axis
plt.scatter(X, Y, c='black') # c='black' digunakan untuk setting warna setiap data
plt.show()

Untuk mencari linearlity kita bisa memanfaatkan rumus persamaan regresi linear berikut ini:
\begin{gather*}
m=\frac{\sum y_{i} x_{i} \ -\ \overline{y}\sum x_{i}}{\sum x^{2}_{i} -\overline{x}\sum x_{i}}\\
b=\frac{\overline{y}\sum x^{2}_{i} -\overline{x}\sum y_{i} x_{i}}{\sum x^{2}_{i} -\overline{x}\sum x_{i}}
\end{gather*}

Dengan rumus tersebut di atas, maka kita bisa mendapatkan koefisien *m* dan *b* secara mudah.
\begin{equation*}
\hat{y} \ =\ mx\ +\ b
\end{equation*}

Kali ini kita akan menuliskan persamaan tersebut ke dalam bentuk kode sumber berikut ini:

In [None]:
# compute the denominator as d
d = np.sum(X*X) - (X.mean() * np.sum(X))
# compute m and b coefficients
m_reg = (np.sum(X * Y) - Y.mean()*np.sum(X))/d
b_reg = (Y.mean() * np.sum(X * X) - X.mean() * np.sum(X * Y) )/ d

Setelah itu, kita bisa tampilkan estimasi dari koefisien *m* dan *b* yang kita dapatkan melalui rumus di atas.

In [None]:
print("Y = {0}x + {1}".format(m_reg,b_reg))

Kita bisa tampilkan persamaan tersebut di atas ke dalam bentuk plot.

In [None]:
# compute the y_hat
Y_hat = m_reg*X + b_reg

# Plot the X, Y and Y_hat in one figure
plt.figure(figsize=(16, 8))
plt.xlabel('X')
plt.ylabel('Y')
plt.scatter(X, Y)
plt.plot(X, Y_hat,c='red')
plt.show()

#### Simple Linear Regression dengan scikit learn
Sekarang, alih-alih kita menuliskan kode secara manual, kita dapat memanfaatkan library *scikit learn* untuk melakukan penghitungan linear regresi. Sekarang kita akan mencoba membandingkan performa dari *scikit learn* dengan metode yang kita buat sebelumnya. Pertama, kita perlu cek versi dari *scikit-learn* yang kita miliki. Gunakan versi 0.20 ke atas.

In [None]:
from sklearn import __version__ as skversion
print('The scikit-learn version is {}.'.format(skversion))

*LinearRegression* merupakan salah satu kelas di dalam modul *linear_model* yang digunakan untuk regresi sederhana dan multiple. Secara umum, anatomi penggunaan dari *scikit-learn* hampir semua **sama** untuk model yang ada.

1. Buat objek model
2. Panggil fungsi **fit**
3. Panggil fungsi **predict** untuk memprediksi suatu input


In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
X = X.reshape(-1,1)
Y = Y.reshape(-1,1)
model = LinearRegression()
model.fit(X, Y)
print("The linear model is: Y = {:.5}X + {:.5}".format(model.coef_[0][0], model.intercept_[0]))

In [None]:
plt.figure(figsize=(16, 8))
plt.xlabel('X')
plt.ylabel('Y')

predictions = model.predict(X)
plt.scatter(X, Y)
plt.plot(X, predictions,c='black')
plt.show()



Dapat kita lihat dari gambar di atas, kita bisa lihat garis hitam sebagai garis regresi dimana parameternya dibentuk oleh *scikit-learn* melalui fungsi *fit*. 
<br>

#### Train, testing, split
Permasalahan muncul apabila kita ingin mengevaluasi performa dari model yang ingin kita gunakan apabila kita menggunakan seluruh data yang ada. Padahal, kita telah menggunakan keseluruhan data yang kita miliki untuk men-training model kita. Oleh karena itu, kita harus memecah antara data training dan data testing yang kita miliki. 

Kali ini , kita akan menggunakan metode `train_test_split` yang disediakan oleh `sklearn`. Pertama, kita membutuhkan 3 tambahan modul yaitu `metrics, pandas` dan `train_test_split`. `Metrics` berfungsi untuk mengukur performa model yang akan kita gunakan. Kemudian `pandas` akan kita gunakan untuk menampung pecahan data. Terakhir, `train_test_split` akan digunakan dengan menggunakan 20% dari data yang dimiliki.

In [None]:
from sklearn import metrics
import pandas as pd
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [None]:
model = LinearRegression()  
model.fit(X_train, y_train) #training the algorithm
print("The linear model is: Y = {:.5}X + {:.5}".format(model.coef_[0][0], model.intercept_[0]))

Mari kita lihat seberapa jauh antara nilai sesungguhnya dengan nilai prediksi yang ada.

In [None]:
y_pred = model.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

In [None]:
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()

#### Evaluasi Performa Model
Kali ini kita akan menggunakan 3 matriks pengukuran model di antaranya adalah *Mean Absolute Error (MEA), Mean Squared Error (MSE),* dan *Root Mean Squared Error (RMSE)*. 

1. Mean Aboslute Error (MEA) adalah nilai rata-rata absolut dari setiap hasil prediksi model. <br>
$\displaystyle MAE=\frac{1}{n}\sum ^{n} |y_{i} -\hat{y}_{i} |$
2. Mean Squared Error (MSE) adalah nilai rata-rata pangkat dua dari setiap hasil prediksi model.<br>
$\displaystyle MSE=\frac{1}{n}\sum ^{n}\left( y_{i} -\hat{y}^{2}_{i}\right)$
3. Root Mean Squared Error (RMSE) adalah akar dari MSE.<br>
$\displaystyle RMSE=\sqrt{\frac{1}{n}\sum ^{n}\left( y_{i} -\hat{y}^{2}_{i}\right)}$

In [None]:
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
print('R squared value:', metrics.r2_score(y_test,y_pred))

Dari pengukuran hasil di atas, terlihat bahwa besar nilai MAE dan RMSE memiliki kemiripan dengan rentang sebesar 10-12 poin. Nilai ini merupakan hasil rata-rata pengukuran setiap *"kesalahan prediksi"* yang dilakukan oleh model, tentunya semakin kecil nilai ini semakin baik. Sedangkan, nilai R2 sebesar 98% menandakan bahwa sebanyak 98% nilai dapat dijelaskan oleh model kita.

### Multiple Linear Regression
Pada multiple linear regression, sebagaimana persamaan berikut $\displaystyle y=m_{1} x_{1} +m_{2} x_{2} +m_{3} x_{3} +b+\epsilon $. Kita akan menggunakan dataset `wine`.

In [None]:
from sklearn.utils import shuffle

In [None]:
df_wine = pd.read_csv('winequality.csv')
df_wine = shuffle(df_wine)
df_wine.reset_index(inplace=True, drop=True)

In [None]:
df_wine.describe()

Terdapat sebanyak 1599 data dalam dataset tersebut. Sekarang, Anda diminta untuk melakukan proses pembuatan model *multiple linear regression* dengan menggunakan cara yang sama seperti di atas. 

Hal yang pertama kali kita lakukan terhadap data ini adalah memisahkan antara data training dan data validasi. Ambil 99 data validasi untuk data validasi.

In [None]:
df_wine_validasi = df_wine.iloc[:99,:]
df_wine = df_wine.iloc[99:,:]

In [None]:
print('Jumlah data training:',len(df_wine))
print('Jumlah data validasi:',len(df_wine_validasi))

Pertama, lakukan pemisahan antara *features* dengan *target* variable yang akan kita gunakan.

In [None]:
X = df_wine.iloc[:,:-1].values
Y = df_wine.iloc[:,-1].values

Lakukan `train_test_split` terhadap dataset dengan mengalokasikan 20% data testing.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

Lakukan `fit` model atas data training, dan tampilkan koefisien dari masing-masing parameter terhadap fiturnya.

In [None]:
model.coef_

In [None]:
# fit model
model = LinearRegression()  
model.fit(X_train, y_train)

# tampilkan parameter beserta fiturnya dalam satu bentuk dataframe
paramaters = pd.DataFrame(model.coef_, df_wine.columns[:-1], columns=['Coefficient'])
paramaters

Tampilkan nilai prediksi dari data testing (*predicted*), dan tampilkan secara bersama-sama dengan nilai sesusungguhnya (*actual*).

In [None]:
y_pred = model.predict(X_test)
result = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
result.head(20)

Tampilkan grafik batang (*bar chart*) antara nilai *predicted* dan *actual*.

In [None]:
result.head(20).plot(kind='bar',figsize=(10,8))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()

In [None]:
print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
print('R squared value:', metrics.r2_score(y_test,y_pred))

#### Validasi atas model
Sekarang, kita akan menggunakan data validasi yang telah kita pisahkan sebelumnya yaitu `df_wine_validasi`.

In [None]:
X_wine_validasi_features = df_wine_validasi.iloc[:,:-1].values
Y_wine_validasi_label = df_wine_validasi.iloc[:,-1].values

In [None]:
Y_wine_validasi_pred = model.predict(X_wine_validasi_features)

In [None]:
Y_wine_validasi_pred

In [None]:
# print('Mean Absolute Error:', metrics.mean_absolute_error(Y_wine_validasi_label, Y_wine_validasi_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(Y_wine_validasi_label, Y_wine_validasi_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(Y_wine_validasi_label, Y_wine_validasi_pred)))
print('R squared value:', metrics.r2_score(Y_wine_validasi_label,Y_wine_validasi_pred))

### Polynomial Regression
Sekarang kita akan menggunakan *polynomial regression* dengan cara membandingkan performa dari model sebelumnya kita gunakan.

Untuk itu kita akan gunakan data dummy

In [None]:
np.random.seed(42)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 0.5 * X**2 + X + 2 + np.random.randn(m, 1)
plt.figure(figsize=(16, 8))
plt.scatter(X, y, s=10)
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.show()

#### Simple Linear

In [None]:
model = LinearRegression()
model.fit(X, y)
model.intercept_, model.coef_

In [None]:
y_new = model.predict(X)
plt.figure(figsize=(16, 8))
plt.scatter(X, y, s=10)
plt.plot(X, y_new, "r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.show()

#### Polynomial 
Sekarang kita akan menggunakan model polynomial

In [None]:
from sklearn.preprocessing import PolynomialFeatures
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)
X[0]

In [None]:
X_poly[0]


In [None]:
model = LinearRegression()
model.fit(X_poly, y)
model.intercept_, model.coef_

Dari data tersebut di atas maka persamaan *polynomial* nya adalah $\displaystyle \hat{y} =0.56x^{2}_{1} +0.93x_{1} +1.78$

In [None]:
# generate 100 data dari titik -3 sampai titik 3, kemudian ubah dimensinya menjadi 100 X 1
X_new=np.linspace(-3, 3, 100).reshape(100, 1)

X_new_poly = poly_features.transform(X_new)
y_new = model.predict(X_new_poly)
plt.figure(figsize=(16, 8))
plt.scatter(X, y, s=10)
plt.plot(X_new, y_new, "r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.show()

In [None]:
poly_features = PolynomialFeatures(degree=15, include_bias=False)
X_poly = poly_features.fit_transform(X)
model = LinearRegression()
model.fit(X_poly, y)
X_new=np.linspace(-3, 3, 100).reshape(100, 1)
X_new_poly = poly_features.transform(X_new)
y_new = model.predict(X_new_poly)
plt.figure(figsize=(16, 8))
plt.scatter(X, y, s=10)
plt.plot(X_new, y_new, "r-", linewidth=2, label="Predictions")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.legend(loc="upper left", fontsize=14)
plt.show()

### Evaluasi model
Anda silakan menghitung Nilai MSE, MAE dan RMSE serta R-squared untuk masing-masing jumlah polynomial yang Anda tentukan sendiri menggunakan langkah-langkah di atas.

## Ridge and Lasso Regression
Di sini kita akan mempelajari mengenai perbedaan hasil antara standard linear regression (multiple) dengan ridge dan lasso regression. Data yang digunakan adalah data penjualan yang mungkin dipengaruhi oleh biaya yang dikeluarkan untuk iklan di Radio, Koran dan TV. 

In [None]:
# load data
df_adv = pd.read_csv('Advertising.csv')

In [None]:
df_adv.head()

Hilangkan kolom pertama, karena itu hanya urutan saja. Silakan pilih diantara kedua cara ini
``` python
    df_adv.drop(df_adv.columns[0], axis=1, inplace=True)
    df_adv.drop(['Unnamed: 0'], axis=1, inplace=True)
```

In [None]:
df_adv.drop(df_adv.columns[0], axis=1, inplace=True)

In [None]:
df_adv.head()

In [None]:
df_adv.columns

Sekarang kita akan membuat plot untuk predictor dan target variable.

In [None]:
def scatter_plot(data, feature, target):
    plt.figure(figsize=(16, 8))
    plt.scatter(
        data[feature],
        data[target],
        c='black'
    )
    plt.xlabel("Money spent on {} ads ($)".format(feature))
    plt.ylabel("Sales ($k)")
    plt.show()

In [None]:
scatter_plot(df_adv, 'TV','sales')

In [None]:
scatter_plot(df_adv, 'radio','sales')

In [None]:
scatter_plot(df_adv, 'newspaper','sales')

### Multiple linear regression

In [None]:
from sklearn.model_selection import cross_val_score

Xs = df_adv.drop(['sales'], axis=1)
y = df_adv['sales'].values.reshape(-1,1)

lin_reg = LinearRegression()

MSEs = cross_val_score(lin_reg, Xs, y, scoring='neg_mean_squared_error', cv=5)

mean_MSE = np.mean(MSEs)

print(mean_MSE)

### Ridge 

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import Ridge

alpha = [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]

ridge = Ridge()

parameters = {'alpha': [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]}

ridge_regressor = GridSearchCV(ridge, parameters,scoring='neg_mean_squared_error', cv=5)

ridge_regressor.fit(Xs, y)

In [None]:
ridge_regressor.best_score_


### Lasso

In [None]:
from sklearn.linear_model import Lasso

lasso = Lasso()

parameters = {'alpha': [1e-15, 1e-10, 1e-8, 1e-4, 1e-3,1e-2, 1, 5, 10, 20]}

lasso_regressor = GridSearchCV(lasso, parameters, scoring='neg_mean_squared_error', cv = 5)

lasso_regressor.fit(Xs, y)

In [None]:
lasso_regressor.best_score_


## Logistic Regression
Sebagaimana kita ketahui Logistic Regression digunakan untuk melakukan fungsi klasifikasi. Klasifikasi adalah proses penentuan kelas atas suatu data berdasarkan fitur-fiturnya. Hasil penghitungan *Logistic Regression* berupa nilai probabilitas.

Untuk contoh pertama kita akan menggunakan data sederhana yang menunjukkan hubungan antara jumlah waktu belajar sekelompok mahasiswa dengan tingkat kelulusannya. 

In [None]:
# Import library
from sklearn.linear_model import LogisticRegression

In [None]:
df_study = pd.read_csv('StudyHours_Pass.csv')
df_study.head()

Sebelum dilakukan Dari data di atas, kita ingin mengetahui ada berapa nilai atribut yang ada di dalam kolom `Pass`? Hal ini menjadi penting, karena kita ingin mengetahui bentuk nilai dari kolom tersebut.

In [None]:
df_study.Pass.unique()

#### Encoding
Dalam *Machine Learning*, kata dan huruf sulit tidak bisa secara langsung digunakan di dalam proses pembelajaran *(learning)*. Oleh karena itu, dibutuhkan suatu mekanisme untuk mengubahnya menjadi angka. 

Untuk data kategorikal (salah satunya adalah binary), kita bisa menggunakan modul `label_encoder` untuk mengubahnya menjadi angka atau kita bisa membuatnya secara manual. Berikut ini adalah kode untuk mengubahnya secara manual.

```python
df_lr.Pass.replace(to_replace={'Tidak Lulus':0, 'Lulus':1}, inplace=True)
```

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()
le.fit(df_study['Pass'])

In [None]:
list(le.classes_)

In [None]:
le.transform(df_study['Pass'])

Kita lakukan proses transformasi data.

In [None]:
df_study.Pass = le.transform(df_study['Pass'])
# df_study.Pass = LabelEncoder().fit_transform(df_study['Pass'])

Pisahkan antara target variabel dengan variabel bebas. Gunakan method `values` dan `reshape` karena model baru akan efisien ketika menerima data berupa `ndarray`. 

In [None]:
X = df_study.Hours.values.reshape(-1,1)
y = df_study.Pass.values.reshape(-1,)

In [None]:
LogReg = LogisticRegression(solver='lbfgs',random_state=40)
LogReg.fit(X,y)

In [None]:
X[0]

In [None]:
X_new = np.linspace(0, 5.5, 1000).reshape(-1, 1)
y_proba = LogReg.predict_proba(X_new)

plt.figure(figsize=(16, 8))

plt.plot(X_new, y_proba[:, 1], "g-", linewidth=2, label="Tidak Lulus")
plt.plot(X_new, y_proba[:, 0], "b--", linewidth=2, label="Lulus")

plt.legend(loc="center left", fontsize=14)

Dapat dilihat pada grafik di atas, `decision boundary` yang cukup jelas pada menjelang angka 3. Di samping itu, nilai probabilitas kelulusan akan meningkat seiring dengan jumlah waktu belajar yang dialokasikan.