Model Linear
===

In [None]:
# Memanggil semua pustaka yang diperlukan
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
# Code di bawah ini hanya "kosmetik" untuk tampilan plot
plt.rcParams['figure.figsize'] = (10, 7)
sns.set_context('talk')
colors = sns.color_palette()

# Regresi Linear

Dalam modul ini, Anda akan mencoba membuat model linear, terkadang dikenal dengan nama *ordinary least squares* (OLS), dari data untuk prediksi tip dan *toy example* untuk fungsi basis polinomial.

## Tugas 1 : Membaca data dari file csv (15 points)
1. Baca data dari file tips.csv menggunakan pandas
2. Simpan hasil pembacaan ke variable `data`
3. Tampilkan 10 data pertama

In [None]:
# Kode Anda di bawah ini


## Tugas 2: Berdasarkan nama-nama kolom yang sudah terlihat di atas, jawab pertanyaan berikut ini: (10 points)
1. Apa saja nama fitur dari dataset tersebut ?<p>
Jawab:
<p>

2. Apa nama label dari dataset tersebut ?<p>
Jawab:

# Regresi Linear menggunakan Library scikit-learn
Referensi: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

## Tugas 3: Membuat model regresi linear dari library scikit-learn (15 points)
1. Assign model ke variabel `reg`
2. Lakukan fitting data dengan fitur: total_bill dan target: tip
3. Lakukan prediksi dengan semua data dari fitur: total_bill, simpan ke variable: `y_pred`

In [None]:
# Kode anda di bawah ini
from sklearn.linear_model import LinearRegression




# Menampilkan data dan hasil prediksi

Garis hijau yang dihasilkan di bawah adalah fungsi linear yang dicocokkan dengan data. Perhatikan bahwa model linear yang digunakan dalam pustaka `seaborn` menggunakan `statsmodels`, bukan `scikit-learn`.

In [None]:
ax = plt.gca()
sns.regplot(
    x=data['total_bill'].values,
    y=data['tip'],
    color=colors[2],
    fit_reg=True,
    ci=0,
    marker='.'
)
plt.xlim(0.7, 54)
plt.xlabel('total bill')
sns.despine()

Model regresi linear sederhana berusaha untuk meminimalkan *residual error*, lebih tepatnya *sum of squared error* yang didefinisikan sebagai

$$
E(w) = \frac{1}{2} \sum_{i=1}^N (y_i - \mathbf{w}^T\mathbf{x}_i)^2
$$

Bagian $y_i - \mathbf{w}^T\mathbf{x}_i$ adalah yang didefinisikan sebagai *residual error* atau yang digambarkan sebagai garis abu-abu pada gambar di bawah. Perhatikan bahwa fungsi error ini bersifat konveks, i.e. hanya ada satu titik optimal.

In [None]:
ax = plt.gca()
sns.regplot(
    x=data['total_bill'].values,
    y=data['tip'],
    color='tab:green',
    fit_reg=True,
    ci=0,
    marker='.'
)
plt.xlim(0.7, 54)
plt.xlabel('total bill')
plt.vlines(
    x=data['total_bill'].values,
    ymin=data['tip'],
    ymax=y_pred,
    color='grey',
    alpha=0.3
)
plt.annotate(
    'residual',
    xy=(39, 7),
    xytext=(30, 8),
    arrowprops=dict(
        arrowstyle='->',
        facecolor='k',
        connectionstyle='angle3,angleA=-90,angleB=0'
    )
);

Kita dapat dengan mudah membuat ekstensi dari model linear saat menambahkan variabel baru dan menghasilkan *hyperplane* untuk dimensi $D$ alih-alih garis seperti pada contoh dua dimensi di atas. Dalam contoh di bawah ini, `total_bill` dan `size` untuk prediksi `tip` membentuk bidang. 

In [None]:
# Tampilkan semua data total_bill, size, dan tip dalam 3D 
fig = plt.figure(figsize=(10,7))
ax = fig.add_subplot(111, projection='3d')

xs = data['total_bill'].values
ys = data['size']
zs = data['tip']
ax.scatter(xs, ys, zs, color='tab:blue')
ax.view_init(20, -60)
ax.set_xlabel('total bill', labelpad=10)
ax.set_ylabel('size', labelpad=15)
ax.set_zlabel('tip', labelpad=10)

## Tugas 4: Prediksi dengan 2 Fitur (20 points)
referensi: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
1. Lakukan fitting terhadap fitur: total_bill dan size, dengan label: tip
2. Simpan nilai koefisien (w) ke dalam variable `w1` dan `w2` (karena ada 2 fitur)
3. Simpan nilai intercept ke variable `w0`
4. Buat model dengan rumus zz = $w_0 + w_1 \times xx + w_2 \times yy$

In [None]:
fig = plt.figure(figsize=(10,7))
ax = fig.add_subplot(111, projection='3d')

xs = data['total_bill'].values
ys = data['size']
zs = data['tip']
ax.scatter(xs, ys, zs, color='tab:blue')
ax.view_init(20, -60)
ax.set_xlabel('total bill', labelpad=10)
ax.set_ylabel('size', labelpad=15)
ax.set_zlabel('tip', labelpad=10)

# Menyiapkan meshgrid untuk membentuk bidang
xx = np.linspace(*data['total_bill'].agg(['min','max']))
yy = np.linspace(*data['size'].agg(['min','max']))
xx, yy = np.meshgrid(xx, yy)

# Kode Anda di bawah ini


# Jangan hapus kode di bawah ini
ax.plot_surface(xx, yy, zz, cmap='viridis', alpha=0.3)

## Basis Functions

Ketika hubungan antara variabel independen dan dependennya tidak berupa garis lurus, i.e. linear, maka perlu dilakukan transformasi terhadap data agar kita tetap dapat menggunakan model OLS.

In [None]:
np.random.seed(42)

x = np.random.random(25) * 2 * np.pi
y = np.sin(x) + np.random.randn(25) * 0.05

ax = plt.gca()
plt.scatter(x, y, marker='o')
plt.xlabel('x')
plt.ylabel('y')
sns.despine()

Melatih model OLS dengan data secara langsung hanya akan menghasilkan model yang mengalami *underfitting*, i.e. model tidak berhasil menangkap pola data yang sebenarnya.

## Tugas 5 (10 points)
1. Reshape x menjadi 1 kolom dan simpan dalam variable `x_1col`
2. Lakukan fitting linear regression terhadap `x_1col` dan label `y`

In [None]:
# kode Anda di bawah ini


In [None]:
# Tampilkan data dan hasil prediksi linear regression
xfit = np.linspace(x.min(), x.max())
yfit = reg.predict(xfit.reshape(-1,1))

ax = plt.gca()
plt.scatter(x, y, marker='o')
plt.plot(xfit, yfit, c='red')
plt.xlabel('x')
plt.ylabel('y')
sns.despine()

### Polynomial Basis Functions

Transformasi dengan fungsi basis polinomial mentransformasikan data sehingga model OLS tetap dapat bekerja dengan baik. Untuk memudahkan visualisasi, sementara waktu kita akan melihat data yang lebih mudah untuk ditransformasi. Agar lebih mudah terlihat, kita gunakan satu prediktor yang memiliki hubungan kubikal dengan variabel yang ingin kita prediksi. Di bawah ini disertakan data dan model OLS yang langsung diterapkan pada data yang ada.

## Tugas 6 (25 points)
Dengan cara yang sama seperti Tugas 5 diatas, lalukan prediksi terhadap x lalu tampilkan semua data dan hasil prediksinya terhadap data di bawah ini

In [None]:
np.random.seed(42)

n = 30
x = np.random.random(n) * 10
y = x ** 3 + 5 * np.random.randn(n)

# kode Anda di sini


Mentransformasi nilai $x$ menjadi $x^3$ pada contoh di bawah membantu kita melihat secara visual bahwa sekarang hubungannya kembali linear!

*Catatan: Perhatikan label sumbu x-nya!*

In [None]:
np.random.seed(42)

n = 30
x = np.random.random(n) * 10
y = x ** 3 + 5 * np.random.randn(n) # kita seringnya tidak tahu relasi ini dalam dunia nyata

ax = plt.gca()
sns.regplot(x=x ** 3, y=y, ci=False, ax=ax)
plt.xlabel('$x^3$')
plt.ylabel('$y$');

Berdasarkan contoh di atas, kita dapat mentransformasikan data agar model dapat mengenali pola dengan baik.

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures

np.random.seed(42)

x = np.random.random(25) * 2 * np.pi
y = np.sin(x) + np.random.randn(25) * 0.05

def draw_poly(order=2, ax=None, regressor=LinearRegression(fit_intercept=False), c='r', label=None):
    pipe = make_pipeline(
        PolynomialFeatures(order),
        regressor
    )

    support = np.linspace(0, 2 * np.pi)
    pipe.fit(x.reshape(-1,1), y)
    y_pred = pipe.predict(support.reshape(-1,1))

    if ax:
        ax.plot(support, y_pred, c=c, label=label)
        ax.set_xlabel('x')
        ax.set_ylabel('y')
        sns.despine()

In [None]:
ax = plt.gca()
ax.scatter(x, y, marker='o')
# Menggambar hasil prediksi dengan orde 3
draw_poly(3, ax=ax, c=colors[3]);

Model telah berhasil menemukan pola umum dalam data! Namun, apa yang terjadi kalau kita buat model semakin kompleks dengan meningkatkan orde polinomialnya?

## Tugas 7 (5 points)
Gambar hasil prediksi dengan polynomial orde 15

In [None]:
# Kode Anda di bawah ini


Ternyata modelnya menjadi terlalu fleksibel sehingga tidak hanya mengenali pola utama (sinyal), tetapi juga *noise*-nya! Bagaimana menemukan moderasinya? Kita akan bahas ini di praktikum selanjutnya.