<a href="https://colab.research.google.com/github/izzunnafis/learn/blob/main/Lingkar_Pascasarjana_ITB_Vol_6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresi Linear
---

Problem Statement: Ask a home buyer to describe their dream house, and they probably won't begin with the height of the basement ceiling or the proximity to an east-west railroad. But this playground competition's dataset proves that much more influences price negotiations than the number of bedrooms or a white-picket fence.

Dataset: https://www.kaggle.com/datasets/camnugent/california-housing-prices.

Task: Gunakan regresi untuk memprediksi nilai *median_house_value*

---

## A. Persiapan Environment
1. (Opsi 1) File disimpan pada google drive
- Menghubungkan google colab dengan google drive
- Memindahkan direktori kerja ke folder tempat dataset tersimpan
- Import python libraries yang digunakan
- Load data sebagai python dataframe

In [None]:
# Connect to drive


In [None]:
# Move working directory to yours (hint: use terminal command)


In [None]:
# Import python libraries


In [None]:
# Load dataset into pandas dataframe format (hint: use data structure from panda)


2. (Opsi 2) File langsung diupload
- Mengupload file
- Load data sebagai python dataframe

In [None]:
# Upload file directly


In [None]:
# Load dataset into pandas dataframe format (hint: use data structure from panda)


3. Cek dataframe

In [None]:
# Call the previously created dataframe


## B. Analisa dan Eksplorasi Data
1. Rangkuman umum dataset
2. Rangkuman statistik data
3. Visualisasi data

In [None]:
# Dataset summary


In [None]:
# Dataset statistic summary


In [None]:
# Data Visualization


## C. Data Preparation
1. Pembersihan Null value
2. Pembagian data menjadi data latih, validasi, dan uji

In [None]:
# Null cleaning


In [None]:
# Check new cleaned dataframe


In [None]:
# Split data to train, validation, and test set


In [None]:
# Print the result


## D. Kasus Regresi *Single Variable*

---

Pada regresi *single variable*, output ùíö diperoleh dari hasil perkalian antara nilai bobot $w$ dan satu variabel masukan $x$ serta nilai bias $b$. Atau dapat pula dinyatakan dengan

$y = xw + b$

Nilai $y$ adalah nilai dari *median_house_value* sementara masukan $x$ akan ditentukan berdasar proses analisis. Nilai bobot $w$ akan ditentukan dengan proses pelatihan menggunakan data latih. Algoritma *gradient_descent* digunakan dalam proses pelatihan ini. Untuk itu, pada bagian ini, tahapan-tahapan yang dilakukan adalah:
1. Analisis dan pemilihan variabel masukan
2. Normalisasi data
3. Proses pelatihan dengan data latih
4. Proses pengujian dengan data uji

### 1. Analisis dan Pemilihan Variabel Masukan

Analisis dilakukan dengan memperhatikan korelasi antara kandidat variabel masukan dengan variabel *median_house_value*. Nilai korelasi ini cukup penting mengingat model prediksi yang digunakan adalah regresi linear. Semakin baik korelasi antara dua data, maka hasil yang diperoleh dengan metode regresi linear juga akan semakin baik.

In [None]:
# Variable correlation evaluation (graph)


In [None]:
# Variable correlation evaluation (numeric)


Variabel yang memiliki korelasi yang baik adalah ...

In [None]:
# Copy variable with the best correlation


In [None]:
# Visualize them


### 2. Normalisasi Data

Pada proses normalisasi data ini, nilai data masukan diolah sedemikian sehingga memiliki nilai rataan pada 0 dan standar deviasi pada 1. Dengan demikian didapat nilai dari rataan $\mu$ dan *standard deviation* $\sigma$ dari variabel masukan $x$ sedemikian sehingga $\frac{(x-\mu)}{\sigma}$ memiliki rataan pada 0 dan standar deviasi pada 1.

Sementara itu data output juga diperlakukan dengan perlakuan yang sama dengan nilai rataan $\mu_y$ dan *standard deviation* $\sigma_y$

In [None]:
# Check the statistical summary of the isolated dataframe


In [None]:
# Get the mean and standard deviation value


In [None]:
# Normalize the data


In [None]:
# Show the mean and standar deviation value of normalized data


### 3. Training Model

- **Rumus penting:** <br>

a. *Loss Function*

Digunakan *mean squared error* yang dapat dinyatakan dengan persamaan

$F = \frac{1}{n} Œ£_n (y_{pred}-y_{actual})^2 $

In [None]:
def mse_loss(y_pred, y_actual):
  return ((y_pred-y_actual)**2).mean()

b. *Forward Propagation*

$y = \bar{x}\bar{w} + b$

Untuk kasus *single variable* diperoleh

$y = x_1w_1 +  b$

Sedangkan untuk kasus *multi varieble* diperoleh

$y = x_1w_1 + x_2w_2 +...+ x_nw_n + b$

Definisi fungsi berikut dapat digunakan untuk kasus *single variable* maupun *multi variable*

In [None]:
def forward_pass(x_data, w_data, b_data):
  return np.dot(x_data, w_data) + b_data

c. *Backward Propagation*

Sesuai dengan algoritma *gradient descent*, untuk memperbaharui nilai bobot $w_i$, dimiliki persamaan

$w_i[k+1] = w_i[k]-a\frac{\partial{F}}{\partial{w_i}}$

diperoleh

$w_i[k+1] = w_i[k]-2a\times (y_{pred}-y_{actual})\times x_i$

dengan $a$ adalah nilai *learning rate*. Diperoleh pula

$b[k+1] = b[k]-2a\times (y_{pred}-y_{actual})$

In [None]:
def backward_pass(w_data, x_data, b_data, a, y_pred, y_actual):
  multiplier = 2*a*(y_pred-y_actual)
  return w_data - np.dot(multiplier, x_data), b_data - multiplier.sum()

- Proses training
Algoritma *gradient descent* diterapkan dan diiterasi sebanyak 100 kali. *Learning rate* ditetapkan bernilai 0.000001. Nilai bobot dan awal ditetapkan seragam dengan nilai 0.0

In [None]:
# Parameter and initialization

# Convert data into matrix

# Start gradient descent

# Get the latest coefficient value

# Plotting


In [None]:
# Print last error val

### 4. Pengujian dan Evaluasi

Karena terdapat tahapan normalisasi pada data latih. Maka pada proses pengujian, perlu dilakukan beberapa penyesuaian yaitu:

1. Data input pengujian harus dinormalisasi dengan nilai *mean* dan *standard deviation* yang diperoleh pada data latih
2. Data output hasil prediksi harus dikali dan ditambah secara berturut-turut dengan nilai $\sigma_y$ dan $\mu_y$ yang diperoleh saat pelatihan

- Persiapan variabel input data uji

In [None]:
# Get the latitude_longitude variable

# Normalize the input data

- Prediksi nilai output
Dengan menggunakan bobot dan bias yang diperoleh saat pelatihan, dengan menggunakan regresi *single variable* diperoleh hasil prediksi dari data uji

Data output hasil prediksi harus dikali dan ditambah secara berturut-turut dengan nilai $\sigma_y$ dan $\mu_y$ karena saat proses pelatihan, telah dilakukan proses normalisasi terhadap nilai $y_{actual}$

In [None]:
# Get the test data

# Get the output

# Multiply the output with the standard deviation and then add it with the mean


- Hasil dari data uji
Berikut hasil plot yang membandingkan hasil prediksi dan nilai actual dari beberapa sampel data uji.

In [None]:
# Plot the result of some sample data


In [None]:
# Loss value
