**Inclass: Regression Model**
- Durasi: 7 hours
- _Last Updated_: Desember 2023

___

- Disusun dan dikurasi oleh tim produk dan instruktur [Algoritma Data Science School](https://algorit.ma).

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from helper import linearity_test

# Introduction

Machine learning bertujuan untuk membuat mesin yang belajar berdasarkan data. Machine learning terbagi dua:

<img src="assets/supervised_unsupervised.png" width="900">


**Supervised Learning**: 

* memiliki target variable. 
* untuk pembuatan model prediksi (y ~ x)
* ada ground truth (label aktual) sehingga ada evaluasi model

**Unsupervised Learning**: 

* tidak memiliki target variable. 
* untuk mencari pola dalam data sehingga menghasilkan informasi yang berguna/dapat diolah lebih lanjut. umumnya dipakai untuk tahap explanatory data analysis (EDA)/data pre-processing.
* tidak ada ground truth sehingga tidak ada evaluasi model 

# Regression Model

Regression model merupakan **Supervised Learning** karena data yang dibutuhkan harus memiliki target variabel (y). Target variabel dari Regression Model harus bertipe numerik, namun untuk prediktornya (x) boleh numerik/kategorik

📝**Business Problem**

Pemilihan variabel target biasanya dikaitkan dengan masalah bisnis yang ingin diselesaikan:

1. Sebuah dealer mobil berusaha membangun sebuah model untuk memprediksi harga mobil untuk digunakan sebagai patokan ketika membuka harga transaksi. Untuk itu mereka mengembangkan sebuah model dengan:

     * Variabel target: 
     * Variabel prediktor: 

2. Seorang mahasiswa pertanian diminta untuk melakukan analisis regresi untuk memprediksi produktivitas padi dari berbagai lahan di Pulau Jawa. Untuk itu ia mengembangkan sebuah model dengan:

     * Variabel target:
     * Variabel prediktor: 

# **Regression Modeling Workflow** - Predicting Property Sales Price: in Jakarta, Tangsel, and Depok Area

Sebagai Tim Data di sebuah institusi perbankan, kita diminta untuk melakukan analisis untuk mengetahui prediksi harga properti untuk acuan dasar data credit KPR. 

Keinginan untuk memiliki properti sendiri merupakan impian banyak orang. Selain bisa dijadikan tempat tinggal, memiliki properti di Jakarta dan Depok adalah salah satu aset investasi yang menguntungkan karena harganya yang cenderung naik setiap tahunnya.  

Dalam proses pencarian tempat tinggal idaman ini, beberapa orang mungkin saja mengalami hambatan, yaitu kesulitan dalam mencari tempat tinggal yang sesuai dengan spesifikasi yang diinginkan dan budget yang dimiliki. Banyak orang menemukan tempat tinggal dengan harga yang cukup mahal namun tidak sesuai dengan spesifikasi yang ditawarkan.

***Apakah terdapat sistem yang dapat memberikan referensi harga properti?”*** menjadi tujuan analisis pada pembahasan analisis kita.

## Simple Linear Regression

Pada Simple Linear Regression, kita akan membuat model regresi dengan **satu buah variabel prediktor**. Formula untuk simple linear regression adalah

Formula model simple linear regression:

$$
\hat{y}=\beta_0+\beta_1.x_1
$$

dimana:
- $\hat{y}$ : nilai prediksi target variabel
- $\beta_0$ : nilai intercept (nilai target variabel ketika kita tidak memiliki prediktor sama sekali)
- $\beta_1$ : nilai slope (nilai kemiringan garis regresi / nilai kontribusi prediktor dalam menentukan target variabel)

Bagaimanakah kita mendapatkan garis yang paling representatif terhadap data kita?

> Regresi bekerja berdasarkan konsep **Ordinary Least Square** yang mencari persamaan garis linear dengan nilai **error terkecil**. Error adalah selisih nilai prediksi/nilai pada garis dengan nilai aktual.

<!-- Note: Jika Anda membuka docstring (dokumentasi) untuk fungsi OLS() pada statsmodel, ada keterangan parameter `endog` dan `exog` yang dapat diakses pengertiannya secara lebih lanjut pada [dokumentasi berikut](https://www.statsmodels.org/stable/endog_exog.html) -->

### 1. Import data

Kita akan gunakan data `properti.csv` yang tersimpan di folder data_input. Data yang diambil adalah data hasil scrapping dari website https://www.rumah123.com/

In [None]:
# code ini untuk mengatur pemisah angka ribuan
pd.options.display.float_format = '{:,.3f}'.format

In [None]:
# Data
properti = pd.read_csv("data_input/properti_jual.csv")

In [None]:
properti.head()

Berikut deskripsi variabel dari data tersebut:
- `K..Mandi`: Jumlah kamar mandi pada suatu properti

- `K..Tidur`: Jumlah kamar tidur pada suatu properti

- `L..Bangunan`: Luas bangunan properti (m2)

- `Sertifikat`: Jenis sertifikat atas properti yang di jual
    - `Sertifikat Hak Pakai`
    - `Sertifikat Hak Sewa`
    - `Sertifikat lainnya (PPJB, Girik, Adat, dll)`
    - `Sertifikat PPJB`
    - `Sertifikat Hak Milik`
    
- `Tipe.Properti`: Jenis properti yang dijual
    - `Rumah`: Untuk tipe properti rumah
    - `Apartemen`: Untuk tipe properti apartemen
    
- `Kota`: Lokasi kota tempat properti di jual
    - `Depok`
    - `Jakarta Selatan`
    - `Jakarta Timur`
    - `Jakarta Utara`
    - `Jakarta Barat`
    - `Jakarta Pusat`
    - `Tangerang Selatan`
- `Price`: Nominal harga properti yang dijual

### 2. Inspect data berdasarkan tipe datanya

In [None]:
## code here
properti.dtypes

Tipe data yang belum sesuai adalah : 
- ...

In [None]:
# Object nama kolom kategori
cat_var = 

# Mengubah tipe data dari beberapa kolom


In [None]:
# Cek kembali hasil proses perubahan tipe data


### 3. Cek missing value

Sangat penting untuk mengidentifikasi apakah terdapat missing value di dataset kita sebelum dilakukan pemodelan machine learning. 
> ❓ Karena missing value dapat mempengaruhi performa model secara signifikan

#### Missing value ada disebabkan karena:
1. Kesalahan koleksi data
2. Permasalahan pada saat preprocessing
3. Sesimple karena data tidak terkumpul oleh sebagian observasi

Metode yang dapat dilakukan untuk mengetahui apakah pada data yang diolah memiliki nilai *missing* dengan menggunakan fungsi `isnull().sum()`.

In [None]:
## melihat nilai missing


### 4. 🎯 Mendefinisikan Business Problem

Dari pernyataan bisnis yang diajukan, **kita ingin melakukan prediksi harga properti berdasarkan Luas Bangunan**

❓ Berdasarkan kolom-kolom data, mari kita coba tentukan kolom apa yang akan menjadi *target* dan *prediktor*?

- Variabel target: 
- Variabel prediktor: 

### 5. Exploratory Data Analysis (EDA)

* <u>**Descriptive Statistics**</u>

Analisis statistik deskriptif digunakan untuk memberikan **gambaran awal mengenai distribusi dan perilaku data** dengan melihat nilai minimum, nilai maximum, rata – rata (mean), dan standar deviasi dari masing-masing variabel independen dan variabel dependen.

Method `describe()` menampilkan 8 ringkasan statistika deskriptif. Secara default menampilkan ringkasan untuk kolom numerik.

❓ Apakah ada hal yang menarik dari hasil describe di atas?

* <u>**Cek korelasi antar variabel target dan prediktor**</u>

Biasanya uji korelasi ini akan sangat berhubungan dengan uji regresi yang menunjukkan apakah masing-masing variabel saling berhubungan erat. Meskipun variabel tersebut saling berhubungan erat atau berkorelasi, belum tentu variabel tersebut saling mempengaruhi. 

Dalam analisis korelasi ini, output yang dihasilkan hanya dalam rentang **-1 sampai 1**

- Bila korelasi dua variabel numerik **mendekati -1** artinya **korelasi negatif kuat**
- Bila korelasi dua variabel numerik **mendekati 1** artinya **korelasi positif kuat**
- Bila korelasi dua variabel numerik **mendekati 0** artinya **tidak berkorelasi**

![korelasi](assets/correlation-coef.jpg)

- Menggunakan nilai korelasi

In [None]:
properti['Price'].corr(properti['L..Bangunan'])

- Menggunakan visualisasi

In [None]:
properti.plot.scatter(x = 'L..Bangunan', y = 'Price')
plt.show()

* **Kesimpulan dari plot:**

> 

Berdasarkan kesimpulan dan analisis yang sudah dilakukan, adakah yang perlu kita lakukan pada data kita?

* <u>**Identifikasi Outlier**</u>

Dari hasil analisa statistik deskriptif belum diketahui apakah pada data yang kita miliki memiliki ***outlier*** atau tidak, maka dari itu mari coba kita lihat dengan menggunakan visualisasi ***Box Plot***.

Visualisasi ***Box Plot*** dapat dibuat dengan menggunakan fungsi `boxplot()` dari `library matplotlib`. 

In [None]:
# Melihat nilai outlier
properti.boxplot(column = 'L..Bangunan')

### 6. Membuat Model Simple Linear Regression 

#### **6.1 Model dengan outlier** 

Dari tahapan EDA (checking outlier) dengan boxplot, diketahui bahwa variabel `L..Bangunan` memiliki nilai outlier.

Selanjutnya jika kita ingin menjawab business problem yang kita miliki, yaitu kita ingin melakukan prediksi harga **Price** properti berdasarkan besaran **Luas Bangunan**. Kita akan memakai seluruh observasi yang ada terlebih dahulu.

<u>**Tahapan 1 - Menentukan Target dan Prediktor**</u>
   - Y   : `df['target']`
   - X   : `sm.add_constant(df['prediktor'])`. Supaya intercept tidak dianggap 0

In [None]:
# membuat objek untuk prediktor (pilih kolom yang akan digunakan)
X_data = 

# menambahkan intercept/add_constant
X_data = sm.add_constant(...)

# membuat objek target
Y_data = 

<u> **Tahapan 2 - Membuat model Prediksi**</u>

Untuk membuat model regresi linier di Python kita akan menggunakan fungsi `OLS()` dari package `statsmodels`.

Syntax: `sm.OLS(target, prediktor).fit()`

In [None]:
# Membuat model
lm_outlier = 

<u>**Tahapan 3 - Melihat hasil / menginterpretasikan model** </u>
   - intercept dan slope: `model.params`
   - summary model      : `model.summary()`  

In [None]:
# Summary model



📝 **Interpretasi model :**

1. **Model linier regresi** untuk kasus prediksi harga properti di daerah Jakarta, Depok, dan Tangsel adalah:

> `Price = b0 + b1*L..Bangunan`

> `Price =  ... + ...*L..Bangunan`
   - slope    : 
   - intercept: 
   
2. **Signifikansi prediktor** (bandingkan nilai p-value dengan alpha)
   - H0: Luas Bangunan tidak mempengaruhi Harga Properti
   - H1: Luas Bangunan mempengaruhi Harga Properti
   
    **Note:** Ketika p-value < 0.05 (alpha) maka kesimpulannya adalah menolak H0 yang berarti Luas Bangunan signifikan berpengaruh terhadap Harga properti

   > p-value : 
   
   > Kesimpulan : 
   
3. **Goodness of fit** (melihat nilai R-squared, dimana **0 ≤ $R^2$ ≤ 1**)
   
   Nilai R-Squared merepresentasikan % variasi dari data yang berhasil dijelaskan oleh model.
   
   - Semakin mendekati 1, mengindikasikan model semakin fit
   - Semakin mendekati 0, mengindikasikan model tidak fit
   
   > R-Squared: 
   
   > Kesimpulan :

**[Optional] Other Information in Summary**

1. Tabel 1, sisi kiri menyimpan informasi dasar dari model
    - Dep. Variable   : Target variabel (Y)
    - Model           : Model regresi linier
    - Method          : Metode yang digunakan untuk membuat model regresi linier
    - No. Observations:	Jumlah observasi yang digunakan ketika membuat model regresi linier
    - DF Residuals    :	Degrees of freedom error/residual (**No. Observations - parameter**)
    - DF Model        :	Degrees of freedom model (**jumlah prediktor**)


2. Tabel 1, sisi kanan menyimpan informasi kebaikan model
    - **R-squared**         : Goodness of fit
    - **Adj. R-squared**    : Goodneess of fit untuk multiple linear regression
    - F-statistic       : Statistik hitung dari F-test (uji simultan)
    - Prob (F-statistic): p-value dari F-test 
        
        a. H0 --> Tidak ada prediktor yang berpengaruh signifikan terhadap target
        
        b. H1 --> Min terdapat 1 prediktor yang berpengaruh signifikan terhadap target
    - Log-likelihood    : Log dari nilai likelihood.
    - AIC               : Akaike Information Criterion (information loss)
    - BIC               : Bayesian Information Criterion (serupa dengan AIC, namun perhitungan nilainya berbeda)

3. Tabel 2 menyimpan informasi dari koefisien regresi
    - **coef**              : Estimasi koefisien
    - std err               : Estimasi selisih nilai sampel terhadap populasi
    - t                     : Statistik hitung dari t-test (uji parsial)
    - **P > |t|**               : P-value dari t-test
    - [95.0% Conf. Interval]: Confidence Interval (CI) 95%


4. Tabel 3 menyimpan hasil uji statistik error/residual
    - Omnibus	D’Angostino’s test: Statistik hitung untuk pengujian **Skewness** dan **Kurtosis**
    - Prob(Omnibus): p-value dari **Omnibus	D’Angostino’s test**
    - Skewness: Mengukur kecondongan distribusi error
    - Kurtosis:	Mengukur keruncingan distribusi error
    - Durbin-Watson: Statistik hitung pengujian autokorelasi
    - Jarque-Bera:	Serupa dengan **Omnibus	D’Angostino’s test**, namun memiliki perhitungan yang berbeda
    - Prob (JB): p-value dari **Jarque-Bera**
    - Cond. No: Pengujian multicolinearity

<u> **Tahapan 4 - Hasil Visualisasi 2 Dimensi** </u>
    
- hanya bisa untuk 1 variabel prediktor

In [None]:
# Plot scatter
properti.plot.scatter(x='L..Bangunan', y='Price')

# Plot garis linear model
plt.plot(properti['L..Bangunan'], lm_outlier.fittedvalues, c='red')
plt.show()

<u>**Tahapan 5 - Melakukan Prediksi Model**</u>

❓🏠 **Business Question**:
Terdapat properti A dengan Luas Bangunan 90m2. Kita diminta untuk memprediksi harga properti A, berapakah harga prediksinya?

In [None]:
## code here (manual)
intercept = 
slope = 

house_price_new = 
house_price_new

Untuk melakukan prediksi terhadap beberapa Luas bangunan, dapat menggunakan `model.predict()`

Eg : Data properti dengan Luas Bangunan terbaru

In [None]:
new_house = pd.DataFrame({'L.B': (75, 320, 188, 60, 90)})
new_house

In [None]:
## code here
# predict copiers datasest
X_new = sm.add_constant(...)

lm_outlier.predict(...)

#### **6.2 Model tanpa outlier** 

Untuk membuat model tanpa outlier, langkah pertama yang harus dilakukan adalah melakukan filtering pada data. 

❓ Coba tinjau lagi nilai outlier pada data properti kita, kira-kira berapa threshold batas outlier yang dimiliki?

In [None]:
# melihat nilai outlier kembali dengan boxplot
properti.boxplot('L..Bangunan')

Dalam kasus ini dikarenakan outlier `L..Bangunan` di atas 280 m2, maka data yang digunakan adalah data dengan `L..Bangunan` < 280 m2.

In [None]:
# remove outlier (membuang nilai outlier dengan L.B < 280m2)
properti_new = properti[(properti['L..Bangunan'] < 280)]
properti_new

In [None]:
# melakukan modeling dengan data baru 
# define predictor variable
X_data_no = 
X_data_no = sm.add_constant(...)

#define target variable
Y_data_no = 

# build model with outlier
lm_no_outlier = sm.OLS(..., ...).fit()

lm_no_outlier.summary()

📝 **Interpretasi model:**

1. **Model linier regresi** untuk kasus prediksi harga properti di daerah Jakarta, Depok, dan Tangsel adalah:
   > `Price = b0 + b1*L..Bangunan`
   
   > `Price =  ... + ...*L..Bangunan`
   
   - slope    : 
   - intercept:
   
2. **Signifikansi prediktor** (bandingkan nilai p-value dengan alpha)
    - H0: Luas Bangunan tidak mempengaruhi Harga Properti
    - H1: Luas Bangunan mempengaruhi Harga Properti
    
    **Note:** Ketika p-value < 0.05 (alpha) maka kesimpulannya adalah menolak H0
    
    > p-value :
    
    > Kesimpulan :
   
3. **Goodness of fit** (melihat nilai R-squared, dimana **0 ≤ $R^2$ ≤ 1**)
   
   Nilai R-Squared merepresentasikan % variasi dari data yang berhasil dijelaskan oleh model. **Formula**:  
      
   $R^2=1- \frac {∑ \limits_{i=1}^n (Y_i−\hat Y)^2}{∑ \limits_{i=1}^n(Y_i−\bar Y)^2}$
   
   - Semakin mendekati 1, mengindikasikan model semakin fit
   - Semakin mendekati 0, mengindikasikan model tidak fit
   
   > R-Squared: 
   
   > Kesimpulan : 

In [None]:
# visualize the result
properti.plot.scatter(x='L..Bangunan', y='Price')
# visualisasi model no_outlier
plt.plot(properti_new['L..Bangunan'], lm_no_outlier.fittedvalues, c='black')
# visualisasi model dengan outlier
plt.plot(properti['L..Bangunan'], lm_outlier.fittedvalues, c='red')
plt.show()

## **Leverage vs. Influence**

**Leverage** adalah nilai yang letaknya jauh dari letak observasi lainnya, sering disebut sebagai **outlier**. Nilai leverage dapat mempengaruhi model linier regresi atau pun tidak.

- Ketika **leverage mempengaruhi (menurunkan R-Squared)** model linier regresi: **high influence**, sebaiknya **di-exclude** -> membuat model menjadi lebih jelek
- Ketika **leverage tidak mempengaruhi (meningkatkan R-Squared)** model linier regresi: **low influence**, sebaiknya **di-include** -> membuat model menjadi lebih baik

In [None]:
print("R-Squared model dengan outlier :", (lm_outlier.rsquared).round(2))
print("R-Squared model tanpa outlier :", (lm_no_outlier.rsquared).round(2))

**Kesimpulan**: ...

## Multiple Linear Regression

Linear regression dengan **lebih dari satu prediktor** bisa meningkatkan performa model karena lebih banyak informasi yang dapat menjelaskan target.

Formula multiple linear regression:

$$
\hat{y}=\beta_0+\beta_1.x_1+...+\beta_n.x_n
$$

dimana $\hat{y}$ merupakan prediksi target variabel dan $x_1,...,x_n$ prediktor lainnya. 

Workflow pada simple linear regression dan multiple linear regression adalah sama. Berikut merupakan worklownya:

### 1. Preparation Data

Kita akan membuat multiple linear regression menggunakan data properti untuk memprediksi `Price` berdasarkan keseluruhan variabel.
- y: Price
- x: K..Mandi, K..Tidur, L..Bangunan, Sertifikat, Tipe.Properti, dan Kota

#### 💡 Categorical Predictor: Dummy Variable Encoding

Di Python, data input dan output untuk model *machine learning* harus berbentuk numeric. Ini berarti, ketika data kita mempunyai nilai kategorikal, harus di-*encode* menjadi numerik terlebih dahulu.

Sebelum melakukan fitting model, kita harus mengubah **prediktor kategorik menjadi dummy variable**, dengan cara:

- Dilakukan dengan menggunakan fungsi `pd.get_dummies()`
- **One hot encoding** = mengubah kolom kategorik menjadi kolom-kolom baru dari setiap kategori yang berisi nilai 0 dan 1 
- **Dummy variable** =  mengubah kolom kategorik menjadi kolom-kolom baru yang terdiri dari **k-1 kategori**, berisi nilai 0 dan 1. Kategori yang tidak menjadi kolom, akan menjadi kondisi basis. Untuk membuat dummy variable, tambahkan parameter `drop_first=True`

![](assets/one_hot-dummy.png)

📌 Dalam kasus regresi wajib memakai dummy variabel. 

**💡 NOTES**: Salah satu kolom di-*drop* karena bersifat redundan (berulang). Untuk kolom yang hanya memiliki 2 kategori, tidak ada perbedaan hasil/efek baik ketika memilih ordinal ataupun dummy, akan tetapi best practicenya menggunakan dummy variabel.

Mari kita coba menerapkan **Dummy Variable Encoding** untuk kolom-kolom kategorikal.

In [None]:
properti.head()

In [None]:
# Object nama kolom kategori
cat_dummy = 

# dummy encoding
properti_enc = pd.get_dummies(data = ,
                             columns = ,
                             drop_first = ,
                             dtype = )

# melihat hasil encoding
properti_enc.head()

### 2. Membuat Model Multiple Linear Regression

In [None]:
# membuat objek prediktor dan target
Y = 
X = 

# Membuat model
lm_multiple =

# Melihat summary
lm_multiple.summary()

### 3. Interpretasi Model Multiple Linear Regression

**[Contoh Interpretasi Variabel Kategorik]**

- Terdapat category golongan darah A, AB, B, dan O
- Cara menginterpretasikan model apabila memiliki lebih dari 2 kategori :

> y = b0 + 1.96* gol.darahAB + 0.97* gol.darahB + 1.39* gol.darahO

     - slope gol.darahAB = 1.96, nilai y ketika golongan darah nya adalah AB sebesar **b0 + 1.96**
     - slope gol.darahB = 0.97, nilai y ketika golongan darah nya adalah B sebesar **b0 + 0.97**
     - slope gol.darahO = 1.39, nilai y ketika golongan darah nya adalah O sebesar **b0 + 1.39**
     - nilai y ketika golongan darah nya adalah A sebesar **b0 saja** (b0 + est. gol.darahAB * 0 + est. gol.darahB * 0 + est. gol.darahO * 0)
     - Golongan darah AB meningkatkan nilai y sebesar 1.96 poin dibandingkan golongan darah A (Basis)

In [None]:
lm_multiple.params

📝 **Interpretasi model:**

**1. Interpretasi masing-masing variabel** 

contoh:
   - `K..Tidur`: 
   - `L..Bangunan`: 
   - `Sertifikat_HS - Hak Milik`: 
   - `Kota_Jakarta Selatan`: 
   
**2. Signifikansi prediktor**
   - variabel signifikan (p-value < 0.05) : 
   - variabel tidak signifikan (p-value < 0.05) : 

note: untuk prediktor kategorik, dianggap signifikan mempengaruhi target jika salah satu kategori signifikan

### 4. Prediksi

Setelah model terbentuk, model tidak dapat langsung digunakan sebelum melewati tahap evaluasi.

Tahapan evaluasi dapat dilakukan dengan melakukan **prediksi** terhadap data yang ada. Prediksi model dapat dilakukan dengan memanfaatkan fungsi `predict()`, berikut syntax yang dapat digunakan:

> `nama_model.predict(data_prediktor)`

In [None]:
# membuat kolom prediksi yang berisi hasil dari prediksi model
properti_enc['Prediksi'] = lm_multiple.predict(X)
properti_enc.head()

### 5. Goodness of Fit: R-Squared vs. Adj. R-Squared

Perbedaan R-Squared dan Adj. R-Squared:

- **R-Squared**: Seberapa baik model menjelaskan data, dengan mengukur seberapa besar informasi (variansi) dari target dapat dijelaskan oleh prediktor. Sehingga, jelas ketika **prediktor bertambah**, informasi (variansi) yang dirangkum semakin banyak atau dengan kata lain jelas nilai **R-Squared akan meningkat**.

    > Syntax: `nama_model.rsquared`

- **Adj. R- Squared**: tidak demikian pada adj. r-squred, karena disesuaikan dengan jumlah prediktor yang digunakan. Adj. r-squared akan meningkat hanya jika prediktor baru yang ditambahkan mengarah pada hasil prediksi yang lebih baik (prediktor signifikan mempengaruhi target)

    > Syntax: `nama_model.rsquared_adj`
   
Mari kita bandingan nilai R-Squared dan Adj. R-Squared antara `lm_outlier` dengan `lm_multiple`!

In [None]:
# R-Squared
print('R-Squared Simple Linear Regression :', (lm_outlier.rsquared))
print('R-Squared Simple Linear Regression :', (lm_multiple.rsquared))

In [None]:
# Adj R-Squared
print('Adj R-Squared Simple Linear Regression :', (lm_outlier.rsquared_adj))
print('Adj R-Squared Simple Linear Regression :', (lm_multiple.rsquared_adj))

📝 **Kesimpulan**: Berdasarkan nilai R-Squared dan Adj R-Squared, maka model yang terbaik adalah model `lm_multiple`

### Model Evaluation : Nilai Error

Untuk melihat apakah prediksi yang dibuat menghasilkan nilai error terkecil
  
**Error/residual adalah selisih antara hasil prediksi dengan nilai aktual.**

$$
Error/residual = actual - prediction = y - \hat y
$$

Terdapat beberapa nilai error yang ada :

1. MAE (Mean Absolute Error): Memperlakukan error dengan lebih ringan. **Formula:**
   $$
   MAE = \frac{1}{N} \sum_{i=1}^{N} \left | y_{i} - \hat{y} \right |
   $$

1. RMSE (Root Mean Square Error): Memperlakukan error dengan lebih sensitif. Ketika nilai error besar, maka nilai RMSE akan semakin besar dan sebaliknya. **Formula:**
   $$
   RMSE = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (y_{i} - \hat{y})^{2}}
   $$
     
1. MAPE (Mean Absolute Percentage Error): Menunjukan seberapa besar penyimpangan error dalam bentuk persentase
   $$
   MAPE = \frac{1}{N} \sum_{i=1}^{N} \frac {\left | y_{i} - \hat{y} \right |} {y}
   $$
   
RMSE digunakan ketika model yang dibuat memuat observasi outlier. Sedangkan, MAE digunakan ketika model yang dibuat tidak memuat observasi outlier. MAPE adalah metrik yang baik untuk interpretasi karena mudah dipahami.

**MAE**

Fungsi `meanabs(kolom_target, kolom_prediksi)`

In [None]:
# code here
from statsmodels.tools.eval_measures import meanabs


**RMSE**

Fungsi `rmse(kolom_target, kolom_prediksi)`

In [None]:
# code here
from statsmodels.tools.eval_measures import rmse


**MAPE**

Fungsi `mean_absolute_percentage_error()`

Pada fungsi tersebut nantinya akan kita isi dengan parameter yaitu 

- `y_true` = Parameter ini akan diisi dengan kolom target
- `y_pred` = Parameter ini akan diisi dengan kolom hasil prediksi

In [None]:
# code here
from sklearn.metrics import mean_absolute_percentage_error


# Assumption Checking

Limitasi dari pemodelan linear regresi adalah terdapat beberapa asumsi yang perlu dipenuhi agar model linear regresi dikatakan model yang baik. 
Pendekatan Ordinary Least Square/Linear Regression dikatakan BLUE (Best Linear Unbiased Estimator) ketika memenuhi beberapa uji asumsi berikut:
1. **Linearity**: antara x dan y nya ada hubungan linear  
    - Bisa dilihat dari R-squared model, jika R-squared kecil, maka kemungkinan antara prediktor dan target, tidak ada hubungan linear
2. **Normality of Residual**: Residual nya berdistribusi normal 
    - Saat berdistribusi normal, error berada di sekitar 0
3. **No-Heteroscedasticity**: Variansi residual konstan (tidak membentuk sebuah pola)  
4. **Little to No-Multicollinearity**: antar variabel prediktor nya harus independence (tidak mempunyai hubungan)  


## Linearity

Untuk menguji apakah variabel target dan prediktor memiliki hubungan linear. Dapat dilihat dengan nilai korelasi. 

Linearity artinya target variabel dengan prediktornya memiliki hubungan yang linear atau hubungannya bersifat garis lurus. Selain itu, efek atau nilai koefisien antar variabel bersifat additive. Jika linearity ini tidak terpenuhi, maka otomatis semua nilai koefisien yang kita dapatkan tidak valid karena model berasumsi bahwa pola yang akan kita buat adalah linear.

In [None]:
# Residual vs fitted values
linearity_test(lm_multiple)

Bagaimana apabila ada yang tidak linear?
- Exclude variable tersebut dari model
- Apabila mayoritas variable prediktor tidak linear, maka bisa ganti model

## Normality of Residual

**Harapannya ketika membuat model linear regression**, error yang dihasilkan berdistribusi normal. Artinya error banyak berkumpul disekitar angka 0. Untuk mengecek residual menyebar normal, pengujian yang paling sering dilakukan adalah Shapiro test:
- $H_0$: Residual berdistribusi normal
- $H_1$: Residual tidak berdistribusi normal

Dalam melakukan pengujiannya kita akan dibantu library `scipy` dan memanfaatkan fungsi `shapiro()`. Untuk memanfaatkan fungsi tersebut, kita akan mengeluarkan nilai residu dari model yang sudah dibuat dengan menambahkan `.resid` pada objek model yang dibuat.

📌 **Note**: Jika asumsi normalitas tidak terpenuhi, maka hasil uji signifikansi serta nilai standard error dari intercept dan slope setiap prediktor yang dihasilkan bersifat bias atau tidak mencerminkan nilai sebenarnya. Jika residual memiliki distribusi yang tidak normal, bisa lakukan **transformasi/scaling data pada target variabel** atau **menambahkan sample data**.

In [None]:
pd.DataFrame({
    'Prediction': lm_multiple.fittedvalues,
    'Actual': properti_enc['Price'],
    'Residual': lm_multiple.resid
}).head()

Untuk melakukan pengujian asumsi normality of residual bisa menggunakan visualisasi histogram.

In [None]:
lm_multiple.resid.hist()

Selain itu bisa juga menggunakan pengujian statistik yaitu **Shapiro Test**. Dalam melakukan pengujiannya kita akan dibantu library `scipy` dan memanfaatkan fungsi `shapiro()`. Untuk memanfaatkan fungsi tersebut, kita akan mengeluarkan nilai residu dari model yang sudah dibuat dengan menambahkan `.resid` pada objek model yang dibuat.

In [None]:
from scipy.stats import shapiro
shapiro(lm_multiple.resid)

Nilai p-value yang kita harapkan pada uji shapiro test yaitu **p-value > alpha**.

Handling asumsi yang tidak terpenuhi untuk normality of residuals yaitu dengan cara:
- menambahkan data
- transformasi pada target varibel (y)

## No Heteroscedasticity (Homoscedasticity)

Homocesdasticity menunjukkan bahwa residual atau error bersifat konstan atau tidak membentuk pola tertentu. Jika error membentuk pola tertentu seperti garis linear atau mengerucut, maka kita sebut dengan `Heterocesdasticity` dan akan berpengaruh pada nilai standard error pada estimate/koefisien prediktor yan bias (terlalu sempit atau terlalu lebar).

Untuk mengecek terjadinya heteroscedasticity kita dapat menggunakan Breusch-Pagan test:
- $H_0$: residual homogen(tidak membentuk sebuah pola/acak)
- $H_1$: residual heteros (membentuk sebuah pola)

Kita bisa menggunakan method `het_breuschpagan()` dari library `statsmodels`.

Pada `lm_multiple_new` yang kita miliki, kita bisa memvisualisasikan sebaran dari residual yang ada dengan menggunakan scatter plot.

In [None]:
plt.scatter(y = lm_multiple.resid, x = lm_multiple.fittedvalues)
plt.axhline(y = 0, color = 'r')

In [None]:
from statsmodels.compat import lzip
import statsmodels.stats.api as sms

name = ['Lagrange multiplier statistics', 'p-value', 'f-value', 'f p-value']

test = sms.het_breuschpagan(lm_multiple.resid, lm_multiple.model.exog)
lzip(name, test)

## No Multicolinearity

Harapannya pada model linear regression, tidak terjadi multikolinearitas. Multikolinearitas terjadi ketika antar variabel prediktor yang digunakan pada model memiliki hubungan yang kuat. Ada atau tidak multikolinearitas dapat dilihat dari nilai VIF(Variance Inflation Factor). 

VIF dibagi menjadi beberapa nilai berikut:
- 1 = tidak berkorelasi antar prediktornya
- antara 1 dan 5 = korelasinya moderate
- Lebih besar 5 = paling kuat berkorelasi antar prediktornya
- Biasanya VIF lebih besar 10 adalah yang menunjukkan variabel prediktor sangat berkorelasi kuat.

> Ketika nilai VIF > 10 maka **ada hubungan yang kuat antar prediktor**. Yang diingkan ketika membuat model, nilai VIF < 10 agar **tidak ada hubungan antar prediktor**.

In [None]:
from statsmodels.stats.outliers_influence import variance_inflation_factor
import statsmodels.api as sm

vif = [variance_inflation_factor(X.values, i) for i in range(len(X.columns))]
pd.Series(data=vif, index = X.columns).sort_values(ascending=False)

Jika terjadi multicollinearity, yang bisa dilakukan adalah:
- Membuang salah satu variabel
- Membuat variabel baru, dari rata-rata nilai kedua variabel