# California Housing Price

source : [data_california_house.csv](https://drive.google.com/file/d/1NJ7DsgZ3zIdZWTz17RQWgbtDBuk1JVg3/view)

# Content

1. Business Problem Understanding
1. Data Understanding
1. Data Preprocessing
1. Exploration Data Analysis
1. Modeling
1. Hyperparameter Tuning
1. Compare KNN Tuning Predict dengan Actual
1. Kesimpulan
1. Rekomendasi
1. Using Machine Learning

*****

# Business Problem Understanding

**Context**

Tempat tinggal merupakan kebutuhan pokok setiap manusia. Tetapi tidak semua orang memiliki pengetahuan tentang harga rumah yang sesuai dengan value yang di berikan. Di setiap negara cukup sulit untuk orang awam mengetahui harga rumah yang memiliki harga yang sesuai dengan value yang di berikan rumah atau perumahan tsb. Begitupun di negara california yang memiliki 50 lebih daerah yang tentunya tiap daerah memiliki harga rumah yang berbeda-beda. Fenomena ini menjadi kesempatan dan tantangan tersendiri untuk para developer perumahan untuk dapat membangun perumahan yang memiliki harga yang dapat bersaing di daerah tersebut dan tentunya memiliki value yang sesuai.

**Problem Statement**

Tantangan terbesar untuk para developer perumahan adalah membangun rumah dengan harga dan value rumah yang kompetitif dengan perumahan yang ada di sekitar daerah tersebut. **Sehingga rumah yang di tawarkan atau di bangun oleh developer dapat memberikan keuntungan financial yang maksimal dan rumah yang di bangun juga dapat terjual dengan cepat.**

**Goals**

Developer perumahan perlu memiliki 'tool' yang dapat memprediksi serta membantu mereka untuk dapat **menentukan harga dan value rumah yang akan mereka bangun** adanya perbedaan jumlah kamar, jumlah kamar mandi dan rata" atau median penghasilan masyarakat pada suatu perumahan akan membantu dalam memprediksi harga wajar suatu perumahan di suatu daerah. Yang mana akan mendatangkan profit untuk developer perumahan dan tentunya dengan harga yang kompetitif dan terjangkau orang masyarakat di daerah tersebut.

**Analytic Approach**

Jadi, yang perlu kita lakukan adalah menganalisis data untuk dapat menemukan pola dari fitur - fitur yang ada, yang membedakan satu perumahan dengan perumahan lainnya.

Selanjutnya, kita akan membangun suatu model regresi yang akan membantu Developer Perumahan untuk dapat menyediakan 'tool' prediksi harga rumah yang akan mereka bangun, **yang mana akan berguna untuk developer memperkirakan budget untuk membangun perumahan secara maksimal agar dapat menghasilkan keuntungan finansial yang maksimal dan tentunya dengan value yang dapat bersaing di daerah tersebut.**

**Metric Evaluation**

Evaluasi metrik yang akan digunakan adalah RMSE, MAE, MAPE dan R-Squared, di mana RMSE adalah nilai rataan akar kuadrat dari error, MAE adalah rataan nilai absolut dari error, sedangkan MAPE adalah rataan persentase error yang dihasilkan oleh model regresi. Semakin kecil nilai RMSE, MAE, MAPE yang dihasilkan, berarti model semakin akurat dalam memprediksi harga sewa sesuai dengan limitasi fitur yang digunakan. sedangan R-squared digunakan untuk mengetahui seberapa baik model dapat merepresentasikan varians keseluruhan data. Semakin mendekati 1, maka semakin fit pula modelnya terhadap data observasi. Namun, metrik ini tidak valid untuk model non-linear.

# Data Understanding

> ## Dataset 1 (```data_california_house.csv```)
- dataset merupakan hasil surve sensus perumahan di california pada tahun 1990
- setiap data dalam dataset menginformasikan terkait perumahan dan populasi perumahan

**Attributes Information**

| **Attribute** | **Data Type** | **Description** |
| --- | --- | --- |
| longitude | float64 | Koordinat garis bujur |
| latitude | float64 | Koordinat garis lintang |
| housing_median_age | float64 | Median Umur Rumah |
| total_rooms | float64 | Total Ruangan |
| total_bedrooms | float64 | Total Kamar Tidur |
| population | float64 | Populassi Perumahan |
| households | float64 | Total Rumah Tangga |
| median_income | float64 | Median pendapatan dengan satuan sepuluh ribu US Dollar |
| ocean_proximity | object  | Jarak Perumahan dari Laut |
| median_house_value | float64 | Median Harga Rumah dengan satuan US dollar |

longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity	median_house_value

> ## Dataset 2 (```Data_JALAN_KOTA_DAERAH.csv```)
- dataset ini merupakan interpretasi lokasi perumahan yang di dapat dari mengolah feature ```Latitude```, ```Longitude``` menggunakan library geopy.geocoders yang menghasilkan feature ```road```,	```county```,	```city```,	dan ```state``` 

**Attributes Information**

| **Attribute** | **Data Type** | **Description** |
| --- | --- | --- |
| road | object | Lokasi Jalan Perumahan |
| county | object | Lokasi Daerah Perumahan |
| city | object | Lokasi Kota Perumahan |
| state | object | Negara Perumahan |

# Data Preprocessing

> ## Library and Load Dataset

In [1]:
# Import library yang dibutuhkan untuk eksplorasi dataset
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocessing Data
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, RobustScaler

# Handling Warning
import warnings
warnings.filterwarnings('ignore')

ada 2 data set yang akan di gabung kan yaitu :
1. Dataset ```data_california_house.csv```
2. Dataset ```Data_JALAN_KOTA_DAERAH.csv``` yang berisi feature ```road```, ```county```, ```city```, dan ```state``` yang di olah dari feature ```longtitude``` dan ```latitude``` dari dataset ```data_california_house.csv```. 

Alasan saya membuat feature baru dengan dataset baru karena proses pengolahan convert dari feature ```longtitude``` dan ```latitude``` menjadi feature ```road```, ```county```, ```city```, dan ```state``` memakan waktu yang relatif lama sehingga akan lebih efektif bisa prosesnya saya lakukan di file yang berbeda. file ```ipymb``` juga akan saya lampirkan

In [2]:
# Load dataset
df = pd.concat([pd.read_csv('data_california_house.csv'), pd.read_csv('Data_JALAN_KOTA_DAERAH.csv')], axis = 1)
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data_california_house.csv'

Menggabungkan dataset ```data_california_house.csv``` dan ```Data_JALAN_KOTA_DAERAH.csv```

In [None]:
df.info()

> ## Drop Feature Unamed : 0 dan state

feature ```Unamed : 0``` akan di drop karena feature ini terbentuk karena nomer index dari dataset ```Data_JALAN_KOTA_DAERAH.csv```, sehingga feature tidak memberikan informasi apapun

In [None]:
df.drop('Unnamed: 0', axis = 1, inplace = True)

In [None]:
df['state'].value_counts()

feature ```State``` akan di drop karena feature ini berisi lokasi negara dari longtitude dan latitude, karena dataset ```data_california_house.csv``` di hasilkan dari hasil sensus 1990 di negara california. jadi saya asumsikan 3 lokasi yang selain california adalah di perbatasan california dan masih masuk daerah california. jadi feature ini hanya berisi 1 informasi yaitu lokasi bertempat di negara california saja

In [None]:
df.drop('state', axis = 1, inplace = True)

In [None]:
print(df.info())

Dilihat dari Dtypenya tidak ada feature yang memiliki kesalahan Dtype

Dilihat dari jumlah non-null Beberapa Feature sekilas memiliki data null atau missing value

> ## Cleaning Data
Check Missing Value

In [None]:
print('Jumlah Missing Value \nJumlah Data = 14448')
print(df.isna().sum())
print('\n----Persen Missing Value----')
print(df.isna().sum()/len(df)*100)

beberapa feature yang memiliki missing value dan jumlah missing valuenya sebagai berikut : 
1. total_bedrooms ----- 137
2. road --------------- 732
3. county ------------- 387
4. city --------------- 5858

> ## Handling Missing Value
```total_bedrooms```

In [None]:
df[df['total_bedrooms'].isna() == True]

In [None]:
df['total_bedrooms'].tail()

## Check Oulier pada feature ```total_bedrooms```

In [None]:
sns.boxplot(df['total_bedrooms'])
plt.title("Outlier Total_Bedrooms",size=16)

In [None]:
df['total_bedrooms'].describe()

In [None]:
Q1_bedrooms = df['total_bedrooms'].quantile(0.25)
Q3_bedrooms = df['total_bedrooms'].quantile(0.75)
IQR_bedrooms = Q3_bedrooms - Q1_bedrooms
print(IQR_bedrooms)

In [None]:
oulier_bedrooms = df['total_bedrooms'][df['total_bedrooms'] < (Q1_bedrooms - 1.5 * IQR_bedrooms)] + df['total_bedrooms'][df['total_bedrooms'] > (1.5 * IQR_bedrooms + Q3_bedrooms)]
print(f'Batas bawah = {Q1_bedrooms - 1.5 * IQR_bedrooms}(sama dengan 0 karena tidak ada data di bawah 0)')
print(f'Batas atas = {1.5 * IQR_bedrooms + Q3_bedrooms}')
len(oulier_bedrooms)

Karena feature ```total_bedrooms``` memiliki cukup banyak outlier jadi untuk menggisi nilai nan menjadi **Median** dari ```total_bedrooms```

## Handling Missing Value ```total_bedrooms```

In [None]:
df['total_bedrooms'].fillna(df['total_bedrooms'].median(), inplace=True)
print(df.isnull().sum())
print('5 Baris akhir feature total_bedrooms setelah handle missing value')
print(df['total_bedrooms'].tail())

> ## Handling Missing Value
```road```, ```county```, dan ```city```

In [None]:
# Missing value heatmap
sns.heatmap(df.isnull(), cbar=False);
plt.title('Heatmap Missing Value \n road, county, dan city')

In [None]:
df[df['county'].isna() == True][['road', 'county','city']]

In [None]:
df[df['county'].isna() == True][['city']].value_counts()

In [None]:
df['county'].isna().sum()

In [None]:
df[(df['county'].isna()) & (df['city'] == 'San Francisco')]

Pada feature ```road```, ```county```, dan ```city```. ketiga feature ini memiliki informasi yang sama yaitu lokasi dari perumahan sedangkan saya hanya membutuhkan 1 feature saja yang memberi informasi lokasi dari perumahan.
sehingga saya memutuskan hanya menggunakan feature ```county``` karena beberapa alasan :
1. bila di lihat dari missing valuenya yang memiliki missing value terkecil adalah feature ```county```, 
2. feature ```road``` adalah feature yang menginformasikan nama jalan dari lokasi sehingga menghasilkan banyak kategori

Uniknya dari setiap missing value pada feature ```county``` memiliki nilai yang sama pada feature ```city``` yaitu **San Francisco** jadi saya asumsikan bahwa bahwa missing value memiliki nilai daerah di San Fransisco, sehingga saya akan mengisi missing value pada feature ```county``` dengan nilai **San Fransisco**

In [None]:
df.drop(['city', 'road'], axis = 1, inplace = True)

In [None]:
df['county'].fillna('San Fransisco', inplace=True)
print(df.isnull().sum())

In [None]:
df = df[['ocean_proximity', 'county', 'longitude', 'latitude', 'housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income', 'median_house_value']]

Saya melakukan perubahan posisi feature agar mempermudah analisa kedepannya

# Exploration Data Analysis

> ## Distribusition of the households owner

In [None]:
plt.figure(figsize=(12,12))
img=plt.imread('california.png')
plt.imshow(img,zorder=0,extent=[-124.35,-114.2,32.54,41.95])
sns.scatterplot(data = df, x = 'longitude',y = 'latitude', hue = 'ocean_proximity', s=df['population']/30)
plt.title("Distribution of Population with ocean proximity",size=16)

In [None]:
plt.figure(figsize=(20,15))
img=plt.imread('california.png')
plt.imshow(img,zorder=0,extent=[-124.35,-114.2,32.54,41.95])
sns.scatterplot(data = df, x = 'longitude',y = 'latitude', hue = 'county', s=df['population']/30)
plt.title("Distribution of Population with county",size=16)

In [None]:
plt.figure(figsize=(12,12))
img=plt.imread('california.png')
plt.imshow(img,zorder=0,extent=[-124.35,-114.2,32.54,41.95])

plt.scatter(x=df['longitude'],y=df['latitude'],alpha=0.3,s=df['population']/25,c=df['median_house_value'],
            cmap=plt.get_cmap("jet"),zorder=1,label='Population')
plt.colorbar()
plt.title("Distribution of Population with housing price",size=16)
plt.legend()

Dari 3 plot di atas dapat di simpulkan bahwa :
1. Harga rumah sangat terpengaruh oleh lokasi dan kepadatan penduduknya
1. Tidak semua rumah yang berlokasi dekat dengan laut memiliki harga yang tinggi

In [None]:
df.groupby('county').max().sort_values('median_house_value', ascending = False)

In [None]:
df.groupby('ocean_proximity').max().sort_values('median_house_value', ascending = False)

Dari Compare 2 tabel di atas saya asumsikan tidak semua rumah yang lokasinya dekat dengan laut memiliki harga yang tinggi dan tidak semua rumah yang lokasinya jauh memiliki harga yang relatif 

> ## Data Correlation

In [None]:
df.corr()

In [None]:
# Correlation matrix
plt.figure(figsize=(15, 15))
palette = sns.color_palette("GnBu", as_cmap=True)
corr = df.corr(method='pearson')
sns.heatmap(corr, annot=True, fmt='.2f', square=True, linewidths=.5, cmap = palette)
plt.title('Correlation Matrix', size=15, weight='bold')

In [None]:
sns.pairplot(df[['housing_median_age','total_rooms','total_bedrooms','population','households','median_income','median_house_value']])
plt.title('Pair Plot antar Feature')

In [None]:
corr_matrix = df.corr()
corr_matrix['median_house_value'].sort_values(ascending=False)

Dari plot correlation matrix di atas terlihat bahwa hanya feature ```median_income``` saja yang memiliki nilai korelasi yang cukup tinggi terhadap feature ```median_house_value```. dimana korelasinya adalah positif dimana tiap kenaikan ```median_income``` semakin meningkat pula niali ```median_house_value``` atau semakin tinggi pendapatan penduduk akan semakin tinggi harga rumah di daerah tersebut.

> ## Outlier

In [None]:
hist_b_ho = df.hist(bins=50,figsize=(16,12))
hist_b_ho

In [None]:
num_feat = ['housing_median_age', 'total_rooms',
        'total_bedrooms', 'population', 'households', 'median_income',
        'median_house_value']

In [None]:
def find_outlier(df, feature):
    print('Outlier ' + feature)
    q1 = df[feature].quantile(0.25)
    q3 = df[feature].quantile(0.75)
    iqr = q3 - q1
    limit = iqr*1.5
    print(f'IQR: {iqr}')

    limit_bawah = q1 - limit
    limit_atas = q3 + limit
    print(f'limit_bawah: {limit_bawah}')
    print(f'limit_atas: {limit_atas}')
    print('_________________________')

In [None]:
find_outlier(df,"housing_median_age")

In [None]:
for i in num_feat :
    find_outlier(df, i)

In [None]:
out1 = df[df['housing_median_age'] >= 65.5]
out2 = df[df['total_rooms'] > 5693.5]
out3 = df[df['total_bedrooms'] > 1168.5]
out4 = df[df['population'] > 3134.0]
out5 = df[df['households'] > 1091.5]
out6 = df[df['median_income'] > 7.984350000000001]
out7 = df[df['median_house_value'] > 480350.0]

In [None]:
out_all = pd.concat([out1, out2, out3, out4, out5, out6, out7], axis = 0)
out_all.drop_duplicates(inplace=True)

In [None]:
out_all

In [None]:
out_all.info()

In [None]:
print('Persentage Outlier')
len(out_all)/len(df)*100

Dari pengecekan outlier di atas kita mendapatkan hasil Total outlier adalah 1285 atau 14.5% dari total data

Bila semua outlier di drop akan sangat banyak data yang hilang, oleh sebab itu saya memutuskan untuk menghapus beberapa outlier yang memiliki nilai yang relatif tinggi di banding data lain. outlier yang akan di hilangkan akan di interpretasikan pada boxplot di bawah ini

In [None]:
hist_a_ho = df.hist(bins=50,figsize=(16,12))
hist_a_ho
plt.show()

In [None]:
plt.figure(figsize=(25,10))
plt.subplot(2,4,1)
sns.boxplot(df['housing_median_age'])
plt.subplot(2,4,2)
sns.boxplot(df['total_rooms'])
plt.plot([7500, 7500], [-0.4, 0.4], linewidth=3, c='r')
plt.subplot(2,4,3)
sns.boxplot(df['total_bedrooms'])
plt.plot([1500, 1500], [-0.4, 0.4], linewidth=3, c='r')
plt.subplot(2,4,4)
sns.boxplot(df['population'])
plt.plot([5000, 5000], [-0.4, 0.4], linewidth=3, c='r')
plt.subplot(2,4,5)
sns.boxplot(df['households'])
plt.plot([1500, 1500], [-0.4, 0.4], linewidth=3, c='r')
plt.subplot(2,4,6)
sns.boxplot(df['median_income'])
plt.plot([8, 8], [-0.4, 0.4], linewidth=3, c='r')
plt.subplot(2,4,7)
sns.boxplot(df['median_house_value'])
plt.plot([500000, 500000], [-0.4, 0.4], linewidth=3, c='r')
plt.show()

Outlier yang akan di hilangkan adalah outlier yang melebihi garis merah karena memiliki jarak antar data yang relatif tinggi, untuk feature median house value di batasi sampai value 500.000, untuk membatasi model prediksi.

In [None]:
out1 = df[df['total_rooms'] > 7500]
out2 = df[df['total_bedrooms'] > 1500]
out3 = df[df['population'] > 5000]
out4 = df[df['households'] > 1500]
out5 = df[df['median_income'] > 8]
out6 = df[df['median_house_value'] > 500000]

out_all = pd.concat([out1, out2, out3, out4, out5, out6], axis = 0)
out_all.drop_duplicates(inplace=True)

In [None]:
out_all

In [None]:
out_all.info()

In [None]:
print('Persentage Outlier')
len(out_all)/len(df)*100

Dari pengecekan outlier yang akan dihilangkan di atas kita mendapatkan hasil Total outlier yang akan dihilangkan adalah 1393 atau 9.64% dari total data

> ## Handling Outlier
drop all outlier

In [None]:
df.drop(out_all.index, axis = 0, inplace = True)

In [None]:
df.info()

In [None]:
hist_a_ho = df.hist(bins=50,figsize=(16,12))
hist_a_ho
plt.show()

Terlihat dari tabel distribusi diatas bahwa pengurangan data yang outlier dapat membuat data menjadi lebih terdistribusi normal dari pada data sebelumnya

# Modeling

> ## Benchmark Model

In [None]:
# Import library untuk modeling

from sklearn.model_selection import train_test_split, cross_val_score, RandomizedSearchCV, GridSearchCV, KFold, StratifiedKFold

import category_encoders as ce
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from category_encoders import BinaryEncoder
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.neighbors import KNeighborsRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, AdaBoostRegressor, GradientBoostingRegressor
from xgboost.sklearn import XGBRegressor
from sklearn.compose import TransformedTargetRegressor

from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error, mean_absolute_percentage_error, f1_score

In [None]:
df.info()

In [None]:
df.describe(include = 'all')

Processing Scheme

1. target : median_hausing_value
1. BinaryEncoder : county
1. RobustScaler : housing_median_age, total_rooms, total_bedrooms, population, households, median_income
1. Out : longitude, latitude, ocean_proximity
    - karena latitude longitude dan ocean_proximity adalah feature yang informasikan tentang lokasi, untuk feature yang memiliki informasi tentang lokasi akan di interpretasikan oleh feature county

In [None]:
X = df.drop(['median_house_value', 'longitude', 'latitude', 'ocean_proximity'], axis = 1)
y = df['median_house_value']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
                                    X, 
                                    y,
                                    test_size = 0.3, 
                                    random_state = 2022)

In [None]:
X_train

In [None]:
onehot = OneHotEncoder()
scaler = RobustScaler()
binary = ce.BinaryEncoder()

transformer = ColumnTransformer([
                ('binary', binary, ['county']),
                ('scaler', scaler, ['housing_median_age', 'total_rooms', 'total_bedrooms', 'population', 'households', 'median_income'])   
], remainder = "passthrough")

In [None]:
transformer

In [None]:
# Define algoritma yang digunakan
lr = LinearRegression()
ls = Lasso(random_state = 2022)
rd = Ridge(random_state = 2022)
knn = KNeighborsRegressor()
dt = DecisionTreeRegressor(random_state=2022)
rf = RandomForestRegressor(random_state=2022)
ab = AdaBoostRegressor(random_state = 2022)
gbr = GradientBoostingRegressor(random_state = 2022)
xgb = XGBRegressor(random_state=2022)

In [None]:
# Pemodelan dilakukan dalam skala logaritmik, namun kemudian di-inverse kembali untuk interpretasi
log_lr = TransformedTargetRegressor(lr, func=np.log, inverse_func=np.exp)
log_ls = TransformedTargetRegressor(ls, func=np.log, inverse_func=np.exp)
log_rd = TransformedTargetRegressor(rd, func=np.log, inverse_func=np.exp)
log_knn = TransformedTargetRegressor(knn, func=np.log, inverse_func=np.exp)
log_dt = TransformedTargetRegressor(dt, func=np.log, inverse_func=np.exp)
log_rf = TransformedTargetRegressor(rf, func=np.log, inverse_func=np.exp)
log_ab = TransformedTargetRegressor(ab, func=np.log, inverse_func=np.exp)
log_gbr = TransformedTargetRegressor(gbr, func=np.log, inverse_func=np.exp)
log_xgb = TransformedTargetRegressor(xgb, func=np.log, inverse_func=np.exp)
list_model = {'Linier Regression' : log_lr, 'Lasso' : log_ls, 'Ridge' : log_rd, 'KNN' : log_knn, 'Decision Tree' : log_dt, 'Random Forest' : log_rf, 'AdaBoost' : log_ab, 'GradientBoost' : log_gbr, 'XGBoost' : log_xgb}

In [None]:
score_RMSE = []
nilai_mean_RMSE = []
nilai_std_RMSE = []
crossval = KFold(n_splits=5, shuffle=True, random_state=2022)
def model_eval_RMSE(model, metric):
    for i in model :
        estimator = Pipeline([
            ('transformer', transformer),
            ('model', list_model[i])
        ])
        model_cv = np.sqrt(-cross_val_score(estimator, X_train, y_train, cv = crossval, scoring = metric, error_score='raise'))
        score_RMSE.append(model_cv)
        nilai_mean_RMSE.append(model_cv.mean())
        nilai_std_RMSE.append(model_cv.std())

In [None]:
model_eval_RMSE(list_model, 'neg_mean_squared_error')

In [None]:
score_MAE = []
nilai_mean_MAE = []
nilai_std_MAE = []
crossval = KFold(n_splits=5, shuffle=True, random_state=2022)
def model_eval_MAE(model, metric):
    for i in model :
        estimator = Pipeline([
            ('transformer', transformer),
            ('model', list_model[i])
        ])
        model_cv = (-cross_val_score(estimator, X_train, y_train, cv = crossval, scoring = metric, error_score='raise'))
        score_MAE.append(model_cv)
        nilai_mean_MAE.append(model_cv.mean())
        nilai_std_MAE.append(model_cv.std())

In [None]:
model_eval_MAE(list_model, 'neg_mean_absolute_error')

In [None]:
pd.DataFrame({
    'RMSE_Score' : score_RMSE,
    'Mean_RMSE': nilai_mean_RMSE,
    'Std_RMSE': nilai_std_RMSE,
    'MAE_Score' : score_MAE,
    'Mean_MAE': nilai_mean_MAE,
    'Std_MAE': nilai_std_MAE
}, index=list_model.keys())

ada 9 model yang di uji dalam pemilihan model :
1. Linier Regression	
2. Lasso
3. Ridge
3. KNN
4. Decision Tree	
5. Random Forest	
6. Adaptive Boost
7. Gradient boost
7. Extreme Boost

2 model dengan hasil RMSE, dan MAE terbaik adalah :
1. KNN
2. Extreme Boost

Selanjutnya 2 model terbaik akan di lakukan pengujuan dengan data test dan akan di lakukan hyperparameter tuning pada kedua model tsb

> ## Benchmark 2 model terbaik dengan X_Test

In [None]:
# Benchmark 2 model terbaik
models = {
    'KNN' : KNeighborsRegressor(),
    'XGBoost': XGBRegressor(random_state=2022)
}

score_rmse = []
score_mae = []
score_mape = []
score_r2 = [] 

# Prediksi pada test set
for i in models:

    model = Pipeline([
        ('preprocessing', transformer),
        ('model', models[i])
        ])

    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    score_rmse.append(np.sqrt(mean_squared_error(y_test, y_pred)))
    score_mae.append(mean_absolute_error(y_test, y_pred))
    score_mape.append(mean_absolute_percentage_error(y_test, y_pred))
    score_r2.append(r2_score(y_test, y_pred))

score_before_tuning = pd.DataFrame({'RMSE': score_rmse, 
                                    'MAE': score_mae, 
                                    'MAPE': score_mape,
                                    'R-Squared' : score_r2
                                   }, index=models.keys())
score_before_tuning

Dari hasil pengujian dengan data test terlihat KNN menguguli XGBoost di semua matric. tetapi untuk membuktikannya saya akan melakukan hyperparameter Tuning ke kedua modul untuk memastikan model mana yang memiliki performance terbaik

# Hyperparameter Tuning

> ## Hyperparameter Tuning KNN

In [None]:
# Total Tetangga
n_neighbors = list(np.arange(8, 21))

# Bobot KNN
weights = ['uniform', 'distance']

# Jumlah daun
leaf_size = list(np.arange(20, 41))

# Algoritma KNN
algorithm = ['auto', 'ball_tree', 'kd_tree', 'brute']

# Hyperparam space XGboost
hyperparam_space_knn = {
    'model__n_neighbors': n_neighbors, 
    'model__weights': weights,
    'model__leaf_size': leaf_size,
    'model__algorithm': algorithm
}

In [None]:
model = KNeighborsRegressor()

# Membuat algorithm chains
estimator_knn = Pipeline([
        ('preprocessing', transformer),
        ('model', model)
        ])

crossval = KFold(n_splits=5, shuffle=True, random_state=1)

# Hyperparameter tuning
random_knn = RandomizedSearchCV(
    estimator_knn, 
    param_distributions = hyperparam_space_knn,
    n_iter = 50,
    cv = crossval, 
    scoring = ['neg_root_mean_squared_error', 'neg_mean_absolute_error', 'neg_mean_absolute_percentage_error'], 
    n_jobs = -1,
    refit = 'neg_root_mean_squared_error', # Hanya bisa memilih salah stau metric untuk optimisasi
    random_state = 2022 
)

In [None]:
random_knn.fit(X_train, y_train)

In [None]:
pd.DataFrame(random_knn.cv_results_).sort_values(by = ['rank_test_neg_root_mean_squared_error', 'rank_test_neg_mean_absolute_error', 'rank_test_neg_mean_absolute_percentage_error']).head(5)

In [None]:
print('KNN Tuning')
print('Best_score:', random_knn.best_score_*-1)
print('Best_params:', random_knn.best_params_)

In [None]:
model = random_knn.best_estimator_
crossval = KFold(n_splits=5, shuffle=True, random_state=2022)

score_RMSE = []
nilai_mean_RMSE = []
nilai_std_RMSE = []

model_cv = np.sqrt(-cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'neg_mean_squared_error'))
score_RMSE.append(model_cv)
nilai_mean_RMSE.append(model_cv.mean())
nilai_std_RMSE.append(model_cv.std())

score_MAE = []
nilai_mean_MAE = []
nilai_std_MAE = []

model_cv = (-cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'neg_mean_absolute_error'))
score_MAE.append(model_cv)
nilai_mean_MAE.append(model_cv.mean())
nilai_std_MAE.append(model_cv.std())

score_R_Squared = []

model_cv = (cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'r2'))
score_R_Squared.append(model_cv)

print('KNN Tuning Validation')
pd.DataFrame({
    'model' : 'KNN tuning',
    'RMSE_Score' : score_RMSE,
    'Mean_RMSE': nilai_mean_RMSE,
    'Std_RMSE': nilai_std_RMSE,
    'MAE_Score' : score_MAE,
    'Mean_MAE': nilai_mean_MAE,
    'Std_MAE': nilai_std_MAE,
    'R-Squared' : score_R_Squared
})

In [None]:
# Define model terhadap estimator terbaik
knn_tuning =  {'KNN tuning' : random_knn.best_estimator_}
compare_rmse_knn_tuning = []
compare_mae_knn_tuning = []
compare_mape_knn_tuning = []
compare_r2_knn_tuning = []

# Fitting model
knn_tuning['KNN tuning'].fit(X_train, y_train)

# Predict test set
y_pred_knn_tuning = knn_tuning['KNN tuning'].predict(X_test)

# Simpan nilai metrics RMSE, MAE & MAPE setelah tuning
compare_rmse_knn_tuning.append(np.sqrt(mean_squared_error(y_test, y_pred_knn_tuning)))
compare_mae_knn_tuning.append(mean_absolute_error(y_test, y_pred_knn_tuning))
compare_mape_knn_tuning.append(mean_absolute_percentage_error(y_test, y_pred_knn_tuning))
compare_r2_knn_tuning.append(r2_score(y_test, y_pred_knn_tuning))

knn_after_tuning = pd.DataFrame({'RMSE' :  compare_rmse_knn_tuning,
                                 'MAE' : compare_mae_knn_tuning, 
                                 'MAPE' : compare_mape_knn_tuning, 
                                 'R-Squared' : compare_r2_knn_tuning
                                }, index = knn_tuning.keys())
print('KNN tuning test')
knn_after_tuning

In [None]:
knn_before_tuning = pd.DataFrame(score_before_tuning.loc['KNN']).T
print('before tuning')
knn_before_tuning

Dari hasil parameter tuning KNN seletah di Tuning memperlihatkan performa yang lebih baik di bandingkan dengan KNN sebelum dilakukan tuning

In [None]:
plt.figure(figsize=(14, 8))
plot = sns.regplot(x=y_test, y=y_pred).set(title='KNN After Tuning\nActual vs. Prediction Price',
                                               xlabel='Actual Price', 
                                               ylabel='Predicted Price');

dari plot di atas data actual dan predict terlihat bahwa dari data di bawah 250000 data terlihat cukup padat di dekat garis regresi, namun di atas 250.000 hasil predict mulai menyebar menjauhi garis regresi yang artinya memiliki nilai bias yang cukup tinggi

> ## Hyperparameter Tuning XGBoost

In [None]:
# Kedalaman pohon
max_depth = list(np.arange(15, 31))

# Learning rate
learning_rate = list(np.arange(1, 100)/100)

# Jumlah pohon
n_estimators = list(np.arange(100, 251))

# Jumlah baris tiap pohon (% dari total baris train set)
subsample = list(np.arange(2, 10)/10)

# Gamma (min_impurity_decrease)
gamma = list(np.arange(1, 11)) # Semakin besar nilainya, semakin konservatif/simpel modelnya

# Jumlah feature yang digunakan untuk tiap pohon (% dari total kolom train set)
colsample_bytree = list(np.arange(1, 11/10))

# Alpha (regularization)
reg_alpha = list(np.logspace(-3, 1, 10)) # Semakin besar nilainya, semakin konservatif/simpel modelnya

# Hyperparam space XGboost
hyperparam_space_xgb = {
    'model__max_depth': max_depth, 
    'model__learning_rate': learning_rate,
    'model__n_estimators': n_estimators,
    'model__subsample': subsample,
    'model__gamma': gamma,
    'model__colsample_bytree': colsample_bytree,
    'model__reg_alpha': reg_alpha
}

In [None]:
# Benchmark model dengan hyperparameter tuning
xgb = XGBRegressor(random_state=2022)

# Membuat algorithm chains
estimator_xgb = Pipeline([
        ('preprocessing', transformer),
        ('model', xgb)
        ])

crossval = KFold(n_splits=5, shuffle=True, random_state=1)

# Hyperparameter tuning
random_xgb = RandomizedSearchCV(
    estimator_xgb, 
    param_distributions = hyperparam_space_xgb,
    n_iter = 50,
    cv = crossval, 
    scoring = ['neg_root_mean_squared_error', 'neg_mean_absolute_error', 'neg_mean_absolute_percentage_error'], 
    n_jobs = -1,
    refit = 'neg_root_mean_squared_error', # Hanya bisa memilih salah stau metric untuk optimisasi
    random_state = 2022 
)

In [None]:
random_xgb.fit(X_train, y_train)

In [None]:
pd.DataFrame(random_xgb.cv_results_).sort_values(by = ['rank_test_neg_root_mean_squared_error', 'rank_test_neg_mean_absolute_error', 'rank_test_neg_mean_absolute_percentage_error']).head(10)

In [None]:
print('XGBoost')
print('Best_score:', random_xgb.best_score_*-1)
print('Best_params:', random_xgb.best_params_)

In [None]:
model = random_xgb.best_estimator_
crossval = KFold(n_splits=5, shuffle=True, random_state=2022)

score_RMSE = []
nilai_mean_RMSE = []
nilai_std_RMSE = []

model_cv = np.sqrt(-cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'neg_mean_squared_error'))
score_RMSE.append(model_cv)
nilai_mean_RMSE.append(model_cv.mean())
nilai_std_RMSE.append(model_cv.std())

score_MAE = []
nilai_mean_MAE = []
nilai_std_MAE = []

model_cv = (-cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'neg_mean_absolute_error'))
score_MAE.append(model_cv)
nilai_mean_MAE.append(model_cv.mean())
nilai_std_MAE.append(model_cv.std())

score_R_Squared = []

model_cv = (cross_val_score(model, X_train, y_train, cv = crossval, scoring = 'r2'))
score_R_Squared.append(model_cv)

print('XGBoost Tuning Validation')
pd.DataFrame({
    'model' : 'XGBoost tuning',
    'RMSE_Score' : score_RMSE,
    'Mean_RMSE': nilai_mean_RMSE,
    'Std_RMSE': nilai_std_RMSE,
    'MAE_Score' : score_MAE,
    'Mean_MAE': nilai_mean_MAE,
    'Std_MAE': nilai_std_MAE,
    'R-Squared' : score_R_Squared
})

In [None]:
# Define model terhadap estimator terbaik
xgb_tuning =  {'XGBoost tuning' : random_xgb.best_estimator_}
compare_rmse_xgb_tuning = []
compare_mae_xgb_tuning = []
compare_mape_xgb_tuning = []
compare_r2_xgb_tuning = []

# Fitting model
xgb_tuning['XGBoost tuning'].fit(X_train, y_train)

# Predict test set
y_pred_xgb_tuning = xgb_tuning['XGBoost tuning'].predict(X_test)

# Simpan nilai metrics RMSE, MAE, MAPE & R2 setelah tuning
compare_rmse_xgb_tuning.append(np.sqrt(mean_squared_error(y_test, y_pred_xgb_tuning)))
compare_mae_xgb_tuning.append(mean_absolute_error(y_test, y_pred_xgb_tuning))
compare_mape_xgb_tuning.append(mean_absolute_percentage_error(y_test, y_pred_xgb_tuning))
compare_r2_xgb_tuning.append(r2_score(y_test, y_pred_xgb_tuning))

xgb_after_tuning = pd.DataFrame({'RMSE' :  compare_rmse_xgb_tuning, 
                                 'MAE' : compare_mae_xgb_tuning, 
                                 'MAPE' : compare_mape_xgb_tuning, 
                                 'R-Squared' : compare_r2_xgb_tuning
                                }, index=xgb_tuning.keys())
print('XGBoost tuning test')
xgb_after_tuning

In [None]:
xgb_before_tuning = pd.DataFrame(score_before_tuning.loc['XGBoost']).T
print('before tuning')
xgb_before_tuning

Dari hasil parameter tuning XGBoost seletah di Tuning memperlihatkan performa yang lebih baik di bandingkan dengan XGBoost sebelum dilakukan tuning

In [None]:
plt.figure(figsize=(14, 8))
plot = sns.regplot(x=y_test, y=y_pred_xgb_tuning).set(title='XGBoost After Tuning\nActual vs. Prediction Price',
                                               xlabel='Actual Price', 
                                               ylabel='Predicted Price');

dari plot di atas data actual dan predict terlihat bahwa hasil predict mulai menyebar menjauhi garis regresi yang artinya memiliki nilai bias yang cukup tinggi

> ## Feature Importance XGBoost after Tuning

In [None]:
transformer.transformers_[0][1].get_feature_names()

In [None]:
transformer.transformers_[1][1].get_feature_names_out()

In [None]:
features = list(transformer.transformers_[0][1].get_feature_names()) +  list(transformer.transformers_[1][1].get_feature_names_out())

In [None]:
features

In [None]:
# Plot feature importances
xgb_feature_imp = pd.Series(xgb_tuning['XGBoost tuning']['model'].feature_importances_, features).sort_values(ascending = False)
xgb_feature_imp.plot(kind='barh', title='Feature Importances');

feature importance pada XGBoost menunjukan bahwa setiap feature memiliki nilai yang tidak terlalu jauh feature yang paling tinggi adalah ```median_income``` sedangkan yang paling kecil adalah ```housing_median_age``` meskipun nilai feature ```county_0``` lebih kecil di bandingkan ```housing_median_age``` tetapi niulai ```county_0``` memiliki nilai lebih besar.

**karna nilai antar feature tidak terlalu jauh saya memutuskan untuk tidak menghapus feature apapun pada model XGBoost.**

> ## Compare KNN dan XGBoost, before dan after tuning

In [None]:
pd.concat([xgb_before_tuning, xgb_after_tuning, knn_before_tuning, knn_after_tuning])

dari tabel compare performance model, KNN yang sudah di tuning memiliki performance paling baik adalah KNN setalah di tuning

In [None]:
plt.figure(figsize=(22, 8))
plt.subplot(1,2,1)
plot = sns.scatterplot(x=y_test, y=y_pred_knn_tuning).set(title='KNN After Tuning\nActual vs. Prediction Price', 
                                               xlabel='Actual Price', 
                                               ylabel='Predicted Price');
sns.lineplot(x=[0,500000], y=[0,500000], color='r')
plt.subplot(1,2,2)
plot = sns.scatterplot(x=y_test, y=y_pred_xgb_tuning).set(title='XGBoost After Tuning\nActual vs. Prediction Price', 
                                               xlabel='Actual Price', 
                                               ylabel='Predicted Price');
sns.lineplot(x=[0,500000], y=[0,500000], color='r')

dari plot di atas terlihat bahwa model KNN Tuning memiliki nilai predict lebih rapat dibanding XGBoost yang artinya memuiliki nalai bias yang relatif lebih kecil di bandingkan XGBoost Tuning

Untuk interpretasi selanjutnya akan menggunakan Model terbaik yaitu KNN Tuning

# Compare KNN Tuning predict dengan Actual

In [None]:
test = pd.DataFrame({'Predicted':y_pred_knn_tuning,'Actual':y_test})
fig= plt.figure(figsize=(16,8))
test = test.reset_index()
test = test.drop(['index'],axis=1)
plt.plot(test[:150])
plt.title('Compare KNN Tuning predict dengan Actual', size = 16)
plt.legend(['Actual','Predicted'])
sns.jointplot(x='Actual',y='Predicted',data=test,kind="reg")

> ## Predict yang meleset

In [None]:
test['Different'] = test['Actual'] - test['Predicted']

In [None]:
test[test['Different'] == test['Different'].max()]

In [None]:
df.iloc[2947]

In [None]:
test[test['Different'] == test['Different'].min()]

In [None]:
df.iloc[309]

In [None]:
df[(df['median_income'] > 3) & (df['median_income'] < 4)]

In [None]:
test

# Kesimpulan

Dari hasil data di atas feature yang paling mempengaruhi harga rumah adalah feature ```median_income```

Metrik evaluasi yang digunakan pada model adalah nilai RMSE, MAE, MAPE, dan R-Squared. Bila di tinjau dari nilai RMSE model KNN yang telah di tuning yaitu sebesar 53834.24 kita dapat menyimpulkan bahwa bila nanti model ini di guanakan untuk memprediksi harga rumah di california pada rentang nilai seperti yang dilatih terhadap model (maksimal harga USD 500000) perkiraan rata" akan meleset sekitar 53834.24. Tetapi kenyataannya pengujuan model terhadap data test memiliki nilai yang meleset yang paling tinggi diatas 300000. Hal ini terjadi karna adanya bias yang cukup tinggi pada model. dari tinjauan dari data dengan index 2947 yang memiliki nilai difference tertinggi, pada data ini terlihat memiliki nilai median incame yang relatif tinggi dengan nilai 3.68 atau setara dengan 36800 dollar. dengan populasi yang relatif sedikit. dan ini dapat menimbulkan bias. 

Bias juga terjadi karna dataset memiliki feature yang sedikit dan kurang mengpresentasikan harga perumahan, seperti fasilitas yang terdapat pada perumahan, seperti garasi tiap rumah, kolam renang, pos scurity dan sebagainya. Hanya Umur rumah, total ruangan dan total kamar saja tidak dapat mewakili fasilitas yang terdapat pada rumah tersebut.

# Rekomendasi

1. Melihat kembali data predict, data mana saja yang memiliki nilai error yang tinggi. dan membandingan feature - feature mana saja yang menyebabkan model menghasilkan error tersebut dan aspek apa yang menyebabkan model menghasilkan error yang tinggi, sehingga kita dapat melakukan trainning ulang dengan penerapan feature enggineering lainnya. 

1. Menambah data dan variabel pada dataset yang berhubungan dengan harga perumahan seperti fasilitas - fasilitas yang terdapat pada rumah, dengan adanya penambahan data dan variabel kita dapat menggunakan model lain yang lebih compleks.

1. Karena KNN regressor termasuk model yang memiliki sensitifitas terhadap outlier, dengan menghilangkan outlier dapat memper kecil bias yang terjadi pada model KNN Regressor. Alternatif lain bisa menggunakan model yang memiliki ketahanan terhadap outlier

****

# Using Machine Learning

In [None]:
import pickle

> ## Save ML

In [None]:
file_name = 'California Price Predict.sav'

pickle.dump(knn_tuning['KNN tuning'], open(file_name,'wb'))

> ## Load ML

In [None]:
loaded_model = pickle.load(open(file_name,'rb'))

In [None]:
loaded_model.predict(X_test)

In [None]:
X_test.head(10)

> ## Test ML

In [None]:
price_pred = pd.DataFrame({
    'county': ['Ventura County', 'Orange County'],
    'housing_median_age': [15.0, 50],
    'total_rooms': [1679.0, 5000],
    'total_bedrooms': [271.0, 2500],
    'population': [928.0, 4500],
    'households': [264.0, 1500],
    'median_income': [5.5681, 4]
})

In [None]:
price_pred

In [None]:
loaded_model.predict(price_pred)

In [None]:
y_test.iloc[0]