# **Penerapan Machine Learning Dalam Pasar Persewaan Real Estat Studi Kasus Daegu Apartemen Data**
Created by: **_David Aditya Susanto_**
<hr>

# **Business Understanding**

### Context
Apa latar belakang dari project ini?
- Project ini muncul karena para pemangku kepentingan, seperti agen properti, pengembang properti, dan calon pembeli, mengalami kesulitan dalam menentukan faktor-faktor kunci yang mempengaruhi harga apartemen secara akurat. Kurangnya model prediktif yang dapat diandalkan membuat sulit bagi para pemangku kepentingan untuk membuat keputusan yang terinformasi, sehingga dapat menyebabkan kerugian finansial potensial bagi pembeli dan penjual.

### Problem Statement
- Siapa stakeholder yang memiliki masalah?
  - Para pemangku kepentingan termasuk agen properti, pengembang properti, dan calon pembeli.
- Apa masalah yang dihadapi oleh stakeholder tersebut? (spesifik, dapat diukur)
  - Kesulitan menentukan harga apartemen secara akurat, membuat sulit untuk menetapkan harga yang kompetitif dan bernegosiasi secara efektif.
- Mengapa masalah ini perlu dipecahkan? (spesifik, dapat diukur)
  - Kesalahan dalam penetapan harga dapat menyebabkan daftar yang terlalu mahal yang tidak terjual untuk periode yang lama, menyebabkan tekanan finansial pada penjual. Di sisi lain, apartemen yang dihargai rendah dapat menyebabkan kehilangan peluang pendapatan, mengakibatkan kerugian finansial bagi pengembang properti dan penjual.

### Goals
- Apa tujuan dan target dari penyelesaian masalah? (spesifik, dapat diukur, dapat dicapai)
  - Mengembangkan model prediktif dengan mean absolute error (MAE) kurang dari 40.000 won untuk memastikan akurasi tinggi dalam memprediksi harga apartemen. Identifikasi dan analisis faktor-faktor signifikan yang memiliki pengaruh paling besar pada harga apartemen, memberikan wawasan yang dapat diambil tindakan bagi para pemangku kepentingan di pasar real estat.

### Analytic Approach
- Apa rancangan solusi yang anda tawarkan untuk menyelesaikan masalah dari stakeholder?
  - Pendekatan analitis dimulai dengan Exploratory Data Analysis (EDA) menyeluruh untuk mendapatkan pemahaman mendalam tentang dataset, memeriksa korelasi, distribusi, dan potensi outlier. Selain itu, penjelasan rinci tentang teknik regresi, termasuk regresi linear, pohon keputusan, dan metode ensemble, akan disediakan. Pemodelan juga akan melibatkan validasi silang dan penyesuaian hiperparameter untuk memastikan kekokohan dan generalisasi model.
- Kapan dan bagaimana stakeholder akan memanfaatkan atau menggunakan solusi tersebut?
  - Wawasan yang diperoleh dari analisis ini dapat membantu profesional properti dan investor properti dalam membuat keputusan berbasis data, memfasilitasi transaksi yang lebih terinformasi dan menguntungkan di pasar real estat.

### Metric Evaluation
| Metrics | Alasan Penggunaan |
|--------|-------------------|
| MAE (Mean Absolute Error) | - MAE mengukur rata-rata kesalahan absolut antara prediksi dan nilai sebenarnya. <br> - Lebih kokoh terhadap pengaruh nilai-nilai ekstrem dibandingkan dengan RMSE. <br> - Memberikan penilaian yang sederhana namun informatif terkait kinerja rata-rata model. |
| MAPE (Mean Absolute Percentage Error) | - MAPE mengevaluasi kesalahan prediksi sebagai persentase dari nilai sebenarnya. <br> - Kemudahan interpretasi kesalahan sebagai persentase membuatnya lebih intuitif dalam konteks bisnis. <br> - Memfasilitasi perbandingan akurasi antar model atau prediksi pada skala yang berbeda. |
| R2 | - R2 Menangani Variabilitas Harga Yang Beragam <br> - R2 Mengukur Kinerja Model Secara Relatif Terhadap Model Dasar <br> - R2 Memfasilitasi Perbandingan Kinerja Model Yang Berbeda | 

### Project Limitation
- Apa saja batasan yang digunakan dalam projek ini? (spesifik, dapat diukur)
  - Batasan dapat melibatkan keterbatasan data yang tersedia, ketidakpastian dalam atribut yang dapat memengaruhi harga apartemen, atau kendala komputasional yang membatasi kompleksitas model.


<hr>

# **Data Understanding**

### History Data
Ini adalah data harga apartemen di kota Daegu, Seoul Korea. Data ini mencakup harga apartemen dari tahun 1978 hingga 2016. Data tersebut dapat diakses [disini](https://drive.google.com/file/d/1MPDotXZNmiq6geRi8BkGd-fjttzoyTxW/view?usp=drive_link).<br>

In [1]:
import pandas as pd

# set max_columns to None
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_colwidth', 120)

data = pd.read_csv('../data/data_daegu_apartment.csv')

# show data description
print(f"Jumlah Baris,Kolom : {data.shape}")
cols =['HallwayType', 'TimeToSubway', 'SubwayStation',
       'N_FacilitiesNearBy(ETC)', 'N_FacilitiesNearBy(PublicOffice)',
       'N_SchoolNearBy(University)', 'N_Parkinglot(Basement)', 'YearBuilt',
       'N_FacilitiesInApt', 'Size(sqf)', 'SalePrice']

pd.DataFrame({
    'column': cols,
    'data_type': data[cols].dtypes.values,
    'min': [data[col].min() if data[col].dtype == 'int64' or data[col].dtype == 'float64' else None for col in cols],
    'mean': [data[col].mean().round(2) if data[col].dtype == 'int64' or data[col].dtype == 'float64' else None for col in cols],
    'median': [data[col].median() if data[col].dtype == 'int64' or data[col].dtype == 'float64' else None for col in cols],
    'max': [data[col].max() if data[col].dtype == 'int64' or data[col].dtype == 'float64' else None for col in cols],
    'n_unique': data[cols].nunique().values,
    'sample_unique': [data[col].unique() for col in cols]}
)

Jumlah Baris,Kolom : (4123, 11)


Unnamed: 0,column,data_type,min,mean,median,max,n_unique,sample_unique
0,HallwayType,object,,,,,3,"[terraced, mixed, corridor]"
1,TimeToSubway,object,,,,,5,"[0-5min, 10min~15min, 15min~20min, 5min~10min, no_bus_stop_nearby]"
2,SubwayStation,object,,,,,8,"[Kyungbuk_uni_hospital, Chil-sung-market, Bangoge, Sin-nam, Banwoldang, no_subway_nearby, Myung-duk, Daegu]"
3,N_FacilitiesNearBy(ETC),float64,0.0,1.93,1.0,5.0,4,"[0.0, 1.0, 5.0, 2.0]"
4,N_FacilitiesNearBy(PublicOffice),float64,0.0,4.14,5.0,7.0,8,"[3.0, 5.0, 7.0, 1.0, 4.0, 2.0, 6.0, 0.0]"
5,N_SchoolNearBy(University),float64,0.0,2.75,2.0,5.0,6,"[2.0, 1.0, 3.0, 4.0, 5.0, 0.0]"
6,N_Parkinglot(Basement),float64,0.0,568.98,536.0,1321.0,20,"[1270.0, 0.0, 56.0, 798.0, 536.0, 605.0, 203.0, 108.0, 1174.0, 930.0, 475.0, 184.0, 400.0, 218.0, 1321.0, 524.0, 76...."
7,YearBuilt,int64,1978.0,2003.0,2006.0,2015.0,16,"[2007, 1986, 1997, 2005, 2006, 2009, 2014, 1993, 2013, 2008, 2015, 1978, 1985, 1992, 2003, 1980]"
8,N_FacilitiesInApt,int64,1.0,5.82,5.0,10.0,9,"[10, 4, 5, 7, 2, 9, 8, 1, 3]"
9,Size(sqf),int64,135.0,954.63,910.0,2337.0,89,"[1387, 914, 558, 1743, 1334, 572, 910, 288, 1131, 843, 1160, 644, 829, 743, 868, 1629, 1690, 1273, 1483, 156, 1412, ..."


Insight:<br>

| Feature               | Description                                                  |Data Type |Value |
|-----------------------|--------------------------------------------------------------|-----------------|---|
| HallwayType          | Tipe Lorong Dalam Apartemen.  |String |Terdiri Dari 3 Unique Value (Terraced,Mixed,Corridor) |
| TimeToSubway         | Waktu yang dibutuhkan untuk berjalan kaki ke stasiun kereta bawah tanah terdekat dari apartemen.|String |Terdiri Rentan Waktu Sekitar 5 Menit Dan Tidak Ada <br>("0-5min","5min~10min", "10min~15min", "15min~20min", "no_bus_stop_nearby").<br>|
| SubwayStation        | Nama stasiun kereta bawah tanah terdekat dari apartemen. |String |Terdiri dari 7 unique value dengan nama stasiunnya dan 1 unique value "no_subway_nearby" |
| N_FacilitiesNearBy(ETC)          | Jumlah fasilitas lain di dekat apartemen, seperti rumah sakit, bank, atau supermarket. |Float |Hanya Berbentuk angka seperti "0", "1", "2", "5" |
| N_FacilitiesNearBy(PublicOffice)          | Jumlah kantor publik di dekat apartemen, seperti kantor polisi, kantor pemadam kebakaran, atau kantor pos. |Float |hanya berbentuk angka seperti "0", "1", "2", "3", "4", "5", "6", "7" |
| N_SchoolNearBy(University)          | Jumlah Universitas di sekitar apartemen. |Float |hanya berbentuk angka seperti "0", "1", "2", "3", "4", "5" |
| N_Parkinglot(Basement)     | Jumlah tempat parkir di ruang bawah tanah kompleks apartemen. |Float |berbentuk banyak angka dengan jumlah unique value 20 dari rentan 0 sampai 1321 |
| YearBuilt              | Tahun ketika apartemen dibangun. |Integer |berbentuk angka dengan jumlah unique value 16 dari rentan 1978 sampai 2015|
| N_FacilitiesInApt | Jumlah fasilitas di apartemen, seperti gym, kolam renang, atau taman. |Integer |hanya berbentuk angka seperti "0", "1", "2", "3", "4", "5", "7", "8", "9", "10"|
| Size(sqf)  | Ukuran apartemen dalam satuan square feet. |Integer |berbentuk angka dengan jumlah unique value 89 dari rentan 135 sampai 2337 |

=============================================================================================================================

| Target               | Description                                                  |Data Type |Value |
|-----------------------|--------------------------------------------------------------|----------|------|
| SalePrice | Harga Dari Apartemen. |Integer |berbentuk angka dengan jumlah unique value 838 dari rentan 32743 sampai 585840 |

### Criteria For Prediction

Setelah melakukan beberapa penelitian, saya menemukan beberapa artikel dengan tautan [di sini](https://www.researchgate.net/publication/319275252_Localized_Spatiotemporal_Effects_in_the_Determinants_of_Property_Prices_A_Case_Study_of_Seoul).<br>
Artikel ini menjelaskan efek yang mempengaruhi harga apartemen di Korea menggunakan Efek Spasial Waktu Lokal<br> dengan Data dari 2006 hingga 2015.<br>
Hasil dari artikel ialah efek yang mempengaruhi harga apartemen di Korea yaitu:

**1. Variabel Struktural:**<br>
Atribut yang mencakup ukuran apartemen dan tingkat lantai yang rata-rata dijual dalam kompleks apartemen yang sama; ukuran kompleks (jumlah apartemen dalam kompleks).<br>
Fitur yang Terkait dengan Faktor Ini Adalah:
- HallwayType
- N_Parkinglot(Basement)
- YearBuilt
- N_FacilitiesInApt
- Size(sqf)

**2. Variabel Proksimitas:**<br>
Atribut yang mencakup kedekatan dengan distrik komersial, jalan utama, dan stasiun kereta bawah tanah.<br>
Fitur yang Terkait dengan Faktor Ini Adalah:
- TimeToSubway
- SubwayStation
      
<!-- Ini yang hilang:

      - Jarak ke distrik komersial terdekat
      - Jarak ke jalan utama terdekat -->
      
**3. Variabel Lingkungan:**<br>
Atribut dari lingkungan sosial dan ekonomi di area tempat apartemen berada, seperti karakteristik populasi, tingkat pendapatan, dan kualitas sekolah.<br>
Fitur yang Terkait dengan Faktor Ini Adalah:
- N_SchoolNearBy(University)
- N_FacilitiesNearBy(ETC)
- N_FacilitiesNearBy(PublicOffice)

<!-- Ini yang hilang:

      - Usia rata-rata penduduk
      - Kerapatan penduduk
      - Proporsi penduduk yang tinggal di bawah garis kemiskinan
      - Pajak Penghasilan -->

Hasil:<br>
- Karena Data Sudah Memiliki Fitur yang Terkait dengan Faktor-faktor Di Atas, Saya Akan Menggunakan Fitur yang Terkait dengan Faktor-faktor Di Atas untuk Memprediksi Harga Apartemen di Korea.<br>
<!-- - Saya tidak dapat menemukan data lain yang terkait dengan fitur yang hilang, jadi saya akan menggunakan data yang saya miliki.<br> -->
<!-- - Meskipun ada yang hilang, kita akan mencari tahu di bagian berikutnya apakah data ini valid dan cukup dapat diandalkan untuk digunakan sebagai model. -->

### Check Reliability Of Data

Untuk itu saya akan mengubahnya menjadi data ordinal terlebih dahulu, kemudian saya akan mencari cronbach alpha berdasarkan masing-masing kriteria dan hasilnya akan ditentukan apakah kriteria tersebut reliabel atau tidak.<br>
Saya sudah melakukan hal tersebut di neotbook sebelumnya, jadi saya tinggal mengimpor data yang sudah diubah menjadi data ordinal.
Kurang Lebih Seperti Ini Detailnya:
| Feature | Description |
| ------- | ----------- |
| HallwayType | 'terraced': 3, 'corridor': 1, 'mixed': 2|
| TimeToSubway | '0-5min': 1,'5min~10min': 2,'10min~15min': 3,'15min~20min': 4, 'no_bus_stop_nearby': 0|
| SubwayStation | 'Kyungbuk_uni_hospital': 1, 'Chil-sung-market':2 , 'Bangoge': 3, 'Sin-nam': 4, 'Banwoldang': 5, 'no_subway_nearby': 0, 'Myung-duk': 6, 'Daegu': 7|
| N_FacilitiesNearBy(ETC) | '1': 2, '0': 1, '2': 3, '5': 4 |
| N_FacilitiesNearBy(PublicOffice) | '0': 1, '1': 2, '2': 3, '3': 4, '4': 5, '5': 6, '6': 7, '7': 8|
| N_SchoolNearBy(University) | '0': 1, '1': 2, '2': 3, '3': 4, '4': 5, '5': 6|
| N_Parkinglot(Basement) | '0-200':1, '200-400':2, '400-600':3, '600-800':4, '800-1000':5, '1000-1200':6, '1200-1400':7 |
| YearBuilt | '1970-1980':1, '1980-1990':2, '1990-2000':3, '2000-2010':4, '2010-2020':5|
| N_FacilitiesInApt | '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '7':6, '8':7, '9':8, '10':9 |
| Size(sqf) | '0-500':1, '500-1000':2, '1000-1500':3, '1500-2000':4, '2000-2500':5|
| SalePrice | '0-100000':1, '100000-200000':2, '200000-300000':3, '300000-400000':4, '400000-500000':5, '500000-600000':6 |


##### _Collect Data_

In [2]:
import pandas as pd
import numpy as np
from scipy.stats import pearsonr

# Load your data
data = pd.read_csv('../data/data_daegu_apartment_preprocessed.csv')

In [4]:
import pingouin as pg

# Define your sets of items
sets_of_items = [
    ['HallwayType', 'N_Parkinglot(Basement)', 'YearBuilt', 'N_FacilitiesInApt', 'Size(sqf)'],
    ['TimeToSubway', 'SubwayStation'],
    ['N_SchoolNearBy(University)', 'N_FacilitiesNearBy(PublicOffice)', 'N_FacilitiesNearBy(ETC)']
]

# Calculate Cronbach's alpha for each set of items
for items in sets_of_items:
    alpha = pg.cronbach_alpha(data[items])
    print(f'Cronbach alpha for {items}:', alpha)

Cronbach alpha for ['HallwayType', 'N_Parkinglot(Basement)', 'YearBuilt', 'N_FacilitiesInApt', 'Size(sqf)']: (0.7605005131034425, array([0.749, 0.772]))
Cronbach alpha for ['TimeToSubway', 'SubwayStation']: (0.4563398716294107, array([0.422, 0.489]))
Cronbach alpha for ['N_SchoolNearBy(University)', 'N_FacilitiesNearBy(PublicOffice)', 'N_FacilitiesNearBy(ETC)']: (0.86801088544554, array([0.861, 0.875]))


Insight:<br>
- 2 Kriteria untuk **Variabel Struktural** dan **Variabel Lingkungan** Cukup Dapat Diandalkan untuk Digunakan sebagai Model.<br><br> Karena Hasil Cronbach Alpha di atas 0,6 (0,76, 0,86).

- 1 Kriteria untuk **Variabel Proksimitas** Tidak Cukup Dapat Diandalkan untuk Digunakan sebagai Model.<br><br> Karena Hasil Cronbach Alpha di bawah 0,6 (0,50).

### Statement

Berdasarkan Insight di atas, maka saya simpulkan bahwa data yang saya gunakan dapat dihandalkan untuk digunakan sebagai model.<br> Meskipun Pada Variabel Proksimitas Dibawah 0.6, Tetapi Saya Akan Tetap Menggunakannya Karena Nilainya Mendekati 0.6.<br>

Selanjutnya Ada Di NoteBook "Data Preparation.ipynb"