Skip to content

Machine Learning Project for predict median house value in California

Notifications You must be signed in to change notification settings

babaskar2/CaliforniaHousingPrice

Repository files navigation

A. Context

Pada tahun 1990, pemerintah melakukan sensus di California untuk memahami harga rumah di setiap daerah. Lonjakan besar dalam transaksi jual beli rumah menciptakan kebutuhan yang tinggi akan penilaian harga rumah (home appraisal) untuk menentukan nilai jual yang tepat. Data sensus ini membantu pemerintah dalam mengumpulkan informasi yang akurat untuk analisis dan pengambilan keputusan terkait pasar perumahan di berbagai wilayah California.

"In the front yards of many towns along California's coast, 'For Sale' signs have become as common as palm trees, and for some sellers they appear to be permanent fixtures. After years of stunning price increases and demand so strong that homes sold within hours of being listed, California's giant real estate market has slowed drastically" .

Source: New York Times

B. Problem Statemtn

Terjadi penjualan rumah secara masif di California yang menyebabkan agensi properti perlu memperkerjakan lebih banyak home appraisal, tapi untuk mempekerjakan seorang home appraisal akan menjadi sebuah cost di perusahaan dan akan merugikan jika permintaan untuk memvaluasi sebuah rumah sudah tidak sebanyak sekarang yang akan berujung memecat orang tersebut.

Permasalahan ini menuntut perusahaan untuk mengembangkan sebuah machine learning untuk memprediksi harga median di sebuah distrik California, sehingga perusahaan:

  1. Mengurangi Pengeluaran : Berdasarkan Houzeo biaya yang diperlukan dari seorang home appraisal mencapai $1000 USD untuk setiap rumah, hal tersebut membuat perusahaan ingin membuat biaya yang diperlukan untuk menentukan valuasi rumah menjadi lebih murah

  2. Penentuan Harga yang Tepat : Memastikan harga jual rumah tidak terlalu mahal ataupun terlalu murah untuk menarik pembeli tanpa mengorbankan margin keuntungan

  3. Efisiensi Proses : Berdasarkan Rokcet Mortage waktu yang diperlukan untuk memvaluasi suatu rumah adalah 6-20 hari kerja, hal ini menjadi hambatan waktu bagi perusahaan untuk mejual sebuah rumah

  4. C. Goals

  5. Berdasarkan masalah yang ada, perusahaan menghire seorang data scientist untuk dapat menyelsaikan permasalahan yang ada dengan membuat suatu model yang dapat digunakan untuk melakukan prediksi suatu harga rumah, sehingga dapat menyelsaikan:

  6. Biaya yang dikeluarkan dalam menggunakan machine learning dapat jauh lebih murah dibandingkan menggunakan home appraisal

  7. Memberikan predisi harga dengan tikat error yang sekecil mungkin

  8. Waktu yang diperlukan untuk menghitung valuasi suatu rumah menjadi instant

  9. D. Analytic Approach

    1. Data Understanding and Collection:
  • Sourcing Data: Mengumpulkan data historis terkait harga rumah di California yang diperlukan.
  • Exploratory Data Analysis (EDA): Melakukan analisis eksploratif untuk memahami distribusi, tren, dan pola dalam data. Ini termasuk analisis statistik dasar dan visualisasi data untuk mengidentifikasi outliers, missing values, dan hubungan antar fitur.
  1. Data Preprocessing:
  • Data Cleaning: Mengatasi missing values, mengoreksi kesalahan data, dan menghapus outliers yang tidak wajar.
  • Feature Engineering: Membuat fitur baru yang relevan dan mengonversi fitur kategorikal menjadi format yang dapat digunakan oleh algoritma machine learning, seperti one-hot encoding untuk fitur seperti ocean_proximity.
  • Scaling and Normalization: Menormalkan data untuk memastikan semua fitur berada dalam skala yang sama, sehingga model dapat belajar dengan lebih efektif.
  1. Model Development:
  • Model Selection: Memilih beberapa algoritma machine learning yang sesuai untuk masalah regresi, seperti Linear Regression, Decision Tree, Random Forest, dan Gradient Boosting.
  • Model Training: Melatih model menggunakan data yang telah diproses, dengan membagi data menjadi set pelatihan dan set pengujian untuk menghindari overfitting.
  • Hyperparameter Tuning: Mengoptimalkan hyperparameters dari model menggunakan teknik seperti Grid Search atau Random Search untuk meningkatkan kinerja model.
  1. Model Evaluation:
  • Performance Metrics: Menggunakan metrik evaluasi seperti Mean Absolute Error (MAE), Mean Squared Error (MSE), dan Mean Absolute Percentage Error (MAPE) untuk menilai kinerja model.
  • Cross-Validation: Melakukan cross-validation untuk memastikan model memiliki generalisasi yang baik dan tidak overfitting terhadap data pelatihan.
  1. Model Deployment:
  • Deployment Strategy: Mengintegrasikan model ke dalam sistem perusahaan, memungkinkan pengguna untuk memasukkan data rumah dan mendapatkan prediksi harga secara real-time.
  • Monitoring and Maintenance: Mengatur sistem monitoring untuk melacak kinerja model setelah deployment dan melakukan pembaruan model secara berkala berdasarkan data baru.
  1. Business Integration:
  • Cost-Benefit Analysis: Melakukan analisis cost-benefit untuk memastikan bahwa penerapan model machine learning lebih ekonomis dibandingkan metode tradisional.

  • Stakeholder Training: Melatih pengguna akhir dan stakeholders tentang cara menggunakan model prediksi dan menginterpretasikan hasilnya.

  • Metrics

  • Pada tujuan terkait permasalahan yang ada adalah membuat model yang akurat untuk memprediksi harga suatu rumah dengan begitu terdapat konskuensi yang dapat merugikan semua pihak jika harga yang diprediksi itu salah, baik underprice maupun overprice.

Hal tersebut membuat, perusahaan properti ingin mendapatkan suatu model yang memiliki peresntase tingkat error serendah mungkin untuk meminimalisir kesalahan prediksi yang dilakukan, oleh karena itu metric utama yang digunakan dalam membuat model adalah MAPE (Mean Absolute Percetange Error)

Berdasarkan DQLab Metode Mean Absolute Percentage Error (MAPE) memberikan informasi seberapa besar kesalahan peramalan dibandingkan dengan nilai sebenarnya dari series tersebut. Semakin kecil nilai presentasi kesalahan (percentage error) pada MAPE maka semakin akurat hasil peramalan tersebut. Beberapa analisa menyebutkan variasi nilai Mean Absolute Percentage Error memiliki arti yang berbeda.

Kesimpulan

Pemanfaatan machine learning untuk memprediksi median house value di California tahun 1990 memberikan beberapa keuntungan signifikan. Berdasarkan analisis cost-benefit yang telah dilakukan, penggunaan model machine learning menghasilkan pengurangan biaya yang substansial serta peningkatan efisiensi dalam proses penilaian rumah. Implementasi machine learning dapat memberikan keuntungan besar, terutama dalam hal biaya dan kecepatan, sambil tetap mempertimbangkan cara untuk mengatasi keterbatasannya.

Pemodelan yang dilakukan menggunakan algoritma XGBoostRegressor berhasil mencapai nilai Mean Absolute Percentage Error (MAPE) sebesar 16% dalam memprediksi median house value. Ini berarti model memiliki tingkat kesalahan sebesar 16% dalam prediksinya. Analisis menunjukkan bahwa fitur yang paling berpengaruh dalam memprediksi median harga rumah adalah 'ocean_proximity_NOT INLAND' dan 'median_income'.

About

Machine Learning Project for predict median house value in California

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published