<a href="https://colab.research.google.com/github/Bast1-py/Experience-Developing-Projects/blob/main/Housing_Market_Analysis_With_Rule_based_Explainable_AI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://skills.network/logos/SN_web_lightmode.png"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 520px; height: auto;"></div>')

---
# Introduction:
---

Di Real Estate Market yang kompetitif, untuk memahami apa yang mendorong  harga rumah sangat penting bagi pembeli, penjual dan pembuat kebijakan (policymarkers). Metodelogi dengan Explainable AI (XAI) dapat membantu user atau Stakeholder untuk menjelaskan insight dan wawasan terkait real estate market yang penting untuk mengubah data pasar perumahan yang kompleks menjadi insight yang dapat ditindaklanjuti dan ditafsirkan, membantu Stakeholder membuat keputusan yang tepat berdasarkan analisis yang transparan, bukan **black-box prediction.**

Bayangkan anda seorang analisis real estate yang coba untuk memahami mengapa harga perumahan bervariasi diseluruh lingkungan, dalam contoh kasus ini di California. Anda ingin mengidentifikasi faktor-faktor utama yang mendorong nilai rumah, menentukan lingkungan mana yang memiliki pola harga yang sama dan menjelaskan kepada klien secara tepat apa yang membuat area tertentu lebih berharga daripada yang lain. **Machine Learning model tradisional mungkin memprediksi secara akurat, tetapi jarang menjelaskan alasannya.**

Dalam analisis dan tugas ini, saya akan menggunakan teknologi canggih dari **IBM AI Explainability 360 (AIX360)**, perangkat lengkap yang menawarkan teknik penjelasan yang canggih untuk **menafsirkan machine learning model**. dengan menerapkan **GLRMExplainer** dengan LinearRuleRegression ke dataset perumahan di california, dapat mengidentifikasi aturan yang jalas yang dapat menjelaskan menentukan harga perumahan dan menvisualisasikan bagaimana fitur individual seperti **median income, house age, and location contribute to property values.**

---
# 1. Backgrounds:
---



---
## 1.1 What is Explainable Artificial Intelligence?
---
  XAI atau **Explainable Artificial Intelligence** merupakan algoritma atau metode yang cocok untuk menjelaskan mengapa fitur dan outcome yang lebih spesifik dan dapat dijelaskan. Metode ini membantu manusia untuk membuat keputusan yang tepat dan lebih baik dalam pelaku bisnis tertentu, manusia mungkin tidak selalu memahami bagaimana AI mencapai kesimpulan itu.
  
  **Explainable AI** itu mengacu pada metode dan teknik dalam penerapan teknologi AI sehingga para ahli manusia dapat memahami hasil dan solusinya. Hal ini berbeda dengan konsep **black-box** dalam Machine Learning, dimana bahkan perancangnya tidak dapat menjelaskan mengapa AI sampai pada keputusan tertentu.

  Metode XAI akan memberikan kontribusi dalam **quantifying model correctness, fairness, and transparency model** dan menghasilkan decision-making **AI-assisted**. Umumnya XAI sangat penting untuk **trust** dan **confidence** organisasi saat menggunakan AI models. Selain itu, **Explainable AI** memungkinkan organisasi untuk mengambil pendekatan yang bertanggung jawab terhadap **AI development.**
  [Source1](https://research.aimultiple.com/xai/),
  [Source2](https://www.mdpi.com/2079-9292/12/4/1020)

---
## 1.2 Explainable AI Components.
---

Berikut ini akan menjelaskan lebih dalam kembali yang menjadi kaitan dalam XAI. XAI biasanya terdiri dari dua komponen, yaitu Machine Learning model dan metode XAI yang sama-sama memberikan kemampuan dalam memprediksi model dan menjelaskan outcome berdasarkan model. berikut ilustrasi dibawah ini menjelaskan cara kerja dari XAI secara singkat dan menyeluruh.
[Source1](https://research.aimultiple.com/xai/)

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://research.aimultiple.com/wp-content/uploads/2020/02/xai-techniques-1200x675.png.webp"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 1600px; height: auto;"></div>')

Teknologi AI masa kini memberikan keputusan dan rekomendasi bagi bisnis model dengan memanfaatkan berbagai model. Namun, user tidak dapat dengan mudah memahami bagaimana hasil dicapai atau mengapa model tidak memberikan hasil yang berbeda. selain memberikan hasil yang akurat dan spesifik, XAI menggunakan **model traditional** dan Explainability dengan antarmuka explainable untuk membantu pengguna memahami cara kerja model.
[Source2](https://www.mdpi.com/2079-9292/12/4/1020)

Model ML sering dianggap sebagai black-box yang mustahil diinterpretasi. Neural Network yang digunakan dalam deep learning termasuk yang paling sulit dipahami manusia. salah satu risiko yang sudah lama ada dalam AI model training yaitu outliers. performa AI model dapat berubah atau menurun karena perbedaan data produksi dengan data training. hal ini penting bagi pelaku bisnis untuk terus memantau dan mengelola model guna meningkatkan kemampujan Explainable AI sambil mengukur dampak bisnis bagi penggunaan algoritma tersebut. Explainable AI akan sangat membantu meningkatkan trust user, kemampuan audit model, dan penggunaan AI secara produktif juga memitigasi risiko, kepatuhan, hukum, keamanan, dan reputasi produk AI.
[Source3](https://www.ibm.com/id-id/think/topics/explainable-ai)

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://www.mdpi.com/electronics/electronics-12-01020/article_deploy/html/images/electronics-12-01020-g002.png"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 1100px; height: auto;"></div>')

AI model menjadi lebih canggih, namun user akan semakin kesulitan memahami dan menelusuri kembali langkah-langkah algoritma. Seluruh proses perhitungan diubah menjadi apa yang sering disebut **black-box** yang tidak dapat ditembus. **model black-box** dibangun menggunakan data secara langsung, dan bahkan **algoritma development** ataupun **data scientist** tidak memahami atau dapat menggambarkan apa yang terjadi didalamnya atau bagaimana algoritma AI sampai pada kesimpulan spesifik.

hal ini disebabkan Machine Learning model memiliki kerja untuk meningkatkan kinerja model, prediksi yang dapat dijelaskan dan di interpretasi menjadi semakin sulit dibuat. Model **black-box** dapat didefenisikan machine learning itu, atau deep learning atau ensemble learning.

disisi lain model **white-box** atau **glass-box** dikenal sebagai model open-source karena mudah untuk membuat hasil yang dapat dipahami menggunakan contoh-contoh yang dapat dijelaskan seperti **Decision tree model**. dimungkinkan untuk membuat **model baru** lebih mudah untuk dipahami dan di interpretasi. namun, model-model ini masih memerlukan state-of-the-art performance dibandingkan model-model sebelumnya.

Model akan menghitung prediksi berdasarkan data training, sedangkan metode XAI bertanggung jawab menghasilkan penjelasan tentang cara kerja internal dan prediksi model Machine Learning. dengan demikian **XAI menggabungkan dua output**, prediksi dan explainable. untuk memberikan output ini secara efektif kepadan **pengguna akhir**, biasanya **interface** pengguna (grafis) diimplementasikan. berbagai **stakeholder** dapat terlibat dengan prediksi dan penjelasan yang dihasilkan oleh model machine learning. **data scientist** dan **ML Developer** dapat memanfaatkan penjelasan untuk mendapatkan pemahaman yang lebih mendalam tentang cara kerja internal model dan mengoptimalkan kinerjanya. **Domain Expert** dapat mengevaluasi apakah perilaku model selaras dengan logika real-world. manager dan owner bussiness dapat memanfaatkan penjelasan untuk membuat keputusan yang tepat berdasarkan output model. untuk membantu mengembangkan XAI, XAIR mempertimbangkan semua langkah relevan yang diadopsi dari building blocks for software development, memulai dari analisis persyaratan dan diakhiri dengan deployment of XAI applications.
[Source4](https://www.mdpi.com/2504-4990/5/1/6)


hal ini bermuara pada desain yang hemat. kemampuan interpretasi sebagaimana dikatakan, bermanfaat untuk mencapai tujuan model lainnya, yang mungkin mencakup membangun kepercayaan users, mengenali pengaruh faktor-faktor tertentu, memahami bagaimana model akan berperilaku berdasarkan masukan dan memastikan bahwa model tersebut fair dan impartial.

---
## 1.3 Black-Box and White-Box Models
---

salah satu klasifikasi penting ML model adalah menurut **interpretabilitas** model yang melekat. dengan ini users akan membedakan antara **black-box** dengan **white-box**. secara umum, **white-box** biasanya membuat deskripsi, yang dapat diinterpretaikan oleh manusia, tentang hubungan input-output. misalnya **keofisien** dalam linear regresi melaporkan bagaimana unit **input tambahan** mengubah **output** dalam hubungan linear. contoh lain yang didapatkan, meliputi **white-box** meliputi jenis model **machine learning traditional** lainnya, misalnya **decision trees, rule-based learners and k-nearest-neighbor models.**

**black-box** secara de facto tidak dapat dipahami oleh manusia karena **non-linearitas** dan ukuran **model yang tinggi.** properti ini memungkinkan model tersebut untuk menangkap hubungan yang kompleks dalam data, yang tidak dapat dipelajari oleh **model white-box**. oleh karena itu, interpretabilitas biasanya mengoarbankan **akurasi model**. contohnya black-box model adalah neural networks, metode ensemble, dan support vectore machine. metode XAI yang bertujuan untuk menjelaskan prediksi model setelah proses training dan inferensi biasanya disebut sebagai **metode post-hoc**.

Ilustrasi dibawah ini akan menunjukkan klasifikasi AI model paling populer menurut kompleksitasnya, **kinerja potensial dalam aplikasi AI, dan tingkat interpretabilitas.** **machine learning tradisional cenderung lebih mudah dijelaskan.** sementara relatif kurang kuat dalam hal kinerja prediktif/ algoritma canggih lainnya seperti deep learning model, tetap jauh **lebih sulit explainable** sementara lebih kuat dalam **sistem kompleksitasnya.**
[Source1](https://www.mdpi.com/2504-4990/5/1/6)

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://www.mdpi.com/make/make-05-00006/article_deploy/html/images/make-05-00006-g001-550.jpg"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 1100px; height: auto;"></div>')

---
## 1.4 Why is Relevant Now?
---

XAi akan menciptakan lingkungan transparan tempat users dapat memahami dan mempercayai keputusan yang dibuat AI.

Bisnis menggunakan perangkat AI untuk meningkatkan kinerja dan membuat keputusan yang lebih baik. namun, selain mendapatkan manfaat dari hasil, memahami cara kerjanya juga penting. kurangnya penjelasan mencegah perusahaan membuat skenario **what-if** yang relevan dan menciptakan masalah kepercayaan kerena mereka tidak memahami bagaimana AI mencapai hasil tertentu. perangkat AI yang lebih kompleks ini bekerja dalam **black-box**, yang membuat sulit untuk menafsirkan alasan dibalik keputusan.

Sementara manusia dapat menjelaskan AI model yang lebih sederhana seperti decision tree atau logistic regression, model yang lebih akurat seperti neural networks atau random forest adalah **black-box models**. XAI penting karena menjelaskan AI model black-box, membantu manusia memahami cara kerjanya. ini dapat memperjelas penalaran keputusan tertentu, berbagai hasil, dan kekuatan/kelemahan model. seiring bisnis lebih memahami AI model dan solusinya, XAI membangun kepercayaan antara perusahaan dan AI. teknologi ini memungkinkan bisnis untuk menggunakan AI secara maksimal.[Source1](https://research.aimultiple.com/xai/)

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://ars.els-cdn.com/content/image/1-s2.0-S1566253521001093-gr7.jpg"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 1300px; height: auto;"></div>')

---
## 1.5 Nine Ways AI Real Estate Solutions Are Redefining The Industry:
---

Pastinya dengan perkembangan teknologi telah mengubah aspek real estate dari manajemen investasi sampai kontruksi, operasi, dan manajemen portofolio. Landasannya ditetapkan untuk integrasi AI, yang menjanjikan peningkatan efisiensi dan mengubah praktik industri.

  1. **Property Valuation:** aspek penting dalam industri real estate dan algoritma AI berperan penting dalam meningkatkan **akurasi** dan **efisiensi.** pemanfaatan AI dalam property valuation melibatkan analisis berbagai faktor untuk memperkirakan fair market value of a property. pendekatan ini **melampaui metode tradisional** dan **menggabungkan analisis data tingkat lanjut** memberikan penilaian yang lebih bernuansa dan tepat. ini merupakan uraian elemen utama yang terlibat dalam **property valuation berbasis AI**:
    * **Property size:** algoritma AI **memperhitungkan dimensi fisik properti,** dengan **mempertimbangkan faktor-faktor** seperti **total luas lahan** dan **ukuran bangunan.** dengan menilai atribut-atribut ini, algoritma dapat mengevaluasi kesesuaian dengan preferensi dan standar pasar, yang mempengaruhi nilai properti secara keseluruhan.
    * **Location:** lokasi geografis suatu properti merupakan penentu utama nilainya. algoritma AI menganalisis data berbasis lokasi, dengan mempertimbangkan kedekatan dengan fasilitas umum, sekolah, transportasi umum, dan faktor relevan lainnya. selain itu algoritma tersebut dapat menilai indikator ekonomi dan sosial lingkungan secara keseluruhan untuk mengukur daya tarik lokasi tersebut.
    * **Historical sles data:** algoritma ini menggabungkan data penjualan historis untuk mengidentifikasi pola dan tren nilai properti dari waktu ke waktu. dengan memeriksa transaksi masa lalu di area tersebut, sistem AI dapat mengidentifikasi tren apresiasi atau depresiasi, sehingga memungkinkan prediksi memungkinkan prediksi yang lebih akurat tentang **property valuation** saat ini.
    * **Average price per square foot:** metrik umum yang digunakan dalam penilaian properti, harga rata-rata per kaki persegi memberikan ukuran standar untuk membandingkan properti. algorima AI mempertimbangkan metrik ini dalam konteks ukuran dan lokasi properti untuk memperoleh penilaian yang lebih akurat.
    * **Comparable sales:** Algoritma AI memanfaatkan data penjualan yang dapat dibandingkan terkini untuk menarik persamaan antara properti subjek dan properti lain di sekitarnya. analisis perbandingan ini membantu dalam menyesuaikan penilaian berdasarkan persamaan dan perbedaan antara properti, sehingga menghasilkan estimasi yang lebih akurat dan tepat.

  2. **Predictive Analytics For Investment:** penerapan analisis prediktif untuk investasi dibidang real estate merupakan alat hebat yang memanfaatkan machine learning model untuk menganalisis data historis dan mengungkapkan pola, sehingga memungkinkan investor membuat keputusan yang lebih tepat dan strategis.:
    * **Historical data analysis:** algoritma Machine Learning model mampu memproses large dataset tentang penjualan properti, hasil sewa, tren pasar, indikator ekonomi, dan berbagai faktor lain yang mempengaruhi lanskap real estat. dengan memeriksa pola dan korelasi dalam data historis ini, algoritma dapat mengidentifikasi tren dan hubungan yang mungkin tidak terlihat melalui analisis traditional.
    * **Pattern Recognition:** salah satu kekuatan machine learning adalah kemampuannya untuk mengenali pola dan hubungan yang kompleks dalam data. pola ini dapat melibatkan musim dalam nilai properti, siklus dalam permintaan pasar, atau korelasi antara indikator ekonomi dan kinerja real estat. model machine learning belajar dari pola historis ini untuk membuat prediksi tentang perilaku pasar dimasa mendatang.
    * predicting future trends: setelah model machine learning dilatih pada data historis, model tersebut dapat digunakan untuk memprediksi tren masa depan dipasar real estat. hal ini dapat mencakup prakiraan nilai properti, hasil sewa, atau permintaan pasar secara keseluruhan. investor dapat memperoleh wawasan berharga tentang peluang atau risiko potensial berdasarkan prediksi ini, yang memungkinkan mereka menyesuaikan strategi investasinya.
    * **Anticipating changes:** analisis prediktif memungkinkan investor mengantisipasi perubahan pasar real estat sebelum terjadi. misalnya, jika model mengidentifikasi korelasi historis antara pertumbuhan lapangan kerja di aea tertentu dan peningkatan nilai properti, investor dapat mengantisipasi potensi peningkatan permintaan dan menyesuaikan portofolio investasi mereka. pendekatan proaktif ini dapat memberikan investor keunggulan kompetitif dalam mengidentifikasi peluang yang muncul.
    * **Informed Investment decision:** berbekal prediksi dan wawasan yang dihasilkan oleh model machine learning, investor dapat membuat keputusan yang lebih terinformasi dan berdasarkan data. ini termasuk keputusan tentang dimana akan berinvestasi, kapan akan membeli atau menjual, dan bagaimana mendiversifikasi portofolio mereka. dengan mengintegrasikan analisis prediktif kedalam proses pengambilan keputusan mereka, investor berpotensi meningkatkan laba dan mengurangi risiko.

  3. **Automated Customer Services:** integrasi AI di sektor real estate telah memfasilitasi pengembangan sistem layanan pelanggan otomatis, kususnya melalui penggunaan chatbot bertenaga AI. assisten virtual ini dirancang untuk memperlancar komunikasi, meningkatkan pengalaman pelanggan, dan memberikan dukungan langsung:
    * **AI-powered chatbots:** chatbots bertenaga AI adalah program komputer yang dirancang untuk mensimulasikan percakapan dengan pengguna. dalam konteks real estat, chatbot berfungsi sebagai asisten virtual yang mampu menangani berbagai tugas layanan pelanggan. mereka diprogram untuk memahami dan menanggapi pertanyaan pengguna dengan cara yang mensimulasikan interaksi natural language.
    * **Frequently Asked Questions (FAQs):** chatbot AI untuk menangani pertanyaan yang sering diajukan tentang properti, transaksi real estat, dan informasi terkait. dengan memanfaatkan **natural language processing (NLP)**, bot ini dapat memahami maksud dibalik pertanyaan pengguna dan memberikan respons yang relevan dan akurat. hal ini membantu dalam menangani masalah dan pertanyaan umum dengan segera tanpa memerlukan campur tangan manusia.
    * **Property Inquires:** assiten virtual dapat membantu calon pembeli atau penyewa dengan memberikan informasi tentang properti yang tersedia, termasuk detail tentang ukuran, fasilitas, lokasi, dan harga. pengguna dapat berinteraksi dengan chatbot untuk menanyakan tentang fitur tertentu, spesifikasi properti, atau informasi lain yang mereka cari. akses instan ke detail properti ini berkontribusi pada pengalaman pelanggan yang lebih efisien dan nyaman.
    * **Scheduling property showings:** chatbot bertenaga AI dapat melakukan lebih dari sekedar penyediaan informasi dan membantu dalam penjadwalan kunjungan properti. pengguna dapat menyatakan minat mereka untuk mengunjungi properti dan chatbot dapat memfasilitasi proses penjadwalan dengan memeriksa ketersediaan. berkoordinasi dengan agen real estat, dan menginformasi janji tamu. otomatisasi ini mempercepat proses pemesanan dan meningkatkan keterlibatan pelanggan.

  4. **Personalised Property Recommendations:** Integrasi AI dalam bidang real estat mencakup penyediaan rekomendasi properti yang dipersonalisasi, yang meningkatkan pengalaman pencarian properti bagi pengguna. fungsionalitas ini bergantung pada analisis preferensi dan perilaku pengguna, yang memungkinkan sistem AI untuk menyesuaikan rekomendasi berdasarkan kebutuhan masing-masing individu:
    * **Users preference analysis:** sistem AI memanfaatkan analitik data untuk menganalisis preferensi dan perilaku pengguna yang terlibat dengan platform real estat. analisis ini mencakup mempelajari jenis properti yang dicari pengguna, fitur spesifik yang mereka prioritaskan, lokasi yang disukai, kendala anggaran, dan kriteria relevan lainnya.
    * **Machine learning algorithms:** algoritma machine learning digunakan untuk memproses dan menginterpretasikan sejumlah besar data yang dihasilkan oleh interaksi pengguna. algoritma ini mempelajari pola dan korelasi dalam data, mengidentifikasi tren dalam perilaku dan preferensi pengguna dari waktu ke waktu. semakin banyak pengguna terlibat dengan platform, semakin baik AI dalam memahami selera masing-masing pengguna.
    * **personalised recommendations:** berdasarkan wawasan yang diperoleh dari preferensi pengguna. sistem AI menghasilkan properti yang dipersonalisasi. misalnya, jika pengguna sering mencari apartement tiga kamar tidur dengan balkon dilingkungan tertentu, AI akan memprioritaskan dan merekomendasikan iklan yang sesuai dengan kriteria ini. pendekatan yang dipersonalisasi ini menyederhanakan proses pencarian properti, menyajikan opsi yang sesuai dengan keinginan pengguna.
    * **Dynamic adaption:** sistem AI dirancang untuk beradaptasi secara dinamis seiring dengan perubahan preferensi baru, sistem akan menyesuaikan rekomendasinya. fleksibilitas ini memastikan bahwa rekomendasi tetap relevan dan selaras dengan kebutuhan dan preferensi pengguna saat ini.
    * **Efficient property search:** rekomendasi properti yang dipersonalisasi secara signifikan meningkatkan efiensi proses pencarian properti. pengguna diberikan pilihan yang lebih mungkin memenuhi kriteria mereka, sehingga mengurangi waktu dan upaya yang diperlukan untuk memilih-milah banyak daftar. pendekatan yang dipersonalisasi ini menambah tingkat kemudahan dan penyesuaian pada pengalaman pencarian properti.
    * **Increased user engagement:** penyesuaian rekomendasi dengan preferensi individu meningkatkan keterlibatan pengguna dengan platform real estat. pengguna cenderung menjelajahi daftar yang disarankan yang sesuai dengan minat mereka, sehingga meningkatkan interaksi dengan platform. keterlibatan ini dapat menghasilkan pengalaman pengguna yang lebih memuaskan dan dapat berkontribusi pada retensi pengguna.

  5. **Risk Assessment and Fraud Detection:** penerapan AI dalam bidang real estat mencakup penilaian risiko dan deteksi penipuan, yang menyediakan alat yang berharga untuk mengevaluasi integritas dan keandalan informasi dalam interaksi real estat. kemampuan AI dalam konteks ini melibatkan analisis berbagai faktor untuk mengidentifikasi potensi risiko, ketidaksesuaian, kejadian penipuan:
    * **Data consistency analysis:** sistem AI menganalisis sejumlah besar data yang terkait dengan interaksi real estat, termasuk rincian kontrak, informasi keuangan, dan dokumentasi properti. dengan memeriksa konsistensi informasi diberbagai dokumen dan sumber data, AI dapat mengidentifikasi potensi perbedaan atau kejanggalan yang dapat mengindikasikan risiko lebih tinggi terhadap aktivitas penipuan.
    * **Document verification:** AI dapat membantu dalam memverifikasi dokumen yang terlibat dalam transaksi real estat. ini termasuk memeriksa keaslian kontrak, akta, dan dokumen penting lainnya, dengan menggunakan pengenalan gambar dan analisis dokumen, sistem AI dapat menandai ketidaksesuaiaan, ketidakkonsistenan, atau potensi pemalsuan yang dapat menandakan aktivitas penipuan.
    * **Behavioral analysis:** sistem AI dapat menganalisis perilaku pengguna dan pola transaksi untuk mendeteksi anomali yang mungkin menunjukkan adanya niat curang. waktu transaksi yang tidak biasa, beberapa transaksi dari satu sumber dalam waktu singkat, atau pola tidak biasa lainnya dapat memicu peringatan untuk penyelidikan lebih lanjut.
    * **Identification of red flags:** AI diprogram untuk mengidentifikasi tanda bahaya tertentu yang terkait dengan aktivitas penipuan. ini dapat mencakup perubahan mendadak dalam informasi kepemilikan, ketidakteraturan dalam pola pembayaran, perbedaan dalam penilaian properti, atau ketidakkonsistenan dalam dokumentasi keuangan. tanda bahaya ini berfungsi sebagai indikator yang mendorong pemeriksaan transaksi yang lebih menyeluruh.
    * **Real-time monitoring:** AI memungkinkan pemantauan transaksi secara real-time, memebrikan respon langsung terhadap potensi risiko. pendekatan proaktif ini memungkinkan identifikasi dan mitigasi aktivitas penipuan yang cepat saat terjadi, meminimalkan dampak terhadap pihak-pihak yang terlibat.

  6. **Market Analysis and Trend Processing:** peran AI dalam analisis pasar dan pemrosesan tren dalam sektor real estat berperan penting dalam menyediakan wawasan berharga dan informasi yang dapat ditindaklanjuti bagi para profesional dan investor real estat. hal ini melibatkan pemanfaatan algoritma canggih untuk memproses **large datasets**, mengidentifikasi pola, dan menarik kesimpulan yang berarti terkait dinamika pasar:
    * **data processing dan aggregation:** algoritma AI mampu memproses sejumlah besar data dari berbagai sumber, termasuk daftar properti, catatan penjualan historis, indikator ekonomi, data demografi, dan banyak lagi. dengan menggabungkan informasi ini, AI menciptakan dataset yang komprehensif dan dinamis yang berfungsi sebagai dasar untuk analisis pasar.
    * **Pattern recognition and analysis:** algoritma ML dalam sistem AI unggul dalam mengenali pola dan korelasi dalam dataset yang kompleks. dalam konteks real-estat, pola-pola ini dapat mencakup fluktuasi musimam dalam harga properti, korelasi antara indikator ekonomi dan kinerja real estat, atau pergeseran permintaan berdasarkan perubahan demografi. AI menganalisis pola-pola in untuk mengekstrak wawasan yang bermakna.
    * **Fluctuations in property prices:** AI dapat menilai dan memprediksi fluktuasi harga properti dengan mempertimbangkan berbagai faktor seperti kondisi ekomnomi, suku bunga, dan kondisi pasar lokal. informasi ini berharga bagi pembeli dan penjual dalam membuat keputusan yany tepat tentang transaksi properti.
    * **Emerging opportunities identification:** AI membantu mengidentifikasi peluang yang muncul di pasar real estat. ini dapat mencakup area yang mengalami perkembangan pesat, lingkungan yang akan datang dengan potensi pertumbuhan, atau jenis properti tertentu yang semakin populer, investor dan profesional dapat memanfaatkan informasi ini untuk memanfaatkan tren yang muncul.
    * **Dicision support for professional and investors:** professional dan investor real estat dapat menggunakan wawasan yang dihasilkan AI untuk menndukung keputusan. baik itu menentukan strategi penetapan harga yang optimal, mengidentifikasi peluang investasi, atau memahami kondisi pasar untuk perencanaan strategi, analisis pasar yang digerakkan oleh AI berfungsi sebagai alat yang berharga dalam proses pengambilan keputusan.
    * **Dynamics and real-time analysis:** kemampuan AI untuk memproses data secara real-time memastikan bahwa analisis pasar tetap dinamis dan responsif terhadap perubahan kondisi. analisis real-time ini penting untuk mengikuti perubahan pasar yang cepat dan membuat keputusan yang tepat waktu.

  7. **Virtual Tours and Augmented Reality (AR):** Turvirtual berbasis AI dan aplikasi augmented reality (AR) telah merevolusi cara calon pembeli merasakan dan berinteraksi dengan properti real estat. teknologi ini memanfaatkan kemampuan AI tingkat lanjut, seperti komputer visi dan pengenalan gambar, untuk menciptakan pengalaman yang imersif dan interaktif:
    * **Virtual Tours with computer vision:** AI memanfaatkan computer vision untuk menganalisis dan menginterpretasi informasi visual dari gambar atau vidio. dalam konteks tur virtual, computer vision digunakan untuk memahami tata letak, fitur, dan detail properti. tur virtual memungkinkan calon pembeli untuk menjelajahi properti seolah-olah mereka hadir secara fisik. AI memproses gambar atau vidio properti untuk menciptakan pengalaman yang mulus dan mendalam, yang memungkinkan pengguna menjelajahi setiap ruangan, sudut, dan detail secara virtual.
    * **Image recognition for property feature:** teknologi pengenalan gambar dalam sistem AI mengidentifkasi dan memberi label fitur dan objek tertentu didalam properti. ini termasuk mengenali berbagai ruangan, furnitur, elemen arsitektur, dan detail lainnya. dengan menggabungkan pengenalan gambar, tur virtual dapat memberi informasi terperinci tentang properti kepada pengguna. pengguna dapat menerima detail langsung tentang fitur tertentu, seperti jenis lantai, peralatan didapur, atau gaya perlengkapan dikamar mandi.
    * **Virtual staging for visualization:** penataan virtual melibatkan penyempurnaan atau modifikasi tampilan properti secara digital untuk menunjukkan potensinya. algoritma AI dapat menata properti secara virtual dengan gaya furnitur, tata letak, atau elemen desain yang berbeda. calon pembeli dapat menvisualisasikan tampilan properti dengan prabotan atau pilihan desain yang berbeda. fitur ini membantu pembeli lebih memahami potensi suatu ruangan dan membantu dalam pengambilan keputusan.
    * **Augmented reality applications:** AR atau augmented reality melapisi informasi digital ke lingkungan dunia nyata. dalam bidang real estat, aplikasi AR dapat digunakan untuk meningkatkan pengalaman menonton dengan menyediakan informasi tambahan atau elemen visual. AR memungkinkan pengguna mengarahkan perangkat mereka ke properti atau area tertentu kedalamnya, memicu informasi tambahan, model 3D, atau anotasi virtual. eksplorasi interaktif ini meningkatkan pemahaman tentang fitur properti.
    * **Remote property viewing:** tur virtual dan aplikasi AR memungkinkan calon pembeli untuk menjelajahi properti dari jarak jauh. hal ini sangat berguna bagi pembeli yang mungkin berlokasi di kota atau negara yang berbeda, yang memungkinkan mereka untuk melihat properti secara virtual tanpa harus mengunjunginya secara langsung. dengan menawarkan opsi melihat dari jarak jauh, pembeli dapat mempersempit pilihan, mereka secara lebih efisien, menghemat waktu dan biaya perjalanan. hal ini sangat bermanfaat di pasar real estat yang kompetitif.
    * **Enhanced marketing and sales:** tur virtual dan pengalaman AR menyediakan materi pemasaran yang manrik untuk iklan properti. konten interaktif ini dapat menarik lebih banyak calon pembeli dan meningkatkan visibilitas properti secara keseluruhan. sifat tur virtual dan pengalam AR yang mendalam dapat berkontribusi pada peningkatan rasio konversi penjualan. pembeli yang memiliki pemahaman menyeluruh tentang properti melalui teknologi ini cenderung membuat keputusan yang tepat.

  8. **Tenant and Lease Management:** AI memanikan peran penting dalam manajemen penyewa dan sewa dalam industri real estat, menyediakan otomatisasi dan wawasan berdasarkan data yang meningkatkan efisiensi dan pengambilan keputusan.
    * **Communication Automation:** sistem yang didukung AI dapat mengotomasi komunikasi dengan penyewa, mengirimkan pemberitahuan untuk pengingat sewa, permintaan, pemeliharaan, dan pembaruan penting. otomatisasi ini menyederhanakan proses komunikasi dan memastikan penyampaian informasi yang tepat waktu dan konsisten.
    * **Lease agreement tracking:** AI memfasilitasi pengaturan dan pengelolaan perjanjian sewa dan dokumen terkait. dengan menggunakan pengenalan dan klasifikasi dokumen, sistem AI dapat mengidentifikasi dan mengkategorikan dokumen sewa secara akurat, sehingga memudahkan pelacakan ketentuan, syarat, dan tanggal kadaluwarsa yang penting.
    * **Rent payment analysis:** sistem AI dapat menganalisis riwayat pembayaran sewa penyewa untuk mengidentifikasi pola dan tren. analisis ini mencakup penilaian faktor-faktor seperti ketepatan waktu pembayaran, frekuensi keterlambatan pembayaran, dan masalah konsisten yang mungkin timbul. AI menggunakan pemodelan prediktif untuk memperkirakan perilaku pembayaran sewa dimasa mendatang berdasarkan data historis. hal ini membantu pengelola properti dan tuan tanah mengantisipasi potensi tantangan dan menerapkan strategi untuk mempertahankan arus kas yang konsisten.
    * **Issue identification and resolution:** AI dapat mengidentifikasi anomali atau ketidakteraturan dalam perilaku penyewa atau pola pembayaran. misalnya, jika penyewa yang secara konsisten membayar sewa tepat waktu mulai menjukkan perilaku pembayaran yang tidak teratur, AI dapat menandainya sebagai anomali untuk penyelidikan lebih lanjut. beberapa sistem AI dilengkapi untuk mengotomasisasi proses resolusi masalah tertentu. misalnya, menangani pertanyaan umum penyewa, menjadwalkan tugas pemeliharaan, atau memfasilitasi pembaruan sewa dapat diotomatisasi, sehingga membebaskan sumber daya manajemen properti.
    * **Efficient Lease Renewals:** AI menganalisis daya penyewa untuk menginformasikan strategi perpanjangan sewa. dengan mempertimbangkan faktor-faktor seperti kepuasan penyewa, riwayat pembayaran, dan kondisi pasar, AI membantu pengelola properti membuat keputusan yang tepat tentang perpanjangan sewa, yang berpotensi meningkatkan tingkat retensi penyewa.

  9. **Energy Efficiency Optimisation:** peran AI dalam optimalisasi efisiensi energi dalam sektor real estat sangat penting untuk meminimalisasikan dampak lingkungan dan mengurangi biaya oprasional. dengan menganalisis data penggunaan energi historis dan memanfaatkan algoritma canggih, AI dapat mengidentifikasi pola, merekomendasikan optimalisasi, dan berkontribusi pada pengelolaan properti yang lebih berkelanjutan dan hemat biaya.
    * **Historical energy usage analysis:** sistem AI mengumpulkan dan menganalisis data penggunaan energi historis dari berbagai sumber di dalam suatu properti. ini termasuk data dari meteran pinter, sistem HVAC, sistem pencahayaan, dan perangkat lain yang mengonsumsi energi. algoritma AI mengidentifikasi pola dan tren dalam konsumsi energi historis. dengan memahami bagaimana energi digunakan dari waktu ke waktu, sistem memperoleh wawasan tentang perilaku penggunaan energi properti pada umumnya.
    * **Recommendation for adjustments:** berdasarkan analisis data historis, AI memberikan rekomendasi untuk mengoptimalkan pengguna energi. rekomendasi ini dapat mencakup penyesuaian jadwal pencahayaan, sistem pemanas, ventilasi, dan pendingin udara (HVAC), serta perangkat lain yang mengonsumsi energi. AI juga dapat memberikan wawasan tentang perilaku penghuni yang mempengaruhi konsumsi energi. misalnya, AI dapat mengidentifikasi periode pengguna energi tinggi yang bertepatan dengan pola hunian tertentu dan menyarankan penyesuaian untuk menyelaraskan konsumsi energi dengan kebutuhan aktual.
    * **Dynamic HVAC system control:** AI dapat mengontrol sistem HVAC secara dinamis untuk beradaptasi dengan kondisi yang berubah. dengan mempertimbangkan faktor-faktor seperti cuaca eksternal, tingkat hunian, dan waktu, sistem mengoptimalkan pengaturan suhu untuk mengurangi konsumsi energi sekaligus menjaga kenyamanan penghuni. beberapa sistem AI menggunakan analisis prediktif untuk mengantisipasi perubahan suhu dan hunian, menyesuaikan pengaturan HVAC secara proaktif untuk mencapai efisensi energi yang optimal.
    * **Lighting control strategies:** AI terintegrasi dengan sistem pencahayaan pintar yang mengoptimalkan jadwal pencahayaan dan tingkat intensitas AI dapat merekomendasikan penyesuaian berdasarkan ketersediaan cahaya alami, pola hunian, dan waktu dalam sehari untuk meminimalkan konsumsi energi yang tidak perlu. AI juga dapat memanfaatkan sensor hunian untuk mengendalikan pencahayaan secara real-time, memastikan bahwa lampu hanya menyala di area yang membutuhkannya, sehingga mengurangi pemborosan energi.
    * **Cost savings and environmental impact:** optimalisasi efisiensi energi yang direkomendasikan oleh AI berkontribusi pada penghematan biaya operasional bagi pemilik dan pengelola properti. dengan mengurangi konsumsi energi, pemilik properti dapat menurunkan tagihan listrik dan biaya operasional. pengurangan konsumsi energi tidak hanya mengarah pada penghematan biaya tetapi juga sejalan dengan tujuan keberlanjutan lingkungan dengan meminilakan jejak karbon yang terkait dengan operasi properti.
    * **Integration with smart building systems:** AI sering kali terintegrasi dengan sistem bangunan cerdas yang mencakup sensor, meteran, dan sistem kontrol. pendekatan holistik ini memungkinkan AI untuk mempertimbangkan berbagai faktor secara bersamaan dan membuat rekomendasi yang lebih tepat untuk efisiensi energi secara keseluruhan.

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://geekyants.com/_next/image?url=https%3A%2F%2Fstatic-cdn.geekyants.com%2Farticleblogcomponent%2F24627%2F2024-01-25%2F207865817-1706168552.png&w=1920&q=75"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 800px; height: auto;"></div>')

---
## 1.6 Benefits of AI in Real Estate
---

manfaat AI dibidang real estat memiliki dampak yang luas pada berbagai pemangku kepentingan dalam industri ini, berkontribusi pada peningkatan bagi para professional real estat, investor, pembeli dan penyewa, manajer properti, dan pendukung keberlanjutan lingkungan.
  * **Efficiency:** AI mengotomatiskan tugas rutin dan yang memaskan waktu, seperti entri data, pemrosesan dokumen, dan komunikasi. otomatisasi ini menyederhanakan alur kerja, sehingga para professional real estat dapat fokus pada aspek yang lebih strategis dari peran mereka. otomatisasi meningkatkan efisiensi berbagai proses, mulai dari manajemen properti hingga layanan pelanggan. hal ini menghasilkan waktu penyelesaian yang lebih cepat dan peningkatan produktivitas diberbagai fungsi dalam industri real estat.
  * **Accuracy:** algoritma AI menganalisis lebih banyak faktor untuk memberikan penilaian properti yang lebih akurat. ini mencakup pertimbangan seperti ukuran properti, lokasi, data penjualan historis. ini mencakup pertimbangan seperti ukuran properti, lokasi, data penjualan historis, dan tren pasar saat ini. pendekatan berbasis data mengurangi kemungkinan kesalahan yang terkait dengan metode penilaian manual.
  * **Enhanced customer experience:** AI memfasilitasi komunikasi yang dipersonalisasikan dengan klien dengan menganalisis preferensi, perilaku, dan kebutuhan mereka. asisten virtual dan chatbot yang didukung oleh AI dapat memberikan informasi yang disesuaikan, rekomendasi properti, dan bantuan, sehingga menciptakan pengalaman yang lebih menarik dan memuaskan bagi calon pembeli dan penyewa.
  * **Large dataset analysis:** LLM dapat menganalisis large dataset yang berisi informasi dalam berbagai bahasa. kemampuan ini bermanfaat bagi para professional real estat yang bekerja dilingkungan multikultur dan multibahasa, membantu mereka memperoleh wawasan berharga dari berbagai sumber.
  * **Facilitating global transactions:** LLM berkontribusi pada komunikasi dan pemahaman yang lebih lancar dalam transaksi real estat global. LLM memungkinkan para profesional mengatasi kendala bahasa, memastikan bahwa informasi disampaikan dan diterima secara akurat, sehingga memfasilitasi lintas batas yang lebih efisien dan efektif.

In [None]:
from IPython.display import Image, HTML, display, display_html
source_tautan = "https://geekyants.com/_next/image?url=https%3A%2F%2Fstatic-cdn.geekyants.com%2Farticleblogcomponent%2F24630%2F2024-01-25%2F724537495-1706168854.png&w=1920&q=75"
HTML(f'<div style="text-align: center;"><img src="{source_tautan}" style="max-width: 950px; height: auto;"></div>')

---
# 2. Objectives:
---

* **set up the environment:** menginstall AIX360 dan alat terkait untuk Explainable AI (XAI) pada dataset perumahan california.
* **preprocess the dataset:** jelajahi dan persiapkan data perumahan menggunakan teknik binarisasi dan transformasi fitur.
* **build and evaluate a regression model:** model training rule-based yang dapat diinterpretasi untuk memprediksi harga perumahan diseluruh california.
* **implement rule-based explanations:** menggunakan fungsi seperti LinearRuleRegression untuk membuat aturan yang transparan dan dapat dibaca oleh manusia yang menjelaskan prediksi harga perumahan.
* **visualize feature contributions:** membuat plot ketergantungan partial untuk memahami bagaimana fitur individual seperti pendapatan rata-rata, usia rumah dan lokasi mempengaruhi nilai perumahaan.

proyek ini membekali kemampuan interpreter dengan keterampilan praktis untuk menerapkan teknik XAI pada analisis pasar real estat, membuat faktor harga perumahan yang kompleks menjadi transparan dan interpretable.

---
# 3. Installing And Importing Required Frameworks.
---

In [None]:
# !pip install aix360
# !pip install cvxpy
# !pip instal ecos

In [None]:
import re
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import plotly.graph_objects as go
import warnings
warnings.filterwarnings('ignore')


from scipy.stats import ks_2samp, gaussian_kde
from sklearn.metrics import r2_score, explained_variance_score, mean_absolute_error, max_error
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from matplotlib import cm
from matplotlib.colors import Normalize, to_hex

from aix360.algorithms.rbm import FeatureBinarizer, GLRMExplainer, LinearRuleRegression

---
# 4. Data Exploration and Preprocessing:
---

In [None]:
housing = fetch_california_housing(as_frame=True)
housing

{'data':        MedInc  HouseAge  AveRooms  AveBedrms  Population  AveOccup  Latitude  \
 0      8.3252      41.0  6.984127   1.023810       322.0  2.555556     37.88   
 1      8.3014      21.0  6.238137   0.971880      2401.0  2.109842     37.86   
 2      7.2574      52.0  8.288136   1.073446       496.0  2.802260     37.85   
 3      5.6431      52.0  5.817352   1.073059       558.0  2.547945     37.85   
 4      3.8462      52.0  6.281853   1.081081       565.0  2.181467     37.85   
 ...       ...       ...       ...        ...         ...       ...       ...   
 20635  1.5603      25.0  5.045455   1.133333       845.0  2.560606     39.48   
 20636  2.5568      18.0  6.114035   1.315789       356.0  3.122807     39.49   
 20637  1.7000      17.0  5.205543   1.120092      1007.0  2.325635     39.43   
 20638  1.8672      18.0  5.329513   1.171920       741.0  2.123209     39.43   
 20639  2.3886      16.0  5.254717   1.162264      1387.0  2.616981     39.37   
 
        Longitude 

In [None]:
ca_housing_df = housing.data
ca_housing_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [None]:
ca_housing_df['MedHouseVal'] = housing.target
ca_housing_df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


In [None]:
ca_housing_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   MedInc       20640 non-null  float64
 1   HouseAge     20640 non-null  float64
 2   AveRooms     20640 non-null  float64
 3   AveBedrms    20640 non-null  float64
 4   Population   20640 non-null  float64
 5   AveOccup     20640 non-null  float64
 6   Latitude     20640 non-null  float64
 7   Longitude    20640 non-null  float64
 8   MedHouseVal  20640 non-null  float64
dtypes: float64(9)
memory usage: 1.4 MB


---
# 5. Datasets Description:
---

* **MedInc:** rata-rata pendapatan di vlock group. dalam puluhan ribu dollar AS.
* **HouseAge:** usia rumah rata-rata di block group.
* **AveRooms:** jumlah rata-rata kamar per rumah tangga. dalam tahun
* **AveBedrms:** rata-rata jumlah kamar tidur per rumah tangga.
* **Population:** populasi block group.
* **AveOccup:** jumlah rata-rata anggota rumah tangga.
* **Latitude:** block group latitude. Geographic coordinate
* **Longitude:** block group longitude. Geographic coordinate
* **MedHouseVal:** nilai rumah rata-rata untuk rumah tangga dalam kelompok blok. dalam ratusan ribu Dollar AS.

variabel target untuk analisis proyek ini adalah **MedHouseVal (nilai rumah median)** karena ini mewakili kecendrungan utama harga rumah di setiap kelompok blok dan berfungsi sebagai hasil yang ingin diprediksi atau dipahami menggunakan fitur lainnya.

In [None]:
ca_housing_df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
MedInc,20640.0,3.870671,1.899822,0.4999,2.5634,3.5348,4.74325,15.0001
HouseAge,20640.0,28.639486,12.585558,1.0,18.0,29.0,37.0,52.0
AveRooms,20640.0,5.429,2.474173,0.846154,4.440716,5.229129,6.052381,141.909091
AveBedrms,20640.0,1.096675,0.473911,0.333333,1.006079,1.04878,1.099526,34.066667
Population,20640.0,1425.476744,1132.462122,3.0,787.0,1166.0,1725.0,35682.0
AveOccup,20640.0,3.070655,10.38605,0.692308,2.429741,2.818116,3.282261,1243.333333
Latitude,20640.0,35.631861,2.135952,32.54,33.93,34.26,37.71,41.95
Longitude,20640.0,-119.569704,2.003532,-124.35,-121.8,-118.49,-118.01,-114.31
MedHouseVal,20640.0,2.068558,1.153956,0.14999,1.196,1.797,2.64725,5.00001


In [None]:
# cek nilai duplikat. jika hasil "true" maka ada baris duplikat dalam kumpulan data, jika "false" maka tidak ada.
max(ca_housing_df.isnull().max())

False

In [None]:
max(ca_housing_df.duplicated())

False

---
# 6. Dataset Splitting and Sampling.
---

In [None]:
X = ca_housing_df.drop(['MedHouseVal'], axis=1)
y = ca_housing_df['MedHouseVal']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(16512, 8)
(16512,)
(4128, 8)
(4128,)


karena dataset relatif besar dan model rule-based dapat memerlukan komputasi intensif, **membuat subsample** dari data training untuk meningkatkan waktu processing sambil mempertahankan properti statistik dataset.

pengambilan **random sampling** menggunakan **metode sample() pandas**. pengambilan random samplingbekerja seperti mengambil nama dari topi hat-every observation memiliki peluang yang sama untuk dipilih. misalnya, jika kamu memiliki 100 catatan perumahan bernomor 1-100, dan membutuhkan sample sebanyak 50, kamu dapat memilih sample sebanyak 50, kamu dapat memilih angka randomly seperti 7,23,41,88, dst. hingga kamu memiliki 50 catatan. dalam kode kamu, kamu memilih 50% dari data training kamu dengan cara ini.

kamu dapat melakukan pengambilan sample ini hanya pada set pelatihan karena set pengujian harus tetap tidak tersentuh untuk memberikan evaluasi yang tidak bias terhadap kinerja model akhir kamu. pengambilan sample data trainingf memungkinkan kamu dengan lebih efisien sambil tetap memiliki set testing yang bersih dan representatif untuk validasi yang tepat.

dengan menggunakan pendekatan pengambilan sample ini, kamu dapat membangun model kamu pada dataset yang lebih kecil yang tetap mempertahankan pola dan hubungan penting dalam data pasar perumahan. hal ini memungkinkan kamu untuk mengembangkan dan menguji AI model yang dapat diinterpretasi dengan lebih cepat tanpa mengorbankan kemampuannya untuk memahami apa yang mendorong harga perumahan di california.

In [None]:
subsample_fraction = 0.62  # menyesuaikan fraction sesuai kebutuhan
X_train_sub = X_train.sample(frac=subsample_fraction, random_state=42)
y_train_sub = y_train.loc[X_train_sub.index]
print("Subsample Training Set Shape:", X_train_sub.shape)

Subsample Training Set Shape: (10237, 8)


untuk memverifikasi bahwa subsample random 57% kamu secara akurat mewakili data training lengkap, kamu melakukan tiga pemeriksaan validasi:
  * **statistical comparison:** membandingkan metrik dasar (mean, median, standard deviation) nilai rumah antara set training lengkap kamu dan subsample untuk mengonfirmasikan bahwa keduanya hampir identik, memastikan subsample kamu mempertahankan kecendrungan dan variabilitas sentral yang sama.
  * **distribution test:** kamu menerapkan uji **kolmogorov-smirnov**, yang mengukur apakah dua dataset mengikuti distribusi yang sama. **p-value** kamu yang tinggi (lebih besar 0.05) mengonfirmasikan bahwa distribusi subsample dan dataset lengkap secara statistik tidak dapat dibedakan.
  * **visual verification:** kamu membuat histogram overlapping yang menunjukkan kedua distribusi, secara visual mengonvirmasi bahwa subsample kamu menangkap pola, peaks, dan tails yang sama seperti dataset lengkap.

langkah-langkah validasi ini memastikan bahwa meskipun kita memperoleh efisiensi komputasi dengan menggunakan subsample yang lebih kecil, kita tidak mengorbankan integritas statistik data kita. kita dapat melanjutkan dengan yakin dengan subsample random untuk membangun model kita, dengan mengetahui bahwa subsample tersebut mewakili pola dan hubungan yang ada dalam dataset training yang lengkap.

In [None]:
# compare ringkasan statistik
print("Full Training - Mean: {:.3f}, Std: {:.3f}, Median: {:.3f}".format(y_train.mean(), y_train.std(), y_train.median()))
print("Random Subsample - Mean: {:.3f}, Std: {:.3f}, Median: {:.3f}".format(y_train_sub.mean(), y_train_sub.std(), y_train_sub.median()))

Full Training - Mean: 2.072, Std: 1.156, Median: 1.798
Random Subsample - Mean: 2.077, Std: 1.160, Median: 1.800


In [None]:
# melakukan test KS untuk membandingkan distribusi
ks_stat, p_value = ks_2samp(y_train, y_train_sub)
print("KS Test Statistic: {:.3f}, p-value: {:.3f}".format(ks_stat, p_value))

KS Test Statistic: 0.004, p-value: 1.000


In [None]:
def hist_kde(data, bins=30):
  h, e = np.histogram(data, bins=bins, density=True)
  c = 0.5 * (e[1:] + e[:-1])
  x = np.linspace(min(data), max(data), 500)
  y = gaussian_kde(data)(x)
  return c,h,x,y

# data dan warna dasar
c1,h1,x1,y1 = hist_kde(y_train)
c2,h2,x2,y2 = hist_kde(y_train_sub)
blue_base = 'rgba(99,110,250,'   # tampa tanda ')'
orange_base = 'rgba(255,161,90,'  # tanpa tanda ')'

# melakukan histplot
fig = go.Figure([go.Bar(x=c1, y=h1, name='Full Set Training',
                        marker_color = blue_base + '0.35)',
                        hovertemplate='Value:%{x:.2f}<br>Density: %{y:.3f}<extra></extra>'),
                 go.Scatter(x=x1, y=y1, name='Full KDE',
                            line=dict(color = blue_base + '1)',
                                      width = 3, shape = 'spline'),
                            mode='lines',
                            hoverinfo='skip'),
                 go.Bar(x=c2, y=h2, name = 'Subsample',
                        marker_color = orange_base + '0.35)',
                        hovertemplate = 'Value: %{x:.2f}<br>Density: %{y:.3f}<extra></extra>'),
                 go.Scatter(x=x2, y=y2, name='Subsample KDE',
                            line=dict(color = orange_base + '1)',
                                      width=3,
                                      shape='spline'),
                            mode='lines',
                            hoverinfo='skip')
                 ])

fig.update_layout(title='<b>Distribution of Median House Values</b>', title_x=0.5,
                  xaxis_title='Median House Value (MedHouseVal)',
                  yaxis_title='Density',
                  template='simple_white',
                  barmode = 'overlay',
                  legend = dict(x = 0.63,
                                y = 1,
                                bgcolor='rgba(255,255,255,0.8)',
                                bordercolor='LightGray', borderwidth=1,
                                orientation='h',
                                xanchor='left'),
                  width=1350, height=660)
fig.show()

Output mengonfirmasi bahwa pendekatan pengambilan random sample telah berhasil mempertahankan properti statistik dari dataset asli:
  * histogram menunjukkan overlay yang hampir sempurna antara distribusi set training (biru) dan subsample random (orange), dengan keduanya menangkap pola yang sama.

  * hasil testing KS sangat mendukung pengamatan visual ini, dengan statistik test sangat rendah 0.003 dan p-value 1.000. p-value ini jauh diatas threshold batas umumnya 0.05 yang menunjukkan tidak ada perbedaan yang signifikan secara statistik antara kedua distribusi tersebut.


dengan hasil ini, random sampling bekerja dengan baik untuk kasus penggunaan dan tidak perlu menggunakan teknik random sampling yang lebih rumit seperti pengambilan sample berstrata (yang mempertahankan proporsi kelas), pengambilan sample sistematis (memilih setiap rekaman ke-n), atau pengambilan sample klauster (membagi data kedalam kelompok). metode alternatif ini akan lebih tepat jika data memiliki ketidakseimbangan yang kuat atau jika subkelompok tertentu yang kuat atau jika subkelompok tertentu memerlukan representasi kusus. namun, random sampling sederhana ini telah berhasil membuat subsample representatif untuk menangkap rentang dan distribusi penuh nilai perumahan di california.

---
# 7. Model Training and Evaluation:
---

membangun model yang transparan untuk memprediksi harga perumahan dengan terlebih dahulu mengubah continuous data (seperti income) menjadi pertanyaan ya atau tidak yang dapat digunakan dalam training rule-based model yang bekerja serupa dengan cara agen real estat mengembangkan **rule of thumb** untuk memperkirakan nilai properti, yang dikemas dalam explainer yang membuat aturan ini terlihat dan mudah dipahami. terakhir, untuk menguji akurasi model pada data baru, yang menunjukkan bagaimana pendekatan ini memungkinkan tidak hanya memprediksi harga tetapi juga memahami dengan tepat mengapa model membuat setiap prediksi.

---
## 7.1 Feature Binarization:
---

FeatureBinarizer digunakan untuk mengubah fitur numerik continuous menjadi format yang mudah dipahami oleh rule-based model. seperti:
  * **mengubah nilai kontinu menjadi nilai biner:** misalnya alih-alih menggunakan **raw median income values** seperti **5.2, binarizer** membuat kondisi seperti **MedInc > 3.5 (True/False)** atau **MedInc <= 6.0 (True/False).**
  * **create negations:** dengan **negasi = True,** membuat kedua kondisi dan kebalikannya. misalnya, jika kita memilih **UsiaRumah > 20,** kita juga mendapat **UsiaRumah <= 20.**. ini memberi model kita lebih banyak fleksibilitas dalam membangun aturan.
  * **simplifies complex relationships:** daripada mencoba memodelkan hubungan matematis yang tepat antara income dan harga rumah **(yang mungkin non-linear),** kita bisa memecahnya menjadi **simple thresholds** yang lebih mudah di interpretasi.

untuk memahami secara visual, bayangkan kamu memiliki rumah dengan median incomes yang berbeda-beda (3.2, 5.7, 8.1, dst). Binerizer dapat membuat fitur biner seperti:

  * MedInc > 3.0? (1 if True, 0 if False)
  * MedInc > 4.5? (1 if True, 0 if False)
  * MedInc > 6.0? (1 if True, 0 if False)

representasi biner ini memungkinkan model kita untuk mengapresiasikan aturan dalam bentuk logis seperti Conjunctive Normal Form (CNF) atau Disjunctive Normal Forn (DNF).

hasilnya adalah model yang dapat membuat prediksi menggunakan logical rules seperti **if (median incomes lebih besar dari 6.0) AND (house age kurang dari 30) maka prediksi nilai rumah yang lebih tinggi.** aturan ni tidak hanya digunakan untuk membuat prediksi tetapi juga memberikan penjelasan yang jelas tentang mengapa prediksi tertentu dibuat, sehingga seluruh proses menjadi transparan dan mudah dipahami.

In [None]:
# menerapkan FeatureBinarizer ke set training subsample dan full set testing
fb = FeatureBinarizer(negations=True)
X_train_fb_sub = fb.fit_transform(X_train_sub)
X_test_fb = fb.transform(X_test)

In [None]:
X_train_fb_sub

Unnamed: 0_level_0,MedInc,MedInc,MedInc,MedInc,MedInc,MedInc,MedInc,MedInc,MedInc,MedInc,...,Longitude,Longitude,Longitude,Longitude,Longitude,Longitude,Longitude,Longitude,Longitude,Longitude
Unnamed: 0_level_1,<=,<=,<=,<=,<=,<=,<=,<=,<=,>,...,<=,>,>,>,>,>,>,>,>,>
Unnamed: 0_level_2,1.90398,2.375,2.7542,3.1528,3.5417,3.9741,4.4531,5.13132,6.17,1.90398,...,-117.25,-122.29,-121.98,-121.37,-119.896,-118.49,-118.29,-118.12,-117.89,-117.25
2071,0,0,0,0,1,1,1,1,1,1,...,1,1,1,1,1,0,0,0,0,0
2612,0,1,1,1,1,1,1,1,1,1,...,1,0,0,0,0,0,0,0,0,0
10838,0,0,0,0,0,0,1,1,1,1,...,1,1,1,1,1,1,1,1,0,0
4061,0,0,0,0,0,0,1,1,1,1,...,1,1,1,1,1,1,0,0,0,0
10767,0,0,0,0,0,0,0,0,0,1,...,1,1,1,1,1,1,1,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20575,0,0,0,0,0,1,1,1,1,1,...,1,1,1,0,0,0,0,0,0,0
18469,0,0,0,0,0,0,0,0,0,1,...,1,1,1,0,0,0,0,0,0,0
272,0,0,0,0,0,1,1,1,1,1,...,1,1,0,0,0,0,0,0,0,0
16081,0,0,0,0,0,0,0,1,1,1,...,1,0,0,0,0,0,0,0,0,0


saat kamu mencetak output dari **fb.fit_transform() (X_train_fb_sub)**, kamu akan melihat matriks nilai biner (0 dan 1) yang agak rumit yang mewakili data yang ditransformasikan. sekilas, ini mungkin tampak seperti tabel angka besar tanpa struktur yang jelas.

yang anda perhatikan adalah:
  * setiap baris sesuai dengan satu catatan perumahan dari dataset asli anda.
  * setiap kolom mewakili kondisi biner yang dibuat oleh **FeatureBinarizer**.
  * nilai dalam sel (0 atau 1) menunjukkan bahwa kondisi tersebut salah atau benar untuk catatan perumahan tertentu.

misalnya, single roe mungkin berisi nilai yang mewakili:
  * is MedInc > 1.9167? (1=yes, 0=no)
  * is MedInc > 2.3682? (1=yes, 0=no)
  * is HouseAge <= 30? (1=yes, 0=no)
  * is Longitude > -122.29 (1=yes, 0=no)

representasi biner ini memungkinkan bahwa rule-based model menemukan pola seperti : **IF kolom 3 adalah 1 DAN kolom 7 adalah 1, nilai rumah cenderung lebih tinggi.** keindahannya adalah nantinya dapat menerjemahkan referensi kolom ini kembali ke kondisi yang dapat dibaca manusia seperti **IF MedInc > 4.4460 AND HouseAge <= 40, nilai rumah cenderung lebih tinggi.**

transformasi ini merupakan langkah kunci dalam menciptakan model yang dapat diinterpretasi, karena mengubah data mentah ke dalam format yang memungkinkan penemuan aturan.

---
## 7.2 Linear Rule Regression
---

setelah melakukan binerisasi fitur, langkah selanjutnya adalah menggunakan LinearRuleRegression untuk mempelajari aturan yang bermakna dari kondisi biner ini. berikut ini adalah fungsi model ini:
  * **discovers important rules from binarized features:** model ini mengidentifikasi kondisi biner mana **(seperti MedInc > 6.0)** yang paling prediktif terhadap harga rumah.
  * **assigns coefficients to rules:** setiap aturan mendapatkan dampak numerik tertentu. misalnya **IF MedInc > 6.0, ADD $120.000 ke harga dasar.**
  * **combines rules into a coherent model:** semua aturan yang berlaku ditambahkan bersama dengan nilai dasar untuk membuat prediksi akhir.

sementara **Feature Binerizer** menyiapkan data kita dengan mengubah **variabel kontinu** menjadi **kondisi biner**, **LinearRuleRegression** menggunakan kondisi ini untuk membangun model prediktif yang dapat diinterpretasikan.

berikut penjelasan sederhana cara kerjanya. setelah ninerisasi, akan muncul kondisi seperti:
  * MedInc > 6.0? (1 jika benar, 0 jika salah).
  * HouseAge > 40 (1 jika benar, 0 jika salah).
  * Distance_to_coasts <= 5? (1 jika benar, 0 jika salah).

**LinearRuleRegression** dapat mempelajari aturan berikut dengan efek terkaitnya:
  * prediksi dasar: $180.000 (titik awal).

  * jika MedInc > 6.0: $120.000.

  * jika HouseAge > 40: -$25.000.
  
  * jika Distance_to_coasts <= 5: +$85.000.

untuk memprediksi rumah tertentu, model cukup memeriksa kondisi mana yang benar:
  * rumah dengan MedInc = 7.2, HouseAge = 25, Distance_to_coasts = 3.
  * berlaku aturan #1, #2, dan #4 (tapi tidak #3 karena HouseAge tidak > 40).
  * prediksi akhir: $180.000 + $120.000 +$85.000 = $385.000.

pendekatan ini menawarkan keuntungan signifikan dibandingkan model **black-box traditional**, termasuk transparansi (menelusuri bagaimana fitur berkontribusi pada prediksi), penemuan pengetahuan (mengungkapkan wawasan tentang faktor harga), komunikasi yang mudah (membantu stackholders non-teknis memahami prediksi), dan validasi (memungkinkan pakar domain untuk memverifikasi aturan terhadap pemahaman pasar mereka). manfaat ini menjadikan LinearRuleRegression sangat berharga dalam industri yang diatur atau konteks apa pun dimana memahami **mengapa** dibalik prediksi sama pentingnya dengan prediksi itu sendiri.

intinya **LinearRuleRegression** mengubah kondisi biner dari Feature Binarizer kami menjadi model yang dapat diinterpretasi yang tidak hanya memprediksi harga rumah tetapi juga menjelaskan dengan jelas alasan dibalik setiap prediksi.

In [None]:
# lambda0 untuk mengontrol penalti pada jumlah aturan (sparsity), sedangkan lambda1 untuk mengontrol penalti pada panjang aturan (complexity)
linear_model = LinearRuleRegression(lambda0=0.002, lambda1=0.002)
linear_model

---
## 7.3 Generalized Linear Rule Models (GLRM) Explainer:
---

GLRMExplainer bertindak sebagai jendela untuk melihat apa yang telah dipelajari oleh model tersebut. GLRM menggabungkan **pembelajarn rule-based** dengan **pemodelan linear** - pada dasarnya menciptakan sistem tempat prediksi dibuat melalui serangkaian aturan **if-then**, masing-masing dengang bobot atau koefisiennya sendiri.
  * menggunakan FeatureBinerizer untuk mengubah data kita menjadi kondisi biner (seperti MedInc > 6.0).
  * melatih LinearRuleRegression untuk mempelajari kondisi mana yang penting bagi harga rumah.

Anggap GLRMExplainer seperti penerjemah:
  * ia akan mengubah internal model yang kompleks menjadi aturan yang sederhana: alih-alih melihat koefisien dalam matriks, kita mendapatkan pernyataan yang jelas seperti **if MedInc > 6.0 ADD $ 120.000 ke harga**
  * ia akan menunjukkan kepada kita aturan mana yang laing penting: kita dapat melihat fitur mana yang memiliki dampak terbesar pada prediksi (dari output).
  * ia dapat membantu kita dalam menvisualisasikan efek aturan: melalui **fungsi explain()**, kita mendapatkan DataFrame yang mencantumkan semua aturan dan efeknya.

kita bisa memanggil **explainer.explain()**, ia mengembalikan DataFrame dimana setiap baris mewakili aturan yang telah dipelajari oleh model, beserta koefisiennya (dampak pada prediksi). hal ini memungkinkan kita untuk melihat dengan tepat kondisi mana yang memiliki pengaruh terbesar pada harga rumah dan ke arah mana.

misalnya, penjelasan tersebut mungkin mengungkapkan aturan seperti:
  * MedIncome > 6.0 memiliki keofisien +$120.000
  
  * HouseAge > 40 memiliki koefisien - $25.000

aturan eksplisit ini memungkinkan untuk mengaudit penalaran model, mengidentifikasi potensi bias, dan mengekstrak wawasan yang dapat ditindaklanjuti dari apa yang telah dipelajari oleh model tentang harga perumahan di california.

In [None]:
explainer = GLRMExplainer(linear_model)
explainer

<aix360.algorithms.rbm.GLRM.GLRMExplainer at 0x7e964c449a10>

In [None]:
explainer.fit(X_train_fb_sub, y_train_sub)
y_pred = explainer.predict(X_test_fb)

In [None]:
print(f'R2 Score = {r2_score(y_test, y_pred)}')
print(f'Explainer Variance = {explained_variance_score(y_test, y_pred)}')
print(f'Mean abs. Error = {mean_absolute_error(y_test, y_pred)}')
print(f'Max Error = {max_error(y_test, y_pred)}')

R2 Score = 0.7172617648628217
Explainer Variance = 0.7172801984118604
Mean abs. Error = 0.43280264498685944
Max Error = 4.1007719848497715


metrik evaluasi mengungkapkan bahwa kekuatan dan keterbatasan pendekatan rule-based yang dapat ditafsirkan untuk prediksi harga perumahaan. skor prediksi model mencapai skor 72% menunjukkan model menangkap sekitar two-thirds dari variasi harga menggunakan aturan yang sederhana dan mudah dipahami. hasil yang solid mengingat telah memprioritaskan transparansi daripada kompleksitas. **Mean Absolute Error** sebesar 0.43 menunjukkan prediksi biasanya melesat sebesar 0.43 unit dalam skala variabel target. karena dataset perumahan california biasanya mewakili nilai rumah dalam **100.000 (dimana 3.0 berarti 300.000)**, ini berarti average error sekitar $43.000 per prediksi. hasil ini menunjukkan bahwa model dapat memperoleh wawasan yang berarti dan prediksi yang wajar tanpa menggunakan model **black-box** yang tidak jelas yang menyembunyikan proses pengambilan keputusan.

---
# 8. Model Explanation and Visualization:
---

In [None]:
dfx = explainer.explain()
dfx.head(51)

Unnamed: 0,rule,coefficient
0,(intercept),2.011119
1,MedInc <= 6.17,-1.743288
2,MedInc > 1.90 AND HouseAge > 20.00 AND AveRoom...,-1.284439
3,MedInc > 1.90 AND AveRooms > 3.79 AND Populati...,-0.918951
4,Latitude <= 37.81,0.914844
5,Latitude <= 38.49 AND Longitude <= -121.37,0.910958
6,MedInc > 1.90 AND AveRooms > 6.29 AND Latitude...,0.904568
7,HouseAge > 12.00 AND AveRooms <= 6.97 AND AveR...,-0.89874
8,MedInc > 1.90 AND AveOccup <= 2.34 AND Latitud...,0.8894
9,Latitude <= 34.25,0.843634


Output diatas menunjukkan aturan yang ditemukan model **LinearRuleRegression** beserta koefisiennya (dampak pada harga rumah). setiap baris mewakili aturan berbeda yang berkontribusi terhadap prediksi:
  * Intercept (2.02) mewakili nilai rumah dasar sekitar $202.000 sebelum aturan apapun diterapkan. anggap ini sebagai **titik awal** untuk semua prediksi.

  * Cofficient column menunjukkan seberapa banyak setiap aturan menambah atau mengurangi nilai dasar ini. misalnya, koefisien 0.9 akan menambahkan $90.000 ke prediksi.

  * Negative Coefficient menunjukkan fitur yang menurunkan nilai rumah, sedangkan koefisien positif menunjukkan fitur yang meningkatkan nilai. misalnya keofisien -1.74 akan mengurangi $174.000 dari prediksi.

berikut contoh prediksi: misalkan kamu memiliki rumah dengan karakteristrik berikut:
  * MedInc = 4.2 (dibawah 5.12 dan 6.18 tetapi diatas 3.53)
  * HouseAge = 25 (diatas 17.00 dan 20.00)
  * located at latitude 37.5, longitude -122.0

berikut prediksinya:
  * dimulai dengan intercept 2.02 ($202.000).

  * terapkan aturan #2 (MedInc <= 6.17): -1.74 (-$174.000).

  * terapkan aturan #12 (MedInc <=5.13): -0.77 (-$77.000).

  * terapkan aturan #15 (MedInc > 1.9 AND HouseAge > 29.00...): +0.68 (+$68.000).

  * terapkan aturan #27 (MedInc > 1.9 AND HouseAge 20.00...): +0.48 (+$48.000)

  * terapkan aturan lain yang sesuai dengan karekteristik rumah kamu.


final prediction: nilai dasar + jumlah keofisien aturan yang berlaku = 3.17 - 0.47 - 0.33 + 0.19 + 0.12 + ... = sekitar 2.68 ($268.000)

perhitungan ini menunjukkan dengan tepat bagaimana setiap fitur rumah berkontibusi pada nilai prediksi akhirnya, sehingga memberikan transparansi penuh dalam proses prediksi.

In [None]:
# display basic rule information
print(f'\nTotal Number of Rules: {len(dfx) - 1}')
print(f"Intercept Value: {dfx.loc[0, 'coefficient']}")

# urutkan aturan berdasarkan nilai koefisien absolut (melewati intercept)
top_positive_rules = dfx.iloc[1:].sort_values(by='coefficient', ascending=False).head(6)
top_negative_rules = dfx.iloc[1:].sort_values(by='coefficient', ascending=True).head(6)
print("\nPrint Top 6 Rules With Positive Impact On House Value:"'\n')
for idx, row in top_positive_rules.iterrows():
  print(f"Rule {idx}: {row['rule']} (Impact: +{row['coefficient']:.3f})")

print("\n\nPrint Top 6 Rules With Negative Impact On House Values:"'\n')
for idx, row in top_negative_rules.iterrows():
  print(f"Rule {idx}: {row['rule']} (impact: {row['coefficient']:.4f})")


Total Number of Rules: 95
Intercept Value: 2.0111191160167534

Print Top 6 Rules With Positive Impact On House Value:

Rule 4: Latitude <= 37.81 (Impact: +0.915)
Rule 5: Latitude <= 38.49 AND Longitude <= -121.37 (Impact: +0.911)
Rule 6: MedInc > 1.90 AND AveRooms > 6.29 AND Latitude <= 38.49 AND Longitude <= -117.25 (Impact: +0.905)
Rule 8: MedInc > 1.90 AND AveOccup <= 2.34 AND Latitude <= 38.49 AND Longitude <= -117.25 (Impact: +0.889)
Rule 9: Latitude <= 34.25 (Impact: +0.844)
Rule 10: Longitude <= -119.90 (Impact: +0.842)


Print Top 6 Rules With Negative Impact On House Values:

Rule 1: MedInc <= 6.17 (impact: -1.7433)
Rule 2: MedInc > 1.90 AND HouseAge > 20.00 AND AveRooms > 3.79 AND Population <= 2566.80 AND AveOccup <= 3.86 AND AveOccup > 2.07 AND Latitude <= 38.49 AND Latitude > 33.64 AND Longitude > -122.29 (impact: -1.2844)
Rule 3: MedInc > 1.90 AND AveRooms > 3.79 AND Population <= 2566.80 AND AveOccup <= 3.86 AND AveOccup > 2.07 AND Latitude <= 38.49 AND Latitude > 33.64

In [None]:
# gabungkan aturan untuk top positive dan negative
top_rules = pd.concat([top_positive_rules, top_negative_rules])
top_rules = top_rules.reindex(top_rules['coefficient'].abs().sort_values().index)
top_rules

Unnamed: 0,rule,coefficient
13,HouseAge > 33.00 AND AveRooms > 3.79 AND Popul...,-0.743622
12,MedInc <= 5.13,-0.774448
10,Longitude <= -119.90,0.841967
9,Latitude <= 34.25,0.843634
8,MedInc > 1.90 AND AveOccup <= 2.34 AND Latitud...,0.8894
7,HouseAge > 12.00 AND AveRooms <= 6.97 AND AveR...,-0.89874
6,MedInc > 1.90 AND AveRooms > 6.29 AND Latitude...,0.904568
5,Latitude <= 38.49 AND Longitude <= -121.37,0.910958
4,Latitude <= 37.81,0.914844
3,MedInc > 1.90 AND AveRooms > 3.79 AND Populati...,-0.918951


In [None]:
top_rules['short_rule'] = top_rules['rule'].apply(lambda x: x if len(x) <= 60 else x[:55] + "...")
top_rules

Unnamed: 0,rule,coefficient,short_rule
13,HouseAge > 33.00 AND AveRooms > 3.79 AND Popul...,-0.743622,HouseAge > 33.00 AND AveRooms > 3.79 AND Popul...
12,MedInc <= 5.13,-0.774448,MedInc <= 5.13
10,Longitude <= -119.90,0.841967,Longitude <= -119.90
9,Latitude <= 34.25,0.843634,Latitude <= 34.25
8,MedInc > 1.90 AND AveOccup <= 2.34 AND Latitud...,0.8894,MedInc > 1.90 AND AveOccup <= 2.34 AND Latitud...
7,HouseAge > 12.00 AND AveRooms <= 6.97 AND AveR...,-0.89874,HouseAge > 12.00 AND AveRooms <= 6.97 AND AveR...
6,MedInc > 1.90 AND AveRooms > 6.29 AND Latitude...,0.904568,MedInc > 1.90 AND AveRooms > 6.29 AND Latitude...
5,Latitude <= 38.49 AND Longitude <= -121.37,0.910958,Latitude <= 38.49 AND Longitude <= -121.37
4,Latitude <= 37.81,0.914844,Latitude <= 37.81
3,MedInc > 1.90 AND AveRooms > 3.79 AND Populati...,-0.918951,MedInc > 1.90 AND AveRooms > 3.79 AND Populati...


In [None]:
# membuat gradasi warna
norm = Normalize(vmin = top_rules['coefficient'].min(), vmax = top_rules['coefficient'].max())
colors = [to_hex(cm.RdYlGn(norm(v))) for v in top_rules['coefficient']]

# membuat format label keofisien: pos dan neg
top_rules['coef_text'] = top_rules['coefficient'].apply(lambda x: f"+{x:.3f}" if x > 0 else f"{x:.3f}")

# create visualization dengan Plotly bar chart
fig = go.Figure()
fig.add_trace(go.Bar(x=top_rules['coefficient'],
                     y=top_rules['short_rule'],
                     orientation='h',
                     marker=dict(color=colors),
                     text=top_rules['coef_text'],
                     textposition='outside',
                     insidetextanchor='start',
                     hovertemplate=("<b>Rule:</b> %{customdata[0]}<br>"
                                    "<b>Coefficient:</b> %{x:.4f}<extra></extra>"),
                     customdata=top_rules[['rule']]))

# garis nol vertikal
fig.add_vline(x=0, line_width=1.5, line_dash='dot', line_color='gray')

# final styling layout
fig.update_layout(title=dict(text="<b>Top Rules Impacting House Value</b><br><sup>Based on Coefficient Magnitude</sup>",
                             x=0.5,
                             font=dict(size=22, family='Arial Black')),
                  xaxis=dict(title='Coefficient Value',
                             titlefont=dict(size=14),
                             tickfont=dict(size=12),
                             showgrid=True,
                             gridcolor="rgba(0,0,0,0.05)",
                             zeroline=False),
                  yaxis=dict(tickfont=dict(size=13),
                             automargin=True),
                  plot_bgcolor='white',
                  paper_bgcolor='white',
                  bargap=0.25,
                  height=750,
                  margin=dict(l=180, r=40, t=100, b=40))
fig.show()

---
## 8.1 Positive Factors:
---

* Location is Key: aturan dengan dampak positif tertinggi melibatkan **koordinat geografis** tertentu di california, kususnya area dengan **latitude <= 38.5** dan **<= longitude -121.37**
* Combined Attributes: Rumah dengan pendapatan sedang > 1.90, usia mapan > 13 dan lokasi tertentu memiliki kontribusi positif yang substansial terhadap harga.

---
## 8.2 Negative Factor:
---
* Income Limitations: aturan dengan MedInc <= 5.13 atau MedInc <= 6.17 memiliki dampak negatif yang kuat pada nilai rumah yang diprediksi.
* Combinations Matter: dampak negatif terkuat (-0.541) berasal dari kombinasi pendapatn sedang (<=6.17) dengan  parameter lokasi tertentu.

visualisasi ini mengungkapkan bagaimana model yang dibuat mengidentifikasi hubungan komplek antara fitur-fitur, memperlihatkan bahwa koordinat lokasi yang dikombinasikan dengan thresholds pendapatan merupakan pendorong utama harga perumahan di california, yang selaras dengan dinamika pasar perumahan dunia nyata.

---
# 9. Feature Contribution Visualization:
---

fungsi plot_feature_contribution membuat grafik garis yang mengungkapkan secara persis bagaimana setiap fitur mempengaruhi harga rumah diseluruh rentang nilainya. bagaimana caranya:
  * **isolates rules for a specific feature:** fungsi ini memfilter aturan model untuk menemukan aturan yang secara langsung melibatkan fitur yang kita minati (seperti **HouseAge** atau **MedInc**).
  * **simulates all possible values:** fungsi ini memfilter aturan model untuk menemukan aturan secara langsung melibatkan fitur yang kita minati seperti **HouseAge** atau **MedInc.**
  * **calculates cumulative effects:** untuk setiap nilai dalam rentang ini, fungsi ini menerapkan semua aturan yang relevan untuk menghitung total kontribusi terhadap prediksi harga rumah.
  * **maps thresholds to contributes:** saat suatu nilai melewati tresholds dalam suatu aturan seperti **HouseAge > 20**, grafik menunjukkan perubahan langkah dalam kontribusi tepat pada titik tersebut.

In [None]:
def plot_feature_contribution(explainer,
                              X_train,
                              feature_name,
                              dfx,
                              y_label='Contribution to Prediction',
                              show_thresholds=True):

  '''
  Parameters:
  * explainer=tidak digunakan, disimpan untuk kompatibilitas.
  * X_train: sebagai DataFrame, set dataset training
  * feature_name: sebagai str atau fitur yang akan divisualisasikan.
  * dfx: sebagai DataFrame dengan kolom 'rule' dan 'coefficient".
  * y_label: sebagai str, label untuk sumbu y.
  * show_threshold: sebagai bool, apakah akan menampilkan garis threshold rules.
  '''



  if feature_name not in X_train.columns:
    raise ValueError(f"Feature '{feature_name}' Not Found in X_train.")

  # mengambil rules terkait di fitur ini
  pattern = rf"{re.escape(feature_name)} [<>]=?"
  feature_rules = dfx[dfx['rule'].str.contains(pattern)]

  if feature_rules.empty:
    raise ValueError(f"No Rules Found For Feature '{feature_name}' In The Model Explanation.")

  # range fitur values
  feature_range = np.linspace(X_train[feature_name].min(), X_train[feature_name].max(), 500)
  contributions = np.zeros_like(feature_range)
  threshold_lines = []

  # terapkan kontribusi rules terhadap nilai-nilai fitur
  for _, rule in feature_rules.iterrows():
    rule_text = rule['rule']
    coef = rule['coefficient']
    match = re.search(rf"{re.escape(feature_name)}\s*(<=|<|>=|>)\s*([\d\.\-eE]+)", rule_text)
    if not match:
      continue

    operator, threshold_str = match.groups()
    threshold = float(threshold_str)

    if operator in ['<=', '<']:
      mask = feature_range <= threshold
    elif operator in ['>=', '>']:
      mask = feature_range > threshold

    contributions[mask] += coef

    if show_thresholds:
      threshold_lines.append((threshold, coef, operator))


  # membuat grafik plotly
  fig = go.Figure()
  # garis kontribusi
  fig.add_trace(go.Scatter(x=feature_range,
                           y=contributions,
                           mode='lines',
                           name='Contribution',
                           line=dict(color='royalblue',
                                     width=3),
                           hovertemplate=f'{feature_name}: %{{x:.3f}}<br>{y_label}: %{{y:.3f}}<extra></extra>'))


  # menambahkan garis vertikal threshold
  if show_thresholds:
    for threshold, coef, operator in threshold_lines:
      fig.add_trace(go.Scatter(x=[threshold, threshold],
                               y=[contributions.min(), contributions.max()],
                               mode='lines',
                               line=dict(color='red', dash='dot'),
                               name=f'Rule: {feature_name} {operator} {threshold:.3f}',
                               hoverinfo='text',
                               hovertext=f'Rule: {feature_name} {operator} {threshold:.3f}<br>Coef: {coef:.4f}'))
  fig.update_layout(title=dict(text=f"Feature Contribution Plot For '{feature_name}'", x=0.5),
                    xaxis_title=feature_name,
                    yaxis_title=y_label,
                    template='plotly_white',
                    height=500,
                    margin=dict(t=60,b=40,l=60,r=20),
                    hovermode='x unified')
  fig.show()

In [None]:
plot_feature_contribution(explainer, X_train, 'HouseAge', dfx)

Grafik di atas menunjukkan bagaimana usia rumah memengaruhi nilai properti di berbagai rentang usia dalam model. Apa yang kami lihat adalah fungsi langkah dengan threshold yang berbeda di mana kontribusi terhadap harga rumah berubah secara dramatis:
  * rumah yang sangat baru **(0-12 tahun)**: Rumah-rumah ini berkurang sekitar -0.7 ke prediksi, setara dengan premi -$100.000 di atas nilai dasar.

  * rumah antara **(12-17 tahun)**: ada penurunan menjadi -1 (dampak -$100.000) yang menunjukkan depresiasi yang signifikan setelah premi **rumah baru** awal menghilang.

  * rumah antara **(17-20 tahun)**: kontribusi melonjak tinggi kembali menjadi sekitar -0.2 ($20.000) yang menunjukkan bahwa rumah-rumah yang cukup tua menandakan kembali sebagian nilainya.

  * kembali menurun tajam antara (20-29) menjadi 0.96 (-$96.000).

  * naik cukup tajan kembali di (29-32) menjadi -0.37 (-$37.000).

  * pada umur rumah 33 - 35 tahun mengalami pick terendah -1.17 (-$117.000).

  * pada umur rumah 33 - 45 tahun kembali naik sedikit menjadi -0.95 (-$95.000).

  * umur rumah 45 - 51 tahun naik -0.66 (-$66.000).
  
  * rumah yang berusia 51 tahun: kontribusi naik mendekati nol, yang berarti rumah-rumah tua ini tidak menambah atau mengurangi nilai signifikan dari prediksi dasar.


pola-pola ini mengungkapkan dinamika pasar yang menarik:
  * new construction premium: rumah-rumah baru memiliki harga premium yang signifikan, kemungkinan karena fitur-fitur modern, garansi, dan kebutuhan perawatan yang minimal.
  * Early Depreciation preiod: Rumah-rumah dengan cepat kehilangan premi "baru" mereka dalam tahun ke-5-12, mungkin saat garansi awal berakhir dan masalah perawatan pertama muncul.
  *  mature home stability: rumah-rumah antara 12 - 35 tahun mengalami dinamika perubahan yang cukup mencolok.
  * age neutrality point: Di atas 38 tahun, usia tampaknya tidak lagi menjadi faktor signifikan dalam penetapan harga.

visualisasi ini mengubah rangkaian aturan kompleks model menjadi pemahaman intuitif tentang bagaimana usia rumah mempengaruhi nilai properti, mengungkapkan threshold tertentu yang sulit diidentifikasikan dalam model black-box traditional.

In [None]:
plot_feature_contribution(explainer, X_train, 'MedInc', dfx)

grafik diatas menunjukkan hubungan yang kuat antara pendapatan rata-rata lingkungan (MedInc) dan harga rumah dalam model. visualisasi ini menunjukkan bagaimana tingkat pendapatn yang berbeda mempengaruhi nilai properti diseluruh rentang nilai pendapatn dalam dataset. apa yang ditunjukkan oleh plot kontribusi ini:
  * low-income areas (0-2 MedInc): wilayah ini menghadapi kontribusi negatif yang signifikan sekitar -4.7, yang berarti penurunan nilai rumah yang diprediksi $470.000.
  
  * jika diperhatikan keseluruhannya dari 2 - 5 MedInc mengalami rentang yang sangat singkat ditandai dengan penaikan kontribusi yang semakin positif. misalnya 2 -2.4 MedInc menghasilkan kontribusi meningkat walaupun masih negatif -2.2 dengan nilai rumah diperdiksi $220.000.


wawasan utama dari pola ini:
  * pendapatan merupakan faktor dominan: langkah-langkah yang curam dan besarnya kontribusi dari -4.7 - 3 menunjukkan bahwa pendapatn dilingkungan memiliki salah satu dampak terbesar pada harga rumah dalam model prediksi ini.
  * hubungan non-linear: fungsi langkah mengungkapkan bahwa pendapatan tidak mempengaruhi harga secara seragam - ada threshold kritis dimana perubahan kecil dalam pendapatan lingkungan menyebabkan lonjakan besar dalai nilai properti.

  * efek batas atas: diatas atas threshold 6 MedInc, peningkatan lebih lanjut dalam pendapatan media tidak secara signifikan mempengaruhi harga rumah, yang menunjukkan titik jenuh dimana faktor-fakotr lain menjadi lebih penting.

  * segmentasi pasar: langkah-langkah yang berbeda mungkin mewakili segmen pasar atau kelompok pembeli yang berbeda yang beroprasi pada titik harga yang berbeda.


visualisasi ini menegaskan bahwa beighborhood affluence merupakan pendorong utama harga perumahan di california, dengan properti di area berpendapatan rendah dinilai jauh lebih rendah, bahkan setelah memperhitungkan karaketeristik perumahan lainnya seperti ukuran, usia, dan lokasi.