In [2]:
# Library
import pandas as pd
import numpy as np

## Business Problem Understanding

#### Context
Washington, D.C. adalah ibu kota dari Amerika Serikat yang berkembang pesat dengan populasi mendekati 700000 orang. Kota ini sangat terpisah dan memiliki biaya hidup yang tinggi. Pada tahun 2017, harga rata-rata rumah keluarga tunggal di kawasan tersebut dapat mencapai $649000. Banyak orang yang ingin tinggal di sana karena Washington, D.C. merupakan tempat yang bagus untuk hidup dengan berbagai pilihan dalam pekerjaan, rekreasi, dan gaya hidup.
Melansir dari web [Redfin,](https://www.redfin.com/city/12839/DC/Washington-DC/housing-market) pemasaran perumahan Washington, D.C. cukup kompetitif dimana rumah di Washington, D.C. rata-rata menerima dua penawaran dan terjual dalam waktu sekitar 39 hari. 

#### Problem Statement

Salah satu kesulitan yang dihadapi seseorang yang ingin membeli rumah adalah ketidaktahuan harga dengan spesifikasi rumah yang ingin dimiliki. Tentunya sulit bagi seseorang yang tidak memiliki pengetahuan akan properti rumah dan tidak mengetahui berapa harga dari properti rumah yang ingin dimiliki. Sebuah perusahaan yang bergerak di bidang konsultan properti dapat memberikan referensi dalam penentuan harga rumah bagi calon pembeli. Penentuan harga rumah ini merupakan prediksi awal yang bisa menjadi dasar analisis bagi seorang konsultan dalam memberikan referensi harga rumah.
 
Prediksi harga rumah merupakan salah satu tugas yang cukup rumit dilakukan karena banyak faktor yang dapat mempengaruhi keakuratan prediksi baik secara langsung ataupun tidak langsung. Prediksi harga rumah harus memberikan hasil yang mendekati harga pasar. 

#### Goals
Berdasarkan permasalahan tersebut,  diperlukan sebuah *tool* yang dapat memprediksi harga rumah dengan akurat. *Tool* ini dapat digunakan ketika seseorang ingin membeli rumah berdasarkan spesifikasi yang diinginkan dan *budget* yang dimiliki. *Tool* tersebut melakukan prediksi harga rumah berdasarkan faktor-faktor tertentu seperti lokasi, kondisi, dan fasilitas rumah. 

Bagi calon pembeli, *prediction tool* yang dapat memberikan prediksi harga rumah dengan tepat, tentu dapat memudahkan dalam mencari rumah yang sesuai dengan yang diinginkan. Sedangkan bagi perusahaan, *prediction tool* dapat mengefisienkan waktu dan tenaga dalam melakukan analisis harga. 

Prediksi harga rumah akan dilakukan dengan menggunakan data aktual properti perumahan Washington,D.C. dan *machine learning*.

#### Analytic Approach
Jadi, yang perlu dilakukan dalam hal ini adalah:
* menganalisis data untuk dapat menemukan pola dari fitur-fitur yang ada, yang membedakan satu rumah dengan yang lainnya dalam hal fasilitas, luas area, dan lokasi. 
* membangun suatu model regresi yang akan membantu dalam melakukan prediksi harga rumah.

#### Metric Evaluation

Evaluasi metrik yang akan digunakan adalah *Root Mean Square Error* (RMSE), *Mean Absolute Error* (MAE), *Mean Absolute Percentage Error* (MAPE). RMSE adalah nilai rataan akar kuadrat dari error. MAE adalah rataan nilai absolut dari error untuk mengetahui rata rata selisih harga akurat dengan harga prediksi dalam bentuk US Dollar. Sedangkan MAPE adalah rataan persentase error yang digunakan untuk melihat berapa persentase rata-rata error antar nilai aktual dengan nilai prediksi. Semakin kecil nilai RMSE, MAE, dan MAPE yang dihasilkan, artinya model yang digunakan semakin akurat dalam memprediksi harga rumah di Washington D.C. sesuai dengan limitasi fitur yang digunakan. 

## Data Understanding

Dataset source : https://www.kaggle.com/datasets/christophercorrea/dc-residential-properties?select=raw_census_tracts_in_2010.csv

#### Attribute Information

|     No    |     Feature               |     Data Type    |     Description                                                                                                                         |
|-----------|---------------------------|------------------|-----------------------------------------------------------------------------------------------------------------------------------------|
|     1     |     Unnamed: 0            |     Int64        |     Number of Index                                                                                                                     |
|     2     |     BATHRM                |     int64        |     Number of bathrooms                                                                                                                 |
|     3     |     HF_BATHRM             |     int64        |     Number of half   bathroom     (No bathtub or shower)                                                                                |
|     4     |     HEAT                  |     object       |     Heating type                                                                                                                        |
|     5     |     AC                    |     Object       |     Air Conditioner   availability (Y/N)                                                                                                |
|     6     |     NUM_UNITS             |     float64      |     Number of units                                                                                                                     |
|     7     |     ROOMS                 |     int64        |     Number of rooms                                                                                                                     |
|     8     |     BEDRM                 |     int64        |     Number of bedrooms                                                                                                                  |
|     9     |     AYB                   |     float64      |     The earliest time the   main portion of the building was built                                                                      |
|     10    |     YR_RMDL               |     float64      |     The year structure was   remodeled                                                                                                  |
|     11    |     EYB                   |     int64        |     The year an   improvement was built more recent than actual year built                                                              |
|     12    |     STORIES               |     float64      |     Number of stories in   primary dwelling                                                                                             |
|     13    |     SALEDATE              |     object       |     Date of most recent   sale                                                                                                          |
|     14    |     PRICE                 |     float64      |     Price of most recent   sale                                                                                                         |
|     15    |     QUALIFIED             |     object       |     Internally used   indicator to reflect if a sale is representative of market value according to   the office's internal criteria    |
|     16    |     SALE_NUM              |     int64        |     Number of times it's   been sold since May 2014                                                                                     |
|     17    |     GBA                   |     float64      |     Gross building area in   square feet                                                                                                |
|     18    |     BLDG_NUM              |     int64        |     Building number on the   property                                                                                                   |
|     19    |     STYLE                 |     object       |     Type of story                                                                                                                       |
|     20    |     STRUCT                |     object       |     Building structure                                                                                                                  |
|     21    |     GRADE                 |     object       |     Property Grade                                                                                                                      |
|     22    |     CNDTN                 |     object       |     Property Condition                                                                                                                  |
|     23    |     EXTWALL               |     object       |     Exterior wall type                                                                                                                  |
|     24    |     ROOF                  |     object       |     Roof type                                                                                                                           |
|     25    |     INTWALL               |     object       |     Interior wall type                                                                                                                  |
|     26    |     KITCHENS              |     float64      |     Number of kitchens                                                                                                                  |
|     27    |     FIREPLACES            |     int64        |     Number of fireplaces                                                                                                                |
|     28    |     USECODE               |     int64        |     Property use code type                                                                                                              |
|     29    |     LANDAREA              |     int64        |     Land area of property   in square feet                                                                                              |
|     30    |     GIS_LAST_MOD_DTTM     |     object       |     Last modified data                                                                                                                  |
|     31    |     SOURCE                |     object       |     Raw data source                                                                                                                     |
|     32    |     CMPLX_NUM             |     float64      |     Complex number                                                                                                                      |
|     33    |     LIVING_GBA            |     float64      |     Gross building area in   square feet                                                                                                |
|     34    |     FULLADDRESS           |     object       |     Full street address                                                                                                                 |
|     35    |     CITY                  |     object       |     City                                                                                                                                |
|     36    |     STATE                 |     object       |     State                                                                                                                               |
|     37    |     ZIPCODE               |     float64      |     Zipcode                                                                                                                             |
|     38    |     NATIONALGRID          |     object       |     Address location   national grid coordinate spatial address                                                                         |
|     39    |     LATITUDE              |     float64      |     Latitude                                                                                                                            |
|     40    |     LONGITUDE             |     float64      |     Longitude                                                                                                                           |
|     41    |     ASSESSMENT_NBHD       |     object       |     Neighborhood ID                                                                                                                     |
|     42    |     ASSESSMENT_SUBNBHD    |     object       |     Subneighborhood ID                                                                                                                  |
|     43    |     CENSUS_TRACT          |     float64      |     Census tract                                                                                                                        |
|     44    |     CENSUS_BLOCK          |     object       |     Census block                                                                                                                        |
|     45    |     WARD                  |     object       |     Ward (district is   divided into eight wards, each with approximately 75,000 residents)                                             |
|     46    |     SQUARE                |     object       |     Square (Part of Square   Suffix Lot (SSL) an address identifier in DC)                                                              |
|     47    |     X                     |     float64      |     Longitude                                                                                                                           |
|     48    |     Y                     |     float64      |     Latitude                                                                                                                            |
|     49    |     QUADRANT              |     object       |     City quadrant (NE, SE,   SW, NW)                                                                                                    |

In [3]:
df = pd.read_csv('DC_Properties.csv')
df

  df = pd.read_csv('DC_Properties.csv')


Unnamed: 0.1,Unnamed: 0,BATHRM,HF_BATHRM,HEAT,AC,NUM_UNITS,ROOMS,BEDRM,AYB,YR_RMDL,...,LONGITUDE,ASSESSMENT_NBHD,ASSESSMENT_SUBNBHD,CENSUS_TRACT,CENSUS_BLOCK,WARD,SQUARE,X,Y,QUADRANT
0,0,4,0,Warm Cool,Y,2.0,8,4,1910.0,1988.0,...,-77.040832,Old City 2,040 D Old City 2,4201.0,004201 2006,Ward 2,152,-77.040429,38.914881,NW
1,1,3,1,Warm Cool,Y,2.0,11,5,1898.0,2007.0,...,-77.040764,Old City 2,040 D Old City 2,4201.0,004201 2006,Ward 2,152,-77.040429,38.914881,NW
2,2,3,1,Hot Water Rad,Y,2.0,9,5,1910.0,2009.0,...,-77.040678,Old City 2,040 D Old City 2,4201.0,004201 2006,Ward 2,152,-77.040429,38.914881,NW
3,3,3,1,Hot Water Rad,Y,2.0,8,5,1900.0,2003.0,...,-77.040629,Old City 2,040 D Old City 2,4201.0,004201 2006,Ward 2,152,-77.040429,38.914881,NW
4,4,2,1,Warm Cool,Y,1.0,11,3,1913.0,2012.0,...,-77.039361,Old City 2,040 D Old City 2,4201.0,004201 2006,Ward 2,152,-77.040429,38.914881,NW
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
158952,158952,1,0,Forced Air,Y,,3,1,1938.0,2006.0,...,-77.019420,Old City 2,040 B Old City 2,4801.0,,Ward 6,477,-77.019422,38.911848,NW
158953,158953,1,0,Forced Air,Y,,4,2,1938.0,2006.0,...,-77.019420,Old City 2,040 B Old City 2,4801.0,,Ward 6,477,-77.019422,38.911848,NW
158954,158954,2,0,Forced Air,Y,,4,2,1920.0,2007.0,...,-77.019420,Old City 2,040 B Old City 2,4801.0,,Ward 6,477,-77.019422,38.911848,NW
158955,158955,1,0,Warm Cool,Y,,2,0,1965.0,,...,-77.018230,Southwest Waterfront,,11000.0,,Ward 6,504,-77.018232,38.872961,SW
