# Library

In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
from matplotlib.colors import ListedColormap, LinearSegmentedColormap
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")

# Data Check

In [2]:
data_housing = pd.read_csv('dataset_house_price_bandung.csv')


In [3]:
data_housing.dtypes

Title            object
Title_URL        object
Keywords         object
Address          object
Description      object
Price            object
Info            float64
Info1            object
Info2            object
Info3            object
Info4            object
Info5            object
Description6     object
dtype: object

In [4]:
data_housing['Price'] = data_housing['Price'].str.replace(r'[^\d]', '', regex=True).astype(float)

In [5]:
for kolom in data_housing.columns :
    if data_housing[kolom].dtype == 'object':  
        data_housing[kolom] = data_housing[kolom].str.lower().str.replace(r"\n", "").str.strip()

# Data Cleaning

In [6]:
data_housing.drop(columns=['Title_URL','Keywords','Description','Info1','Info3','Info5','Description6'], inplace=True)

In [7]:
data_housing.rename(columns={'Info':'KT','Info2':'LB','Info4':'LT'},inplace=True)

In [8]:
display(data_housing.isna().sum())
display(data_housing.duplicated().sum())

Title       0
Address     9
Price      15
KT         10
LB         10
LT         13
dtype: int64

29

In [9]:
data_housing.dropna(inplace=True)

In [10]:
data_housing['Address'] =data_housing['Address'].str.replace('bandung','',case=False)
data_housing['Address'] =data_housing['Address'].str.replace(r'[^\w\s]','',regex=True).str.strip()
data_housing['Address'] = data_housing ['Address'].str.replace(r',,',',',regex=True).str.strip()
data_housing['Address']

0              soreang
1       cileunyi kulon
2             antapani
3          gegerkalong
5              cikutra
             ...      
2661              dago
2662          turangga
2663          ciwastra
2664              dago
2665          antapani
Name: Address, Length: 2648, dtype: object

In [11]:
display(data_housing.isna().sum())
display(data_housing.duplicated().sum())

Title      0
Address    0
Price      0
KT         0
LB         0
LT         0
dtype: int64

25

In [12]:
pd.set_option('display.max_colwidth',None)

# Data unik disetiap kolom
list_unik = []
for col in data_housing.columns :
    list_unik.append([col, data_housing[col].nunique(), data_housing.sort_values(col)[col].unique()])

Datadesc = pd.DataFrame(columns=['Nama Kolom','Jumlah Unik', 'Unik Value'],
                        data=list_unik)
Datadesc

Unnamed: 0,Nama Kolom,Jumlah Unik,Unik Value
0,Title,2580,"["", , rumah baru skandinavian dekat ke jalan utama padalarang, .rumah bebas banjir dan asri di taman kopo indah ii, bandung, 1 unit diskon 35 juta rumah di arcamanik antapani design scandinavian, 100 jutaan rumah di cinunuk cileunyi dkt cibiru bandung timur, 2 lantai, rumah baru, fully furnished, grand sharon, 2 lt promo rumah kota bandung timur jatihandap antapani cluster mahaka, 2 menit ke trans mart buah batu di rumah askara brahmapuri podomoro park band, 2 unit rumah baru minimalis scandinavian arcamanik kota bandung⁣, 25 menit ke gedung sate rumah di arcamanik dkt antapani dan cicadas, 36/60. cicilan 1,4 juta. arjasari banjaran, 5 menit ke pintu toll buah batu,rumah brahmapuri podomoro park bandung | a 6.01., 5 menit ke universitas telkom, rumah askara brahmapuri podomoro park bandung, agung podomoro park bandung type minimalis 1 lantai, aman dan nyaman rumah elegant minimalis atap car port cileunyi bandung, aman dan nyaman | biaya bangun rumah minimalis 2 kamar bumi pasirwangi, aman dan nyaman | rumah minimalis 2 lantai bumi pasir wangi cileunyi, aman dan nyaman|rumah tumbuh di bumi pasir wangi cileunyi bandung, aman | denah rumah minimalis 2 kamar ukuran 5x7 bumi pasir wangi bdg, aman | rumah minimalis sederhana bumi pasir wangi cileunyi bandung, aman|perumahan cluster di bumi pasir wangi cileunyi bandung, anapuri type darmaraja podomoro bandung, angsuran 2 jutaan rumah strategis di cigugur dekat kota bandung, asri dan indah | rumah minimalis modern bumi pasir wangi cileunyi bdg, asri dan indah| hunian milenial perumahan bumi pasir wangi bandung, asri dan indah|perumahan strategisdi bumi pasir wangi cileunyi bandung, asri rumah nyaman dan aman di cileunyi dekat pintu tol cileunyi, asri | desain rumah minimalis elegan bumi pasir wangi cileunyi bandung, asri | rumah minimalis 2 kamar type 45 bumi pasir wangi bandung, asri|rumah minimalisdi bumi pasir wangi cileunyi bandung, b.u dijual rumah nyaman 2,5 lantai siap huni di sarijadi kota bdg, bagus luas bangunan belanda sayap gedung sate, bagus recommend kbp, bali residence rumah apik dan nyaman, bandung city view, beautiful house with nice view at citra green dago, beli rumah bonus fasilitas, beli rumah, dapatkan kesejukan dan kemewahan di lingkungan strategis,, beli sekarang rumah murah nyaman sejuk di batujajar dkt cimareme, best invest rumah semi villa mewah private pool, best location rumah baru minimalis modern, best view rumah semi villa dikawasan pegunungan, bmi rumah syariah tanpa riba 2lantai , siap huni type 60-72, booking podomoro sekarang dapatkan undian hyiundai iqoniq, brand new home\nrumah baru di kawasan exclusive setra duta, bu cepat rumah model minimalis cipaku, buah batu regency , jual rumah minimalis siap huni, budget 1man sudah dapat rumah mewah 2 lantai di kota bandung, butuh cepat mau pindah keluar kota., butuh uang jual rumah bumi pasirwangi cileunyi bandung, cari jual rumah strategis di cileunyi bandung timur, casa victoria setra duta, cek sekarang rumah semi furnish tinggal bawa koper aja, cicilan 1 juta an. rumah subsidi. arjasari bandung selatan, cilengkrang bandung takayama mansion, cinunuk perumahan dekat tol cileunyi, cipaku bandung, cisangkuy - diponegoro - dago - bandung kota, u/ usaha/ cafe, best loc, cisaranten arcamanik, citra green dago, ciwastra park 2, cluster antapani - bandung kota, siap huni, murah, lingkungan bagus, cluster antapani bandung kota, siap huni, jalan lebar pisan, cluster baru di bumi panyawangan real estate cluster garcinia 2 lantai, cluster brahmapuri at podomoro park bandung, cluster dayana summarecon bandung, cluster garcinia 1 lantai di bumi panyawangan real estate, cluster graha panyileukan rumah baru dekat polda jabar kota bandung, cluster manis harga minimalis akses besar di cinunuk, cluster mewah gaya korea sayap dago jl utama cigadung, cluster murah minimalis modern di bandung, cluster oryza ciwastra park, cluster pasir jati, di cijambe, ujungberung, bandung., cluster patragriya at podomoro park bandung, cluster pramartha asri jatihandap residence kota bandung mahaka land, cluster premium genova summarecon bandung, cluster premium living dekat campus telkom, cluster sadyagriya at podomoro park bandung, cluster wangsagriya at podomoro park bandung, cluster yang asri islami, cocok sekali | model rumah minimalis terbaru bumi pasir wangi cileunyi, cocok sekali| hunian strategis perumahan bumi pasir wangi bandung, cocok sekali|rumah one gate sistemdi bumi pasir wangi cileunyi bandung, cocok sekali| hunian strategis perumahan bumi pasir wangi bandung, cozy rumah luas harga menarik sayap veteran tengah kota bandung, d green sindanglaya, dealkan segera, hunian nyaman diarea super tenang, setra duta, bandung, dekat sman 1 cisarua bandung barat 600 jtan 3 kamar tidur shm, desain elegan, ruang fungsional: jual rumah minimalis di bandung, desain scandinavia di bumi panyawangan real estate, di jual : rumah sumbersari bandung jawa barat, di jual cepat komplek dadali bandung kota jarang ada, di jual cepat rumah baru 2lantai sangat murah di dekat cicaheum, di jual cepat rumah baru full renov 2lt di babakansari kiaracondong, di jual cepat rumah di bawah harga pasar di suryalaya bandung, di jual cepat rumah mewah selangkah tol full furnished dekat kantor p, di jual cepat rumah minimalis siap huni dalam cluster antapani, di jual cepat rumah super murah di batununggal mulia, di jual cepat rumah villa di royal view residence ciwaruga gegerkalong, di jual cepat termurah rumah strategis sayap jl jakarta bandung, ...]"
1,Address,138,"[, andir, antapani, arcamanik, arjasari, astana anyar, babakan ciparay, baleendah, banjaran, batujajar, batununggal, bojongloa kaler, bojongloa kidul, bojongmalaka, bojongsari, bojongsoang, buahbatu, buahbatu margacinta, cangkuang, ciateul, cibaduyut, cibeunying, cibeunying kaler, cibeunying kidul, cibiru, cibiru hilir, cibiru wetan, cicaheum, cicalengka, cicendo, cidadap, cigadung, cigondewah, cihampelas, cihapit, cijagra, cijerah, cikalongwetan, cikutra, cilengkrang, cileunyi, cileunyi kulon, cileunyi wetan, cimaung, cimekar, cimenyan, cinambo, cingcin, cinunuk, cipaganti, ciparay, cipatat, cisaranten kulon, cisaranten wetan, cisarua, citarum, ciumbuleuit, ciwastra, ciwidey, coblong, dago, dayeuhkolot, garuda, gatot subroto, gedebage, gegerkalong, gempolsari, gumuruh, hegarmanah, isola, jamika, jatihandap, jatinangor, karasak, katapang, kebon jeruk, kebonwaru, kiaracondong, kidul, kopo, kulon, ledeng, lembang, lengkong, lingkar selatan, malakasari, maleber, mandalajati, margaasih, margahayu, margahayu utara, mekarwangi, nagreg, ngamprah, padalarang, padasuka, pajajaran, pameungpeuk, pangalengan, panyileukan, ...]"
2,Price,675,"[110000000.0, 134500000.0, 135000000.0, 136000000.0, 147500000.0, 148000000.0, 150000000.0, 150500000.0, 150800000.0, 155000000.0, 158000000.0, 160000000.0, 162000000.0, 164999999.0, 165000000.0, 170000000.0, 175000000.0, 175121000.0, 180000000.0, 185000000.0, 185888000.0, 190000000.0, 195000000.0, 199000000.0, 200000000.0, 200000020.0, 205000000.0, 210000000.0, 218000000.0, 220000000.0, 225000000.0, 230000000.0, 235000000.0, 236830000.0, 240000000.0, 240300000.0, 245000000.0, 248000000.0, 249000000.0, 250000000.0, 250888000.0, 255000000.0, 260000000.0, 261000000.0, 268200000.0, 268990000.0, 270000000.0, 275000000.0, 278000000.0, 279000000.0, 280000000.0, 285000000.0, 286000000.0, 287000000.0, 288000000.0, 289000000.0, 290000000.0, 294000000.0, 295000000.0, 300000000.0, 303000000.0, 305000000.0, 310000000.0, 310012253.0, 320000000.0, 325000000.0, 330000000.0, 339500000.0, 340000000.0, 345000000.0, 346000000.0, 346200000.0, 348000000.0, 348400000.0, 350000000.0, 355000000.0, 360000000.0, 365000000.0, 370000000.0, 374500000.0, 375000000.0, 378000000.0, 378199000.0, 378200000.0, 378650000.0, 378799000.0, 378800000.0, 378950000.0, 379000000.0, 380000000.0, 381000000.0, 385000000.0, 390000000.0, 390300000.0, 390500000.0, 391000000.0, 397000000.0, 397791000.0, 398000000.0, 399900000.0, ...]"
3,KT,30,"[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0, 11.0, 12.0, 13.0, 14.0, 15.0, 16.0, 17.0, 18.0, 19.0, 20.0, 21.0, 22.0, 23.0, 24.0, 28.0, 30.0, 45.0, 50.0, 100.0, 430.0]"
4,LB,329,"[1 m², 100 m², 1000 m², 10060 m², 102 m², 103 m², 104 m², 1044 m², 105 m², 106 m², 107 m², 108 m², 110 m², 111 m², 112 m², 113 m², 114 m², 115 m², 116 m², 117 m², 118 m², 119 m², 12 m², 120 m², 1200 m², 1202 m², 121 m², 122 m², 123 m², 124 m², 125 m², 1250 m², 126 m², 127 m², 128 m², 129 m², 130 m², 131 m², 133 m², 135 m², 136 m², 137 m², 140 m², 1400 m², 142 m², 144 m², 145 m², 146 m², 147 m², 149 m², 150 m², 1500 m², 151 m², 153 m², 154 m², 155 m², 156 m², 158 m², 160 m², 161 m², 162 m², 164 m², 165 m², 166 m², 167 m², 168 m², 169 m², 170 m², 1700 m², 171 m², 172 m², 173 m², 174 m², 175 m², 176 m², 177 m², 178 m², 179 m², 180 m², 1800 m², 181 m², 182 m², 185 m², 186 m², 188 m², 190 m², 192 m², 193 m², 194 m², 195 m², 196 m², 197 m², 198 m², 199 m², 2 m², 200 m², 2000 m², 202 m², 203 m², 2036 m², ...]"
5,LT,504,"[1 m², 100 m², 1000 m², 100078 m², 1007 m², 10078 m², 101 m², 1015 m², 102 m², 10200 m², 103 m², 104 m², 1044 m², 1048 m², 105 m², 106 m², 107 m², 1073 m², 1079 m², 108 m², 109 m², 1095 m², 110 m², 1100 m², 111 m², 1115 m², 112 m², 113 m², 114 m², 115 m², 116 m², 1160 m², 117 m², 118 m², 1185 m², 119 m², 1194 m², 120 m², 1200 m², 121 m², 1210 m², 1217 m², 122 m², 123 m², 124 m², 1246 m², 125 m², 126 m², 1262 m², 127 m², 128 m², 1290 m², 130 m², 1300 m², 131 m², 132 m², 1320 m², 133 m², 134 m², 135 m², 136 m², 1367 m², 137 m², 138 m², 139 m², 140 m², 1405 m², 141 m², 142 m², 1424 m², 144 m², 145 m², 146 m², 1464 m², 147 m², 148 m², 1485 m², 149 m², 150 m², 15000 m², 151 m², 1510 m², 152 m², 153 m², 1530 m², 154 m², 1540 m², 155 m², 156 m², 157 m², 158 m², 159 m², 160 m², 1600 m², 161 m², 162 m², 163 m², 164 m², 165 m², 166 m², ...]"


In [13]:
data_housing['LB'] = [int(area.replace(" m²", "")) for area in data_housing['LB']]


In [14]:
data_housing['LT'] = [int(area.replace(" m²", "")) for area in data_housing['LT']]

Nama Lama | Nama Baru|
---|---|
buahbatu margacinta | buahbatu |
setiabudi| ledeng|
ciwastra|mekarjaya|
riau | bandung wetan|
gatot subroto | malabar|
pasir kaliki | *mengubah dataset jd punya spasi*|
cigondewah |bandung kulon|
warung muncang |bandung kulon|
kebon jeruk | andir
ujung berung | ujungberung
surapati | cihaurgeulis
pasir jati| pasirjati

In [15]:
data_housing['Address'] = data_housing['Address'].replace({'buahbatu margacinta':'buahbatu', 'setiabudi':'ledeng', 'ciwastra':'mekarjaya', 'riau':'bandung wetan', 'gatot subroto':'malabar', 'cigondewah':'bandung kulon', 'warung muncang':'bandung kulon', 'kebon jeruk': 'andir', 'ujung berung':'ujungberung', 'surapati':'cihaurgeulis','pasir jati':'pasirjati'})

In [16]:
data_housing['index'] = data_housing['Address'].apply(lambda x:'1' if x in ['andir','astana anyar','antapani','arcamanik','babakan ciparay','bandung kidul','bandung kulon','bandung wetan','batununggal','bojongloa kaler','bojongloa kidul','buahbatu','cibeunying kaler','cibeunying kidul','cibiru','cicendo','cidadap','cinambo','coblong','gedebage','kiaracondong','lengkong','mandalajati','rancasari','panyileukan','regol','sumur bandung','sukajadi','sukasari','ujungberung','campaka','ciroyom','dunguscariang','garuda','kebonjeruk','maleber','cibadak','karanganyar','karasak','nyengseret','panjunan','pelindunghewan','antapani kidul','antapani kulon','antapani tengah','antapani wetan','cisaranten bina harapan','cisaranten endah','cisaranten kulon','sukamiskin','babakan','babakanciparay','cirangrang','margahayu utara','margasuka','sukahaji','batununggal','kujangsari','mengger','wates','caringin','cibuntu','cigondewah kaler','cigondewah kidul','cigondewah rahayu','cijerah','gempolsari','warungmuncang','cihapit','citarum','tamansari','binong','cibangkong','gumuruh','kacapiring','kebongedang','kebonwaru','maleer','samoja','babakan asih','babakan tarogong','jamika','kopo','suka asih','cibaduyut','cibaduyut kidul','cibaduyut wetan','kebon lega','mekarwangi','situsaeur','cijawura','jatisari','margasari','sekejati','cigadung','cihaurgeulis','neglasari','sukaluyu','cicadas','cikutra','padasuka','pasirlayung','sukamaju','sukapada','cipadung','cisurupan','palasari','pasirbiru','arjuna','husen sastranegara','pajajaran','pamoyanan','pasir kaliki','sukaraja','ciumbuleuit','hegarmanah','ledeng','babakan penghulu','cisaranten wetan','pakemitan','sukamulya','cipaganti','dago','lebakgede','lebaksiliwangi','sadangserang','sekeloa','cimincrang','cisaranten kidul','rancabolang','rancanumpang','babakansari','babakansurabaya','cicaheum','kebonkangkung','kebunjayanti','sukapura','burangrang','cijagra','cikawao','lingkar selatan','malabar','paledang','turangga','jatihandap','karangpamulang','pasir impun','sindangjaya','cipamokolan','darwati','manjahlega','mekar jaya','cipadung kidul','cipadung kulon','cipadung wetan','mekarmulya','ancol','balonggede','ciateul','cigereleng','ciseureuh','pasirluyu','pungkur','babakanciamis','braga','kebonpisang','merdeka','cipedes','pasteur','sukabungah','sukagalih','sukawarna','gegerkalong','isola','sarijadi','sukarasa','cigending','pasanggrahan','pasirendah','pasirjati','pasirwangi'] else '0')

In [17]:
jumlah_undefine = data_housing['index'].value_counts()
persentase_undefine = data_housing['index'].value_counts() / len(data_housing)

df_undefine = pd.DataFrame({'Jumlah': jumlah_undefine, 'Persentase': persentase_undefine})
df_undefine.index.name = 'index'

df_undefine

Unnamed: 0_level_0,Jumlah,Persentase
index,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1642,0.620091
0,1006,0.379909


In [18]:
def get_unique_addresses(df):
    # Filter rows with index 0
    filtered_df = df[df['index'] == '0']
    
    # Get unique addresses
    unique_addresses = filtered_df['Address'].unique()
    
    return unique_addresses

In [19]:
get_unique_addresses(data_housing)

array(['soreang', 'cileunyi kulon', 'soekarno hatta', 'cileunyi',
       'banjaran', 'sindanglaya', '', 'bojongsoang', 'cihampelas',
       'cangkuang', 'bojongmalaka', 'cimenyan', 'margahayu', 'padalarang',
       'kulon', 'sumur', 'mekarjaya', 'lembang', 'rancamanyar',
       'katapang', 'margaasih', 'cibiru hilir', 'rancaekek', 'cinunuk',
       'cicalengka', 'arjasari', 'jatinangor', 'wetan', 'pameungpeuk',
       'pangalengan', 'cikalongwetan', 'dayeuhkolot', 'cibeunying',
       'parongpong', 'baleendah', 'pasawahan', 'kidul', 'cilengkrang',
       'ngamprah', 'cimaung', 'cimekar', 'rahayu', 'ciparay', 'batujajar',
       'cibiru wetan', 'bojongsari', 'cipatat', 'nagreg', 'cingcin',
       'cileunyi wetan', 'cisarua', 'solokan jeruk', 'ciwidey',
       'rancamulya', 'malakasari'], dtype=object)

In [20]:
data_housing[data_housing['index']=='0']

Unnamed: 0,Title,Address,Price,KT,LB,LT,index
0,rumah mewah soreang hanya 5 menit ke gerbang tol soreang bandung,soreang,1.374180e+09,3.0,84,71,0
1,dijual rumah murah bandung timur cileunyi,cileunyi kulon,5.500000e+08,4.0,104,78,0
8,rumah mewah 2 lantai di lokasi strategis kota bandung,soekarno hatta,2.861388e+09,3.0,161,160,0
13,perumahan islam karakter islamic green garden rumah syariah bandung,cileunyi,3.905000e+08,2.0,52,66,0
14,rumah mewah murah di lokasi stategis perumahan modern bandung,banjaran,4.178480e+08,2.0,42,84,0
...,...,...,...,...,...,...,...
2654,turun harga rumah minimalis one gate sistem di cipageran cimahi,,6.000000e+08,2.0,45,84,0
2658,rumah diatas langit dkt sabilulungan soreang kopo bandung selatan,soreang,4.280000e+08,3.0,47,60,0
2659,rumah private pool luas lega di cihanjuang,sumur,5.500000e+09,11.0,590,756,0
2660,promo 5 unit pertama di bumi luhur parahyangan bandung,padalarang,8.500000e+08,3.0,85,75,0


In [21]:
data_housing=data_housing[data_housing['index']!='0']

# Add Feature

In [22]:
# Sub-district to district mapping
sub_district_to_district = {
    'andir': ['andir', 'campaka', 'ciroyom', 'dunguscariang', 'garuda', 'kebonjeruk', 'maleber'],
    'astana anyar': ['astana anyar', 'cibadak', 'karanganyar', 'karasak', 'nyengseret', 'panjunan', 'pelindunghewan'],
    'antapani': ['antapani', 'antapani kidul', 'antapani kulon', 'antapani tengah', 'antapani wetan'],
    'arcamanik': ['arcamanik', 'cisaranten bina harapan', 'cisaranten endah', 'cisaranten kulon', 'sukamiskin'],
    'babakan ciparay': ['babakan ciparay', 'babakan', 'babakanciparay', 'cirangrang', 'margahayu utara', 'margasuka', 'sukahaji'],
    'bandung kidul': ['bandung kidul', 'batununggal', 'kujangsari', 'mengger', 'wates'],
    'bandung kulon': ['bandung kulon', 'caringin', 'cibuntu', 'cigondewah kaler', 'cigondewah kidul', 'cigondewah rahayu', 'cijerah', 'gempolsari', 'warungmuncang'],
    'bandung wetan': ['bandung wetan', 'cihapit', 'citarum', 'tamansari'],
    'batununggal': ['batununggal', 'binong', 'cibangkong', 'gumuruh', 'kacapiring', 'kebongedang', 'kebonwaru', 'maleer', 'samoja'],
    'bojongloa kaler': ['bojongloa kaler', 'babakan asih', 'babakan tarogong', 'jamika', 'kopo', 'suka asih'],
    'bojongloa kidul': ['bojongloa kidul', 'cibaduyut', 'cibaduyut kidul', 'cibaduyut wetan', 'kebon lega', 'mekarwangi', 'situsaeur'],
    'buahbatu': ['buahbatu', 'cijawura', 'jatisari', 'margasari', 'sekejati'],
    'cibeunying kaler': ['cibeunying kaler', 'neglasari', 'sukaluyu', 'cigadung', 'cihaurgeulis'],
    'cibeunying kidul': ['cibeunying kidul', 'cicadas', 'cikutra', 'padasuka', 'pasirlayung', 'sukamaju', 'sukapada'],
    'cibiru': ['cibiru', 'cipadung', 'cisurupan', 'palasari', 'pasirbiru'],
    'cicendo': ['cicendo', 'arjuna', 'husen sastranegara', 'pajajaran', 'pamoyanan', 'pasir kaliki', 'sukaraja'],
    'cidadap': ['cidadap', 'ciumbuleuit', 'hegarmanah', 'ledeng'],
    'cinambo': ['cinambo', 'babakan penghulu', 'cisaranten wetan', 'pakemitan', 'sukamulya'],
    'coblong': ['coblong', 'cipaganti', 'dago', 'lebakgede', 'lebaksiliwangi', 'sadangserang', 'sekeloa'],
    'gedebage': ['gedebage', 'cimincrang', 'cisaranten kidul', 'rancabolang', 'rancanumpang'],
    'kiaracondong': ['kiaracondong', 'babakansari', 'babakansurabaya', 'cicaheum', 'kebonkangkung', 'kebunjayanti', 'sukapura'],
    'lengkong': ['lengkong', 'burangrang', 'cijagra', 'cikawao', 'lingkar selatan', 'malabar', 'paledang', 'turangga'],
    'mandalajati': ['mandalajati', 'jatihandap', 'karangpamulang', 'pasir impun', 'sindangjaya'],
    'rancasari': ['rancasari', 'cipamokolan', 'darwati', 'manjahlega', 'mekar jaya'],
    'panyileukan': ['panyileukan', 'cipadung kidul', 'cipadung kulon', 'cipadung wetan', 'mekarmulya'],
    'regol': ['regol', 'ancol', 'balonggede', 'ciateul', 'cigereleng', 'ciseureuh', 'pasirluyu', 'pungkur'],
    'sumur bandung': ['sumur bandung', 'babakanciamis', 'braga', 'kebonpisang', 'merdeka'],
    'sukajadi': ['sukajadi', 'cipedes', 'pasteur', 'sukabungah', 'sukagalih', 'sukawarna'],
    'sukasari': ['sukasari', 'gegerkalong', 'isola', 'sarijadi', 'sukarasa'],
    'ujungberung': ['ujungberung', 'cigending', 'pasanggrahan', 'pasirendah', 'pasirjati', 'pasirwangi']
}    


In [23]:
def district_category(district):
    for category, districts in sub_district_to_district.items():
        if district in districts:
            return category
    return 'Unknown'

data_housing['District'] = data_housing['Address'].map(district_category)

In [24]:
new_column_order = ['Title', 'Address', 'District', 'KT','LB', 'LT', 'Price','index']

# Rearranging column order reindex
data_housing = data_housing.reindex(columns=new_column_order)

data_housing.head()

Unnamed: 0,Title,Address,District,KT,LB,LT,Price,index
2,cluster pramartha asri jatihandap residence kota bandung mahaka land,antapani,antapani,2.0,45,50,430000000.0,1
3,rumah bagus dan asri geger kalong - komplek pondok hijau,gegerkalong,sukasari,3.0,250,179,2600000000.0,1
5,rumah baru dkt padasuka cikutra surapati pusdai cisaranten sport jabar,cikutra,cibeunying kidul,2.0,33,50,350000000.0,1
6,cluster patragriya at podomoro park bandung,buahbatu,buahbatu,2.0,43,66,900000000.0,1
7,rumah dijual di bandung strategis harga nego,batununggal,bandung kidul,6.0,200,750,12000000000.0,1


In [25]:
data_housing[data_housing['District']=='Unknown']

Unnamed: 0,Title,Address,District,KT,LB,LT,Price,index


In [26]:
data_housing.drop_duplicates(inplace=True)

In [27]:
display(data_housing.shape)
display(data_housing.head())
print ('Data Information')
display(data_housing.info())
print ('Missing Value')
display(data_housing.isna().sum())
display(f"Jumlah duplikasi data: {data_housing[data_housing.duplicated()].shape}")
display(f'Persentase sebesar {(data_housing.duplicated().sum())/len(data_housing)*100}%')

(1636, 8)

Unnamed: 0,Title,Address,District,KT,LB,LT,Price,index
2,cluster pramartha asri jatihandap residence kota bandung mahaka land,antapani,antapani,2.0,45,50,430000000.0,1
3,rumah bagus dan asri geger kalong - komplek pondok hijau,gegerkalong,sukasari,3.0,250,179,2600000000.0,1
5,rumah baru dkt padasuka cikutra surapati pusdai cisaranten sport jabar,cikutra,cibeunying kidul,2.0,33,50,350000000.0,1
6,cluster patragriya at podomoro park bandung,buahbatu,buahbatu,2.0,43,66,900000000.0,1
7,rumah dijual di bandung strategis harga nego,batununggal,bandung kidul,6.0,200,750,12000000000.0,1


Data Information
<class 'pandas.core.frame.DataFrame'>
Index: 1636 entries, 2 to 2665
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Title     1636 non-null   object 
 1   Address   1636 non-null   object 
 2   District  1636 non-null   object 
 3   KT        1636 non-null   float64
 4   LB        1636 non-null   int64  
 5   LT        1636 non-null   int64  
 6   Price     1636 non-null   float64
 7   index     1636 non-null   object 
dtypes: float64(2), int64(2), object(4)
memory usage: 115.0+ KB


None

Missing Value


Title       0
Address     0
District    0
KT          0
LB          0
LT          0
Price       0
index       0
dtype: int64

'Jumlah duplikasi data: (0, 8)'

'Persentase sebesar 0.0%'

# Final Dataset 

In [28]:
data_housing.to_csv('Clean Data Housing Kota Bandung.csv', index=False)