## **Data Cleaning and Preparation**

### **Importing libraries needed for this step**

In [20]:
import numpy as np
import pandas as pd

### **Reading the data**

In [21]:
HCMHouseRent = pd.read_csv('../data/HCMHouseRent.csv')
HCMHouseRent.head(10)

Unnamed: 0,title,price,published,acreage,address
0,"Cho thuê nhà trọ mới sạch đẹp tại Lê Đình Cẩn,...",2.2,16/05/2022,20.0,"Lê Đình Cẩn, Phường Tân Tạo, Quận Bình Tân, Hồ..."
1,Cho thuê phòng trọ giá rẻ ở mặt tiền hẻm lớn Đ...,2.5,20/04/2022,20.0,"487/35/25 Đường Huỳnh Tấn Phát, Phường Tân Thu..."
2,Cho thuê phòng trọ kdc Nam Long-Trần Trọng Cun...,3.5,10/05/2022,30.0,"Đường 10, Phường Tân Thuận Đông, Quận 7, Hồ Ch..."
3,Phòng trọ giá rẻ ngay cổng khu chế xuất Tân Th...,1.5,05/05/2022,30.0,"283/15 Huỳnh Tấn Phát, Phường Tân Thuận Đông, ..."
4,"Cho thuê phòng có gác, không gác, tolet riêng ...",3.5,05/01/2022,18.0,"Lê Văn Sỹ, Phường 14, Quận Phú Nhuận, Hồ Chí Minh"
5,"Phòng cho thuê dành cho người đi làm, gần nhiề...",2.2,05/11/2020,15.0,"174/15 Đường Đặng Văn Ngữ, Phường 14, Quận Phú..."
6,Cho thuê phòng ( nguyên tầng) ban công mặt tiề...,4.5,10/03/2022,20.0,"311 Nguyễn Thiện Thuật, Phường 1, Quận 3, Hồ C..."
7,"PHÒNG ĐẸP MỚI XÂY,KHÔNG CHUNG CHỦ ,ĐƯỜNG AN DƯ...",3.0,19/07/2022,16.0,"Đường số 4, Phường 16, Quận 8, Hồ Chí Minh"
8,"Phòng 25m2 full tiện nghi Nguyễn Thiện Thuật, ...",4.5,30/03/2022,25.0,"Phố Nguyễn Thiện Thuật, Phường 1, Quận 3, Hồ C..."
9,Chính chủ cho thuê phòng 18m2 tai Đặng Văn Ngữ...,3.0,05/11/2020,18.0,"Đường Đặng Văn Ngữ, Phường 14, Quận Phú Nhuận,..."


In [22]:
HCMHouseRent.info()
HCMHouseRent.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9733 entries, 0 to 9732
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   title      9733 non-null   object 
 1   price      9733 non-null   float64
 2   published  9733 non-null   object 
 3   acreage    9733 non-null   float64
 4   address    9733 non-null   object 
dtypes: float64(2), object(3)
memory usage: 380.3+ KB


title         object
price        float64
published     object
acreage      float64
address       object
dtype: object

>We see, published column is date time but now it's object. So, we need change to datetime

### **1. Format column**

In [23]:
def convert_date(date):
    dateSplit = date.split('/')
    if(len(dateSplit) != 3):
        return np.nan
    return date

HCMHouseRent['published'] = HCMHouseRent['published'].apply(lambda x: convert_date(x))
HCMHouseRent.dropna(inplace=True)


In [24]:
# format column 'publised' to datetime
HCMHouseRent['published'] = pd.to_datetime(HCMHouseRent['published'], format='%d/%m/%Y')

In [25]:
HCMHouseRent.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9502 entries, 0 to 9732
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   title      9502 non-null   object        
 1   price      9502 non-null   float64       
 2   published  9502 non-null   datetime64[ns]
 3   acreage    9502 non-null   float64       
 4   address    9502 non-null   object        
dtypes: datetime64[ns](1), float64(2), object(2)
memory usage: 445.4+ KB


>Because the price column has a format of 2.2 instead of 2,200,000. Computational difficulty. So I'll convert it to millions

In [26]:
HCMHouseRent['price'] = HCMHouseRent['price'].apply(lambda x: int(x*1000000))
HCMHouseRent.head(10)

Unnamed: 0,title,price,published,acreage,address
0,"Cho thuê nhà trọ mới sạch đẹp tại Lê Đình Cẩn,...",2200000,2022-05-16,20.0,"Lê Đình Cẩn, Phường Tân Tạo, Quận Bình Tân, Hồ..."
1,Cho thuê phòng trọ giá rẻ ở mặt tiền hẻm lớn Đ...,2500000,2022-04-20,20.0,"487/35/25 Đường Huỳnh Tấn Phát, Phường Tân Thu..."
2,Cho thuê phòng trọ kdc Nam Long-Trần Trọng Cun...,3500000,2022-05-10,30.0,"Đường 10, Phường Tân Thuận Đông, Quận 7, Hồ Ch..."
3,Phòng trọ giá rẻ ngay cổng khu chế xuất Tân Th...,1500000,2022-05-05,30.0,"283/15 Huỳnh Tấn Phát, Phường Tân Thuận Đông, ..."
4,"Cho thuê phòng có gác, không gác, tolet riêng ...",3500000,2022-01-05,18.0,"Lê Văn Sỹ, Phường 14, Quận Phú Nhuận, Hồ Chí Minh"
5,"Phòng cho thuê dành cho người đi làm, gần nhiề...",2200000,2020-11-05,15.0,"174/15 Đường Đặng Văn Ngữ, Phường 14, Quận Phú..."
6,Cho thuê phòng ( nguyên tầng) ban công mặt tiề...,4500000,2022-03-10,20.0,"311 Nguyễn Thiện Thuật, Phường 1, Quận 3, Hồ C..."
7,"PHÒNG ĐẸP MỚI XÂY,KHÔNG CHUNG CHỦ ,ĐƯỜNG AN DƯ...",3000000,2022-07-19,16.0,"Đường số 4, Phường 16, Quận 8, Hồ Chí Minh"
8,"Phòng 25m2 full tiện nghi Nguyễn Thiện Thuật, ...",4500000,2022-03-30,25.0,"Phố Nguyễn Thiện Thuật, Phường 1, Quận 3, Hồ C..."
9,Chính chủ cho thuê phòng 18m2 tai Đặng Văn Ngữ...,3000000,2020-11-05,18.0,"Đường Đặng Văn Ngữ, Phường 14, Quận Phú Nhuận,..."


>Due to address is too long, we will split it into 3 column: street, wart and district

In [27]:
def convert_address(address):
    addressSplit = address.split(',')
    if(len(addressSplit) != 4):
        return np.nan
    return address

HCMHouseRent['address'] = HCMHouseRent['address'].apply(lambda x: convert_address(x))
HCMHouseRent.dropna(inplace=True)

In [28]:
# split column 'address' to 'street', 'ward', 'district', 'city'
HCMHouseRent['street'] = HCMHouseRent['address'].apply(lambda x: x.split(',')[0])
HCMHouseRent['ward'] = HCMHouseRent['address'].apply(lambda x: x.split(',')[1])
HCMHouseRent['district'] = HCMHouseRent['address'].apply(lambda x: x.split(',')[len(x.split(','))-2])

# drop column 'address'
HCMHouseRent.drop(columns=['address'], inplace=True)
HCMHouseRent.shape

(8957, 7)

In [29]:
districts = HCMHouseRent['district'].unique()
districts

array([' Quận Bình Tân', ' Quận 7', ' Quận Phú Nhuận', ' Quận 3',
       ' Quận 8', ' Quận 6', ' Quận 4', ' Quận 10', ' Huyện Nhà Bè',
       ' Phú Nhuận', ' Quận 11', ' Quận 5', ' phường 8', ' Q.4', 'Quận 4',
       'quận 8', ' Q.8', ' phường 12', ' Q.11', ' Q.3', ' Quận Gò Vấp',
       ' Quận Gò Vấp', ' quận gò vấp', ' Quận 12', ' Quận 1',
       ' Phường Đông Hưng Thuận', ' Quận 9', ' quận 10',
       ' Quận 9 (có thể đi xe buýt', ' P.03', ' Quận Bình Thạnh', ' P.28',
       ' Q.Bình Tân', ' Quận Tân Bình', ' Quận Tân Phú', ' Huyện Củ Chi',
       ' Huyện Bình Chánh', ' Quận 2', ' P.Bình An', ' Huyện Củ aChi',
       ' Quận Thủ Đức', ' Linh Xuân', ' Q.Thủ Đức', ' Tam Phú',
       ' phường Bình Thọ', ' Q. Thủ Đức', ' Huyện Hóc Môn'], dtype=object)

In [30]:
districts_of_HCM = ['Quận 1', 'Quận 2', 'Quận 3', 'Quận 4', 'Quận 5', 'Quận 6', 'Quận 7', 'Quận 8', 'Quận 9', 'Quận 10', 'Quận 11', 'Quận 12', \
                    'Quận Bình Tân', 'Quận Bình Thạnh', 'Quận Gò Vấp', 'Quận Phú Nhuận', 'Quận Tân Bình', 'Quận Tân Phú', 'Quận Thủ Đức', 'Huyện Bình Chánh', 'Huyện Cần Giờ', 'Huyện Củ Chi', 'Huyện Hóc Môn', 'Huyện Nhà Bè']
districts_error_value = ['P.', 'phường', 'Phường']
districts_wrong_value = ['Q.', 'q.', 'quận']

def check_district_error(district_param):
   for error_value in districts_error_value:
      if error_value in district_param:
         return False
   return True
   
def handle_district_wrong(district_param):
   for wrong_value in districts_wrong_value:
       if wrong_value in district_param:
            district_param = district_param.replace(wrong_value, 'Quận ')
            return district_param
         
HCMHouseRent['district'] = HCMHouseRent['district'].apply(lambda x: x if check_district_error(x) else np.nan)
HCMHouseRent.dropna(inplace=True)
HCMHouseRent['district'] = HCMHouseRent['district'].apply(lambda x: handle_district_wrong(x) if handle_district_wrong(x) else x)
HCMHouseRent.dropna(inplace=True)
HCMHouseRent['district'] = HCMHouseRent['district'].apply(lambda x: ' '.join(x.split()))
HCMHouseRent['district'].unique()

array(['Quận Bình Tân', 'Quận 7', 'Quận Phú Nhuận', 'Quận 3', 'Quận 8',
       'Quận 6', 'Quận 4', 'Quận 10', 'Huyện Nhà Bè', 'Phú Nhuận',
       'Quận 11', 'Quận 5', 'Quận Gò Vấp', 'Quận Gò Vấp', 'Quận gò vấp',
       'Quận 12', 'Quận 1', 'Quận 9', 'Quận 9 (có thể đi xe buýt',
       'Quận Bình Thạnh', 'Quận Tân Bình', 'Quận Tân Phú', 'Huyện Củ Chi',
       'Huyện Bình Chánh', 'Quận 2', 'Huyện Củ aChi', 'Quận Thủ Đức',
       'Linh Xuân', 'Tam Phú', 'Huyện Hóc Môn'], dtype=object)

#### ***Fixing invalid value in District column***

In [31]:
def replace_district(a,b):
    HCMHouseRent['district'].replace(a,b,inplace=True)

replace_district('Phú Nhuận', 'Quận Phú Nhuận')
replace_district('Huyện Củ aChi','Huyện Củ Chi')
replace_district('Quận 9 (có thể đi xe buýt','Quận 9')
replace_district('Quận gò vấp','Quận Gò Vấp')
replace_district('Quận Gò Vấp','Quận Gò Vấp')
HCMHouseRent.drop(HCMHouseRent[HCMHouseRent['district'] == 'Tam Phú'].index, inplace=True)
HCMHouseRent.drop(HCMHouseRent[HCMHouseRent['district'] == 'Linh Xuân'].index, inplace=True)

HCMHouseRent['district'].unique()

array(['Quận Bình Tân', 'Quận 7', 'Quận Phú Nhuận', 'Quận 3', 'Quận 8',
       'Quận 6', 'Quận 4', 'Quận 10', 'Huyện Nhà Bè', 'Quận 11', 'Quận 5',
       'Quận Gò Vấp', 'Quận 12', 'Quận 1', 'Quận 9', 'Quận Bình Thạnh',
       'Quận Tân Bình', 'Quận Tân Phú', 'Huyện Củ Chi',
       'Huyện Bình Chánh', 'Quận 2', 'Quận Thủ Đức', 'Huyện Hóc Môn'],
      dtype=object)

#### ***Fixing invalid value in Ward column***

In [32]:
HCMHouseRent['ward'].unique()

array([' Phường Tân Tạo', ' Phường Tân Thuận Đông', ' Phường 14',
       ' Phường 1', ' Phường 16', ' Phường 18', ' Phường Tân Quy',
       ' P.18', ' Phường 15', ' Xã Phước Lộc', ' Phường 13',
       ' Phường Tân Phú', ' Phường 17', ' Tân Phú',
       ' Phường Tân Thuận Tây', ' Xã Phước Kiển', ' Xã Long Thới',
       ' Thị trấn Nhà Bè', ' Phường Hiệp Phước', ' Xã Phú Xuân',
       ' Xã Nhơn Đức', ' Phường 12', ' Phường 8', ' Phường 4',
       ' Phường 11', ' Phường 9', ' 9', ' Phường 6', ' Phường 10',
       ' Phường 7', ' Phường 3', ' 6', ' P.1', ' Phường 2', ' 1',
       ' Phường 5', ' P15', ' Phường Tân Tạo A', ' Tân Tạo A',
       'phường 13', ' 11', ' P.7', ' 8', ' P.9', ' P4', 'Phường 5',
       ' P.16', ' 2', ' P.11', ' phường 13', ' p3', ' P.5',
       ' Phường Đông Hưng Thuận', ' Phường Thạnh Lộc',
       ' Phường Nguyễn Thái Bình', ' Nguyễn Thái Bình',
       ' Phường An Phú Đông', ' Phường Cô Giang', ' Phường Hiệp Thành',
       ' Phường Nguyễn Cư Trinh', ' Phường Đa Kao', 

In [33]:
def replace_ward(a,b):
    HCMHouseRent['ward'].replace(a,b,inplace=True)
    
# districts_error_value
HCMHouseRent['ward'] = HCMHouseRent['ward'].apply(lambda x: ' '.join(x.split()))
import re 
# HCMHouseRent['ward'] = HCMHouseRent['ward'].apply(lambda x: re.sub(r'P.', 'Phường', x))
# if '6' (number) to add 'Phường' before
# HCMHouseRent['ward'] = HCMHouseRent['ward'].apply(lambda x: re.sub(r'([0-9])', 'Phường', x))
# districts_wrong_value = ['P.', 'phường']

regex = re.compile(r'([Pp]\.?)([0-9])')
HCMHouseRent['ward'] = HCMHouseRent['ward'].apply(lambda x: regex.sub(r'Phường \2', x))
# if only number , 1 -> Phường 1
regex = re.compile(r'([0-9])')
HCMHouseRent['ward'] = HCMHouseRent['ward'].apply(lambda x: x.replace(x, 'Phường ' + x) if regex.match(x) else x)

# ward 1
replace_ward('Bến Nghé', 'Phường Bến Nghé')
replace_ward('Cầu Ông Lãnh', 'Phường Cầu Ông Lãnh')
replace_ward('Đa Kao', 'Phường Đa Kao')
replace_ward('Nguyễn Thái Bình', 'Phường Đa Kao')

# district 2
replace_ward('Bình Khánh', 'Phường Bình Khánh')

# district 7
replace_ward('Tân Phú', 'Phường Tân Phú')

# Hóc môn
replace_ward('ấp 1 Xã Đông Thạnh', 'Xã Đông Thạnh')
replace_ward('Phường Bà Điểm', 'Xã Đông Thạnh')

In [34]:
# loop all districts
districts_of_HCM_current = HCMHouseRent['district'].unique()
for districts_of_HCM_current_item in districts_of_HCM_current:
    districts_i = HCMHouseRent.groupby('district')['ward'].unique().reset_index()
    print(districts_of_HCM_current_item + ': ')
    print(districts_i[districts_i['district'] == districts_of_HCM_current_item].values[0][1])
    print('\n---------------------------------------------\n')

Quận Bình Tân: 
['Phường Tân Tạo' 'Phường Tân Tạo A' 'Tân Tạo A' 'Phường Bình Trị Đông B'
 'Bình Trị Đông B' 'Phường Bình Trị Đông' 'Phường An Lạc'
 'Phường An Lạc A' 'P.Tân Tạo A' 'Phường Bình Trị Đông A'
 'Phường Bình Hưng Hòa A' 'Phường Bình Hưng Hòa B' 'Phường Bình Hưng Hòa']

---------------------------------------------

Quận 7: 
['Phường Tân Thuận Đông' 'Phường Tân Quy' 'Phường Tân Phú'
 'Phường Tân Thuận Tây' 'Phường Phú Mỹ' 'Phường Bình Thuận'
 'Phường Tân Hưng' 'Phường Tân Phong' 'Phường Tân Kiểng'
 'Phường Phú Thuận']

---------------------------------------------

Quận Phú Nhuận: 
['Phường 14' 'Phường 15' 'Phường 17' 'Phường 8' 'Phường 11' 'Phường 10'
 'Phường 9' 'Phường 7' 'Phường 12' 'Phường 13' 'Phường 6' 'Phường 1'
 'Phường 3' 'Phường 4' 'Phường 5' 'Phường 2']

---------------------------------------------

Quận 3: 
['Phường 1' 'Phường 13' 'Phường 9' 'Phường 8' 'Phường 2' 'Phường 7'
 'Phường 10' 'Phường 4' 'Phường 5' 'Phường 6' 'Phường 3' 'Phường 12'
 'Phường 14' 'Phườn

> I will delete the row that has price < 500k and area is 0 m2

In [35]:
# drop price < 500000
HCMHouseRent.drop(HCMHouseRent[HCMHouseRent['price'] < 500000].index, inplace=True)
print(HCMHouseRent[HCMHouseRent['price'] < 500000].shape)


# drop acreage = 0
HCMHouseRent.drop(HCMHouseRent[HCMHouseRent['acreage'] == 0].index, inplace=True)
print(HCMHouseRent[HCMHouseRent['acreage'] == 0].shape)

# drop acreage < 5
HCMHouseRent.drop(HCMHouseRent[HCMHouseRent['acreage'] < 5].index, inplace=True)
print(HCMHouseRent[HCMHouseRent['acreage'] < 5].shape)


(0, 7)
(0, 7)
(0, 7)


In [36]:
HCMHouseRent.shape

(8877, 7)

In [37]:
# add column id 
HCMHouseRent.insert(0, 'id', range(0, 0 + len(HCMHouseRent)))
HCMHouseRent['price'].max()

150000000

In [38]:
HCMHouseRent.to_csv('../data/HCMHouseRentPreprocessing.csv', index=False)