In [112]:
import pandas as pd
import numpy as np

from tabulate import tabulate
import zipfile
import kaggle

import re

In [113]:
!kaggle datasets download -d ladcva/vietnam-housing-dataset-hanoi

vietnam-housing-dataset-hanoi.zip: Skipping, found more recently modified local copy (use --force to force download)


In [114]:
zipfile_name = "vietnam-housing-dataset-hanoi.zip"

with zipfile.ZipFile(zipfile_name,"r") as file:
    file.extractall()

In [115]:
data = pd.read_csv("VN_housing_dataset.csv")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 82497 entries, 0 to 82496
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       82496 non-null  float64
 1   Ngày             82496 non-null  object 
 2   Địa chỉ          82449 non-null  object 
 3   Quận             82495 non-null  object 
 4   Huyện            82449 non-null  object 
 5   Loại hình nhà ở  82465 non-null  object 
 6   Giấy tờ pháp lý  53610 non-null  object 
 7   Số tầng          36399 non-null  object 
 8   Số phòng ngủ     82458 non-null  object 
 9   Diện tích        82495 non-null  object 
 10  Dài              19827 non-null  object 
 11  Rộng             35445 non-null  object 
 12  Giá/m2           82484 non-null  object 
dtypes: float64(1), object(12)
memory usage: 8.2+ MB


In [116]:
data.head()

Unnamed: 0.1,Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
0,0.0,2020-08-05,"Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận C...",Quận Cầu Giấy,Phường Nghĩa Đô,"Nhà ngõ, hẻm",Đã có sổ,4.0,5 phòng,46 m²,,,"86,96 triệu/m²"
1,1.0,2020-08-05,"Đường Kim Giang, Phường Kim Giang, Quận Thanh ...",Quận Thanh Xuân,Phường Kim Giang,"Nhà mặt phố, mặt tiền",,,3 phòng,37 m²,,,"116,22 triệu/m²"
2,2.0,2020-08-05,"phố minh khai, Phường Minh Khai, Quận Hai Bà T...",Quận Hai Bà Trưng,Phường Minh Khai,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,40 m²,10 m,4 m,65 triệu/m²
3,3.0,2020-08-05,"Đường Võng Thị, Phường Thụy Khuê, Quận Tây Hồ,...",Quận Tây Hồ,Phường Thụy Khuê,"Nhà ngõ, hẻm",Đã có sổ,,6 phòng,51 m²,12.75 m,4 m,100 triệu/m²
4,4.0,2020-08-05,"Đường Kim Giang, Phường Kim Giang, Quận Thanh ...",Quận Thanh Xuân,Phường Kim Giang,"Nhà ngõ, hẻm",,,4 phòng,36 m²,9 m,4 m,"86,11 triệu/m²"


In [117]:
data.drop("Unnamed: 0",axis=1,inplace=True)

In [118]:
print(f"The dataset contains {data.duplicated().sum()} duplicates")
data.drop_duplicates(inplace=True)

The dataset contains 815 duplicates


In [119]:
def col_order(data,col,des):
    col_index=data.columns.get_loc(des)
    data.insert(col_index,col,data.pop(col))

In [120]:
def check(data):
    dict={}
    for col in data.columns:
        dtype = data[col].dtypes
        valid_instances = data[col].count()
        unique = data[col].nunique()
        null_count = data[col].isnull().sum()
        pct_null = data[col].isnull().sum()/len(data)
        duplicates = data[col].duplicated().sum()
        dict[col] = dtype,valid_instances,unique,null_count,pct_null,duplicates
        data_check = pd.DataFrame(dict, index=["dtype","valid_instances","unique","sum_null","pct_null","duplicates"]).T
    return data_check

check(data)

Unnamed: 0,dtype,valid_instances,unique,sum_null,pct_null,duplicates
Ngày,object,81681,174,1,1.2e-05,81507
Địa chỉ,object,81634,13957,48,0.000588,67724
Quận,object,81680,29,2,2.4e-05,81652
Huyện,object,81634,309,48,0.000588,81372
Loại hình nhà ở,object,81650,4,32,0.000392,81677
Giấy tờ pháp lý,object,53260,3,28422,0.347959,81678
Số tầng,object,36219,29,45463,0.556585,81652
Số phòng ngủ,object,81643,11,39,0.000477,81670
Diện tích,object,81680,504,2,2.4e-05,81177
Dài,object,19748,487,61934,0.758233,81194


In [121]:
def check_unique(data):
    nunique=data.apply(lambda col: col.nunique())
    unique_values = data.apply(lambda col: col.unique())
    data_check = pd.DataFrame({'uni_count': nunique, 'unique_values': unique_values})
    return data_check

check_unique(data)

Unnamed: 0,uni_count,unique_values
Ngày,174,"[2020-08-05, 2020-08-04, 2020-08-03, 2020-08-0..."
Địa chỉ,13957,"[Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận ..."
Quận,29,"[Quận Cầu Giấy, Quận Thanh Xuân, Quận Hai Bà T..."
Huyện,309,"[Phường Nghĩa Đô, Phường Kim Giang, Phường Min..."
Loại hình nhà ở,4,"[Nhà ngõ, hẻm, Nhà mặt phố, mặt tiền, Nhà biệt..."
Giấy tờ pháp lý,3,"[Đã có sổ, nan, Đang chờ sổ, Giấy tờ khác]"
Số tầng,29,"[4, nan, 6, 5, 7, 2, 3, 8, 1, 9, 50, 38, 35, 1..."
Số phòng ngủ,11,"[5 phòng, 3 phòng, 4 phòng, 6 phòng, nhiều hơn..."
Diện tích,504,"[46 m², 37 m², 40 m², 51 m², 36 m², 52 m², 32 ..."
Dài,487,"[nan, 10 m, 12.75 m, 9 m, 12.1 m, 12 m, 13 m, ..."


There are a total of 13 columns, in which a number of attributes, which can be indicative of each such as address-related ones, can be considered to be excluded from any null-value-removal decisions

In [122]:
data[data.isnull().sum(axis=1)>=10]

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
82496,,,,,,,,,,,,


Drop all rows whose null values count accounts for more than 50% of total attributes

In [123]:
total_na_drop = (data.isnull().sum(axis=1)>6).sum()
data.drop(data[data.isnull().sum(axis=1)>6].index,inplace=True)

In [124]:
data[data[["Quận","Huyện"]].isnull().sum(axis=1)==2]

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
48418,2020-07-03,"68, Ngọc Hồi, Hà Nội",,,"Nhà ngõ, hẻm",Đã có sổ,,2 phòng,71 m²,6 m,6 m,43 triệu/m²


In [125]:
data.loc[48418,"Huyện"] = re.search(r"^(.*?), (.*?), (.*?)$",data.loc[48418,"Địa chỉ"])[2]
data.loc[48418,"Quận"] = "Thanh Trì"
data.loc[48418]

Ngày                         2020-07-03
Địa chỉ            68, Ngọc Hồi, Hà Nội
Quận                          Thanh Trì
Huyện                          Ngọc Hồi
Loại hình nhà ở            Nhà ngõ, hẻm
Giấy tờ pháp lý                Đã có sổ
Số tầng                             NaN
Số phòng ngủ                    2 phòng
Diện tích                         71 m²
Dài                                 6 m
Rộng                                6 m
Giá/m2                      43 triệu/m²
Name: 48418, dtype: object

In [109]:
# Original way with normal API Process

import googlemaps
import win32com.client as win32

API_KEY = "MY API KEY"
map_client = googlemaps.Client(API_KEY)

def replace_address(data,add_col):

    for i in data.index:
        if not pd.isna(data.loc[i, add_col]): 
            location_name = data.loc[i, add_col]
        elif pd.isna(data.loc[i, add_col]) and not pd.isna(data.loc[i, "Huyện"]):
            location_name = data.loc[i, "Huyện"]
        else:
            continue
        response = map_client.places(query=location_name)

        if response['status'] == 'OK':
            places = response['results']
            place=places[0]
            name = place['name']
            address = place.get('formatted_address', 'Address not available')
            print(f"id: {i}, Query:{location_name}, Name: {name}, Address: {address}")
            data.loc[data[add_col]==location_name,add_col]=address
        else:
            print("No places found or error occurred:", response['status'])


df_replace_add = data[data[["Huyện","Quận"]].isnull().sum(axis=1)==1]
replace_address(df_replace_add,"Địa chỉ")

id: 324, Query:Đường An Dương Vương, Quận Tây Hồ, Hà Nội, Name: An Dương Vương, Address: An Dương Vương, Tây Hồ, Hà Nội, Vietnam
id: 741, Query:Cầu Khê Tang, Quận Hà Đông, Hà Nội, Name: Cầu Khê Tang, Address: Cầu Khê Tang, Cự Khê, Thanh Oai, Hà Nội, Vietnam
id: 29300, Query:Đường Cầu Giấy, Quận Cầu Giấy, Hà Nội, Name: Đ. Cầu Giấy, Address: Đ. Cầu Giấy, Cầu Giấy, Hà Nội, Vietnam
id: 35553, Query:Đường Thịnh Hào 3, Quận Đống Đa, Hà Nội, Name: Ng. Thịnh Hào 3, Address: Ng. Thịnh Hào 3, Hàng Bột, Đống Đa, Hà Nội, Vietnam


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data.loc[data[add_col]==location_name,add_col]=address


id: 40906, Query:Đường Kim Giang, Quận Thanh Xuân, Hà Nội, Name: Đ. Kim Giang, Address: Đ. Kim Giang, Thanh Xuân, Hà Nội, Vietnam
id: 46176, Query:Đ. Cầu Giấy, Cầu Giấy, Hà Nội, Vietnam, Name: Đ. Cầu Giấy, Address: Đ. Cầu Giấy, Cầu Giấy, Hà Nội, Vietnam
id: 52185, Query:Trung Kính - Cầu Giấy, Quận Cầu Giấy, Hà Nội, Name: P. Trung Kính, Address: P. Trung Kính, Cầu Giấy, Hà Nội, Vietnam
id: 54426, Query:Đường Trần Duy Hưng, Quận Cầu Giấy, Hà Nội, Name: Đ. Trần Duy Hưng, Address: Đ. Trần Duy Hưng, Cầu Giấy, Hà Nội, Vietnam
id: 58641, Query:Đường Bùi Xương Trạch, Quận Thanh Xuân, Hà Nội, Name: P.Khương Trung & P. Bùi Xương Trạch, Address: P.Khương Trung & P. Bùi Xương Trạch, Khương Đình, Thanh Xuân, Hà Nội, Vietnam
id: 61781, Query:Đường Tôn Thất Tùng, Quận Đống Đa, Hà Nội, Name: Đ. Trường Chinh & P. Tôn Thất Tùng, Address: Đ. Trường Chinh & P. Tôn Thất Tùng, Khương Mai, Thanh Xuân, Hà Nội, Vietnam
id: 62059, Query:Đường Hồ Tùng Mậu||821, Quận Cầu Giấy, Hà Nội, Name: Đ. Hồ Tùng Mậu, Addr

In [72]:
df_replace_add.head()

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
174,2020-08-04,,Quận Nam Từ Liêm,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,1 đ/m²
324,2020-08-04,"An Dương Vương, Tây Hồ, Hà Nội, Vietnam",Quận Tây Hồ,,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,77 m²,11 m,7 m,"97,4 triệu/m²"
741,2020-08-04,"Cầu Khê Tang, Cự Khê, Thanh Oai, Hà Nội, Vietnam",Quận Hà Đông,,"Nhà ngõ, hẻm",,,3 phòng,36 m²,,,"43,06 triệu/m²"
4558,2020-08-03,,Huyện Hoài Đức,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,"16,67 triệu/m²"
5282,2020-08-02,,Quận Long Biên,,"Nhà ngõ, hẻm",,,3 phòng,35 m²,,,2 đ/m²


In [18]:
# Faster Batch API using concurrent.futures.ThreadPoolExecutor to define threads working simultaneously
'''
import os
import googlemaps
import concurrent.futures

API_KEY = "AIzaSyCxl2uTCGNjDLSY3I18sJKfJ_9VVtE4Itk" 
map_client = googlemaps.Client(API_KEY)

def replace_address(data, add_col, batch_size=100, max_workers=8):
    def process_batch(batch_data):
        for i in batch_data.index:
            location_name = batch_data.loc[i, add_col]
            response = map_client.places(query=location_name)

            if response['status'] == 'OK':
                places = response['results']
                place = places[0] if places else None
                name = place['name'] if place else None
                address = place.get('formatted_address', 'Address not available') if place else 'Address not available'
                print(f"Query: {location_name}, Name: {name}, Address: {address}")
                data.loc[data[add_col] == location_name, add_col] = address
            else:
                print("No places found or error occurred:", response['status'])

    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        for start in range(0, len(data), batch_size):
            end = min(start + batch_size, len(data))
            batch_data = data.iloc[start:end]
            executor.submit(process_batch, batch_data)
'''

In [39]:
data.update(df_replace_add)
data.head()

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
0,2020-08-05,"Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận C...",Quận Cầu Giấy,Phường Nghĩa Đô,"Nhà ngõ, hẻm",Đã có sổ,4.0,5 phòng,46 m²,,,"86,96 triệu/m²"
1,2020-08-05,"Đường Kim Giang, Phường Kim Giang, Quận Thanh ...",Quận Thanh Xuân,Phường Kim Giang,"Nhà mặt phố, mặt tiền",,,3 phòng,37 m²,,,"116,22 triệu/m²"
2,2020-08-05,"phố minh khai, Phường Minh Khai, Quận Hai Bà T...",Quận Hai Bà Trưng,Phường Minh Khai,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,40 m²,10 m,4 m,65 triệu/m²
3,2020-08-05,"Đường Võng Thị, Phường Thụy Khuê, Quận Tây Hồ,...",Quận Tây Hồ,Phường Thụy Khuê,"Nhà ngõ, hẻm",Đã có sổ,,6 phòng,51 m²,12.75 m,4 m,100 triệu/m²
4,2020-08-05,"Đường Kim Giang, Phường Kim Giang, Quận Thanh ...",Quận Thanh Xuân,Phường Kim Giang,"Nhà ngõ, hẻm",,,4 phòng,36 m²,9 m,4 m,"86,11 triệu/m²"


In [40]:
data.iloc[df_replace_add.index,:]

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
174,2020-08-04,,Quận Nam Từ Liêm,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,1 đ/m²
324,2020-08-04,"An Dương Vương, Tây Hồ, Hà Nội, Vietnam",Quận Tây Hồ,,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,77 m²,11 m,7 m,"97,4 triệu/m²"
741,2020-08-04,"Cầu Khê Tang, Cự Khê, Thanh Oai, Hà Nội, Vietnam",Quận Hà Đông,,"Nhà ngõ, hẻm",,,3 phòng,36 m²,,,"43,06 triệu/m²"
4595,2020-08-03,"Đường Trần Phú, Phường Văn Quán, Quận Hà Đông,...",Quận Hà Đông,Phường Văn Quán,"Nhà ngõ, hẻm",,,4 phòng,65 m²,,,"50,31 triệu/m²"
5323,2020-08-02,"Đường Tam Trinh||1016, Phường Mai Động, Quận H...",Quận Hoàng Mai,Phường Mai Động,"Nhà ngõ, hẻm",Đã có sổ,5.0,3 phòng,30 m²,6 m,5.9 m,90 triệu/m²
5336,2020-08-02,"dương văn bé, Phường Vĩnh Hưng, Quận Hoàng Mai...",Quận Hoàng Mai,Phường Vĩnh Hưng,"Nhà ngõ, hẻm",,,nhiều hơn 10 phòng,54 m²,,5 m,"92,59 triệu/m²"
7228,2020-08-01,"Đường Bạch Mai, Phường Bạch Mai, Quận Hai Bà T...",Quận Hai Bà Trưng,Phường Bạch Mai,"Nhà ngõ, hẻm",Đã có sổ,,5 phòng,40 m²,,,"87,5 triệu/m²"
8644,2020-07-31,"Đường Định Công, Phường Định Công, Quận Hoàng ...",Quận Hoàng Mai,Phường Định Công,"Nhà mặt phố, mặt tiền",Đã có sổ,5.0,5 phòng,66 m²,13.5 m,5 m,"123,48 triệu/m²"
12679,2020-07-29,"Đường Bùi Xương Trạch, Phường Khương Đình, Quậ...",Quận Thanh Xuân,Phường Khương Đình,"Nhà ngõ, hẻm",Đã có sổ,,5 phòng,36 m²,,41 m,"105,56 triệu/m²"
14642,2020-07-28,Đường Đê Trần Khát Chân,Quận Hai Bà Trưng,Phường Thanh Lương,"Nhà ngõ, hẻm",,3.0,2 phòng,30 m²,,,"83,33 triệu/m²"


In [58]:
data[data[["Huyện","Quận"]].isnull().sum(axis=1)==1]

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
174,2020-08-04,,Quận Nam Từ Liêm,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,1 đ/m²
324,2020-08-04,"Đường An Dương Vương, Quận Tây Hồ, Hà Nội",Quận Tây Hồ,,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,77 m²,11 m,7 m,"97,4 triệu/m²"
741,2020-08-04,"Cầu Khê Tang, Quận Hà Đông, Hà Nội",Quận Hà Đông,,"Nhà ngõ, hẻm",,,3 phòng,36 m²,,,"43,06 triệu/m²"
4558,2020-08-03,,Huyện Hoài Đức,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,"16,67 triệu/m²"
5282,2020-08-02,,Quận Long Biên,,"Nhà ngõ, hẻm",,,3 phòng,35 m²,,,2 đ/m²
5295,2020-08-02,,Quận Long Biên,,"Nhà ngõ, hẻm",,,3 phòng,35 m²,,,"2,14 triệu/m²"
7169,2020-08-01,,Huyện Thanh Trì,,"Nhà ngõ, hẻm",,,1 phòng,50 m²,,,60 triệu/m²
8584,2020-07-31,,Quận Thanh Xuân,,"Nhà ngõ, hẻm",Đã có sổ,5.0,4 phòng,33 m²,,4.1 m,"90,91 triệu/m²"
12595,2020-07-29,,Quận Hà Đông,,"Nhà ngõ, hẻm",,,2 phòng,40 m²,,,"27,5 triệu/m²"
14548,2020-07-28,,Quận Hà Đông,,"Nhà ngõ, hẻm",,,3 phòng,40 m²,,,25 triệu/m²


In [56]:
data.loc[df_replace_add.index,"Địa chỉ"].apply(lambda x: x.split(',')[-3]
                   if isinstance(x,str) else x)

174                           NaN
324          Đường An Dương Vương
741                  Cầu Khê Tang
4558                          NaN
5282                          NaN
5295                          NaN
7169                          NaN
8584                          NaN
12595                         NaN
14548                         NaN
15055                         NaN
21214                         NaN
23168                         NaN
27282                         NaN
27349                         NaN
29300              Đường Cầu Giấy
32881                         NaN
35553           Đường Thịnh Hào 3
40593                         NaN
40906             Đường Kim Giang
41192                         NaN
44262                         NaN
46176              Đường Cầu Giấy
46765                         NaN
49338                         NaN
52185       Trung Kính - Cầu Giấy
54426         Đường Trần Duy Hưng
54859                         NaN
55087                         NaN
58641       Đư

In [48]:
address = "Ng. Thịnh Hào 3, Hàng Bột, Đống Đa, Hà Nội, Vietnam"
substrings = address.split(',')
"Quận"+substrings[-3]

'Quận Đống Đa'

In [20]:
data[data[["Huyện","Quận"]].isnull().sum(axis=1)==1].head()

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
174,2020-08-04,,Quận Nam Từ Liêm,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,1 đ/m²
324,2020-08-04,"Đường An Dương Vương, Quận Tây Hồ, Hà Nội",Quận Tây Hồ,,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,77 m²,11 m,7 m,"97,4 triệu/m²"
741,2020-08-04,"Cầu Khê Tang, Quận Hà Đông, Hà Nội",Quận Hà Đông,,"Nhà ngõ, hẻm",,,3 phòng,36 m²,,,"43,06 triệu/m²"
4558,2020-08-03,,Huyện Hoài Đức,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,"16,67 triệu/m²"
5282,2020-08-02,,Quận Long Biên,,"Nhà ngõ, hẻm",,,3 phòng,35 m²,,,2 đ/m²


In [24]:
data[~data["Địa chỉ"].fillna("Unknown").str.contains("Hà Nội",case=False)]

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
103,2020-08-04,Đường Bằng B,Quận Hoàng Mai,Phường Hoàng Liệt,"Nhà mặt phố, mặt tiền",Đã có sổ,5,4 phòng,44 m²,,4 m,"89,77 triệu/m²"
150,2020-08-04,Ngõ 463 - Đường Đội Cấn,Quận Ba Đình,Phường Đội Cấn,"Nhà ngõ, hẻm",Đã có sổ,,3 phòng,27 m²,8.7 m,3.1 m,"166,67 triệu/m²"
174,2020-08-04,,Quận Nam Từ Liêm,,"Nhà ngõ, hẻm",,,1 phòng,30 m²,,,1 đ/m²
504,2020-08-04,Đường Lưu Hữu Phước,Quận Nam Từ Liêm,Phường Mỹ Đình 1,Nhà biệt thự,Đã có sổ,4,6 phòng,138 m²,,12 m,"177,54 triệu/m²"
523,2020-08-04,ngõ 252/7 ngọc thuỵ long biên,Quận Long Biên,Phường Ngọc Thụy,"Nhà ngõ, hẻm",Đã có sổ,5,3 phòng,36 m²,9 m,4 m,"88,89 triệu/m²"
...,...,...,...,...,...,...,...,...,...,...,...,...
75251,2020-06-11,,Huyện Thanh Trì,Xã Đông Mỹ,"Nhà ngõ, hẻm",,,2 phòng,35 m²,,,20 triệu/m²
75821,2020-06-11,,Quận Ba Đình,,"Nhà ngõ, hẻm",,,1 phòng,35 m²,,,"17,14 triệu/m²"
76294,2020-06-11,,Quận Long Biên,Phường Ngọc Thụy,"Nhà mặt phố, mặt tiền",,,3 phòng,35 m²,,,80 triệu/m²
76668,2020-06-10,,Quận Ba Đình,,"Nhà ngõ, hẻm",,,2 phòng,30 m²,,,"28,33 triệu/m²"


In [111]:
import re 
pattern = r"(<= )(.*?)m²$"
data["Giá/m2"]=data["Giá/m2"].apply(lambda x: re.sub(pattern,"",))

TypeError: sub() missing 1 required positional argument: 'string'

In [None]:
import re 
pattern = r"(?<= )(.*?)m²$"
data["Giá/m2"].apply(lambda x:  re.sub(pattern,"", x.replace(",",".",)) if isinstance(x,str) else x).astype("float")

ValueError: could not convert string to float: '2.222.22220022 '

In [None]:
data["Giá/m2"][data["Giá/m2"].str.contains("triệu/m²")==False]

93       247.787 đ/m²
174            1 đ/m²
283       90.476 đ/m²
338      178.571 đ/m²
351      125.000 đ/m²
             ...     
82294     59.183 đ/m²
82316     85.555 đ/m²
82325     86.842 đ/m²
82344     69.565 đ/m²
82349    105.714 đ/m²
Name: Giá/m2, Length: 858, dtype: object