In [3]:
import json
import pandas as pd
from pymongo import MongoClient
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sentence_transformers import SentenceTransformer
import numpy as np



  from .autonotebook import tqdm as notebook_tqdm


# Read data from DB

In [4]:

# MongoDB connection setup
mongo_uri = "mongodb://dev-valuemind:W57mFPVT57lt3wU@10.10.0.42:27021/?replicaSet=rs0&directConnection=true&authSource=assets-valuemind"

# Connect to MongoDB and fetch documents
client = MongoClient(mongo_uri)
db = client["assets-valuemind"]
# collection = db["test-dim"]
collection = db["data-24-25"]
data_from_mongo = list(collection.find({}))  # You can add filters here if needed


In [5]:
# data_from_mongo

In [6]:
from datetime import datetime

def safe_parse_float(val):
    if isinstance(val, (int, float)):
        return float(val)
    if isinstance(val, datetime):
        return float('nan')  # or val.timestamp() if you really want a number
    try:
        return float(str(val).strip())
    except (ValueError, TypeError):
        return float('nan')


In [7]:
count = 0
records = []

for datapoint in data_from_mongo:
    count += 1
    # print(f"datapoint:\n{datapoint}\n")
    fileRepo = datapoint.get("fileRepo")

    compare_list = datapoint.get("assetsCompareManagements", [])
    # print(f"compare_list:\n{len(compare_list)}\n")

    for item in compare_list:
        
        am = item.get("assetsManagement", {})
        # print(f"am:\n {am}\n")
        basic_info = am.get("basicAssetsInfo", {})
        # print(f"basic_info:\n{len(basic_info)}\n")
        geo = am.get("geoJsonPoint", {})
        

        record = {
            # "profileId": item.get("profileId"),
            # "assetsCompareId": item.get("assetsCompareId"),
            'address': basic_info.get("basicAddressInfo", {'fullAddress': 'placeholder_string'}).get("fullAddress"),
            "isCompare": item.get("isCompare", False),
            # "status": am.get("status"),
            "area": safe_parse_float(basic_info.get("area")),
            "width": safe_parse_float(basic_info.get("width")),
            "maxWidth": safe_parse_float(basic_info.get("max_width")),
            "height": safe_parse_float(basic_info.get("height")),
            "hasFacade": basic_info.get("facade", {}).get("has_facade"),
            "facade": basic_info.get("facade", {}).get("value"),
            "percentQuality": basic_info.get("percentQuality"),
            "landPrice": basic_info.get("landPrice"),
            "lat": geo.get("coordinates", [np.nan, np.nan])[0],
            "lon": geo.get("coordinates", [np.nan, np.nan])[1],
            "legalStatus": item.get("legalStatus", {}).get("description"),
            "location": item.get("location", {}).get("description"),
            "traffic": item.get("traffic", {}).get("description"),
            "population": item.get("population", {}).get("description"),
            "shape": item.get("shape", {}).get("description"),
            "other": item.get("other", {}).get("description"),
        }
        record["fileRepo"] = fileRepo
        records.append(record)

df = pd.DataFrame(records)
# print(df.head())

In [8]:
count

5417

In [9]:
print(df.columns)
df.shape

Index(['address', 'isCompare', 'area', 'width', 'maxWidth', 'height',
       'hasFacade', 'facade', 'percentQuality', 'landPrice', 'lat', 'lon',
       'legalStatus', 'location', 'traffic', 'population', 'shape', 'other',
       'fileRepo'],
      dtype='object')


(21668, 19)

In [10]:
df.head(5)

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,lat,lon,legalStatus,location,traffic,population,shape,other,fileRepo
0,"Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam...",False,1237.7,9.72,9.72,49.35,True,,1.0,,106.608976,10.881439,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
1,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,2253.0,33.0,33.0,60.0,True,,0.7,50367890.0,106.606883,10.884132,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
2,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,1190.0,13.0,13.0,67.0,True,,0.5,63766140.0,106.607203,10.883748,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
3,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,249.31,9.0,9.0,44.0,True,,0.7,80854600.0,106.61222,10.874442,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Vuông vức,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
4,"Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh N...",False,65.0,7.5,7.5,15.5,True,,1.0,,106.522981,10.870135,Có GCNQSDĐ,Mặt tiền đường số 17 (KDC Xuyên Á),"Đường nhựa rộng khoảng 8m, đường bên hông rộng...",0.0,Tương đối vuông vức,0.0,BDC||\\192.168.1.250\department\03. APPRAISAL\...


In [11]:
# df = df.drop_duplicates("fileRepo", keep="first")
# len(df)

# EDA

## Check present & missing values

In [12]:
sum(pd.isna(df["lon"]))

10131

In [13]:
sum(pd.isna(df["lat"]))

10131

In [14]:
for i in df["address"]:
    print(i)

Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM
Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM
Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM
Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM
Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh Nam, huyện Đức Hòa, tỉnh Long An
xã Mỹ Hạnh Nam, huyện Đức Hòa, tỉnh Long An
Thửa đất số 546, tờ bản đồ số 8, xã Mỹ Hạnh Nam, huyện Đức Hòa, tỉnh Long An
Thửa đất số 818, tờ bản đồ số 8, xã Mỹ Hạnh Nam, huyện Đức Hòa, tỉnh Long An
Thửa đất số 1474, tờ bản đồ số 20, ấp Tân Điền, xã Long Thượng, huyện Cần Giuộc, tỉnh Long An
Thửa đất số 1671, tờ bản đồ số 20, ấp Tân Điền, xã Long Thượng, huyện Cần Giuộc, tỉnh Long An
Thửa đất số 507, tờ bản đồ số 4, xã Long Thượng, huyện Cần Giuộc, tỉnh Long An
Thửa đất số 2233, tờ bản đồ số 20,  xã Long Thượng, huyện Cần Giuộc, tỉnh Long An
Thửa đất số 497, tờ bản đồ số 127 (Địa chỉ: Số 574/93/6 hẻm Sinco, phường Bình Trị Đông B, quận Bình Tân, thành phố Hồ Chí Minh)
Thửa đất số 423; 41, tờ bản đồ số 127, phường Bình 

In [15]:
# len(df[df["address"] == "no_name"])
len(df[df["address"] == 'nan'])


555

In [16]:
df = df[~df["address"].apply(lambda x: x == "no_name")]
len(df)

21664

In [17]:
print(f"number of unique values: {df["legalStatus"].nunique()}")
for i in (df["legalStatus"].unique()):
    print(i)

number of unique values: 38
Có GCN QSDĐ
Có GCNQSDĐ
nan
0.0
0
GCN QSDD
Hợp đồng mua bán
Hợp đồng mua bán, giá bán bao phí ra GCN QSDĐ
Hợp đồng mua bán (giá bán bao gồm 5% bao ra sổ)
Đã có GCN QSDĐ
GCN QSDĐ
Hợp đồng mua bán (giá bán bao gồm tất cả chi phí để cấp GCN QSDĐ)
Chưa có GCN QSDĐ
HĐMB
GCNQSDĐ
Hợp đồng mua bán (giá bán chưa bao gồm 5% bao ra sổ)
Giá bán bao gồm phí cấp GCN QSDĐ lâu dài
Chưa có GCN QSDĐ (giá bao gồm ra sổ)
HDMB
Có GCN QSDĐ, sau khi có CTXD và hạ tầng hoàn thiện
Có GCN QSDĐ sau khi có CTXD
Có GCN QSDĐ, chưa được phép giao dịch
Không có GCN QSDĐ, giao dịch Ủy quyền toàn quyền và di chúc
Hợp đồng mua bán (giá bán CHƯA bao gồm tất cả chi phí để cấp GCN QSDĐ)
Hợp đồng mua bán (giá ĐÃ bán bao gồm tất cả chi phí để cấp GCN QSDĐ)
None
Có GCN QSDĐ 
Sổ đỏ lâu dài
HĐMB (Bao thuế phí sang tên làm GCNQSDĐ)
Chưa có GCN QSDĐ 
Có GCN QSDĐ, đất thuê trả tiền một lần
Có GCN QSDĐ, đất giao
Không có GCNQSDĐ
Sổ đồng sở hữu, diện tích nhỏ chưa tách sổ được
1
Không có GCN 
HĐMB ( giá bá

In [18]:
print(f"number of unique values: {df["location"].nunique()}")
for i in (df["location"].unique()):
    print(i)

number of unique values: 7929
Mặt tiền đường Tô Ký
Mặt tiền đường số 17 (KDC Xuyên Á)
Mặt tiền đường số 2
Mặt tiền đường số 6
Mặt tiền đường số 10
Hẻm cụt của đường Lê Thị Ty
Đường nhánh cách đường Trần Thị Non 110m
Đường nhánh cách đường Trần Thị Non 450m
Hẻm xi măng
Hẻm Đường 3/2 (cách đường lớn khoảng 240m)
Hẻm Đường 823 (cách đường lớn khoảng 120m)
Hẻm đường QLN2 (cách đường lớn khoảng 240m)
Hẻm đường QLN2 (cách đường lớn khoảng 140m)
Cách đường Tô Vĩnh Diện khoảng 600m
Mặt tiền Rạch Ngã Bát, cách đường Tô Vĩnh Diện khoảng 180m
Mặt tiền Rạch Ngã Bát, cách đường Tô Vĩnh Diện khoảng 1,3km
Cách đường Tô Vĩnh Diện khoảng 130m
Mặt tiền đường DT756 (đoạn ngã tư đến ngã ba Suối Nghiên cách QL14 khoảng 2,8km
Mặt tiền đường DT756C
Mặt tiền đường DT756 (đoạn ngã ba Suối Nghiên đến ranh xã Tân Hưng, huyện Hớn Quản)
Mặt tiền đường Chu Mạnh Trinh, cách Lê Hồng Phong khoảng 600m
Mặt tiền đường Chu Mạnh Trinh, cách Lê Hồng Phong khoảng 40m
Mặt tiền đường Chu Mạnh Trinh, cách Lê Hồng Phong khoảng 

In [19]:
print(f"number of unique values: {df["population"].nunique()}")
for i in (df["population"].unique()):
    print(i)

number of unique values: 309
None
0
Dân cư tương đối
Dân cư đông đúc
Đông đúc
Tương đối đông đúc
Thưa thớt hơn
Dân cư tương đối đông hơn
Dân cư thưa thớt
Tương đối
thưa thớt
Thưa thớt
Tương đối 
nan
0.0
Đông đúc 
Đông đúc, khu vực tập trung các xưởng, nhà máy, công ty
Kém đông đúc
Đông đúc hơn TSTĐ
Đông đúc, khu vực tập trung các cơ sở kinh doanh lưu trú
Gần ngã ba Đồng Tâm, đối diện là Khu công nghiệp, thuận lợi kinh doanh
Sầm uất
Đa giác nhiều góc cạnh, tóp hậu
Dân cư tương đối, cách chợ Lương Sơn khoảng 4km
Dân cư tương đối, cách chợ thôn Hồng Lâm khoảng 2,1km
Dân cư tương đối, cách chợ thôn Hồng Lâm khoảng 3,2km
Tương đối thưa thớt
Dân cư thưa thớt, gần sân bay Phan Thiết
Dân cư tương đối, gần nghĩa trang
Nội thất cơ bản
Dân cư tương đối, gần nghĩa trang khoảng 100m
Dân cư tương đối, đối diện nghĩa trang
Căn thường, 3 mặt thoáng
Căn thường
Căn góc 2 mặt tiền đường
Gần Siêu thị, ngã tư đông đúc
Khá thưa thớt
Tương dối
Thuộc dự án Phúc An City - Block C2 (GĐ1)
GĐ2
Bình thường
Thuận l

In [20]:
print(f"number of unique values: {df["shape"].nunique()}")
for i in (df["shape"].unique()):
    print(i)

number of unique values: 448
Chữ T
Vuông vức
Tương đối vuông vức
Không vuông vức
Hình Phiễu
0
Hình chữ T, khoảng 55% đất bị che khuất
Đa giác nhiều góc cạnh
Đa giác
Tương đối
Chữ W
Chữ L
nan
Không vuông vức, một phần thửa đất bị che khuất
Hình đa giác, không vuông vức
0.0
Không vuông vức, tóp hậu
Tương đối vông vức
Hình chữ L
Tương đối vuông vức (Nở hậu)
Tương đối v uông vức
Hình đa giác nhiều góc cạnh
Hình đa giác
Nở hậu
Tương đối vuông vức, mặt tiền bị hẹp
Tương đối vuông vức, mặt tiền hẹp, phần đất phía sau bi khuất
Khá vuông vức
Hình đa giác tương đối vuông vức
Hình chữ L, tóp hậu
Hình đa giác, nở hậu
Đa giác nhiều góc cạnh, tóp hậu
Kém vuông vức
Hình chữ T
Đa giác, không vuông vức
Hình cổ chai
Không vuông vức, 1 phần đất bị che khuất
Tương đối vuông vức,  phần lớn đất bị che khuất
Tương đối vuông vức, phần lớn đất bị che khuất
Tương đối vuông vức  
vuông vức
Chữ L, tóp hậu
Hình đa giác, phần lớn đất bị che khuất
Đa giác (tóp hậu)
Hình chữ T, khoảng 90% đất bị che khuất
Hình chữ L,

In [21]:
print(f"number of unique values: {df["traffic"].nunique()}")
for i in (df["traffic"].unique()):
    print(i)

number of unique values: 2521
Đường nhựa rộng khoảng 13m
Đường nhựa rộng khoảng 8m, đường bên hông rộng khoảng 5m
Đường nhựa rộng khoảng 8m
Hẻm bê tông rộng khoảng 4m
Đường bê tông rộng khoảng 2m
Rộng khoảng 3,55m
Rộng khoảng
Đường đá xanh rộng 6m
Đường đá xanh rộng 4m
Đường bê tông rộng 3,5m
Đường bê tông rộng khoảng 4m
Đường nhựa rộng khoảng 12m
Đường nhựa rộng khoảng 6m
Đường nhựa rộng khoảng 7m
Rộng khoảng 7m (mỗi bên có lề đường rộng khoảng 5m)
Hẻm bê tông đi vào rộng khoảng 2,7m, trước TSTĐ rộng khoảng 5m
Hẻm bê tông rộng khoảng 3m
Hẻm bê tông rộng khoảng 2m
Hẻm bê tông rộng khoảng 2,5m
Đường nhựa rộng khoảng m
Đường nhựa rộng 6m
Đường nhựa rộng 5m
Đường nhựa xe hơi tránh
0
Rộng khoảng 7m
Rộng khoảng 3m
Đường nhựa rộng khoảng 5m, vỉa hè mỗi bên khoảng 2m
Đường nhựa rộng khoảng 5m, vỉa hè mỗi bên khoảng 2m, có hẻm hậu
Đường bê tông rông khoảng 3,5m
Đường nhựa rộng khoảng 4m
Đường nhựa rộng khoảng 3,5m 
Đường nhựa rộng khoảng 3-4m và đường nhựa rộng khoảng 2m (sau lưng) 
Đường nhựa

In [22]:
print(f"number of unique values: {df["other"].nunique()}")
for i in (df["other"].unique()):
    print(i)

number of unique values: 914
None
0
Bình thường
Không có
nan
QH SDĐ: ODT
QH XD: HNK
QH SDĐ: ODT, CLN
QH XD: Đất nhà ở liên kế xây dựng mới
QH SDĐ: CLN
QH XD: Đất công trình công cộng
Cách chùa khoảng 40m
Thời hạn sử dụng đến ngày 06/9/2054
Mặt tiền thụt, có khả năng gần khu mộ
Không  
Đất có đường điện bắt ngang
0.0
Gần cở sở tôn giáo
Ngay vòng xoay thuận tiện cho việc kinh doanh, mua bán sầm uất
Đất tương đối bằng phẳng, quy hoạch thổ cư
Khu vực cách nghĩa trang 100m
Đất chưa san nền
Đất đã san nền
QH đất TMDV Cổng trước Sân bay Long Thành
Quy hoạch CLN
Quy hoạch thổ cư
Không
Đối diện nghĩa trang
Gần nghĩa trang
Đất trống
Cách nghĩa trang khoảng 10m, quy hoạch đất hỗn hợp, hẻm cụt
Phần lớn đã san lấp bằng phẳng
Chưa san lấp, mục đích để trồng cây
Tương đối vuông vức
Gần trung tâm, đầy đủ đa dạng tiện ích
Kém hơn TSTĐ
Trên thửa đất có các đường bê tông rộng khoảng 4m
QH đất TMDV, bị QH DGT cắt ngang
QH đất ở 
QH đất CLN
Tương đồng
Kém lợi thế hơn
Vuông vức
Tương đối vuông vức,  phần lớ

## Helper function for text fields

### Traffic data parsing

In [23]:
import re

def parse_traffic(text):
    if text == None or text == "":
        return {'surface': "", "width": np.nan}
    text = text.lower()
    surface_keywords = ['nhựa', 'bê tông', 'đá xanh', 'đá', 'đất', 'xi măng', 'đan', 'sỏi']
    surfaces = [s for s in surface_keywords if s in text]
    
    width_matches = re.findall(r'(\d+[\.,]?\d*)\s*m', text)
    widths = [float(w.replace(',', '.')) for w in width_matches]

    return {
        'surface': surfaces[0] if surfaces else 'unknown',
        'width': widths[0] if widths else None
    }


In [24]:
def categorize_traffic(info):
    if info == None or info == "":
        return 'other'
    surface = info['surface']
    width = info['width']
    
    if surface == 'nhựa' and width and width >= 5:
        return 'asphalt_main'
    elif surface == 'nhựa':
        return 'asphalt_small'
    elif surface == 'bê tông':
        return 'concrete_small'
    elif surface in ['đất', 'sỏi']:
        return 'dirt_road'
    elif 'hẻm' in info.get('raw', '') or width and width < 3:
        return 'alley'
    else:
        return 'other'


In [25]:
traffic_str = "Tiếp giáp đường đá mi rộng khoảng 5m"
def get_traffic_info(traffic_str):
    parsed = parse_traffic(traffic_str)
    parsed['raw'] = traffic_str
    category = categorize_traffic(parsed)
    return parsed, category

parsed, category = get_traffic_info(traffic_str)
print(parsed)  # {'surface': 'nhựa', 'width': 6.0, 'raw': ...}
print(category)  # 'asphalt_small'


{'surface': 'đá', 'width': 5.0, 'raw': 'Tiếp giáp đường đá mi rộng khoảng 5m'}
other


In [26]:
# for i in (df["traffic"].unique()):
#     print(i)
#     print(get_traffic_info(i)) 

In [28]:
print(f"Number of columns: {len(df.columns)}")
df.columns

Number of columns: 19


Index(['address', 'isCompare', 'area', 'width', 'maxWidth', 'height',
       'hasFacade', 'facade', 'percentQuality', 'landPrice', 'lat', 'lon',
       'legalStatus', 'location', 'traffic', 'population', 'shape', 'other',
       'fileRepo'],
      dtype='object')

## Fill missing values (if possible)

In [50]:
# df["hasFacade"].fillna(False, inplace=True)
df.fillna({"hasFacade": False}, inplace=True)
sum(df["hasFacade"].isna())

0

In [51]:
df.fillna({"percentQuality": 1.0}, inplace=True)


In [52]:
df.fillna({"other": "Không có"}, inplace=True)

In [53]:
df["location"].isna().sum() 

np.int64(88)

In [55]:
# df["hasFacade"]

In [56]:
for col in df.columns:
    with open(f"output_columns/output_{col}.txt", "w", encoding="utf-8") as f:
        for i in df[col]:
            f.write(str(i) + '\n')

In [57]:
df.dtypes

address            object
isCompare            bool
area              float64
width             float64
maxWidth          float64
height            float64
hasFacade            bool
facade            float64
percentQuality    float64
landPrice         float64
lat               float64
lon               float64
legalStatus        object
location           object
traffic            object
population         object
shape              object
other              object
fileRepo           object
dtype: object

### Missing values overall 

In [58]:
print(f"Total number of records: {len(df)}")
print(f"Number of missing values in each column:")
for col in df.columns:
    if str(df[col].dtype) == "float64" :
        x = sum(df[col] == 0)
        y = sum(pd.isna(df[col]))
        z = 0
        t = 0
        u = 0
    else:
        x = sum(df[col] == "")
        y = sum(pd.isna(df[col]))
        z = sum(df[col] == "no_name")
        t = sum(df[col] == "nan")
        u = sum(df[col] == "0")
    missing = x+y+z+t+u
    print(f"{col}: {missing},            missing rate: {round( (missing) /len(df[col])*100, 2)}%")

Total number of records: 21664
Number of missing values in each column:
address: 555,            missing rate: 2.56%
isCompare: 0,            missing rate: 0.0%
area: 596,            missing rate: 2.75%
width: 2946,            missing rate: 13.6%
maxWidth: 2946,            missing rate: 13.6%
height: 2391,            missing rate: 11.04%
hasFacade: 0,            missing rate: 0.0%
facade: 21641,            missing rate: 99.89%
percentQuality: 266,            missing rate: 1.23%
landPrice: 4738,            missing rate: 21.87%
lat: 10131,            missing rate: 46.76%
lon: 10131,            missing rate: 46.76%
legalStatus: 254,            missing rate: 1.17%
location: 1349,            missing rate: 6.23%
traffic: 1978,            missing rate: 9.13%
population: 8786,            missing rate: 40.56%
shape: 4165,            missing rate: 19.23%
other: 5523,            missing rate: 25.49%
fileRepo: 0,            missing rate: 0.0%


In [41]:
df.dtypes

address            object
isCompare            bool
area              float64
width             float64
maxWidth          float64
height            float64
hasFacade            bool
facade            float64
percentQuality    float64
landPrice         float64
lat               float64
lon               float64
legalStatus        object
location           object
traffic            object
population         object
shape              object
other              object
fileRepo           object
dtype: object

In [42]:
invalid_width = df[~df["width"].apply(lambda x: isinstance(x, (int, float)))]

print(invalid_width["width"].value_counts(dropna=False))



Series([], Name: count, dtype: int64)


In [43]:
import datetime
df[df["width"].apply(lambda x: isinstance(x, (pd.Timestamp, datetime.datetime)))]

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,lat,lon,legalStatus,location,traffic,population,shape,other,fileRepo


### legalStatus

In [64]:
df["legalStatus"].unique()

array(['Có GCN QSDĐ', 'Có GCNQSDĐ', 'nan', '0.0', '0', 'GCN QSDD',
       'Hợp đồng mua bán',
       'Hợp đồng mua bán, giá bán bao phí ra GCN QSDĐ',
       'Hợp đồng mua bán (giá bán bao gồm 5% bao ra sổ)',
       'Đã có GCN QSDĐ', 'GCN QSDĐ',
       'Hợp đồng mua bán (giá bán bao gồm tất cả chi phí để cấp GCN QSDĐ)',
       'Chưa có GCN QSDĐ', 'HĐMB', 'GCNQSDĐ',
       'Hợp đồng mua bán (giá bán chưa bao gồm 5% bao ra sổ)',
       'Giá bán bao gồm phí cấp GCN QSDĐ lâu dài',
       'Chưa có GCN QSDĐ (giá bao gồm ra sổ)', 'HDMB',
       'Có GCN QSDĐ, sau khi có CTXD và hạ tầng hoàn thiện',
       'Có GCN QSDĐ sau khi có CTXD',
       'Có GCN QSDĐ, chưa được phép giao dịch',
       'Không có GCN QSDĐ, giao dịch Ủy quyền toàn quyền và di chúc',
       'Hợp đồng mua bán (giá bán CHƯA bao gồm tất cả chi phí để cấp GCN QSDĐ)',
       'Hợp đồng mua bán (giá ĐÃ bán bao gồm tất cả chi phí để cấp GCN QSDĐ)',
       None, 'Có GCN QSDĐ ', 'Sổ đỏ lâu dài',
       'HĐMB (Bao thuế phí sang tên làm G

In [None]:
df_legal = df[["legalStatus"]]

# Updated classification function
def classify_legal_status(value):
    if isinstance(value, str):
        lower_val = value.lower()
        if "không có gcn" in lower_val or "không có gcnqsdđ" in lower_val or "chưa có gcn" in lower_val:
            return "Không có GCN"
        elif "có gcn" in lower_val or "gcn qsdđ" in lower_val or "đã có gcn" in lower_val or "gcnqsdđ" in lower_val:
            return "Có GCN"
        elif "hợp đồng mua bán" in lower_val or "hđmb" in lower_val:
            return "Hợp đồng mua bán"
        else:
            return "others"
    return ""  # for None, nan, 0, etc.

# Apply classification
df_legal["legal_status_category"] = df_legal["legalStatus"].apply(classify_legal_status)

df_legal["legal_status_category"].value_counts(dropna=False)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_legal["legal_status_category"] = df_legal["legalStatus"].apply(classify_legal_status)


legal_status_category
Có GCN              20863
others                595
Hợp đồng mua bán       99
Không có GCN           99
                        8
Name: count, dtype: int64

In [68]:
df_legal

Unnamed: 0,legalStatus,legal_status_category
0,Có GCN QSDĐ,Có GCN
1,Có GCN QSDĐ,Có GCN
2,Có GCN QSDĐ,Có GCN
3,Có GCN QSDĐ,Có GCN
4,Có GCNQSDĐ,Có GCN
...,...,...
21663,Có GCNQSDĐ,Có GCN
21664,Có GCNQSDĐ,Có GCN
21665,Có GCNQSDĐ,Có GCN
21666,Có GCNQSDĐ,Có GCN


### location

In [84]:
# Replace problematic values with empty string
# cleaned_locations = ["" if val.lower() in {"0", "0.0", "nan", "none"} else val for val in location_lines]

# Create DataFrame
df_location = df[["location"]]

for i, val in enumerate(df_location["location"]):
    if pd.isna(val) or val.lower() in {"0", "0.0", "nan", "none"}:
        df_location.loc[i] = ""
    else:
        continue

# for i in df_location["location"]:
#     print(i)

# Classify into categories (example: road types, alley, near main road, others)
def classify_location(value):
    if not value:
        return ""
    val = value.lower()
    if "mặt tiền" in val or "mặt đường" in val or "gần mặt tiền" in val:
        return "Mặt tiền"
    elif "hẻm" in val or "ngõ" in val or "đường nội bộ" in val:
        return "Hẻm"
    elif "gần" in val or "tiếp giáp" in val:
        return "Gần đường chính"
    elif "trục đường" in val or "quốc lộ" in val or "đường lớn" in val:
        return "Đường lớn"
    else:
        return "others"

df_location["location_category"] = df_location["location"].apply(classify_location)

df_location["location_category"].value_counts(dropna=False)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_location.loc[i] = ""
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_location["location_category"] = df_location["location"].apply(classify_location)


location_category
Mặt tiền           9147
others             6158
Hẻm                4460
                   1413
Gần đường chính     333
Đường lớn           153
Name: count, dtype: int64

In [85]:
df_location

Unnamed: 0,location,location_category
0,Mặt tiền đường Tô Ký,Mặt tiền
1,Mặt tiền đường Tô Ký,Mặt tiền
2,Mặt tiền đường Tô Ký,Mặt tiền
3,Mặt tiền đường Tô Ký,Mặt tiền
4,Mặt tiền đường số 17 (KDC Xuyên Á),Mặt tiền
...,...,...
21663,Góc 2 mặt tiền đường Tân Phú và đường số 20,Mặt tiền
21664,Góc 2 mặt tiền đường số 19 và đường nội bộ khu...,Mặt tiền
21665,Mặt tiền đường số 19,Mặt tiền
21666,Mặt tiền đường Tân Phú và đường nội khu Nam Th...,Mặt tiền


### population

In [92]:
df["population"].unique()

array([None, '0', 'Dân cư tương đối', 'Dân cư đông đúc', 'Đông đúc',
       'Tương đối đông đúc', 'Thưa thớt hơn', 'Dân cư tương đối đông hơn',
       'Dân cư thưa thớt', 'Tương đối', 'thưa thớt', 'Thưa thớt',
       'Tương đối ', 'nan', '0.0', 'Đông đúc ',
       'Đông đúc, khu vực tập trung các xưởng, nhà máy, công ty',
       'Kém đông đúc', 'Đông đúc hơn TSTĐ',
       'Đông đúc, khu vực tập trung các cơ sở kinh doanh lưu trú',
       'Gần ngã ba Đồng Tâm, đối diện là Khu công nghiệp, thuận lợi kinh doanh',
       'Sầm uất', 'Đa giác nhiều góc cạnh, tóp hậu',
       'Dân cư tương đối, cách chợ Lương Sơn khoảng 4km',
       'Dân cư tương đối, cách chợ thôn Hồng Lâm khoảng 2,1km',
       'Dân cư tương đối, cách chợ thôn Hồng Lâm khoảng 3,2km',
       'Tương đối thưa thớt', 'Dân cư thưa thớt, gần sân bay Phan Thiết',
       'Dân cư tương đối, gần nghĩa trang', 'Nội thất cơ bản',
       'Dân cư tương đối, gần nghĩa trang khoảng 100m',
       'Dân cư tương đối, đối diện nghĩa trang',
   

In [90]:
# Load the population data

# Create DataFrame
df_population = df[["population"]]

for i, val in enumerate(df_population["population"]):
    if pd.isna(val) or val.lower() in {"0", "0.0", "nan", "none"}:
        df_population.loc[i] = ""
    else:
        continue

for i in df_population["population"]:
    print(i)

# Classify population descriptors into categories
def classify_population(value):
    if not value:
        return ""
    val = value.lower()
    if "đông" in val:
        return "Đông dân"
    elif "trung bình" in val:
        return "Trung bình"
    elif "thưa" in val or "ít" in val:
        return "Thưa dân"
    else:
        return "others"

df_population["population_category"] = df_population["population"].apply(classify_population)

df_population["population_category"].value_counts(dropna=False)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_population.loc[i] = ""










Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Dân cư đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Tương đối đông đúc
Tương đối đông đúc
Thưa thớt hơn
Tương đối đông đúc
Tương đối đông đúc
Tương đối đông đúc
Thưa thớt hơn
Tương đối đông đúc
Dân cư tương đối
Dân cư tương đối
Dân cư tương đối đông hơn
Dân cư thưa thớt








Đông đúc
Đông đúc
Đông đúc
Đông đúc
Dân cư đông đúc
Dân cư đông đúc
Dân cư đông đúc
Dân cư đông đúc




Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Dân cư đông đúc
Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Dân cư đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Dân cư tương đối
Dân cư tương đối
Dân cư tương đối
Dân cư đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc




Đông đúc
Đông đúc
Đông đúc
Đông đúc




Tương đối
Tương đối
Tương đối
thưa thớt
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đúc
Đông đú

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_population["population_category"] = df_population["population"].apply(classify_population)


population_category
            9022
Đông dân    5228
others      4044
Thưa dân    3370
Name: count, dtype: int64

In [None]:
embed_fields = ["legalStatus", "location", "traffic", "population", "shape", "other"]
number_fields = ["area", "width", "height", "percentQuality", "landPrice"]

features_all = embed_fields + number_fields


In [None]:
model = SentenceTransformer('all-MiniLM-L6-v2')  # 384d vector, fast and efficient

In [None]:
def encode_text_fields(df, fields, model):
    embedded_arrays = []
    for field in fields:
        print(f"Embedding field: {field}")
        texts = df[field].fillna("").astype(str).tolist()
        embeddings = model.encode(texts, show_progress_bar=True)
        embedded_arrays.append(np.array(embeddings))
    
    return np.concatenate(embedded_arrays, axis=1)  # Shape: (N, len(fields)*dim)


In [None]:
df[number_fields]

Unnamed: 0,area,width,height,percentQuality,landPrice
0,1237.700,9.72,49.350000,1.00,
1,2253.000,33.00,60.000000,0.70,5.036789e+07
2,1190.000,13.00,67.000000,0.50,6.376614e+07
3,249.310,9.00,44.000000,0.70,8.085460e+07
4,65.000,7.50,15.500000,1.00,
...,...,...,...,...,...
21663,314.130,18.79,,0.95,4.438960e+08
21664,298.375,19.04,,1.00,
21665,251.250,15.00,16.750000,0.85,3.611411e+08
21666,270.000,15.00,18.000000,0.85,3.831649e+08


In [44]:
# from sklearn.preprocessing import MinMaxScaler

# scaler = MinMaxScaler()
# scaled_num = scaler.fit_transform(df[number_fields])

# embedded_text = encode_text_fields(df, embed_fields, model)
# combined_features = np.concatenate([scaled_num, embedded_text], axis=1)


In [45]:
# from sklearn.neighbors import NearestNeighbors

# knn = NearestNeighbors(n_neighbors=3, metric='cosine')  # cosine works well in high dimensions
# knn.fit(combined_features)

# # For a new property (TSTĐ)
# new_property_df = ...  # single-row DataFrame
# new_num = scaler.transform(new_property_df[number_fields])
# new_embed = encode_text_fields(new_property_df, embed_fields, model)
# new_combined = np.concatenate([new_num, new_embed], axis=1)

# distances, indices = knn.kneighbors(new_combined)
# print("Top 3 similar properties:", df.iloc[indices[0]])


In [46]:
# # Clean the dataset
# # df_cleaned = df.dropna(subset=features_all).copy()
# # print(df_cleaned.shape)

# # Preprocessing pipeline
# preprocessor = ColumnTransformer(transformers=[
#     ("num", StandardScaler(), features_numerical),
#     ("cat", OneHotEncoder(handle_unknown="ignore"), features_categorical)
# ])

# # Fit-transform the data
# X_preprocessed = preprocessor.fit_transform(df)

# # Store for next step
# df_knn_ready = df.reset_index(drop=True)

# X_preprocessed.shape

In [47]:
# df_knn_ready.shape

In [48]:
# # Simulate a new TSTDG (property to be evaluated)
# simulated_tstdg = {
#     "area": 350.0,
#     "width": 18.0,
#     "height": 90.0,
#     "percentQuality": 78.0,
#     "landPrice": 0.0,  # Unknown — what we're trying to estimate
#     "lat": 10.045,     # Near other properties
#     "lon": 105.730,
#     "legalStatus": "Có GCNQSDĐ",
#     "shape": "Tương đối vuông vức",
#     "other": "QH đất TMDV"
# }

# # Convert to DataFrame
# tstdg_df = pd.DataFrame([simulated_tstdg])

# # Apply the same preprocessing pipeline
# tstdg_vector = preprocessor.transform(tstdg_df)

# # Store for KNN search
# tstdg_vector.shape


In [49]:
# from sklearn.neighbors import NearestNeighbors

# # Filter database to only include reference properties (TSSS)
# df_reference = df_knn_ready[df_knn_ready["isCompare"] == True].reset_index(drop=True)
# X_reference = preprocessor.transform(df_reference[features_all])

# # Run KNN
# knn = NearestNeighbors(n_neighbors=3, metric='euclidean')
# knn.fit(X_reference)
# distances, indices = knn.kneighbors(tstdg_vector)

# # Get top 3 similar properties
# top_3_similar = df_reference.iloc[indices[0]].copy()
# top_3_similar["similarity_score"] = distances[0]

# # import ace_tools as tools; tools.display_dataframe_to_user(name="Top 3 KNN Reference Properties", dataframe=top_3_similar)
