In [10]:
import json
import pandas as pd
from pymongo import MongoClient
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sentence_transformers import SentenceTransformer
import numpy as np



# Read data from DB

In [11]:

# MongoDB connection setup
mongo_uri = "mongodb://dev-valuemind:W57mFPVT57lt3wU@10.10.0.42:27021/?replicaSet=rs0&directConnection=true&authSource=assets-valuemind"

# Connect to MongoDB and fetch documents
client = MongoClient(mongo_uri)
db = client["assets-valuemind"]
collection_n = "test-dim"
collection = db[collection_n]

# collection = db["data-24-25"]
data_from_mongo = list(collection.find({}))  # You can add filters here if needed


In [12]:
# data_from_mongo

In [13]:
from datetime import datetime

def safe_parse_float(val):
    if isinstance(val, (int, float)):
        return float(val)
    if isinstance(val, datetime):
        return float('nan')  # or val.timestamp() if you really want a number
    try:
        return float(str(val).strip())
    except (ValueError, TypeError):
        return float('nan')


In [14]:
count = 0
records = []

for datapoint in data_from_mongo:
    count += 1
    # print(f"datapoint:\n{datapoint}\n")
    fileRepo = datapoint.get("fileRepo")

    compare_list = datapoint.get("assetsCompareManagements", [])
    # print(f"compare_list:\n{len(compare_list)}\n")

    for item in compare_list:
        
        am = item.get("assetsManagement", {})
        # print(f"am:\n {am}\n")
        basic_info = am.get("basicAssetsInfo", {})
        # print(f"basic_info:\n{len(basic_info)}\n")
        geo = am.get("geoJsonPoint", {})
        

        record = {
            # "profileId": item.get("profileId"),
            # "assetsCompareId": item.get("assetsCompareId"),
            'address': basic_info.get("basicAddressInfo", {'fullAddress': 'placeholder_string'}).get("fullAddress"),
            "isCompare": item.get("isCompare", False),
            # "status": am.get("status"),
            "area": safe_parse_float(basic_info.get("area")),
            "width": safe_parse_float(basic_info.get("width")),
            "maxWidth": safe_parse_float(basic_info.get("maxWidth")),
            "height": safe_parse_float(basic_info.get("height")),
            "hasFacade": basic_info.get("facade", {}).get("hasFacade"),
            "facade": basic_info.get("facade", {}).get("value"),
            "percentQuality": basic_info.get("percentQuality"),
            "landPrice": basic_info.get("landPrice"),
            "lat": geo.get("coordinates", [np.nan, np.nan])[0],
            "lon": geo.get("coordinates", [np.nan, np.nan])[1],
            "landConversion": basic_info.get("landConversion", np.nan),
            "legalStatus": item.get("legalStatus", {}).get("description"),
            "locationBasic": basic_info.get("location"),
            "location": item.get("location", {}).get("description"),
            "traffic": item.get("traffic", {}).get("description"),
            "population": item.get("population", {}).get("description"),
            "shape": item.get("shape", {}).get("description"),
            "other": item.get("other", {}).get("description"),
        }
        record["fileRepo"] = fileRepo
        records.append(record)

df = pd.DataFrame(records)
# print(df.head())

In [15]:
count

5218

In [16]:
print(df.columns)
df.shape

Index(['address', 'isCompare', 'area', 'width', 'maxWidth', 'height',
       'hasFacade', 'facade', 'percentQuality', 'landPrice', 'lat', 'lon',
       'landConversion', 'legalStatus', 'locationBasic', 'location', 'traffic',
       'population', 'shape', 'other', 'fileRepo'],
      dtype='object')


(20872, 21)

In [17]:
df.head(5)

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,...,lon,landConversion,legalStatus,locationBasic,location,traffic,population,shape,other,fileRepo
0,"Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam...",False,1237.7,9.72,9.72,49.35,True,,1.0,,...,10.881439,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
1,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,2253.0,33.0,33.0,60.0,True,,0.7,50367890.0,...,10.884132,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
2,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,1190.0,13.0,13.0,67.0,True,,0.5,63766140.0,...,10.883748,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Chữ T,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
3,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,249.31,9.0,9.0,44.0,True,,0.7,80854600.0,...,10.874442,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,,Vuông vức,,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
4,"Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh N...",False,65.0,7.5,7.5,15.5,True,,1.0,,...,10.870135,,Có GCNQSDĐ,Mặt tiền đường số 17 (KDC Xuyên Á),Mặt tiền đường số 17 (KDC Xuyên Á),"Đường nhựa rộng khoảng 8m, đường bên hông rộng...",0.0,Tương đối vuông vức,0.0,BDC||\\192.168.1.250\department\03. APPRAISAL\...


In [18]:
for col in df.columns:
    with open(f"output_columns/output_{col}.txt", "w", encoding="utf-8") as f:
        for i in df[col]:
            f.write(str(i) + '\n')

In [19]:
df["location"].unique()

array(['Mặt tiền đường Tô Ký', 'Mặt tiền đường số 17 (KDC Xuyên Á)',
       'Mặt tiền đường số 2', ...,
       'Mặt tiền đường DT827B (cống Bình Tâm - Đầu đường Nguyễn Thông)',
       'Mặt tiền đường DT827B (Nguyễn Thông - UBND xã Phước Tân Hưng), nằm dưới chân cầu Kỳ Son',
       'Mặt tiền đường DT827B (Cống Bình Tâm - Đầu đường Nguyễn Thông), nằm dưới chân cầu Kỳ Son'],
      shape=(7677,), dtype=object)

In [20]:
df["locationBasic"].unique()

array(['Mặt tiền đường Tô Ký', 'Mặt tiền đường số 17 (KDC Xuyên Á)',
       'Mặt tiền đường số 2', ...,
       'Mặt tiền đường DT827B (Nguyễn Thông - UBND xã Phước Tân Hưng)',
       'Mặt tiền đường DT827B (cống Bình Tâm - Đầu đường Nguyễn Thông)',
       'Mặt tiền đường DT827B (Nguyễn Thông - UBND xã Phước Tân Hưng), nằm dưới chân cầu Kỳ Son'],
      shape=(7742,), dtype=object)

In [21]:
df[df["location"] != df["locationBasic"]]


Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,...,lon,landConversion,legalStatus,locationBasic,location,traffic,population,shape,other,fileRepo
47,"Thửa đất số , tờ bản đồ số - Hẻm đường Ba Cu,...",True,100.3,9.47,9.47,13.75,False,,0.7,4.795976e+07,...,,,Có GCNQSDĐ,,0,"Hẻm bê tông rộng khoảng 2,5m",Dân cư đông đúc,Tương đối vuông vức,Bình thường,Hem 97 BACU||\\192.168.1.250\department\03. AP...
83,"Đường Thủ Khoa Huân, phường Tân Quy Đông, Thàn...",True,1700.0,16.00,16.00,23.00,True,,1.0,1.676471e+06,...,,,Có GCNQSDĐ,Mặt tiền đường Thủ Khoa Huân,0,0,0,0,,SA DEC||\\192.168.1.250\department\03. APPRAIS...
95,"Khu TDC Trường Tiểu học Cái Khế, phường Cái Kh...",True,78.5,4.00,4.00,19.50,True,,0.9,7.335264e+07,...,,,Có GCNQSDĐ,Mặt tiền đường số 1,0,0,Đông đúc,Tương đối vuông vức,,so bo HCM||\\192.168.1.250\department\03. APPR...
131,"Thửa đất 535, tờ bản đồ số 3, ấp Hội Thanh, xã...",True,21503.0,300.00,300.00,73.00,False,,1.0,9.115007e+04,...,,,Có GCN QSDĐ,,0,Đường đất rộng khoảng 3m,Thưa thớt,Không vuông vức,0,HIep hoa (sau ks) (2)||\\192.168.1.250\departm...
147,"Hẻm xe hơi đường Hồng Bàng, P12, Quận 6, TPHCM",True,460.0,3.50,3.50,17.93,,,1.0,4.854348e+07,...,10.756684,,,"Tiếp giáp hẻm đường Hồng Bàng, cách đường Hồng...",,,,,,so bo HCM||\\192.168.1.250\department\03. APPR...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20738,"Thửa đất số 977, TBĐ số 116, phường Bình Chuẩn...",True,77.0,4.00,4.00,19.60,False,,1.0,2.597403e+07,...,10.975444,,Có GCNQSDĐ,Đường N5,Đường N5 cách đường DT 743 khoảng 200m,Đường nhựa rộng khoảng 6m (chưa bao gồm vỉa hè...,Dân cư đông đúc,Vuông vức,,dv||\\192.168.1.250\department\03. APPRAISAL\0...
20775,,True,159.0,,,,False,,0.8,0.000000e+00,...,,,Có GCNQSDĐ,,Mặt tiền đường Quốc lộ 80,Đường nhựa rộng khoảng 8m,0,Tương đối vuông vức,Bình thường,113-67 ho tro v2||\\192.168.1.250\department\0...
20779,,True,159.0,,,,False,,0.8,0.000000e+00,...,,,Có GCNQSDĐ,,Mặt tiền đường Quốc lộ 80,Đường nhựa rộng khoảng 8m,0,Tương đối vuông vức,Bình thường,113-67 ho tro v2 (2)||\\192.168.1.250\departme...
20837,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,1628.0,51.00,51.00,58.00,True,,1.0,6.394885e+06,...,10.478903,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Cống Bình Tâm - Đầu đườ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tóp hậu,"Đã san lấp, đất thấp hơn mặt tiền đường",Long An T11||\\192.168.1.250\department\03. AP...


In [22]:
# df[pd.isna(df["hasFacade"])]

In [23]:
df["hasFacade"].fillna(False, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["hasFacade"].fillna(False, inplace=True)
  df["hasFacade"].fillna(False, inplace=True)


In [24]:
len(df[pd.isna(df["hasFacade"])])

0

In [25]:
print(f"Total number of records: {len(df)}")
print(f"Number of missing values in each column:")
for col in df.columns:
    if str(df[col].dtype) == "float64" :
        x = sum(df[col] == 0)
        y = sum(pd.isna(df[col]))
        z = 0
        t = 0
        u = 0
    # elif str(df[col].dtype) == "object":
    else:
        x = sum(df[col] == "")
        y = sum(pd.isna(df[col]))
        z = sum(df[col] == "no_name")
        t = sum(df[col] == "nan")
        u = sum(df[col] == "0")
    missing = x+y+z+t+u
    print(f"{col}: {missing},            missing rate: {round( (missing) /len(df[col])*100, 2)}%")

Total number of records: 20872
Number of missing values in each column:
address: 535,            missing rate: 2.56%
isCompare: 0,            missing rate: 0.0%
area: 571,            missing rate: 2.74%
width: 2904,            missing rate: 13.91%
maxWidth: 2904,            missing rate: 13.91%
height: 2351,            missing rate: 11.26%
hasFacade: 0,            missing rate: 0.0%
facade: 20849,            missing rate: 99.89%
percentQuality: 258,            missing rate: 1.24%
landPrice: 4560,            missing rate: 21.85%
lat: 9983,            missing rate: 47.83%
lon: 9983,            missing rate: 47.83%
landConversion: 20869,            missing rate: 99.99%
legalStatus: 245,            missing rate: 1.17%
locationBasic: 1000,            missing rate: 4.79%
location: 1309,            missing rate: 6.27%
traffic: 1944,            missing rate: 9.31%
population: 8627,            missing rate: 41.33%
shape: 4093,            missing rate: 19.61%
other: 12760,            missing rat

In [26]:
string_missing_values = ["", "no_name", "nan", "0", "0.0", None]

for col in df.select_dtypes(include='object').columns:
    df[col] = df[col].replace(string_missing_values, "missing")


for col in df.select_dtypes(include='float64').columns:
    df[col] = df[col].replace([0, None], np.nan)

In [27]:
df

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,...,lon,landConversion,legalStatus,locationBasic,location,traffic,population,shape,other,fileRepo
0,"Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam...",False,1237.70,9.72,9.72,49.35,True,,1.0,,...,10.881439,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
1,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,2253.00,33.00,33.00,60.00,True,,0.7,5.036789e+07,...,10.884132,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
2,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,1190.00,13.00,13.00,67.00,True,,0.5,6.376614e+07,...,10.883748,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
3,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,249.31,9.00,9.00,44.00,True,,0.7,8.085460e+07,...,10.874442,,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Vuông vức,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
4,"Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh N...",False,65.00,7.50,7.50,15.50,True,,1.0,,...,10.870135,,Có GCNQSDĐ,Mặt tiền đường số 17 (KDC Xuyên Á),Mặt tiền đường số 17 (KDC Xuyên Á),"Đường nhựa rộng khoảng 8m, đường bên hông rộng...",missing,Tương đối vuông vức,missing,BDC||\\192.168.1.250\department\03. APPRAISAL\...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20867,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,1628.00,51.00,51.00,58.00,True,,1.0,6.394885e+06,...,10.478903,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,"Thưa thớt hơn, thuộc khu vực chủ yếu canh tác ...",Kém vuông vức,Chưa san lấp,Long An (sau ks)||\\192.168.1.250\department\0...
20868,"Thửa đất số 257; 277, tờ bản đồ số 17, xã Phú ...",False,5776.80,46.95,46.95,112.46,True,,1.0,,...,10.492120,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Kém vuông vức,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...
20869,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,2174.50,17.20,17.20,102.00,True,,0.6,4.544176e+06,...,10.505674,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tóp hậu,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...
20870,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,619.40,20.80,20.80,47.70,True,,0.6,1.105608e+07,...,10.493733,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tương đối vuông vức,San lấp ngang mặt tiền đường,CAL||\\192.168.1.250\department\03. APPRAISAL\...


In [28]:
print(f"Total number of records: {len(df)}")
print(f"Number of missing values in each column:")
for col in df.columns:
    if str(df[col].dtype) == "float64":
        x = sum(pd.isna(df[col]))
        y = 0
    # elif str(df[col].dtype) == "object":
    else:
        x = sum(df[col] == "missing")
        y = sum(pd.isna(df[col]))
        # print(f"y for string: {y}")
    missing = x+y
    print(f"{col}: {missing},            missing rate: {round( (missing) /len(df[col])*100, 2)}%")

Total number of records: 20872
Number of missing values in each column:
address: 535,            missing rate: 2.56%
isCompare: 0,            missing rate: 0.0%
area: 571,            missing rate: 2.74%
width: 2904,            missing rate: 13.91%
maxWidth: 2904,            missing rate: 13.91%
height: 2351,            missing rate: 11.26%
hasFacade: 0,            missing rate: 0.0%
facade: 20849,            missing rate: 99.89%
percentQuality: 258,            missing rate: 1.24%
landPrice: 4560,            missing rate: 21.85%
lat: 9983,            missing rate: 47.83%
lon: 9983,            missing rate: 47.83%
landConversion: 20869,            missing rate: 99.99%
legalStatus: 301,            missing rate: 1.44%
locationBasic: 1000,            missing rate: 4.79%
location: 1365,            missing rate: 6.54%
traffic: 2000,            missing rate: 9.58%
population: 8682,            missing rate: 41.6%
shape: 4150,            missing rate: 19.88%
other: 12808,            missing rate

In [29]:
df[df["location"] != df["locationBasic"]]

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,...,lon,landConversion,legalStatus,locationBasic,location,traffic,population,shape,other,fileRepo
83,"Đường Thủ Khoa Huân, phường Tân Quy Đông, Thàn...",True,1700.0,16.0,16.0,23.00,True,,1.00,1.676471e+06,...,,,Có GCNQSDĐ,Mặt tiền đường Thủ Khoa Huân,missing,missing,missing,missing,missing,SA DEC||\\192.168.1.250\department\03. APPRAIS...
95,"Khu TDC Trường Tiểu học Cái Khế, phường Cái Kh...",True,78.5,4.0,4.0,19.50,True,,0.90,7.335264e+07,...,,,Có GCNQSDĐ,Mặt tiền đường số 1,missing,missing,Đông đúc,Tương đối vuông vức,missing,so bo HCM||\\192.168.1.250\department\03. APPR...
147,"Hẻm xe hơi đường Hồng Bàng, P12, Quận 6, TPHCM",True,460.0,3.5,3.5,17.93,False,,1.00,4.854348e+07,...,10.756684,,missing,"Tiếp giáp hẻm đường Hồng Bàng, cách đường Hồng...",missing,missing,missing,missing,missing,so bo HCM||\\192.168.1.250\department\03. APPR...
203,"Thửa 103; 109, tờ bản đồ số 06, phường Tân Hưn...",True,9256.3,10.0,10.0,300.00,False,,0.95,2.577136e+06,...,10.193650,,missing,Tiếp giáp kênh song song QL91,missing,missing,missing,missing,missing,BDC (2)||\\192.168.1.250\department\03. APPRAI...
211,"Thửa 103; 109, tờ bản đồ số 06, phường Tân Hưn...",True,7434.5,17.5,17.5,173.00,False,,1.00,1.594784e+06,...,10.230944,,missing,Tiếp giáp kênh song song QL91,missing,missing,missing,missing,missing,BDC||\\192.168.1.250\department\03. APPRAISAL\...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20738,"Thửa đất số 977, TBĐ số 116, phường Bình Chuẩn...",True,77.0,4.0,4.0,19.60,False,,1.00,2.597403e+07,...,10.975444,,Có GCNQSDĐ,Đường N5,Đường N5 cách đường DT 743 khoảng 200m,Đường nhựa rộng khoảng 6m (chưa bao gồm vỉa hè...,Dân cư đông đúc,Vuông vức,missing,dv||\\192.168.1.250\department\03. APPRAISAL\0...
20775,missing,True,159.0,,,,False,,0.80,,...,,,Có GCNQSDĐ,missing,Mặt tiền đường Quốc lộ 80,Đường nhựa rộng khoảng 8m,missing,Tương đối vuông vức,Bình thường,113-67 ho tro v2||\\192.168.1.250\department\0...
20779,missing,True,159.0,,,,False,,0.80,,...,,,Có GCNQSDĐ,missing,Mặt tiền đường Quốc lộ 80,Đường nhựa rộng khoảng 8m,missing,Tương đối vuông vức,Bình thường,113-67 ho tro v2 (2)||\\192.168.1.250\departme...
20837,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,1628.0,51.0,51.0,58.00,True,,1.00,6.394885e+06,...,10.478903,,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Mặt tiền đường DT827B (Cống Bình Tâm - Đầu đườ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tóp hậu,"Đã san lấp, đất thấp hơn mặt tiền đường",Long An T11||\\192.168.1.250\department\03. AP...


In [30]:
df_duo_location = df[(df["locationBasic"] != "missing") & (df["location"] != "missing") & (df["location"] != df["locationBasic"])]

In [31]:
# If 'location' is "missing" but 'locationBasic' is valid → copy it to 'location'
df.loc[(df['location'] == "missing") & (df['locationBasic'] != "missing"), 'location'] = \
    df.loc[(df['location'] == "missing") & (df['locationBasic'] != "missing"), 'locationBasic']

# If 'locationBasic' is "missing" but 'location' is valid → copy it to 'locationBasic'
df.loc[(df['locationBasic'] == "missing") & (df['location'] != "missing"), 'locationBasic'] = \
    df.loc[(df['locationBasic'] == "missing") & (df['location'] != "missing"), 'location']

# First treat np.nan as "missing"
df['location'] = df['location'].fillna("missing")
df['locationBasic'] = df['locationBasic'].fillna("missing")

In [32]:
columns_to_check = ['location', 'locationBasic']  # Replace with your column names

unique_combinations = df_duo_location[columns_to_check].drop_duplicates()
print(unique_combinations)

with open("output_duo_location.txt", "w", encoding="utf-8") as f:
    for _,i in unique_combinations.iterrows():
        line = " | ".join(str(value) for value in i)
        f.write(line + "\n")

# print(df[columns_to_check].value_counts().reset_index(name='count'))


                                                location  \
239                 Mặt tiền đường nhánh của đường số 40   
311          Cách đường Xuân Tâm - Trảng Táo khoảng 800m   
469                                           Đường thôn   
470                                         Khu giãn dân   
663                                  Hẻm đường Bạch Đằng   
...                                                  ...   
19605                                     The Sun Avenue   
19646  Khu đô thị Vạn Phúc, phường Hiệp Bình Phước, T...   
19820                                Khu đô thị Vạn Phúc   
20738             Đường N5 cách đường DT 743 khoảng 200m   
20837  Mặt tiền đường DT827B (Cống Bình Tâm - Đầu đườ...   

                                           locationBasic  
239             Hẻm đường HL2 (đường nhánh HL2), hẻm cụt  
311           Cách đường Xuân Tâm - Trảng Táo khoảng 1km  
469                                         Khu giãn dân  
470                                        

In [33]:
x = df[(df["location"] == "Mặt tiền đường Hạ Long") & (df["locationBasic"] == "Mặt tiền đường 3 tháng 2")]["fileRepo"].item()
print(x)

KHU NH||\\192.168.1.250\department\03. APPRAISAL\03. REAL ESTATE\03. PROJECT\09. IMM\03. BAO GIA\01. IMM_VV\2024\THANG 1\9. NGOI SAO VIET_PHU CHANH BINH DUONG\DV_TAN THANH_21112023_FINAL.xlsx


In [34]:
len(unique_combinations["location"].unique())

1161

In [35]:
len(unique_combinations["locationBasic"].unique())


1133

In [36]:
sum(df["location"] == df["locationBasic"])

17626

In [37]:
# df[(df["location"] != "missing") & (df["locationBasic"] == "missing")]

In [38]:
df = df.drop(["locationBasic"], axis=1)

In [39]:
df = df.drop(["landConversion"], axis=1)

In [40]:
df

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,lat,lon,legalStatus,location,traffic,population,shape,other,fileRepo
0,"Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam...",False,1237.70,9.72,9.72,49.35,True,,1.0,,106.608976,10.881439,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
1,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,2253.00,33.00,33.00,60.00,True,,0.7,5.036789e+07,106.606883,10.884132,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
2,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,1190.00,13.00,13.00,67.00,True,,0.5,6.376614e+07,106.607203,10.883748,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
3,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,249.31,9.00,9.00,44.00,True,,0.7,8.085460e+07,106.612220,10.874442,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Vuông vức,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...
4,"Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh N...",False,65.00,7.50,7.50,15.50,True,,1.0,,106.522981,10.870135,Có GCNQSDĐ,Mặt tiền đường số 17 (KDC Xuyên Á),"Đường nhựa rộng khoảng 8m, đường bên hông rộng...",missing,Tương đối vuông vức,missing,BDC||\\192.168.1.250\department\03. APPRAISAL\...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20867,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,1628.00,51.00,51.00,58.00,True,,1.0,6.394885e+06,106.503738,10.478903,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,"Thưa thớt hơn, thuộc khu vực chủ yếu canh tác ...",Kém vuông vức,Chưa san lấp,Long An (sau ks)||\\192.168.1.250\department\0...
20868,"Thửa đất số 257; 277, tờ bản đồ số 17, xã Phú ...",False,5776.80,46.95,46.95,112.46,True,,1.0,,106.498780,10.492120,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Kém vuông vức,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...
20869,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,2174.50,17.20,17.20,102.00,True,,0.6,4.544176e+06,106.468511,10.505674,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tóp hậu,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...
20870,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,619.40,20.80,20.80,47.70,True,,0.6,1.105608e+07,106.497581,10.493733,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tương đối vuông vức,San lấp ngang mặt tiền đường,CAL||\\192.168.1.250\department\03. APPRAISAL\...


In [41]:
# Classification function
def classify_legal_status(value):
    if isinstance(value, str):
        val = value.lower()
        if "không có gcn" in val or "không có gcnqsdđ" in val:
            return "Không có GCN"
        elif "có gcn" in val or "gcn qsdđ" in val or "đã có gcn" in val or "gcnqsdđ" in val:
            return "Có GCN"
        elif "hợp đồng mua bán" in val or "hđmb" in val:
            return "Hợp đồng mua bán"
        elif "missing" in val:
            return "missing"
    return "Khác"


def update_other_field(row, category_col, raw_text_col):
    if row[category_col] == "khác":
        existing = str(row["other"]).strip()
        new_info = str(row[raw_text_col]).strip()
        if existing:
            return f"{existing}\n{new_info}"
        else:
            return new_info
    return row["other"]



# Apply classification
df["legal_status_category"] = df["legalStatus"].apply(classify_legal_status)

df["other"] = df.apply(
    lambda row: update_other_field(row, "legal_status_category", "legalStatus"), axis=1
)


# # Add 'Other' column for unmatched values
# df["Other"] = df.apply(
#     lambda row: row["legalStatus"] if row["legal_status_category"] == "Khác" else "", axis=1
# )


In [42]:
df["legal_status_category"].unique()

array(['Có GCN', 'missing', 'Khác', 'Hợp đồng mua bán', 'Không có GCN'],
      dtype=object)

In [43]:
df["legal_status_category"] = df["legal_status_category"].replace("Khác", np.nan)

In [44]:
def classify_population(value):
    if not isinstance(value, str):
        return ""
    val = value.lower().strip()
    # if val in {"dân cư tương đối", "mật độ trung bình", "dân cư trung bình", "dân cư tập trung tương đối"}:
    if "tương đối" in val:
        if "đông đúc" in val:
            return "đông đúc"
        else:
            return "trung bình"
    elif "kém" in val or "thưa" in val or "thưa thớt" in val or "ít dân" in val:
        return "thưa thớt"
    elif "đông đúc" in val or "tương đối đông đúc" in val or "rất đông" in val:
        return "đông đúc"
    elif "missing" in val:
        return "missing"
    else:
        return "khác"

# Apply classification
df["population_category"] = df["population"].apply(classify_population)

df["other"] = df.apply(
    lambda row: update_other_field(row, "population_category", "population"), axis=1
)


In [45]:
unique_combo_population = df[["population", "population_category"]].drop_duplicates()
# unique_combo_population

with open("output_duo_population.txt", "w", encoding="utf-8") as f:
    for _,i in unique_combo_population.iterrows():
        line = " | ".join(str(value) for value in i)
        f.write(line + "\n")

In [46]:
df

Unnamed: 0,address,isCompare,area,width,maxWidth,height,hasFacade,facade,percentQuality,landPrice,...,lon,legalStatus,location,traffic,population,shape,other,fileRepo,legal_status_category,population_category
0,"Thửa đất số 632, tờ bản đồ số 63 - Xã Thới Tam...",False,1237.70,9.72,9.72,49.35,True,,1.0,,...,10.881439,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...,Có GCN,missing
1,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,2253.00,33.00,33.00,60.00,True,,0.7,5.036789e+07,...,10.884132,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...,Có GCN,missing
2,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,1190.00,13.00,13.00,67.00,True,,0.5,6.376614e+07,...,10.883748,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Chữ T,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...,Có GCN,missing
3,"Xã Thới Tam Thôn, huyện Hóc Môn, TP.HCM",True,249.31,9.00,9.00,44.00,True,,0.7,8.085460e+07,...,10.874442,Có GCN QSDĐ,Mặt tiền đường Tô Ký,Đường nhựa rộng khoảng 13m,missing,Vuông vức,missing,Hoc Mon||\\192.168.1.250\department\03. APPRAI...,Có GCN,missing
4,"Thửa đất số 686, tờ bản đồ số 24, xã Mỹ Hạnh N...",False,65.00,7.50,7.50,15.50,True,,1.0,,...,10.870135,Có GCNQSDĐ,Mặt tiền đường số 17 (KDC Xuyên Á),"Đường nhựa rộng khoảng 8m, đường bên hông rộng...",missing,Tương đối vuông vức,missing,BDC||\\192.168.1.250\department\03. APPRAISAL\...,Có GCN,missing
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20867,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,1628.00,51.00,51.00,58.00,True,,1.0,6.394885e+06,...,10.478903,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,"Thưa thớt hơn, thuộc khu vực chủ yếu canh tác ...",Kém vuông vức,Chưa san lấp,Long An (sau ks)||\\192.168.1.250\department\0...,Có GCN,thưa thớt
20868,"Thửa đất số 257; 277, tờ bản đồ số 17, xã Phú ...",False,5776.80,46.95,46.95,112.46,True,,1.0,,...,10.492120,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Kém vuông vức,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...,Có GCN,trung bình
20869,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,2174.50,17.20,17.20,102.00,True,,0.6,4.544176e+06,...,10.505674,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tóp hậu,"Đã san lấp, đất thấp hơn mặt tiền đường",CAL||\\192.168.1.250\department\03. APPRAISAL\...,Có GCN,trung bình
20870,"xã Phú Ngãi Trị, huyện Châu Thành, tỉnh Long An",True,619.40,20.80,20.80,47.70,True,,0.6,1.105608e+07,...,10.493733,Có GCNQSDĐ,Mặt tiền đường DT827B (Nguyễn Thông - UBND xã ...,Đường nhựa rộng khoảng 5m,Dân cư tập trung tương đối,Tương đối vuông vức,San lấp ngang mặt tiền đường,CAL||\\192.168.1.250\department\03. APPRAISAL\...,Có GCN,trung bình


In [47]:
# df_drop_repo = df.drop_duplicates(subset=["fileRepo"], keep='first')

# with open(f"fileRepo_{collection_n}", "w") as f:
#     for _, row in df_drop_repo.iterrows():
#         f.write(row["fileRepo"])
#         f.write("\n")

In [48]:
# from collections import Counter

# # Load both files into lists (line by line, stripping whitespace/newlines)
# with open('fileRepo_test') as f1, open('fileRepo_Danh') as f2:
#     list1 = [line.strip() for line in f1]
#     list2 = [line.strip() for line in f2]

# # Count occurrences in each
# count1 = Counter(list1)
# count2 = Counter(list2)

# # Find added elements (respecting duplicates)
# added = []
# for item in count2:
#     diff = count2[item] - count1.get(item, 0)
#     if diff > 0:
#         added.extend([item] * diff)

# print("Added elements:")
# print(added)

# with open(f"diff.txt", "w") as f:
#     for i in added:
#         f.write(i)
#         f.write("\n")
