In [1]:
import json
import pandas as pd
from pymongo import MongoClient
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer


In [2]:

# MongoDB connection setup
mongo_uri = "mongodb://dev-valuemind:W57mFPVT57lt3wU@10.10.0.42:27021/?replicaSet=rs0&directConnection=true&authSource=assets-valuemind"

# Connect to MongoDB and fetch documents
client = MongoClient(mongo_uri)
db = client["assets-valuemind"]
collection = db["test"]
data_from_mongo = list(collection.find({}))  # You can add filters here if needed


In [3]:
# data_from_mongo

In [4]:
records = []

for datapoint in data_from_mongo:
    # print(f"datapoint:\n{datapoint}\n")

    compare_list = datapoint.get("assetsCompareManagements", [])
    # print(f"compare_list:\n{len(compare_list)}\n")

    for item in compare_list:
        
        am = item.get("assetsManagement", {})
        # print(f"am:\n {am}\n")
        basic_info = am.get("basicAssetsInfo", {})
        # print(f"basic_info:\n{len(basic_info)}\n")
        geo = am.get("geoJsonPoint", {})
        

        record = {
            # "profileId": item.get("profileId"),
            # "assetsCompareId": item.get("assetsCompareId"),
            'address': basic_info.get("basicAddressInfo", {}).get("fullAddress"),
            "isCompare": item.get("isCompare", False),
            # "status": am.get("status"),
            "area": basic_info.get("area"),
            "width": basic_info.get("width"),
            "height": basic_info.get("height"),
            "percentQuality": basic_info.get("percentQuality"),
            "landPrice": basic_info.get("landPrice"),
            "lat": geo.get("y"),
            "lon": geo.get("x"),
            "legalStatus": item.get("legalStatus", {}).get("description"),
            "location": item.get("location", {}).get("description"),
            "traffic": item.get("traffic", {}).get("description"),
            "population": item.get("population", {}).get("description"),
            "shape": item.get("shape", {}).get("description"),
            "other": item.get("other", {}).get("description"),
        }
        records.append(record)

df = pd.DataFrame(records)
# print(df.head())

In [5]:
print(df.columns)
df.shape

Index(['address', 'isCompare', 'area', 'width', 'height', 'percentQuality',
       'landPrice', 'lat', 'lon', 'legalStatus', 'location', 'traffic',
       'population', 'shape', 'other'],
      dtype='object')


(36348, 15)

In [6]:
df.head(5)

Unnamed: 0,address,isCompare,area,width,height,percentQuality,landPrice,lat,lon,legalStatus,location,traffic,population,shape,other
0,"Thửa đất số 2 (pcl); 3; 193; 194, tờ bản đồ số...",False,592.7,18.42,62.09,,,10.633147,106.690064,Có GCN QSDĐ,ĐT 826C,Nhựa rộng khoảng 10m,Đông đúc,Đa giác,Không có
1,"Thửa đất số 10106, tờ bản đồ số 4, xã Long Hậu...",True,112.0,5.5,29.0,,40466930.0,10.641189,106.688829,Có GCN QSDĐ,ĐT 826C,Nhựa rộng khoảng 10m,Đông đúc,Tương đối vuông vức,
2,"Thửa đất số 79, tờ bản đồ số 7, ấp 4, xã Long ...",True,83.0,4.1,30.5,,45933010.0,10.643927,106.688596,Có GCN QSDĐ,ĐT 826C và đường bê tông 4m,Nhựa rộng khoảng 10m,Đông đúc,Tương đối vuông vức,
3,"Thửa đất số 10328, tờ bản đồ số 4, xã Long Hậu...",True,115.0,7.0,27.0,,45148510.0,10.641385,106.688727,Có GCN QSDĐ,ĐT 826C,Nhựa rộng khoảng 10m,Đông đúc,Tương đối vuông vức,
4,"TĐS 43, TBĐS 168 - 300 Lê Trọng Tấn, phường Tâ...",False,490.9,3.7,31.11,0.7,0.0,10.807799,106.622273,Có GCN QSDĐ,Mặt tiền đường Lê Trọng Tấn,Đường nhựa rộng khoảng 25m (lề mỗi bên rộng kh...,Đông đúc,Hình chữ L,Không có


In [7]:
df.iloc[0, :]

address           Thửa đất số 2 (pcl); 3; 193; 194, tờ bản đồ số...
isCompare                                                     False
area                                                          592.7
width                                                         18.42
height                                                        62.09
percentQuality                                                  NaN
landPrice                                                       NaN
lat                                                       10.633147
lon                                                      106.690064
legalStatus                                             Có GCN QSDĐ
location                                                    ĐT 826C
traffic                                        Nhựa rộng khoảng 10m
population                                                 Đông đúc
shape                                                       Đa giác
other                                           

In [8]:
# Select relevant features
features_numerical = ["area", "width", "height", "percentQuality", "landPrice", "lat", "lon"]
features_categorical = ["legalStatus", "shape", "other"]
features_all = features_numerical + features_categorical


In [9]:
sum(pd.isna(df["lon"]))

36333

In [None]:
print(f"number of unique values: {df["legalStatus"].nunique()}")
for i in (df["legalStatus"].unique()):
    print(i)

number of unique values:, 49
Có GCN QSDĐ
Có GCNQSDĐ
Đã có GCN QSDĐ lâu dài (giả định)
Chưa có GCN QSDĐ, lâu dài (giá bán 95% căn hộ)
Chưa có GCN QSDD, GCN lâu dài (giá bán 100% căn hộ)
Chưa có GCN QSDĐ, (giá bán 95% căn hộ)
Chưa có GCN QSDĐ, (giá bán 100% căn hộ)
0
Chưa có GCN QSDD (giá bán 100% căn hộ)
nan
0.0
Giá bán bao gồm phí cấp GCN QSDĐ lâu dài
GCN QSDD
HĐMB
Hợp đồng mua bán
Hợp đồng mua bán, giá bán bao phí ra GCN QSDĐ
Hợp đồng mua bán (giá bán bao gồm 5% bao ra sổ)
Đã có GCN QSDĐ
Chưa có GCN QSDĐ, thời hạn sử dụng đất lâu dài (giá bán chưa bao gồm 5% giá trị hợp đồng để cấp GCN QSDĐ)
Chưa có GCN QSDĐ, thời hạn sử dụng đất lâu dài (giá bán đã bao gồm 5% giá trị hợp đồng để cấp GCN QSDĐ)
Giá bán bao gồm phí cấp GCN QSDĐ 
Chưa có GCN QSDĐ, (giá bán 97% căn hộ)
Chưa có GCN QSDĐ, GCN lâu dài (giá bán 95% căn hộ)
GCN QSDĐ
Hợp đồng mua bán (giá bán bao gồm tất cả chi phí để cấp GCN QSDĐ)
HDMB
Chưa có GCN QSDĐ
Có GCN QSDD
GCNQSDĐ
Hợp đồng mua bán (giá bán chưa bao gồm 5% bao ra sổ)
 G

In [11]:
for i in (df["shape"].unique()):
    print(i)

Đa giác
Tương đối vuông vức
Hình chữ L
Vuông vức
Không vuông vức
Chữ T
Hình Phiễu
0
Hình chữ T, khoảng 55% đất bị che khuất
Đa giác nhiều góc cạnh
None
Tương đối
Chữ W
Chữ L
nan
Không vuông vức, một phần thửa đất bị che khuất
Hình đa giác, không vuông vức
0.0
Không vuông vức, tóp hậu
Tương đối vông vức
Tương đối vuông vức (Nở hậu)
Tương đối v uông vức
Hình đa giác nhiều góc cạnh
Hình đa giác
Nở hậu
Tương đối vuông vức, mặt tiền bị hẹp
Tương đối vuông vức, mặt tiền hẹp, phần đất phía sau bi khuất
Khá vuông vức
Hình đa giác tương đối vuông vức
Hình chữ L, tóp hậu
Hình đa giác, nở hậu
Đa giác nhiều góc cạnh, tóp hậu
Kém vuông vức
Hình chữ T
Đa giác, không vuông vức
Hình cổ chai
Không vuông vức, 1 phần đất bị che khuất
Tương đối vuông vức,  phần lớn đất bị che khuất
Tương đối vuông vức, phần lớn đất bị che khuất
Tương đối vuông vức  
vuông vức
Chữ L, tóp hậu
Hình đa giác, phần lớn đất bị che khuất
Đa giác (tóp hậu)
Hình chữ T, khoảng 90% đất bị che khuất
Hình chữ L, khoảng 70% đất bị che k

In [12]:
for i in (df["other"].unique()):
    print(i)

Không có
nan
None
0
Bình thường
QH SDĐ: ODT
QH XD: HNK
QH SDĐ: ODT, CLN
QH XD: Đất nhà ở liên kế xây dựng mới
QH SDĐ: CLN
QH XD: Đất công trình công cộng
Cách chùa khoảng 40m
Bãi Dài Cam Ranh, khu vực chưa có dân cư sinh sống và vắng các dự án du lịch, xung quanh chủ yếu là đất trống 
Trung tâm thành phố Nha Trang, dân cư và du lịch sầm uất, kinh tế phát triển
Thời hạn sử dụng đến ngày 06/9/2054
Mặt tiền thụt, có khả năng gần khu mộ
Không  
Đất có đường điện bắt ngang
0.0
Gần cở sở tôn giáo
Ngay vòng xoay thuận tiện cho việc kinh doanh, mua bán sầm uất
Đất tương đối bằng phẳng, quy hoạch thổ cư
Khu vực cách nghĩa trang 100m
Đất chưa san nền
Đất đã san nền
QH đất TMDV Cổng trước Sân bay Long Thành
Quy hoạch CLN
Quy hoạch thổ cư
Không
Đối diện nghĩa trang
Gần nghĩa trang
Đất trống
Cách nghĩa trang khoảng 10m, quy hoạch đất hỗn hợp, hẻm cụt
Phần lớn đã san lấp bằng phẳng
Chưa san lấp, mục đích để trồng cây
Tương đối vuông vức
Gần trung tâm, đầy đủ đa dạng tiện ích
Kém hơn TSTĐ
Trên thửa đ

In [13]:
# Clean the dataset
# df_cleaned = df.dropna(subset=features_all).copy()
# print(df_cleaned.shape)

# Preprocessing pipeline
preprocessor = ColumnTransformer(transformers=[
    ("num", StandardScaler(), features_numerical),
    ("cat", OneHotEncoder(handle_unknown="ignore"), features_categorical)
])

# Fit-transform the data
X_preprocessed = preprocessor.fit_transform(df)

# Store for next step
df_knn_ready = df.reset_index(drop=True)

X_preprocessed.shape

TypeError: float() argument must be a string or a real number, not 'datetime.datetime'

In [None]:
df_knn_ready.shape

(4784, 15)

In [None]:
# Simulate a new TSTDG (property to be evaluated)
simulated_tstdg = {
    "area": 350.0,
    "width": 18.0,
    "height": 90.0,
    "percentQuality": 78.0,
    "landPrice": 0.0,  # Unknown — what we're trying to estimate
    "lat": 10.045,     # Near other properties
    "lon": 105.730,
    "legalStatus": "Có GCNQSDĐ",
    "shape": "Tương đối vuông vức",
    "other": "QH đất TMDV"
}

# Convert to DataFrame
tstdg_df = pd.DataFrame([simulated_tstdg])

# Apply the same preprocessing pipeline
tstdg_vector = preprocessor.transform(tstdg_df)

# Store for KNN search
tstdg_vector.shape


(1, 450)

In [None]:
from sklearn.neighbors import NearestNeighbors

# Filter database to only include reference properties (TSSS)
df_reference = df_knn_ready[df_knn_ready["isCompare"] == True].reset_index(drop=True)
X_reference = preprocessor.transform(df_reference[features_all])

# Run KNN
knn = NearestNeighbors(n_neighbors=3, metric='euclidean')
knn.fit(X_reference)
distances, indices = knn.kneighbors(tstdg_vector)

# Get top 3 similar properties
top_3_similar = df_reference.iloc[indices[0]].copy()
top_3_similar["similarity_score"] = distances[0]

# import ace_tools as tools; tools.display_dataframe_to_user(name="Top 3 KNN Reference Properties", dataframe=top_3_similar)
