In [29]:
spark.stop()

In [26]:
# Notebook phân tích & xây dựng mapping cho dữ liệu bất động sản
import os
import sys
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

from pyspark.sql import SparkSession, DataFrame
from pyspark.sql.functions import (
    col, to_timestamp, current_timestamp, lit, regexp_replace, trim,
    when, upper, lower, split, element_at, round as spark_round,
    avg, count, percentile_approx, stddev, min as spark_min, max as spark_max,
    udf, length, expr
)
from pyspark.sql.types import StringType, DoubleType, BooleanType
from pyspark.sql.window import Window

# Thêm thư mục gốc vào sys.path
project_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))
sys.path.append(project_root)

# Tạo Spark Session
spark = SparkSession.builder \
    .appName("BatDongSan Mapping Analysis") \
    .config("spark.ui.port", "4050") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://namenode:9000") \
    .getOrCreate()

print("Spark session created successfully")

Spark session created successfully


25/06/14 17:37:30 WARN Utils: Service 'SparkUI' could not bind on port 4050. Attempting port 4051.


In [27]:
parquet_file = "/data/realestate/processed/ml/feature_store/house/2025/06/12/features_house_20250612.parquet"
df = spark.read.parquet(parquet_file)

from pyspark.sql.functions import col

# df_dedup = df.dropDuplicates(["id"])
# df_selected = df_dedup.filter(col("id") == "438d1f24c5346fe3c68f2ddb662d691f").select(
#     "id",
#     "house_direction",
#     "house_direction_code",
#     "legal_status",
#     "legal_status_code",
#     "interior",
#     "interior_code",
#     "house_type",
#     "house_type_code",
# )

df_selected = df.select("id","latitude","longitude","province_id", "area", "population_density", "price")

df_selected.show(100, truncate=False)
# Loại bỏ trùng lặp hoàn toàn theo cột id

df.printSchema()

df.count()


+--------------------------------+------------------+------------------+-----------+--------+------------------+-------------------+
|id                              |latitude          |longitude         |province_id|area    |population_density|price              |
+--------------------------------+------------------+------------------+-----------+--------+------------------+-------------------+
|806760f3acd068a381cf483700d61220|10.000787         |105.802895        |12         |100.0   |874.0             |6.0E9              |
|9d3cc46e5d771f6f458382b299155a48|10.0019219848086  |105.772804929267  |12         |100.0   |874.0             |1.19E10            |
|9ba459e0875464f2bf84ccf35556204d|10.0021699671995  |105.77329716466   |12         |95.0    |874.0             |1.25E10            |
|95636d6542d3db4e1fbb4d604a2d75db|10.003073176491   |105.77253646868   |12         |143.0   |874.0             |9.3E9              |
|3dd8d69a88f723af4097574361de389d|10.00345          |105.75147       

28659

In [28]:
from pyspark.sql.functions import count

df.groupBy("province_id").agg(count("*").alias("count")).orderBy("count", ascending=False).show(100, truncate=False)


+-----------+-----+
|province_id|count|
+-----------+-----+
|1          |16001|
|2          |5515 |
|3          |2603 |
|4          |1009 |
|6          |668  |
|5          |474  |
|7          |393  |
|12         |369  |
|8          |281  |
|14         |147  |
|10         |136  |
|11         |110  |
|32         |88   |
|26         |80   |
|15         |70   |
|9          |63   |
|30         |55   |
|16         |54   |
|40         |52   |
|13         |50   |
|25         |39   |
|17         |37   |
|24         |31   |
|43         |27   |
|37         |27   |
|47         |25   |
|48         |23   |
|31         |22   |
|19         |21   |
|18         |20   |
|39         |15   |
|23         |13   |
|44         |12   |
|20         |12   |
|27         |11   |
|35         |11   |
|36         |11   |
|52         |10   |
|21         |10   |
|22         |9    |
|28         |7    |
|55         |7    |
|45         |7    |
|42         |6    |
|34         |4    |
|50         |4    |
|58         |4    |


In [43]:
from pyspark.sql.functions import col, count

def summarize_encoded_fields(df, field_pairs):
    """
    Thống kê số lượng từng giá trị mô tả + ID mapping của các field.

    Args:
        df (DataFrame): Spark DataFrame chứa dữ liệu đã mapping.
        field_pairs (list of tuples): Danh sách (field_name, field_id_name) cần thống kê.

    Returns:
        None: In kết quả trực tiếp bằng .show()
    """
    for field_name, field_id in field_pairs:
        print(f"\n📊 Thống kê cho trường: {field_name} ({field_id})")

        df.filter(col(field_name).isNotNull() & col(field_id).isNotNull()) \
          .groupBy(col(field_name).alias("value"), col(field_id).alias("id")) \
          .agg(count("*").alias("count")) \
          .orderBy(col("count").desc()) \
          .show(truncate=False, n=100)


In [44]:
field_mappings = [
    ("house_direction", "house_direction_id"),
    ("legal_status", "legal_status_id"),
    ("interior", "interior_id"),
    ("house_type", "house_type_id"),
]

summarize_encoded_fields(df, field_mappings)



📊 Thống kê cho trường: house_direction (house_direction_id)
+--------+---+-----+
|value   |id |count|
+--------+---+-----+
|unknown |-1 |18781|
|Đông Nam|6  |1152 |
|Đông    |1  |724  |
|Đông Bắc|5  |713  |
|Tây Bắc |7  |669  |
|Tây Nam |8  |652  |
|Nam     |3  |614  |
|Tây     |2  |581  |
|Bắc     |4  |464  |
+--------+---+-----+


📊 Thống kê cho trường: legal_status (legal_status_id)
+------------------+---+-----+
|value             |id |count|
+------------------+---+-----+
|Đã có sổ          |1  |22573|
|unknown           |-1 |843  |
|Sổ chung / Vi bằng|5  |536  |
|Đang chờ sổ       |2  |222  |
|Giấy tờ viết tay  |6  |115  |
|Không có sổ       |4  |61   |
+------------------+---+-----+


📊 Thống kê cho trường: interior (interior_id)
+------------+---+-----+
|value       |id |count|
+------------+---+-----+
|unknown     |-1 |12335|
|Đầy đủ      |2  |5809 |
|Cao cấp     |1  |2933 |
|Cơ bản      |3  |2834 |
|Bàn giao thô|4  |439  |
+------------+---+-----+


📊 Thống kê cho trường: ho

In [41]:
from pyspark.sql.functions import col, count

def summarize_chotot_encoded_string_as_number(df):
    """
    Thống kê số lượng mỗi giá trị dạng số (dưới dạng chuỗi) cho các trường Chotot đã encode bằng chuỗi.

    Args:
        df (DataFrame): DataFrame chứa các trường dạng số nhưng kiểu String
    """
    fields = ["house_direction", "legal_status", "interior", "house_type"]

    for field in fields:
        print(f"\n📊 Thống kê cho trường: {field} (giá trị là số nhưng kiểu chuỗi)")

        df.filter(col(field).isNotNull()) \
          .groupBy(col(field).alias("id")) \
          .agg(count("*").alias("count")) \
          .orderBy(col("id").cast("int")) \
          .show(truncate=False)
summarize_chotot_encoded_string_as_number(df)



📊 Thống kê cho trường: house_direction (giá trị là số nhưng kiểu chuỗi)
+---+-----+
|id |count|
+---+-----+
|   |15169|
|1  |614  |
|2  |493  |
|3  |517  |
|4  |382  |
|5  |590  |
|6  |989  |
|7  |542  |
|8  |547  |
+---+-----+


📊 Thống kê cho trường: legal_status (giá trị là số nhưng kiểu chuỗi)
+---+-----+
|id |count|
+---+-----+
|   |12   |
|1  |18934|
|2  |214  |
|4  |53   |
|5  |515  |
|6  |115  |
+---+-----+


📊 Thống kê cho trường: interior (giá trị là số nhưng kiểu chuỗi)
+---+-----+
|id |count|
+---+-----+
|   |9659 |
|1  |2881 |
|2  |4638 |
|3  |2342 |
|4  |323  |
+---+-----+


📊 Thống kê cho trường: house_type (giá trị là số nhưng kiểu chuỗi)
+---+-----+
|id |count|
+---+-----+
|   |2    |
|1  |5235 |
|2  |378  |
|3  |13415|
|4  |813  |
+---+-----+



In [93]:
# Thống kê cơ bản về các cột số
df.describe().show()

# Kiểm tra phân phối giá trị của các cột dạng chuỗi (đếm tần suất các giá trị)
from pyspark.sql.functions import col

# Lặp qua các cột để kiểm tra phân phối giá trị của các cột dạng chuỗi
for column in df.columns:
    if dict(df.dtypes)[column] == 'string':  # Kiểm tra xem cột có phải là kiểu string không
        print(f"Phân phối giá trị cho cột: {column}")
        df.groupBy(column).count().show()


                                                                                

+-------+--------------------+--------------------+----------+--------------------+--------------------+--------------------+---------+---------+---------+----------------+------------------+------------------+--------------------+------------------+-------------------+------------------+------------------+-----------------+-----------------+------------------+------------------+------------------+-----------------+------------------+------------------+------------------+------------------+------------------+--------------------+-------------+-------------------------+-------------------+-------------+
|summary|                  id|                 url|    source|               title|         description|            location|data_type| province| district|            ward|          latitude|         longitude|               price|              area|       price_per_m2|           bedroom|          bathroom|      floor_count|  house_direction|      legal_status|          interior|        

In [94]:
# Kiểm tra các giá trị min và max cho các cột số
for column in df.columns:
    if dict(df.dtypes)[column] in ['double', 'int']:  # Kiểm tra chỉ với các cột số
        min_value = df.selectExpr(f"min({column})").collect()[0][0]
        max_value = df.selectExpr(f"max({column})").collect()[0][0]
        print(f"Cột: {column}")
        print(f"  Min: {min_value}")
        print(f"  Max: {max_value}")
        print("-" * 50)


Cột: latitude
  Min: 9.156794
  Max: 21.4526750773141
--------------------------------------------------
Cột: longitude
  Min: 103.9028
  Max: 109.372375
--------------------------------------------------
Cột: price
  Min: 2100000.0
  Max: 2100000000000.0
--------------------------------------------------
Cột: area
  Min: 10.0
  Max: 30000.0
--------------------------------------------------
Cột: price_per_m2
  Min: 100.0
  Max: 317780000000.0
--------------------------------------------------
Cột: bedroom
  Min: 1.0
  Max: 155.0
--------------------------------------------------
Cột: bathroom
  Min: 1.0
  Max: 100.0
--------------------------------------------------
Cột: floor_count
  Min: 1.0
  Max: 77.0
--------------------------------------------------
Cột: width
  Min: 1.0
  Max: 43000.0
--------------------------------------------------
Cột: length
  Min: 1.0
  Max: 14000.0
--------------------------------------------------
Cột: living_size
  Min: 2.0
  Max: 60100.0
-------------

In [103]:
# Lọc ra cột url và price
price_url_df = df.select("url", "price", "area","price_per_m2")

# Truy xuất các bản ghi có giá trị price bằng 1 (có thể là giá trị mặc định hoặc lỗi)
low_price_url_df = price_url_df.filter(col("price") < 50_000_000)
low_price_url_df.show(5, truncate=False)

# Truy xuất các bản ghi có giá trị price quá cao (> 200 tỷ)
high_price_url_df = price_url_df.filter(col("price") > 1_000_000_000_000)

high_price_url_df.show(5, truncate=False)
high_price_url_df.count()


+------------------------------------------------------------------------------------------------------------------------------------------------------------+---------+-----+-----------------+
|url                                                                                                                                                         |price    |area |price_per_m2     |
+------------------------------------------------------------------------------------------------------------------------------------------------------------+---------+-----+-----------------+
|https://nha.chotot.com/125444794.htm                                                                                                                        |4.3E7    |98.0 |438775.5         |
|https://nha.chotot.com/124779035.htm                                                                                                                        |2100000.0|45.0 |46666.667        |
|https://nha.chotot.com/125411718.h

6

In [56]:
from pyspark.sql.functions import col, count, when

# Tính tổng số dòng trong DataFrame
total_rows = df.count()

# Kiểm tra nếu DataFrame có dữ liệu
if total_rows == 0:
    print("DataFrame rỗng, không có dữ liệu để kiểm tra.")
else:
    # Lấy danh sách các cột trong DataFrame
    columns = df.columns

    # Kiểm tra tỷ lệ thiếu trong từng cột
    missing_data = {}

    for column in columns:
        missing_count = df.filter(col(column).isNull()).count()
        missing_percentage = (missing_count / total_rows) * 100
        missing_data[column] = {"missing_count": missing_count, "missing_percentage": missing_percentage}

    # Hiển thị kết quả
    for column, data in missing_data.items():
        print(f"Cột: {column}")
        print(f"  Thiếu: {data['missing_count']} giá trị ({data['missing_percentage']:.2f}%)")
        print("-" * 50)


Cột: price
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: area
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: latitude
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: longitude
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: price_per_m2
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: bedroom
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: bathroom
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: district
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: ward
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: house_direction
  Thiếu: 0 giá trị (0.00%)
--------------------------------------------------
Cột: legal_status
  Thiếu: 0 giá trị (0.00%)
-----------------------------------

In [48]:
from pyspark.sql.functions import col
from pyspark.sql.types import TimestampType, DateType

# Chuyển cột dạng Date và Timestamp sang String
for name, dtype in df.dtypes:
    if dtype in ('timestamp', 'date'):
        df = df.withColumn(name, col(name).cast("string"))

df.printSchema()


root
 |-- price: double (nullable = true)
 |-- area: double (nullable = true)
 |-- latitude: double (nullable = true)
 |-- longitude: double (nullable = true)
 |-- price_per_m2: double (nullable = true)
 |-- bedroom: double (nullable = true)
 |-- bathroom: double (nullable = true)
 |-- district: string (nullable = true)
 |-- ward: string (nullable = true)
 |-- house_direction: string (nullable = true)
 |-- legal_status: string (nullable = true)
 |-- interior: string (nullable = true)
 |-- house_type: string (nullable = true)
 |-- property_type: string (nullable = true)
 |-- data_quality_score: double (nullable = true)
 |-- id: string (nullable = true)
 |-- data_date: string (nullable = true)
 |-- bedroom_bathroom_ratio: double (nullable = true)
 |-- total_rooms: double (nullable = true)
 |-- area_per_room: double (nullable = true)
 |-- area_category: string (nullable = true)
 |-- price_vs_market: integer (nullable = true)
 |-- distance_to_center: double (nullable = true)
 |-- location_

In [51]:
from pyspark.sql.functions import col, count, when

# Tính tỷ lệ phần trăm của các giá trị thiếu cho mỗi cột
total_rows = df.count()

# Lấy danh sách các cột trong DataFrame
columns = df.columns

# Kiểm tra tỷ lệ thiếu trong từng cột
missing_data = {}

for column in columns:
    missing_count = df.filter(col(column).isNull()).count()
    missing_percentage = (missing_count / total_rows) * 100
    missing_data[column] = {"missing_count": missing_count, "missing_percentage": missing_percentage}

# Hiển thị kết quả
for column, data in missing_data.items():
    print(f"Cột: {column}")
    print(f"  Thiếu: {data['missing_count']} giá trị ({data['missing_percentage']:.2f}%)")
    print("-" * 50)


ZeroDivisionError: division by zero

In [41]:
from pyspark.sql.functions import col
from pyspark.sql.types import TimestampType, DateType

# Chuyển cột dạng Date và Timestamp sang String
for name, dtype in df.dtypes:
    if dtype in ('timestamp', 'date'):
        df = df.withColumn(name, col(name).cast("string"))

df.printSchema()
df.count()

root
 |-- id: string (nullable = true)
 |-- url: string (nullable = true)
 |-- source: string (nullable = true)
 |-- title: string (nullable = true)
 |-- description: string (nullable = true)
 |-- location: string (nullable = true)
 |-- data_type: string (nullable = true)
 |-- province: string (nullable = true)
 |-- district: string (nullable = true)
 |-- ward: string (nullable = true)
 |-- latitude: double (nullable = true)
 |-- longitude: double (nullable = true)
 |-- price: double (nullable = true)
 |-- area: double (nullable = true)
 |-- price_per_m2: double (nullable = true)
 |-- bedroom: double (nullable = true)
 |-- bathroom: double (nullable = true)
 |-- floor_count: double (nullable = true)
 |-- house_direction: string (nullable = true)
 |-- legal_status: string (nullable = true)
 |-- interior: string (nullable = true)
 |-- house_type: string (nullable = true)
 |-- width: double (nullable = true)
 |-- length: double (nullable = true)
 |-- living_size: double (nullable = true)


15344

In [34]:
import os

output_dir = "/tmp/house_data_csv"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

csv_output_path = f"{output_dir}/house_data.csv"

# Lưu DataFrame dưới dạng file CSV
df.toPandas().to_csv(csv_output_path, index=False)

# Kiểm tra file
print(f"File CSV đã được lưu tại: {csv_output_path}")
print(f"Kích thước file: {os.path.getsize(csv_output_path) / (1024*1024):.2f} MB")


                                                                                

File CSV đã được lưu tại: /tmp/house_data_csv/house_data.csv
Kích thước file: 84.88 MB


In [36]:
from IPython.display import HTML
import base64

def create_download_link(file_path, filename=None):
    if filename is None:
        filename = os.path.basename(file_path)

    with open(file_path, "rb") as f:
        data = f.read()

    b64 = base64.b64encode(data).decode()
    href = f'<a download="{filename}" href="data:text/csv;base64,{b64}" target="_blank">Tải xuống {filename}</a>'
    return HTML(href)

# Hiển thị link tải xuống
create_download_link(csv_output_path, "house_data.csv")

/tmp/data đã được xóa.


In [1]:
spark.stop()

NameError: name 'spark' is not defined