# Xử lý dữ liệu Chotot

Notebook này triển khai các bước xử lý dữ liệu từ Chotot, bao gồm:
- Chuyển đổi các cột số
- Xử lý trường giá và giá/m²
- Xử lý dữ liệu trùng lặp
- Xử lý giá trị thiếu
- Loại bỏ giá trị ngoại lai (outliers)
- Lọc giá trị không hợp lý

## Khởi tạo Spark Session và import thư viện

In [None]:
import os
import sys
from datetime import datetime
import re

from pyspark.sql import SparkSession, DataFrame
from pyspark.sql.functions import (
    col, to_timestamp, current_timestamp, lit, regexp_replace, trim,
    when, upper, lower, split, element_at, round as spark_round,
    avg, count, percentile_approx
)

# Thêm thư mục gốc vào sys.path (điều chỉnh đường dẫn theo môi trường của bạn)
project_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))
sys.path.append(project_root)

# Tạo Spark Session
spark = SparkSession.builder \
    .appName("Chotot Data Processing") \
    .config("spark.ui.port", "4050") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .getOrCreate()

print("Spark session created successfully")

## Định nghĩa các hàm tiện ích

Đối với Jupyter notebook, chúng ta sẽ tạo các hàm tiện ích tương tự với mã gốc.

In [None]:
def get_date_format(date_obj=None):
    """Trả về ngày theo định dạng YYYY-MM-DD"""
    if date_obj is None:
        date_obj = datetime.now()
    return date_obj.strftime("%Y-%m-%d")

def log_dataframe_info(df, name="dataframe"):
    """In thông tin về DataFrame"""
    print(f"\n===== Thông tin về {name} =====")
    print(f"Số lượng bản ghi: {df.count()}")
    print(f"Schema:")
    df.printSchema()
    print("\nMẫu dữ liệu:")
    df.show(5, truncate=False)

    # Thống kê null values
    null_counts = df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns])
    print("\nSố lượng giá trị NULL trong từng cột:")
    null_counts.show(truncate=False)

## Đọc dữ liệu

Đọc dữ liệu từ file Parquet. Đối với notebook, chúng ta sẽ sử dụng file CSV để tiện thử nghiệm.

In [None]:
# Điều chỉnh đường dẫn file dữ liệu theo môi trường của bạn
# Có thể sử dụng file CSV trong thư mục tmp
json_path = "hdfs://namenode:9000/data/realestate/raw/chotot/house/2025/05/*"
df = spark.read.option("multiline", "false").json(json_path)
# Đọc dữ liệu


## Chuyển đổi các cột số

In [None]:
# Chuyển đổi các cột số
transformed_df = (
    bronze_df.withColumn(
        "area", regexp_replace(col("area"), "[^0-9\\.]", "").cast("double")
    )
    .withColumn(
        "bathroom", regexp_replace(col("bathroom"), "[^0-9]", "").cast("double")
    )
    .withColumn(
        "bedroom", regexp_replace(col("bedroom"), "[^0-9]", "").cast("double")
    )
    .withColumn(
        "floor_count",
        regexp_replace(col("floor_count"), "[^0-9]", "").cast("double"),
    )
    .withColumn(
        "length", regexp_replace(col("length"), "[^0-9\\.]", "").cast("double")
    )
    .withColumn(
        "width", regexp_replace(col("width"), "[^0-9\\.]", "").cast("double")
    )
    .withColumn(
        "living_size",
        regexp_replace(col("living_size"), "[^0-9\\.]", "").cast("double"),
    )
    .withColumn("latitude", col("latitude").cast("double"))
    .withColumn("longitude", col("longitude").cast("double"))
)

print("Đã chuyển đổi các cột số")
transformed_df.select("area", "bathroom", "bedroom", "floor_count", "length", "width").show(5)

## Xử lý trường giá

In [None]:
# Xử lý trường giá
transformed_df = (
    transformed_df.withColumn("price_text", trim(col("price")))
    .withColumn(
        "price",
        when(
            lower(col("price_text")).contains("tỷ"),
            regexp_replace(col("price_text"), "[^0-9\\.]", "").cast("double")
            * 1000000000,
        )
        .when(
            lower(col("price_text")).contains("triệu"),
            regexp_replace(col("price_text"), "[^0-9\\.]", "").cast("double")
            * 1000000,
        )
        .otherwise(
            regexp_replace(col("price_text"), "[^0-9\\.]", "").cast("double")
        ),
    )
    .drop("price_text")
)

print("Đã xử lý trường giá")
transformed_df.select("price").show(5)

## Xử lý trường giá/m²

In [None]:
# Xử lý trường giá/m2 - đơn vị chỉ là triệu
transformed_df = (
    transformed_df.withColumn("price_per_m2_text", trim(col("price_per_m2")))
    .withColumn(
        "price_per_m2",
        regexp_replace(col("price_per_m2_text"), "[^0-9\\.]", "").cast("double")
        * 1000000,
    )
    .drop("price_per_m2_text")
)

print("Đã xử lý trường giá/m2")
transformed_df.select("price_per_m2").show(5)

## Chuyển đổi timestamp

In [None]:
# Chuyển đổi timestamp
transformed_df = transformed_df.withColumn(
    "crawl_timestamp", to_timestamp(col("crawl_timestamp"))
).withColumn("posted_date", to_timestamp(col("posted_date")))

print("Đã chuyển đổi timestamp")
transformed_df.select("crawl_timestamp", "posted_date").show(5)

## Xử lý text fields

In [None]:
# Xử lý text fields - giữ nguyên các trường đã mã hóa thành số
transformed_df = (
    transformed_df.withColumn("location", trim(col("location")))
    .withColumn("title", trim(col("title")))
    .withColumn("description", trim(col("description")))
    # Các trường house_direction, legal_status, interior, house_type đã được mã hóa thành số, giữ nguyên
)

print("Đã xử lý text fields")
transformed_df.select("location", "title", "house_direction", "house_type", "legal_status", "interior").show(5, truncate=False)

## Xử lý dữ liệu trùng lặp

In [None]:
# Đếm số bản ghi trước khi xử lý
count_before = transformed_df.count()
print(f"Số bản ghi trước khi xử lý trùng lặp: {count_before}")

# Xử lý dữ liệu trùng lặp
transformed_df = transformed_df.dropDuplicates(["url"])

# Đếm số bản ghi sau khi xử lý
count_after = transformed_df.count()
print(f"Số bản ghi sau khi xử lý trùng lặp: {count_after}")
print(f"Số bản ghi trùng lặp đã loại bỏ: {count_before - count_after}")

## Xử lý giá trị thiếu

In [None]:
# Tính toán giá trị trung bình cho các cột số
avg_values = {}
for col_name in ["bathroom", "bedroom", "floor_count"]:
    avg_val = (
        transformed_df.filter(col(col_name).isNotNull())
        .agg(avg(col(col_name)))
        .collect()[0][0]
    )
    if avg_val is not None:
        avg_values[col_name] = avg_val

print("Giá trị trung bình cho các cột số:")
for col_name, value in avg_values.items():
    print(f"  - {col_name}: {value:.2f}")

# Điền giá trị thiếu cho các cột số quan trọng
for col_name in ["bathroom", "bedroom", "floor_count"]:
    if col_name in avg_values:
        transformed_df = transformed_df.withColumn(
            col_name,
            when(col(col_name).isNull(), avg_values[col_name]).otherwise(
                col(col_name)
            ),
        )

# Xóa cột seller_info (không mang nhiều giá trị phân tích)
if "seller_info" in transformed_df.columns:
    transformed_df = transformed_df.drop("seller_info")
    print("Đã xóa cột seller_info")

print("\nSố lượng giá trị NULL sau khi điền giá trị thiếu:")
null_counts_after = transformed_df.select([count(when(col(c).isNull(), c)).alias(c) for c in transformed_df.columns])
null_counts_after.show()

## Xử lý giá trị ngoại lai (outliers)

In [None]:
# Tính percentile cho các cột số để xác định ngưỡng
percentiles = transformed_df.select(
    percentile_approx("area", [0.01, 0.99], 10000).alias("area_percentiles"),
    percentile_approx("price", [0.01, 0.99], 10000).alias("price_percentiles"),
    percentile_approx("price_per_m2", [0.01, 0.99], 10000).alias(
        "price_per_m2_percentiles"
    ),
    percentile_approx("bedroom", [0.01, 0.99], 10000).alias(
        "bedroom_percentiles"
    ),
    percentile_approx("bathroom", [0.01, 0.99], 10000).alias(
        "bathroom_percentiles"
    ),
).collect()[0]

print("Ngưỡng percentile cho các cột:")
for col_name in ["area", "price", "price_per_m2", "bedroom", "bathroom"]:
    percentile_values = percentiles[f"{col_name}_percentiles"]
    print(f"  - {col_name}: 1%={percentile_values[0]}, 99%={percentile_values[1]}")

# Đếm số bản ghi trước khi lọc
count_before_filter = transformed_df.count()
print(f"\nSố bản ghi trước khi lọc outliers: {count_before_filter}")

# Lọc giá trị ngoại lai dựa trên percentiles - price không bao giờ thiếu
filtered_df = transformed_df.filter(
    (col("area") >= percentiles["area_percentiles"][0])
    & (col("area") <= percentiles["area_percentiles"][1])
    & (col("price") >= percentiles["price_percentiles"][0])
    & (col("price") <= percentiles["price_percentiles"][1])
    & (
        (col("price_per_m2").isNull())
        | (
            (col("price_per_m2") >= percentiles["price_per_m2_percentiles"][0])
            & (
                col("price_per_m2")
                <= percentiles["price_per_m2_percentiles"][1]
            )
        )
    )
    & (
        (col("bedroom").isNull())
        | (
            (col("bedroom") >= percentiles["bedroom_percentiles"][0])
            & (col("bedroom") <= percentiles["bedroom_percentiles"][1])
        )
    )
    & (
        (col("bathroom").isNull())
        | (
            (col("bathroom") >= percentiles["bathroom_percentiles"][0])
            & (col("bathroom") <= percentiles["bathroom_percentiles"][1])
        )
    )
)

# Đếm số bản ghi sau khi lọc ngoại lai
count_after_filter = filtered_df.count()
print(f"Số bản ghi sau khi lọc outliers: {count_after_filter}")
print(f"Số bản ghi outlier đã loại bỏ: {count_before_filter - count_after_filter}")

# Cập nhật DataFrame
transformed_df = filtered_df

## Lọc giá trị không hợp lý

In [None]:
# Đếm số bản ghi trước khi lọc
count_before_logical = transformed_df.count()
print(f"Số bản ghi trước khi lọc giá trị không hợp lý: {count_before_logical}")

# Lọc giá trị không hợp lý - price luôn có giá trị
transformed_df = transformed_df.filter(
    (col("area") > 0)
    & (col("price") > 0)
    & ((col("price_per_m2").isNull()) | (col("price_per_m2") > 0))
    & ((col("bedroom").isNull()) | (col("bedroom") >= 0))
    & ((col("bathroom").isNull()) | (col("bathroom") >= 0))
    & ((col("floor_count").isNull()) | (col("floor_count") >= 0))
)

# Đếm số bản ghi sau khi lọc
count_after_logical = transformed_df.count()
print(f"Số bản ghi sau khi lọc giá trị không hợp lý: {count_after_logical}")
print(f"Số bản ghi không hợp lý đã loại bỏ: {count_before_logical - count_after_logical}")

## Tính toán price_per_m2 nếu thiếu

In [None]:
# Đếm số bản ghi thiếu price_per_m2 trước khi điền
missing_price_per_m2 = transformed_df.filter(col("price_per_m2").isNull()).count()
print(f"Số bản ghi thiếu price_per_m2 trước khi điền: {missing_price_per_m2}")

# Tạo giá trị price_per_m2 nếu thiếu
transformed_df = transformed_df.withColumn(
    "price_per_m2",
    when(
        col("price_per_m2").isNull() & col("area").isNotNull(),
        spark_round(col("price") / col("area"), 2),
    ).otherwise(col("price_per_m2")),
)

# Đếm số bản ghi thiếu price_per_m2 sau khi điền
missing_price_per_m2_after = transformed_df.filter(col("price_per_m2").isNull()).count()
print(f"Số bản ghi thiếu price_per_m2 sau khi điền: {missing_price_per_m2_after}")
print(f"Số bản ghi đã điền price_per_m2: {missing_price_per_m2 - missing_price_per_m2_after}")

## Lọc các bản ghi không hợp lệ

In [None]:
# Đếm số bản ghi trước khi lọc cuối cùng
count_before_final = transformed_df.count()
print(f"Số bản ghi trước khi lọc cuối cùng: {count_before_final}")

# Lọc bỏ các bản ghi không hợp lệ - price không bao giờ thiếu
valid_df = transformed_df.filter(
    col("area").isNotNull() & col("location").isNotNull()
)

# Đếm số bản ghi sau khi lọc cuối cùng
count_after_final = valid_df.count()
print(f"Số bản ghi sau khi lọc cuối cùng: {count_after_final}")
print(f"Số bản ghi không hợp lệ đã loại bỏ: {count_before_final - count_after_final}")

## Thống kê kết quả

In [None]:
# Tổng kết quá trình xử lý
total_records_initial = bronze_df.count()
valid_records = valid_df.count()
filtered_records = total_records_initial - valid_records

print(f"Tổng số bản ghi ban đầu: {total_records_initial}")
print(f"Số bản ghi hợp lệ sau xử lý: {valid_records}")
print(f"Số bản ghi bị loại bỏ: {filtered_records}")

if total_records_initial > 0:
    print(f"Tỷ lệ dữ liệu giữ lại: {valid_records/total_records_initial*100:.2f}%")

# Thống kê các cột còn thiếu giá trị
missing_stats = valid_df.select(
    [count(when(col(c).isNull(), c)).alias(c) for c in valid_df.columns]
).collect()[0]

print("\nThống kê giá trị còn thiếu sau xử lý:")
for col_name in valid_df.columns:
    missing_count = missing_stats[col_name]
    if missing_count > 0:
        print(
            f"  - {col_name}: {missing_count} giá trị thiếu ({missing_count/valid_records*100:.2f}%)"
        )

# Log thông tin sau chuyển đổi
log_dataframe_info(valid_df, "transformed_data")

## Ghi dữ liệu đã xử lý

In [None]:
# Xác định đường dẫn ghi dữ liệu
output_date = get_date_format()
output_path = f"/home/fer/data/real_estate_project/tmp/chotot_transformed_{output_date.replace('-', '')}.parquet"

# Ghi dữ liệu đã xử lý
try:
    valid_df.write.mode("overwrite").parquet(output_path)
    print(f"Đã ghi {valid_df.count()} bản ghi vào {output_path}")
except Exception as e:
    print(f"Lỗi khi ghi dữ liệu: {str(e)}")
    # Nếu không thể ghi parquet, thử ghi CSV
    output_path_csv = f"/home/fer/data/real_estate_project/tmp/chotot_transformed_{output_date.replace('-', '')}.csv"
    try:
        valid_df.write.option("header", "true").mode("overwrite").csv(output_path_csv)
        print(f"Đã ghi {valid_df.count()} bản ghi vào {output_path_csv}")
    except Exception as e2:
        print(f"Lỗi khi ghi dữ liệu CSV: {str(e2)}")

## Phân tích dữ liệu đã xử lý

Sau khi hoàn thành các bước xử lý dữ liệu, bạn có thể thực hiện phân tích thêm trên dữ liệu đã được làm sạch.

In [None]:
# Phân tích phân phối giá
print("Phân phối giá:")
valid_df.select("price").summary(
    "count", "min", "25%", "50%", "75%", "max", "mean", "stddev"
).show()

# Phân phối diện tích
print("\nPhân phối diện tích:")
valid_df.select("area").summary(
    "count", "min", "25%", "50%", "75%", "max", "mean", "stddev"
).show()

# Phân phối giá/m2
print("\nPhân phối giá/m2:")
valid_df.select("price_per_m2").summary(
    "count", "min", "25%", "50%", "75%", "max", "mean", "stddev"
).show()

In [None]:
# Dừng Spark session khi hoàn thành
spark.stop()
print("Spark session đã dừng")