In [1]:
import os
import sys
from datetime import datetime
import re

from pyspark.sql import SparkSession, DataFrame
from pyspark.sql.functions import (
    col, to_timestamp, current_timestamp, lit, regexp_replace, trim,
    when, upper, lower, split, element_at, round as spark_round,
    avg, count, percentile_approx
)

# Thêm thư mục gốc vào sys.path (điều chỉnh đường dẫn theo môi trường của bạn)
project_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))
sys.path.append(project_root)

# Tạo Spark Session
spark = SparkSession.builder \
    .appName("Chotot Data Processing") \
    .config("spark.ui.port", "4050") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://namenode:9000") \
    .getOrCreate()

print("Spark session created successfully")

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/05/24 16:48:08 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Spark session created successfully


In [2]:
def get_date_format(date_obj=None):
    """Trả về ngày theo định dạng YYYY-MM-DD"""
    if date_obj is None:
        date_obj = datetime.now()
    return date_obj.strftime("%Y-%m-%d")

def log_dataframe_info(df, name="dataframe"):
    """In thông tin về DataFrame"""
    print(f"\n===== Thông tin về {name} =====")
    print(f"Số lượng bản ghi: {df.count()}")
    print(f"Schema:")
    df.printSchema()
    print("\nMẫu dữ liệu:")
    df.show(5, truncate=False)

    # Thống kê null values
    null_counts = df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns])
    print("\nSố lượng giá trị NULL trong từng cột:")
    null_counts.show(truncate=False)

In [3]:
# Điều chỉnh đường dẫn file dữ liệu theo môi trường của bạn
# Có thể sử dụng file CSV trong thư mục tmp
json_path = "hdfs://namenode:9000/data/realestate/raw/batdongsan/house/2025/05/*"

try:
    # Đọc dữ liệu JSON từ HDFS
    df = spark.read.option("multiline", "false").json(json_path)
    print(f"Đã đọc dữ liệu JSON từ: {json_path}")
    log_dataframe_info(df, "raw_json_data")

    # Chuyển đổi DataFrame thành bronze_df để duy trì tính nhất quán với các cell tiếp theo
    bronze_df = df

    # Kiểm tra các trường cần thiết
    required_fields = ["area", "price", "location", "bedroom", "bathroom"]
    for field in required_fields:
        if field not in bronze_df.columns:
            print(f"Cảnh báo: Không tìm thấy trường {field} trong dữ liệu JSON")

except Exception as e:
    print(f"Lỗi khi đọc dữ liệu JSON từ HDFS: {str(e)}")
    # Tạo DataFrame trống nếu có lỗi
    from pyspark.sql.types import StructType, StructField, StringType
    schema = StructType([
        StructField("url", StringType(), True),
        StructField("title", StringType(), True),
        StructField("price", StringType(), True),
        StructField("price_per_m2", StringType(), True),
        StructField("area", StringType(), True),
        StructField("bedroom", StringType(), True),
        StructField("bathroom", StringType(), True),
        StructField("floor_count", StringType(), True),
        StructField("length", StringType(), True),
        StructField("width", StringType(), True),
        StructField("living_size", StringType(), True),
        StructField("house_direction", StringType(), True),
        StructField("legal_status", StringType(), True),
        StructField("interior", StringType(), True),
        StructField("house_type", StringType(), True),
        StructField("location", StringType(), True),
        StructField("description", StringType(), True),
        StructField("posted_date", StringType(), True),
        StructField("crawl_timestamp", StringType(), True),
        StructField("latitude", StringType(), True),
        StructField("longitude", StringType(), True),
        StructField("seller_info", StringType(), True)
    ])
    bronze_df = spark.createDataFrame([], schema)


                                                                                

Đã đọc dữ liệu JSON từ: hdfs://namenode:9000/data/realestate/raw/batdongsan/house/2025/05/*

===== Thông tin về raw_json_data =====
Số lượng bản ghi: 17336
Schema:
root
 |-- area: string (nullable = true)
 |-- bathroom: string (nullable = true)
 |-- bedroom: string (nullable = true)
 |-- crawl_timestamp: string (nullable = true)
 |-- data_type: string (nullable = true)
 |-- description: string (nullable = true)
 |-- facade_width: string (nullable = true)
 |-- floor_count: string (nullable = true)
 |-- house_direction: string (nullable = true)
 |-- interior: string (nullable = true)
 |-- latitude: string (nullable = true)
 |-- legal_status: string (nullable = true)
 |-- location: string (nullable = true)
 |-- longitude: string (nullable = true)
 |-- posted_date: string (nullable = true)
 |-- price: string (nullable = true)
 |-- price_per_m2: string (nullable = true)
 |-- road_width: string (nullable = true)
 |-- seller_info: string (nullable = true)
 |-- source: string (nullable = true)