In [6]:
spark.stop()

In [1]:
# Notebook phân tích & xây dựng mapping cho dữ liệu bất động sản
import os
import sys
from datetime import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter

from pyspark.sql import SparkSession, DataFrame
from pyspark.sql.functions import (
    col, to_timestamp, current_timestamp, lit, regexp_replace, trim,
    when, upper, lower, split, element_at, round as spark_round,
    avg, count, percentile_approx, stddev, min as spark_min, max as spark_max,
    udf, length, expr
)
from pyspark.sql.types import StringType, DoubleType, BooleanType
from pyspark.sql.window import Window

# Thêm thư mục gốc vào sys.path
project_root = os.path.abspath(os.path.join(os.getcwd(), "../.."))
sys.path.append(project_root)

# Tạo Spark Session
spark = SparkSession.builder \
    .appName("BatDongSan Mapping Analysis") \
    .config("spark.ui.port", "4050") \
    .config("spark.driver.memory", "4g") \
    .config("spark.executor.memory", "4g") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://namenode:9000") \
    .getOrCreate()

print("Spark session created successfully")

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/05/24 19:07:56 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


Spark session created successfully


In [2]:
# Hàm tiện ích phân tích
def get_date_format(date_obj=None):
    """Trả về ngày theo định dạng YYYY-MM-DD"""
    if date_obj is None:
        date_obj = datetime.now()
    return date_obj.strftime("%Y-%m-%d")

def log_dataframe_info(df, name="dataframe"):
    """In thông tin về DataFrame"""
    print(f"\n===== Thông tin về {name} =====")
    print(f"Số lượng bản ghi: {df.count()}")
    print(f"Schema:")
    df.printSchema()
    print("\nMẫu dữ liệu:")
    df.show(5, truncate=False)

    # Thống kê null values
    null_counts = df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns])
    print("\nSố lượng giá trị NULL trong từng cột:")
    null_counts.show(truncate=False)

def get_unique_values(df, column_name, limit=100):
    """Hiển thị các giá trị duy nhất của một cột và số lượng của chúng"""
    value_counts = df.groupBy(column_name).count().orderBy("count", ascending=False)
    print(f"\n===== Giá trị duy nhất của cột {column_name} =====")
    value_counts.show(limit, truncate=False)
    return value_counts

def plot_histogram(df, column_name, bins=20, title=None):
    """Vẽ biểu đồ histogram cho một cột số"""
    if not title:
        title = f"Histogram của {column_name}"
    
    # Chuyển cột thành pandas để vẽ biểu đồ
    data = df.select(column_name).na.drop().toPandas()
    plt.figure(figsize=(10, 6))
    plt.hist(data[column_name], bins=bins, alpha=0.7)
    plt.title(title)
    plt.xlabel(column_name)
    plt.ylabel('Frequency')
    plt.grid(True, alpha=0.3)
    plt.show()

def plot_boxplot(df, column_name, title=None):
    """Vẽ biểu đồ boxplot cho một cột số"""
    if not title:
        title = f"Boxplot của {column_name}"
    
    # Chuyển cột thành pandas để vẽ biểu đồ
    data = df.select(column_name).na.drop().toPandas()
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=data[column_name])
    plt.title(title)
    plt.xlabel(column_name)
    plt.grid(True, alpha=0.3)
    plt.show()

def detect_outliers(df, column_name, method='iqr', threshold=1.5):
    """Phát hiện outlier dùng phương pháp IQR"""
    
    result = {}
    
    # Tính toán các thống kê
    stats = df.select(
        spark_min(column_name).alias("min"),
        percentile_approx(column_name, 0.25).alias("q1"),
        percentile_approx(column_name, 0.5).alias("median"),
        percentile_approx(column_name, 0.75).alias("q3"),
        spark_max(column_name).alias("max"),
        avg(column_name).alias("mean"),
        stddev(column_name).alias("stddev"),
        count(column_name).alias("count")
    ).collect()[0]
    
    # In các thống kê cơ bản
    print(f"\n===== Thống kê cho cột {column_name} =====")
    print(f"Minimum: {stats['min']}")
    print(f"Q1 (25%): {stats['q1']}")
    print(f"Median: {stats['median']}")
    print(f"Q3 (75%): {stats['q3']}")
    print(f"Maximum: {stats['max']}")
    print(f"Mean: {stats['mean']}")
    print(f"Standard Deviation: {stats['stddev']}")
    print(f"Count: {stats['count']}")
    
    # Tính IQR
    iqr = stats['q3'] - stats['q1']
    
    # Xác định ngưỡng outlier
    lower_bound = stats['q1'] - threshold * iqr
    upper_bound = stats['q3'] + threshold * iqr
    
    print(f"IQR: {iqr}")
    print(f"Lower Bound: {lower_bound}")
    print(f"Upper Bound: {upper_bound}")
    
    # Đếm số lượng outlier
    outliers_count = df.filter(
        (col(column_name) < lower_bound) | 
        (col(column_name) > upper_bound)
    ).count()
    
    outliers_percentage = (outliers_count / stats['count']) * 100 if stats['count'] > 0 else 0
    
    print(f"Số lượng outlier: {outliers_count} ({outliers_percentage:.2f}%)")
    
    result["lower_bound"] = lower_bound
    result["upper_bound"] = upper_bound
    result["outliers_count"] = outliers_count
    result["outliers_percentage"] = outliers_percentage
    result["stats"] = stats
    
    return result

In [3]:
# Đọc dữ liệu
# Ưu tiên sử dụng file CSV trong thư mục tmp nếu có
csv_file = "/home/fer/data/real_estate_project/tmp/csv_files/bds_data_may2025.csv"
json_path = "hdfs://namenode:9000/data/realestate/raw/batdongsan/house/2025/05/*"

try:
    # Thử đọc từ file CSV local
    if os.path.exists(csv_file):
        df = spark.read.option("header", "true").csv(csv_file)
        print(f"Đã đọc dữ liệu từ CSV local: {csv_file}")
    else:
        # Nếu không có file CSV, đọc từ JSON trên HDFS
        df = spark.read.option("multiline", "false").json(json_path)
        print(f"Đã đọc dữ liệu JSON từ: {json_path}")
    
    # Kiểm tra dữ liệu đọc được
    log_dataframe_info(df, "raw_data")
    
except Exception as e:
    print(f"Lỗi khi đọc dữ liệu: {str(e)}")
    # Tạo DataFrame trống nếu có lỗi
    from pyspark.sql.types import StructType, StructField, StringType
    schema = StructType([
        StructField("url", StringType(), True),
        StructField("title", StringType(), True),
        StructField("price", StringType(), True),
        StructField("price_per_m2", StringType(), True),
        StructField("area", StringType(), True),
        StructField("bedroom", StringType(), True),
        StructField("bathroom", StringType(), True),
        StructField("floor_count", StringType(), True),
        StructField("facade_width", StringType(), True),
        StructField("road_width", StringType(), True),
        StructField("house_direction", StringType(), True),
        StructField("legal_status", StringType(), True),
        StructField("interior", StringType(), True),
        StructField("location", StringType(), True),
        StructField("description", StringType(), True),
        StructField("posted_date", StringType(), True),
        StructField("crawl_timestamp", StringType(), True),
        StructField("latitude", StringType(), True),
        StructField("longitude", StringType(), True),
        StructField("seller_info", StringType(), True),
        StructField("source", StringType(), True),
        StructField("data_type", StringType(), True),
    ])
    df = spark.createDataFrame([], schema)

                                                                                

Đã đọc dữ liệu JSON từ: hdfs://namenode:9000/data/realestate/raw/batdongsan/house/2025/05/*

===== Thông tin về raw_data =====
Số lượng bản ghi: 17336
Schema:
root
 |-- area: string (nullable = true)
 |-- bathroom: string (nullable = true)
 |-- bedroom: string (nullable = true)
 |-- crawl_timestamp: string (nullable = true)
 |-- data_type: string (nullable = true)
 |-- description: string (nullable = true)
 |-- facade_width: string (nullable = true)
 |-- floor_count: string (nullable = true)
 |-- house_direction: string (nullable = true)
 |-- interior: string (nullable = true)
 |-- latitude: string (nullable = true)
 |-- legal_status: string (nullable = true)
 |-- location: string (nullable = true)
 |-- longitude: string (nullable = true)
 |-- posted_date: string (nullable = true)
 |-- price: string (nullable = true)
 |-- price_per_m2: string (nullable = true)
 |-- road_width: string (nullable = true)
 |-- seller_info: string (nullable = true)
 |-- source: string (nullable = true)
 |--

In [6]:
# 1. Phân tích và xây dựng mapping cho house_direction với tiếng Việt có dấu
print("\n===== PHÂN TÍCH HƯỚNG NHÀ (house_direction) =====")

# Hàm chuẩn hóa chuỗi: lowercase, loại bỏ dấu cách và dấu gạch ngang
def normalize_direction(value):
    if value is None:
        return None
    return value.lower().replace(" ", "").replace("-", "")

# Tạo UDF để chuẩn hóa
normalize_direction_udf = udf(normalize_direction, StringType())

# Làm sạch và chuẩn hóa dữ liệu house_direction
cleaned_df = df.withColumn(
    "house_direction_normalized",
    normalize_direction_udf(col("house_direction"))
)

# Phân tích giá trị duy nhất sau khi chuẩn hóa
direction_counts = get_unique_values(cleaned_df, "house_direction_normalized")

# Tạo mapping đầy đủ với tất cả các biến thể có thể (có dấu và không dấu)
print("\n===== ĐỀ XUẤT MAPPING CHO HƯỚNG NHÀ =====")
direction_mapping = {
    # Hướng đơn - không dấu
    "dong": "EAST",
    "tay": "WEST", 
    "nam": "SOUTH",
    "bac": "NORTH",
    
    # Hướng đơn - có dấu
    "đông": "EAST",
    "tây": "WEST", 
    "nam": "SOUTH",
    "bắc": "NORTH",
    
    # Hướng kép - không dấu
    "dongnam": "SOUTHEAST",
    "dongbac": "NORTHEAST",
    "taynam": "SOUTHWEST",
    "taybac": "NORTHWEST",
    
    # Hướng kép - có dấu
    "đôngnam": "SOUTHEAST",
    "đôngbắc": "NORTHEAST", 
    "tâynam": "SOUTHWEST",
    "tâybắc": "NORTHWEST",
    
    # Các biến thể viết khác - không dấu
    "namdong": "SOUTHEAST",
    "bacdong": "NORTHEAST", 
    "namtay": "SOUTHWEST",
    "bactay": "NORTHWEST",
    
    # Các biến thể viết khác - có dấu
    "namđông": "SOUTHEAST",
    "bắcđông": "NORTHEAST", 
    "namtây": "SOUTHWEST",
    "bắctây": "NORTHWEST",
    
    # Trường hợp null hoặc không xác định
    None: "UNKNOWN",
    "": "UNKNOWN"
}

print("Mapping được tạo:")
for key, value in direction_mapping.items():
    print(f"  '{key}' -> '{value}'")

# Tạo UDF để áp dụng mapping
map_direction_udf = udf(lambda x: direction_mapping.get(x, "UNKNOWN"), StringType())

# Thử nghiệm mapping
mapped_directions = cleaned_df.withColumn(
    "house_direction_mapped", 
    map_direction_udf(col("house_direction_normalized"))
)

# Hiển thị kết quả mapping
print("\n===== KẾT QUẢ MAPPING =====")
get_unique_values(mapped_directions, "house_direction_mapped")

# Kiểm tra các giá trị chưa được map (UNKNOWN)
unknown_directions = mapped_directions.filter(col("house_direction_mapped") == "UNKNOWN")
if unknown_directions.count() > 0:
    print("\n===== CÁC GIÁ TRỊ CHƯA ĐƯỢC MAP =====")
    get_unique_values(unknown_directions, "house_direction_normalized")
    print("Cần bổ sung mapping cho các giá trị này!")


===== PHÂN TÍCH HƯỚNG NHÀ (house_direction) =====

===== Giá trị duy nhất của cột house_direction_normalized =====
+--------------------------+-----+
|house_direction_normalized|count|
+--------------------------+-----+
|                          |13729|
|đôngnam                   |668  |
|đôngbắc                   |515  |
|tâybắc                    |455  |
|đông                      |443  |
|tâynam                    |441  |
|nam                       |428  |
|bắc                       |350  |
|tây                       |307  |
+--------------------------+-----+


===== ĐỀ XUẤT MAPPING CHO HƯỚNG NHÀ =====
Mapping được tạo:
  'dong' -> 'EAST'
  'tay' -> 'WEST'
  'nam' -> 'SOUTH'
  'bac' -> 'NORTH'
  'đông' -> 'EAST'
  'tây' -> 'WEST'
  'bắc' -> 'NORTH'
  'dongnam' -> 'SOUTHEAST'
  'dongbac' -> 'NORTHEAST'
  'taynam' -> 'SOUTHWEST'
  'taybac' -> 'NORTHWEST'
  'đôngnam' -> 'SOUTHEAST'
  'đôngbắc' -> 'NORTHEAST'
  'tâynam' -> 'SOUTHWEST'
  'tâybắc' -> 'NORTHWEST'
  'namdong' -> 'SOUTHEAS

In [8]:
# 2. Phân tích và xây dựng mapping cho interior với keyword matching
print("\n===== PHÂN TÍCH NỘI THẤT (interior) VỚI KEYWORD MATCHING =====")

# Hàm chuẩn hóa cho interior (giữ nguyên để phân tích)
def normalize_interior(value):
    if value is None:
        return None
    normalized = value.lower().replace(" ", "").replace("-", "").replace(".", "").replace(",", "")
    return normalized

# Hàm mapping theo keyword
def map_interior_by_keywords(value):
    if value is None or value == "":
        return "UNKNOWN"
    
    value_lower = value.lower()
    
    # Kiểm tra các keyword cho LUXURY (ưu tiên cao nhất)
    luxury_keywords = [
        "caocấp", "cao cấp", "luxury", "sangtrọng", "sang trọng", "xịn", "5*", "5 sao",
        "nhậpkhẩu", "nhập khẩu", "châuâu", "châu âu", "tiêuchuẩn", "tiêu chuẩn",
        "chuẩnkhách", "chuẩn khách", "hạngsang", "hạng sang"
    ]
    
    for keyword in luxury_keywords:
        if keyword in value_lower:
            return "LUXURY"
    
    # Kiểm tra các keyword cho FULLY_FURNISHED
    fully_furnished_keywords = [
        "đầyđủ", "đầy đủ", "full", "hoànthiện", "hoàn thiện",
        "trangbị", "trang bị", "điềuhòa", "điều hòa", "tủlạnh", "tủ lạnh",
        "nộithất", "nội thất", "đểlại", "để lại", "tặng"
    ]
    
    for keyword in fully_furnished_keywords:
        if keyword in value_lower:
            return "FULLY_FURNISHED"
    
    # Kiểm tra các keyword cho BASIC
    basic_keywords = [
        "cơbản", "cơ bản", "bìnhthường", "bình thường", "chuẩn"
    ]
    
    for keyword in basic_keywords:
        if keyword in value_lower:
            return "BASIC"
    
    # Kiểm tra các keyword cho UNFURNISHED
    unfurnished_keywords = [
        "thô", "trống", "không", "k ", "nt", "nhàthô", "nhà thô"
    ]
    
    for keyword in unfurnished_keywords:
        if keyword in value_lower:
            return "UNFURNISHED"
    
    return "UNKNOWN"

# Tạo UDF để áp dụng keyword mapping
from pyspark.sql.types import StringType
map_interior_keywords_udf = udf(map_interior_by_keywords, StringType())

# Áp dụng mapping mới
mapped_interiors_keywords = cleaned_df.withColumn(
    "interior_mapped_keywords", 
    map_interior_keywords_udf(col("interior"))
)

print("\n===== KẾT QUẢ MAPPING VỚI KEYWORD MATCHING =====")
get_unique_values(mapped_interiors_keywords, "interior_mapped_keywords")

# So sánh với mapping cũ
print("\n===== SO SÁNH KẾT QUẢ =====")
comparison_df = mapped_interiors_keywords.groupBy("interior_mapped_keywords").count().orderBy("count", ascending=False)
comparison_df.show()

# Kiểm tra các giá trị vẫn còn UNKNOWN
unknown_interiors_keywords = mapped_interiors_keywords.filter(col("interior_mapped_keywords") == "UNKNOWN")
if unknown_interiors_keywords.count() > 0:
    print(f"\nSố lượng giá trị vẫn UNKNOWN: {unknown_interiors_keywords.count()}")
    print("\n===== MỘT SỐ GIÁ TRỊ VẪN UNKNOWN =====")
    unknown_samples = unknown_interiors_keywords.select("interior").distinct().limit(20)
    unknown_samples.show(truncate=False)


===== PHÂN TÍCH NỘI THẤT (interior) VỚI KEYWORD MATCHING =====

===== KẾT QUẢ MAPPING VỚI KEYWORD MATCHING =====

===== Giá trị duy nhất của cột interior_mapped_keywords =====
+------------------------+-----+
|interior_mapped_keywords|count|
+------------------------+-----+
|UNKNOWN                 |9954 |
|FULLY_FURNISHED         |5336 |
|BASIC                   |1854 |
|LUXURY                  |172  |
|UNFURNISHED             |20   |
+------------------------+-----+


===== SO SÁNH KẾT QUẢ =====
+------------------------+-----+
|interior_mapped_keywords|count|
+------------------------+-----+
|                 UNKNOWN| 9954|
|         FULLY_FURNISHED| 5336|
|                   BASIC| 1854|
|                  LUXURY|  172|
|             UNFURNISHED|   20|
+------------------------+-----+


Số lượng giá trị vẫn UNKNOWN: 9954

===== MỘT SỐ GIÁ TRỊ VẪN UNKNOWN =====
+---------------------------+
|interior                   |
+---------------------------+
|24/5                       |
|T

In [9]:
# Cải thiện mapping cho legal_status với keyword matching
def map_legal_status_by_keywords_improved(value):
            if value is None or value == "":
                return "UNKNOWN"
            
            value_lower = value.lower().replace(" ", "").replace("-", "").replace(".", "").replace("/", "").replace("\\", "")
            
            # RED_BOOK - Sổ đỏ/hồng và các trường hợp tương đương
            red_book_keywords = [
                # Sổ đỏ/hồng cơ bản
                "sổđỏ", "sổhồng", "sodo", "sohong", "sổđỏsổhồng", "sohongs", 
                
                # Các biến thể sổ đỏ
                "bìađỏ", "biado", "sổchínhchủ", "sochinhchu", "sổvuông", "sovuong",
                "sổđẹp", "sodep", "sổsạch", "sosach", "sổvuôngvắn", "sovuongvan",
                "sổcc", "shcc", "shr", "số", "socc",
                
                # Pháp lý rõ ràng
                "pháplý", "phapły", "pháplýsạch", "phaplysach", "pháplýchuẩn", "phaplychuan",
                "pháplýcánhân", "phaplycánhan", "pháplýrõràng", "phaplýrorang",
                
                # Sở hữu và quyền
                "chínhchủ", "chinhchu", "chủsở", "chuso", "sởhữu", "sohuu", 
                "quyềnsởhữu", "quyensohuu", "chủquyền", "chuquyen",
                
                # Sẵn sàng giao dịch
                "sẵnsànggiaodịch", "sansanggiaodich", "côngchứng", "congchung",
                "giaodịchngay", "giaodichngay", "vuôngvắn", "vuongvan",
                
                # Thổ cư
                "thổcư", "thocu", "thổcư100", "thocu100",
                
                # Hoàn công
                "hoàncông", "hoancong", "sổhoàncông", "sohoancong",
                
                # Các trường hợp khác
                "đầyđủ", "daydu", "có", "co", "cósố", "coso", "vuông", "vuong"
            ]
            
            if any(keyword in value_lower for keyword in red_book_keywords):
                return "RED_BOOK"
            
            # PURCHASE_CONTRACT - Hợp đồng mua bán và giấy tờ tay
            contract_keywords = [
                "hđmb", "hdmb", "hợpđồng", "hopdong", "hợpđồngmuabán", "hopdongmuaban",
                "viếtsổ", "vietso", "giấytay", "giaytay", "ccvb", "giấytờ", "giayto",
                "hđ", "hd", "giấychứngnhận", "giaychungnhan"
            ]
            
            if any(keyword in value_lower for keyword in contract_keywords):
                return "PURCHASE_CONTRACT"
            
            # PENDING_CERTIFICATE - Đang chờ sổ hoặc sắp có sổ
            pending_keywords = [
                "đangchờ", "dangcho", "chờsổ", "choso", "sắpcấp", "sapcap",
                "đangxử", "dangxu", "chờcấp", "chocap", "sắpcó", "sapco",
                "chờra", "chora", "đanghoànthành", "danghoanthanh"
            ]
            
            if any(keyword in value_lower for keyword in pending_keywords):
                return "PENDING_CERTIFICATE"
            
            # INDIVIDUAL_CERTIFICATE - Sổ riêng và cá nhân
            individual_keywords = [
                "sổriêng", "sorieng", "riêng", "rieng", "tách", "tach",
                "độclập", "doclap", "cánhân", "canhan", "cá", "ca"
            ]
            
            if any(keyword in value_lower for keyword in individual_keywords):
                return "INDIVIDUAL_CERTIFICATE"
            
            # NO_LEGAL - Không pháp lý hoặc không sổ
            no_legal_keywords = [
                "khôngpháplý", "khongphapły", "khôngsổ", "khongso", "kosổ", "koso",
                "không", "khong", "chưacó", "chuaco", "chưa", "chua"
            ]
            
            if any(keyword in value_lower for keyword in no_legal_keywords):
                return "NO_LEGAL"
            
            return "UNKNOWN"

map_legal_status_keywords_udf = udf(map_legal_status_by_keywords, StringType())

# Áp dụng mapping mới cho legal_status
mapped_legal_status_keywords = cleaned_df.withColumn(
    "legal_status_mapped_keywords", 
    map_legal_status_keywords_udf(col("legal_status"))
)

print("\n===== KẾT QUẢ MAPPING TÌNH TRẠNG PHÁP LÝ VỚI KEYWORD =====")
get_unique_values(mapped_legal_status_keywords, "legal_status_mapped_keywords")


===== KẾT QUẢ MAPPING TÌNH TRẠNG PHÁP LÝ VỚI KEYWORD =====

===== Giá trị duy nhất của cột legal_status_mapped_keywords =====
+----------------------------+-----+
|legal_status_mapped_keywords|count|
+----------------------------+-----+
|RED_BOOK                    |13836|
|UNKNOWN                     |3340 |
|PURCHASE_CONTRACT           |67   |
|HAS_CERTIFICATE             |63   |
|PENDING_CERTIFICATE         |25   |
|INDIVIDUAL_CERTIFICATE      |5    |
+----------------------------+-----+



DataFrame[legal_status_mapped_keywords: string, count: bigint]

In [10]:
# Kiểm tra các giá trị legal_status vẫn còn UNKNOWN để cải thiện mapping
print("\n===== PHÂN TÍCH CÁC GIÁ TRỊ LEGAL_STATUS VẪN UNKNOWN =====")

unknown_legal_status = mapped_legal_status_keywords.filter(col("legal_status_mapped_keywords") == "UNKNOWN")
print(f"Số lượng giá trị UNKNOWN: {unknown_legal_status.count()}")

if unknown_legal_status.count() > 0:
    print("\n===== TOP 50 GIÁ TRỊ LEGAL_STATUS CHƯA ĐƯỢC MAP =====")
    unknown_samples = unknown_legal_status.groupBy("legal_status").count().orderBy("count", ascending=False)
    unknown_samples.show(50, truncate=False)


===== PHÂN TÍCH CÁC GIÁ TRỊ LEGAL_STATUS VẪN UNKNOWN =====
Số lượng giá trị UNKNOWN: 3340

===== TOP 50 GIÁ TRỊ LEGAL_STATUS CHƯA ĐƯỢC MAP =====
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+-----+
|legal_status                                                                                                                                                                                                                                                 |count|
+-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+-----+
|                                                                   