In [10]:
from pyspark.sql import SparkSession

# Tạo SparkSession
spark = SparkSession.builder \
    .appName("RealEstateJSONQuery") \
    .master("spark://spark-master:7077") \
    .config("spark.hadoop.fs.defaultFS", "hdfs://namenode:9000") \
    .getOrCreate()

# Đường dẫn trên HDFS
json_path = "hdfs://namenode:9000/data/realestate/raw/chotot/house/2025/05"

# Đọc dữ liệu JSON từ HDFS
df = spark.read.option("multiline", "false").json(json_path)

# Hiển thị schema
df.printSchema()

# Xem trước dữ liệu
df.show(5, truncate=False)

# Ví dụ: Truy vấn nhà giá > 3 tỷ
df.filter(df.price > 3_000_000_000).select("title", "price", "location").show()


root
 |-- area: string (nullable = true)
 |-- bathroom: string (nullable = true)
 |-- bedroom: string (nullable = true)
 |-- crawl_timestamp: string (nullable = true)
 |-- data_type: string (nullable = true)
 |-- description: string (nullable = true)
 |-- floor_count: string (nullable = true)
 |-- house_direction: string (nullable = true)
 |-- house_type: string (nullable = true)
 |-- interior: string (nullable = true)
 |-- latitude: string (nullable = true)
 |-- legal_status: string (nullable = true)
 |-- length: string (nullable = true)
 |-- living_size: string (nullable = true)
 |-- location: string (nullable = true)
 |-- longitude: string (nullable = true)
 |-- posted_date: string (nullable = true)
 |-- price: string (nullable = true)
 |-- price_per_m2: string (nullable = true)
 |-- seller_info: string (nullable = true)
 |-- source: string (nullable = true)
 |-- title: string (nullable = true)
 |-- url: string (nullable = true)
 |-- width: string (nullable = true)

+----+--------+-

In [11]:
object_count = df.count()

print(f"Số lượng object JSON: {object_count}")

Số lượng object JSON: 24500


In [12]:
# Lấy dòng đầu tiên (dạng Row object)
first_row = df.first()

# In toàn bộ thông tin của dòng đầu tiên
print(first_row)

Row(area='80', bathroom='1', bedroom='1', crawl_timestamp='1747838376', data_type='house', description='Nhà mặt tiền đường kinh doanh sầm uất, khu vực dân cư đông đúc, sang trọng, an ninh, thuận tiện kinh doanh mua bán nhiều nghề hoặc cho thuê, xung quanh còn có đầy đủ các tiện ích như TTTM Aeon Mall, bệnh viện quốc tế CIH, ngân hàng, chợ, trường học các cấp, rất thuận tiện cho các sinh hoạt hằng ngày. - Vị trí: MT đường Số 2 CX Rada, P.13, Q.6 - Diện tích: 4 x 20m. - Kết cấu: Cấp 4 - Hướng: Tây - Nam - Giá: 8.8 tỷ.', floor_count='', house_direction='8', house_type=None, interior='4', latitude='10.751096', legal_status='1', length=None, living_size=None, location='Đường số 2, Phường 13, Quận 6, Tp Hồ Chí Minh', longitude='106.62455', posted_date='1747831703', price='8,8 tỷ', price_per_m2='110', seller_info="{'name': 'Minh Thanh', 'account_id': '2326347'}", source='chotot', title='Nhà MT đường số 2 Cư xá Rada Q6 dt 80m2 giá 8.8 tỷ', url='https://nha.chotot.com/121332310.htm', width=None

In [13]:
# Đếm tổng số dòng
total_count = df.count()

# Đếm số dòng sau khi loại bỏ trùng
distinct_count = df.distinct().count()

print(f"Tổng số dòng: {total_count}")
print(f"Số dòng không trùng: {distinct_count}")
print(f"Số dòng trùng lặp: {total_count - distinct_count}")

[Stage 20:>                                                       (0 + 10) / 10]

Tổng số dòng: 24500
Số dòng không trùng: 24500
Số dòng trùng lặp: 0


                                                                                