In [2]:
from datetime import datetime
from pyspark.sql import SparkSession

spark = (SparkSession.builder.appName("pyspark-rdd-demo-{}".format(datetime.today()))
        .master("spark://spark-master:7077")      
        .getOrCreate())

sc = spark.sparkContext
# spark.sparkContext.getConf().getAll()

In [3]:

# load sample data from MinIO
df_orders = spark.read.format("csv").load("s3a://warehouse/olist_orders_dataset.csv", header=True)
# display(df_orders.limit(20).toPandas())

# version 1: write full records
(
df_orders.write.mode("overwrite")
    .option("compression", "snappy")
    .option("path", "s3a://warehouse/olist_orders_dataset.delta")
    .format("delta")
    .saveAsTable("olist_orders_dataset")
)

# version 2: limit 10 records
(
df_orders.limit(10)
    .write.mode("overwrite")
    .option("compression", "snappy")
    .option("path", "s3a://warehouse/olist_orders_dataset.delta")
    .format("delta")
    .saveAsTable("olist_orders_dataset")
)

# select version 1. Output = 99441
(
    spark.read.option("versionAsOf", 0)
    .format("delta").load("s3a://warehouse/olist_orders_dataset.delta")
    .count()
)

# select version 2. Output = 10
(
    spark.read.option("versionAsOf", 1)
    .format("delta").load("s3a://warehouse/olist_orders_dataset.delta")
    .count()
)

10

In [4]:
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# Tạo SparkSession
spark = (SparkSession.builder.appName("silver_testing-{}".format(datetime.today()))
         .master("spark://spark-master:7077")
         .getOrCreate())

df_sellers = spark.read.format("parquet").load("s3a://warehouse/silver/tiki/products.parquet", header=True)
df_sellers = df_sellers.dropDuplicates(["seller_id"])
df_sellers = df_sellers.filter(col("seller_id") != 0)

# Hiển thị kết quả
# display(df_sellers.limit(20).toPandas())

df_sellers.count()


1689

In [5]:
def convert_warranty_period(warranty):
    if not isinstance(warranty, str) or warranty.strip() == '':
        return 0
    
    warranty = warranty.lower().strip()
    
    if 'trọn đời' in warranty:
        return 100*365  
    
    if re.search(r'không|no warranty|0', warranty):
        return 0

    match_year = re.search(r'(\d+)\s*(năm|year)', warranty)
    match_month = re.search(r'(\d+)\s*(tháng|month)', warranty)
    match_day = re.search(r'(\d+)\s*(ngày|day)', warranty)

    if match_year:
        years = int(match_year.group(1))
        return years * 365  

    if match_month:
        months = int(match_month.group(1))
        return months * 30  

    if match_day:
        days = int(match_day.group(1))
        return days  
    
    return 0

In [6]:
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, when
from pyspark.sql.types import IntegerType
from pyspark.sql.functions import udf
import re

# Tạo SparkSession
spark = (SparkSession.builder.appName("silver_testing-{}".format(datetime.today()))
         .master("spark://spark-master:7077")
         .getOrCreate())

# Đọc dữ liệu từ file Parquet
df_products = spark.read.format("parquet").load("s3a://warehouse/silver/tiki/products.parquet", header=True)

# Giả định df_sellers là Silver Sellers (được định nghĩa ở trước đó)
# df_sellers = spark.read.format("parquet").load("s3a://warehouse/silver/tiki/sellers.parquet", header=True)

def convert_warranty_period(warranty):
    if not isinstance(warranty, str) or warranty.strip() == '':
        return 0
    
    warranty = warranty.lower().strip()
    
    if 'trọn đời' in warranty:
        return 100*365  # Quy đổi thành 100 năm
    
    if re.search(r'không|no warranty|0', warranty):
        return 0

    match_year = re.search(r'(\d+)\s*(năm|year)', warranty)
    match_month = re.search(r'(\d+)\s*(tháng|month)', warranty)
    match_day = re.search(r'(\d+)\s*(ngày|day)', warranty)

    if match_year:
        years = int(match_year.group(1))
        return years * 365  # Quy đổi thành ngày
    
    if match_month:
        months = int(match_month.group(1))
        return months * 30  # Quy đổi thành ngày
    
    if match_day:
        days = int(match_day.group(1))
        return days  # Sử dụng ngày nếu có
    
    return 0

# Loại bỏ các bản ghi trùng lặp dựa trên product_id và seller_id
df_products = df_products.dropDuplicates(["product_id", "seller_id"])

# Kết hợp với Silver Sellers (Giả định df_sellers đã được định nghĩa)
df_products = df_products.join(df_sellers.select("seller_id"), on="seller_id", how="inner")

# Định nghĩa UDF cho hàm chuyển đổi warranty_period
convert_warranty_period_udf = udf(convert_warranty_period, IntegerType())

# Áp dụng UDF để chuyển đổi warranty_period thành số ngày
df_products = df_products.withColumn("warranty_period", convert_warranty_period_udf(col("warranty_period")))

# Điền giá trị mặc định cho các cột 'warranty_type', 'warranty_location', 'return_reason', 'quantity_sold'
df_products = df_products.withColumn("warranty_type", when(col("warranty_type").isNull(), "Không bảo hành").otherwise(col("warranty_type")))
df_products = df_products.withColumn("warranty_location", when(col("warranty_location").isNull(), "Không bảo hành").otherwise(col("warranty_location")))
df_products = df_products.withColumn("return_reason", when(col("return_reason").isNull(), "no_return").otherwise(col("return_reason")))
df_products = df_products.withColumn("quantity_sold", when(col("quantity_sold").isNull(), lit(0)).otherwise(col("quantity_sold")))
df_products.dropna()
# Hiển thị dữ liệu sau xử lý
# df_products.tail(20
df = df_products.toPandas()
# display(df_products.limit(20).toPandas())



In [7]:
def convert_to_days(joined_time):
    if joined_time is None:
        return 0
    match = re.search(r"(\d+)\s+(năm|tháng|ngày)", joined_time)
    if match:
        value, unit = int(match.group(1)), match.group(2)
        if unit == "năm":
            return value * 365  
        elif unit == "tháng":
            return value * 30  
        elif unit == "ngày":
            return value
    return 0  

In [8]:
from datetime import datetime
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, lit, when, from_unixtime
from pyspark.sql.types import IntegerType
import re

# Tạo SparkSession
spark = (SparkSession.builder.appName("silver_testing-{}".format(datetime.today()))
         .master("spark://spark-master:7077")
         .getOrCreate())

df_reviews = spark.read.format("parquet").load("s3a://warehouse/silver/tiki/reviews.parquet")

# df_products = spark.read.format("parquet").load("s3a://warehouse/silver/tiki/products.parquet")

df_reviews = df_reviews.join(df_products.select("product_id", "seller_id"), 
                             on=["product_id", "seller_id"], how="inner")

df_reviews = df_reviews.dropDuplicates(["review_id"])

df_reviews = df_reviews.withColumn("created_at", from_unixtime(col("created_at")).cast("timestamp"))
df_reviews = df_reviews.withColumn("purchased_at", from_unixtime(col("purchased_at")).cast("timestamp"))

convert_to_days_udf = udf(convert_to_days, IntegerType())

df_reviews = df_reviews.withColumn("joined_day", convert_to_days_udf(col("joined_time")))
df_reviews.count()
# display(df_reviews.limit(20).toPandas())


199594

In [9]:
display(df_reviews.limit(20).toPandas())


Unnamed: 0,product_id,seller_id,review_id,title,content,status,thank_count,rating,created_at,customer_id,customer_name,purchased_at,avatar_url,joined_time,total_review,total_thank,joined_day
0,385469,1,370032,Sản phẩm cho những người không thích xài bcs,Có thể nói sản phẩm này khá ôm sát và vừa văn ...,approved,21,5,2016-01-16 16:02:18,657631,Nguyễn Sĩ Hiển,2015-06-18 18:46:25,//tiki.vn/assets/img/avatar.png,Đã tham gia 10 năm,11.0,114.0,3650
1,385469,1,406430,sản phẩm chất lượng cao,Durex luôn là lựa chọn hàng đâu của tôi về các...,approved,17,5,2016-03-28 04:56:05,567316,Nguyễn Lâm Thế Bảo,2016-03-05 15:19:16,//tiki.vn/assets/img/avatar.png,Đã tham gia 10 năm,89.0,65.0,3650
2,472708,1,480431,"Giao nhanh, chất lượng tốt",Mua cho ông xã mùi rất thơm phù hợp với đàn ôn...,approved,0,5,2016-08-17 14:02:06,634998,Ánh Dương,2016-08-14 15:26:12,//tiki.vn/assets/img/avatar.png,Đã tham gia 10 năm,5.0,0.0,3650
3,504663,1,488726,Chất lượng kém,Sản phẩm không tẩy được các vết bám. Chất lượn...,approved,0,1,2016-11-04 07:42:05,1008238,,2016-10-22 15:43:04,//tiki.vn/assets/img/avatar.png,Đã tham gia 9 năm,5.0,3.0,3285
4,516057,1,506993,Sữa ngon,"Đã đặt mua cả chục bịch của Tiki rồi, mùi vị g...",approved,0,5,2017-01-07 10:52:19,1039489,,2016-11-02 00:51:49,//tiki.vn/assets/img/avatar.png,Đã tham gia 9 năm,25.0,79.0,3285
5,516057,1,507233,Tốt,"Sữa đóng gói kỹ lưỡng, date còn dài, bột mịn, ...",approved,1,5,2017-01-07 18:02:01,1397990,,2017-01-01 05:29:17,//tiki.vn/assets/img/avatar.png,Đã tham gia 9 năm,3.0,4.0,3285
6,516057,1,514405,"sữa ngon, giá tốt!","sữa Devonde chất lượng tốt, vị béo ngậy, thích...",approved,0,5,2017-01-22 10:05:13,97460,,2016-12-15 14:28:14,//tiki.vn/assets/img/avatar.png,Đã tham gia 12 năm,67.0,21.0,4380
7,543122,1,526041,Hàng chuẩn,Mình nhận hàng đúng hẹn. Tiki gói hàng kỹ thấy...,approved,7,5,2017-02-16 05:40:53,298009,,2017-02-10 15:19:31,//tiki.vn/assets/img/avatar.png,Đã tham gia 11 năm,213.0,260.0,4015
8,516057,1,561113,"Sữa vị thơm, dễ uống",Mình đã mua full cream cuả devondale 3 lần...,approved,3,5,2017-04-01 04:58:27,669686,,2016-11-23 14:24:52,//tiki.vn/assets/img/avatar.png,Đã tham gia 10 năm,191.0,123.0,3650
9,516057,1,591293,Sữa vị thơm béo ngậy,Điều đầu tiên phải kể đến là Tiki đóng hàng rấ...,approved,2,5,2017-05-03 02:33:40,345812,,2017-04-13 02:10:42,//tiki.vn/assets/img/avatar.png,Đã tham gia 11 năm,36.0,16.0,4015


----------------------------------------
Exception occurred during processing of request from ('127.0.0.1', 34524)
Traceback (most recent call last):
  File "/opt/conda/lib/python3.11/socketserver.py", line 317, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/opt/conda/lib/python3.11/socketserver.py", line 348, in process_request
    self.finish_request(request, client_address)
  File "/opt/conda/lib/python3.11/socketserver.py", line 361, in finish_request
    self.RequestHandlerClass(request, client_address, self)
  File "/opt/conda/lib/python3.11/socketserver.py", line 755, in __init__
    self.handle()
  File "/usr/local/spark/python/pyspark/accumulators.py", line 295, in handle
    poll(accum_updates)
  File "/usr/local/spark/python/pyspark/accumulators.py", line 267, in poll
    if self.rfile in r and func():
                           ^^^^^^
  File "/usr/local/spark/python/pyspark/accumulators.py", line 271, in accum_updates
    num_updates =