In [1]:
from pyspark.sql import SparkSession
import pandas as pd
from pyspark.sql.types import StructType, StructField, BooleanType, StringType, IntegerType, DateType, FloatType,DoubleType,ArrayType,LongType
import logging
import sys
import traceback
import ast
import json
import os
import traceback
from pyspark.sql.functions import col, expr,when,to_date ,udf, concat_ws,posexplode, from_json
from pyspark.sql import functions as F

from pyspark.ml.recommendation import ALS
import numpy as np
import time
from pyspark.sql.functions import col, mean, lit, udf
from pyspark.ml.recommendation import ALSModel
from pyspark.ml.linalg import Vectors, DenseVector  # Import DenseVector trực tiếp


In [2]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("MinIO with Delta Optimized") \
    .config("spark.jars", "jars/hadoop-aws-3.3.4.jar,jars/spark-sql-kafka-0-10_2.12-3.2.1.jar,jars/aws-java-sdk-bundle-1.12.262.jar,jars/delta-core_2.12-2.2.0.jar,jars/delta-storage-2.2.0.jar") \
    .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000") \
    .config("spark.hadoop.fs.s3a.access.key", "conbo123") \
    .config("spark.hadoop.fs.s3a.secret.key", "123conbo") \
    .config("spark.hadoop.fs.s3a.path.style.access", "true") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .config("spark.delta.logStore.class", "org.apache.spark.sql.delta.storage.S3SingleDriverLogStore") \
    .config("delta.enable-non-concurrent-writes", "true") \
    .config('spark.sql.warehouse.dir', "s3a://lakehouse/") \
    .config("spark.sql.shuffle.partitions", "100") \
    .config("spark.default.parallelism", "100") \
    .config("spark.executor.memory", "8G") \
    .config("spark.executor.memoryOverhead", "4G") \
    .config("spark.executor.cores", "4") \
    .config("spark.executor.instances", "4") \
    .config("spark.driver.memory", "8G") \
    .config("spark.driver.memoryOverhead", "4G") \
    .config("spark.driver.maxResultSize", "2G") \
    .config("spark.python.worker.memory", "2G") \
    .config("spark.executor.heartbeatInterval", "60s") \
    .config("spark.network.timeout", "300s") \
    .config("spark.sql.broadcastTimeout", "600") \
    .config("spark.sql.autoBroadcastJoinThreshold", "-1") \
    .config("spark.memory.fraction", "0.8") \
    .config("spark.memory.storageFraction", "0.2") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .getOrCreate()


In [3]:
from pyspark.sql import functions as F
from pyspark.sql.types import DoubleType
import time

# Đo thời gian bắt đầu
start_time = time.time()

# def get_vecs_optimized():
#     # Đọc dữ liệu vector đặc trưng
#     df_list = spark.read.format("delta").load("s3a://lakehouse/data/all_movies_delta")
    
#     # Chuyển đổi thành từ điển {movie_id: list của vector}
#     movie_vecs_dict = {
#         row["id"]: list(row["vecs"]) for row in df_list.collect()
#     }
    
#     # Phát sóng (broadcast) vector đặc trưng tới tất cả worker
#     return spark.sparkContext.broadcast(movie_vecs_dict)

from pyspark.sql import functions as F

def get_vecs_optimized():
    # Đọc dữ liệu vector đặc trưng
    df_list = spark.read.format("delta").load("s3a://lakehouse/data/all_movies_delta")
    
    # Đọc dữ liệu ratings để lấy danh sách movieId
    ratings = spark.read.format("delta").load("s3a://lakehouse/silver/ratings")
    ratings_movie_ids = ratings.select("movieId").distinct().rdd.flatMap(lambda x: x).collect()
    
    # Chỉ giữ lại các vector có trong ratings
    filtered_df = df_list.filter(F.col("id").isin(ratings_movie_ids))
    
    # Chuyển đổi thành từ điển {movie_id: list của vector}
    movie_vecs_dict = {
        row["id"]: list(row["vecs"]) for row in filtered_df.collect()
    }
    
    return movie_vecs_dict  # Trả về dictionary mà không dùng Broadcast


# Broadcast vector đặc trưng phim
movie_vecs_dict = get_vecs_optimized()

# Đọc dữ liệu ratings
ratings = spark.read.format("delta").load("s3a://lakehouse/silver/ratings")
ratings = ratings.select("userId", "movieId", "rating")

# Lọc bỏ các movieId không có vector đặc trưng
all_movie_vecs = set(movie_vecs_dict.keys())  # Trực tiếp dùng movie_vecs_dict, không còn .value
ratings_filtered = ratings.filter(F.col("movieId").isin(list(all_movie_vecs)))

# UDF để tính toán dự đoán điểm mà không dùng numpy
@F.udf(DoubleType())
def calculate_prediction(user_ratings, movie_id):
    movie_vecs = movie_vecs_dict
    if movie_id not in movie_vecs:
        return 0.0
    
    input_vec = movie_vecs[movie_id]
    similarities = []

    for other_movie, rating in user_ratings:
        if other_movie == movie_id:
            continue
        if other_movie not in movie_vecs:
            continue
        
        other_vec = movie_vecs[other_movie]
        
        # Tính Cosine Similarity thủ công
        numerator = sum(x * y for x, y in zip(input_vec, other_vec))
        denominator_a = sum(x * x for x in input_vec) ** 0.5
        denominator_b = sum(y * y for y in other_vec) ** 0.5
        
        if denominator_a == 0 or denominator_b == 0:
            continue
        
        sim = numerator / (denominator_a * denominator_b)
        if sim > 0:
            similarities.append((sim, rating))
    
    if similarities:
        numerator = sum(sim * rating for sim, rating in similarities)
        denominator = sum(abs(sim) for sim, _ in similarities)
        return round(numerator / denominator, 2) if denominator != 0 else 0.0
    
    return 0.0

# Tổ chức lại dữ liệu để xử lý song song
ratings_grouped = ratings_filtered.groupBy("userId").agg(
    F.collect_list(F.struct("movieId", "rating")).alias("user_ratings")
).select(
    "userId",
    F.explode("user_ratings").alias("movie_info"),
    "user_ratings"
).select(
    "userId",
    F.col("movie_info.movieId").alias("movieId"),
    F.col("movie_info.rating").alias("true_predict"),
    "user_ratings"
)

# Tính toán dự đoán
predictions_df = ratings_grouped.withColumn(
    "predict", 
    calculate_prediction(F.col("user_ratings"), F.col("movieId"))
).select("userId", "movieId", "predict", "true_predict")

# Hiển thị kết quả
predictions_df.show(20)

# Đo thời gian kết thúc
end_time = time.time()
print(f"Thời gian xử lý: {round(end_time - start_time, 2)} giây")


+------+-------+-------+------------+
|userId|movieId|predict|true_predict|
+------+-------+-------+------------+
|   148|    260|   3.95|         4.0|
|   148|   2028|   3.94|         4.0|
|   148|   4993|   3.83|         5.0|
|   148|   6373|    4.0|         3.5|
|   148|   8665|   3.94|         4.0|
|   148|  31696|   3.94|         4.0|
|   148|  40815|   3.95|         4.0|
|   148|  58559|    4.0|         3.5|
|   148|  68954|   4.06|         3.0|
|   148| 111759|   3.89|         4.5|
|   229|      2|    2.9|         3.0|
|   229|      5|   2.91|         1.0|
|   229|     12|   2.91|         1.0|
|   229|     16|    2.9|         3.0|
|   229|     19|   2.91|         1.0|
|   229|     21|    2.9|         3.0|
|   229|     25|    2.9|         4.0|
|   229|     70|    2.9|         3.0|
|   229|     77|    2.9|         3.0|
|   229|     85|    2.9|         3.0|
+------+-------+-------+------------+
only showing top 20 rows

Thời gian xử lý: 119.52 giây


In [4]:
predictions_df = predictions_df.withColumn("true_predict", F.col("true_predict").cast("double"))


In [5]:
from pyspark.sql import functions as F
import time

# Đảm bảo predictions_df được cache ngay sau khi tính xong
predictions_df = predictions_df.cache()
predictions_df.count()  # Kích hoạt cache, tránh tính lại

# Đo thời gian bắt đầu tính RMSE
start_time = time.time()

# Giới hạn chỉ 1000 dòng để tính RMSE
limited_predictions_df = predictions_df.limit(1000).cache()
limited_predictions_df.count()  # Đảm bảo dữ liệu đã được cache

# Tính RMSE
rmse_df = limited_predictions_df.withColumn(
    "squared_error", F.pow(F.col("predict") - F.col("true_predict"), 2)
)

rmse_value = rmse_df.agg(F.sqrt(F.avg(F.col("squared_error")))).first()[0]
print(f"RMSE của mô hình với 1000 dòng: {rmse_value}")

# Đo thời gian kết thúc
end_time = time.time()
print(f"Thời gian xử lý RMSE: {round(end_time - start_time, 2)} giây")


----------------------------------------
Exception occurred during processing of request from ('127.0.0.1', 54848)
ERROR:root:Exception while sending command.
Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 516, in send_command
    raise Py4JNetworkError("Answer from Java side is empty")
py4j.protocol.Py4JNetworkError: Answer from Java side is empty

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 539, in send_command
    raise Py4JNetworkError(
py4j.protocol.Py4JNetworkError: Error while sending or receiving
Traceback (most recent call last):
  File "/opt/conda/lib/python3.10/socketserver.py", line 316, in _handle_reques

Py4JError: An error occurred while calling o52863.count

ERROR:root:Exception while sending command.
Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 516, in send_command
    raise Py4JNetworkError("Answer from Java side is empty")
py4j.protocol.Py4JNetworkError: Answer from Java side is empty

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/java_gateway.py", line 1038, in send_command
    response = connection.send_command(command)
  File "/usr/local/spark/python/lib/py4j-0.10.9.5-src.zip/py4j/clientserver.py", line 539, in send_command
    raise Py4JNetworkError(
py4j.protocol.Py4JNetworkError: Error while sending or receiving


In [9]:
def get_vecs():
    global df_list, all_vecs, flag2
    # if not flag2:
    df_list = spark.read.format("delta").load("s3a://lakehouse/data/haha")
    data_original = df_list.collect()
    all_vecs = [(row.id, Vectors.dense(row.vecs)) for row in data_original]
        # flag2 = True
    return all_vecs

In [10]:
def CosineSim(vec1, vec2):
    numerator = np.dot(vec1, vec2)
    denominator = np.sqrt(np.dot(vec1, vec1)) * np.sqrt(np.dot(vec2, vec2))
    return float(numerator / denominator) if denominator != 0 else 0

In [11]:



#Tính 1 ng
def get_cb_predictions(user_id, movie_id):
    global df_merge, ratings

    # Đọc dữ liệu ratings
    ratings = spark.read.format("delta").load("s3a://lakehouse/silver/ratings")
    ratings = ratings.select("userId", "movieId", "rating")

    # Đọc dữ liệu phim
    df_merge = spark.read.format("delta").load("s3a://lakehouse/gold/MergeData")

    # Đổi tên cột 'id' thành 'movieId' để tương thích và đảm bảo là số nguyên
    df_merge = df_merge.withColumnRenamed("id", "movieId").withColumn("movieId", F.col("movieId").cast("int"))

    # Lấy vector đặc trưng của các bộ phim
    all_movies_vecs = get_vecs()

    # Đảm bảo tất cả movie_id trong vectors là số nguyên
    all_movies_vecs = [(int(r[0]), r[1]) for r in all_movies_vecs]

    # In ra kiểu dữ liệu của movie_id trong ratings và df_merge
    print("Rating Data Movie ID Type:", ratings.select("movieId").dtypes)
    print("Merge Data Movie ID Type:", df_merge.select("movieId").dtypes)
    print("Vector Data Movie ID Type:", type(all_movies_vecs[0][0]))

    # Kiểm tra xem vector của phim có tồn tại không
    input_vecs = [r[1] for r in all_movies_vecs if r[0] == int(movie_id)]
    if not input_vecs:
        return f"Movie ID {movie_id} not found in vector data."

    input_vec = input_vecs[0]

    # Lấy các phim mà người dùng đã đánh giá
    user_ratings = ratings.filter(F.col("userId") == user_id)

    # Kiểm tra người dùng có đánh giá không
    if user_ratings.count() == 0:
        return f"User {user_id} has not rated any movies."

    # Tính độ tương đồng giữa phim đầu vào và các phim đã đánh giá
    user_ratings = user_ratings.join(df_merge, "movieId")

    # Đảm bảo tương đồng tính toán đúng
    user_ratings = user_ratings.withColumn("similarity", F.udf(lambda x: CosineSim(input_vec, [r[1] for r in all_movies_vecs if r[0] == int(x)][0]) if int(x) in [r[0] for r in all_movies_vecs] else 0)(F.col("movieId")))

    # Tính điểm dự đoán theo công thức
    numerator = user_ratings.withColumn("weighted_score", F.col("similarity") * F.col("rating"))
    denominator = user_ratings.agg(F.sum(F.abs(F.col("similarity")))).first()[0]

    # Tổng hợp để tính điểm dự đoán
    if denominator == 0:
        return f"No similar movies found for user {user_id}."

    predicted_score = numerator.agg(F.sum(F.col("weighted_score")).alias("numerator")).first()[0] / denominator

    return predicted_score

In [12]:
###T TÍNH 1 uSER

def get_all_cb_predictions1(user_id):
    global df_merge, ratings

    # Đọc dữ liệu ratings
    ratings = spark.read.format("delta").load("s3a://lakehouse/silver/ratings")
    ratings = ratings.select("userId", "movieId", "rating")

    # Đọc dữ liệu phim
    df_merge = spark.read.format("delta").load("s3a://lakehouse/gold/MergeData")
    df_merge = df_merge.withColumnRenamed("id", "movieId").withColumn("movieId", F.col("movieId").cast("int"))

    # Lấy vector đặc trưng của các bộ phim
    all_movies_vecs = get_vecs()
    movie_vecs_dict = {int(r[0]): r[1] for r in all_movies_vecs}

    # Lấy các phim mà người dùng đã đánh giá
    user_ratings = ratings.filter(F.col("userId") == user_id)
    if user_ratings.count() == 0:
        return f"User {user_id} has not rated any movies."

    # Chuyển dữ liệu ratings của người dùng thành danh sách
    user_ratings_list = user_ratings.collect()

    # Tính toán dự đoán cho tất cả các movieId mà người dùng đã đánh giá
    prediction_results = []

    for row in user_ratings_list:
        movie_id = row["movieId"]
        actual_rating = row["rating"]

        # Bỏ qua phim không có vector đặc trưng
        if movie_id not in movie_vecs_dict:
            continue
        
        input_vec = movie_vecs_dict[movie_id]
        similarities = []

        for other_id in user_ratings_list:
            if other_id.movieId == movie_id:
                continue
            if other_id.movieId not in movie_vecs_dict:
                continue
            other_vec = movie_vecs_dict[other_id.movieId]
            sim = CosineSim(input_vec, other_vec)
            similarities.append((sim, other_id["rating"]))  # Sử dụng rating của phim tương tự


        # Tính dự đoán điểm
        if similarities:
            numerator = sum(sim * rating for sim, rating in similarities)
            denominator = sum(abs(sim) for sim, _ in similarities)
            predicted_score = numerator / denominator if denominator != 0 else 0
        else:
            predicted_score = 0  # Nếu không có phim tương tự, dự đoán là 0

        # Thêm vào kết quả
        prediction_results.append((user_id, movie_id, round(predicted_score, 2), actual_rating))

    # Chuyển kết quả sang DataFrame với 3 cột yêu cầu
    prediction_df = spark.createDataFrame(prediction_results, ["userId", "movieId", "predict", "true_predict"])
    return prediction_df


In [18]:
user_id = 3422
predictions_df = get_all_cb_predictions1(user_id)
predictions_df.show()


+------+-------+-------+------------+
|userId|movieId|predict|true_predict|
+------+-------+-------+------------+
|  3422|    110|   4.17|         4.0|
|  3422|    180|   4.13|         5.0|
|  3422|    223|   4.13|         5.0|
|  3422|    296|   4.13|         5.0|
|  3422|    377|   4.17|         4.0|
|  3422|    429|   4.22|         3.0|
|  3422|   1380|   4.17|         4.0|
|  3422|   1394|   4.17|         4.0|
|  3422|   1721|   4.22|         3.0|
|  3422|   1732|   4.13|         5.0|
|  3422|   1895|   4.17|         4.0|
|  3422|   2000|   4.12|         5.0|
|  3422|   2042|   4.22|         3.0|
|  3422|   2114|   4.13|         5.0|
|  3422|   2502|   4.13|         5.0|
|  3422|   2762|   4.22|         3.0|
|  3422|   2791|   4.17|         4.0|
|  3422|   3052|   4.13|         5.0|
|  3422|   3072|   4.22|         3.0|
|  3422|   3114|   4.13|         5.0|
+------+-------+-------+------------+
only showing top 20 rows



In [19]:
predictions_df.printSchema()

root
 |-- userId: long (nullable = true)
 |-- movieId: long (nullable = true)
 |-- predict: double (nullable = true)
 |-- true_predict: double (nullable = true)



In [None]:
from pyspark.sql import functions as F
import time


# Đo thời gian bắt đầu tính RMSE
start_time = time.time()

# Giới hạn chỉ 100 dòng để tính RMSE

# Tính RMSE
rmse_df = predictions_df.withColumn(
    "squared_error", F.pow(F.col("predict") - F.col("true_predict"), 2)
)

rmse_value = rmse_df.agg(F.sqrt(F.avg(F.col("squared_error")))).first()[0]
print(f"RMSE  {rmse_value}")

# Đo thời gian kết thúc
end_time = time.time()
print(f"Thời gian xử lý RMSE: {round(end_time - start_time, 2)} giây")
