# Phân tích dữ liệu YouTube bằng PySpark và trực quan hóa kết quả

Notebook này hướng dẫn phân tích dữ liệu YouTube sử dụng PySpark và trực quan hóa kết quả với matplotlib/pandas.

## 1. Khởi tạo SparkSession và nhập các thư viện cần thiết

Khởi tạo SparkSession và import các thư viện cần thiết như pyspark, matplotlib, pandas.

In [None]:
from pyspark.sql import SparkSession
import matplotlib.pyplot as plt
import pandas as pd

# Khởi tạo SparkSession
spark = SparkSession.builder \
    .appName("YouTubeTrendAnalysis") \
    .config("spark.hadoop.fs.s3a.endpoint", "http://localstack:4566") \
    .config("spark.hadoop.fs.s3a.access.key", "test") \
    .config("spark.hadoop.fs.s3a.secret.key", "test") \
    .config("spark.hadoop.fs.s3a.path.style.access", "true") \
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem") \
    .getOrCreate()

## 2. Đọc dữ liệu YouTube từ S3 bằng PySpark

Sử dụng Spark để đọc dữ liệu parquet từ S3 và hiển thị một số dòng đầu tiên.

In [None]:
# Đọc dữ liệu parquet từ S3
df = spark.read.parquet("s3a://youtube-trend-data/transformed/")
df.show(12)

## 3. Tiền xử lý dữ liệu danh mục video

Làm sạch và chuẩn hóa tên danh mục video, xử lý các giá trị thiếu hoặc không xác định.

In [None]:
from pyspark.sql import functions as F
from pyspark.sql.functions import when, col

# Giả sử đã có DataFrame categoryname chứa thông tin danh mục
# Làm sạch tên danh mục
category_mapping = categoryname.filter(
    (F.col("category_name").isNotNull()) & 
    (F.col("category_name") != "Unknown")
).select(
    "category_id", 
    F.col("category_name").alias("valid_category_name")
).distinct()

category_filled = categoryname.join(
    category_mapping,
    on="category_id",
    how="left"
).withColumn(
    "category_name_cleaned",
    F.when(
        (F.col("category_name").isNull()) | (F.col("category_name") == "Unknown"),
        F.col("valid_category_name")
    ).otherwise(F.col("category_name"))
).drop("category_name").withColumnRenamed("category_name_cleaned", "category_name")

category_filled.select("category_id", "category_name").distinct().show(truncate=False)

## 4. Gắn tên danh mục cho dữ liệu video

Join bảng dữ liệu video với bảng mapping danh mục để gắn tên danh mục đầy đủ.

In [None]:
# Tạo bảng mapping thủ công nếu cần
category_mapping_df = spark.createDataFrame([
    (28, "Science & Technology"),
    (24, "Entertainment"),
    (19, "Travel & Events"),
    (1,  "Film & Animation"),
    (20, "Gaming"),
    (25, "News & Politics"),
    (10, "Music"),
    (27, "Education"),
    (23, "Comedy"),
    (17, "Sports"),
    (22, "People & Blogs"),
    (26, "Howto & Style"),
    (15, "Pets & Animals"),
    (2, "Autos & Vehicles")
], ["category_id", "category_name_mapped"])

# Gắn tên danh mục cho dữ liệu video
df = df.join(
    category_mapping_df,
    on="category_id",
    how="left"
).withColumn(
    "category_name",
    when(col("category_name") == "Unknown", col("category_name_mapped"))
    .otherwise(col("category_name"))
).drop("category_name_mapped")

df.select("category_id", "category_name").distinct().show(truncate=False)

## 5. Tạo bảng tạm thời cho truy vấn SQL

Tạo bảng tạm thời (temp view) để có thể truy vấn dữ liệu bằng Spark SQL.

In [None]:
df.createOrReplaceTempView("youtube_trends")

## 6. Thống kê số lượng video theo khu vực

Truy vấn và hiển thị số lượng video theo từng khu vực (region).

In [None]:
count_videos_region = spark.sql("""
    SELECT region, COUNT(*) as video_count
    FROM youtube_trends
    GROUP BY region
""")
count_videos_region.show()

## 7. Phân tích tỷ lệ tương tác trung bình theo khu vực

Tính toán và sắp xếp tỷ lệ tương tác trung bình (engagement_ratio) theo khu vực.

In [None]:
engagement_by_region = spark.sql("""
    SELECT region, AVG(engagement_ratio) as avg_engagement_ratio
    FROM youtube_trends
    WHERE views > 0
    GROUP BY region
    ORDER BY avg_engagement_ratio DESC
""")
engagement_by_region.show()

## 8. Phân tích top 5 danh mục có lượt xem trung bình cao nhất

Truy vấn và lấy ra 5 danh mục có lượt xem trung bình cao nhất.

In [None]:
top_categories = spark.sql("""
    SELECT category_name, AVG(views) as avg_views
    FROM youtube_trends
    GROUP BY category_name
    ORDER BY avg_views DESC
    LIMIT 5
""")
top_categories.show()

## 9. Trực quan hóa top 5 danh mục theo lượt xem trung bình

Chuyển kết quả sang pandas và vẽ biểu đồ cột thể hiện top 5 danh mục theo lượt xem trung bình.

In [None]:
top_categories_pd = top_categories.toPandas()

plt.figure(figsize=(10, 6))
plt.bar(top_categories_pd['category_name'], top_categories_pd['avg_views'], color='skyblue')
plt.xlabel('Tên danh mục')
plt.ylabel('Lượt xem trung bình')
plt.title('Top 5 danh mục có lượt xem trung bình cao nhất')
plt.xticks(rotation=45)
for i, v in enumerate(top_categories_pd['avg_views']):
    plt.text(i, v, f'{v:,.0f}', ha='center', va='bottom')
plt.tight_layout()
plt.show()

## 10. Phân tích lượt xem trung bình theo danh mục và khu vực

Truy vấn lượt xem trung bình theo từng danh mục và khu vực, sắp xếp theo lượt xem giảm dần.

In [None]:
avg_views = spark.sql("""
    SELECT category_name, region, AVG(views) as avg_views
    FROM youtube_trends
    GROUP BY category_name, region
    ORDER BY avg_views DESC
""")
avg_views.show()

## 11. Trực quan hóa lượt xem trung bình theo danh mục và khu vực

Chuyển kết quả sang pandas và vẽ biểu đồ heatmap thể hiện lượt xem trung bình theo danh mục và khu vực.

In [None]:
avg_views_pd = avg_views.toPandas()

# Pivot để tạo ma trận cho heatmap
pivot_table = avg_views_pd.pivot(index='category_name', columns='region', values='avg_views')

plt.figure(figsize=(12, 8))
plt.imshow(pivot_table, aspect='auto', cmap='YlGnBu')
plt.colorbar(label='Lượt xem trung bình')
plt.xticks(ticks=range(len(pivot_table.columns)), labels=pivot_table.columns, rotation=45)
plt.yticks(ticks=range(len(pivot_table.index)), labels=pivot_table.index)
plt.title('Heatmap lượt xem trung bình theo danh mục và khu vực')
plt.xlabel('Khu vực')
plt.ylabel('Danh mục')
plt.tight_layout()
plt.show()