# Tạo Iceberg Tables cho Hệ Thống Phân Tích Tuyển Sinh

Notebook này sẽ tạo các bảng Iceberg trong Silver layer với Nessie catalog để quản lý metadata.

## 1. Import Libraries và Khởi tạo Spark Session

In [1]:
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import os

# Khởi tạo Spark Session với Iceberg và Nessie catalog
spark = (
    SparkSession.builder.appName("Create_Silver_Iceberg_Tables")
    # ===== Iceberg Catalog qua Nessie =====
    .config("spark.sql.catalog.nessie", "org.apache.iceberg.spark.SparkCatalog")
    .config("spark.sql.catalog.nessie.catalog-impl", "org.apache.iceberg.nessie.NessieCatalog")
    .config("spark.sql.catalog.nessie.uri", "http://nessie:19120/api/v1")
    .config("spark.sql.catalog.nessie.ref", "main")
    .config("spark.sql.catalog.nessie.warehouse", "s3a://silver/")
    # ===== Cấu hình MinIO (S3-compatible) =====
    .config("spark.sql.catalog.nessie.s3.endpoint", "http://minio:9000")
    .config("spark.sql.catalog.nessie.s3.access-key", "admin")
    .config("spark.sql.catalog.nessie.s3.secret-key", "admin123")
    .config("spark.sql.catalog.nessie.s3.path-style-access", "true")
    # ===== Spark + Hadoop S3 connector =====
    .config("spark.hadoop.fs.s3a.endpoint", "http://minio:9000")
    .config("spark.hadoop.fs.s3a.access.key", "admin")
    .config("spark.hadoop.fs.s3a.secret.key", "admin123")
    .config("spark.hadoop.fs.s3a.path.style.access", "true")
    .config("spark.hadoop.fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    .getOrCreate()
)

spark.sparkContext.setLogLevel("WARN")
print(" Spark Session đã được khởi tạo với Nessie catalog!")

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
25/11/06 04:34:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


 Spark Session đã được khởi tạo với Nessie catalog!


## 2. Tạo Database/Namespace trong Nessie

In [2]:
# Tạo database silver nếu chưa tồn tại
spark.sql("CREATE DATABASE IF NOT EXISTS nessie.silver_tables")
spark.sql("USE nessie.silver_tables")

print(" Database 'silver' đã được tạo và đang sử dụng!")

 Database 'silver' đã được tạo và đang sử dụng!


## 3. Tạo Tables theo Schema

### 3.1. Table - School (Trường Đại Học)

In [3]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.school (
    schoolId STRING,
    schoolName STRING,
    province STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'school' đã được tạo!")

25/11/06 04:34:27 WARN MetricsConfig: Cannot locate configuration: tried hadoop-metrics2-s3a-file-system.properties,hadoop-metrics2.properties


 Table 'school' đã được tạo!


### 3.2. Table - Major (Ngành Học)

In [4]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.major (
    majorId STRING,
    majorName STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'major' đã được tạo!")

 Table 'major' đã được tạo!


### 3.3. Table - SubjectGroup (Nhóm Môn/Khối Thi)

In [5]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.subject_group (
    subjectGroupId INT,
    subjectGroupName STRING,
    subjectCombination STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'subject_group' đã được tạo!")

 Table 'subject_group' đã được tạo!


### 3.4. Table - SelectionMethod (Phương Thức Xét Tuyển)

In [6]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.selection_method (
    selectionMethodId INT,
    selectionMethodName STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'selection_method' đã được tạo!")

 Table 'selection_method' đã được tạo!


### 3.5. Table - Benchmark (Điểm Chuẩn)

In [7]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.benchmark (
    benchmarkId INT,
    schoolId STRING,
    majorId STRING,
    subjectGroupId INT,
    selectionMethodId INT,
    year INT,
    score DOUBLE,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
PARTITIONED BY (year)
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'benchmark' đã được tạo!")

 Table 'benchmark' đã được tạo!


### 3.6. Table - StudentScores (Điểm Thi Thí Sinh)

In [8]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.student_scores (
    studentId STRING,
    regionId STRING,
    year INT,
    scores MAP<STRING, DOUBLE>,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
PARTITIONED BY (year)
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'student_scores' đã được tạo!")

 Table 'student_scores' đã được tạo!


### 3.7. Table - Region (Khu Vực)

In [9]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.region (
    regionId STRING,
    regionName STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'region' đã được tạo!")

 Table 'region' đã được tạo!


### 3.8. Table - Subject (Môn Học)

In [10]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.subject (
    subjectId INT,
    subjectName STRING,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'subject' đã được tạo!")

 Table 'subject' đã được tạo!


### 3.9. Table - Article (Bài viết, video TikTok)

In [11]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.article (
    articleID INT,
    title STRING,
    description STRING,
    author STRING,
    url STRING,
    timePublish TIMESTAMP,
    likeCount INT,
    commentCount INT,
    shareCount INT,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
PARTITIONED BY (days(timePublish))
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'article' đã được tạo!")

 Table 'article' đã được tạo!


### 3.10. Table - Comment

In [12]:
spark.sql("""
CREATE TABLE IF NOT EXISTS nessie.silver_tables.comment (
    commentID INT,
    articleID INT,
    name STRING,
    tagName STRING,
    urlUser STRING,
    comment STRING,
    commentTime TIMESTAMP,
    commentLike INT,
    levelComment INT,
    replyTo STRING,
    numberOftReply INT,
    created_at TIMESTAMP,
    updated_at TIMESTAMP
) USING iceberg
PARTITIONED BY (days(commentTime), articleID)
TBLPROPERTIES (
    'write.format.default' = 'parquet',
    'write.metadata.compression-codec' = 'gzip'
)
""")

print(" Table 'comment' đã được tạo!")

 Table 'comment' đã được tạo!


## 4. Kiểm Tra Các Tables Đã Tạo

In [13]:
# Liệt kê tất cả các tables trong database silver
tables = spark.sql("SHOW TABLES IN nessie.silver_tables")
tables.show(truncate=False)

+-------------+----------------+-----------+
|namespace    |tableName       |isTemporary|
+-------------+----------------+-----------+
|silver_tables|article         |false      |
|silver_tables|benchmark       |false      |
|silver_tables|comment         |false      |
|silver_tables|major           |false      |
|silver_tables|region          |false      |
|silver_tables|school          |false      |
|silver_tables|selection_method|false      |
|silver_tables|student_scores  |false      |
|silver_tables|subject         |false      |
|silver_tables|subject_group   |false      |
+-------------+----------------+-----------+

