# SparkSession

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.window import Window
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

In [None]:
spark = SparkSession.builder \
    .appName("data_preprocessing_bronze") \
    .getOrCreate()

# Bronze

원시 데이터를 그대로 저장하는 단계

In [None]:
catalog = "1dt_team8_databricks"
schema = "`movielens-32m`"

# 원시 CSV 파일 경로 (예시)
movies_csv_path = "/mnt/raw/movielens/movies.csv"
ratings_csv_path = "/mnt/raw/movielens/ratings.csv"
tags_csv_path = "/mnt/raw/movielens/tags.csv"
links_csv_path = "/mnt/raw/movielens/links.csv"

# CSV 파일을 Spark DataFrame으로 읽기 (헤더 포함, 스키마 자동 추론)
movies_df = spark.read.option("header", True).option("inferSchema", True).csv(movies_csv_path)
ratings_df = spark.read.option("header", True).option("inferSchema", True).csv(ratings_csv_path)
tags_df = spark.read.option("header", True).option("inferSchema", True).csv(tags_csv_path)
links_df = spark.read.option("header", True).option("inferSchema", True).csv(links_csv_path)

# Delta 포맷으로 브론즈 테이블 저장 (overwrite 모드)
movies_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.movies_bronze")
ratings_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.ratings_bronze")
tags_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.tags_bronze")
links_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.links_bronze")

print("브론즈 레이어 테이블이 성공적으로 생성되었습니다.")

In [None]:
schema = "`imdb`"

# IMDb 원시 CSV 파일 경로 (예시)
title_basics_csv_path = "/mnt/raw/imdb/title_basics.csv"
title_ratings_csv_path = "/mnt/raw/imdb/title_ratings.csv"

# CSV 파일을 Spark DataFrame으로 읽기 (헤더 포함, 스키마 자동 추론)
title_basics_df = spark.read.option("header", True).option("inferSchema", True).csv(title_basics_csv_path)
title_ratings_df = spark.read.option("header", True).option("inferSchema", True).csv(title_ratings_csv_path)

# Delta 포맷으로 브론즈 테이블 저장 (overwrite 모드)
title_basics_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.title_basics_bronze")
title_ratings_df.write.format("delta").mode("overwrite").saveAsTable(f"{catalog}.{schema}.title_ratings_bronze")

print("IMDb 브론즈 레이어 테이블이 성공적으로 생성되었습니다.")