In [None]:
# 02 - Procesamiento y ETL con PySpark

# Este notebook replica el flujo de análisis y ETL usando PySpark y carga los resultados en `warehouse/warehouse_pyspark.db`. Ejecuta este notebook desde la raíz del proyecto.


In [33]:
import os

import pandas as pd
import sqlalchemy
from pyspark.sql import SparkSession, functions as F, Window

# Rutas relativas desde notebooks/ hacia data/ y warehouse/
DATA_PATH = "../data/videogames.csv"
DB_PATH = "../warehouse/warehouse_pyspark.db"
DB_URL = f"sqlite:///{DB_PATH}"

spark = SparkSession.builder.appName("videogames_pyspark_etl").getOrCreate()

print(f"CSV: {DATA_PATH}")
print(f"SQLite DB (PySpark): {DB_PATH}")


CSV: ../data/videogames.csv
SQLite DB (PySpark): ../warehouse/warehouse_pyspark.db


In [34]:
# Carga del dataset con Spark

raw_df = (
    spark.read
    .option("header", True)  # Indica que el archivo CSV tiene una fila de encabezados
    .option("inferSchema", True)  # Le dice a Spark que detecte automáticamente el tipo de datos
    .csv(DATA_PATH)
)

print("===== Dataset cargado =====")
raw_df.printSchema()
print(f"Dimensiones del dataset: {raw_df.count()} filas x {len(raw_df.columns)} columnas")
print("\nPrimeras 5 filas:")
raw_df.show(5)


===== Dataset cargado =====
root
 |-- name: string (nullable = true)
 |-- genre: string (nullable = true)
 |-- cost: string (nullable = true)
 |-- platform: string (nullable = true)
 |-- popularity: string (nullable = true)
 |-- pegi: string (nullable = true)
 |-- year: string (nullable = true)
 |-- developer: string (nullable = true)
 |-- publisher: string (nullable = true)
 |-- region: string (nullable = true)
 |-- mode: string (nullable = true)
 |-- engine: string (nullable = true)
 |-- award: string (nullable = true)
 |-- dlc_support: string (nullable = true)
 |-- language: string (nullable = true)
 |-- metascore: string (nullable = true)
 |-- user_score: string (nullable = true)
 |-- reviews: string (nullable = true)
 |-- rating_source: string (nullable = true)
 |-- copies_sold_millions: string (nullable = true)
 |-- revenue_millions_usd: string (nullable = true)

Dimensiones del dataset: 10000 filas x 21 columnas

Primeras 5 filas:
+-------------------+-------+-----+--------+----

In [35]:
# Tratamiento de nulos y duplicados en Spark

print("===== 1. Eliminación de duplicados =====")
initial_count = raw_df.count()
clean_df = raw_df.dropDuplicates()
final_count = clean_df.count()
print(f"Filas antes: {initial_count}, después: {final_count}")

# Identificamos columnas numéricas y categóricas
# Nota: Como inferSchema=True detecta todo como string, no habrá columnas numéricas aquí
# Las convertiremos después en la siguiente celda
numeric_cols = [f.name for f in clean_df.schema.fields if str(f.dataType) in ("IntegerType", "LongType", "DoubleType", "FloatType")] 
cat_cols = [f.name for f in clean_df.schema.fields if f.name not in numeric_cols]

print(f"\nColumnas numéricas detectadas: {numeric_cols}")
print(f"Columnas categóricas detectadas: {len(cat_cols)} columnas")

# Tratamiento de nulos en columnas numéricas (si las hay)
if numeric_cols:
    for col in numeric_cols:
        mean_val = clean_df.select(F.mean(F.col(col))).first()[0]
        if mean_val is not None:
            clean_df = clean_df.na.fill({col: float(mean_val)})
            print(f"Columna '{col}' rellenada con media: {mean_val}")
        else:
            clean_df = clean_df.na.fill({col: 0.0})
            print(f"Columna '{col}' rellenada con 0.0 (sin valores válidos)")

# Tratamiento de nulos en columnas categóricas
# También tratamos valores problemáticos como "?", "N/A", etc.
print("\n===== 2. Tratamiento de valores faltantes en columnas categóricas =====")
for col in cat_cols:
    # Reemplazar valores problemáticos comunes con "Unknown"
    clean_df = clean_df.withColumn(
        col,
        F.when(
            (F.col(col).isNull()) | 
            (F.col(col) == "?") | 
            (F.col(col) == "N/A") |
            (F.col(col) == ""),
            "Unknown"
        ).otherwise(F.col(col))
    )

print("Valores faltantes y problemáticos reemplazados con 'Unknown'")

print("\n===== Dataset después de limpieza inicial =====")
clean_df.show(5)


===== 1. Eliminación de duplicados =====
Filas antes: 10000, después: 10000

Columnas numéricas detectadas: []
Columnas categóricas detectadas: 21 columnas

===== 2. Tratamiento de valores faltantes en columnas categóricas =====
Valores faltantes y problemáticos reemplazados con 'Unknown'

===== Dataset después de limpieza inicial =====
+--------------------+----------+-------+--------+------------------+-------+----+----------+-----------+------+-----------+-------------+---------+-----------+--------+---------+----------+-----------------+-------------+--------------------+--------------------+
|                name|     genre|   cost|platform|        popularity|   pegi|year| developer|  publisher|region|       mode|       engine|    award|dlc_support|language|metascore|user_score|          reviews|rating_source|copies_sold_millions|revenue_millions_usd|
+--------------------+----------+-------+--------+------------------+-------+----+----------+-----------+------+-----------+-------

In [36]:
from pyspark.sql import functions as F
from pyspark.sql.types import DoubleType

print("\n===== 2. Limpieza de columnas de ventas/ingresos =====")

numeric_target_cols = ["copies_sold_millions", "revenue_millions_usd"]

for col in numeric_target_cols:
    if col in clean_df.columns:

        # 1️ Normalizamos el texto:
        # - quitamos espacios
        # - quitamos comas y $
        # - pasamos a mayúsculas
        clean_df = clean_df.withColumn(
            col,
            F.upper(
                F.regexp_replace(
                    F.regexp_replace(F.trim(F.col(col)), ",", ""),
                    "\\$", ""
                )
            )
        )

        # 2️ Convertimos valores especiales a NULL
        clean_df = clean_df.withColumn(
            col,
            F.when(
                (F.col(col).isNull()) |
                (F.col(col).isin("UNKNOWN", "?")),
                None
            )
            # 3️ Valores terminados en M → millones
            .when(
                F.col(col).endswith("M"),
                F.regexp_replace(F.col(col), "M", "").cast(DoubleType()) * 1e6
            )
            # 4️ Valores terminados en B → billones
            .when(
                F.col(col).endswith("B"),
                F.regexp_replace(F.col(col), "B", "").cast(DoubleType()) * 1e9
            )
            # 5️ Intento directo de conversión a número
            .otherwise(F.col(col).cast(DoubleType()))
        )

        # 6️ Calculamos la media de la columna
        mean_val = clean_df.select(F.mean(col)).first()[0]

        # 7️ Rellenamos los NULL con la media
        if mean_val is not None:
            clean_df = clean_df.na.fill({col: mean_val})
            print(f"Columna '{col}' limpiada y rellenada con media: {mean_val}")
        else:
            clean_df = clean_df.na.fill({col: 0.0})
            print(f"Columna '{col}' sin valores válidos → rellenada con 0.0")

print("\n===== 3. Limpieza de columnas categóricas =====")

# Columnas categóricas = todas menos las numéricas tratadas antes
categorical_cols = [
    c for c in clean_df.columns
    if c not in ["copies_sold_millions", "revenue_millions_usd"]
]

for col in categorical_cols:

    # 1️ Limpiamos espacios y normalizamos texto
    clean_df = clean_df.withColumn(
        col,
        F.trim(F.col(col))
    )

    # 2️ Reemplazamos valores problemáticos por NULL
    clean_df = clean_df.withColumn(
        col,
        F.when(
            (F.col(col).isNull()) |
            (F.col(col) == "") |
            (F.upper(F.col(col)).isin("?", "N/A", "UNKNOWN")),
            None
        ).otherwise(F.col(col))
    )

    # 3️ Rellenamos los NULL con 'Unknown'
    clean_df = clean_df.na.fill({col: "Unknown"})

print("Columnas categóricas limpiadas correctamente")


===== 2. Limpieza de columnas de ventas/ingresos =====
Columna 'copies_sold_millions' limpiada y rellenada con media: 10308561.989154695
Columna 'revenue_millions_usd' limpiada y rellenada con media: 507393576.9315999

===== 3. Limpieza de columnas categóricas =====
Columnas categóricas limpiadas correctamente


In [28]:
# Normalización de nombres de columnas

normalized_cols = [
    c.strip().lower().replace(" ", "_").replace("-", "_") for c in clean_df.columns
]
clean_df = clean_df.toDF(*normalized_cols)

clean_df.printSchema()


root
 |-- name: string (nullable = false)
 |-- genre: string (nullable = false)
 |-- cost: string (nullable = false)
 |-- platform: string (nullable = false)
 |-- popularity: string (nullable = false)
 |-- pegi: string (nullable = false)
 |-- year: string (nullable = false)
 |-- developer: string (nullable = false)
 |-- publisher: string (nullable = false)
 |-- region: string (nullable = false)
 |-- mode: string (nullable = false)
 |-- engine: string (nullable = false)
 |-- award: string (nullable = false)
 |-- dlc_support: string (nullable = false)
 |-- language: string (nullable = false)
 |-- metascore: string (nullable = false)
 |-- user_score: string (nullable = false)
 |-- reviews: string (nullable = false)
 |-- rating_source: string (nullable = false)
 |-- copies_sold_millions: double (nullable = false)
 |-- revenue_millions_usd: double (nullable = false)



In [37]:
from pyspark.sql import functions as F

cols = clean_df.columns
required_cols = ["name", "genre", "platform", "developer", "publisher", "year"]
for c in required_cols:
    if c not in cols:
        raise ValueError(f"Columna requerida no encontrada en el CSV: {c}")

print("Columnas disponibles después de normalización:")
print(cols)

print("\n===== Creación de dimensiones =====")

# Dimensión: dim_game
dim_game_pd = (
    clean_df.select("name", "genre")
    .distinct()
    .orderBy("name", "genre")
    .toPandas()
)
dim_game_pd["id_game"] = range(1, len(dim_game_pd) + 1)
dim_game = spark.createDataFrame(dim_game_pd)
print(f"Dimensión 'dim_game' creada: {len(dim_game_pd)} filas")

# Dimensión: dim_platform
dim_platform_pd = clean_df.select("platform").distinct().orderBy("platform").toPandas()
dim_platform_pd["id_platform"] = range(1, len(dim_platform_pd) + 1)
dim_platform = spark.createDataFrame(dim_platform_pd)
print(f"Dimensión 'dim_platform' creada: {len(dim_platform_pd)} filas")

# Dimensión: dim_developer
dim_developer_pd = clean_df.select("developer").distinct().orderBy("developer").toPandas()
dim_developer_pd["id_developer"] = range(1, len(dim_developer_pd) + 1)
dim_developer = spark.createDataFrame(dim_developer_pd)
print(f"Dimensión 'dim_developer' creada: {len(dim_developer_pd)} filas")

# Dimensión: dim_publisher
dim_publisher_pd = clean_df.select("publisher").distinct().orderBy("publisher").toPandas()
dim_publisher_pd["id_publisher"] = range(1, len(dim_publisher_pd) + 1)
dim_publisher = spark.createDataFrame(dim_publisher_pd)
print(f"Dimensión 'dim_publisher' creada: {len(dim_publisher_pd)} filas")

# Dimensión: dim_year
dim_year_pd = clean_df.select("year").distinct().orderBy("year").toPandas()
dim_year_pd["id_year"] = range(1, len(dim_year_pd) + 1)
dim_year = spark.createDataFrame(dim_year_pd)
print(f"Dimensión 'dim_year' creada: {len(dim_year_pd)} filas")

Columnas disponibles después de normalización:
['name', 'genre', 'cost', 'platform', 'popularity', 'pegi', 'year', 'developer', 'publisher', 'region', 'mode', 'engine', 'award', 'dlc_support', 'language', 'metascore', 'user_score', 'reviews', 'rating_source', 'copies_sold_millions', 'revenue_millions_usd']

===== Creación de dimensiones =====
Dimensión 'dim_game' creada: 408 filas
Dimensión 'dim_platform' creada: 9 filas
Dimensión 'dim_developer' creada: 13 filas
Dimensión 'dim_publisher' creada: 12 filas
Dimensión 'dim_year' creada: 42 filas


In [38]:
# -------------------------------------------------------
# Construcción de la tabla de hechos (fact_sales)
# -------------------------------------------------------
fact = (
    clean_df
    .join(dim_game, on=["name", "genre"], how="left")
    .join(dim_platform, on=["platform"], how="left")
    .join(dim_developer, on=["developer"], how="left")
    .join(dim_publisher, on=["publisher"], how="left")
    .join(dim_year, on=["year"], how="left")
)

# Columnas métricas
value_cols = [c for c in ["copies_sold_millions", "revenue_millions_usd"] if c in fact.columns]
if not value_cols:
    raise ValueError("No se encontraron columnas métricas para construir la tabla de hechos.")

# Selección final de la tabla de hechos
fact_sales = fact.select(
    "id_game", "id_platform", "id_developer", "id_publisher", "id_year", *value_cols
)

print(f"\nTabla de hechos 'fact_sales' creada: {fact_sales.count()} filas")
fact_sales.show(5)


                                                                                


Tabla de hechos 'fact_sales' creada: 10000 filas
+-------+-----------+------------+------------+-------+--------------------+--------------------+
|id_game|id_platform|id_developer|id_publisher|id_year|copies_sold_millions|revenue_millions_usd|
+-------+-----------+------------+------------+-------+--------------------+--------------------+
|    200|          3|           5|          10|     23|           1500000.0|               282.3|
|    339|          4|          12|          10|     39|               34.55|               5.0E8|
|    373|          1|           8|           9|     33|1.0308561989154695E7|               1.0E9|
|     38|          7|           1|          10|     41|           1500000.0| 5.073935769315999E8|
|    371|          6|           9|           6|     34|               12.79| 5.073935769315999E8|
+-------+-----------+------------+------------+-------+--------------------+--------------------+
only showing top 5 rows


In [39]:
# Carga a SQLite: usamos los DataFrames de Pandas directamente (ya creados arriba)
# y convertimos fact_sales de Spark a Pandas

print("===== Carga de tablas en SQLite =====")

# Obtener la ruta absoluta del directorio warehouse
# Si estamos en notebooks/, subimos un nivel y vamos a warehouse/
current_dir = os.getcwd()
if "notebooks" in current_dir:
    # Estamos en notebooks/, subimos un nivel
    project_root = os.path.dirname(current_dir)
else:
    # Estamos en la raíz del proyecto
    project_root = current_dir

warehouse_dir = os.path.join(project_root, "warehouse")
os.makedirs(warehouse_dir, exist_ok=True)

# Usar ruta absoluta para la base de datos
db_path_abs = os.path.join(warehouse_dir, "warehouse_pyspark.db")
db_url_abs = f"sqlite:///{db_path_abs}"

print(f"Directorio warehouse: {warehouse_dir}")
print(f"Base de datos: {db_path_abs}")

engine = sqlalchemy.create_engine(db_url_abs)

print("\nCargando tablas en SQLite...")
with engine.begin() as conn:
    # Usar directamente los DataFrames de Pandas (ya creados sin ventanas)
    dim_game_pd.to_sql("dim_game", conn, if_exists="replace", index=False)
    print(" - dim_game cargada")
    dim_platform_pd.to_sql("dim_platform", conn, if_exists="replace", index=False)
    print(" - dim_platform cargada")
    dim_developer_pd.to_sql("dim_developer", conn, if_exists="replace", index=False)
    print(" - dim_developer cargada")
    dim_publisher_pd.to_sql("dim_publisher", conn, if_exists="replace", index=False)
    print(" - dim_publisher cargada")
    dim_year_pd.to_sql("dim_year", conn, if_exists="replace", index=False)
    print(" - dim_year cargada")
    # fact_sales necesita conversión de Spark a Pandas (no tiene ventanas, no generará warnings)
    fact_sales.toPandas().to_sql("fact_sales", conn, if_exists="replace", index=False)
    print(" - fact_sales cargada")

print(f"\n✅ Todas las tablas fueron cargadas correctamente en SQLite: {db_path_abs}")


===== Carga de tablas en SQLite =====
Directorio warehouse: /app/warehouse
Base de datos: /app/warehouse/warehouse_pyspark.db

Cargando tablas en SQLite...
 - dim_game cargada
 - dim_platform cargada
 - dim_developer cargada
 - dim_publisher cargada
 - dim_year cargada


                                                                                

 - fact_sales cargada

✅ Todas las tablas fueron cargadas correctamente en SQLite: /app/warehouse/warehouse_pyspark.db


In [40]:
# Ejemplo de consulta sobre el Data Warehouse generado por PySpark

print("===== Consulta: Top 10 géneros por ventas =====")

query = """
SELECT 
    g.genre, 
    SUM(f.copies_sold_millions) AS total_copies_sold,
    SUM(f.revenue_millions_usd) AS total_revenue
FROM fact_sales f
JOIN dim_game g ON f.id_game = g.id_game
GROUP BY g.genre
ORDER BY total_copies_sold DESC
LIMIT 10;
"""

print("Consulta SQL ejecutada:\n", query)

# Usar la misma conexión que creamos arriba
with engine.connect() as conn:
    top_genres_spark = pd.read_sql(query, conn)

print("\n===== Resultado: Top 10 géneros por ventas =====")
print(top_genres_spark)

print("\n===== Resumen del Data Warehouse =====")
print(f"Base de datos creada en: {db_path_abs}")
print("\nTablas creadas:")
print("  - dim_game (dimensiones de juegos)")
print("  - dim_platform (dimensiones de plataformas)")
print("  - dim_developer (dimensiones de desarrolladores)")
print("  - dim_publisher (dimensiones de publishers)")
print("  - dim_year (dimensiones de años)")
print("  - fact_sales (tabla de hechos con ventas)")
print("\n✅ Proceso ETL con PySpark completado exitosamente")


===== Consulta: Top 10 géneros por ventas =====
Consulta SQL ejecutada:
 
SELECT 
    g.genre, 
    SUM(f.copies_sold_millions) AS total_copies_sold,
    SUM(f.revenue_millions_usd) AS total_revenue
FROM fact_sales f
JOIN dim_game g ON f.id_game = g.id_game
GROUP BY g.genre
ORDER BY total_copies_sold DESC
LIMIT 10;


===== Resultado: Top 10 géneros por ventas =====
        genre  total_copies_sold  total_revenue
0     Unknown       1.562467e+10   7.476407e+11
1         RPG       1.517758e+10   7.241629e+11
2   Adventure       7.897487e+09   3.712996e+11
3      Racing       7.627009e+09   3.621147e+11
4      Puzzle       7.557338e+09   3.651739e+11
5      Action       7.435295e+09   3.571295e+11
6       Indie       7.223987e+09   3.715186e+11
7      Sports       7.216199e+09   3.760925e+11
8      action       7.136507e+09   3.556443e+11
9  Simulation       6.870018e+09   3.470851e+11

===== Resumen del Data Warehouse =====
Base de datos creada en: /app/warehouse/warehouse_pyspark.db

Ta