In [4]:
# Instalar las librerías necesarias.

!pip install snowflake-connector-python pyarrow requests pandas
print("=" * 80)
print("Paquetes instalados correctamente.")
print("=" * 80)

Paquetes instalados correctamente.


In [6]:
# Verificar que todas las variables de ambiente necesarias estén configuradas.

import os
import requests
from io import StringIO
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql import types as T
import snowflake.connector

print("=" * 80)
print("CONFIGURACIÓN DE AMBIENTE - PROYECTO 3")
print("=" * 80)

# Variables obligatorias
required_vars = [
    'SNOWFLAKE_ACCOUNT',
    'SNOWFLAKE_DATABASE',
    'SNOWFLAKE_SCHEMA_RAW',
    'SNOWFLAKE_SCHEMA_ANALYTICS',
    'SNOWFLAKE_WAREHOUSE',
    'SNOWFLAKE_USER',
    'SNOWFLAKE_PASSWORD',
    'SNOWFLAKE_ROLE',
    'TAXI_ZONE_URL'
]

# Verificar que todas las variables existan
missing_vars = [var for var in required_vars if not os.getenv(var)]
if missing_vars:
    print(f"ERROR: Faltan variables de ambiente: {', '.join(missing_vars)}")
    print("Por favor configura tu archivo .env correctamente.")
else:
    print("Todas las variables de ambiente requeridas están configuradas.")

print("=" * 80)

CONFIGURACIÓN DE AMBIENTE - PROYECTO 3
Todas las variables de ambiente requeridas están configuradas.


In [7]:
# Configurar Spark.

spark = (
    SparkSession.builder
    .appName("P3 - Enriquecimiento y Unificación - Anahi Andrade")
    
    # Configuración de zona horaria para timestamps
    .config("spark.sql.timestampType", "TIMESTAMP_LTZ")
    .config("spark.sql.session.timeZone", "UTC")
    
    # JARs necesarios para conectar Spark con Snowflake
    .config(
        "spark.jars.packages",
        "net.snowflake:snowflake-jdbc:3.13.33,"
        "net.snowflake:spark-snowflake_2.12:2.9.3-spark_3.1"
    )
    
    # Desactivar lectura vectorizada para mayor compatibilidad
    .config("spark.sql.parquet.enableVectorizedReader", "false")
    
    .getOrCreate()
)

print("=" * 80)
print("SPARK SESSION CREADA EXITOSAMENTE")
print("=" * 80)
print(f"Spark Version: {spark.version}")
print(f"Spark UI disponible en: http://localhost:4040")
print(f"Timezone configurado: {spark.conf.get('spark.sql.session.timeZone')}")
print("=" * 80)

SPARK SESSION CREADA EXITOSAMENTE
Spark Version: 3.5.0
Spark UI disponible en: http://localhost:4040
Timezone configurado: UTC


In [8]:
# Definir opciones de conexión a Snowflake para lectura/escritura con Spark.

snowflake_options = {
    "sfURL": f"{os.getenv('SNOWFLAKE_ACCOUNT')}.snowflakecomputing.com",
    "sfUser": os.getenv("SNOWFLAKE_USER"),
    "sfPassword": os.getenv("SNOWFLAKE_PASSWORD"),
    "sfDatabase": os.getenv("SNOWFLAKE_DATABASE"),
    "sfWarehouse": os.getenv("SNOWFLAKE_WAREHOUSE"),
    "sfRole": os.getenv("SNOWFLAKE_ROLE")
}
print("=" * 80)
print("Configuración Snowflake lista para usar.")
print("=" * 80)

Configuración Snowflake lista para usar.


In [9]:
# Crear la infraestructura necesaria en Snowflake:
# 1. Esquema CLEAN: Capa intermedia entre RAW y ANALYTICS.
# 2. Tabla TAXI_ZONES: catálogo de LocationID - Borough/Zone/Service_Zone.

print("\n" + "=" * 80)
print("CREACIÓN DE ESQUEMA CLEAN EN SNOWFLAKE")
print("=" * 80)

# Establecer conexión directa a Snowflake para ejecutar DDL
conn = snowflake.connector.connect(
    user=os.environ["SNOWFLAKE_USER"],
    password=os.environ["SNOWFLAKE_PASSWORD"],
    account=os.environ["SNOWFLAKE_ACCOUNT"],
    warehouse=os.environ["SNOWFLAKE_WAREHOUSE"],
    database=os.environ["SNOWFLAKE_DATABASE"],
    role=os.environ["SNOWFLAKE_ROLE"]
)
cursor = conn.cursor()

# CREAR ESQUEMA CLEAN:
cursor.execute("CREATE SCHEMA IF NOT EXISTS CLEAN")
print("- Esquema CLEAN creado/verificado.")

# TABLA DE CATÁLOGO DE ZONAS:
create_zones_table = """
CREATE TABLE IF NOT EXISTS CLEAN.TAXI_ZONES (
    LOCATIONID INTEGER PRIMARY KEY,
    BOROUGH VARCHAR(50),
    ZONE VARCHAR(100),
    SERVICE_ZONE VARCHAR(50)
)
"""

cursor.execute(create_zones_table)
print("- Tabla CLEAN.TAXI_ZONES creada/verificada.")

cursor.close()
conn.close()

print("=" * 80)


CREACIÓN DE ESQUEMA CLEAN EN SNOWFLAKE
- Esquema CLEAN creado/verificado.
- Tabla CLEAN.TAXI_ZONES creada/verificada.


In [10]:
# Descargar el catálogo de zonas de NYC TLC desde la CDN oficial.

print("\n" + "=" * 80)
print("CARGA DE TAXI ZONE LOOKUP A SNOWFLAKE")
print("=" * 80)

taxi_zone_url = os.getenv('TAXI_ZONE_URL')

# PASO 1: DESCARGA DEL CSV
print("Descargando catálogo de zonas...")
response = requests.get(taxi_zone_url, timeout=60)
response.raise_for_status()

# PASO 2: LECTURA CON PANDAS Y CONVERSIÓN A SPARK
csv_data = StringIO(response.text)
import pandas as pd
df_zones_pd = pd.read_csv(csv_data)
df_zones = spark.createDataFrame(df_zones_pd)

# Normalizar nombres de columnas a UPPERCASE (consistencia con Snowflake)
df_zones = df_zones.toDF(*[c.strip().upper() for c in df_zones.columns])

zone_count = df_zones.count()
print(f"- Descargadas {zone_count} zonas.")

# PASO 3: ESCRITURA A SNOWFLAKE 
# - Modo OVERWRITE para idempotencia (reingestar no duplica datos)
print("Escribiendo a CLEAN.TAXI_ZONES...")
(df_zones.write
 .format("snowflake")
 .options(**snowflake_options)
 .option("sfSchema", "CLEAN")
 .option("dbtable", "TAXI_ZONES")
 .mode("overwrite")
 .save())

print("- Catálogo de zonas cargado exitosamente.")
print("=" * 80)


CARGA DE TAXI ZONE LOOKUP A SNOWFLAKE
Descargando catálogo de zonas...
- Descargadas 265 zonas.
Escribiendo a CLEAN.TAXI_ZONES...
- Catálogo de zonas cargado exitosamente.


In [11]:
# Crear la tabla unificada que contendrá:
# 1. Datos de Yellow y Green unificados en esquema común.
# 2. Enriquecimiento geográfico (nombres de zonas y boroughs).
# 3. Catálogos normalizados (descripciones legibles de códigos).
# 4. Metadatos de lineage (trazabilidad desde RAW).

print("\n" + "=" * 80)
print("CREACIÓN DE TABLA CLEAN.UNIFIED_TRIPS")
print("=" * 80)

conn = snowflake.connector.connect(
    user=os.environ["SNOWFLAKE_USER"],
    password=os.environ["SNOWFLAKE_PASSWORD"],
    account=os.environ["SNOWFLAKE_ACCOUNT"],
    warehouse=os.environ["SNOWFLAKE_WAREHOUSE"],
    database=os.environ["SNOWFLAKE_DATABASE"],
    role=os.environ["SNOWFLAKE_ROLE"]
)
cursor = conn.cursor()

# ESTRUCTURA DE UNIFIED_TRIPS:
# - Combina todos los campos necesarios de Yellow y Green.
# - Incluye campos específicos de cada servicio (con NULL donde no aplica).
create_unified_table = """
CREATE TABLE IF NOT EXISTS CLEAN.UNIFIED_TRIPS (
    -- IDs
    VENDORID BIGINT,
    PULOCATIONID BIGINT,
    DOLOCATIONID BIGINT,
    
    -- Timestamps (nombres unificados)
    PICKUP_DATETIME TIMESTAMP_NTZ,
    DROPOFF_DATETIME TIMESTAMP_NTZ,
    
    -- Métricas de viaje
    PASSENGER_COUNT DOUBLE,
    TRIP_DISTANCE DOUBLE,
    RATECODEID DOUBLE,
    STORE_AND_FWD_FLAG VARCHAR(1),
    PAYMENT_TYPE BIGINT,
    
    -- Tarifas itemizadas
    FARE_AMOUNT DOUBLE,
    EXTRA DOUBLE,
    MTA_TAX DOUBLE,
    TIP_AMOUNT DOUBLE,
    TOLLS_AMOUNT DOUBLE,
    IMPROVEMENT_SURCHARGE DOUBLE,
    TOTAL_AMOUNT DOUBLE,
    CONGESTION_SURCHARGE DOUBLE,
    
    -- Campos específicos por servicio
    TRIP_TYPE BIGINT,                -- Solo Green
    AIRPORT_FEE DOUBLE,              -- Solo Yellow
    EHAIL_FEE DOUBLE,                -- Solo Green
    
    -- Enriquecimiento geográfico
    PU_BOROUGH VARCHAR(50),
    PU_ZONE VARCHAR(100),
    PU_SERVICE_ZONE VARCHAR(50),
    DO_BOROUGH VARCHAR(50),
    DO_ZONE VARCHAR(100),
    DO_SERVICE_ZONE VARCHAR(50),
    
    -- Catálogos normalizados
    PAYMENT_TYPE_DESC VARCHAR(50),
    RATE_CODE_DESC VARCHAR(50),
    VENDOR_NAME VARCHAR(100),
    TRIP_TYPE_DESC VARCHAR(50),
    
    -- Metadatos de lineage (heredados de RAW)
    RUN_ID INTEGER,
    SERVICE_TYPE VARCHAR(10),
    SOURCE_YEAR INTEGER,
    SOURCE_MONTH INTEGER,
    INGESTED_AT_UTC TIMESTAMP_NTZ,
    SOURCE_PATH VARCHAR(500),
    BATCH_NUMBER INTEGER
)
"""

cursor.execute(create_unified_table)
print("- Tabla CLEAN.UNIFIED_TRIPS creada/verificada.")

cursor.close()
conn.close()

print("=" * 80)


CREACIÓN DE TABLA CLEAN.UNIFIED_TRIPS
- Tabla CLEAN.UNIFIED_TRIPS creada/verificada.


In [14]:
# Proceso completo de transformación ejecutado en Snowflake:
# 1. Unifica Yellow y Green en esquema común (renombra timestamps).
# 2. LEFT JOIN con TAXI_ZONES para enriquecer ubicaciones.
# 3. Normaliza catálogos.
# 4. Inserta en CLEAN.UNIFIED_TRIPS.

import time

print("\n" + "=" * 80)
print("UNIFICACIÓN Y ENRIQUECIMIENTO EN SNOWFLAKE")
print("=" * 80)

# Inicio del cronómetro
start_time = time.time()

conn = snowflake.connector.connect(
    user=os.environ["SNOWFLAKE_USER"],
    password=os.environ["SNOWFLAKE_PASSWORD"],
    account=os.environ["SNOWFLAKE_ACCOUNT"],
    warehouse=os.environ["SNOWFLAKE_WAREHOUSE"],
    database=os.environ["SNOWFLAKE_DATABASE"],
    role=os.environ["SNOWFLAKE_ROLE"]
)
cursor = conn.cursor()

# IDEMPOTENCIA: TRUNCAR TABLA
print("Limpiando tabla CLEAN.UNIFIED_TRIPS...")
cursor.execute("TRUNCATE TABLE CLEAN.UNIFIED_TRIPS")

# INSERT UNIFICADO CON ENRIQUECIMIENTO
# - Esta query combina múltiples transformaciones en una sola operación:
unify_sql = """
INSERT INTO CLEAN.UNIFIED_TRIPS
WITH yellow_normalized AS (
    -- Normalizar Yellow: renombrar TPEP_* → genérico PICKUP/DROPOFF
    -- Agregar NULL para campos específicos de Green
    SELECT
        VENDORID,
        PULOCATIONID,
        DOLOCATIONID,
        TPEP_PICKUP_DATETIME AS PICKUP_DATETIME,
        TPEP_DROPOFF_DATETIME AS DROPOFF_DATETIME,
        PASSENGER_COUNT,
        TRIP_DISTANCE,
        RATECODEID,
        STORE_AND_FWD_FLAG,
        PAYMENT_TYPE,
        FARE_AMOUNT,
        EXTRA,
        MTA_TAX,
        TIP_AMOUNT,
        TOLLS_AMOUNT,
        IMPROVEMENT_SURCHARGE,
        TOTAL_AMOUNT,
        CONGESTION_SURCHARGE,
        NULL AS TRIP_TYPE,
        AIRPORT_FEE,
        NULL AS EHAIL_FEE,
        RUN_ID,
        SERVICE_TYPE,
        SOURCE_YEAR,
        SOURCE_MONTH,
        INGESTED_AT_UTC,
        SOURCE_PATH,
        BATCH_NUMBER
    FROM RAW.RAW_YELLOW_TRIPS
),
green_normalized AS (
    -- Normalizar Green: renombrar LPEP_* → genérico PICKUP/DROPOFF
    -- Agregar NULL para campos específicos de Yellow
    SELECT
        VENDORID,
        PULOCATIONID,
        DOLOCATIONID,
        LPEP_PICKUP_DATETIME AS PICKUP_DATETIME,
        LPEP_DROPOFF_DATETIME AS DROPOFF_DATETIME,
        PASSENGER_COUNT,
        TRIP_DISTANCE,
        RATECODEID,
        STORE_AND_FWD_FLAG,
        PAYMENT_TYPE,
        FARE_AMOUNT,
        EXTRA,
        MTA_TAX,
        TIP_AMOUNT,
        TOLLS_AMOUNT,
        IMPROVEMENT_SURCHARGE,
        TOTAL_AMOUNT,
        CONGESTION_SURCHARGE,
        TRIP_TYPE,
        NULL AS AIRPORT_FEE,
        EHAIL_FEE,
        RUN_ID,
        SERVICE_TYPE,
        SOURCE_YEAR,
        SOURCE_MONTH,
        INGESTED_AT_UTC,
        SOURCE_PATH,
        BATCH_NUMBER
    FROM RAW.RAW_GREEN_TRIPS
),
unified AS (
    -- UNION de ambos servicios
    SELECT * FROM yellow_normalized
    UNION ALL
    SELECT * FROM green_normalized
)
-- Select final con JOINs y normalizaciones
SELECT
    u.VENDORID,
    u.PULOCATIONID,
    u.DOLOCATIONID,
    u.PICKUP_DATETIME,
    u.DROPOFF_DATETIME,
    u.PASSENGER_COUNT,
    u.TRIP_DISTANCE,
    u.RATECODEID,
    u.STORE_AND_FWD_FLAG,
    u.PAYMENT_TYPE,
    u.FARE_AMOUNT,
    u.EXTRA,
    u.MTA_TAX,
    u.TIP_AMOUNT,
    u.TOLLS_AMOUNT,
    u.IMPROVEMENT_SURCHARGE,
    u.TOTAL_AMOUNT,
    u.CONGESTION_SURCHARGE,
    u.TRIP_TYPE,
    u.AIRPORT_FEE,
    u.EHAIL_FEE,
    
    -- Enriquecimiento geográfico: LEFT JOIN con TAXI_ZONES para Pickup
    tz_pu.BOROUGH AS PU_BOROUGH,
    tz_pu.ZONE AS PU_ZONE,
    tz_pu.SERVICE_ZONE AS PU_SERVICE_ZONE,
    
    -- Enriquecimiento geográfico: LEFT JOIN con TAXI_ZONES para Dropoff
    tz_do.BOROUGH AS DO_BOROUGH,
    tz_do.ZONE AS DO_ZONE,
    tz_do.SERVICE_ZONE AS DO_SERVICE_ZONE,
    
    -- Normalización de PAYMENT_TYPE (1-6)
    CASE u.PAYMENT_TYPE
        WHEN 1 THEN 'Credit card'
        WHEN 2 THEN 'Cash'
        WHEN 3 THEN 'No charge'
        WHEN 4 THEN 'Dispute'
        WHEN 5 THEN 'Unknown'
        WHEN 6 THEN 'Voided trip'
        ELSE 'Unknown'
    END AS PAYMENT_TYPE_DESC,
    
    -- Normalización de RATE_CODE (1-6)
    CASE u.RATECODEID
        WHEN 1 THEN 'Standard rate'
        WHEN 2 THEN 'JFK'
        WHEN 3 THEN 'Newark'
        WHEN 4 THEN 'Nassau or Westchester'
        WHEN 5 THEN 'Negotiated fare'
        WHEN 6 THEN 'Group ride'
        ELSE 'Unknown'
    END AS RATE_CODE_DESC,
    
    -- Normalización de VENDOR (1-2)
    CASE u.VENDORID
        WHEN 1 THEN 'Creative Mobile Technologies'
        WHEN 2 THEN 'VeriFone Inc.'
        ELSE 'Unknown'
    END AS VENDOR_NAME,
    
    -- Normalización de TRIP_TYPE (1-2, solo Green)
    CASE u.TRIP_TYPE
        WHEN 1 THEN 'Street-hail'
        WHEN 2 THEN 'Dispatch'
        ELSE NULL
    END AS TRIP_TYPE_DESC,
    
    -- Metadatos de lineage (heredados de RAW)
    u.RUN_ID,
    u.SERVICE_TYPE,
    u.SOURCE_YEAR,
    u.SOURCE_MONTH,
    u.INGESTED_AT_UTC,
    u.SOURCE_PATH,
    u.BATCH_NUMBER
FROM unified u
LEFT JOIN CLEAN.TAXI_ZONES tz_pu ON u.PULOCATIONID = tz_pu.LOCATIONID
LEFT JOIN CLEAN.TAXI_ZONES tz_do ON u.DOLOCATIONID = tz_do.LOCATIONID
"""

print("Ejecutando transformación completa...")
cursor.execute(unify_sql)

# AUDITORÍA: CONTEO FINAL
cursor.execute("SELECT COUNT(*) FROM CLEAN.UNIFIED_TRIPS")
count = cursor.fetchone()[0]

# Calcular tiempo transcurrido
elapsed_seconds = int(time.time() - start_time)

print(f"Transformación completada en {elapsed_seconds} segundos: {count:,} filas en CLEAN.UNIFIED_TRIPS")

cursor.close()
conn.close()

print("=" * 80)


UNIFICACIÓN Y ENRIQUECIMIENTO EN SNOWFLAKE
Limpiando tabla CLEAN.UNIFIED_TRIPS...
Ejecutando transformación completa...
Transformación completada en 653 segundos: 889,971,027 filas en CLEAN.UNIFIED_TRIPS


In [16]:
# Validaciones básicas de calidad sobre CLEAN.UNIFIED_TRIPS:
# 1. Conteo total y distribución por servicio.
# 2. Verificación de enriquecimiento geográfico (% de nulos).
# 3. Muestra de datos transformados.

print("\n" + "=" * 80)
print("VERIFICACIÓN DE DATOS EN CLEAN")
print("=" * 80)

conn = snowflake.connector.connect(
    user=os.environ["SNOWFLAKE_USER"],
    password=os.environ["SNOWFLAKE_PASSWORD"],
    account=os.environ["SNOWFLAKE_ACCOUNT"],
    warehouse=os.environ["SNOWFLAKE_WAREHOUSE"],
    database=os.environ["SNOWFLAKE_DATABASE"],
    role=os.environ["SNOWFLAKE_ROLE"]
)
cursor = conn.cursor()

# CONTEO TOTAL
cursor.execute("SELECT COUNT(*) FROM CLEAN.UNIFIED_TRIPS")
total = cursor.fetchone()[0]
print(f"\nTotal de viajes unificados: {total:,}")

# DISTRIBUCIÓN POR SERVICIO
print("\n--- Distribución por servicio ---")
cursor.execute("""
    SELECT SERVICE_TYPE, COUNT(*) AS cnt
    FROM CLEAN.UNIFIED_TRIPS
    GROUP BY SERVICE_TYPE
    ORDER BY SERVICE_TYPE
""")
for row in cursor.fetchall():
    print(f"  {row[0].upper()}: {row[1]:,} viajes")

# VERIFICACIÓN DE ENRIQUECIMIENTO GEOGRÁFICO 
print("\n--- Verificación de enriquecimiento geográfico ---")
cursor.execute("""
    SELECT 
        SUM(CASE WHEN PU_BOROUGH IS NULL THEN 1 ELSE 0 END) AS null_pu_borough,
        SUM(CASE WHEN DO_BOROUGH IS NULL THEN 1 ELSE 0 END) AS null_do_borough,
        COUNT(*) AS total
    FROM CLEAN.UNIFIED_TRIPS
""")
row = cursor.fetchone()
null_pu = row[0]
null_do = row[1]
total_check = row[2]
print(f"  PU_BOROUGH nulos: {null_pu:,} ({null_pu/max(total_check,1)*100:.2f}%)")
print(f"  DO_BOROUGH nulos: {null_do:,} ({null_do/max(total_check,1)*100:.2f}%)")

# MUESTRA DE DATOS ENRIQUECIDOS
print("\n--- Muestra de datos enriquecidos (primeros 5 con borough) ---")
cursor.execute("""
    SELECT 
        SERVICE_TYPE,
        PICKUP_DATETIME,
        PU_BOROUGH,
        DO_BOROUGH,
        PAYMENT_TYPE_DESC,
        RATE_CODE_DESC,
        TOTAL_AMOUNT
    FROM CLEAN.UNIFIED_TRIPS
    WHERE PU_BOROUGH IS NOT NULL
    LIMIT 5
""")

for row in cursor.fetchall():
    print(f"  {row[0]} | {row[1]} | {row[2]} → {row[3]} | {row[4]} | ${row[6]:.2f}")

cursor.close()
conn.close()

print("\n" + "=" * 80)
print("NOTEBOOK 02_ENRIQUECIMIENTO_Y_UNIFICACION.IPYNB COMPLETADO")
print("=" * 80)


VERIFICACIÓN DE DATOS EN CLEAN

Total de viajes unificados: 889,971,027

--- Distribución por servicio ---
  GREEN: 68,045,597 viajes
  YELLOW: 821,925,430 viajes

--- Verificación de enriquecimiento geográfico ---
  PU_BOROUGH nulos: 0 (0.00%)
  DO_BOROUGH nulos: 0 (0.00%)

--- Muestra de datos enriquecidos (primeros 5 con borough) ---
  yellow | 2015-01-24 01:48:22 | Manhattan → Manhattan | Cash | $6.30
  yellow | 2015-01-24 01:55:03 | Manhattan → Manhattan | Cash | $12.80
  yellow | 2015-01-24 01:21:58 | Manhattan → Unknown | Cash | $8.80
  yellow | 2015-01-24 01:51:07 | Manhattan → Queens | Credit card | $56.76
  yellow | 2015-01-24 01:57:10 | Manhattan → Manhattan | Credit card | $11.80

NOTEBOOK 02_ENRIQUECIMIENTO_Y_UNIFICACION.IPYNB COMPLETADO
