In [1]:
from pyspark.sql import SparkSession, functions as F, types as T
from pyspark import SparkConf, SparkContext
import requests
import os
import tempfile
from dotenv import load_dotenv

In [2]:
conf = SparkConf()
conf.set("spark.jars.packages", "net.snowflake:snowflake-jdbc:3.24.2,net.snowflake:spark-snowflake_2.12:3.1.2") #1. Que antes de empezar tiene que descargar bibliotecas y paquetes externos y otros de snowflake(como supo este man que habia que hacer esa conexion?)
spark = SparkSession.builder \
    .config(conf=conf) \
    .getOrCreate() #Obtiene una SparkSession existente si ya hay una en ejecución y si no crea una nueva 

In [None]:
#load_dotenv(dotenv_path="/home/jovyan/work/.env")

sfOptions = { #Es un diccionario de Python que está reuniendo todos los parámetros necesarios para que el conector Spark-Snowflake (que configuraste en tu SparkConf anterior) sepa dónde y cómo conectarse a Snowflake.
    "sfURL" : "TLZAPUN-PKC06603.snowflakecomputing.com",
    "sfDatabase" : "NY_TAXI",
    "sfSchema" : "RAW",
    "sfWarehouse" :"COMPUTE_WH",
    "sfRole" : "ACCOUNTADMIN",
    "sfUser" : "MARE122510",
    "sfPassword" : "MyTurnEra2025100%"
}


In [16]:
# Probar conexión a Snowflake
print("Probando conexión a Snowflake...")
try:
    # Crear un DataFrame de prueba
    test_df = spark.createDataFrame([("test",)], ["col1"])
    
    # Intentar leer desde Snowflake para verificar conexión
    test_read = spark.read \
        .format("snowflake") \
        .options(**sfOptions) \
        .option("query", "SELECT CURRENT_VERSION()") \
        .load()
    
    print("✓ Conexión a Snowflake exitosa")
    test_read.show()
    
except Exception as e:
    print(f"✗ Error conectando a Snowflake: {str(e)}")
    print("Verificar credenciales y configuración de red")

Probando conexión a Snowflake...
✓ Conexión a Snowflake exitosa
+-------------------+
|"CURRENT_VERSION()"|
+-------------------+
|             9.32.1|
+-------------------+



In [10]:

!pip install snowflake-connector-python



In [None]:

import snowflake.connector
import os

years = list(range(2015,2025))
months = [ '01', '02', '03', '04','05', '06', '07', '08', '09', '10', '11', '12']
services = ['yellow'] #agregar 'yellow' si se desea procesar también

for service in services:
    if service == 'yellow':
        ordered_cols = [
        "VENDORID", "TPEP_PICKUP_DATETIME", "TPEP_DROPOFF_DATETIME",
        "PASSENGER_COUNT", "TRIP_DISTANCE", "RATECODEID",
        "STORE_AND_FWD_FLAG", "PULOCATIONID", "DOLOCATIONID",
        "PAYMENT_TYPE", "FARE_AMOUNT", "EXTRA", "MTA_TAX",
        "TIP_AMOUNT", "TOLLS_AMOUNT", "IMPROVEMENT_SURCHARGE",
        "TOTAL_AMOUNT", "CONGESTION_SURCHARGE", "AIRPORT_FEE",
        "CBD_CONGESTION_FEE", 
        "RUN_ID", "SERVICE_TYPE", "SOURCE_YEAR", "SOURCE_MONTH",
        "INGESTED_AT_UTC", "SOURCE_PATH"
        ]
    else:
        ordered_cols = [
        "VENDORID", "LPEP_PICKUP_DATETIME", "LPEP_DROPOFF_DATETIME",
        "STORE_AND_FWD_FLAG", "RATECODEID",
        "PULOCATIONID", "DOLOCATIONID", "PASSENGER_COUNT", "TRIP_DISTANCE",
        "FARE_AMOUNT", "EXTRA", "MTA_TAX", "TIP_AMOUNT", "TOLLS_AMOUNT",
        "EHAIL_FEE", "IMPROVEMENT_SURCHARGE", "TOTAL_AMOUNT",
        "PAYMENT_TYPE", "TRIP_TYPE", "CONGESTION_SURCHARGE",
        "CBD_CONGESTION_FEE",  
        "RUN_ID", "SERVICE_TYPE", "SOURCE_YEAR", "SOURCE_MONTH",
        "INGESTED_AT_UTC", "SOURCE_PATH"
        ]
    for year in years:
        if year == '2025':
            months = ['01', '02', '03', '04', '05', '06', '07']
        for month in months:
            if service == 'yellow':
                timestamp_columns = ['TPEP_PICKUP_DATETIME', 'TPEP_DROPOFF_DATETIME']
            else:
                timestamp_columns = ['LPEP_PICKUP_DATETIME', 'LPEP_DROPOFF_DATETIME']


            url = f"https://d37ci6vzurychx.cloudfront.net/trip-data/{service}_tripdata_{year}-{month}.parquet"
            response = requests.head(url)
            if response.status_code != 200:
                print(f"No existe: {url}")
                continue
            print(f"Procesando {service}: {year}-{month}")

            # Descargar archivo temporalmente
            tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".parquet")
            tmp_path = tmp_file.name
            tmp_file.close()
            r = requests.get(url)
            with open(tmp_path, "wb") as f:
                f.write(r.content)

            # Leer archivo con Spark
            df = spark.read.parquet(tmp_path)
            print(f"Archivo {url} cargado en DataFrame")

            # Crear run_id para indempotencia
            run_id = f"run_{year}_{month}"

            # Agregar metadatos
            df = (
                df.withColumn("RUN_ID", F.lit(run_id))
                  .withColumn("SERVICE_TYPE", F.lit(service))
                  .withColumn("SOURCE_YEAR", F.lit(int(year)))
                  .withColumn("SOURCE_MONTH", F.lit(int(month)))
                  .withColumn("INGESTED_AT_UTC", F.to_utc_timestamp(F.current_timestamp(), "America/Guayaquil")) #En UTC
                  .withColumn("SOURCE_PATH", F.lit(url))
            )

            # Normalizar nombres de columnas a mayusculas
            df = df.toDF(*[c.upper() for c in df.columns])
            print("Metadatos agregados")

            # Convertir columnas de timestamp
            for col_name in timestamp_columns:
                if col_name in df.columns:
                    df = df.withColumn(col_name, F.col(col_name).cast("timestamp"))

            # Escribir en Snowflake
            table_name = f"{service.upper()}_TRIPS"

            # COLUMNA NUEVA DE ANIOS POSTERIORES
            if "CBD_CONGESTION_FEE" not in df.columns:
                # Si no está, agrega la columna con valor None (o un valor predeterminado)
                df = df.withColumn("CBD_CONGESTION_FEE", F.lit(None).cast(T.DoubleType()))

             #Eliminar registros previos de la misma ejecución (idempotencia)
            spark.read \
                .format("snowflake") \
                .options(**sfOptions) \
                .option("query", f"DELETE FROM {table_name} WHERE RUN_ID = '{run_id}'") \
                .load()

            
            # Reordenar columnas según ordered_cols para que no de error
            df = df.select([c for c in ordered_cols if c in df.columns])

                

            df.write \
                .format("snowflake") \
                .options(**sfOptions) \
                .option("dbtable", table_name) \
                .mode("append") \
                .save() 
            print(f"Datos de {service} para {year}-{month} cargados en Snowflake")

            # Eliminar archivo temporal
            os.remove(tmp_path) 


Procesando yellow: 2022-01
Archivo https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-01.parquet cargado en DataFrame
Metadatos agregados
Datos de yellow para 2022-01 cargados en Snowflake
Procesando yellow: 2022-02
Archivo https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-02.parquet cargado en DataFrame
Metadatos agregados
Datos de yellow para 2022-02 cargados en Snowflake
Procesando yellow: 2022-03
Archivo https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-03.parquet cargado en DataFrame
Metadatos agregados
Datos de yellow para 2022-03 cargados en Snowflake
Procesando yellow: 2022-04
Archivo https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-04.parquet cargado en DataFrame
Metadatos agregados
Datos de yellow para 2022-04 cargados en Snowflake
Procesando yellow: 2022-05
Archivo https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2022-05.parquet cargado en DataFrame
Metadatos agregados
Datos de yellow 

In [24]:
# cargar taxi zones
url_zones = "https://d37ci6vzurychx.cloudfront.net/misc/taxi_zone_lookup.csv"
# Descargar archivo temporalmente
tmp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
tmp_path = tmp_file.name
tmp_file.close()
r = requests.get(url_zones)
with open(tmp_path, "wb") as f:
    f.write(r.content)
df_zones = spark.read.csv(tmp_path, header=True, inferSchema=True)
print(f"Archivo {url_zones} cargado en DataFrame")


df_zones.write \
    .format("snowflake") \
    .options(**sfOptions) \
    .option("dbtable", "TAXI_ZONES") \
    .mode("overwrite") \
    .save()

Archivo https://d37ci6vzurychx.cloudfront.net/misc/taxi_zone_lookup.csv cargado en DataFrame
