In [None]:
import pandas as pd
import sqlalchemy
import os
from tqdm import tqdm
from dotenv import load_dotenv
import time  # Importar el módulo time para pausar

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# Obtener las credenciales de la base de datos desde las variables de entorno
db_user = os.getenv('DB_USER')
db_password = os.getenv('DB_PASSWORD')
db_host = os.getenv('DB_HOST')
db_port = os.getenv('DB_PORT')
db_name = os.getenv('DB_NAME')

# Función para conectar a la base de datos
def connect_to_db():
    try:
        engine = sqlalchemy.create_engine(
            f'mysql+pymysql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'
        )
        connection = engine.connect()
        print("Conexión a la base de datos establecida con éxito.")
        return engine, connection
    except Exception as e:
        print(f"Error al conectar a la base de datos: {e}")
        raise

# Conectar a MySQL utilizando las credenciales del archivo .env
engine, connection = connect_to_db()

# Ruta de la carpeta con los archivos
folder_path = 'D:\\GitHub\\Proyecto Final\\Proyecto_final_Henry\\Dataset'

# Columnas a mantener para green_tripdata
columns_to_keep_green = [
    'lpep_pickup_datetime', 'lpep_dropoff_datetime',
    'PULocationID', 'DOLocationID',
    'trip_distance', 'total_amount'
]

# Columnas a mantener para yellow_tripdata
columns_to_keep_yellow = [
    'tpep_pickup_datetime', 'tpep_dropoff_datetime',
    'PULocationID', 'DOLocationID',
    'trip_distance', 'total_amount'
]

# Columnas a mantener para fhv_tripdata
columns_to_keep_fhv = [
    'pickup_datetime', 'dropOff_datetime',
    'PUlocationID', 'DOlocationID',
    'Affiliated_base_number'
]

# Leer todos los archivos en la carpeta y estandarizar las columnas
for filename in os.listdir(folder_path):
    if filename.endswith('.parquet'):
        file_path = os.path.join(folder_path, filename)

        try:
            # Leer archivo .parquet
            print(f"\nLeyendo archivo {file_path}")
            df = pd.read_parquet(file_path)

            # Verificar si es green_tripdata, yellow_tripdata o fhv_tripdata
            if 'green' in filename.lower():
                columns_to_keep = columns_to_keep_green
                source_value = 'green_tripdata'
            elif 'yellow' in filename.lower():
                columns_to_keep = columns_to_keep_yellow
                source_value = 'yellow_tripdata'
            elif 'fhv' in filename.lower():
                columns_to_keep = columns_to_keep_fhv
                source_value = 'fhv_tripdata'
            else:
                print(f"El archivo {filename} no es ni 'green', 'yellow' ni 'fhv'. Saltando.")
                continue

            # Verificar si el archivo contiene todas las columnas necesarias
            if all(column in df.columns for column in columns_to_keep):
                print(f"El archivo {filename} contiene todas las columnas necesarias. Procesando...")

                # Seleccionar columnas necesarias
                df = df[columns_to_keep]

                # Renombrar columnas según sea necesario
                if 'yellow' in filename.lower():
                    df.rename(columns={
                        'tpep_pickup_datetime': 'Pickup_datetime',
                        'tpep_dropoff_datetime': 'DropOff_datetime',
                        'trip_distance': 'trip_miles',
                        'total_amount': 'driver_pay'
                    }, inplace=True)
                elif 'green' in filename.lower():
                    df.rename(columns={
                        'lpep_pickup_datetime': 'Pickup_datetime',
                        'lpep_dropoff_datetime': 'DropOff_datetime',
                        'trip_distance': 'trip_miles',
                        'total_amount': 'driver_pay'
                    }, inplace=True)
                elif 'fhv' in filename.lower():
                    df.rename(columns={
                        'pickup_datetime': 'Pickup_datetime',
                        'dropOff_datetime': 'DropOff_datetime',
                        'PUlocationID': 'PULocationID',
                        'DOlocationID': 'DOLocationID'
                    }, inplace=True)
                    df['trip_miles'] = 0.0  # Agregar columna trip_miles con valores por defecto
                    df['driver_pay'] = 0.0  # Agregar columna driver_pay con valores por defecto

                # Añadir la columna 'source'
                df['source'] = source_value

                # Calcular trip_time como la diferencia entre DropOff_datetime y Pickup_datetime
                df['Pickup_datetime'] = pd.to_datetime(df['Pickup_datetime'])
                df['DropOff_datetime'] = pd.to_datetime(df['DropOff_datetime'])
                df['trip_time'] = (df['DropOff_datetime'] - df['Pickup_datetime']).dt.total_seconds()

                # Dividir el DataFrame en bloques de 5,000 filas
                chunk_size = 150000  # Tamaño del chunk a 5,000 filas
                num_chunks = len(df) // chunk_size + 1
                chunk_counter = 0  # Contador de chunks procesados

                for i in tqdm(range(num_chunks), desc=f"Procesando {filename}", unit="chunk"):
                    chunk = df[i * chunk_size:(i + 1) * chunk_size]
                    try:
                        chunk.to_sql(name='taxi_fhv_data', con=engine, if_exists='append', index=False)
                        print(f"Chunk {i+1}/{num_chunks} del archivo {filename} cargado exitosamente.")
                    except sqlalchemy.exc.OperationalError as e:
                        print(f"Error al cargar chunk {i+1}: {e}. Intentando reconectar...")
                        engine, connection = connect_to_db()
                        chunk.to_sql(name='taxi_fhv_data', con=engine, if_exists='append', index=False)
                        print(f"Chunk {i+1} del archivo {filename} cargado exitosamente tras reconexión.")

                    chunk_counter += 1

                    # Cada 20 chunks, esperar 15 segundos y reconectar
                    if chunk_counter % 30 == 0:
                        print("Esperando 15 segundos...")
                        time.sleep(30)
                        print("Reconectando a la base de datos...")
                        connection.close()
                        engine.dispose()
                        engine, connection = connect_to_db()
                        print("Reconexión exitosa.")

                print(f"Datos del archivo {filename} cargados exitosamente.")
            else:
                print(f"El archivo {filename} no contiene todas las columnas necesarias. Saltando.")

        except FileNotFoundError:
            print(f"Archivo {file_path} no encontrado. Saltando.")
        except KeyError as e:
            print(f"Error de columna en {file_path}: {e}. Saltando.")
        except Exception as e:
            print(f"Error al procesar el archivo {filename}: {e}")

# Ahora, inspecciona el archivo específico fhv_tripdata_2024-01.parquet
file_to_inspect = 'fhv_tripdata_2024-01.parquet'
file_path = os.path.join(folder_path, file_to_inspect)

try:
    # Leer archivo .parquet
    df = pd.read_parquet(file_path)

    # Mostrar las columnas del archivo
    print(f"\nColumnas del archivo {file_to_inspect}:")
    print(df.columns.tolist())

except Exception as e:
    print(f"Error al leer {file_path}: {e}")

print("\nProceso de estandarización y carga completo.")


Conexión a la base de datos establecida con éxito.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-01.parquet
El archivo green_tripdata_2024-01.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-01.parquet: 100%|██████████| 1/1 [00:13<00:00, 13.46s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-01.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-01.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-02.parquet
El archivo green_tripdata_2024-02.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-02.parquet: 100%|██████████| 1/1 [00:07<00:00,  7.83s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-02.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-02.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-03.parquet
El archivo green_tripdata_2024-03.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-03.parquet: 100%|██████████| 1/1 [00:07<00:00,  7.68s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-03.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-03.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-04.parquet
El archivo green_tripdata_2024-04.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-04.parquet: 100%|██████████| 1/1 [00:07<00:00,  7.32s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-04.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-04.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-05.parquet
El archivo green_tripdata_2024-05.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-05.parquet: 100%|██████████| 1/1 [00:08<00:00,  8.47s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-05.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-05.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-06.parquet
El archivo green_tripdata_2024-06.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-06.parquet: 100%|██████████| 1/1 [00:07<00:00,  7.03s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-06.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-06.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-07.parquet
El archivo green_tripdata_2024-07.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-07.parquet: 100%|██████████| 1/1 [00:06<00:00,  6.55s/chunk]


Chunk 1/1 del archivo green_tripdata_2024-07.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-07.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\green_tripdata_2024-08.parquet
El archivo green_tripdata_2024-08.parquet contiene todas las columnas necesarias. Procesando...


Procesando green_tripdata_2024-08.parquet: 100%|██████████| 1/1 [00:06<00:00,  6.68s/chunk]

Chunk 1/1 del archivo green_tripdata_2024-08.parquet cargado exitosamente.
Datos del archivo green_tripdata_2024-08.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\yellow_tripdata_2023-01.parquet





El archivo yellow_tripdata_2023-01.parquet contiene todas las columnas necesarias. Procesando...


Procesando yellow_tripdata_2023-01.parquet:   5%|▍         | 1/21 [00:17<05:47, 17.36s/chunk]

Chunk 1/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  10%|▉         | 2/21 [00:36<05:48, 18.33s/chunk]

Chunk 2/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  14%|█▍        | 3/21 [00:55<05:34, 18.57s/chunk]

Chunk 3/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  19%|█▉        | 4/21 [01:14<05:20, 18.85s/chunk]

Chunk 4/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  24%|██▍       | 5/21 [01:33<05:03, 19.00s/chunk]

Chunk 5/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  29%|██▊       | 6/21 [01:56<05:05, 20.37s/chunk]

Chunk 6/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  33%|███▎      | 7/21 [02:20<04:58, 21.30s/chunk]

Chunk 7/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  38%|███▊      | 8/21 [02:39<04:29, 20.73s/chunk]

Chunk 8/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  43%|████▎     | 9/21 [03:00<04:11, 20.93s/chunk]

Chunk 9/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  48%|████▊     | 10/21 [03:22<03:53, 21.18s/chunk]

Chunk 10/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  52%|█████▏    | 11/21 [03:44<03:35, 21.53s/chunk]

Chunk 11/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  57%|█████▋    | 12/21 [04:12<03:30, 23.36s/chunk]

Chunk 12/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  62%|██████▏   | 13/21 [04:34<03:02, 22.85s/chunk]

Chunk 13/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  67%|██████▋   | 14/21 [05:00<02:46, 23.83s/chunk]

Chunk 14/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  71%|███████▏  | 15/21 [05:26<02:27, 24.63s/chunk]

Chunk 15/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  76%|███████▌  | 16/21 [05:54<02:08, 25.61s/chunk]

Chunk 16/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  81%|████████  | 17/21 [06:17<01:39, 24.77s/chunk]

Chunk 17/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  86%|████████▌ | 18/21 [06:43<01:15, 25.28s/chunk]

Chunk 18/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  90%|█████████ | 19/21 [07:12<00:52, 26.15s/chunk]

Chunk 19/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet:  95%|█████████▌| 20/21 [07:37<00:26, 26.03s/chunk]

Chunk 20/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-01.parquet: 100%|██████████| 21/21 [07:51<00:00, 22.44s/chunk]

Chunk 21/21 del archivo yellow_tripdata_2023-01.parquet cargado exitosamente.
Datos del archivo yellow_tripdata_2023-01.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\yellow_tripdata_2023-02.parquet





El archivo yellow_tripdata_2023-02.parquet contiene todas las columnas necesarias. Procesando...


Procesando yellow_tripdata_2023-02.parquet:   5%|▌         | 1/20 [00:33<10:45, 33.97s/chunk]

Chunk 1/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  10%|█         | 2/20 [01:02<09:14, 30.79s/chunk]

Chunk 2/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  15%|█▌        | 3/20 [01:42<09:55, 35.04s/chunk]

Chunk 3/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  20%|██        | 4/20 [02:16<09:11, 34.46s/chunk]

Chunk 4/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  25%|██▌       | 5/20 [02:51<08:41, 34.75s/chunk]

Chunk 5/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  30%|███       | 6/20 [03:25<08:03, 34.55s/chunk]

Chunk 6/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  35%|███▌      | 7/20 [03:55<07:09, 33.01s/chunk]

Chunk 7/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  40%|████      | 8/20 [04:30<06:43, 33.64s/chunk]

Chunk 8/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  45%|████▌     | 9/20 [05:02<06:03, 33.05s/chunk]

Chunk 9/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  50%|█████     | 10/20 [05:34<05:27, 32.74s/chunk]

Chunk 10/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  55%|█████▌    | 11/20 [06:07<04:56, 32.98s/chunk]

Chunk 11/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  60%|██████    | 12/20 [06:44<04:32, 34.06s/chunk]

Chunk 12/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  65%|██████▌   | 13/20 [07:17<03:57, 33.89s/chunk]

Chunk 13/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  70%|███████   | 14/20 [07:55<03:30, 35.01s/chunk]

Chunk 14/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  75%|███████▌  | 15/20 [08:26<02:48, 33.78s/chunk]

Chunk 15/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  80%|████████  | 16/20 [09:02<02:17, 34.36s/chunk]

Chunk 16/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  85%|████████▌ | 17/20 [09:34<01:41, 33.74s/chunk]

Chunk 17/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  90%|█████████ | 18/20 [10:10<01:09, 34.56s/chunk]

Chunk 18/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet:  95%|█████████▌| 19/20 [10:47<00:35, 35.15s/chunk]

Chunk 19/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-02.parquet: 100%|██████████| 20/20 [11:05<00:00, 33.27s/chunk]

Chunk 20/20 del archivo yellow_tripdata_2023-02.parquet cargado exitosamente.
Datos del archivo yellow_tripdata_2023-02.parquet cargados exitosamente.

Leyendo archivo D:\GitHub\Proyecto Final\Proyecto_final_Henry\Dataset\yellow_tripdata_2023-03.parquet





El archivo yellow_tripdata_2023-03.parquet contiene todas las columnas necesarias. Procesando...


Procesando yellow_tripdata_2023-03.parquet:   4%|▍         | 1/23 [00:42<15:29, 42.26s/chunk]

Chunk 1/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:   9%|▊         | 2/23 [01:16<13:06, 37.43s/chunk]

Chunk 2/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  13%|█▎        | 3/23 [01:49<11:46, 35.33s/chunk]

Chunk 3/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  17%|█▋        | 4/23 [02:22<10:58, 34.64s/chunk]

Chunk 4/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  22%|██▏       | 5/23 [03:02<10:54, 36.36s/chunk]

Chunk 5/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  26%|██▌       | 6/23 [03:38<10:17, 36.35s/chunk]

Chunk 6/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  30%|███       | 7/23 [04:12<09:29, 35.56s/chunk]

Chunk 7/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  35%|███▍      | 8/23 [04:51<09:10, 36.68s/chunk]

Chunk 8/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  39%|███▉      | 9/23 [05:38<09:16, 39.76s/chunk]

Chunk 9/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.


Procesando yellow_tripdata_2023-03.parquet:  43%|████▎     | 10/23 [06:24<09:03, 41.77s/chunk]

Chunk 10/23 del archivo yellow_tripdata_2023-03.parquet cargado exitosamente.
