## Descarga a dataframes (web scraping)

#### Página de fuente datos https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page

##### Descarga de yellow_tripdata_2022-01 2023-12

In [0]:
import pandas as pd

# Definir la lista de DataFrames
dfs = []

# Iterar sobre los meses desde enero de 2021
año = 2022
mes = 1
while True:
    # Construir el nombre del archivo Parquet
    nombre_archivo = f"yellow_tripdata_{año}-{mes:02}.parquet"
    
    # Construir la ruta del archivo Parquet
    ruta_archivo = f"https://d37ci6vzurychx.cloudfront.net/trip-data/{nombre_archivo}"
    
    # Intentar cargar el archivo Parquet en un DataFrame
    try:
        df = pd.read_parquet(ruta_archivo)
        dfs.append(df)
        nombre_df = f"df_yellow_{año}_{mes:02}"
        globals()[nombre_df] = df  # Asignar el DataFrame a una variable con el nombre adecuado
        print(f"DataFrame {nombre_df} creado correctamente.")
    except Exception as e:
        print(f"No se pudo cargar el archivo {nombre_archivo}: {e}")
        break  # Detener el bucle si no se puede cargar el archivo
    
    # Pasar al siguiente mes
    mes += 1
    if mes > 12:
        mes = 1
        año += 1



DataFrame df_yellow_2022_01 creado correctamente.
DataFrame df_yellow_2022_02 creado correctamente.
DataFrame df_yellow_2022_03 creado correctamente.
DataFrame df_yellow_2022_04 creado correctamente.
DataFrame df_yellow_2022_05 creado correctamente.
DataFrame df_yellow_2022_06 creado correctamente.
DataFrame df_yellow_2022_07 creado correctamente.
DataFrame df_yellow_2022_08 creado correctamente.
DataFrame df_yellow_2022_09 creado correctamente.
DataFrame df_yellow_2022_10 creado correctamente.
DataFrame df_yellow_2022_11 creado correctamente.
DataFrame df_yellow_2022_12 creado correctamente.
DataFrame df_yellow_2023_01 creado correctamente.
DataFrame df_yellow_2023_02 creado correctamente.
DataFrame df_yellow_2023_03 creado correctamente.
DataFrame df_yellow_2023_04 creado correctamente.
DataFrame df_yellow_2023_05 creado correctamente.
DataFrame df_yellow_2023_06 creado correctamente.
DataFrame df_yellow_2023_07 creado correctamente.
DataFrame df_yellow_2023_08 creado correctamente.


##### Creación de table "yellow_taxi" en database "basededatos_taxis" en BigQuery de Google Cloud Plataform

In [0]:
from google.auth import load_credentials_from_file
from pandas.io import gbq

# Cargar las credenciales desde el archivo JSON
credentials, project_id = load_credentials_from_file(
    "/Workspace/Users/eliasemanuelalmada5757@gmail.com/basestaxis/automatizacion-taxis-nyc-d47c13651bca.json"
)

# Asignar el ID del proyecto a la variable project_id
project_id = "automatizacion-taxis-nyc"

# Crear un bucle para cargar cada DataFrame
for año in range(2022, 2024):  # desde 2022 hasta 2023
    for mes in range(1, 13):  # desde enero hasta diciembre
        # Construir el nombre del DataFrame
        nombre_df = f"df_yellow_{año}_{mes:02}"
        
        try:
            # Obtener el DataFrame con el nombre correspondiente
            df = globals()[nombre_df]
            
            # Llamar a to_gbq() con las credenciales cargadas y el ID del proyecto
            df.to_gbq(destination_table="basededatos_taxis.yellow_taxi",
                      project_id=project_id,
                      if_exists="append",  # Reemplazar los datos existentes
                      credentials=credentials)
            print(f"DataFrame {nombre_df} cargado a BigQuery correctamente.")
        except KeyError:
            print(f"No se encontró el DataFrame {nombre_df}.")


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8004.40it/s]


DataFrame df_yellow_2022_01 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8886.24it/s]


DataFrame df_yellow_2022_02 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9686.61it/s]


DataFrame df_yellow_2022_03 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8867.45it/s]


DataFrame df_yellow_2022_04 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 7639.90it/s]


DataFrame df_yellow_2022_05 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9939.11it/s]


DataFrame df_yellow_2022_06 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 6967.28it/s]


DataFrame df_yellow_2022_07 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 6442.86it/s]


DataFrame df_yellow_2022_08 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 7281.78it/s]


DataFrame df_yellow_2022_09 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8422.30it/s]


DataFrame df_yellow_2022_10 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8830.11it/s]


DataFrame df_yellow_2022_11 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 10131.17it/s]

DataFrame df_yellow_2022_12 cargado a BigQuery correctamente.



  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9157.87it/s]


DataFrame df_yellow_2023_01 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 7503.23it/s]


DataFrame df_yellow_2023_02 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8719.97it/s]


DataFrame df_yellow_2023_03 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8848.74it/s]


DataFrame df_yellow_2023_04 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8738.13it/s]


DataFrame df_yellow_2023_05 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 7928.74it/s]


DataFrame df_yellow_2023_06 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9039.45it/s]


DataFrame df_yellow_2023_07 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8128.50it/s]


DataFrame df_yellow_2023_08 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 11155.06it/s]


DataFrame df_yellow_2023_09 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8144.28it/s]


DataFrame df_yellow_2023_10 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 6096.37it/s]


DataFrame df_yellow_2023_11 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8577.31it/s]

DataFrame df_yellow_2023_12 cargado a BigQuery correctamente.





##### Descarga de green_tripdata_2022-01 2023-12

In [0]:
import pandas as pd

# Definir la lista de DataFrames
dfs = []

# Iterar sobre los meses desde enero de 2021
año = 2022
mes = 1
while True:
    # Construir el nombre del archivo Parquet
    nombre_archivo = f"green_tripdata_{año}-{mes:02}.parquet"
    
    # Construir la ruta del archivo Parquet
    ruta_archivo = f"https://d37ci6vzurychx.cloudfront.net/trip-data/{nombre_archivo}"
    
    # Intentar cargar el archivo Parquet en un DataFrame
    try:
        df = pd.read_parquet(ruta_archivo)
        dfs.append(df)
        nombre_df = f"df_green_{año}_{mes:02}"
        globals()[nombre_df] = df  # Asignar el DataFrame a una variable con el nombre adecuado
        print(f"DataFrame {nombre_df} creado correctamente.")
    except Exception as e:
        print(f"No se pudo cargar el archivo {nombre_archivo}: {e}")
        break  # Detener el bucle si no se puede cargar el archivo
    
    # Pasar al siguiente mes
    mes += 1
    if mes > 12:
        mes = 1
        año += 1



DataFrame df_green_2022_01 creado correctamente.
DataFrame df_green_2022_02 creado correctamente.
DataFrame df_green_2022_03 creado correctamente.
DataFrame df_green_2022_04 creado correctamente.
DataFrame df_green_2022_05 creado correctamente.
DataFrame df_green_2022_06 creado correctamente.
DataFrame df_green_2022_07 creado correctamente.
DataFrame df_green_2022_08 creado correctamente.
DataFrame df_green_2022_09 creado correctamente.
DataFrame df_green_2022_10 creado correctamente.
DataFrame df_green_2022_11 creado correctamente.
DataFrame df_green_2022_12 creado correctamente.
DataFrame df_green_2023_01 creado correctamente.
DataFrame df_green_2023_02 creado correctamente.
DataFrame df_green_2023_03 creado correctamente.
DataFrame df_green_2023_04 creado correctamente.
DataFrame df_green_2023_05 creado correctamente.
DataFrame df_green_2023_06 creado correctamente.
DataFrame df_green_2023_07 creado correctamente.
DataFrame df_green_2023_08 creado correctamente.
DataFrame df_green_2

%md
##### Creación de table "green_taxi" en database "basededatos_taxis" en BigQuery de Google Cloud Plataform

In [0]:
from google.auth import load_credentials_from_file
from pandas.io import gbq

# Cargar las credenciales desde el archivo JSON
credentials, project_id = load_credentials_from_file(
    "/Workspace/Users/eliasemanuelalmada5757@gmail.com/basestaxis/automatizacion-taxis-nyc-d47c13651bca.json"
)

# Asignar el ID del proyecto a la variable project_id
project_id = "automatizacion-taxis-nyc"

# Crear un bucle para cargar cada DataFrame
for año in range(2022, 2024):  # desde 2022 hasta 2023
    for mes in range(1, 13):  # desde enero hasta diciembre
        # Construir el nombre del DataFrame
        nombre_df = f"df_green_{año}_{mes:02}"
        
        try:
            # Obtener el DataFrame con el nombre correspondiente
            df = globals()[nombre_df]
            
            # Llamar a to_gbq() con las credenciales cargadas y el ID del proyecto
            df.to_gbq(destination_table="basededatos_taxis.green_taxi",
                      project_id=project_id,
                      if_exists="append",  # Reemplazar los datos existentes
                      credentials=credentials)
            print(f"DataFrame {nombre_df} cargado a BigQuery correctamente.")
        except KeyError:
            print(f"No se encontró el DataFrame {nombre_df}.")


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8224.13it/s]


DataFrame df_green_2022_01 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 10255.02it/s]


DataFrame df_green_2022_02 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8081.51it/s]


DataFrame df_green_2022_03 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 6288.31it/s]


DataFrame df_green_2022_04 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8559.80it/s]


DataFrame df_green_2022_05 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8559.80it/s]


DataFrame df_green_2022_06 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 10433.59it/s]


DataFrame df_green_2022_07 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 1860.00it/s]


DataFrame df_green_2022_08 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8830.11it/s]


DataFrame df_green_2022_09 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8886.24it/s]


DataFrame df_green_2022_10 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9845.78it/s]


DataFrame df_green_2022_11 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 6808.94it/s]


DataFrame df_green_2022_12 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9177.91it/s]


DataFrame df_green_2023_01 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 10512.04it/s]


DataFrame df_green_2023_02 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9845.78it/s]


DataFrame df_green_2023_03 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 7958.83it/s]


DataFrame df_green_2023_04 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 9754.20it/s]


DataFrame df_green_2023_05 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 11066.77it/s]


DataFrame df_green_2023_06 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 1967.31it/s]


DataFrame df_green_2023_07 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8738.13it/s]


DataFrame df_green_2023_08 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 11275.01it/s]


DataFrame df_green_2023_09 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 10255.02it/s]


DataFrame df_green_2023_10 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 1771.24it/s]


DataFrame df_green_2023_11 cargado a BigQuery correctamente.


  0%|          | 0/1 [00:00<?, ?it/s]100%|██████████| 1/1 [00:00<00:00, 8559.80it/s]

DataFrame df_green_2023_12 cargado a BigQuery correctamente.



