# Scraping de archivos TLC

- En este archivo se elabora un script para descargar los archivos desde la web de TLC de forma automática.
- El mismo se fija si existe un archivo nuevo que no se encuentre descargado todavía y lo descarga, conseiderando el período Enero 2021 a la actualidad.

## Liberías

In [9]:
import os
import urllib.request
from datetime import datetime
from dateutil.relativedelta import relativedelta

In [12]:
# Rutas relativas
output_folder = r"..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\"

# URLs para cada tipo de dataset
base_urls = {
    "yellow": "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_{}.parquet",
    "green": "https://d37ci6vzurychx.cloudfront.net/trip-data/green_tripdata_{}.parquet",
    "fhv": "https://d37ci6vzurychx.cloudfront.net/trip-data/fhv_tripdata_{}.parquet",
    "fhvhv": "https://d37ci6vzurychx.cloudfront.net/trip-data/fhvhv_tripdata_{}.parquet",
}

In [13]:
# Función para verificar si un archivo ya existe y, si no, descargarlo
def download_file(url, file_path, retries=3, delay=5):
    if not os.path.exists(file_path):
        for attempt in range(1, retries + 1):
            try:
                print(f"Intento {attempt} descargando: {file_path}")
                urllib.request.urlretrieve(url, file_path)
                print(f"Descargado y guardado en: {file_path}")
                break  # Salir del bucle si la descarga fue exitosa
            except Exception as e:
                print(f"Error en intento {attempt}: {e}")
                if attempt < retries:
                    print(f"Reintentando en {delay} segundos...")
                    time.sleep(delay)  # Esperar antes de intentar de nuevo
                else:
                    print(f"No se pudo descargar {file_path} después de {retries} intentos.")
    else:
        print(f"El archivo ya existe: {file_path}")

In [14]:
# Rango de fechas deseado (de enero 2021 a la fecha actual)
start_date = datetime(2021, 1, 1)
end_date = datetime.now()

# Bucle para iterar sobre cada dataset y cada mes
current_date = start_date
while current_date <= end_date:
    year_month = current_date.strftime("%Y-%m")  # Formato de año-mes

    for dataset_type, base_url in base_urls.items():
        
        # Construir la URL y el nombre de archivo de destino
        url = base_url.format(year_month)
        file_name = f"{dataset_type}_tripdata_{year_month}.parquet"
        file_path = os.path.join(output_folder, file_name)
        
        # Intentar descargar el archivo
        try:
            download_file(url, file_path)
        except Exception as e:
            print(f"Error descargando {file_name}: {e}")
    
    # Avanzar al siguiente mes usando relativedelta
    current_date += relativedelta(months=1)

El archivo ya existe: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\yellow_tripdata_2021-01.parquet
El archivo ya existe: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\green_tripdata_2021-01.parquet
El archivo ya existe: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\fhv_tripdata_2021-01.parquet
El archivo ya existe: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\fhvhv_tripdata_2021-01.parquet
Intento 1 descargando: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\yellow_tripdata_2021-02.parquet
Descargado y guardado en: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\yellow_tripdata_2021-02.parquet
Intento 1 descargando: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\green_tripdata_2021-02.parquet
Descargado y guardado en: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\green_tripdata_2021-02.parquet
Intento 1 descargando: ..\\..\\datasets\\1. Originales\\TLC Trip Record Data\\fhv_tripdata_2021-02.parquet
Descargado y guard

KeyboardInterrupt: 