In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import requests
import os
import sys
from ydata_profiling import ProfileReport

In [6]:
#Web scrapping
# Create the raw-data directory if it doesn't exist
os.makedirs('raw-data', exist_ok=True)

url_base = 'https://d37ci6vzurychx.cloudfront.net/trip-data/fhvhv_tripdata_2024-'
# Download files for all 12 months
for month in range(1, 13):
    # Format month as 2 digits (01-12)
    month_str = f"{month:02d}"
    
    # Create full URL
    url = url_base + month_str + '.parquet'
    
    # Send GET request
    response = requests.get(url)
    
    # Check if request was successful
    if response.status_code == 200:
        # Save file with new format in raw-data folder
        file_path = os.path.join('raw-data', f'2024 - {month}.parquet')
        with open(file_path, 'wb') as f:
            f.write(response.content)
        print(f'Successfully downloaded file for month {month_str} as "2024 - {month}.parquet"')
    else:
        print(f'Failed to download file for month {month_str}')


Successfully downloaded file for month 01 as "2024 - 1.parquet"
Successfully downloaded file for month 02 as "2024 - 2.parquet"
Successfully downloaded file for month 03 as "2024 - 3.parquet"
Successfully downloaded file for month 04 as "2024 - 4.parquet"
Successfully downloaded file for month 05 as "2024 - 5.parquet"
Successfully downloaded file for month 06 as "2024 - 6.parquet"
Successfully downloaded file for month 07 as "2024 - 7.parquet"
Successfully downloaded file for month 08 as "2024 - 8.parquet"
Successfully downloaded file for month 09 as "2024 - 9.parquet"


In [5]:
import os
import pandas as pd
from ydata_profiling import ProfileReport
import dask.dataframe as dd  # Usaremos Dask como respaldo si el archivo es grande.

# Configuración de directorios
data_dir = "raw-data"  # Tu carpeta con archivos .parquet
output_dir = "data-profiling"  # Donde guardarás los reportes HTML
os.makedirs(output_dir, exist_ok=True)


def process_file(filename, chunk_size=100000):
    """
    Procesa un archivo .parquet, acumulando los datos en chunks (si es necesario),
    y genera un único reporte HTML para todo el archivo.
    
    Parameters:
        filename (str): Nombre del archivo .parquet a procesar.
        chunk_size (int): Número de filas a cargar en cada chunk (opcional, dependiendo de memoria).
    """
    file_path = os.path.join(data_dir, filename)
    report_file = os.path.join(output_dir, filename.replace(".parquet", ".html"))

    if os.path.exists(report_file):
        print(f"El reporte para {filename} ya existe. Saltando...")
        return

    try:
        print(f"Leyendo archivo completo (posiblemente en chunks): {file_path}")

        # Intentamos cargar todo el archivo de manera incremental (si es grande)
        try:
            # Usando pandas para archivos pequeños o moderados
            df = pd.read_parquet(file_path)

        except MemoryError:
            print(f"El archivo {filename} es demasiado grande para pandas. Usando Dask...")
            # Archivo es demasiado grande: usa Dask
            ddf = dd.read_parquet(file_path)
            df = ddf.compute()  # Convierte a pandas DataFrame en RAM (parcialmente)

        # Generamos el reporte único para el archivo completo
        print(f"Generando reporte único para: {filename}")
        profile = ProfileReport(
            df,
            title=f"Reporte para {filename}",
            minimal=True  # Reduce cálculos intensivos, pero puedes ajustarlo si necesitas más
        )
        profile.to_file(report_file)
        print(f"Reporte HTML generado: {report_file}")

    except Exception as e:
        print(f"Error procesando el archivo {filename}: {e}")


def process_all_files():
    """
    Procesa todos los archivos .parquet en el directorio especificado.
    Genera un reporte único en formato HTML para cada archivo.
    """
    files = [f for f in os.listdir(data_dir) if f.endswith(".parquet")]

    for file in files:
        process_file(file)


if __name__ == "__main__":
    process_all_files()


El reporte para 2024 - 1.parquet ya existe. Saltando...
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 10.parquet
Generando reporte único para: 2024 - 10.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 10.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 11.parquet
Generando reporte único para: 2024 - 11.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 11.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 12.parquet
Generando reporte único para: 2024 - 12.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 12.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 2.parquet
Generando reporte único para: 2024 - 2.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 2.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 3.parquet
Generando reporte único para: 2024 - 3.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 3.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 4.parquet
Generando reporte único para: 2024 - 4.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 4.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 5.parquet
Generando reporte único para: 2024 - 5.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 5.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 6.parquet
Generando reporte único para: 2024 - 6.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 6.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 7.parquet
Generando reporte único para: 2024 - 7.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 7.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 8.parquet
Generando reporte único para: 2024 - 8.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 8.html
Leyendo archivo completo (posiblemente en chunks): raw-data/2024 - 9.parquet
Generando reporte único para: 2024 - 9.parquet


Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

Reporte HTML generado: data-profiling/2024 - 9.html
