In [1]:
%pip install pandas python-dateutil


Collecting pandas
  Using cached pandas-2.3.3-cp312-cp312-macosx_11_0_arm64.whl.metadata (91 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.3.3-cp312-cp312-macosx_11_0_arm64.whl (10.7 MB)
Using cached pytz-2025.2-py2.py3-none-any.whl (509 kB)
Using cached tzdata-2025.2-py2.py3-none-any.whl (347 kB)
Installing collected packages: pytz, tzdata, pandas
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3/3[0m [pandas]2m2/3[0m [pandas]
[1A[2KSuccessfully installed pandas-2.3.3 pytz-2025.2 tzdata-2025.2
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
import re
import pandas as pd
from collections import Counter

# Ruta local a la carpeta donde guardes los CSV de histórico
# Ejemplo: r"C:\Users\juan\traffic\AMGTraffic2024\historico"
#          "/Users/juan/traffic/AMGTraffic2024/historico"
RAW_FOLDER = r"./AMGTraffic2024/historico"  # <-- CAMBIA ESTO

# Regex para extraer el timestamp de 14 dígitos del nombre del archivo
ts_pattern = re.compile(r"(\d{14})")


In [3]:
hours_counter = Counter()
examples_by_hour = {}

for fname in os.listdir(RAW_FOLDER):
    if not fname.lower().endswith(".csv"):
        continue
    m = ts_pattern.search(fname)
    if not m:
        continue
    ts_str = m.group(1)  # ej: 20240620050009
    hour = int(ts_str[8:10])  # posiciones 8-9 = HH (0-index)
    hours_counter[hour] += 1
    examples_by_hour.setdefault(hour, fname)

print("Horas encontradas en los NOMBRES de archivo:\n")
for h in sorted(hours_counter.keys()):
    print(f"Hora {h:02d}: {hours_counter[h]} archivos (ejemplo: {examples_by_hour[h]})")


Horas encontradas en los NOMBRES de archivo:

Hora 01: 155 archivos (ejemplo: gmap_traffic_prediction_20240910010008.csv)
Hora 02: 155 archivos (ejemplo: gmap_traffic_prediction_20240610020009.csv)
Hora 03: 155 archivos (ejemplo: gmap_traffic_prediction_20240703030006.csv)
Hora 04: 155 archivos (ejemplo: gmap_traffic_prediction_20240624040006.csv)
Hora 05: 155 archivos (ejemplo: gmap_traffic_prediction_20240806050005.csv)
Hora 06: 154 archivos (ejemplo: gmap_traffic_prediction_20240616060006.csv)
Hora 07: 154 archivos (ejemplo: gmap_traffic_prediction_20240828070009.csv)
Hora 08: 155 archivos (ejemplo: gmap_traffic_prediction_20240909080008.csv)
Hora 13: 152 archivos (ejemplo: gmap_traffic_prediction_20240922130008.csv)
Hora 14: 152 archivos (ejemplo: gmap_traffic_prediction_20241016140007.csv)
Hora 15: 152 archivos (ejemplo: gmap_traffic_prediction_20240726150006.csv)
Hora 16: 153 archivos (ejemplo: gmap_traffic_prediction_20241011160007.csv)
Hora 17: 153 archivos (ejemplo: gmap_traff

In [4]:
import random

# Tomamos una pequeña muestra de archivos para no cargar todo
all_files = [f for f in os.listdir(RAW_FOLDER) if f.lower().endswith(".csv")]
sample_files = random.sample(all_files, min(len(all_files), 50))

print(f"Analizando contenido de {len(sample_files)} archivos de muestra...\n")

hours_from_content = Counter()

for fname in sample_files:
    path = os.path.join(RAW_FOLDER, fname)
    try:
        df = pd.read_csv(path)
        # Ajusta el nombre de la columna si tu CSV trae otra (por ejemplo 'datatime')
        # Aquí asumo que NO trae hora en columna, así que solo contamos por nombre del archivo
        m = ts_pattern.search(fname)
        if not m:
            continue
        ts_str = m.group(1)
        hour = int(ts_str[8:10])
        hours_from_content[hour] += len(df)
    except Exception as e:
        print(f"Error leyendo {fname}: {e}")

print("Horas encontradas (según archivos muestreados):\n")
for h in sorted(hours_from_content.keys()):
    print(f"Hora {h:02d}: {hours_from_content[h]} filas en la muestra")


Analizando contenido de 50 archivos de muestra...

Horas encontradas (según archivos muestreados):

Hora 01: 2043 filas en la muestra
Hora 02: 3405 filas en la muestra
Hora 03: 1362 filas en la muestra
Hora 04: 2724 filas en la muestra
Hora 05: 1362 filas en la muestra
Hora 06: 681 filas en la muestra
Hora 07: 2724 filas en la muestra
Hora 13: 1362 filas en la muestra
Hora 14: 681 filas en la muestra
Hora 15: 2724 filas en la muestra
Hora 17: 1362 filas en la muestra
Hora 19: 3405 filas en la muestra
Hora 20: 1362 filas en la muestra
Hora 21: 5448 filas en la muestra
Hora 22: 2724 filas en la muestra
Hora 23: 681 filas en la muestra
