# üö¶ Validaci√≥n y Exploraci√≥n Inicial de Datos de Tr√°fico

Este notebook tiene como objetivo:
1.  Conectar con la carpeta de datos (`data/raw`).
2.  Verificar que se est√°n descargando archivos JSON.
3.  Inspeccionar la estructura de los datos (schemas, claves).
4.  Validar la calidad b√°sica (¬øtenemos datos de tr√°fico reales?).

In [None]:
import os
import json
import pandas as pd
from datetime import datetime
from pathlib import Path

# CONFIGURACI√ìN DE RUTAS
# ----------------------
# Como el notebook corre en el VPS dentro de un contenedor o directamente sobre /opt,
# debemos apuntar a donde Jupyter "ve" los datos.
# Asumimos que Jupyter se inicia en la ra√≠z del proyecto.
DATA_PATH = Path("../data/raw")

print(f"üìÇ Buscando datos en: {DATA_PATH.resolve()}")

In [None]:
def listar_archivos(base_path):
    files_found = []
    if not base_path.exists():
        print(f"‚ùå La ruta {base_path} no existe.")
        return []
        
    for file in base_path.rglob("*.json"):
        files_found.append(file)
    # Ordenar por nombre garantiza orden cronol√≥gico si la estructura es YYYY/MM/DD/HHMM.json
    return sorted(files_found)

files = listar_archivos(DATA_PATH)
print(f"üìÇ Archivos encontrados: {len(files)}")

if files:
    # Mostrar los √∫ltimos 3 para confirmar fechas
    print("\nüìÖ √öltimos 3 archivos:")
    for f in files[-3:]:
        print(f" - {f.name} (Modificado: {datetime.fromtimestamp(f.stat().st_mtime)})")

In [None]:
if files:
    # Leemos el √∫ltimo archivo para ver la estructura
    latest_file = files[-1]
    print(f"\nüìÑ Inspeccionando EL √öLTIMO ARCHIVO: {latest_file}")
    
    with open(latest_file, 'r') as f:
        data = json.load(f)
    
    # CARGA CORRECTA usando 'results' (Estructura Opendatasoft v2.1)
    # json_normalize "aplana" el geo_shape para que sea legible en tabla
    if 'results' in data:
        df = pd.json_normalize(data['results'])
        print(f"üìä Registros encontrados: {df.shape[0]} (Esperado ~400)")
        print(f"üìä Columnas: {df.shape[1]}")
        display(df.head())
    else:
        print(f"‚ö†Ô∏è No se encontr√≥ la clave 'results'. Claves disponibles: {list(data.keys())}")

In [None]:
if 'df' in locals():
    # üïµÔ∏è‚Äç‚ôÇÔ∏è INSPECCI√ìN DE CALIDAD
    print("\nüßê ¬øTenemos datos de tr√°fico?")
    print("-" * 30)
    
    # Verificar si la columna 'estado' tiene alg√∫n valor que no sea null
    # Ajuste: A veces la columna se llama 'estado', 'status', o 'jam_factor'. 
    # Imprimimos columnas para asegurar.
    # print("Columnas detectadas:", df.columns.tolist())
    
    target_col = 'estado' # Ajustar seg√∫n output anterior si difiere
    
    if target_col in df.columns:
        con_datos = df[target_col].notnull().sum()
        print(f"Filas con '{target_col}' informado: {con_datos} de {len(df)}")
        if con_datos > 0:
            print("Ejemplos de estados:", df[target_col].unique())
    else:
        print(f"‚ùå ¬°Alerta! No existe la columna '{target_col}'. Revisa la lista de columnas arriba.")

    # Ver tipos de datos
    print("\n‚ÑπÔ∏è Info del DataFrame:")
    df.info()