# 01_DATA_QC_PREP ‚Äî Quality Check y Splits Estratificados

**Qu√© hace este notebook:**
1. Carga y normaliza cada `driving_log.csv` de los recorridos seleccionados (`RUNS`).
2. Normaliza rutas de im√°genes (soporta barras invertidas y recorta a `IMG/...`).
3. Filtra filas sin im√°genes v√°lidas (`center/left/right`).
4. Hace **split estratificado por bins de `steering`** (reproducible).
5. Escribe:
   - `data/processed/<run>/canonical.csv`
   - `data/processed/<run>/{train,val,test}.csv`
   - `data/processed/tasks.json`

---

## üéØ Objetivos
- Preparar los *splits* `train/val/test` por recorrido
- Generar `tasks.json` para el pipeline *continual*.

## ‚úÖ Prerrequisitos
- `data/raw/udacity/<run>/driving_log.csv`
- Directorio `data/raw/udacity/<run>/IMG/` con las im√°genes.

## ‚ö†Ô∏è Salidas
- CSVs can√≥nicos y de split en `data/processed/<run>/`.
- `tasks.json` apuntando a esos CSVs.

> Si m√°s adelante quieres **balanceo offline** de `train` por bins, usa el notebook `01A_PREP_BALANCED.ipynb`.

<a id="toc"></a>

## üß≠ √çndice
1. [Entorno y API de preparaci√≥n](#sec-01)
2. [Par√°metros de la preparaci√≥n](#sec-02)
3. [Ejecutar pipeline y verificar](#sec-03)
4. [Resumen de rutas de splits (vista r√°pida)](#sec-04)


## <a id="sec-01"></a>

## 1) Entorno y API de preparaci√≥n

**Objetivo:** preparar el entorno y cargar la API de *prep*.

- Detecta la ra√≠z del repo (`ROOT`) y la a√±ade a `sys.path`.
- Importa funciones del m√≥dulo `src.prep.data_prep`:
  - `PrepConfig` ‚Äî configuraci√≥n declarativa del *prep*.
  - `run_prep` ‚Äî ejecuta la preparaci√≥n y genera splits + `tasks.json`.
  - `verify_processed_splits` ‚Äî comprueba que los CSVs `train/val/test` existen por *run*.
- Define rutas base:
  - `RAW = data/raw/udacity`
  - `PROC = data/processed`

> Esta celda **no ejecuta** el *prep* a√∫n; s√≥lo deja listo el entorno.

[‚Üë Volver al √≠ndice](#toc)

In [5]:
# %% setup & imports
%load_ext autoreload
%autoreload 2

from pathlib import Path
import sys, json
import pandas as pd

ROOT = Path.cwd().parents[0] if (Path.cwd().name == "notebooks") else Path.cwd()
if str(ROOT) not in sys.path:
    sys.path.append(str(ROOT))

from src.prep.data_prep import PrepConfig, run_prep, verify_processed_splits
RAW  = ROOT / "data" / "raw" / "udacity"
PROC = ROOT / "data" / "processed"


The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


<a id="sec-02"></a>

## 2) Par√°metros de la preparaci√≥n

**Objetivo:** declarar los *runs* y la configuraci√≥n del *split*.

- `RUNS`: lista de recorridos a procesar (ej. `["circuito1", "circuito2"]`).
- `use_left_right=False`: modo QC/split b√°sico, **sin** expansi√≥n de c√°maras.  
  > Si quieres triplicar datos con *left/right* y correcci√≥n de `steer_shift`, usa `01A_PREP_BALANCED.ipynb` o cambia aqu√≠ a `True` (no recomendado en este notebook de QC).
- `bins`: n¬∫ de contenedores para estratificar por `steering`.
- `train/val`: proporciones del split (test se infiere).
- `seed`: reproducibilidad del split.

> `target_per_bin` y `cap_per_bin` **no se usan** en este notebook (se usan en el balanceo offline de `01A_PREP_BALANCED`).

[‚Üë Volver al √≠ndice](#toc)

In [6]:
# Par√°metros de la preparaci√≥n
RUNS = ["circuito1", "circuito2"]

CFG = PrepConfig(
    root=ROOT,
    runs=RUNS,
    use_left_right=False,  # QC + split b√°sico (sin expansi√≥n)
    steer_shift=0.2,       # no aplica si use_left_right=False
    bins=21,
    train=0.70,
    val=0.15,
    seed=42,
    target_per_bin=None,   # <- no balancea aqu√≠
    cap_per_bin=None,
)
CFG

PrepConfig(root=PosixPath('/home/cesar/proyectos/TFM_SNN'), runs=['circuito1', 'circuito2'], use_left_right=False, steer_shift=0.2, bins=21, train=0.7, val=0.15, seed=42, target_per_bin=None, cap_per_bin=None)

<a id="sec-03"></a>

## 3) Ejecutar *prep* y verificar

**Objetivo:** correr el pipeline y validar que los *splits* existen.

Acciones que realiza `run_prep(CFG)`:
- Lee y normaliza `driving_log.csv` ‚Üí `canonical.csv`.
- Genera *splits* estratificados: `train.csv`, `val.csv`, `test.csv`.
- Construye/actualiza `data/processed/tasks.json` con la lista de *runs* y rutas a sus CSVs.

Luego, `verify_processed_splits(PROC, RUNS)`:
- Comprueba que `train/val/test.csv` existen para cada *run*.
- Si falta algo, lanza una excepci√≥n con detalle.

> **Idempotencia:** si vuelves a ejecutar esta celda, se regenerar√°n los CSVs y se actualizar√° `tasks.json` de forma consistente con lo que haya ahora en `RUNS`.

[‚Üë Volver al √≠ndice](#toc)

In [7]:
# Ejecutar prep + verificar
manifest = run_prep(CFG)
print("OK:", PROC/"prep_manifest.json")

# Verificaci√≥n: existen train/val/test por run
verify_processed_splits(PROC, RUNS)
print("OK: splits 'train/val/test' encontrados.")


OK: /home/cesar/proyectos/TFM_SNN/data/processed/prep_manifest.json
OK: splits 'train/val/test' encontrados.


<a id="sec-04"></a>

## 4) Resumen de rutas de *splits* (vista r√°pida)

**Objetivo:** visualizar de un vistazo qu√© ficheros usar√° el pipeline *continual*.

- Lee `data/processed/tasks.json`.
- Muestra una tabla con `run`, `train_csv`, `val_csv` y `test_csv`.

> Si los paths no son los esperados, revisa la config de la celda 2 o el estado de `data/raw/udacity/<run>/`.

[‚Üë Volver al √≠ndice](#toc)

In [8]:
# Resumen de rutas de splits (visualizaci√≥n)
tasks_json = json.loads((PROC/"tasks.json").read_text(encoding="utf-8"))
pd.DataFrame({
    "run": tasks_json["tasks_order"],
    "train_csv": [tasks_json["splits"][r]["train"] for r in tasks_json["tasks_order"]],
    "val_csv":   [tasks_json["splits"][r]["val"]   for r in tasks_json["tasks_order"]],
    "test_csv":  [tasks_json["splits"][r]["test"]  for r in tasks_json["tasks_order"]],
})


Unnamed: 0,run,train_csv,val_csv,test_csv
0,circuito1,/home/cesar/proyectos/TFM_SNN/data/processed/c...,/home/cesar/proyectos/TFM_SNN/data/processed/c...,/home/cesar/proyectos/TFM_SNN/data/processed/c...
1,circuito2,/home/cesar/proyectos/TFM_SNN/data/processed/c...,/home/cesar/proyectos/TFM_SNN/data/processed/c...,/home/cesar/proyectos/TFM_SNN/data/processed/c...
