# Correcci√≥n de Data Leakage: Divisi√≥n Cronol√≥gica

## El Problema: Data Leakage Temporal
En el notebook anterior (`03_ML.ipynb`), utilizamos `train_test_split` con `shuffle=True` (aleatorio). 
Dado que nuestras im√°genes provienen de una **secuencia de video** (time-series), las im√°genes consecutivas son casi id√©nticas.

Al mezclar aleatoriamente:
- El modelo ve el **mismo coche** en el instante $t$ (Entrenamiento) y en el instante $t+1$ (Test).
- El modelo no aprende a distinguir "textura de coche" vs "textura de asfalto", sino que **memoriza** los coches est√°ticos espec√≠ficos de esa grabaci√≥n.
- Resultado: m√©tricas artificialmente perfectas (F1-Score 1.0) pero fallos en el mundo real.

## La Soluci√≥n: Divisi√≥n Cronol√≥gica (Chronological Split)
Para evaluar realmente si el modelo generaliza:
1. Ordenamos las im√°genes por **tiempo** (nombre de archivo).
2. Usamos el primer **80%** para **Entrenar**.
3. Usamos el √∫ltimo **20%** futuro para **Test**.

Esto obliga al modelo a predecir sobre coches e iluminaci√≥n que **nunca ha visto antes**.

In [1]:
import cv2
import numpy as np
import pickle
import json
import matplotlib.pyplot as plt
from pathlib import Path
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, classification_report

# Configuraci√≥n
DATA_DIR = Path("data")
GT_FILE = "ground_truth.json"
PLAZAS_FILE = "plazas.pickle"
MODEL_FILE = "model_corrected.pkl"  # Guardaremos un nuevo modelo corregido

### 1. Carga de Datos y Ordenamiento Cronol√≥gico
Es cr√≠tico ordenar las claves del JSON para asegurar la secuencia temporal.

In [2]:
def cargar_datos_cronologicos():
    if not Path(PLAZAS_FILE).exists() or not Path(GT_FILE).exists():
        raise FileNotFoundError("Faltan archivos de datos (plazas.pickle o ground_truth.json)")
        
    with open(PLAZAS_FILE, 'rb') as f: plazas = pickle.load(f)
    with open(GT_FILE, 'r') as f: ground_truth = json.load(f)
    
    # ORDENAR CRONOL√ìGICAMENTE
    # Los nombres de archivo tienen formato YYYY-MM-DD_HH_MM_SS, por lo que sort() funciona directo
    sorted_img_names = sorted(ground_truth.keys())
    
    return plazas, ground_truth, sorted_img_names

plazas, ground_truth, sorted_images = cargar_datos_cronologicos()

# Divisi√≥n 80/20 Estricta
split_idx = int(len(sorted_images) * 0.8)
train_imgs = sorted_images[:split_idx]
test_imgs = sorted_images[split_idx:]

print(f"üìä Total Im√°genes: {len(sorted_images)}")
print(f"   ‚úÖ Train (Pasado): {len(train_imgs)} im√°genes")
print(f"   üß™ Test (Futuro):  {len(test_imgs)} im√°genes")

üìä Total Im√°genes: 8
   ‚úÖ Train (Pasado): 6 im√°genes
   üß™ Test (Futuro):  2 im√°genes


### 2. Procesamiento e Ingenier√≠a de Caracter√≠sticas
Usamos el mismo pipeline que antes, pero construyendo los arrays X/y secuencialmente.

In [3]:
def preprocess_image(image):
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
    clahe = cv2.createCLAHE(clipLimit=2.0, tileGridSize=(8,8))
    gray = clahe.apply(gray)
    blur = cv2.GaussianBlur(gray, (5, 5), 0)
    return blur

def extract_features(roi_gray, roi_binary, roi_color):
    pixels = cv2.countNonZero(roi_binary)
    match_mean, match_std = cv2.meanStdDev(roi_gray)
    texture = match_std[0][0]
    hsv = cv2.cvtColor(roi_color, cv2.COLOR_BGR2HSV)
    s_mean, s_std = cv2.meanStdDev(hsv[:,:,1])
    saturation = s_mean[0][0]
    return [pixels, texture, saturation]

def build_dataset(image_list, gt_data, plazas_rects):
    X, y = [], []
    for img_name in image_list:
        path = DATA_DIR / img_name
        if not path.exists(): continue
        
        image = cv2.imread(str(path))
        processed = preprocess_image(image)
        
        # Binarizaci√≥n adaptativa
        binary = cv2.adaptiveThreshold(processed, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
                                     cv2.THRESH_BINARY_INV, 25, 15)
        binary = cv2.medianBlur(binary, 5)
        
        labels = gt_data[img_name]
        
        for idx, rect in enumerate(plazas_rects):
            if idx >= len(labels): break
            x, py, w, h = rect
            
            roi_gray = processed[py:py+h, x:x+w]
            roi_binary = binary[py:py+h, x:x+w]
            roi_color = image[py:py+h, x:x+w]
            
            feat = extract_features(roi_gray, roi_binary, roi_color)
            X.append(feat)
            y.append(labels[idx])
            
    return np.array(X), np.array(y)

print("‚è≥ Construyendo Train Set...")
X_train, y_train = build_dataset(train_imgs, ground_truth, plazas)

print("‚è≥ Construyendo Test Set...")
X_test, y_test = build_dataset(test_imgs, ground_truth, plazas)

print(f"\nüì¶ Dataset Final:")
print(f"   Train: {X_train.shape[0]} muestras")
print(f"   Test:  {X_test.shape[0]} muestras")

‚è≥ Construyendo Train Set...
‚è≥ Construyendo Test Set...

üì¶ Dataset Final:
   Train: 306 muestras
   Test:  102 muestras


### 3. Entrenamiento y Validaci√≥n Realista

In [4]:
print("üß† Entrenando SVM con kernel RBF...")
model = SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42)
model.fit(X_train, y_train)

# Predicci√≥n en datos futuros (Test)
y_pred = model.predict(X_test)

print("\nüìä Resultados REALISTAS (Test Set):")
print("-"*40)
print(classification_report(y_test, y_pred, target_names=['Libre', 'Ocupado']))

print("\nMatriz de Confusi√≥n:")
cm = confusion_matrix(y_test, y_pred)
print(f"TN (Libres OK):    {cm[0][0]}")
print(f"FP (Falsos Ocup):  {cm[0][1]}")
print(f"FN (Falsos Libres):{cm[1][0]}")
print(f"TP (Ocupados OK):  {cm[1][1]}")

üß† Entrenando SVM con kernel RBF...

üìä Resultados REALISTAS (Test Set):
----------------------------------------
              precision    recall  f1-score   support

       Libre       1.00      0.91      0.95        22
     Ocupado       0.98      1.00      0.99        80

    accuracy                           0.98       102
   macro avg       0.99      0.95      0.97       102
weighted avg       0.98      0.98      0.98       102


Matriz de Confusi√≥n:
TN (Libres OK):    20
FP (Falsos Ocup):  2
FN (Falsos Libres):0
TP (Ocupados OK):  80


### 4. Conclusi√≥n
Estas m√©tricas reflejan el comportamiento real del modelo ante nuevos frames de video. El F1-Score ha bajado ligeramente respecto al 1.0 perfecto del enfoque aleatorio, ahora es una m√©trica honesta.