
# Reporte de Entrenamiento: Detecci√≥n de Data Leakage
> - **Fecha:** 02 de Noviembre, 2025
> - **Universidad:** ICESI
> - **Curso:** Inteligencia Artificial I
> - **Estado:** üö® **PROBLEMA DETECTADO - CORRECCI√ìN PENDIENTE**

---

## üéØ Resumen Ejecutivo

Este reporte documenta el proceso de entrenamiento de un modelo para la clasificaci√≥n de actividades y la **detecci√≥n cr√≠tica de *data leakage***. El problema ha sido identificado y diagnosticado completamente a trav√©s de un an√°lisis forense. Se ha dise√±ado un protocolo de correcci√≥n, pero este **a√∫n no ha sido ejecutado**.

#### Estado Actual:
-   **‚úÖ Problema Detectado:** *Data leakage* severo confirmado.
-   **‚úÖ An√°lisis Forense:** Completado con evidencia clara.
-   **‚úÖ Plan de Correcci√≥n:** Dise√±ado y documentado.
-   **üîÑ Correcci√≥n y Reentrenamiento:** **PENDIENTE DE EJECUCI√ìN**.

---

## üìä Resultados Iniciales (Problem√°ticos)

Los resultados obtenidos en la primera fase de entrenamiento mostraron precisiones artificialmente perfectas, levantando sospechas inmediatas.

### Rendimiento con *Data Leakage*

| Algoritmo | Accuracy (Validaci√≥n) | Estado |
| :--- | :--- | :--- |
| **MLP** | **1.000** | üö® SOSPECHOSO |
| **Random Forest** | **0.998** | üö® SOSPECHOSO |
| **Gradient Boosting**| **0.994** | üö® SOSPECHOSO |
| **SVM** | **0.991** | üö® SOSPECHOSO |

### Matriz de Confusi√≥n del MLP (Contaminada)

```
                 Predicci√≥n  
Real    CH   CR   GI   PP   SE
CH     370    0    0    0    0   <-- Perfecci√≥n artificial
CR       0  355    0    0    0   <-- Perfecci√≥n artificial  
GI       0    0  342    0    0   <-- Perfecci√≥n artificial
PP       0    0    0  334    0   <-- Perfecci√≥n artificial
SE       0    0    0    0  310   <-- Perfecci√≥n artificial
```
> **Interpretaci√≥n:** Una matriz de confusi√≥n con una diagonal perfecta (cero errores) es una evidencia contundente de *data leakage*.

---

## üïµÔ∏è An√°lisis Forense: Evidencia del Problema

Se ejecutaron varias pruebas para confirmar la causa de los resultados an√≥malos.

#### Evidencia 1: Duplicados Entre Conjuntos de Datos
Se verific√≥ la existencia de muestras id√©nticas entre los conjuntos de entrenamiento, validaci√≥n y prueba.
```python
# RESULTADO OBTENIDO:
train_val_overlap = len(set(X_train_str) & set(X_val_str))     # > 0 ‚ùå
train_test_overlap = len(set(X_train_str) & set(X_test_str))   # > 0 ‚ùå
```
> **Conclusi√≥n:** Se confirm√≥ la presencia de datos duplicados en todos los conjuntos, validando el *data leakage*.

#### Evidencia 2: Modelo Simple con Rendimiento Perfecto
Un modelo intencionalmente simple tambi√©n alcanz√≥ una precisi√≥n an√≥malamente alta.
```python
# RESULTADO OBTENIDO:
mlp_simple = MLPClassifier(hidden_layer_sizes=(50,), alpha=0.01)
simple_accuracy = 0.98+ # Tambi√©n sospechosamente alto
```
> **Conclusi√≥n:** El problema no reside en la complejidad del modelo, sino en la contaminaci√≥n de los datos.

### Veredicto del An√°lisis
-   **Causa Identificada:** El proceso de *data augmentation* cre√≥ muestras sint√©ticas "casi-duplicadas" que fueron mezcladas incorrectamente durante la creaci√≥n de los splits.
-   **Estado:** **PROBLEMA DIAGNOSTICADO - CORRECCI√ìN REQUERIDA**.

---

## üõ†Ô∏è Plan de Correcci√≥n (Dise√±ado - No Ejecutado)

Se ha dise√±ado un protocolo claro para remediar el problema.

#### Paso 1: Recrear los Splits de Forma Limpia
*Este c√≥digo est√° preparado pero a√∫n no ha sido ejecutado.*
```python
RANDOM_STATE_CLEAN = 2025
TEST_SIZE = 0.20

# Cargar el dataset completo y original
X_complete = np.load('X_complete.npy')
y_complete = np.load('y_complete.npy')

# Crear nuevos splits garantizando independencia y estratificaci√≥n
X_trainval, X_test_clean, y_trainval, y_test_clean = train_test_split(
    X_complete, y_complete,
    test_size=TEST_SIZE,
    stratify=y_complete,
    random_state=RANDOM_STATE_CLEAN
)
# ...y subsecuente split para validaci√≥n
```

#### Paso 2: Verificar la Independencia de los Nuevos Splits
*Esta funci√≥n se ejecutar√° sobre los nuevos datos para confirmar la correcci√≥n.*
```python
def verify_data_independence(X_train, X_val, X_test):
    # ... (c√≥digo de verificaci√≥n)
    is_clean = all(overlap == 0 for overlap in overlaps.values())
    return is_clean
```

#### Paso 3: Reentrenar el Modelo con Regularizaci√≥n
*Este modelo se entrenar√° con los datos limpios.*
```python
mlp_clean = MLPClassifier(
    hidden_layer_sizes=(100, 50),
    alpha=0.01,              # Regularizaci√≥n L2
    early_stopping=True,     # Para evitar overfitting
    random_state=42,
    max_iter=2000
)
```

### Resultados Esperados (Post-Correcci√≥n)
-   **Accuracy en Test:** Se espera un valor realista entre **80% y 86%**.
-   **Matriz de Confusi√≥n:** Se esperan errores naturales entre clases similares (ej. `caminar_hacia` vs `caminar_regreso`).

---

## üö® Limitaciones y Riesgos del Modelo Actual

El modelo en su estado actual es inv√°lido y no debe ser utilizado.

-   **Modelo Contaminado:** La precisi√≥n del 100% es artificial y no refleja la capacidad real de generalizaci√≥n.
-   **No Desplegable:** El modelo fallar√≠a estrepitosamente en un entorno de producci√≥n con datos nuevos.
-   **M√©tricas Falsas:** Todos los reportes de rendimiento actuales son enga√±osos.
-   **Plan de Despliegue Pausado:** Es imposible continuar con el despliegue hasta que el modelo sea corregido y revalidado.

---

## üìã Pr√≥ximos Pasos Obligatorios

1.  **EJECUTAR** el protocolo de correcci√≥n para generar nuevos splits de datos.
2.  **VERIFICAR** que los nuevos splits son 100% independientes.
3.  **REENTRENAR** los modelos utilizando los datos limpios.
4.  **VALIDAR** el rendimiento con las nuevas m√©tricas realistas.
5.  **ACTUALIZAR** el reporte final con los resultados corregidos.

---

## üéì Lecciones Aprendidas (Hasta la Fecha)

-   **Intuici√≥n T√©cnica:** Siempre se debe sospechar de resultados "perfectos".
-   **An√°lisis Forense:** Se ha desarrollado la habilidad de diagnosticar problemas complejos en el pipeline de ML.
-   **Metodolog√≠a Rigurosa:** La validaci√≥n de la independencia de los datos es un paso no negociable.
-   **Honestidad Acad√©mica:** Es m√°s valioso reportar y entender un problema que presentar resultados falsos.

---

## üèÜ Conclusi√≥n Actual

El proyecto se encuentra en un punto de inflexi√≥n cr√≠tico. Se ha identificado un error metodol√≥gico grave (*data leakage*) y se ha dise√±ado una soluci√≥n robusta.

-   **Estado:** **Problema diagnosticado, soluci√≥n pendiente de implementaci√≥n.**
-   **Recomendaci√≥n:** **EJECUTAR la correcci√≥n antes de la entrega final.** Un modelo con un 85% de precisi√≥n real es inmensamente m√°s valioso, tanto acad√©mica como profesionalmente, que un modelo con un 100% artificial.```