# üöÄ Flujo Completo: Dataset ‚Üí Entrenamiento ‚Üí Clasificaci√≥n

Este notebook integra los 3 m√≥dulos principales del proyecto:
1. **DatasetGenerator**: Genera datos de letras con distorsi√≥n
2. **MLP**: Red neuronal que aprende a clasificar
3. **ClasificadorLetras**: Interfaz para usar y evaluar el modelo

---

## üì¶ Paso 1: Importar Librer√≠as y M√≥dulos

In [None]:
# Librer√≠as est√°ndar
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os

# M√≥dulos del proyecto
from generador_dataset import DatasetGenerator
from mlp import MLP
from clasificador import ClasificadorLetras

print("‚úÖ Librer√≠as y m√≥dulos importados correctamente")
print(f"   - NumPy: {np.__version__}")
print(f"   - Pandas: {pd.__version__}")

---
# üè≠ PARTE 1: Generaci√≥n de Datos (DatasetGenerator)

Vamos a generar un dataset de 500 ejemplos con distorsiones espec√≠ficas.

## üéØ Paso 2: Crear el Generador de Datos

In [None]:
# Crear instancia del generador
generador = DatasetGenerator()

print("‚úÖ DatasetGenerator creado")
print(f"   - Letras disponibles: {generador.letras}")
print(f"   - Directorio base: {generador.base_path}")

## üìä Paso 3: Generar Datasets (Originales + Distorsionados)

In [None]:
# Configuraci√≥n
cantidad = 500
distorsiones = [1, 3, 5]  # Porcentajes de distorsi√≥n

print(f"üéØ Generando dataset de {cantidad} ejemplos...")
print(f"   Distorsiones: {distorsiones}%")
print("="*60)

# Generar datos originales
print("\n1Ô∏è‚É£ Generando datos originales...")
generador.generar_data_letras(cantidad)

# Generar datos con distorsiones espec√≠ficas
print("\n2Ô∏è‚É£ Generando datos con distorsiones espec√≠ficas...")
generador.generar_data_con_distorsiones_especificas(
    cant=cantidad,
    distorsiones=distorsiones,
    mezclar=False  # No mezclar para poder comparar despu√©s
)

print("\n" + "="*60)
print("‚úÖ Datasets generados exitosamente!")

## üìÇ Paso 4: Cargar los Datos Generados

In [None]:
def leer_dataset(cantidad, tipo='originales'):
    """Lee un dataset desde CSV y separa patrones de etiquetas"""
    file_path = os.path.join('data', tipo, str(cantidad), 'letras.csv')
    df = pd.read_csv(file_path, sep=';', header=None)
    X = df.iloc[:, :100].values  # Primeros 100 columnas (patr√≥n 10x10)
    y = df.iloc[:, 100:].values   # √öltimas 3 columnas (etiquetas one-hot)
    return X, y

# Cargar datos
print("üì• Cargando datasets...\n")
X_orig, y_orig = leer_dataset(cantidad, 'originales')
print(f"‚úÖ Originales: X={X_orig.shape}, y={y_orig.shape}")

X_dist, y_dist = leer_dataset(cantidad, 'distorsionadas')
print(f"‚úÖ Distorsionados: X={X_dist.shape}, y={y_dist.shape}")

print(f"\nüìä Total: {len(X_dist)} patrones listos para entrenar")

## üîç Paso 5: Visualizar Algunos Patrones

In [None]:
def visualizar_ejemplos(X_orig, y_orig, X_dist, num_ejemplos=6):
    """Visualiza ejemplos originales vs distorsionados"""
    letras_map = {0: 'B', 1: 'D', 2: 'F'}
    fig, axes = plt.subplots(2, num_ejemplos, figsize=(num_ejemplos*2.5, 5))
    
    for i in range(num_ejemplos):
        letra = letras_map[np.argmax(y_orig[i])]
        
        # Original
        axes[0, i].imshow(X_orig[i].reshape(10, 10), cmap='binary', interpolation='nearest')
        axes[0, i].set_title(f'Original: {letra}', fontsize=10, fontweight='bold')
        axes[0, i].axis('off')
        
        # Distorsionado
        axes[1, i].imshow(X_dist[i].reshape(10, 10), cmap='binary', interpolation='nearest')
        distorsion = np.sum(X_dist[i] != X_orig[i]) / len(X_orig[i]) * 100
        axes[1, i].set_title(f'Dist: {distorsion:.1f}%', fontsize=10)
        axes[1, i].axis('off')
    
    axes[0, 0].set_ylabel('Originales', fontsize=12, fontweight='bold')
    axes[1, 0].set_ylabel('Distorsionados', fontsize=12, fontweight='bold')
    plt.suptitle('Comparaci√≥n: Originales vs Distorsionados', fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()

# Visualizar
visualizar_ejemplos(X_orig, y_orig, X_dist, num_ejemplos=6)

---
# üß† PARTE 2: Entrenamiento del Modelo (MLP)

Ahora vamos a entrenar una red neuronal para que aprenda a clasificar las letras.

## üîÑ Paso 6: Preparar Datos para Entrenamiento

In [None]:
# Mezclar los datos (importante para el entrenamiento)
print("üîÄ Mezclando datos para entrenamiento...")

indices = np.arange(len(X_dist))
np.random.shuffle(indices)

X_train = X_dist[indices]
y_train = y_dist[indices]

print(f"‚úÖ Datos mezclados: {len(X_train)} ejemplos listos")
print(f"   - Forma X_train: {X_train.shape}")
print(f"   - Forma y_train: {y_train.shape}")

## üèóÔ∏è Paso 7: Crear y Configurar el MLP

In [None]:
# Configuraci√≥n del modelo
arquitectura = [100, 10, 3]  # 100 entrada, 10 oculta, 3 salida
funciones = ['sigmoidal', 'sigmoidal']  # Funci√≥n de activaci√≥n para cada capa
learning_rate = 0.1
momentum = 0.9

print("üèóÔ∏è Creando MLP...")
print(f"   - Arquitectura: {arquitectura[0]} ‚Üí {arquitectura[1]} ‚Üí {arquitectura[2]}")
print(f"   - Funciones de activaci√≥n: {funciones}")
print(f"   - Learning rate: {learning_rate}")
print(f"   - Momentum: {momentum}")
print()

# Crear el modelo
mlp = MLP(
    arquitectura=arquitectura,
    funciones_activacion=funciones,
    learning_rate=learning_rate,
    momentum=momentum
)

print("‚úÖ MLP creado exitosamente!")

## üéØ Paso 8: Entrenar el Modelo

In [None]:
# Configuraci√≥n del entrenamiento
epochs = 1000

print("üéØ Entrenando el modelo...")
print(f"   - √âpocas: {epochs}")
print(f"   - Ejemplos de entrenamiento: {len(X_train)}")
print("="*60)

# Entrenar
historial = mlp.entrenar(
    X_train,
    y_train,
    epochs=epochs,
    verbose=True
)

print("="*60)
print(f"‚úÖ Entrenamiento completado!")
print(f"   - Error inicial: {historial[0]:.6f}")
print(f"   - Error final: {historial[-1]:.6f}")
print(f"   - Mejora: {((historial[0] - historial[-1]) / historial[0] * 100):.2f}%")

## üìà Paso 9: Visualizar Curva de Aprendizaje

In [None]:
# Graficar evoluci√≥n del error
plt.figure(figsize=(12, 5))

# Gr√°fica 1: Error completo
plt.subplot(1, 2, 1)
plt.plot(historial, linewidth=2, color='blue')
plt.xlabel('√âpoca', fontsize=12, fontweight='bold')
plt.ylabel('Error (MSE)', fontsize=12, fontweight='bold')
plt.title('Curva de Aprendizaje Completa', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

# Gr√°fica 2: √öltimas 200 √©pocas (zoom)
plt.subplot(1, 2, 2)
plt.plot(historial[-200:], linewidth=2, color='green')
plt.xlabel('√âpoca (√∫ltimas 200)', fontsize=12, fontweight='bold')
plt.ylabel('Error (MSE)', fontsize=12, fontweight='bold')
plt.title('Convergencia Final', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"üìä El modelo convergi√≥ correctamente")
print(f"   Error final: {historial[-1]:.6f}")

---
# üéõÔ∏è PARTE 3: Uso y Evaluaci√≥n (ClasificadorLetras)

Ahora vamos a usar el clasificador para evaluar y visualizar el rendimiento del modelo.

## üé® Paso 10: Crear el Clasificador

In [None]:
# Crear clasificador con el modelo entrenado
clasificador = ClasificadorLetras(mlp)

print("‚úÖ Clasificador creado con el modelo MLP entrenado")
print("   Listo para clasificar patrones y evaluar rendimiento")

## üß™ Paso 11: Evaluar Precisi√≥n en Datos de Entrenamiento

In [None]:
# Evaluar precisi√≥n
print("üìä Evaluando precisi√≥n del modelo...\n")

letras_map = {0: 'B', 1: 'D', 2: 'F'}
aciertos = 0
aciertos_por_letra = {'B': 0, 'D': 0, 'F': 0}
total_por_letra = {'B': 0, 'D': 0, 'F': 0}

for i in range(len(X_dist)):
    prediccion = clasificador.clasificar_patron(X_dist[i])
    letra_real = letras_map[np.argmax(y_dist[i])]
    
    total_por_letra[letra_real] += 1
    
    if prediccion == letra_real:
        aciertos += 1
        aciertos_por_letra[letra_real] += 1

precision_global = (aciertos / len(X_dist)) * 100

print(f"‚úÖ Precisi√≥n Global: {precision_global:.2f}%")
print(f"   Aciertos: {aciertos}/{len(X_dist)}\n")

print("üìä Precisi√≥n por Letra:")
for letra in ['B', 'D', 'F']:
    prec = (aciertos_por_letra[letra] / total_por_letra[letra]) * 100
    print(f"   {letra}: {prec:.2f}% ({aciertos_por_letra[letra]}/{total_por_letra[letra]})")

## üîç Paso 12: Visualizar Predicciones

In [None]:
# Visualizar algunas predicciones
num_ejemplos = 12
indices_aleatorios = np.random.choice(len(X_dist), num_ejemplos, replace=False)

fig, axes = plt.subplots(3, 4, figsize=(16, 12))
axes = axes.flatten()

for idx, i in enumerate(indices_aleatorios):
    prediccion = clasificador.clasificar_patron(X_dist[i])
    letra_real = letras_map[np.argmax(y_dist[i])]
    distorsion = np.sum(X_dist[i] != X_orig[i]) / len(X_orig[i]) * 100
    
    # Determinar si es correcto o incorrecto
    correcto = "‚úÖ" if prediccion == letra_real else "‚ùå"
    color = 'green' if prediccion == letra_real else 'red'
    
    axes[idx].imshow(X_dist[i].reshape(10, 10), cmap='binary', interpolation='nearest')
    axes[idx].set_title(f'{correcto} Real: {letra_real} | Pred: {prediccion}\nDist: {distorsion:.1f}%', 
                        fontsize=10, color=color, fontweight='bold')
    axes[idx].axis('off')

plt.suptitle('Predicciones del Modelo (Verde=Correcto, Rojo=Error)', 
             fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## üéØ Paso 13: Probar Robustez ante Distorsiones

In [None]:
# Probar con diferentes niveles de distorsi√≥n
print("üß™ Probando robustez del modelo con diferentes distorsiones...")
print("="*60)

distorsiones_prueba = [0, 1, 3, 5, 10, 15, 20, 25, 30]
num_pruebas = 20

for letra in ['B', 'D', 'F']:
    print(f"\nüìù Letra {letra}:")
    clasificador.probar_distorsiones(
        letra=letra,
        distorsiones=distorsiones_prueba,
        num_pruebas=num_pruebas
    )

print("\n" + "="*60)

## üìà Paso 14: Evaluar y Graficar Robustez Completa

In [None]:
# Evaluar robustez completa
print("üìä Evaluando robustez completa del modelo...\n")

resultados = clasificador.evaluar_robustez(
    distorsiones=[0, 5, 10, 15, 20, 25, 30],
    num_pruebas_por_letra=50
)

print("\nüìà Generando gr√°fica de robustez...")
print("="*60)

# Extraer datos
distorsiones_test = resultados['distorsiones']
precision_B = resultados['precision_B']
precision_D = resultados['precision_D']
precision_F = resultados['precision_F']
precision_global = resultados['precision_global']

# Crear gr√°fica
plt.figure(figsize=(12, 7))
plt.plot(distorsiones_test, precision_B, 'o-', label='Letra B', linewidth=2, markersize=8)
plt.plot(distorsiones_test, precision_D, 's-', label='Letra D', linewidth=2, markersize=8)
plt.plot(distorsiones_test, precision_F, '^-', label='Letra F', linewidth=2, markersize=8)
plt.plot(distorsiones_test, precision_global, 'D-', label='Global', linewidth=3, markersize=8, color='black')

plt.xlabel('Distorsi√≥n (%)', fontsize=12, fontweight='bold')
plt.ylabel('Precisi√≥n (%)', fontsize=12, fontweight='bold')
plt.title('Robustez del Modelo ante Distorsiones', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(True, alpha=0.3)
plt.ylim([0, 105])
plt.tight_layout()
plt.show()

print("="*60)
print("‚úÖ Evaluaci√≥n de robustez completada!")

## üíæ Paso 15: Guardar el Modelo Entrenado

In [None]:
# Guardar modelo
nombre_modelo = 'modelo_completo_500_ejemplos.json'

print(f"üíæ Guardando modelo...")
clasificador.guardar_modelo(nombre_modelo)

print(f"‚úÖ Modelo guardado como: {nombre_modelo}")
print(f"\nüìù Para cargar el modelo m√°s tarde:")
print(f"   clasificador.cargar_modelo('{nombre_modelo}')")

---
## üéâ Resumen Final

### ‚úÖ Lo que hicimos:

**1. DatasetGenerator:**
- ‚úÖ Generamos 500 patrones originales de letras B, D, F
- ‚úÖ Aplicamos distorsiones espec√≠ficas (1%, 3%, 5%)
- ‚úÖ Guardamos datos en formato CSV

**2. MLP:**
- ‚úÖ Creamos red neuronal con arquitectura 100 ‚Üí 10 ‚Üí 3
- ‚úÖ Entrenamos con 1000 √©pocas
- ‚úÖ Redujimos el error significativamente

**3. ClasificadorLetras:**
- ‚úÖ Evaluamos precisi√≥n del modelo
- ‚úÖ Visualizamos predicciones
- ‚úÖ Probamos robustez ante distorsiones
- ‚úÖ Guardamos el modelo para uso futuro

### üìä Resultados Obtenidos:
- **Precisi√≥n en entrenamiento:** Ver Paso 11
- **Error final:** Ver Paso 8
- **Robustez:** Ver gr√°fica en Paso 14

### üîß Pr√≥ximos Pasos:
- Experimentar con diferentes arquitecturas (m√°s neuronas ocultas)
- Probar con m√°s datos (1000 ejemplos)
- Ajustar hiperpar√°metros (learning_rate, momentum)
- Comparar diferentes configuraciones