# üåΩ Corn Disease Classification - Pipeline Completo

**Pipeline de entrenamiento con MobileNetV3Large**

- **Paso 4:** Configuraci√≥n de entrenamiento
- **Paso 5:** Creaci√≥n del modelo
- **Paso 6:** Entrenamiento
- **Paso 7:** Evaluaci√≥n y exportaci√≥n con MLflow

---

**GPU Recomendada:** L4 o superior  
**Tiempo estimado:** 30-60 minutos (depende de GPU y √©pocas)

---

## üì¶ Secci√≥n 1: Configuraci√≥n Inicial y Verificaci√≥n de GPU

In [None]:
# Verificar GPU disponible
import tensorflow as tf
import sys

print("=" * 80)
print("VERIFICACI√ìN DE ENTORNO")
print("=" * 80)

print(f"\nPython version: {sys.version.split()[0]}")
print(f"TensorFlow version: {tf.__version__}")

# Verificar GPU
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    print(f"\n‚úÖ GPU detectada: {len(gpus)} dispositivo(s)")
    for gpu in gpus:
        print(f"   {gpu}")
    
    # Configurar crecimiento de memoria
    for gpu in gpus:
        tf.config.experimental.set_memory_growth(gpu, True)
    print("   Memory growth habilitado")
else:
    print("\n‚ö†Ô∏è  NO se detect√≥ GPU - El entrenamiento ser√° MUY lento en CPU")
    print("   Recomendaci√≥n: Runtime > Change runtime type > GPU (L4)")

print("\n" + "=" * 80)

## üìÇ Secci√≥n 2: Instalaci√≥n de Dependencias

In [None]:
# Instalar dependencias necesarias
print("Instalando dependencias...\n")

!pip install -q mlflow
!pip install -q seaborn

print("\n‚úÖ Dependencias instaladas correctamente")

# Verificar versiones
import mlflow
import seaborn as sns
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, classification_report

print(f"\nMLflow version: {mlflow.__version__}")
print(f"Seaborn version: {sns.__version__}")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## üì• Secci√≥n 3: Carga del Dataset desde Google Drive y Scripts desde GitHub

**Estrategia:**
1. **Dataset (`data_augmented/`):** Montado desde Google Drive
2. **Scripts (`src/`):** Clonados desde GitHub (repositorio `cornIA`)

**Estructura esperada:**
```
Google Drive: /Mi unidad/data_augmented/
‚îú‚îÄ‚îÄ train/ (916 imgs x 4 clases)
‚îú‚îÄ‚îÄ val/   (634 imgs total)
‚îî‚îÄ‚îÄ test/  (634 imgs total)

GitHub: https://github.com/afelipfo/cornIA
‚îî‚îÄ‚îÄ src/
    ‚îú‚îÄ‚îÄ training_config.py
    ‚îú‚îÄ‚îÄ model_creation.py
    ‚îú‚îÄ‚îÄ train_model.py
    ‚îî‚îÄ‚îÄ evaluate_and_export.py
```

In [None]:
# Paso 1: Montar Google Drive
from google.colab import drive
drive.mount('/content/drive')

print("\n‚úÖ Google Drive montado")

# Paso 2: Clonar repositorio de GitHub
print("\nüì• Clonando repositorio de GitHub...")
!git clone https://github.com/afelipfo/cornIA.git

print("\n‚úÖ Repositorio clonado")

# Paso 3: Copiar scripts a directorio de trabajo
import shutil
import os

if os.path.exists('cornIA/src'):
    if os.path.exists('src'):
        shutil.rmtree('src')
    shutil.copytree('cornIA/src', 'src')
    print("‚úÖ Scripts copiados desde GitHub a ./src")
else:
    print("‚ö†Ô∏è  No se encontr√≥ carpeta src/ en el repositorio")

In [None]:
# Paso 4: Crear enlace simb√≥lico a data_augmented desde Google Drive
print("üìÇ Configurando acceso a dataset...\n")

# Ruta del dataset en Google Drive (AJUSTA ESTA RUTA SEG√öN TU ESTRUCTURA)
drive_data_path = '/content/drive/MyDrive/data_augmented'

# Verificar si existe
if os.path.exists(drive_data_path):
    # Crear enlace simb√≥lico
    if os.path.exists('data_augmented'):
        os.remove('data_augmented')
    os.symlink(drive_data_path, 'data_augmented')
    print(f"‚úÖ Dataset enlazado desde: {drive_data_path}")
else:
    print(f"‚ùå NO ENCONTRADO: {drive_data_path}")
    print("\n‚ö†Ô∏è  ACCI√ìN REQUERIDA:")
    print("   1. Verifica que subiste data_augmented/ a Google Drive")
    print("   2. Ajusta la ruta 'drive_data_path' en esta celda")
    print("   Ejemplo: '/content/drive/MyDrive/MiCarpeta/data_augmented'")

# Paso 5: Verificar estructura completa
print("\n" + "=" * 80)
print("VERIFICANDO ESTRUCTURA DE ARCHIVOS")
print("=" * 80 + "\n")

required_structure = {
    'Carpetas de datos': [
        'data_augmented/train/Blight',
        'data_augmented/train/CommonRust',
        'data_augmented/train/GrayLeafSpot',
        'data_augmented/train/Healthy',
        'data_augmented/val',
        'data_augmented/test'
    ],
    'Scripts de entrenamiento': [
        'src/training_config.py',
        'src/model_creation.py',
        'src/train_model.py',
        'src/evaluate_and_export.py'
    ]
}

all_ok = True
for category, paths in required_structure.items():
    print(f"\n{category}:")
    for path in paths:
        if os.path.exists(path):
            print(f"  ‚úÖ {path}")
        else:
            print(f"  ‚ùå {path} - NO ENCONTRADO")
            all_ok = False

if all_ok:
    print("\n" + "=" * 80)
    print("üéâ VERIFICACI√ìN EXITOSA - Todos los archivos est√°n listos")
    print("=" * 80)
else:
    print("\n" + "=" * 80)
    print("‚ö†Ô∏è  VERIFICACI√ìN FALLIDA - Corrige los errores antes de continuar")
    print("=" * 80)

## üîß Secci√≥n 4: Configuraci√≥n de Par√°metros del Pipeline

In [None]:
# Configuraci√≥n del pipeline
RANDOM_SEED = 42
EPOCHS = 50
BATCH_SIZE = 32

print("=" * 80)
print("CONFIGURACI√ìN DEL PIPELINE")
print("=" * 80)
print(f"\nRandom seed: {RANDOM_SEED}")
print(f"√âpocas: {EPOCHS}")
print(f"Batch size: {BATCH_SIZE}")
print("\n" + "=" * 80)

# Agregar src al path para imports
import sys
sys.path.insert(0, './src')

print("\n‚úÖ Par√°metros configurados")
print("‚úÖ M√≥dulos de src/ agregados al path")

## üéØ Secci√≥n 5: PASO 4 - Configuraci√≥n de Entrenamiento

Configura:
- Data augmentation online
- Generadores de datos (train/val/test)
- Callbacks (EarlyStopping, ReduceLROnPlateau, etc.)

In [None]:
from training_config import TrainingConfiguration
from datetime import datetime

print("\n" + "‚ñì" * 100)
print("‚ñì PASO 4: CONFIGURACI√ìN DE ENTRENAMIENTO")
print("‚ñì Configura augmentation online, generadores de datos y callbacks")
print("‚ñì" * 100 + "\n")

try:
    # Inicializar configuraci√≥n
    print("üîß Inicializando TrainingConfiguration...\n")
    config = TrainingConfiguration(
        data_dir='./data_augmented',
        output_dir='./training_output',
        random_seed=RANDOM_SEED
    )
    
    # Ejecutar configuraci√≥n completa
    print("üöÄ Ejecutando configuraci√≥n completa...\n")
    config.run()
    
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚úÖ PASO 4 COMPLETADO: Configuraci√≥n de Entrenamiento")
    print("‚ñë" * 100 + "\n")
    
except Exception as e:
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚ùå PASO 4 FALL√ì: Configuraci√≥n de Entrenamiento")
    print("‚ñë" * 100)
    print(f"\nError: {str(e)}")
    import traceback
    traceback.print_exc()
    raise

## ü§ñ Secci√≥n 6: PASO 5 - Creaci√≥n del Modelo

Crea el modelo:
- MobileNetV3Large (ImageNet)
- BatchNormalization
- Dropout(0.5)
- Dense(4, softmax)

In [None]:
from model_creation import ModelCreator

print("\n" + "‚ñì" * 100)
print("‚ñì PASO 5: CREACI√ìN DEL MODELO")
print("‚ñì Crea MobileNetV3Large con BatchNorm, Dropout y capa de salida")
print("‚ñì" * 100 + "\n")

try:
    # Inicializar creador de modelo
    print("ü§ñ Inicializando ModelCreator...\n")
    creator = ModelCreator(
        config_path='./training_output/training_config.json',
        output_dir='./model_output',
        random_seed=RANDOM_SEED
    )
    
    # Crear y compilar modelo
    print("üèóÔ∏è  Ejecutando creaci√≥n y compilaci√≥n del modelo...\n")
    model = creator.run()
    
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚úÖ PASO 5 COMPLETADO: Creaci√≥n del Modelo")
    print("‚ñë" * 100 + "\n")
    
except Exception as e:
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚ùå PASO 5 FALL√ì: Creaci√≥n del Modelo")
    print("‚ñë" * 100)
    print(f"\nError: {str(e)}")
    import traceback
    traceback.print_exc()
    raise

## üèãÔ∏è Secci√≥n 7: PASO 6 - Entrenamiento

Entrena el modelo:
- Con augmentation online
- Callbacks autom√°ticos
- M√©tricas avanzadas (Precision, Recall, AUC)
- Gr√°ficas autom√°ticas

**‚ö†Ô∏è ADVERTENCIA:** Esta celda puede tardar 30-60 minutos dependiendo de la GPU.

In [None]:
from train_model import ModelTrainer

print("\n" + "‚ñì" * 100)
print("‚ñì PASO 6: ENTRENAMIENTO DEL MODELO")
print("‚ñì Entrena el modelo con augmentation, callbacks y m√©tricas avanzadas")
print("‚ñì" * 100 + "\n")

try:
    # Inicializar entrenador
    print("üöÄ Inicializando ModelTrainer...\n")
    trainer = ModelTrainer(
        output_dir='./training_results',
        random_seed=RANDOM_SEED,
        epochs=EPOCHS,
        batch_size=BATCH_SIZE
    )
    
    # Ejecutar entrenamiento completo
    print("üèãÔ∏è  Ejecutando entrenamiento completo...\n")
    print("‚è∞ Esto puede tardar 30-60 minutos...\n")
    
    trainer.run()
    
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚úÖ PASO 6 COMPLETADO: Entrenamiento del Modelo")
    print("‚ñë" * 100 + "\n")
    
except Exception as e:
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚ùå PASO 6 FALL√ì: Entrenamiento del Modelo")
    print("‚ñë" * 100)
    print(f"\nError: {str(e)}")
    import traceback
    traceback.print_exc()
    raise

## üìä Secci√≥n 8: Visualizaci√≥n de Resultados de Entrenamiento

Visualiza las gr√°ficas generadas durante el entrenamiento.

In [None]:
from IPython.display import Image, display
import os

print("=" * 80)
print("GR√ÅFICAS DE ENTRENAMIENTO")
print("=" * 80 + "\n")

# Mostrar gr√°fica de accuracy y loss
if os.path.exists('./training_results/training_history.png'):
    print("üìà Accuracy y Loss vs Epochs:\n")
    display(Image('./training_results/training_history.png'))
else:
    print("‚ö†Ô∏è  No se encontr√≥ training_history.png")

# Mostrar gr√°fica de m√©tricas avanzadas
if os.path.exists('./training_results/advanced_metrics.png'):
    print("\nüìä M√©tricas Avanzadas (Precision, Recall, AUC):\n")
    display(Image('./training_results/advanced_metrics.png'))
else:
    print("\n‚ÑπÔ∏è  No se encontr√≥ advanced_metrics.png")

## üî¨ Secci√≥n 9: PASO 7 - Evaluaci√≥n y Exportaci√≥n con MLflow

Eval√∫a el modelo en test set:
- Matriz de confusi√≥n
- M√©tricas completas (Accuracy, Precision, Recall, F1)
- Exportaci√≥n del modelo
- Registro en MLflow

In [None]:
from evaluate_and_export import ModelEvaluator

print("\n" + "‚ñì" * 100)
print("‚ñì PASO 7: EVALUACI√ìN Y EXPORTACI√ìN CON MLFLOW")
print("‚ñì Eval√∫a en test, genera m√©tricas, matriz de confusi√≥n y registra en MLflow")
print("‚ñì" * 100 + "\n")

try:
    # Inicializar evaluador
    print("üî¨ Inicializando ModelEvaluator...\n")
    evaluator = ModelEvaluator(
        model_path='./training_output/best_model.keras',
        output_dir='./evaluation_results',
        random_seed=RANDOM_SEED
    )
    
    # Ejecutar evaluaci√≥n completa
    print("üìä Ejecutando evaluaci√≥n y exportaci√≥n completa...\n")
    evaluator.run()
    
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚úÖ PASO 7 COMPLETADO: Evaluaci√≥n y Exportaci√≥n")
    print("‚ñë" * 100 + "\n")
    
except Exception as e:
    print("\n" + "‚ñë" * 100)
    print("‚ñë ‚ùå PASO 7 FALL√ì: Evaluaci√≥n y Exportaci√≥n")
    print("‚ñë" * 100)
    print(f"\nError: {str(e)}")
    import traceback
    traceback.print_exc()
    raise

## üìä Secci√≥n 10: Visualizaci√≥n de Resultados de Evaluaci√≥n

Visualiza matriz de confusi√≥n y m√©tricas finales.

In [None]:
from IPython.display import Image, display
import json
import pandas as pd

print("=" * 80)
print("RESULTADOS DE EVALUACI√ìN EN TEST SET")
print("=" * 80 + "\n")

# Mostrar matriz de confusi√≥n
if os.path.exists('./evaluation_results/confusion_matrix.png'):
    print("üìä Matriz de Confusi√≥n:\n")
    display(Image('./evaluation_results/confusion_matrix.png'))
else:
    print("‚ö†Ô∏è  No se encontr√≥ confusion_matrix.png")

# Mostrar m√©tricas finales
if os.path.exists('./evaluation_results/evaluation_results.json'):
    print("\n" + "=" * 80)
    print("üìà M√âTRICAS FINALES EN TEST SET")
    print("=" * 80 + "\n")
    
    with open('./evaluation_results/evaluation_results.json', 'r') as f:
        results = json.load(f)
    
    metrics = results['test_metrics']
    print(f"Accuracy:         {metrics['accuracy']:.4f}")
    print(f"Precision (macro): {metrics['precision_macro']:.4f}")
    print(f"Recall (macro):    {metrics['recall_macro']:.4f}")
    print(f"F1-score (macro):  {metrics['f1_macro']:.4f}")
    
    print("\n" + "-" * 80)
    print("üìä M√âTRICAS POR CLASE")
    print("-" * 80 + "\n")
    
    for class_name, class_metrics in results['class_metrics'].items():
        print(f"{class_name:15s}: Precision={class_metrics['precision']:.4f}, "
              f"Recall={class_metrics['recall']:.4f}, "
              f"F1={class_metrics['f1_score']:.4f}")
else:
    print("‚ö†Ô∏è  No se encontr√≥ evaluation_results.json")

# Mostrar classification report
if os.path.exists('./evaluation_results/classification_report.csv'):
    print("\n" + "=" * 80)
    print("üìÑ CLASSIFICATION REPORT")
    print("=" * 80 + "\n")
    
    report_df = pd.read_csv('./evaluation_results/classification_report.csv', index_col=0)
    print(report_df.to_string())

## üéâ Secci√≥n 11: Resumen Final del Pipeline

In [None]:
print("\n" + "=" * 100)
print("‚ñà" * 100)
print("‚ñà" + " " * 35 + "PIPELINE COMPLETADO EXITOSAMENTE" + " " * 32 + "‚ñà")
print("‚ñà" * 100)
print("=" * 100)

print("\nüìã ESTADO DE PASOS:")
print("   ‚úÖ Paso 4: Configuraci√≥n de entrenamiento")
print("   ‚úÖ Paso 5: Creaci√≥n del modelo")
print("   ‚úÖ Paso 6: Entrenamiento")
print("   ‚úÖ Paso 7: Evaluaci√≥n y MLflow")

print("\nüìÅ ARCHIVOS GENERADOS:")
print("   üìÇ training_output/")
print("      ‚îú‚îÄ‚îÄ training_config.json       (Configuraci√≥n)")
print("      ‚îú‚îÄ‚îÄ best_model.keras           (Mejor modelo)")
print("      ‚îî‚îÄ‚îÄ training_history.csv       (Historial)")
print("\n   üìÇ model_output/")
print("      ‚îú‚îÄ‚îÄ model_config.json          (Configuraci√≥n del modelo)")
print("      ‚îî‚îÄ‚îÄ model_summary.txt          (Resumen)")
print("\n   üìÇ training_results/")
print("      ‚îú‚îÄ‚îÄ training_info.json         (Info completa)")
print("      ‚îú‚îÄ‚îÄ training_history.png       (Gr√°ficas)")
print("      ‚îî‚îÄ‚îÄ advanced_metrics.png       (M√©tricas)")
print("\n   üìÇ evaluation_results/")
print("      ‚îú‚îÄ‚îÄ best_model.keras           (Modelo exportado)")
print("      ‚îú‚îÄ‚îÄ confusion_matrix.png       (Matriz)")
print("      ‚îî‚îÄ‚îÄ classification_report.csv  (Reporte)")

print("\n" + "=" * 100)
print("\n‚úÖ ¬°Entrenamiento completado!")
print("\nüì• Para descargar los resultados:")
print("   - Haz clic derecho en los archivos/carpetas en el panel izquierdo")
print("   - Selecciona 'Download'")
print("\nüî¨ MLflow:")
print("   - Todos los par√°metros, m√©tricas y artefactos registrados")
print("   - Experiment: Maize-Disease-Classification")
print("\n" + "=" * 100)

## üì• Secci√≥n 12: Descargar Resultados (Opcional)

Descarga todos los resultados a tu m√°quina local.

In [None]:
# Crear archivo ZIP con todos los resultados
import shutil
from datetime import datetime

timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
zip_name = f'corn_disease_results_{timestamp}'

print(f"Creando archivo ZIP: {zip_name}.zip...\n")

# Crear ZIP con todos los directorios de resultados
shutil.make_archive(zip_name, 'zip', '.', 
                   base_dir=None,
                   root_dir='.')

# Incluir solo carpetas de resultados
folders_to_zip = [
    'training_output',
    'model_output',
    'training_results',
    'evaluation_results'
]

# Crear un ZIP m√°s espec√≠fico
!zip -r {zip_name}.zip {' '.join(folders_to_zip)} -x "*.pyc" "__pycache__/*"

print(f"\n‚úÖ Archivo creado: {zip_name}.zip")
print(f"\nüì• Para descargar:")
print(f"   from google.colab import files")
print(f"   files.download('{zip_name}.zip')")

# Descarga autom√°tica (descomenta si quieres descarga autom√°tica)
# from google.colab import files
# files.download(f'{zip_name}.zip')

## üîÑ Secci√≥n 13: Guardar en Google Drive (Opcional)

Guarda los resultados directamente en tu Google Drive.

In [None]:
# Copiar resultados a Google Drive
import shutil
import os

# Definir carpeta destino en Drive
drive_results_dir = '/content/drive/MyDrive/Corn_Disease_Results'

print(f"Copiando resultados a Google Drive...\n")
print(f"Destino: {drive_results_dir}\n")

# Crear carpeta en Drive si no existe
os.makedirs(drive_results_dir, exist_ok=True)

# Copiar cada carpeta de resultados
folders_to_copy = [
    'training_output',
    'model_output',
    'training_results',
    'evaluation_results'
]

for folder in folders_to_copy:
    if os.path.exists(folder):
        dest = os.path.join(drive_results_dir, folder)
        if os.path.exists(dest):
            shutil.rmtree(dest)
        shutil.copytree(folder, dest)
        print(f"‚úÖ Copiado: {folder} ‚Üí {dest}")
    else:
        print(f"‚ö†Ô∏è  No encontrado: {folder}")

print(f"\n‚úÖ Resultados guardados en Google Drive")
print(f"   Ubicaci√≥n: {drive_results_dir}")