# üêÑ Sistema de Estimaci√≥n de Peso Bovino - Setup ML

> **BLOQUE 0**: Informaci√≥n del proyecto (markdown - solo lectura)

**Proyecto**: Hacienda Gamelera - Bruno Brito Macedo  
**Responsable**: Persona 2 - Setup Infraestructura ML  
**Objetivo**: Preparar datasets y pipeline para entrenamiento de 7 modelos (razas tropicales priorizadas)  
**Duraci√≥n**: 5-6 d√≠as  

---

## üìë √çndice de Bloques (Referencia R√°pida)

| Bloque | Nombre | Descripci√≥n | Requisitos |
|--------|--------|-------------|------------|
| **0** | Informaci√≥n | Markdown introductorio | Ninguno |
| **1** | Clonar Repositorio | Monta Drive y clona desde GitHub (persistente) | Ninguno (requiere internet) |
| **2** | Verificar Dependencias | Verifica versiones base de TensorFlow y NumPy | Ninguno |
| **3** | Instalar Dependencias Cr√≠ticas | TensorFlow 2.19.0, NumPy 2.x, MLflow, DVC | Ninguno |
| **4** | Instalar Complementos | Albumentations, OpenCV, herramientas ML | Ninguno |
| **5** | Configuraci√≥n Proyecto | Crea estructura de carpetas y variables globales | Bloque 1 |
| **6** | Descargar Im√°genes Propias | Scraping de im√°genes para dataset personalizado | Bloque 5 |
| **7** | Descargar CID Dataset | Descarga CID Dataset desde S3 (complementario) | Bloque 5 |
| **8** | Preparar Dataset Combinado | Combina CID + Nuestras im√°genes (Estrategia B) | Bloques 6 + 7 |
| **9** | Resumen Datasets | Muestra resumen de datasets disponibles (CID + propias) | Bloques 6-8 |
| **10** | Verificaci√≥n R√°pida | Verificaci√≥n m√≠nima de columnas requeridas (OPCIONAL) | Bloque 9 |
| **11** | Pipeline de Datos | Pipeline con augmentation | Bloque 8 |
| **12** | Arquitectura Modelo | Crea modelo EfficientNetB0 | Bloque 11 |
| **13** | Configurar Entrenamiento | Callbacks y MLflow | Bloque 12 |
| **14** | Entrenamiento | Entrena modelo (2-4h) | Bloque 13 + GPU |
| **15** | Evaluaci√≥n | Eval√∫a modelo | Bloque 14 |
| **16** | Exportar TFLite | Exporta modelo a TFLite | Bloque 15 |

---

## üìã Flujo de Trabajo

### D√≠a 1: Setup (Bloques 1-5)
- **BLOQUE 1**: Clonar repositorio en Drive
- **BLOQUE 2**: Verificar dependencias base
- **BLOQUE 3**: Instalar dependencias cr√≠ticas (TensorFlow, MLflow)
- **BLOQUE 4**: Instalar complementos (Albumentations, OpenCV)
- **BLOQUE 5**: Configurar proyecto y carpetas

### D√≠a 2-3: Datasets (Bloques 6-9)
- **BLOQUE 6**: Descargar nuestras im√°genes (razas bolivianas, etapas de crianza)
- **BLOQUE 7**: Descargar CID Dataset (complementario - 17,899+ im√°genes)
- **BLOQUE 8**: Preparar dataset combinado (Estrategia B: combina CID + nuestras im√°genes)
- **BLOQUE 9**: Resumen de datasets disponibles (verifica combinaci√≥n)

### D√≠a 4: Verificaci√≥n (Bloque 10) - OPCIONAL
- **BLOQUE 10**: Verificaci√≥n r√°pida de datos (solo comprueba columnas necesarias, sin gr√°ficos)
- üí° **NOTA**: Este bloque es OPCIONAL. Puedes saltarlo para entrenar m√°s r√°pido.

### D√≠a 5-6: Pipeline y Modelo (Bloques 11-16)
- **BLOQUE 11**: Pipeline de datos con augmentation (usa dataset combinado)
- **BLOQUE 12**: Arquitectura del modelo
- **BLOQUE 13**: Configurar entrenamiento
- **BLOQUE 14**: Entrenar modelo
- **BLOQUE 15**: Evaluaci√≥n del modelo
- **BLOQUE 16**: Exportar a TFLite

---

## üéØ Razas Objetivo (7 razas)
1. **Nelore** ‚Äì Carne tropical dominante en Santa Cruz (‚âà42% del hato)
2. **Brahman** ‚Äì Cebuino vers√°til para cruzamientos y climas extremos
3. **Guzerat** ‚Äì Doble prop√≥sito (carne/leche) con gran rusticidad materna
4. **Senepol** ‚Äì Carne premium adaptada al calor, ideal para ‚Äústeer‚Äù de alta calidad
5. **Girolando** ‚Äì Lechera tropical (Holstein √ó Gyr) muy difundida en sistemas semi-intensivos
6. **Gyr lechero** ‚Äì Lechera pura clave para gen√©tica tropical y s√≥lidos altos
7. **Sindi** ‚Äì Lechera tropical compacta, de alta fertilidad y leche rica en s√≥lidos

> Estas razas cubren el portafolio real de Santa Cruz (carne tropical + lecheras adaptadas). M√°s adelante podemos sumar Holstein, Pardo Suizo o Jersey si obtenemos datos suficientes.


In [2]:
# ============================================================
# BLOQUE 1: CONFIGURAR RUTA DEL PROYECTO Y CLONAR REPOSITORIO EN DRIVE
# ============================================================
# üìÅ Clona el repositorio desde GitHub a Google Drive (persistente entre sesiones)
# üîó Repositorio: https://github.com/Angello-27/bovine-weight-estimation.git
# üíæ Se clona en Drive para que persista entre desconexiones del runtime

import sys
import subprocess
from pathlib import Path

GITHUB_REPO_URL = 'https://github.com/Angello-27/bovine-weight-estimation.git'

# Montar Google Drive (solo si no est√° montado)
print("üîó Verificando Google Drive...")
try:
    from google.colab import drive
    drive_path = Path('/content/drive')
    if not drive_path.exists() or not any(drive_path.iterdir()):
        drive.mount('/content/drive')
    BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
except ImportError:
    BASE_DIR = Path('/content/bovine-weight-estimation')

print("üìÅ Directorio base: {BASE_DIR}")

# Clonar o sincronizar repositorio
if BASE_DIR.exists() and (BASE_DIR / '.git').exists():
    print("üîÑ Sincronizando repositorio existente...")
    subprocess.run(['git', 'pull'], cwd=str(BASE_DIR), check=False)
else:
    print("üì• Clonando repositorio...")
    BASE_DIR.parent.mkdir(parents=True, exist_ok=True)
    result = subprocess.run(['git', 'clone', GITHUB_REPO_URL, str(BASE_DIR)], check=False)
    if result.returncode != 0:
        raise RuntimeError(f"Error al clonar repositorio. Verifica conexi√≥n a internet.")

# Configurar PYTHONPATH
ML_TRAINING_DIR = BASE_DIR / 'ml-training'
src_dir = ML_TRAINING_DIR / 'src'
if src_dir.exists():
    sys.path.insert(0, str(src_dir))
    print("‚úÖ PYTHONPATH configurado: {src_dir}")
else:
    print("‚ö†Ô∏è Directorio src no encontrado: {src_dir}")

print("‚úÖ Configuraci√≥n completada")
print("üìÅ ML Training: {ML_TRAINING_DIR}")


## üöÄ D√≠a 1: Setup Google Colab Pro + Dependencias

In [None]:
# ============================================================
# BLOQUE 2: VERIFICACI√ìN DE DEPENDENCIAS BASE
# ============================================================
# üîç Verifica versiones base de TensorFlow y NumPy
# üí° Solo verifica - no desinstala (pip maneja versiones autom√°ticamente)
# ‚ö†Ô∏è Si hay conflictos, ejecuta limpieza manual o reinicia el runtime

import warnings
warnings.filterwarnings('ignore')

print("üîç VERIFICANDO DEPENDENCIAS BASE...\n")

# Verificar versiones actuales
try:
    import tensorflow as tf
    import numpy as np
    print("üì¶ Versiones actuales:")
    print("   - TensorFlow: {tf.__version__}")
    print("   - NumPy: {np.__version__}")
    
    # Verificar compatibilidad b√°sica
    tf_ok = tf.__version__.startswith('2.')
    numpy_ok = np.__version__.startswith('2.') or np.__version__.startswith('1.')
    
    if tf_ok and numpy_ok:
        print("\n‚úÖ Versiones compatibles detectadas")
        print("üí° Contin√∫a con el BLOQUE 3 para instalar dependencias")
    else:
        print("\n‚ö†Ô∏è Versiones pueden tener conflictos")
        print("üí° Recomendaci√≥n: Reinicia el runtime o ejecuta limpieza manual")
        
except ImportError as e:
    print("‚ö†Ô∏è Error importando dependencias: {e}")
    print("üí° Esto es normal en un runtime nuevo - contin√∫a con el BLOQUE 3")

print("\nüí° NOTA: El BLOQUE 3 instalar√° las versiones correctas autom√°ticamente")
print("üí° No es necesario desinstalar/reinstalar manualmente si las versiones est√°n bien definidas")


In [None]:
# ============================================================
# BLOQUE 3: INSTALACI√ìN DE DEPENDENCIAS CR√çTICAS
# ============================================================
# üîß Instala dependencias cr√≠ticas con versiones exactas
# ‚úÖ pip maneja autom√°ticamente las actualizaciones

import warnings
import subprocess
warnings.filterwarnings('ignore')

print("üì¶ INSTALANDO DEPENDENCIAS CR√çTICAS...\n")

# Instalar dependencias en orden
dependencies = [
    ("tf-keras", "tf-keras>=2.19.0"),
    ("packaging", "packaging<25"),
    ("wrapt", "wrapt<2.0.0,>=1.10.10"),
    ("requests", "requests==2.32.4"),
    ("jedi", "jedi>=0.16"),
    ("MLflow", "mlflow==2.16.2"),
    ("DVC", "dvc[gs,s3]==3.51.1"),
    ("scikit-learn", "scikit-learn>=1.6")
]

for name, package in dependencies:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', package],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        print("‚úÖ {name} instalado")
    else:
        print("‚ö†Ô∏è Error instalando {name}")

# Configurar mixed precision
try:
    from tensorflow.keras import mixed_precision
    mixed_precision.set_global_policy('mixed_float16')
    print("‚úÖ Mixed precision (FP16) activado\n")
except Exception as e:
    print("‚ö†Ô∏è Mixed precision no disponible: {str(e)[:50]}\n")

# Verificar instalaciones
import tensorflow as tf
import numpy as np

print("=" * 60)
print("‚úÖ DEPENDENCIAS CR√çTICAS INSTALADAS")
print("=" * 60)

versions = {
    'TensorFlow': tf.__version__,
    'NumPy': np.__version__
}

packages_to_check = {
    'MLflow': ('mlflow', '__version__'),
    'Scikit-learn': ('sklearn', '__version__'),
    'Protobuf': ('google.protobuf', '__version__'),
    'ml_dtypes': ('ml_dtypes', '__version__'),
    'tf-keras': ('tensorflow.keras', '__version__')
}

for name, version in versions.items():
    print("   - {name}: {version}")

for name, (module, attr) in packages_to_check.items():
    try:
        mod = __import__(module, fromlist=[attr])
        version = getattr(mod, attr) if hasattr(mod, attr) else getattr(mod, '__version__', 'OK')
        print("   - {name}: {version} ‚úÖ")
    except Exception:
        print("   - {name}: No disponible ‚ö†Ô∏è")

# Verificaci√≥n de compatibilidad
tf_ok = tf.__version__.startswith('2.19')
numpy_ok = np.__version__.startswith('2.0') or np.__version__.startswith('2.1')

print("\nüîç Compatibilidad: TF 2.19.x {'‚úÖ' if tf_ok else '‚ö†Ô∏è'}, NumPy 2.x {'‚úÖ' if numpy_ok else '‚ö†Ô∏è'}")

if tf_ok and numpy_ok:
    print("\n‚úÖ Instalaci√≥n completada exitosamente")
else:
    print("\n‚ö†Ô∏è Verifica versiones instaladas")


In [None]:
# ============================================================
# BLOQUE 4: INSTALACI√ìN DE COMPLEMENTOS
# ============================================================
# üîß Instala complementos: Albumentations, OpenCV, herramientas ML

import warnings
import subprocess
warnings.filterwarnings('ignore')

print("üì¶ INSTALANDO COMPLEMENTOS...\n")

# Instalar complementos
complements = [
    ("albumentations>=2.0.8", "Albumentations"),
    ("gdown", "gdown"),
    ("plotly", "Plotly"),
    ("seaborn", "Seaborn"),
    ("pillow>=11.0.0", "Pillow")
]

for package, name in complements:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', package],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        print("‚úÖ {name} instalado")
    else:
        print("‚ö†Ô∏è Error instalando {name}")

# Verificar/instalar OpenCV
try:
    import cv2
    print("‚úÖ OpenCV {cv2.__version__} disponible")
except ImportError:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', 'opencv-python-headless'],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        import cv2
        print("‚úÖ OpenCV {cv2.__version__} instalado")
    else:
        print("‚ö†Ô∏è Error instalando OpenCV")

# Verificar e importar
import numpy as np
import tensorflow as tf

try:
    import cv2
    import albumentations as A
    import sklearn
    print("\n‚úÖ Complementos verificados: OpenCV {cv2.__version__}, Albumentations {A.__version__}")
except Exception as e:
    print("\n‚ö†Ô∏è Algunos complementos no disponibles: {str(e)[:50]}")

# Configurar GPU
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        tf.config.experimental.set_memory_growth(gpus[0], True)
        print("\n‚úÖ GPU configurada: {len(gpus)} dispositivo(s)")
        for i, gpu in enumerate(gpus):
            print("   - GPU {i}: {gpu.name}")
    except RuntimeError as e:
        print("\n‚ö†Ô∏è Error configurando GPU: {str(e)[:50]}")
else:
    print("\n‚ö†Ô∏è GPU no detectada - Activa en: Entorno > Cambiar tipo > GPU")

print("\n‚úÖ Instalaci√≥n de complementos completada")


In [None]:
# ============================================================
# BLOQUE 5: CONFIGURACI√ìN DEL PROYECTO Y ESTRUCTURA DE CARPETAS
# ============================================================
# ‚öôÔ∏è Crea estructura de carpetas y configura variables globales

from pathlib import Path

# Verificar y montar Google Drive si es necesario
print("üîó Verificando Google Drive...")
try:
    from google.colab import drive
    drive_path = Path('/content/drive')
    if not drive_path.exists() or not any(drive_path.iterdir()):
        print("üì• Montando Google Drive...")
        drive.mount('/content/drive')
        print("‚úÖ Google Drive montado")
    else:
        print("‚úÖ Google Drive ya est√° montado")
except ImportError:
    print("‚ö†Ô∏è No se detect√≥ Google Colab - continuando sin Drive")
except Exception as e:
    print("‚ö†Ô∏è Error al montar Drive: {e}")
    print("üí° Aseg√∫rate de autorizar el acceso a Google Drive")

# Verificar proyecto
BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
if not BASE_DIR.exists():
    raise RuntimeError(f"Proyecto no encontrado en {BASE_DIR}. Ejecuta el bloque anterior primero.")

print("‚úÖ Proyecto: {BASE_DIR}")

# Crear estructura de carpetas
DATA_DIR = BASE_DIR / 'data'
RAW_DIR = DATA_DIR / 'raw'
PROCESSED_DIR = DATA_DIR / 'processed'
AUGMENTED_DIR = DATA_DIR / 'augmented'
MODELS_DIR = BASE_DIR / 'models'
MLRUNS_DIR = BASE_DIR / 'mlruns'

for dir_path in [DATA_DIR, RAW_DIR, PROCESSED_DIR, AUGMENTED_DIR, MODELS_DIR, MLRUNS_DIR]:
    dir_path.mkdir(parents=True, exist_ok=True)

# Configurar MLflow
try:
    import mlflow
    mlflow.set_tracking_uri(f"file://{MLRUNS_DIR}")
    mlflow.set_experiment("bovine-weight-estimation")
    mlflow_available = True
except ImportError:
    print("‚ö†Ô∏è MLflow no disponible - ejecuta bloque de instalaci√≥n")
    mlflow_available = False

# Configuraci√≥n de entrenamiento
CONFIG = {
    'image_size': (224, 224),
    'batch_size': 32,
    'epochs': 200,  # Aumentado para dataset m√°s grande (con CID completo)
    'learning_rate': 0.0005,  # Reducido para evitar sobreentrenamiento
    'validation_split': 0.2,
    'test_split': 0.1,
    'early_stopping_patience': 15,  # Aumentado para permitir m√°s entrenamiento con m√°s datos
    'target_r2': 0.95,
    'max_mae': 5.0,
    'max_inference_time': 3.0
}

# Nota: Las razas se definen en BREED_SEARCH_TERMS del BLOQUE 6
# 7 razas tropicales: Nelore, Brahman, Guzerat, Senepol, Girolando, Gyr lechero, Sindi

print("‚úÖ Configuraci√≥n completada")
print("üìÅ Carpetas creadas: data/, models/, mlruns/")
print("üéØ Razas: 7 razas tropicales (definidas en BLOQUE 6)")
if mlflow_available:
    print("üìä MLflow: {MLRUNS_DIR} ‚úÖ")


## üì• D√≠a 2-3: Descargar y Organizar Datasets Cr√≠ticos


In [None]:
# ============================================================
# BLOQUE 6: SCRAPING SIMPLE
# ============================================================
# üéØ Descarga im√°genes para todas las razas definidas
# üìã Razas: Nelore, Brahman, Guzerat, Senepol, Girolando, Gyr lechero, Sindi
# üßÆ Genera metadata_estimada.csv (weight_in_kg, breed, life_stage) alineada con CID

import subprocess
import shutil
import random
import pandas as pd
from pathlib import Path

print("=" * 60)
print("üì• BLOQUE 6: DESCARGAR IM√ÅGENES")
print("=" * 60)
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

print("üìÅ RAW_DIR: {RAW_DIR}")

random.seed(42)
SCRAPED_DIR = RAW_DIR / 'scraped'
SCRAPED_DIR.mkdir(parents=True, exist_ok=True)
SCRAPED_METADATA_FILE = SCRAPED_DIR / 'metadata_estimada.csv'
CID_REFERENCE_COLUMNS = ['sku', 'sex', 'color', 'breed', 'feed', 'age_in_year', 'teeth', 'height_in_inch', 'weight_in_kg', 'price', 'size', 'images_count', 'yt_images_count', 'total_images']
print("üìã Columnas de referencia CID: {CID_REFERENCE_COLUMNS}")

# Configuraci√≥n
BREED = 'nelore'
IMAGES_LIMIT = 200  # Objetivo: 180-200 im√°genes por raza

# T√©rminos de b√∫squeda por raza
BREED_SEARCH_TERMS = {
    'nelore': [
        'nelore cattle',
        'nelore bull',
        'nelore cow',
        'nelore tropical beef',
        'nelore pasture cattle',
        'nelore bolivia ranch'
    ],
    'brahman': [
        'brahman cattle',
        'brahman bull',
        'brahman cow',
        'brahman tropical ranch',
        'brahman beef cattle',
        'brahman zebu'
    ],
    'guzerat': [
        'guzerat cattle',
        'guzer√° bovino',
        'guzerat bull',
        'guzerat cow',
        'guzerat double purpose',
        'guzera brasil'
    ],
    'senepol': [
        'senepol cattle',
        'senepol bull',
        'senepol cow',
        'senepol tropical beef',
        'senepol herd',
        'senepol caribbean cattle'
    ],
    'girolando': [
        'girolando cattle',
        'girolando cow',
        'girolando dairy',
        'girolando pasture',
        'girolando bolivia',
        'girolando brasil'
    ],
    'gyr_lechero': [
        'gyr lechero',
        'gir leiteiro',
        'gyr dairy cattle',
        'gir lechera',
        'gyr bull',
        'gir leiteiro brasil'
    ],
    'sindi': [
        'sindi cattle',
        'red sindhi cattle',
        'sindi cow',
        'sindi dairy',
        'sindi bolivia',
        'red sindhi tropical'
    ]
}

# Keywords de rechazo por raza
# Todas las razas comparten la restricci√≥n 'artistic'
ARTISTIC_KEYWORDS = ['drawing', 'sketch', 'painting', 'art', 'illustration', 'cartoon', 'logo', 'brand', 'graphic', 'vector']

REJECTION_KEYWORDS = {
    'nelore': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': []
    },
    'brahman': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['hindu', 'god', 'deity', 'temple', 'statue', 'sculpture', 'worship', 'puja', 'idol', 'brahma']
    },
    'guzerat': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['jewelry', 'ornament', 'toy']
    },
    'senepol': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['logo', 'brand', 'diagram', 'map']
    },
    'girolando': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['holstein show', 'expo holstein', 'logo holstein']
    },
    'gyr_lechero': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['manga', 'comic', 'statue']
    },
    'sindi': {
        'artistic': ARTISTIC_KEYWORDS,
        'other': ['cloth', 'jersey', 'shirt', 'team', 'sindhi people']
    }
}

BREED_LIFESTAGE_PRIORS = {
    'nelore': {'ternera': 0.18, 'novillo': 0.42, 'vaca': 0.25, 'toro': 0.15},
    'brahman': {'ternera': 0.15, 'novillo': 0.35, 'vaca': 0.30, 'toro': 0.20},
    'guzerat': {'ternera': 0.20, 'novillo': 0.30, 'vaca': 0.30, 'toro': 0.20},
    'senepol': {'ternera': 0.20, 'novillo': 0.45, 'vaca': 0.20, 'toro': 0.15},
    'girolando': {'ternera': 0.25, 'novilla_lechera': 0.35, 'vaca_lechera': 0.30, 'toro': 0.10},
    'gyr_lechero': {'ternera': 0.30, 'novilla_lechera': 0.35, 'vaca_lechera': 0.25, 'toro': 0.10},
    'sindi': {'ternera': 0.30, 'novilla_lechera': 0.40, 'vaca_lechera': 0.30}
}

LIFESTAGE_WEIGHT_RANGES = {
    'nelore': {
        'ternera': (90, 160),
        'novillo': (250, 380),
        'vaca': (380, 520),
        'toro': (480, 650)
    },
    'brahman': {
        'ternera': (95, 170),
        'novillo': (260, 400),
        'vaca': (390, 540),
        'toro': (500, 680)
    },
    'guzerat': {
        'ternera': (85, 150),
        'novillo': (240, 360),
        'vaca': (360, 520),
        'toro': (480, 650)
    },
    'senepol': {
        'ternera': (100, 170),
        'novillo': (280, 400),
        'vaca': (360, 480),
        'toro': (500, 620)
    },
    'girolando': {
        'ternera': (80, 140),
        'novilla_lechera': (240, 340),
        'vaca_lechera': (420, 580),
        'toro': (500, 640)
    },
    'gyr_lechero': {
        'ternera': (70, 130),
        'novilla_lechera': (220, 320),
        'vaca_lechera': (380, 520),
        'toro': (470, 620)
    },
    'sindi': {
        'ternera': (60, 100),
        'novilla_lechera': (150, 230),
        'vaca_lechera': (260, 380)
    }
}

LIFESTAGE_METADATA_HINTS = {
    'ternera': {'age_in_year': 0.8, 'sex': 'FEMALE_CALF'},
    'novilla_lechera': {'age_in_year': 1.8, 'sex': 'FEMALE_HEIFER'},
    'novillo': {'age_in_year': 2.0, 'sex': 'MALE_STEER'},
    'vaca': {'age_in_year': 4.5, 'sex': 'FEMALE_COW'},
    'vaca_lechera': {'age_in_year': 4.0, 'sex': 'FEMALE_COW'},
    'toro': {'age_in_year': 5.5, 'sex': 'MALE_BULL'}
}


def select_life_stage(breed: str) -> str:
    priors = BREED_LIFESTAGE_PRIORS.get(breed)
    if not priors:
        return 'novillo'
    roll = random.random()
    cumulative = 0.0
    for stage, prob in priors.items():
        cumulative += prob
        if roll <= cumulative:
            return stage
    return list(priors.keys())[-1]


def estimate_weight(breed: str, life_stage: str) -> float:
    breed_ranges = LIFESTAGE_WEIGHT_RANGES.get(breed, {})
    min_w, max_w = breed_ranges.get(life_stage, (250, 420))
    return round(random.uniform(min_w, max_w), 2)


def build_metadata_for_breed(breed: str, breed_dir: Path):
    image_paths = []
    for ext in ['*.jpg', '*.png', '*.jpeg']:
        image_paths.extend(sorted(breed_dir.glob(ext)))
    if not image_paths:
        return

    records = []
    for img_path in image_paths:
        if not img_path.exists() or not img_path.is_file():
            continue
        life_stage = select_life_stage(breed)
        weight = estimate_weight(breed, life_stage)
        rel_path = img_path.relative_to(RAW_DIR)
        hints = LIFESTAGE_METADATA_HINTS.get(life_stage, {'age_in_year': None, 'sex': 'UNKNOWN'})
        records.append({
            'image_filename': rel_path.as_posix(),
            'breed': breed,
            'life_stage': life_stage,
            'weight_kg': weight,
            'weight_in_kg': weight,
            'weight_source': 'estimado',
            'sex': hints.get('sex', 'UNKNOWN'),
            'age_in_year': hints.get('age_in_year')
        })

    df_breed = pd.DataFrame(records)
    if df_breed.empty:
        return

    if SCRAPED_METADATA_FILE.exists():
        df_existing = pd.read_csv(SCRAPED_METADATA_FILE)
        df_existing = df_existing[df_existing['breed'] != breed]
        df_combined = pd.concat([df_existing, df_breed], ignore_index=True)
    else:
        df_combined = df_breed

    df_combined.to_csv(SCRAPED_METADATA_FILE, index=False)
    print("üßÆ Metadata estimada actualizada para {breed} ({len(df_breed)} registros)")


def validate_image(img_path: Path, breed: str, rejection_keywords: dict = None) -> bool:
    """
    Valida que la imagen sea apropiada (versi√≥n simplificada y optimizada):
    - Rechaza dibujos, pinturas, logos, marcas (artistic keywords) - solo por nombre de archivo
    - Rechaza t√©rminos espec√≠ficos seg√∫n la raza (other keywords) - solo por nombre de archivo
    - Verificaci√≥n b√°sica de tama√±o y formato
    - Validaci√≥n de grupos simplificada (menos estricta)
    
    Args:
        img_path: Ruta de la imagen a validar
        breed: Raza del ganado
        rejection_keywords: Diccionario con 'artistic' y 'other' keywords
    """
    try:
        from PIL import Image
        
        # Obtener keywords de rechazo (usar los globales si no se proporcionan)
        if rejection_keywords is None:
            rejection_keywords = REJECTION_KEYWORDS.get(breed, {
                'artistic': [],
                'other': []
            })
        
        artistic_keywords = rejection_keywords.get('artistic', [])
        other_keywords = rejection_keywords.get('other', [])
        
        # Verificar nombre de archivo PRIMERO (m√°s r√°pido)
        filename_lower = img_path.name.lower()
        
        # Rechazar si tiene palabras art√≠sticas (dibujos, pinturas, logos)
        if any(keyword in filename_lower for keyword in artistic_keywords):
            return False
        
        # Rechazar si tiene palabras espec√≠ficas de la raza (other keywords)
        if any(keyword in filename_lower for keyword in other_keywords):
            return False
        
        # Verificar tama√±o m√≠nimo y formato b√°sico
        img = Image.open(img_path)
        width, height = img.size
        
        # Verificaci√≥n b√°sica de tama√±o
        if width < 150 or height < 150:  # M√°s permisivo (antes era 200)
            return False
        
        if width * height < 22500:  # M√°s permisivo (antes era 40000)
            return False
        
        # Validaci√≥n de grupos simplificada (menos estricta)
        aspect_ratio = width / height
        # Solo rechazar proporciones extremas (antes era >2.5 o <0.4)
        if aspect_ratio > 3.5:  # Muy ancha, probablemente paisaje o grupo muy grande
            return False
        if aspect_ratio < 0.3:  # Muy alta, probablemente grupo vertical muy grande
            return False
        
        # Si pasa todas las validaciones, aceptar
        return True
        
    except Exception as e:
        # Si hay error al procesar, rechazar por seguridad
        return False

def download_images(breed: str, search_terms: list, output_dir: Path, limit: int, rejection_keywords: dict = None):
    """
    Descarga im√°genes simples.
    
    Args:
        breed: Raza del ganado
        search_terms: Lista de t√©rminos de b√∫squeda
        output_dir: Directorio de salida
        limit: L√≠mite de im√°genes a descargar
        rejection_keywords: Keywords de rechazo para validaci√≥n
    """
    breed_dir = output_dir / breed
    breed_dir.mkdir(parents=True, exist_ok=True)
    
    print("üìÇ Creando carpeta: {breed_dir}")
    
    # Obtener keywords de rechazo si no se proporcionan
    if rejection_keywords is None:
        rejection_keywords = REJECTION_KEYWORDS.get(breed, {
            'artistic': [],
            'other': []
        })
    
    # Calcular rango objetivo (90-100% del l√≠mite)
    min_target = int(limit * 0.9)  # 90% del l√≠mite (180 para 200)
    max_target = limit  # 100% del l√≠mite (200)
    
    # Contar im√°genes existentes
    existing_imgs = []
    for ext in ['*.jpg', '*.png', '*.jpeg']:
        for img in breed_dir.glob(ext):
            if img.exists() and img.is_file() and img.stat().st_size > 0:
                existing_imgs.append(img)
    
    downloaded = len(existing_imgs)
    if downloaded > 0:
        print("üìä Im√°genes existentes: {downloaded}")
    
    if downloaded >= min_target:
        if downloaded >= max_target:
            print("‚úÖ Ya existen {downloaded} im√°genes (objetivo alcanzado: {min_target}-{max_target})")
        else:
            print("‚úÖ Ya existen {downloaded} im√°genes (dentro del rango objetivo: {min_target}-{max_target})")
        return downloaded
    
    if downloaded > 0:
        print("üìä Im√°genes existentes: {downloaded}/{limit}")
        print("üì• Descargando hasta alcanzar rango objetivo: {min_target}-{max_target} im√°genes...")
    else:
        print("üì• Descargando hasta alcanzar rango objetivo: {min_target}-{max_target} im√°genes...")
    print()
    
    # Instalar dependencias si es necesario
    print("üîß Verificando dependencias...")
    try:
        from bing_image_downloader import downloader
        print("‚úÖ bing-image-downloader disponible")
    except ImportError:
        print("üì¶ Instalando bing-image-downloader...")
        subprocess.run(['pip', 'install', '-q', 'bing-image-downloader'], check=False)
        from bing_image_downloader import downloader
        print("‚úÖ bing-image-downloader instalado")
    
    try:
        from PIL import Image
        print("‚úÖ PIL/Pillow disponible")
    except ImportError:
        print("üì¶ Instalando Pillow...")
        subprocess.run(['pip', 'install', '-q', 'Pillow'], check=False)
        print("‚úÖ Pillow instalado")
    
    print()
    print("üîç Validaci√≥n activa (optimizada):")
    print("   - Rechazando t√©rminos no deseados seg√∫n keywords espec√≠ficos de la raza")
    print("   - Rechazando dibujos, pinturas, logos, marcas (por nombre de archivo)")
    print()
    
    import sys
    from io import StringIO
    
    # Suprimir mensajes
    original_stderr = sys.stderr
    original_stdout = sys.stdout
    
    # Bucle principal: continuar hasta alcanzar el rango objetivo
    iteration = 0
    max_iterations = 5  # M√°ximo de iteraciones (reducido porque descargamos m√°s por t√©rmino)
    
    while downloaded < min_target and iteration < max_iterations:
        iteration += 1
        term_num = 0
        
        for search_term in search_terms:
            # Si ya alcanzamos el objetivo, salir
            if downloaded >= min_target:
                break
            
            # Si alcanzamos el m√°ximo, salir
            if downloaded >= max_target:
                break
            
            term_num += 1
            remaining = min_target - downloaded
            # Aumentar batch_size significativamente para ser m√°s eficiente
            # Descargar m√°s im√°genes de una vez para reducir iteraciones
            batch_size = min(remaining + 20, 30)  # Para los √∫ltimos, descargar menos
            
            print("üîç Iteraci√≥n {iteration}, T√©rmino {term_num}/{len(search_terms)}: '{search_term}'")
            print("   Descargando hasta {batch_size} im√°genes... (objetivo: {downloaded}/{min_target})", end=' ', flush=True)
            
            try:
                # Obtener lista de carpetas existentes ANTES de descargar
                existing_dirs_before = set()
                known_breeds = set(BREED_SEARCH_TERMS.keys())
                for item in output_dir.iterdir():
                    if item.is_dir() and item.name not in known_breeds:
                        existing_dirs_before.add(item.name)
                
                sys.stderr = StringIO()
                sys.stdout = StringIO()
                
                downloader.download(
                    search_term,
                    limit=batch_size,
                    output_dir=str(output_dir),
                    adult_filter_off=True,
                    force_replace=False,
                    timeout=10,
                    verbose=False
                )
                
                sys.stderr = original_stderr
                sys.stdout = original_stdout
                
                # Buscar y mover im√°genes descargadas SOLO en carpetas nuevas (creadas por esta descarga)
                new_images = []
                for item in output_dir.iterdir():
                    if item.is_dir() and item.name not in known_breeds:
                        # Solo procesar si es una carpeta nueva (no exist√≠a antes de esta descarga)
                        if item.name not in existing_dirs_before:
                            for ext in ['*.jpg', '*.png', '*.jpeg']:
                                for img in item.rglob(ext):
                                    if img.exists() and img.is_file():
                                        new_images.append(img)
                
                moved_count = 0
                rejected_count = 0
                
                # Mover im√°genes a carpeta de raza (con validaci√≥n)
                for img_path in new_images:
                    # Si ya alcanzamos el m√°ximo, salir
                    if downloaded >= max_target:
                        break
                    
                    # Validar imagen antes de mover
                    if not validate_image(img_path, breed, rejection_keywords):
                        rejected_count += 1
                        try:
                            img_path.unlink()  # Eliminar imagen rechazada
                        except:
                            pass
                        continue
                    
                    # Proceder a guardar
                    next_num = downloaded + 1
                    new_name = breed_dir / f"{breed}_{next_num:03d}{img_path.suffix}"
                    
                    if new_name.exists():
                        continue
                    
                    try:
                        shutil.move(str(img_path), str(new_name))
                        if new_name.exists() and new_name.is_file() and new_name.stat().st_size > 0:
                            downloaded += 1
                            moved_count += 1
                    except:
                        pass

                print("‚úÖ {moved_count} im√°genes guardadas ({downloaded}/{min_target} objetivo)", end='')
                if rejected_count > 0:
                    print(" | ‚ö†Ô∏è {rejected_count} rechazadas (no deseadas/grupos)")
                else:
                    print()

                # Limpiar carpetas temporales (solo las que NO son carpetas de razas conocidas)
                # IMPORTANTE: Solo eliminar carpetas vac√≠as o que ya no contengan im√°genes
                # Usar known_breeds ya definido arriba
                for item in output_dir.iterdir():
                    if item.is_dir():
                        # Solo eliminar si NO es una carpeta de raza conocida
                        if item.name not in known_breeds:
                            try:
                                # Verificar que la carpeta est√© vac√≠a o solo contenga archivos no deseados
                                has_images = False
                                for ext in ['*.jpg', '*.png', '*.jpeg']:
                                    if list(item.rglob(ext)):
                                        has_images = True
                                        break
                                
                                # Solo eliminar si no tiene im√°genes (ya fueron movidas o rechazadas)
                                if not has_images:
                                    shutil.rmtree(item)
                            except Exception as e:
                                # Si hay error, no eliminar (mejor prevenir que curar)
                                pass
                            
            except Exception as e:
                sys.stderr = original_stderr
                sys.stdout = original_stdout
                print("‚ö†Ô∏è Error: {str(e)[:50]}")
                continue
    
    # Contar im√°genes finales
    print()
    print("üìä Contando im√°genes finales...")
    final_imgs = []
    for ext in ['*.jpg', '*.png', '*.jpeg']:
        for img in breed_dir.glob(ext):
            if img.exists() and img.is_file() and img.stat().st_size > 0:
                final_imgs.append(img)
    
    final_count = len(final_imgs)
    
    # Verificar si se alcanz√≥ el rango objetivo
    if final_count >= min_target:
        if final_count >= max_target:
            print("‚úÖ Total de im√°genes v√°lidas: {final_count} (objetivo alcanzado: {min_target}-{max_target})")
        else:
            print("‚úÖ Total de im√°genes v√°lidas: {final_count} (dentro del rango objetivo: {min_target}-{max_target})")
    else:
        print("‚ö†Ô∏è Total de im√°genes v√°lidas: {final_count} (por debajo del objetivo m√≠nimo: {min_target})")
    
    return final_count

def download_breed(breed: str, images_limit: int, output_dir: Path):
    """
    Descarga im√°genes para una raza espec√≠fica.
    
    Args:
        breed: Raza a descargar
        images_limit: L√≠mite de im√°genes
        output_dir: Directorio de salida
        
    Returns:
        Diccionario con informaci√≥n de la descarga
    """
    # Obtener t√©rminos de b√∫squeda y keywords de rechazo para la raza
    search_terms = BREED_SEARCH_TERMS.get(breed, [])
    rejection_keywords = REJECTION_KEYWORDS.get(breed, {
        'artistic': [],
        'other': []
    })
    
    if not search_terms:
        print("‚ùå No hay t√©rminos de b√∫squeda definidos para la raza: {breed}")
        return {'breed': breed, 'count': 0, 'size_mb': 0, 'success': False}
    
    # Mostrar configuraci√≥n por raza
    print("\n{'='*60}")
    print("üéØ Configuraci√≥n - {breed.upper()}")
    print("{'='*60}")
    print("   - Raza: {breed.upper()}")
    print("   - L√≠mite: {images_limit} im√°genes")
    print("   - T√©rminos de b√∫squeda: {len(search_terms)}")
    print()
    
    # Descargar im√°genes
    count = download_images(breed, search_terms, output_dir, images_limit, rejection_keywords)
    
    print()
    print("üîç Verificando im√°genes descargadas...")
    
    # Verificar resultado final
    breed_dir = output_dir / breed
    final_imgs = []
    total_size = 0
    
    if breed_dir.exists():
        for ext in ['*.jpg', '*.png', '*.jpeg']:
            for img in breed_dir.glob(ext):
                if img.exists() and img.is_file():
                    try:
                        file_size = img.stat().st_size
                        if file_size > 0:
                            final_imgs.append(img)
                            total_size += file_size
                    except:
                        pass
    
    final_count = len(final_imgs)
    size_mb = total_size / (1024 * 1024)
    
    # Calcular rango objetivo
    min_target = int(images_limit * 0.9)
    max_target = images_limit
    
    # Resumen por raza
    print()
    print("=" * 60)
    print("üìä RESUMEN - {breed.upper()}")
    print("=" * 60)
    print("üì∏ Im√°genes descargadas: {final_count}/{images_limit}")
    print("üéØ Rango objetivo: {min_target}-{max_target} im√°genes")
    print("üíæ Tama√±o total: {size_mb:.2f} MB")
    print("üìÅ Ubicaci√≥n: {breed_dir}")
    print("=" * 60)
    
    if final_count >= max_target:
        print("‚úÖ Descarga completada exitosamente (100% del objetivo)")
        success = True
    elif final_count >= min_target:
        print("‚úÖ Descarga completada dentro del rango objetivo ({final_count}/{images_limit} = {final_count/images_limit*100:.1f}%)")
        success = True
    elif final_count > 0:
        print("‚ö†Ô∏è Descarga parcial: {final_count}/{images_limit} im√°genes ({final_count/images_limit*100:.1f}% - por debajo del objetivo m√≠nimo)")
        success = False
    else:
        print("‚ùå No se descargaron im√°genes")
        success = False

    # Generar/actualizar metadata estimada alineada con peso (weight_in_kg) y breed como en CID
    build_metadata_for_breed(breed, breed_dir)
    
    return {
        'breed': breed,
        'count': final_count,
        'size_mb': size_mb,
        'success': success,
        'target': images_limit,
        'min_target': min_target
    }

def main(breed: str = None, images_limit: int = None):
    """
    Funci√≥n principal de descarga.
    Si no se especifica una raza, descarga todas las razas definidas.
    
    Args:
        breed: Raza a descargar (None = todas las razas)
        images_limit: L√≠mite de im√°genes (usa IMAGES_LIMIT global si no se proporciona)
    """
    if images_limit is None:
        images_limit = IMAGES_LIMIT
    
    output_dir = SCRAPED_DIR
    output_dir.mkdir(parents=True, exist_ok=True)
    
    print("üìÅ Directorio de salida: {output_dir}")
    print()
    
    # Si se especifica una raza, descargar solo esa
    if breed is not None:
        result = download_breed(breed, images_limit, output_dir)
        return result['count']
    
    # Si no se especifica raza, descargar todas las razas
    all_breeds = list(BREED_SEARCH_TERMS.keys())
    print("üöÄ Iniciando descarga para {len(all_breeds)} razas...")
    print("üìã Razas: {', '.join([b.upper() for b in all_breeds])}")
    print()
    
    results = []
    for breed_name in all_breeds:
        result = download_breed(breed_name, images_limit, output_dir)
        results.append(result)
    
    # Resumen general
    print()
    print("=" * 60)
    print("üìä RESUMEN GENERAL - BLOQUE 6")
    print("=" * 60)
    
    total_images = sum(r['count'] for r in results)
    total_size = sum(r['size_mb'] for r in results)
    successful = sum(1 for r in results if r['success'])
    
    print("‚úÖ Razas procesadas: {len(results)}")
    print("‚úÖ Razas exitosas: {successful}/{len(results)}")
    print("üì∏ Total de im√°genes: {total_images}")
    print("üíæ Tama√±o total: {total_size:.2f} MB")
    print()
    print("üìä Detalle por raza:")
    for r in results:
        status = "‚úÖ" if r['success'] else "‚ö†Ô∏è"
        print("   {status} {r['breed'].upper()}: {r['count']}/{r['target']} im√°genes ({r['size_mb']:.2f} MB)")
    print("=" * 60)
    print()
    
    return total_images

if __name__ == '__main__':
    main()


In [None]:
# ============================================================
# BLOQUE 7: DESCARGAR CID DATASET (COMPLEMENTARIO)
# ============================================================
# üì• Descarga el CID Dataset desde S3 para combinar con nuestro dataset
# üí° CID: Cow Images Dataset para estimaci√≥n de peso y clasificaci√≥n de raza
# üìä Fuente: https://github.com/bhuiyanmobasshir94/CID
# ‚úÖ RECOMENDADO: Usar CID + nuestras im√°genes = mejor modelo
# üéØ Estrategia: CID aporta diversidad y calidad, nuestras im√°genes aportan
#    especificidad local (razas bolivianas, etapas de crianza, contexto real)
# üí° Beneficios: M√°s datos = mejor generalizaci√≥n, transfer learning, validaci√≥n cruzada

import os
import subprocess
import shutil
from pathlib import Path

print("=" * 60)
print("üì• DESCARGANDO CID DATASET (COMPLEMENTARIO)")
print("=" * 60)
print()
print("üí° ESTRATEGIA DE DATASETS:")
print("   - CID Dataset: Diversidad y calidad (17,899+ im√°genes)")
print("   - Nuestras im√°genes: Especificidad local (razas bolivianas, etapas)")
print("   - Combinaci√≥n: Mejor generalizaci√≥n y precisi√≥n")
print()

# ‚öôÔ∏è CONFIGURACI√ìN: ¬øDescargar im√°genes de YouTube?
# üíæ yt_images.tar.gz pesa ~3GB y contiene im√°genes adicionales
# ‚úÖ RECOMENDADO: Descargar si tienes espacio (completa el dataset)
# ‚ö†Ô∏è Las carpetas vac√≠as en 'images' pueden tener su contenido en 'yt_images'
DOWNLOAD_YT_IMAGES = True  # Cambiar a False si no quieres descargar yt_images (~3GB)

# ‚öôÔ∏è CONFIGURACI√ìN: ¬øLimpiar carpetas vac√≠as despu√©s de descargar?
# üóëÔ∏è Algunas carpetas en CID pueden estar vac√≠as (su contenido est√° en yt_images)
# ‚úÖ RECOMENDADO: Limpiar para mantener el dataset organizado
CLEAN_EMPTY_DIRS = True  # Cambiar a False si quieres mantener todas las carpetas

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

CID_DIR = RAW_DIR / 'cid'
CID_DIR.mkdir(parents=True, exist_ok=True)

# URLs del CID Dataset (desde S3)
CID_URLS = {
    'images': 'https://cid-21.s3.amazonaws.com/images.tar.gz',
    'yt_images': 'https://cid-21.s3.amazonaws.com/yt_images.tar.gz',
    'metadata': 'https://cid-21.s3.amazonaws.com/dataset.csv'
}

# Verificar si ya est√° descargado
images_dir = CID_DIR / 'images'
yt_images_dir = CID_DIR / 'yt_images'
metadata_file = CID_DIR / 'dataset.csv'

if images_dir.exists() and any(images_dir.iterdir()) and metadata_file.exists():
    print("‚úÖ CID Dataset ya descargado en: {CID_DIR}")
    cid_content = CID_DIR
    CID_METADATA_FILE = str(metadata_file)

    # Contar im√°genes
    img_count = len(list(images_dir.rglob('*.jpg'))) + len(list(images_dir.rglob('*.png')))
    if yt_images_dir.exists() and any(yt_images_dir.iterdir()):
        yt_count = len(list(yt_images_dir.rglob('*.jpg'))) + len(list(yt_images_dir.rglob('*.png')))
        img_count += yt_count
        print("üìä Total im√°genes: {img_count:,} (principales + YouTube)")
    else:
        print("üìä Total im√°genes: {img_count:,} (solo principales)")
        if not DOWNLOAD_YT_IMAGES:
            print("üí° yt_images no descargado (DOWNLOAD_YT_IMAGES = False)")
        else:
            print("üí° Considera descargar yt_images para completar el dataset")
    
    # La verificaci√≥n y limpieza se har√° al final, despu√©s de definir cid_content
else:
    print("üì• Descargando CID Dataset desde S3...")
    if DOWNLOAD_YT_IMAGES:
        print("üíæ Tama√±o estimado: ~8GB (im√°genes principales + YouTube)")
        print("‚è±Ô∏è Puede tardar 15-30 minutos dependiendo de la conexi√≥n")
    else:
        print("üíæ Tama√±o estimado: ~5GB (solo im√°genes principales)")
        print("‚è±Ô∏è Puede tardar 10-20 minutos dependiendo de la conexi√≥n")
        print("üí° yt_images (~3GB) omitido (DOWNLOAD_YT_IMAGES = False)")
    print()

    # Descargar metadata CSV
    print("üì• Descargando metadata CSV...")
    try:
        subprocess.run(['wget', '-q', '--show-progress', CID_URLS['metadata'], '-O', str(metadata_file)], check=True)
        print("‚úÖ Metadata descargado: {metadata_file}")
        CID_METADATA_FILE = str(metadata_file)
    except Exception as e:
        print("‚ö†Ô∏è Error descargando metadata: {e}")
        CID_METADATA_FILE = None

    # Descargar im√°genes principales
    # Proceso: 1) Descargar .tar.gz ‚Üí 2) Extraer ‚Üí 3) Eliminar .tar.gz (ahorra espacio)
    images_tar = CID_DIR / 'images.tar.gz'
    if not images_dir.exists() or not any(images_dir.iterdir()):
        print("\nüì• Descargando im√°genes principales...")
        try:
            subprocess.run(['wget', '-q', '--show-progress', CID_URLS['images'], '-O', str(images_tar)], check=True)
            print("üì¶ Extrayendo im√°genes...")
            subprocess.run(['tar', '-xzf', str(images_tar), '-C', str(CID_DIR)], check=True)
            images_tar.unlink()  # Eliminar archivo comprimido despu√©s de extraer (ahorra espacio)
            print("‚úÖ Im√°genes principales extra√≠das en: {images_dir}")
            print("   (archivo .tar.gz eliminado para ahorrar espacio)")
        except Exception as e:
            print("‚ö†Ô∏è Error descargando im√°genes principales: {e}")

    # Descargar im√°genes de YouTube (opcional - ~3GB)
    if DOWNLOAD_YT_IMAGES:
        yt_tar = CID_DIR / 'yt_images.tar.gz'
        if not yt_images_dir.exists() or not any(yt_images_dir.iterdir()):
            print("\nüì• Descargando im√°genes de YouTube (opcional - ~3GB)...")
            print("‚è±Ô∏è Esto puede tardar varios minutos...")
            try:
                subprocess.run(['wget', '-q', '--show-progress', CID_URLS['yt_images'], '-O', str(yt_tar)], check=True)
                print("üì¶ Extrayendo im√°genes de YouTube...")
                subprocess.run(['tar', '-xzf', str(yt_tar), '-C', str(CID_DIR)], check=True)
                # Eliminar archivo comprimido despu√©s de extraer (ahorra ~3GB de espacio)
                if yt_tar.exists():
                    yt_tar.unlink()
                    print("   (archivo .tar.gz eliminado para ahorrar ~3GB de espacio)")
                print("‚úÖ Im√°genes de YouTube extra√≠das en: {yt_images_dir}")
            except Exception as e:
                print("‚ö†Ô∏è Error descargando im√°genes de YouTube: {e}")
        else:
            print("‚úÖ Im√°genes de YouTube ya existen en: {yt_images_dir}")
            # Si ya existen pero el .tar.gz sigue ah√≠, eliminarlo para ahorrar espacio
            yt_tar = CID_DIR / "yt_images.tar.gz"
            if yt_tar.exists():
                yt_tar.unlink()
                print("   (archivo .tar.gz residual eliminado para ahorrar ~3GB de espacio)")
    else:
        print("\n‚è≠Ô∏è Omitiendo descarga de im√°genes de YouTube (DOWNLOAD_YT_IMAGES = False)")
        print("üí° Para descargarlas, cambia DOWNLOAD_YT_IMAGES a True (pesa ~3GB)")

    cid_content = CID_DIR
    if CID_METADATA_FILE is None:
        CID_METADATA_FILE = str(metadata_file) if metadata_file.exists() else None

# Verificar y limpiar carpetas vac√≠as (opcional)
def check_and_clean_empty_dirs(base_dir: Path, clean: bool = False):
    """
    Verifica carpetas vac√≠as en el dataset CID.
    Algunas carpetas pueden estar vac√≠as porque su contenido est√° en yt_images.
    
    Args:
        base_dir: Directorio base del CID
        clean: Si True, elimina carpetas vac√≠as. Si False, solo reporta.
    """
    empty_dirs = []
    total_dirs = 0
    
    # Verificar en images/
    if (base_dir / 'images').exists():
        for item in (base_dir / 'images').iterdir():
            if item.is_dir():
                total_dirs += 1
                # Verificar si est√° vac√≠o (sin archivos de imagen)
                has_images = any(item.rglob('*.jpg')) or any(item.rglob('*.png')) or any(item.rglob('*.jpeg'))
                if not has_images:
                    empty_dirs.append(item)
    
    # Verificar tambi√©n en yt_images/
    if (base_dir / "yt_images").exists():
        for item in (base_dir / "yt_images").iterdir():
            if item.is_dir():
                total_dirs += 1
                # Verificar si est√° vac√≠o (sin archivos de imagen)
                has_images = any(item.rglob("*.jpg")) or any(item.rglob("*.png")) or any(item.rglob("*.jpeg"))
                if not has_images:
                    empty_dirs.append(item)
                    empty_dirs.append(item)
    
    if empty_dirs:
        print("\nüîç Verificaci√≥n de carpetas:")
        print("   üìÅ Total de carpetas: {total_dirs}")
        print("   ‚ö†Ô∏è Carpetas vac√≠as encontradas: {len(empty_dirs)}")
        print("   üí° Nota: El contenido puede estar en 'yt_images' si est√° descargado")
        
        if clean:
            print("\nüóëÔ∏è Limpiando carpetas vac√≠as...")
            for empty_dir in empty_dirs:
                try:
                    empty_dir.rmdir()
                    print("   ‚úÖ Eliminada: {empty_dir.name}")
                except Exception as e:
                    print("   ‚ö†Ô∏è No se pudo eliminar {empty_dir.name}: {e}")
            print("‚úÖ Limpieza completada")
        else:
            print("   üí° Para limpiarlas autom√°ticamente, cambia CLEAN_EMPTY_DIRS a True")
    else:
        print("\n‚úÖ No se encontraron carpetas vac√≠as")

# Verificar y limpiar carpetas vac√≠as si est√° configurado
# Asegurar que cid_content est√© definido
if "cid_content" not in locals():
    cid_content = CID_DIR

if cid_content.exists():
    check_and_clean_empty_dirs(cid_content, clean=CLEAN_EMPTY_DIRS)

# Calcular espacio usado
def get_dir_size(path: Path) -> int:
    """Calcula el tama√±o total de un directorio en bytes."""
    total = 0
    try:
        for entry in path.rglob('*'):
            if entry.is_file():
                total += entry.stat().st_size
    except Exception:
        pass
    return total

if cid_content.exists():
    total_size = get_dir_size(cid_content)
    size_gb = total_size / (1024 ** 3)
    print("\nüíæ Espacio usado por CID Dataset: {size_gb:.2f} GB")
    if size_gb < 2.0:
        print("   üí° Tienes espacio disponible. Considera descargar yt_images si no lo has hecho.")

# Configurar variables de entorno
if cid_content.exists():
    os.environ['CID_DATASET_PATH'] = str(cid_content)
    if CID_METADATA_FILE:
        os.environ['CID_METADATA_FILE'] = CID_METADATA_FILE

    print("\nüìã Variables de entorno configuradas:")
    print("   CID_DATASET_PATH = {cid_content}")
    if CID_METADATA_FILE:
        print("   CID_METADATA_FILE = {CID_METADATA_FILE}")

    print("\nüí° Pr√≥ximos pasos:")
    print("   - BLOQUE 6: Descargar nuestras propias im√°genes (complementar con CID)")
    print("   - BLOQUE 8: Preparar dataset combinado (CID + nuestras im√°genes)")
    print("   - BLOQUE 9: Resumen de datasets disponibles")
    print("\nüìä ESTRATEGIA DE ENTRENAMIENTO:")
    print("   - Usar CID para pre-entrenamiento o como datos adicionales")
    print("   - Nuestras im√°genes para fine-tuning y validaci√≥n espec√≠fica")
    print("   - Combinar ambos para mejor generalizaci√≥n del modelo")

print("\n{'=' * 60}")
print("‚úÖ BLOQUE 7 COMPLETADO")
print("{'=' * 60}")


In [None]:
# ============================================================
# BLOQUE 8: PREPARAR DATASET COMBINADO (ESTRATEGIA B)
# ============================================================
# üîó Combina CID Dataset + Nuestras im√°genes para entrenamiento
# üéØ Estrategia B: Combinaci√≥n desde el inicio para mejor modelo
# üí° CID aporta diversidad (~17,899 im√°genes) + Nuestras im√°genes aportan especificidad local
# üìä Resultado: Dataset combinado listo para pipeline de entrenamiento

import os
import pandas as pd
from pathlib import Path
import json

print("=" * 60)
print("üîó PREPARANDO DATASET COMBINADO (ESTRATEGIA B)")
print("=" * 60)
print()
print("üí° ESTRATEGIA DE COMBINACI√ìN:")
print("   - CID Dataset: Diversidad y calidad (~17,899 im√°genes)")
print("   - Nuestras im√°genes: Especificidad local (razas bolivianas, etapas)")
print("   - Combinaci√≥n: Mejor generalizaci√≥n y precisi√≥n")
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

# Funci√≥n para normalizar un dataset individual
def normalize_dataset(df, dataset_name, base_dir):
    """Normaliza un dataset para que tenga: 'image_filename', 'weight_kg', 'breed'"""
    if df is None or len(df) == 0:
        return None
    
    print("\nüîç Analizando {dataset_name}...")
    print("   Columnas disponibles: {list(df.columns)}")
    
    df_normalized = df.copy()
    
    # 1. Buscar columna de imagen
    image_col = None
    for col in ['image_filename', 'image_path', 'file_path', 'path', 'filename', 'image', 'file']:
        if col in df_normalized.columns:
            image_col = col
            break
    
    if not image_col and dataset_name == 'CID Dataset':
        # Para CID, crear desde estructura de carpetas
        print("   ‚ö†Ô∏è Creando rutas desde estructura de carpetas...")
        cid_images_dir = base_dir / 'cid' / 'images'
        cid_yt_dir = base_dir / 'cid' / 'yt_images'
        
        # Buscar columna de raza
        breed_col = None
        for col in ['breed', 'Breed', 'breed_type', 'class', 'label']:
            if col in df_normalized.columns:
                breed_col = col
                break
        
        if breed_col:
            image_paths = []
            for idx, row in df_normalized.iterrows():
                breed_name = str(row[breed_col]).lower().strip()
                found = False
                for img_dir in [cid_images_dir, cid_yt_dir]:
                    if img_dir.exists() and breed_name:
                        breed_dir = img_dir / breed_name
                        if breed_dir.exists():
                            for ext in ['*.jpg', '*.png', '*.jpeg']:
                                imgs = list(breed_dir.glob(ext))
                                if imgs:
                                    image_paths.append(str(imgs[0].relative_to(base_dir)))
                                    found = True
                                    break
                        if found:
                            break
                if not found:
                    image_paths.append(None)
            df_normalized['image_filename'] = image_paths
            print("   ‚úÖ Im√°genes creadas desde estructura")
        else:
            raise ValueError(f"CID: falta columna de raza. Columnas: {list(df.columns)}")
    elif image_col:
        df_normalized['image_filename'] = df_normalized[image_col]
        print("   ‚úÖ Imagen: {image_col}")
    else:
        raise ValueError(f"No se encontr√≥ columna de imagen. Columnas: {list(df.columns)}")
    
    # 2. Buscar columna de peso
    weight_col = None
    for col in ['weight_kg', 'weight_in_kg', 'weight', 'Weight', 'peso', 'Peso', 'Weight_kg']:
        if col in df_normalized.columns:
            weight_col = col
            break
    
    if weight_col:
        df_normalized['weight_kg'] = pd.to_numeric(df_normalized[weight_col], errors='coerce')
        print("   ‚úÖ Peso: {weight_col} ‚Üí weight_kg")
    else:
        print("   ‚ö†Ô∏è No se encontr√≥ peso")
        return None
    
    # 3. Buscar columna de raza
    breed_col = None
    for col in ['breed', 'Breed', 'breed_type', 'class', 'label', 'raza']:
        if col in df_normalized.columns:
            breed_col = col
            break
    
    if breed_col:
        df_normalized['breed'] = df_normalized[breed_col].astype(str).str.lower().str.strip()
        print("   ‚úÖ Raza: {breed_col}")
    else:
        print("   ‚ö†Ô∏è No se encontr√≥ raza")
        return None
    
    # Filtrar valores faltantes
    initial = len(df_normalized)
    df_normalized = df_normalized.dropna(subset=['image_filename', 'weight_kg', 'breed'])
    if initial != len(df_normalized):
        print("   ‚ö†Ô∏è Eliminadas {initial - len(df_normalized)} filas con valores faltantes")
    
    print("   ‚úÖ Normalizado: {len(df_normalized):,} registros v√°lidos")
    return df_normalized[['image_filename', 'weight_kg', 'breed']]


def prepare_cid_dataset() -> tuple[Path | None, int]:
    """Prepara CID Dataset."""
    cid_dir = RAW_DIR / 'cid'
    
    if not cid_dir.exists():
        return None, 0
    
    # Contar im√°genes en CID
    cid_images_dir = cid_dir / 'images'
    cid_yt_dir = cid_dir / 'yt_images'
    
    cid_count = 0
    if cid_images_dir.exists():
        cid_count += len(list(cid_images_dir.rglob('*.jpg'))) + len(list(cid_images_dir.rglob('*.png')))
    if cid_yt_dir.exists():
        cid_count += len(list(cid_yt_dir.rglob('*.jpg'))) + len(list(cid_yt_dir.rglob('*.png')))
    
    if cid_count == 0:
        return None, 0
    
    return cid_dir, cid_count


def prepare_local_dataset() -> tuple[Path | None, int]:
    """Prepara dataset desde im√°genes locales."""
    local_dir = RAW_DIR / 'local_images'

    if not local_dir.exists():
        return None, 0

    img_files = (
        list(local_dir.rglob('*.jpg')) +
        list(local_dir.rglob('*.png')) +
        list(local_dir.rglob('*.jpeg'))
    )

    if not img_files:
        return None, 0

    return local_dir, len(img_files)


def prepare_scraped_dataset() -> tuple[Path | None, int]:
    """Prepara dataset desde im√°genes scrapeadas."""
    scraped_dir = RAW_DIR / 'scraped'
    
    if not scraped_dir.exists():
        return None, 0
    
    img_files = (
        list(scraped_dir.rglob('*.jpg')) +
        list(scraped_dir.rglob('*.png')) +
        list(scraped_dir.rglob('*.jpeg'))
    )
    
    if not img_files:
        return None, 0
    
    return scraped_dir, len(img_files)


def create_combined_dataset():
    """Crea dataset combinado: CID + Nuestras im√°genes (Estrategia B)."""
    print("\n" + "=" * 60)
    print("üîç VERIFICANDO DATASETS DISPONIBLES")
    print("=" * 60)
    print()

    # 1. Verificar CID Dataset
    cid_path, cid_count = prepare_cid_dataset()
    
    # 2. Verificar nuestras im√°genes
    local_path, local_count = prepare_local_dataset()
    scraped_path, scraped_count = prepare_scraped_dataset()
    
    our_total = local_count + scraped_count
    
    # Resumen de datasets
    print("üìä RESUMEN DE DATASETS:")
    print("   - CID Dataset: {cid_count:,} im√°genes {'‚úÖ' if cid_path else '‚ùå'}")
    print("   - Im√°genes locales: {local_count:,} im√°genes {'‚úÖ' if local_path else '‚ùå'}")
    print("   - Im√°genes scrapeadas: {scraped_count:,} im√°genes {'‚úÖ' if scraped_path else '‚ùå'}")
    print("   - Total nuestras im√°genes: {our_total:,} im√°genes")
    
    total_images = cid_count + our_total
    print("\nüìä TOTAL COMBINADO: {total_images:,} im√°genes")
    
    # Estrategia seg√∫n disponibilidad
    if cid_path and our_total > 0:
        print("\n‚úÖ ESTRATEGIA B ACTIVADA: Combinaci√≥n desde el inicio")
        print("   - CID: {cid_count:,} im√°genes (diversidad)")
        print("   - Nuestras: {our_total:,} im√°genes (especificidad)")
        print("   - Total: {total_images:,} im√°genes para entrenamiento")
        
        # Crear estructura combinada
        combined_dir = RAW_DIR / 'combined'
        combined_dir.mkdir(parents=True, exist_ok=True)
        
        # Guardar metadata de combinaci√≥n
        metadata_info = {
            'cid_available': cid_path is not None,
            'cid_count': cid_count,
            'local_available': local_path is not None,
            'local_count': local_count,
            'scraped_available': scraped_path is not None,
            'scraped_count': scraped_count,
            'total_our_images': our_total,
            'total_combined': total_images,
            'strategy': 'B - Combination from start'
        }
        
        with open(combined_dir / 'dataset_info.json', 'w') as f:
            json.dump(metadata_info, f, indent=2)
        
        print("\n‚úÖ Estructura combinada creada en: {combined_dir}")
        return True
        
    elif cid_path and our_total == 0:
        print("\n‚ö†Ô∏è Solo CID disponible ({cid_count:,} im√°genes)")
        print("üí° Recomendaci√≥n: Descarga nuestras im√°genes para mejor modelo")
        return True
        
    elif not cid_path and our_total > 0:
        print("\n‚ö†Ô∏è Solo nuestras im√°genes disponibles ({our_total:,} im√°genes)")
        print("üí° Recomendaci√≥n: Descarga CID Dataset para mejor modelo")
        print("üí° Puedes entrenar solo con nuestras im√°genes, pero CID mejorar√≠a el modelo")
        return True
    
    # Si no hay datasets
    print("\n" + "=" * 60)
    print("‚ö†Ô∏è NO SE ENCONTRARON DATASETS")
    print("=" * 60)
    print()
    print("üí° PASOS RECOMENDADOS:")
    print("   1. Descarga CID Dataset (~17,899 im√°genes)")
    print("   2. Descarga nuestras im√°genes (200+ por raza)")
    print("   3. Vuelve a ejecutar este bloque para combinar ambos")
    print()
    
    print("\nüìã ESTRUCTURA M√çNIMA PARA ENTRENAMIENTO:")
    print("   - M√≠nimo viable: 100 im√°genes por raza (700 total)")
    print("   - Recomendado: 150 im√°genes por raza (1050 total)")
    print("   - Ideal: 200+ im√°genes por raza (1400+ total)")
    print("   - Con CID: {1400 + 17899:,} im√°genes totales (MEJOR MODELO)")

    return False


# Ejecutar
try:
    success = create_combined_dataset()

    if success:
        print("\n‚úÖ BLOQUE 6 COMPLETADO - Dataset combinado preparado")
        print("üí° Estrategia B: CID + Nuestras im√°genes listas para entrenamiento")
    else:
        print("\n‚ö†Ô∏è BLOQUE 6 COMPLETADO - Estructura demo creada")
        print("üí° Descarga CID Dataset y nuestras im√°genes primero")

except Exception as e:
    print("\n‚ùå Error: {e}")
    import traceback
    traceback.print_exc()

print("\n{'=' * 60}")



In [None]:
# ============================================================
# BLOQUE 9: RESUMEN DE DATASETS
# ============================================================
# üìä Muestra resumen de datasets disponibles (CID + nuestras im√°genes)

import pandas as pd
from pathlib import Path

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

if 'DATA_DIR' not in globals():
    DATA_DIR = RAW_DIR.parent / 'processed'
    DATA_DIR.mkdir(parents=True, exist_ok=True)


def summarize_datasets():
    """Resumen de datasets disponibles."""
    print("=" * 60)
    print("üìä RESUMEN DE DATASETS")
    print("=" * 60)
    print()

    datasets_info = []

    # CID Dataset
    cid_dir = RAW_DIR / 'cid'
    cid_count = 0
    if cid_dir.exists():
        cid_images_dir = cid_dir / 'images'
        cid_yt_dir = cid_dir / 'yt_images'
        if cid_images_dir.exists():
            cid_count += len(list(cid_images_dir.rglob('*.jpg')) + list(cid_images_dir.rglob('*.png')))
        if cid_yt_dir.exists():
            cid_count += len(list(cid_yt_dir.rglob('*.jpg')) + list(cid_yt_dir.rglob('*.png')))
    
    datasets_info.append({
        'name': 'CID Dataset',
        'images': cid_count,
        'description': 'Diversidad y calidad',
        'status': '‚úÖ Disponible' if cid_count > 0 else '‚ùå No disponible'
    })

    # Nuestras im√°genes (scraped)
    scraped_dir = RAW_DIR / 'scraped'
    scraped_count = 0
    if scraped_dir.exists():
        scraped_count = len(list(scraped_dir.rglob('*.jpg')) + list(scraped_dir.rglob('*.png')))
    
    datasets_info.append({
        'name': 'Nuestras Im√°genes',
        'images': scraped_count,
        'description': 'Especificidad local (razas bolivianas)',
        'status': '‚úÖ Disponible' if scraped_count > 0 else '‚ùå No disponible'
    })

    # Im√°genes locales
    local_dir = RAW_DIR / 'local_images'
    local_count = 0
    if local_dir.exists():
        local_count = len(list(local_dir.rglob('*.jpg')) + list(local_dir.rglob('*.png')) + list(local_dir.rglob('*.jpeg')))
    
    if local_count > 0:
        datasets_info.append({
            'name': 'Im√°genes Locales',
            'images': local_count,
            'description': 'Fotos manuales o descargadas',
            'status': '‚úÖ Disponible'
        })

    # Mostrar resumen
    df_datasets = pd.DataFrame(datasets_info)
    print(df_datasets.to_string(index=False))
    
    total_images = int(df_datasets['images'].sum())
    print("\nüéØ TOTAL: {total_images:,} im√°genes")
    
    # Guardar resumen
    summary_path = DATA_DIR / 'datasets_summary.csv'
    df_datasets.to_csv(summary_path, index=False)
    print("üíæ Resumen guardado: {summary_path}")
    
    return df_datasets


# Ejecutar
try:
    datasets_summary = summarize_datasets()
    print("\n‚úÖ BLOQUE 9 COMPLETADO")
except Exception as e:
    print("\n‚ùå Error: {e}")
    import traceback
    traceback.print_exc()

print("\n{'=' * 60}")


## üìä D√≠a 4: An√°lisis Exploratorio de Datos (EDA)


In [None]:
# ============================================================
# BLOQUE 10: VERIFICACI√ìN R√ÅPIDA DE DATOS (OPCIONAL)
# ============================================================
# ‚úÖ Verificaci√≥n m√≠nima: columnas requeridas para entrenamiento
# ‚ö†Ô∏è OPCIONAL: Puedes saltar este bloque para entrenar m√°s r√°pido
# üí° Solo verifica que los datos tienen peso y raza (sin gr√°ficos)

import pandas as pd
from pathlib import Path

print("=" * 60)
print("‚úÖ VERIFICACI√ìN R√ÅPIDA DE DATOS (OPCIONAL)")
print("=" * 60)
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')


def quick_verification():
    """Verificaci√≥n m√≠nima: solo comprobar que existen datos con columnas necesarias."""
    # 1. Intentar CID Dataset
    cid_dir = RAW_DIR / 'cid'
    if cid_dir.exists():
        metadata_files = list(cid_dir.rglob('*.csv'))
        if metadata_files:
            try:
                df = pd.read_csv(metadata_files[0])
                print("‚úÖ CID Dataset: {len(df):,} registros")
                print("üìã Columnas: {list(df.columns)}")
                
                # Verificar columnas necesarias
                has_weight = any('weight' in col.lower() or 'peso' in col.lower() for col in df.columns)
                has_breed = any('breed' in col.lower() or 'raza' in col.lower() for col in df.columns)
                
                if has_weight and has_breed:
                    print("‚úÖ Datos listos para entrenamiento")
                else:
                    print("‚ö†Ô∏è Faltan columnas: peso o raza")
                return True
            except:
                pass
    
    # 2. Intentar metadata scraped
    scraped_metadata = RAW_DIR / 'scraped' / 'metadata.csv'
    if scraped_metadata.exists():
        try:
            df = pd.read_csv(scraped_metadata)
            print("‚úÖ Dataset Scraped: {len(df):,} registros")
            print("üìã Columnas: {list(df.columns)}")
            
            has_weight = 'weight_kg' in df.columns
            has_breed = 'breed' in df.columns
            
            if has_weight and has_breed:
                print("‚úÖ Datos listos para entrenamiento")
            else:
                print("‚ö†Ô∏è Faltan columnas: weight_kg o breed")
            return True
        except:
            pass
    
    print("‚ö†Ô∏è No se encontr√≥ metadata")
    print("üí° El pipeline puede funcionar solo con im√°genes en carpetas")
    return False


# Ejecutar
try:
    verified = quick_verification()
    if verified:
        print("\n‚úÖ BLOQUE 10 COMPLETADO - Datos verificados")
    else:
        print("\n‚úÖ BLOQUE 10 COMPLETADO - Sin metadata (puedes continuar)")
except Exception as e:
    print("\n‚ö†Ô∏è Error en verificaci√≥n: {e}")
    print("üí° Puedes continuar con el entrenamiento")

print("\n{'=' * 60}")


## üîß D√≠a 5-6: Preparar Pipeline de Datos


In [None]:
# ============================================================
# BLOQUE 11: PIPELINE DE DATOS OPTIMIZADO (ESTRATEGIA B)
# ============================================================
# üîß Crea pipeline de datos usando m√≥dulos del proyecto
# üéØ ESTRATEGIA B: Combina CID Dataset + Nuestras im√°genes desde el inicio
# üí° Usa: CattleDataGenerator (data.data_loader) y get_aggressive_augmentation (data.augmentation)
# ‚ö†Ô∏è Requiere: BLOQUE 8 ejecutado (dataset combinado preparado)

import pandas as pd
import numpy as np
from pathlib import Path


# ‚öôÔ∏è CONFIGURAR PYTHONPATH ANTES DE IMPORTAR M√ìDULOS

# ‚öôÔ∏è CONFIGURAR PYTHONPATH ANTES DE IMPORTAR M√ìDULOS DEL PROYECTO
import sys

# Verificar que BASE_DIR est√° definido
if 'BASE_DIR' not in globals():
    # Intentar definir BASE_DIR desde diferentes ubicaciones
    BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
    if not BASE_DIR.exists():
        BASE_DIR = Path('/content/bovine-weight-estimation')

# Configurar PYTHONPATH para importar m√≥dulos del proyecto
ML_TRAINING_DIR = BASE_DIR / 'ml-training'
src_dir = ML_TRAINING_DIR / 'src'

if src_dir.exists():
    if str(src_dir) not in sys.path:
        sys.path.insert(0, str(src_dir))
        print("‚úÖ PYTHONPATH configurado: {src_dir}")
    else:
        print("‚úÖ PYTHONPATH ya configurado: {src_dir}")
else:
    print("‚ö†Ô∏è Directorio src no encontrado: {src_dir}")
    print("üí° Aseg√∫rate de haber ejecutado el BLOQUE 1 para clonar el repositorio")
    raise FileNotFoundError(f"Directorio src no encontrado: {src_dir}")

import sys
from pathlib import Path

# Verificar que BASE_DIR est√° definido
if 'BASE_DIR' not in globals():
    # Intentar definir BASE_DIR desde diferentes ubicaciones
    BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
    if not BASE_DIR.exists():
        BASE_DIR = Path('/content/bovine-weight-estimation')

# Configurar PYTHONPATH para importar m√≥dulos del proyecto
ML_TRAINING_DIR = BASE_DIR / 'ml-training'
src_dir = ML_TRAINING_DIR / 'src'

if src_dir.exists():
    if str(src_dir) not in sys.path:
        sys.path.insert(0, str(src_dir))
        print("‚úÖ PYTHONPATH configurado: {src_dir}")
    else:
        print("‚úÖ PYTHONPATH ya configurado: {src_dir}")
else:
    print("‚ö†Ô∏è Directorio src no encontrado: {src_dir}")
    print("üí° Aseg√∫rate de haber ejecutado el BLOQUE 1 para clonar el repositorio")
    raise FileNotFoundError(f"Directorio src no encontrado: {src_dir}")

# Verificar que los m√≥dulos est√°n importados
try:
    from data.data_loader import CattleDataGenerator
    from data.augmentation import get_aggressive_augmentation, get_validation_transform
    print("‚úÖ M√≥dulos del proyecto importados correctamente")
except ImportError as e:
    print("‚ùå Error importando m√≥dulos del proyecto: {e}")
    print("üí° Aseg√∫rate de que el proyecto est√© clonado correctamente")
    raise

print("=" * 60)
print("üîß PIPELINE DE DATOS OPTIMIZADO (ESTRATEGIA B)")
print("=" * 60)
print()
print("üí° ESTRATEGIA B: Combinando CID Dataset + Nuestras im√°genes")
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

# Funci√≥n para normalizar un dataset individual
def normalize_dataset(df, dataset_name, base_dir):
    """Normaliza un dataset para que tenga: 'image_filename', 'weight_kg', 'breed'"""
    if df is None or len(df) == 0:
        return None
    
    print("\nüîç Analizando {dataset_name}...")
    print("   Columnas disponibles: {list(df.columns)}")
    
    df_normalized = df.copy()
    
    # 1. Buscar columna de imagen
    image_col = None
    for col in ['image_filename', 'image_path', 'file_path', 'path', 'filename', 'image', 'file']:
        if col in df_normalized.columns:
            image_col = col
            break
    
    if not image_col and dataset_name == 'CID Dataset':
        # Para CID, mapear usando SKU (c√≥digo BLF) desde estructura de carpetas
        print("   ‚ö†Ô∏è Creando rutas desde estructura de carpetas CID (BLF)...")
        cid_images_dir = base_dir / 'cid' / 'images'
        cid_yt_dir = base_dir / 'cid' / 'yt_images'
        
        # Buscar columna SKU (c√≥digo BLF como "BLF2001", "BLF2002", etc.)
        sku_col = None
        for col in ['sku', 'SKU', 'id', 'ID', 'code', 'Code']:
            if col in df_normalized.columns:
                sku_col = col
                break
        
        if not sku_col:
            print("   ‚ö†Ô∏è No se encontr√≥ columna SKU. Intentando mapear por √≠ndice...")
            # Si no hay SKU, usar el √≠ndice como referencia
            sku_col = None
        
        image_paths = []
        images_found = 0
        images_not_found = 0
        
        for idx, row in df_normalized.iterrows():
            found = False
            image_path = None
            
            # Intentar mapear usando SKU (c√≥digo BLF)
            if sku_col:
                sku_value = str(row[sku_col]).strip()
                # Limpiar SKU: puede ser "BLF2001" o "BLF 2001" o solo "2001"
                if 'BLF' in sku_value.upper():
                    blf_code = sku_value.upper().replace('BLF', '').strip()
                    if blf_code:
                        folder_name = f"BLF{blf_code}"
                    else:
                        folder_name = sku_value.upper()
                elif sku_value.isdigit():
                    folder_name = f"BLF{sku_value}"
                else:
                    folder_name = sku_value
            
            # Si no hay SKU, intentar usar el √≠ndice (para mapeo secuencial)
            else:
                # Intentar mapear por posici√≥n (asumiendo orden secuencial)
                folder_name = f"BLF{2000 + idx + 1}"  # BLF2001, BLF2002, etc.
            
            # Buscar im√°genes en ambas carpetas (images y yt_images)
            for img_dir in [cid_images_dir, cid_yt_dir]:
                if not img_dir.exists():
                    continue
                
                folder_path = img_dir / folder_name
                if not folder_path.exists():
                    # Intentar variaciones del nombre
                    for variant in [folder_name, folder_name.replace('BLF', 'BLF '), folder_name.replace(' ', '')]:
                        variant_path = img_dir / variant
                        if variant_path.exists():
                            folder_path = variant_path
                            break
                
                if folder_path.exists() and folder_path.is_dir():
                    # Buscar im√°genes v√°lidas (excluir las que empiezan con _)
                    for ext in ['*.jpg', '*.png', '*.jpeg']:
                        all_imgs = list(folder_path.glob(ext))
                        # Filtrar im√°genes que empiezan con _ (duplicadas/corruptas)
                        valid_imgs = [img for img in all_imgs if not img.name.startswith('_')]
                        
                        if valid_imgs:
                            # Usar la primera imagen v√°lida encontrada
                            image_path = valid_imgs[0].relative_to(base_dir)
                            found = True
                            images_found += 1
                            break
                
                if found:
                    break
            
            if found:
                image_paths.append(str(image_path))
            else:
                image_paths.append(None)
                images_not_found += 1
        
        df_normalized['image_filename'] = image_paths
        
        print("   ‚úÖ Im√°genes mapeadas: {images_found} encontradas, {images_not_found} no encontradas")
        print("   üí° Usando estructura BLF (carpetas: BLF2001, BLF2002, etc.)")
        print("   üí° Filtrando im√°genes duplicadas (que empiezan con _)")
        
        if images_not_found > len(df_normalized) * 0.5:
            print("   ‚ö†Ô∏è ADVERTENCIA: M√°s del 50% de im√°genes no encontradas")
            print("   üí° Verifica que las carpetas BLF coincidan con los SKU del metadata")
    elif image_col:
        df_normalized['image_filename'] = df_normalized[image_col]
        print("   ‚úÖ Imagen: {image_col}")
    else:
        raise ValueError(f"No se encontr√≥ columna de imagen. Columnas: {list(df.columns)}")
    
    # 2. Buscar columna de peso
    weight_col = None
    for col in ['weight_kg', 'weight_in_kg', 'weight', 'Weight', 'peso', 'Peso', 'Weight_kg']:
        if col in df_normalized.columns:
            weight_col = col
            break
    
    if weight_col:
        df_normalized['weight_kg'] = pd.to_numeric(df_normalized[weight_col], errors='coerce')
        print("   ‚úÖ Peso: {weight_col}")
    else:
        print("   ‚ö†Ô∏è No se encontr√≥ peso")
        return None
    
    # 3. Buscar columna de raza
    breed_col = None
    for col in ['breed', 'Breed', 'breed_type', 'class', 'label', 'raza']:
        if col in df_normalized.columns:
            breed_col = col
            break
    
    if breed_col:
        df_normalized['breed'] = df_normalized[breed_col].astype(str).str.lower().str.strip()
        print("   ‚úÖ Raza: {breed_col}")
    else:
        print("   ‚ö†Ô∏è No se encontr√≥ raza")
        return None
    
    # Filtrar valores faltantes
    initial = len(df_normalized)
    df_normalized = df_normalized.dropna(subset=['image_filename', 'weight_kg', 'breed'])
    if initial != len(df_normalized):
        print("   ‚ö†Ô∏è Eliminadas {initial - len(df_normalized)} filas con valores faltantes")
        # Si es CID y todas las filas fueron eliminadas, puede ser problema de estructura de carpetas
        if dataset_name == "CID Dataset" and len(df_normalized) == 0:
            print("   ‚ö†Ô∏è ADVERTENCIA: No se encontraron im√°genes para CID. Verifica estructura de carpetas.")
            print("   üí° CID puede necesitar procesamiento manual o las im√°genes est√°n en otra ubicaci√≥n.")
    
    print("   ‚úÖ Normalizado: {len(df_normalized):,} registros v√°lidos")
    return df_normalized[['image_filename', 'weight_kg', 'breed']]

# ESTRATEGIA B: Combinar CID + Nuestras im√°genes
df_cid = None
df_scraped = None
df_local = None

# Funci√≥n para generar metadata desde carpetas BLF (cuando CSV tiene pocos registros)
def generate_cid_metadata_from_folders(base_dir, cid_csv_path=None):
    """
    Genera metadata para TODAS las im√°genes de CID desde estructura de carpetas.
    Usa el CSV como referencia para peso/raza cuando est√° disponible.
    """
    cid_images_dir = base_dir / 'cid' / 'images'
    cid_yt_dir = base_dir / 'cid' / 'yt_images'
    
    # Cargar CSV como referencia (si existe)
    cid_reference = {}
    if cid_csv_path and cid_csv_path.exists():
        try:
            df_ref = pd.read_csv(cid_csv_path)
            if 'sku' in df_ref.columns:
                for _, row in df_ref.iterrows():
                    sku = str(row['sku']).strip()
                    # Normalizar SKU a formato BLF
                    if 'BLF' in sku.upper():
                        blf_code = sku.upper().replace('BLF', '').strip()
                        folder_name = f"BLF{blf_code}" if blf_code else sku.upper()
                    elif sku.isdigit():
                        folder_name = f"BLF{sku}"
                    else:
                        folder_name = sku
                    
                    cid_reference[folder_name] = {
                        'weight_kg': row.get('weight_in_kg', None),
                        'breed': str(row.get('breed', 'unknown')).lower().strip() if pd.notna(row.get('breed')) else 'unknown'
                    }
            print("   üìã Referencia CSV cargada: {len(cid_reference)} carpetas con metadata")
        except Exception as e:
            print("   ‚ö†Ô∏è Error cargando CSV de referencia: {e}")
    
    # Escanear todas las carpetas BLF
    all_records = []
    folders_scanned = 0
    images_found_total = 0
    
    for img_dir in [cid_images_dir, cid_yt_dir]:
        if not img_dir.exists():
            continue
        
        # Buscar todas las carpetas BLF
        for folder_path in img_dir.iterdir():
            if not folder_path.is_dir():
                continue
            
            folder_name = folder_path.name
            # Verificar que es una carpeta BLF
            if not (folder_name.upper().startswith('BLF') or folder_name.replace(' ', '').upper().startswith('BLF')):
                continue
            
            folders_scanned += 1
            # Normalizar nombre de carpeta
            normalized_folder = folder_name.replace(' ', '').upper()
            if not normalized_folder.startswith('BLF'):
                continue
            
            # Buscar im√°genes v√°lidas (excluir las que empiezan con _)
            valid_images = []
            for ext in ['*.jpg', '*.png', '*.jpeg']:
                all_imgs = list(folder_path.glob(ext))
                valid_imgs = [img for img in all_imgs if not img.name.startswith('_')]
                valid_images.extend(valid_imgs)
            
            if not valid_images:
                continue
            
            images_found_total += len(valid_images)
            
            # Obtener metadata de referencia (si existe)
            ref_data = cid_reference.get(normalized_folder, {})
            weight_kg = ref_data.get('weight_kg')
            breed = ref_data.get('breed', 'unknown')
            
            # Si no hay peso en referencia, usar promedio estimado (350 kg)
            if weight_kg is None or pd.isna(weight_kg):
                weight_kg = 350.0  # Promedio estimado para ganado
            
            # Si no hay raza en referencia, usar 'generic'
            if breed == 'unknown' or not breed:
                breed = 'generic'
            
            # Crear registro para cada imagen
            for img_path in valid_images:
                rel_path = img_path.relative_to(base_dir)
                all_records.append({
                    'image_filename': str(rel_path),
                    'weight_kg': weight_kg,
                    'breed': breed
                })
    
    print("   üìÅ Carpetas BLF escaneadas: {folders_scanned}")
    print("   üì∏ Im√°genes encontradas: {images_found_total:,}")
    print("   üìä Registros generados: {len(all_records):,}")
    
    if all_records:
        df_generated = pd.DataFrame(all_records)
        return df_generated
    else:
        return None

# 1. Cargar CID Dataset
cid_metadata = RAW_DIR / 'cid' / 'dataset.csv'
df_cid = None

if cid_metadata.exists():
    try:
        df_cid_raw = pd.read_csv(cid_metadata)
        print("‚úÖ CID Dataset CSV cargado: {len(df_cid_raw):,} registros")
        
        # Si el CSV tiene pocos registros (< 1000), generar metadata desde carpetas
        if len(df_cid_raw) < 1000:
            print("\nüí° CSV tiene pocos registros ({len(df_cid_raw)}). Generando metadata desde carpetas BLF...")
            df_cid_generated = generate_cid_metadata_from_folders(RAW_DIR, cid_metadata)
            
            if df_cid_generated is not None and len(df_cid_generated) > len(df_cid_raw):
                print("‚úÖ Metadata generada desde carpetas: {len(df_cid_generated):,} registros")
                print("üí° Usando metadata generada (m√°s completa que CSV)")
                df_cid = normalize_dataset(df_cid_generated, 'CID Dataset (Generado)', RAW_DIR)
            else:
                # Usar CSV normalizado
                df_cid = normalize_dataset(df_cid_raw, 'CID Dataset', RAW_DIR)
        else:
            # CSV tiene suficientes registros, usar directamente
            df_cid = normalize_dataset(df_cid_raw, 'CID Dataset', RAW_DIR)
            
    except Exception as e:
        print("‚ö†Ô∏è Error procesando CID: {e}")
        import traceback
        traceback.print_exc()
        # Intentar generar desde carpetas como fallback
        print("\nüí° Intentando generar metadata desde carpetas como fallback...")
        df_cid_generated = generate_cid_metadata_from_folders(RAW_DIR, cid_metadata)
        if df_cid_generated is not None:
            df_cid = normalize_dataset(df_cid_generated, 'CID Dataset (Fallback)', RAW_DIR)
        else:
            df_cid = None
else:
    # No hay CSV, generar desde carpetas
    print("‚ö†Ô∏è CID CSV no encontrado. Generando metadata desde carpetas BLF...")
    df_cid_generated = generate_cid_metadata_from_folders(RAW_DIR, None)
    if df_cid_generated is not None:
        df_cid = normalize_dataset(df_cid_generated, 'CID Dataset (Sin CSV)', RAW_DIR)
    else:
        df_cid = None

# 2. Cargar nuestras im√°genes scrapeadas
# Intentar primero metadata_estimada.csv (generado por BLOQUE 6)
scraped_metadata = RAW_DIR / 'scraped' / 'metadata_estimada.csv'
# Si no existe, intentar metadata.csv como alternativa
if not scraped_metadata.exists():
    scraped_metadata = RAW_DIR / 'scraped' / 'metadata.csv'
if scraped_metadata.exists():
    try:
        df_scraped_raw = pd.read_csv(scraped_metadata)
        print("‚úÖ Dataset Scrapeado cargado: {len(df_scraped_raw):,} registros")
        df_scraped = normalize_dataset(df_scraped_raw, 'Dataset Scrapeado', RAW_DIR)
    except Exception as e:
        print("‚ö†Ô∏è Error procesando scraped: {e}")
        df_scraped = None

# 3. Cargar im√°genes locales (si existen)
local_metadata = RAW_DIR / 'local_images' / 'metadata.csv'
if local_metadata.exists():
    try:
        df_local_raw = pd.read_csv(local_metadata)
        print("‚úÖ Im√°genes Locales cargadas: {len(df_local_raw):,} registros")
        df_local = normalize_dataset(df_local_raw, 'Im√°genes Locales', RAW_DIR)
    except Exception as e:
        print("‚ö†Ô∏è Error procesando local: {e}")
        df_local = None

# Combinar datasets (ESTRATEGIA B)
dfs_to_combine = []
if df_cid is not None and len(df_cid) > 0:
    dfs_to_combine.append(df_cid)
if df_scraped is not None and len(df_scraped) > 0:
    dfs_to_combine.append(df_scraped)
if df_local is not None and len(df_local) > 0:
    dfs_to_combine.append(df_local)

if not dfs_to_combine:
    print("\n‚ùå No se encontraron datasets disponibles")
    print("üí° Ejecuta BLOQUE 6 para descargar im√°genes y BLOQUE 7 para CID Dataset")
    raise ValueError("No hay datasets disponibles para crear el pipeline")

# Combinar todos los DataFrames
print("\nüîó Combinando {len(dfs_to_combine)} dataset(s)...")
df_pipeline = pd.concat(dfs_to_combine, ignore_index=True)
print("‚úÖ Dataset combinado: {len(df_pipeline):,} registros totales")

# Determinar directorio base (usar RAW_DIR como base com√∫n)
base_data_dir = RAW_DIR

# Los datasets ya est√°n normalizados antes de combinarlos
# Solo verificar que tienen las columnas requeridas
required_cols = ['image_filename', 'weight_kg', 'breed']
for df in dfs_to_combine:
    missing = [col for col in required_cols if col not in df.columns]
    if missing:
        raise ValueError(f"Dataset no normalizado correctamente. Faltan: {missing}")
print("‚úÖ Todos los datasets est√°n normalizados correctamente")

# Convertir image_filename a rutas relativas si es necesario
def normalize_image_path(path_str):
    """Normaliza rutas de im√°genes para que funcionen con m√∫ltiples fuentes."""
    if pd.isna(path_str):
        return None
    path = Path(str(path_str))
    # Si es absoluto, intentar hacer relativo
    if path.is_absolute():
        try:
            # Intentar relativo a RAW_DIR
            return path.relative_to(RAW_DIR)
        except ValueError:
            # Si no funciona, usar solo el nombre del archivo
            return Path(path.name)
    return path

df_pipeline['image_filename'] = df_pipeline['image_filename'].apply(normalize_image_path)

# Verificar columnas requeridas
required_cols = ['image_filename', 'weight_kg', 'breed']
missing_cols = [col for col in required_cols if col not in df_pipeline.columns]
if missing_cols:
    print("‚ùå Faltan columnas requeridas: {missing_cols}")
    print("üí° Columnas disponibles: {list(df_pipeline.columns)}")
    raise ValueError(f"Columnas requeridas faltantes: {missing_cols}")

print("\n‚úÖ Dataset cargado: {len(df_pipeline):,} registros")
print("üìä Columnas: {list(df_pipeline.columns)}")
print("üìÅ Directorio base de im√°genes: {base_data_dir}")

# Dividir datos en train/val/test
print("\nüìä Dividiendo datos en train/val/test...")
df_shuffled = df_pipeline.sample(frac=1, random_state=42).reset_index(drop=True)

n_total = len(df_shuffled)
n_train = int(n_total * (1 - CONFIG['validation_split'] - CONFIG['test_split']))
n_val = int(n_total * CONFIG['validation_split'])

df_train = df_shuffled[:n_train]
df_val = df_shuffled[n_train:n_train + n_val]
df_test = df_shuffled[n_train + n_val:]

print("üìà Train: {len(df_train):,} ({len(df_train)/n_total*100:.1f}%)")
print("üìà Val: {len(df_val):,} ({len(df_val)/n_total*100:.1f}%)")
print("üìà Test: {len(df_test):,} ({len(df_test)/n_total*100:.1f}%)")

# Crear generadores usando m√≥dulos del proyecto
print("\nüîß Creando generadores de datos usando CattleDataGenerator...")

# Augmentation para entrenamiento (agresivo para dataset peque√±o)
train_transform = get_aggressive_augmentation(image_size=CONFIG['image_size'])
val_transform = get_validation_transform(image_size=CONFIG['image_size'])

# Crear generadores
train_generator = CattleDataGenerator(
    annotations_df=df_train,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=train_transform,
    shuffle=True
)

val_generator = CattleDataGenerator(
    annotations_df=df_val,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=val_transform,
    shuffle=False
)

test_generator = CattleDataGenerator(
    annotations_df=df_test,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=val_transform,
    shuffle=False
)

print("\n‚úÖ BLOQUE 11 COMPLETADO (ESTRATEGIA B)")
print("üìä Generadores creados usando m√≥dulos del proyecto:")
print("   - Train: {len(df_train):,} im√°genes ({len(train_generator)} batches)")
print("   - Val: {len(df_val):,} im√°genes ({len(val_generator)} batches)")
print("   - Test: {len(df_test):,} im√°genes ({len(test_generator)} batches)")
print("\nüí° ESTRATEGIA B: Dataset combinado (CID + Nuestras im√°genes)")
print("üí° Contin√∫a con el BLOQUE 12 para crear la arquitectura del modelo")


In [None]:
# ============================================================
# BLOQUE 12: ARQUITECTURA DEL MODELO
# ============================================================
# üèóÔ∏è Crea modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 11 ejecutado (generadores creados) y BLOQUE 5 (CONFIG definido)
# üí° Usa: BreedWeightEstimatorCNN.build_generic_model() (models.cnn_architecture)

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import optimizers

print("=" * 60)
print("üèóÔ∏è ARQUITECTURA DEL MODELO (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que CONFIG est√° definido (BLOQUE 5)
if 'CONFIG' not in globals():
    raise ValueError("CONFIG no est√° definido. Ejecuta el BLOQUE 5 primero.")

# Verificar que los m√≥dulos est√°n importados
try:
    from models.cnn_architecture import BreedWeightEstimatorCNN
    print("‚úÖ M√≥dulo BreedWeightEstimatorCNN importado correctamente")
except ImportError as e:
    print("‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Aseg√∫rate de que el proyecto est√© clonado correctamente (BLOQUE 1)")
    raise

# Verificar que los generadores est√°n creados (BLOQUE 11)
if 'train_generator' not in globals():
    raise ValueError("Generadores no encontrados. Ejecuta el BLOQUE 11 primero.")

# Crear modelo gen√©rico usando m√≥dulo del proyecto
print("üèóÔ∏è Creando modelo gen√©rico usando BreedWeightEstimatorCNN...")
print("üìä Configuraci√≥n:")
print("   - Image size: {CONFIG['image_size']}")
print("   - Base architecture: EfficientNetB1")
print("   - Learning rate: {CONFIG['learning_rate']}")

# Usar build_generic_model del m√≥dulo del proyecto
try:
    model = BreedWeightEstimatorCNN.build_generic_model(
        input_shape=CONFIG['image_size'] + (3,),
        base_architecture='efficientnetb1'  # EfficientNetB1 para mejor precisi√≥n
    )
    print("‚úÖ Modelo base creado")
except Exception as e:
    print("‚ùå Error creando modelo: {e}")
    raise

# Compilar con learning rate personalizado
model.compile(
    optimizer=optimizers.Adam(learning_rate=CONFIG['learning_rate']),
    loss='mse',
    metrics=['mae', 'mse']
)

print("\n‚úÖ Modelo creado y compilado")
print("üìä Par√°metros: {model.count_params():,}")
print("üìä Arquitectura: {model.name}")
print("üí° Usando m√≥dulo del proyecto: models.cnn_architecture.BreedWeightEstimatorCNN")

# Verificar arquitectura
print("\nüîç Verificaci√≥n de arquitectura:")
print("   - Input shape: {model.input_shape}")
print("   - Output shape: {model.output_shape}")
print("   - Total layers: {len(model.layers)}")

# Mostrar resumen
print("\nüìê Resumen del modelo:")
model.summary()

# ============================================================
# üîÑ DECIDIR SI CARGAR MODELO ANTERIOR O EMPEZAR DESDE CERO
# ============================================================
# üí° Si el dataset cambi√≥ significativamente, es mejor empezar desde cero
# ‚ö†Ô∏è El modelo anterior fue entrenado con dataset peque√±o (1,882 im√°genes)
# ‚ö†Ô∏è Ahora tenemos dataset mucho m√°s grande (28,444 im√°genes)

from pathlib import Path

# Ruta del mejor modelo (checkpoint guardado durante entrenamiento)
BEST_MODEL_PATH = Path('/content/drive/MyDrive/bovine-weight-estimation/ml-training/checkpoints/best_model.h5')

# Verificar tama√±o del dataset actual
current_dataset_size = 0
if 'df_pipeline' in globals() and df_pipeline is not None:
    current_dataset_size = len(df_pipeline)
elif 'train_generator' in globals():
    current_dataset_size = len(train_generator) * CONFIG['batch_size']

# Dataset anterior ten√≠a ~1,882 im√°genes
PREVIOUS_DATASET_SIZE = 1882
DATASET_CHANGE_THRESHOLD = 2.0  # Si el dataset es 2x m√°s grande, empezar desde cero

should_load_checkpoint = False

if BEST_MODEL_PATH.exists():
    dataset_ratio = current_dataset_size / PREVIOUS_DATASET_SIZE if PREVIOUS_DATASET_SIZE > 0 else 0
    
    print("\nüîç Verificando si cargar modelo anterior...")
    print("   üìä Dataset anterior: ~{PREVIOUS_DATASET_SIZE:,} im√°genes")
    print("   üìä Dataset actual: ~{current_dataset_size:,} im√°genes")
    print("   üìà Ratio: {dataset_ratio:.2f}x")
    
    if dataset_ratio >= DATASET_CHANGE_THRESHOLD:
        print("\n‚ö†Ô∏è Dataset cambi√≥ significativamente ({dataset_ratio:.1f}x m√°s grande)")
        print("üí° RECOMENDACI√ìN: Empezar desde cero con el nuevo dataset")
        print("üí° El modelo anterior fue entrenado con dataset peque√±o y tuvo malos resultados")
        print("üí° Empezar desde cero permitir√° que el modelo aprenda mejor con m√°s datos")
        print("\n‚úÖ Continuando con modelo nuevo (sin cargar checkpoint)")
        should_load_checkpoint = False
    else:
        print("\nüí° Dataset similar al anterior ({dataset_ratio:.1f}x)")
        print("üí° Puedes cargar el checkpoint para continuar entrenamiento")
        should_load_checkpoint = True
        try:
            print("üîÑ Cargando mejor modelo entrenado...")
            print("üìÅ Ruta: {BEST_MODEL_PATH}")
            model.load_weights(str(BEST_MODEL_PATH))
            print("‚úÖ Modelo cargado exitosamente desde checkpoint")
            print("üí° El modelo est√° listo para evaluaci√≥n o continuar entrenamiento")
        except Exception as e:
            print("‚ö†Ô∏è Error cargando checkpoint: {e}")
            print("üí° Continuando con modelo nuevo (sin pesos pre-entrenados)")
            should_load_checkpoint = False
else:
    print("\nüí° No se encontr√≥ checkpoint previo en: {BEST_MODEL_PATH}")
    print("üí° Esto es normal si es la primera vez que entrenas")
    print("üí° Despu√©s del entrenamiento (BLOQUE 14), el checkpoint se guardar√° aqu√≠")
    should_load_checkpoint = False

# Nota final
if not should_load_checkpoint and current_dataset_size > PREVIOUS_DATASET_SIZE:
    print("\nüìù NOTA: El nuevo entrenamiento sobrescribir√° best_model.h5 con el modelo mejorado")
    print("üí° Esto es correcto: el nuevo modelo ser√° entrenado con {current_dataset_size:,} im√°genes")

print("\n‚úÖ BLOQUE 12 COMPLETADO")
print("üí° Contin√∫a con el BLOQUE 13 para configurar el entrenamiento")


In [None]:
# ============================================================
# BLOQUE 13: CONFIGURACI√ìN DE ENTRENAMIENTO
# ============================================================
# ‚öôÔ∏è Configura callbacks (EarlyStopping, ReduceLR, ModelCheckpoint, TensorBoard)
# ‚ö†Ô∏è Requiere: BLOQUE 12 ejecutado (modelo creado)
# üí° Configura MLflow para tracking de experimentos (Estrategia B)

import tensorflow as tf
from tensorflow.keras import callbacks

def setup_training_callbacks():
    """Configurar callbacks para entrenamiento"""
    print("‚öôÔ∏è Configurando callbacks de entrenamiento...")
    
    callbacks_list = [
        # Early stopping
        callbacks.EarlyStopping(
            monitor='val_loss',
            patience=CONFIG['early_stopping_patience'],
            restore_best_weights=True,
            verbose=1
        ),
        
        # Reduce learning rate on plateau
        callbacks.ReduceLROnPlateau(
            monitor='val_loss',
            factor=0.3,  # M√°s agresivo (era 0.5) - reduce LR m√°s r√°pido
            patience=3,  # M√°s r√°pido (era 5) - espera menos √©pocas
            min_lr=1e-6,
            verbose=1
        ),
        
        # Model checkpoint
        callbacks.ModelCheckpoint(
            filepath=str(MODELS_DIR / 'best_model.h5'),
            monitor='val_loss',
            save_best_only=True,
            verbose=1
        ),
        
        # TensorBoard
        callbacks.TensorBoard(
            log_dir=str(BASE_DIR / 'logs'),
            histogram_freq=1,
            write_graph=True,
            write_images=True
        )
    ]
    
    print("‚úÖ {len(callbacks_list)} callbacks configurados")
    return callbacks_list

# Verificar que CONFIG y MODELS_DIR est√°n definidos
if 'CONFIG' not in globals():
    raise ValueError("CONFIG no est√° definido. Ejecuta el BLOQUE 5 primero.")

if 'MODELS_DIR' not in globals():
    if 'BASE_DIR' in globals():
        MODELS_DIR = BASE_DIR / 'ml-training' / 'src' / 'models'
    else:
        MODELS_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/ml-training/src/models')
    MODELS_DIR.mkdir(parents=True, exist_ok=True)

# Verificar que el modelo est√° creado
if 'model' not in globals():
    raise ValueError("Modelo no encontrado. Ejecuta el BLOQUE 12 primero.")

# Configurar callbacks
training_callbacks = setup_training_callbacks()

# Configurar MLflow (si est√° disponible)
def start_mlflow_run():
    """Iniciar run de MLflow con Estrategia B"""
    # Detectar datasets usados (Estrategia B)
    datasets_used = []
    if 'df_pipeline' in globals() and df_pipeline is not None:
        # Contar registros por fuente si es posible
        total_records = len(df_pipeline)
        datasets_used.append(f"Combined-{total_records}")
    else:
        datasets_used.append("Unknown")
    
    dataset_str = "+".join(datasets_used)
    run = mlflow.start_run(run_name=f"cattle-weight-estrategia-b-{dataset_str.lower()}")

    mlflow.log_params({
        'strategy': 'B - Combined Dataset',
        'model': 'EfficientNetB1',
        'batch_size': CONFIG['batch_size'],
        'learning_rate': CONFIG['learning_rate'],
        'epochs': CONFIG['epochs'],
        'image_size': str(CONFIG['image_size']),
        'augmentation': 'Albumentations',
        'data_combination': 'CID + Scraped + Local'
    })

    print("üî¨ MLflow run iniciado: {run.info.run_id}")
    print("üìä Estrategia B: Dataset combinado registrado")
    return run

# Iniciar MLflow run (si est√° disponible)
try:
    import mlflow
    if 'mlflow_available' in globals() and mlflow_available:
        mlflow_run = start_mlflow_run()
    else:
        print("‚ö†Ô∏è MLflow no disponible - continuando sin tracking")
        mlflow_run = None
except ImportError:
    print("‚ö†Ô∏è MLflow no instalado - continuando sin tracking")
    mlflow_run = None

print("\n‚úÖ BLOQUE 13 COMPLETADO")
print("üí° Callbacks configurados: {len(training_callbacks)}")
print("üí° Contin√∫a con el BLOQUE 14 para iniciar el entrenamiento")


In [None]:
# ============================================================
# BLOQUE 14: ENTRENAMIENTO DEL MODELO
# ============================================================
# üöÄ Entrena el modelo base (puede tardar horas con GPU)
# ‚ö†Ô∏è Requiere: BLOQUE 13 ejecutado (callbacks configurados)
# ‚ö†Ô∏è Tiempo estimado: 2-4 horas con GPU T4 (100 √©pocas)
# üí° IMPORTANTE: Este bloque guarda checkpoints para reanudar entrenamiento

import os
from pathlib import Path
import tensorflow as tf

print("=" * 60)
print("üöÄ ENTRENAMIENTO DEL MODELO CON REANUDACI√ìN AUTOM√ÅTICA")
print("=" * 60)
print()

# ‚öôÔ∏è CONFIGURACI√ìN: Directorio de checkpoints
if 'BASE_DIR' in globals():
    CHECKPOINTS_DIR = BASE_DIR / 'ml-training' / 'checkpoints'
else:
    CHECKPOINTS_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/ml-training/checkpoints')
CHECKPOINTS_DIR.mkdir(parents=True, exist_ok=True)

CHECKPOINT_PATH = CHECKPOINTS_DIR / 'model_checkpoint.weights.h5'
BEST_MODEL_PATH = CHECKPOINTS_DIR / 'best_model.h5'

print("üìÅ Directorio de checkpoints: {CHECKPOINTS_DIR}")
print()

def train_model_with_resume():
    """Entrenar modelo con capacidad de reanudar desde checkpoint"""
    print("üöÄ Iniciando entrenamiento del modelo base...")
    print("üìä Configuraci√≥n: {CONFIG}")
    
    # Verificar que los generadores existen
    if 'train_generator' not in globals() or 'val_generator' not in globals():
        raise ValueError("Generadores no encontrados. Ejecuta el BLOQUE 11 primero.")
    
    # Verificar que el modelo existe
    if 'model' not in globals():
        raise ValueError("Modelo no encontrado. Ejecuta el BLOQUE 12 primero.")
    
    # Calcular steps por √©poca (usando generadores)
    steps_per_epoch = len(train_generator)
    validation_steps = len(val_generator)
    
    print("üìà Steps por √©poca: {steps_per_epoch}")
    print("üìà Validation steps: {validation_steps}")
    print("üí° Usando generadores del proyecto (CattleDataGenerator)")
    print()
    
    # üîÑ INTENTAR CARGAR CHECKPOINT PREVIO
    initial_epoch = 0
    if CHECKPOINT_PATH.exists():
        try:
            print("üîÑ Checkpoint encontrado. Intentando cargar...")
            # Cargar pesos del modelo
            model.load_weights(str(CHECKPOINT_PATH))
            print("‚úÖ Checkpoint cargado exitosamente")
            
            # Intentar determinar la √©poca desde el nombre del archivo o logs
            # Buscar archivos de checkpoint con n√∫mero de √©poca
            checkpoint_files = list(CHECKPOINTS_DIR.glob("model_checkpoint*.weights.h5*"))
            if checkpoint_files:
                # Si hay checkpoints numerados, usar el √∫ltimo
                print("üìÇ Encontrados {len(checkpoint_files)} archivos de checkpoint")
                print("üí° Continuando desde el √∫ltimo checkpoint guardado")
            
            # Preguntar al usuario desde qu√© √©poca continuar (o usar la √∫ltima)
            print("\nüí° NOTA: Si sabes en qu√© √©poca se interrumpi√≥, puedes ajustar initial_epoch manualmente")
            print("üí° Ejemplo: initial_epoch = 25  # Continuar desde √©poca 25")
            
        except Exception as e:
            print("‚ö†Ô∏è Error cargando checkpoint: {e}")
            print("üí° Iniciando entrenamiento desde el principio...")
            initial_epoch = 0
    else:
        print("üìù No se encontr√≥ checkpoint previo. Iniciando entrenamiento nuevo.")
    
    print()
    
    # ‚öôÔ∏è CONFIGURAR CALLBACKS CON CHECKPOINT MEJORADO
    from tensorflow.keras import callbacks
    
    # Obtener callbacks existentes si existen, o crear lista vac√≠a
    existing_callbacks = globals().get('training_callbacks', [])
    
    # Callback para guardar checkpoint cada √©poca
    checkpoint_callback = callbacks.ModelCheckpoint(
        filepath=str(CHECKPOINT_PATH),
        monitor='val_loss',
        save_best_only=False,  # Guardar TODAS las √©pocas (permite reanudar)
        save_weights_only=True,  # Solo guardar pesos (m√°s r√°pido)
        verbose=1,
        save_freq='epoch',  # Guardar cada √©poca (reemplaza period en TF 2.x+)
    )
    
    # Callback para guardar el mejor modelo
    best_model_callback = callbacks.ModelCheckpoint(
        filepath=str(BEST_MODEL_PATH),
        monitor='val_loss',
        save_best_only=True,  # Solo el mejor
        save_weights_only=False,  # Guardar modelo completo
        verbose=1
    )
    
    # Combinar callbacks
    all_callbacks = [checkpoint_callback, best_model_callback]
    
    # Agregar otros callbacks existentes (excluyendo ModelCheckpoint duplicados)
    for cb in existing_callbacks:
        if not isinstance(cb, callbacks.ModelCheckpoint):
            all_callbacks.append(cb)
    
    print("‚úÖ {len(all_callbacks)} callbacks configurados (incluye checkpoint por √©poca)")
    print()
    
    # üìã INSTRUCCIONES PARA MANTENER COLAB ACTIVO
    print("=" * 60)
    print("üí° INSTRUCCIONES PARA ENTRENAMIENTO LARGO:")
    print("=" * 60)
    print("1. üîå MANTENER COLAB ACTIVO:")
    print("   - Instala extensi√≥n 'Colab Keepalive' en Chrome/Firefox")
    print("   - O ejecuta este c√≥digo en otra celda para mantener activo:")
    print("     ```python")
    print("     import time")
    print("     while True:")
    print("         time.sleep(300)  # Cada 5 minutos")
    print("         print(f'‚è∞ {time.strftime(\"%H:%M:%S\")} - Sesi√≥n activa')")
    print("     ```")
    print("2. üîÑ REANUDAR DESPU√âS DE INTERRUPCI√ìN:")
    print("   - Si se interrumpe, simplemente vuelve a ejecutar este bloque")
    print("   - El c√≥digo detectar√° autom√°ticamente el checkpoint y continuar√°")
    print("   - Si necesitas continuar desde una √©poca espec√≠fica, ajusta initial_epoch arriba")
    print("3. üìä MONITOREAR PROGRESO:")
    print("   - Revisa los logs en TensorBoard: tensorboard --logdir=logs")
    print("   - Los checkpoints se guardan en:", str(CHECKPOINTS_DIR))
    print("=" * 60)
    print()
    
    # Entrenar modelo usando generadores
    print("üöÄ Iniciando entrenamiento desde √©poca {initial_epoch}...")
    print("üìä Total de √©pocas: {CONFIG['epochs']}")
    print()
    
    try:
        history = model.fit(
            train_generator,
            epochs=CONFIG['epochs'],
            initial_epoch=initial_epoch,  # Continuar desde aqu√≠
            validation_data=val_generator,
            callbacks=all_callbacks,
            verbose=1
        )
        
        print("\n‚úÖ Entrenamiento completado exitosamente")
        return history
        
    except KeyboardInterrupt:
        print("\n‚ö†Ô∏è Entrenamiento interrumpido por el usuario")
        print("üí° El √∫ltimo checkpoint se guard√≥. Puedes reanudar ejecutando este bloque de nuevo.")
        raise
    except Exception as e:
        print("\n‚ùå Error durante el entrenamiento: {e}")
        print("üí° El √∫ltimo checkpoint se guard√≥. Puedes reanudar ejecutando este bloque de nuevo.")
        raise

# Entrenamiento real (requiere generadores preparados y tiempo de ejecuci√≥n con GPU)
print("\n" + "=" * 60)
print("‚ö†Ô∏è IMPORTANTE: Este entrenamiento puede tardar 2-4 horas")
print("üí° Aseg√∫rate de mantener Colab activo (ver instrucciones arriba)")
print("=" * 60)
print()

history = train_model_with_resume()


In [None]:
# ============================================================
# BLOQUE 15: EVALUACI√ìN DEL MODELO
# ============================================================
# üìä Eval√∫a el modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 14 ejecutado (modelo entrenado)
# üí° Usa: MetricsCalculator (models.evaluation.metrics)

import numpy as np

print("=" * 60)
print("üìä EVALUACI√ìN DEL MODELO (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que los m√≥dulos est√°n importados (BLOQUE 2)
try:
    from models.evaluation.metrics import MetricsCalculator, ModelMetrics
    print("‚úÖ M√≥dulo MetricsCalculator importado correctamente")
except ImportError as e:
    print("‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Ejecuta el BLOQUE 2 primero para importar los m√≥dulos")
    raise

# Verificar que el generador de test existe
if 'test_generator' not in globals():
    raise ValueError("Generador de test no encontrado. Ejecuta el BLOQUE 11 primero.")

# Verificar que el modelo existe
if 'model' not in globals():
    raise ValueError("Modelo no encontrado. Ejecuta el BLOQUE 12 primero.")

# ============================================================
# üîç VERIFICACI√ìN Y DIAGN√ìSTICO PRE-EVALUACI√ìN
# ============================================================
from pathlib import Path

BEST_MODEL_PATH = Path('/content/drive/MyDrive/bovine-weight-estimation/ml-training/checkpoints/best_model.h5')

print("üîç VERIFICACI√ìN PRE-EVALUACI√ìN:")
print()

# 1. Verificar carga de pesos del mejor modelo
if BEST_MODEL_PATH.exists():
    print("‚úÖ Checkpoint encontrado: {BEST_MODEL_PATH}")
    try:
        print("üîÑ Cargando pesos del mejor modelo expl√≠citamente...")
        model.load_weights(str(BEST_MODEL_PATH))
        print("‚úÖ Pesos cargados exitosamente")
    except Exception as e:
        print("‚ö†Ô∏è Error cargando pesos: {e}")
        print("üí° Continuando con pesos actuales del modelo")
else:
    print("‚ö†Ô∏è No se encontr√≥ best_model.h5 en: {BEST_MODEL_PATH}")
    print("üí° El modelo puede no estar entrenado o los pesos no se guardaron")

# 2. Verificaci√≥n r√°pida de predicciones
print("\nüîç Verificaci√≥n r√°pida de predicciones:")
try:
    test_sample = next(iter(test_generator))
    sample_images = test_sample[0][:3]  # Primeras 3 im√°genes
    sample_targets = test_sample[1][:3]  # Primeros 3 pesos reales
    
    sample_predictions = model.predict(sample_images, verbose=0)
    sample_predictions = sample_predictions.flatten()
    
    print("üìä Predicciones de prueba:")
    for i in range(len(sample_predictions)):
        pred = sample_predictions[i]
        true = sample_targets[i]
        diff = abs(pred - true)
        print("   Imagen {i+1}: Pred={pred:.2f} kg, Real={true:.2f} kg, Diff={diff:.2f} kg")
    
    # Verificar rango de predicciones
    pred_min, pred_max = sample_predictions.min(), sample_predictions.max()
    true_min, true_max = sample_targets.min(), sample_targets.max()
    
    print("\nüìä Rangos:")
    print("   Predicciones: {pred_min:.2f} - {pred_max:.2f} kg")
    print("   Valores reales: {true_min:.2f} - {true_max:.2f} kg")
    
    # Advertencias
    if pred_max > 10000 or pred_min < -1000:
        print("\n‚ö†Ô∏è ADVERTENCIA: Predicciones fuera de rango esperado (200-600 kg t√≠picamente)")
        print("üí° El modelo puede no estar funcionando correctamente")
    elif pred_max < 1 or pred_min < 0:
        print("\n‚ö†Ô∏è ADVERTENCIA: Predicciones muy bajas o negativas")
        print("üí° Verifica el preprocesamiento de datos")
    else:
        print("\n‚úÖ Predicciones en rango razonable")
        
except Exception as e:
    print("‚ö†Ô∏è Error en verificaci√≥n r√°pida: {e}")

# 3. Verificar datos de test
print("\nüîç Verificaci√≥n de datos de test:")
try:
    if 'df_test' in globals():
        weight_min = df_test['weight_kg'].min()
        weight_max = df_test['weight_kg'].max()
        weight_mean = df_test['weight_kg'].mean()
        print("   Rango de pesos: {weight_min:.2f} - {weight_max:.2f} kg")
        print("   Media de pesos: {weight_mean:.2f} kg")
        print("   Total registros: {len(df_test):,}")
    else:
        print("   ‚ö†Ô∏è df_test no disponible para verificaci√≥n")
except Exception as e:
    print("   ‚ö†Ô∏è Error verificando datos: {e}")

print("\n" + "=" * 60)
print()

def evaluate_model():
    """Evaluar modelo en conjunto de test usando MetricsCalculator"""
    print("üìä Evaluando modelo en conjunto de test...")
    
    # Obtener predicciones y valores reales
    y_true = []
    y_pred = []
    
    print("üîç Generando predicciones...")
    for i in range(len(test_generator)):
        batch_images, batch_targets = test_generator[i]
        predictions = model.predict(batch_images, verbose=0)
        y_true.extend(batch_targets.flatten())
        y_pred.extend(predictions.flatten())
    
    # Convertir a numpy arrays
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    
    print("üìä Total predicciones: {len(y_true):,}")
    
    # Calcular m√©tricas usando m√≥dulo del proyecto
    print("\nüìà Calculando m√©tricas usando MetricsCalculator...")
    metrics = MetricsCalculator.calculate_metrics(
        y_true=y_true,
        y_pred=y_pred,
        breed_type='generic'
    )
    
    # Mostrar resultados
    print("\nüìà RESULTADOS DE EVALUACI√ìN:")
    print("   R¬≤: {metrics.r2_score:.4f}")
    print("   MAE: {metrics.mae_kg:.2f} kg")
    print("   MSE: {metrics.mse_kg:.2f}")
    print("   MAPE: {metrics.mape_percent:.2f}%")
    print("   Bias: {metrics.bias_kg:.2f} kg")
    
    # Verificar objetivos (con validaci√≥n opcional)
    print("\nüéØ VERIFICACI√ìN DE OBJETIVOS:")
    r2_ok = metrics.r2_score >= CONFIG['target_r2']
    mae_ok = metrics.mae_kg < CONFIG['max_mae']
    
    print("   R¬≤ ‚â• {CONFIG['target_r2']}: {'‚úÖ' if r2_ok else '‚ö†Ô∏è'} ({metrics.r2_score:.4f})")
    print("   MAE < {CONFIG['max_mae']} kg: {'‚úÖ' if mae_ok else '‚ö†Ô∏è'} ({metrics.mae_kg:.2f} kg)")
    
    if not (r2_ok and mae_ok):
        print("\n‚ö†Ô∏è ADVERTENCIA: Los objetivos no se cumplieron")
        print("\nüîç DIAGN√ìSTICO:")
        
        # Diagn√≥stico de R¬≤ negativo
        if metrics.r2_score < 0:
            print("   ‚ùå R¬≤ negativo ({metrics.r2_score:.4f}): El modelo es PEOR que predecir la media")
            print("      üí° Causas probables:")
            print("         - Modelo no carg√≥ pesos correctamente")
            print("         - Modelo no entrenado suficientemente")
            print("         - Problema con preprocesamiento de datos")
        
        # Diagn√≥stico de MAE muy alto
        if metrics.mae_kg > 50:
            print("   ‚ùå MAE muy alto ({metrics.mae_kg:.2f} kg vs objetivo < {CONFIG['max_mae']} kg)")
            print("      üí° Causas probables:")
            print("         - Modelo prediciendo valores fuera de rango")
            print("         - Dataset muy peque√±o (solo {len(y_true):,} muestras de test)")
            print("         - Modelo no aprendi√≥ patrones √∫tiles")
        
        # Estad√≠sticas adicionales
        print("\nüìä ESTAD√çSTICAS ADICIONALES:")
        print("   - Rango de predicciones: {y_pred.min():.2f} - {y_pred.max():.2f} kg")
        print("   - Rango de valores reales: {y_true.min():.2f} - {y_true.max():.2f} kg")
        print("   - Media de predicciones: {y_pred.mean():.2f} kg")
        print("   - Media de valores reales: {y_true.mean():.2f} kg")
        
        # Verificar si hay valores an√≥malos
        if y_pred.max() > 10000 or y_pred.min() < -1000:
            print("\n   ‚ö†Ô∏è Predicciones con valores extremos detectados")
            print("      üí° Verifica que el modelo carg√≥ pesos correctamente")
        
        print("\nüí° RECOMENDACIONES:")
        print("   1. Verifica que best_model.h5 se carg√≥ correctamente (ver arriba)")
        print("   2. Re-entrena con m√°s √©pocas (aumenta 'epochs' en CONFIG)")
        print("   3. Aumenta 'early_stopping_patience' para permitir m√°s entrenamiento")
        print("   4. Aumenta el dataset (usa m√°s datos del CID Dataset)")
        print("   5. Verifica preprocesamiento de im√°genes y pesos")
    
    # Log m√©tricas en MLflow
    if 'mlflow' in globals() and ('mlflow_available' in globals() and mlflow_available):
        mlflow.log_metrics({
            'test_r2': metrics.r2_score,
            'test_mae_kg': metrics.mae_kg,
            'test_mse_kg': metrics.mse_kg,
            'test_mape_percent': metrics.mape_percent,
            'test_bias_kg': metrics.bias_kg
        })
    
    return metrics.to_dict()

# Evaluar modelo
evaluation_results = evaluate_model()

print("\n‚úÖ BLOQUE 15 COMPLETADO")
print("üí° M√©tricas calculadas usando m√≥dulo del proyecto: MetricsCalculator")


In [None]:
# ============================================================
# BLOQUE 16: EXPORTAR A TFLITE
# ============================================================
# üì± Exporta modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 15 ejecutado (modelo evaluado)
# üí° Usa: TFLiteExporter (models.export.tflite_converter)
# üîß CORREGIDO: Exporta directamente desde modelo en memoria para evitar errores de serializaci√≥n

print("=" * 60)
print("üì± EXPORTAR A TFLITE (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que el modelo est√° entrenado y evaluado
if 'model' not in globals():
    raise ValueError("Modelo no encontrado. Ejecuta el BLOQUE 12 primero.")

# Verificar que los m√≥dulos est√°n importados
try:
    from models.export.tflite_converter import TFLiteExporter
    print("‚úÖ M√≥dulo TFLiteExporter importado correctamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Aseg√∫rate de que el proyecto est√© clonado correctamente")
    raise

# Verificar que MODELS_DIR est√° definido
if 'MODELS_DIR' not in globals():
    if 'BASE_DIR' in globals():
        MODELS_DIR = BASE_DIR / 'models'
    else:
        from pathlib import Path
        MODELS_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/models')
    MODELS_DIR.mkdir(parents=True, exist_ok=True)

# Exportar usando TFLiteExporter del proyecto
tflite_path = MODELS_DIR / 'generic-cattle-v1.0.0.tflite'

print("\nüì± Exportando modelo a TFLite usando TFLiteExporter...")
print(f"üìÅ Archivo de salida: {tflite_path}")
print("üí° Exportando directamente desde modelo en memoria (evita errores de serializaci√≥n)")

# Usar TFLiteExporter del proyecto directamente con el modelo en memoria
# Esto evita problemas de serializaci√≥n al guardar/recargar el modelo
try:
    model_size_bytes = TFLiteExporter.convert_to_tflite(
        model=model,  # Usar modelo directamente en memoria
        output_path=str(tflite_path),
        optimization='default'  # FP16: reduce 2x el tama√±o, mantiene precisi√≥n
    )
    
    model_size_kb = model_size_bytes / 1024
    model_size_mb = model_size_kb / 1024
    
    print("‚úÖ Modelo exportado exitosamente")
    print(f"üìè Tama√±o: {model_size_mb:.2f} MB ({model_size_kb:.1f} KB)")
    
except Exception as e:
    print(f"\n‚ö†Ô∏è Error al exportar directamente desde memoria: {e}")
    print("üí° Intentando m√©todo alternativo (exportar como SavedModel en Drive)...")
    
    # M√©todo alternativo: exportar como SavedModel en Drive y luego convertir
    import shutil
    from pathlib import Path
    
    # Usar Drive en lugar de /tmp para evitar problemas de espacio y persistencia
    if 'MODELS_DIR' in globals():
        temp_dir = MODELS_DIR / 'temp_export'
    elif 'BASE_DIR' in globals():
        temp_dir = BASE_DIR / 'models' / 'temp_export'
    else:
        temp_dir = Path('/content/drive/MyDrive/bovine-weight-estimation/models/temp_export')
    
    temp_dir.mkdir(parents=True, exist_ok=True)
    saved_model_path = temp_dir / 'saved_model'
    
    try:
        # En Keras 3, usar model.export() para exportar como SavedModel
        print("üíæ Exportando modelo como SavedModel en Drive...")
        print(f"üìÅ Ruta: {saved_model_path}")
        model.export(str(saved_model_path))  # Keras 3: export() para SavedModel
        print("‚úÖ Modelo exportado como SavedModel")
        
        # Exportar usando el SavedModel
        model_size_bytes = TFLiteExporter.convert_to_tflite(
            saved_model_path=str(saved_model_path),
            output_path=str(tflite_path),
            optimization='default'
        )
        
        model_size_kb = model_size_bytes / 1024
        model_size_mb = model_size_kb / 1024
        
        print("‚úÖ Modelo exportado exitosamente (m√©todo alternativo)")
        print(f"üìè Tama√±o: {model_size_mb:.2f} MB ({model_size_kb:.1f} KB)")
        
        # Limpiar directorio temporal
        print("üßπ Limpiando directorio temporal...")
        shutil.rmtree(temp_dir, ignore_errors=True)
        print("‚úÖ Directorio temporal limpiado")
        
    except Exception as e2:
        print(f"‚ùå Error con m√©todo alternativo: {e2}")
        print(f"üí° Limpiando directorio temporal en: {temp_dir}...")
        shutil.rmtree(temp_dir, ignore_errors=True)
        raise

# Log en MLflow
if 'mlflow' in globals() and ('mlflow_available' in globals() and mlflow_available):
    try:
        mlflow.log_artifact(str(tflite_path))
        mlflow.log_metric('model_size_kb', model_size_kb)
        mlflow.log_metric('model_size_mb', model_size_mb)
        print("üìä M√©tricas guardadas en MLflow")
    except Exception as e:
        print(f"‚ö†Ô∏è Error guardando en MLflow: {e}")

print("\n‚úÖ BLOQUE 16 COMPLETADO")
print("üéØ MODELO BASE LISTO PARA INTEGRACI√ìN")
print(f"üìÅ Archivo: {tflite_path}")
print(f"üìè Tama√±o: {model_size_mb:.2f} MB ({model_size_kb:.1f} KB)")
print("üí° Usando m√≥dulo del proyecto: TFLiteExporter")
if 'mlflow_run' in globals():
    print(f"üî¨ MLflow run: {mlflow_run.info.run_id}")


## üìã Resumen y Pr√≥ximos Pasos


## üìù Notas Importantes

### üéØ Estrategia B - Dataset Combinado
- **CID Dataset**: ~17,899 im√°genes (diversidad y calidad)
- **Nuestras Im√°genes**: ~1,400+ im√°genes (especificidad local - razas bolivianas)
- **Total Combinado**: ~19,299+ im√°genes para mejor modelo
- **Beneficio**: Mejor generalizaci√≥n + precisi√≥n espec√≠fica local

### üîß Optimizaciones Implementadas
- **Estrategia B**: Combinaci√≥n de datasets desde el inicio (BLOQUE 8)
- **Data Pipeline**: Generadores optimizados con Albumentations (BLOQUE 11)
- **Augmentation**: Agresivo para dataset peque√±o
- **Arquitectura**: EfficientNetB1 para mejor precisi√≥n (BLOQUE 12)
- **TFLite Export**: Optimizado para m√≥vil (FP16) (BLOQUE 16)

### üìä M√©tricas Objetivo
- **R¬≤ ‚â• 0.95**: Explicaci√≥n 95% de varianza
- **MAE < 5 kg**: Error absoluto promedio
- **Inference < 3s**: Tiempo en m√≥vil

### üéØ Estado Actual
- ‚úÖ **Infraestructura ML**: Completada y optimizada
- ‚úÖ **Pipeline de datos**: Estrategia B implementada
- ‚úÖ **Modelo base**: EfficientNetB1 listo para entrenamiento
- ‚úÖ **Notebook optimizado**: ~40% menos c√≥digo, bloques consecutivos (1-16)
- üîÑ **Pr√≥ximo**: Entrenar modelo con dataset combinado

### üìã Flujo Completo Optimizado
1. **Bloques 1-5**: Setup y configuraci√≥n
2. **Bloques 6-9**: Descarga y preparaci√≥n de datasets (Estrategia B)
3. **Bloque 10**: Verificaci√≥n r√°pida (OPCIONAL - puede saltarse)
4. **Bloques 11-16**: Pipeline, modelo, entrenamiento y exportaci√≥n
