# üêÑ Sistema de Estimaci√≥n de Peso Bovino - Setup ML

> **BLOQUE 0**: Informaci√≥n del proyecto (markdown - solo lectura)

**Proyecto**: Hacienda Gamelera - Bruno Brito Macedo  
**Responsable**: Persona 2 - Setup Infraestructura ML  
**Objetivo**: Preparar datasets y pipeline para entrenamiento de 7 modelos por raza  
**Duraci√≥n**: 5-6 d√≠as  

---

## üìë √çndice de Bloques (Referencia R√°pida)

| Bloque | Nombre | Descripci√≥n | Requisitos |
|--------|--------|-------------|------------|
| **0** | Informaci√≥n | Markdown introductorio | Ninguno |
| **1** | Clonar Repositorio | Monta Drive y clona desde GitHub (persistente) | Ninguno (requiere internet) |
| **2** | Verificar Dependencias | Verifica versiones base de TensorFlow y NumPy | Ninguno |
| **3** | Instalar Dependencias Cr√≠ticas | TensorFlow 2.19.0, NumPy 2.x, MLflow, DVC | Ninguno |
| **4** | Instalar Complementos | Albumentations, OpenCV, herramientas ML | Ninguno |
| **5** | Configuraci√≥n Proyecto | Crea estructura de carpetas y variables globales | Bloque 1 |
| **6** | Descargar Im√°genes Propias | Scraping de im√°genes para dataset personalizado | Bloque 5 |
| **7** | Descargar CID Dataset | Descarga CID Dataset desde S3 (complementario) | Bloque 5 |
| **8** | Preparar Dataset Combinado | Combina CID + Nuestras im√°genes (Estrategia B) | Bloques 6 + 7 |
| **9** | Resumen Datasets | Muestra resumen de datasets disponibles (CID + propias) | Bloques 6-8 |
| **10** | Verificaci√≥n R√°pida | Verificaci√≥n m√≠nima de columnas requeridas (OPCIONAL) | Bloque 9 |
| **11** | Pipeline de Datos | Pipeline con augmentation | Bloque 8 |
| **12** | Arquitectura Modelo | Crea modelo EfficientNetB0 | Bloque 11 |
| **13** | Configurar Entrenamiento | Callbacks y MLflow | Bloque 12 |
| **14** | Entrenamiento | Entrena modelo (2-4h) | Bloque 13 + GPU |
| **15** | Evaluaci√≥n | Eval√∫a modelo | Bloque 14 |
| **16** | Exportar TFLite | Exporta modelo a TFLite | Bloque 15 |

---

## üìã Flujo de Trabajo

### D√≠a 1: Setup (Bloques 1-5)
- **BLOQUE 1**: Clonar repositorio en Drive
- **BLOQUE 2**: Verificar dependencias base
- **BLOQUE 3**: Instalar dependencias cr√≠ticas (TensorFlow, MLflow)
- **BLOQUE 4**: Instalar complementos (Albumentations, OpenCV)
- **BLOQUE 5**: Configurar proyecto y carpetas

### D√≠a 2-3: Datasets (Bloques 6-9)
- **BLOQUE 6**: Descargar nuestras im√°genes (razas bolivianas, etapas de crianza)
- **BLOQUE 7**: Descargar CID Dataset (complementario - 17,899+ im√°genes)
- **BLOQUE 8**: Preparar dataset combinado (Estrategia B: combina CID + nuestras im√°genes)
- **BLOQUE 9**: Resumen de datasets disponibles (verifica combinaci√≥n)

### D√≠a 4: Verificaci√≥n (Bloque 10) - OPCIONAL
- **BLOQUE 10**: Verificaci√≥n r√°pida de datos (solo comprueba columnas necesarias, sin gr√°ficos)
- üí° **NOTA**: Este bloque es OPCIONAL. Puedes saltarlo para entrenar m√°s r√°pido.

### D√≠a 5-6: Pipeline y Modelo (Bloques 11-16)
- **BLOQUE 11**: Pipeline de datos con augmentation (usa dataset combinado)
- **BLOQUE 12**: Arquitectura del modelo
- **BLOQUE 13**: Configurar entrenamiento
- **BLOQUE 14**: Entrenar modelo
- **BLOQUE 15**: Evaluaci√≥n del modelo
- **BLOQUE 16**: Exportar a TFLite

---

## üéØ Razas Objetivo (7 razas)
1. **Brahman** - Bos indicus robusto
2. **Nelore** - Bos indicus
3. **Angus** - Bos taurus, buena carne
4. **Cebuinas** - Bos indicus general
5. **Criollo** - Adaptado local
6. **Pardo Suizo** - Bos taurus grande
7. **Jersey** - Lechera, menor tama√±o


In [None]:
# ============================================================
# BLOQUE 1: CONFIGURAR RUTA DEL PROYECTO Y CLONAR REPOSITORIO EN DRIVE
# ============================================================
# üìÅ Clona el repositorio desde GitHub a Google Drive (persistente entre sesiones)
# üîó Repositorio: https://github.com/Angello-27/bovine-weight-estimation.git
# üíæ Se clona en Drive para que persista entre desconexiones del runtime

import sys
import subprocess
from pathlib import Path

GITHUB_REPO_URL = 'https://github.com/Angello-27/bovine-weight-estimation.git'

# Montar Google Drive (solo si no est√° montado)
print("üîó Verificando Google Drive...")
try:
    from google.colab import drive
    drive_path = Path('/content/drive')
    if not drive_path.exists() or not any(drive_path.iterdir()):
        drive.mount('/content/drive')
    BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
except ImportError:
    BASE_DIR = Path('/content/bovine-weight-estimation')

print(f"üìÅ Directorio base: {BASE_DIR}")

# Clonar o sincronizar repositorio
if BASE_DIR.exists() and (BASE_DIR / '.git').exists():
    print("üîÑ Sincronizando repositorio existente...")
    subprocess.run(['git', 'pull'], cwd=str(BASE_DIR), check=False)
else:
    print("üì• Clonando repositorio...")
    BASE_DIR.parent.mkdir(parents=True, exist_ok=True)
    result = subprocess.run(['git', 'clone', GITHUB_REPO_URL, str(BASE_DIR)], check=False)
    if result.returncode != 0:
        raise RuntimeError(f"Error al clonar repositorio. Verifica conexi√≥n a internet.")

# Configurar PYTHONPATH
ML_TRAINING_DIR = BASE_DIR / 'ml-training'
src_dir = ML_TRAINING_DIR / 'src'
if src_dir.exists():
    sys.path.insert(0, str(src_dir))
    print(f"‚úÖ PYTHONPATH configurado: {src_dir}")
else:
    print(f"‚ö†Ô∏è Directorio src no encontrado: {src_dir}")

print(f"‚úÖ Configuraci√≥n completada")
print(f"üìÅ ML Training: {ML_TRAINING_DIR}")



## üöÄ D√≠a 1: Setup Google Colab Pro + Dependencias

In [None]:
# ============================================================
# BLOQUE 2: VERIFICACI√ìN DE DEPENDENCIAS BASE
# ============================================================
# üîç Verifica versiones base de TensorFlow y NumPy
# üí° Solo verifica - no desinstala (pip maneja versiones autom√°ticamente)
# ‚ö†Ô∏è Si hay conflictos, ejecuta limpieza manual o reinicia el runtime

import warnings
warnings.filterwarnings('ignore')

print("üîç VERIFICANDO DEPENDENCIAS BASE...\n")

# Verificar versiones actuales
try:
    import tensorflow as tf
    import numpy as np
    print(f"üì¶ Versiones actuales:")
    print(f"   - TensorFlow: {tf.__version__}")
    print(f"   - NumPy: {np.__version__}")
    
    # Verificar compatibilidad b√°sica
    tf_ok = tf.__version__.startswith('2.')
    numpy_ok = np.__version__.startswith('2.') or np.__version__.startswith('1.')
    
    if tf_ok and numpy_ok:
        print(f"\n‚úÖ Versiones compatibles detectadas")
        print(f"üí° Contin√∫a con el BLOQUE 3 para instalar dependencias")
    else:
        print(f"\n‚ö†Ô∏è Versiones pueden tener conflictos")
        print(f"üí° Recomendaci√≥n: Reinicia el runtime o ejecuta limpieza manual")
        
except ImportError as e:
    print(f"‚ö†Ô∏è Error importando dependencias: {e}")
    print(f"üí° Esto es normal en un runtime nuevo - contin√∫a con el BLOQUE 3")

print(f"\nüí° NOTA: El BLOQUE 3 instalar√° las versiones correctas autom√°ticamente")
print(f"üí° No es necesario desinstalar/reinstalar manualmente si las versiones est√°n bien definidas")


In [None]:
# ============================================================
# BLOQUE 3: INSTALACI√ìN DE DEPENDENCIAS CR√çTICAS
# ============================================================
# üîß Instala dependencias cr√≠ticas con versiones exactas
# ‚úÖ pip maneja autom√°ticamente las actualizaciones

import warnings
import subprocess
warnings.filterwarnings('ignore')

print("üì¶ INSTALANDO DEPENDENCIAS CR√çTICAS...\n")

# Instalar dependencias en orden
dependencies = [
    ("tf-keras", "tf-keras>=2.19.0"),
    ("packaging", "packaging<25"),
    ("wrapt", "wrapt<2.0.0,>=1.10.10"),
    ("requests", "requests==2.32.4"),
    ("jedi", "jedi>=0.16"),
    ("MLflow", "mlflow==2.16.2"),
    ("DVC", "dvc[gs,s3]==3.51.1"),
    ("scikit-learn", "scikit-learn>=1.6")
]

for name, package in dependencies:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', package],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        print(f"‚úÖ {name} instalado")
    else:
        print(f"‚ö†Ô∏è Error instalando {name}")

# Configurar mixed precision
try:
    from tensorflow.keras import mixed_precision
    mixed_precision.set_global_policy('mixed_float16')
    print("‚úÖ Mixed precision (FP16) activado\n")
except Exception as e:
    print(f"‚ö†Ô∏è Mixed precision no disponible: {str(e)[:50]}\n")

# Verificar instalaciones
import tensorflow as tf
import numpy as np

print("=" * 60)
print("‚úÖ DEPENDENCIAS CR√çTICAS INSTALADAS")
print("=" * 60)

versions = {
    'TensorFlow': tf.__version__,
    'NumPy': np.__version__
}

packages_to_check = {
    'MLflow': ('mlflow', '__version__'),
    'Scikit-learn': ('sklearn', '__version__'),
    'Protobuf': ('google.protobuf', '__version__'),
    'ml_dtypes': ('ml_dtypes', '__version__'),
    'tf-keras': ('tensorflow.keras', '__version__')
}

for name, version in versions.items():
    print(f"   - {name}: {version}")

for name, (module, attr) in packages_to_check.items():
    try:
        mod = __import__(module, fromlist=[attr])
        version = getattr(mod, attr) if hasattr(mod, attr) else getattr(mod, '__version__', 'OK')
        print(f"   - {name}: {version} ‚úÖ")
    except Exception:
        print(f"   - {name}: No disponible ‚ö†Ô∏è")

# Verificaci√≥n de compatibilidad
tf_ok = tf.__version__.startswith('2.19')
numpy_ok = np.__version__.startswith('2.0') or np.__version__.startswith('2.1')

print(f"\nüîç Compatibilidad: TF 2.19.x {'‚úÖ' if tf_ok else '‚ö†Ô∏è'}, NumPy 2.x {'‚úÖ' if numpy_ok else '‚ö†Ô∏è'}")

if tf_ok and numpy_ok:
    print("\n‚úÖ Instalaci√≥n completada exitosamente")
else:
    print("\n‚ö†Ô∏è Verifica versiones instaladas")


In [None]:
# ============================================================
# BLOQUE 4: INSTALACI√ìN DE COMPLEMENTOS
# ============================================================
# üîß Instala complementos: Albumentations, OpenCV, herramientas ML

import warnings
import subprocess
warnings.filterwarnings('ignore')

print("üì¶ INSTALANDO COMPLEMENTOS...\n")

# Instalar complementos
complements = [
    ("albumentations>=2.0.8", "Albumentations"),
    ("gdown", "gdown"),
    ("plotly", "Plotly"),
    ("seaborn", "Seaborn"),
    ("pillow>=11.0.0", "Pillow")
]

for package, name in complements:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', package],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        print(f"‚úÖ {name} instalado")
    else:
        print(f"‚ö†Ô∏è Error instalando {name}")

# Verificar/instalar OpenCV
try:
    import cv2
    print(f"‚úÖ OpenCV {cv2.__version__} disponible")
except ImportError:
    result = subprocess.run(
        ['pip', 'install', '-q', '--no-cache-dir', 'opencv-python-headless'],
        capture_output=True, text=True
    )
    if result.returncode == 0:
        import cv2
        print(f"‚úÖ OpenCV {cv2.__version__} instalado")
    else:
        print(f"‚ö†Ô∏è Error instalando OpenCV")

# Verificar e importar
import numpy as np
import tensorflow as tf

try:
    import cv2
    import albumentations as A
    import sklearn
    print(f"\n‚úÖ Complementos verificados: OpenCV {cv2.__version__}, Albumentations {A.__version__}")
except Exception as e:
    print(f"\n‚ö†Ô∏è Algunos complementos no disponibles: {str(e)[:50]}")

# Configurar GPU
gpus = tf.config.list_physical_devices('GPU')
if gpus:
    try:
        tf.config.experimental.set_memory_growth(gpus[0], True)
        print(f"\n‚úÖ GPU configurada: {len(gpus)} dispositivo(s)")
        for i, gpu in enumerate(gpus):
            print(f"   - GPU {i}: {gpu.name}")
    except RuntimeError as e:
        print(f"\n‚ö†Ô∏è Error configurando GPU: {str(e)[:50]}")
else:
    print(f"\n‚ö†Ô∏è GPU no detectada - Activa en: Entorno > Cambiar tipo > GPU")

print("\n‚úÖ Instalaci√≥n de complementos completada")


In [None]:
# ============================================================
# BLOQUE 5: CONFIGURACI√ìN DEL PROYECTO Y ESTRUCTURA DE CARPETAS
# ============================================================
# ‚öôÔ∏è Crea estructura de carpetas y configura variables globales

from pathlib import Path

# Verificar proyecto (Drive ya montado en bloque anterior)
BASE_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation')
if not BASE_DIR.exists():
    raise RuntimeError(f"Proyecto no encontrado en {BASE_DIR}. Ejecuta el bloque anterior primero.")

print(f"‚úÖ Proyecto: {BASE_DIR}")

# Crear estructura de carpetas
DATA_DIR = BASE_DIR / 'data'
RAW_DIR = DATA_DIR / 'raw'
PROCESSED_DIR = DATA_DIR / 'processed'
AUGMENTED_DIR = DATA_DIR / 'augmented'
MODELS_DIR = BASE_DIR / 'models'
MLRUNS_DIR = BASE_DIR / 'mlruns'

for dir_path in [DATA_DIR, RAW_DIR, PROCESSED_DIR, AUGMENTED_DIR, MODELS_DIR, MLRUNS_DIR]:
    dir_path.mkdir(parents=True, exist_ok=True)

# Configurar MLflow
try:
    import mlflow
    mlflow.set_tracking_uri(f"file://{MLRUNS_DIR}")
    mlflow.set_experiment("bovine-weight-estimation")
    mlflow_available = True
except ImportError:
    print("‚ö†Ô∏è MLflow no disponible - ejecuta bloque de instalaci√≥n")
    mlflow_available = False

# Configuraci√≥n de entrenamiento
CONFIG = {
    'image_size': (224, 224),
    'batch_size': 32,
    'epochs': 100,
    'learning_rate': 0.001,
    'validation_split': 0.2,
    'test_split': 0.1,
    'early_stopping_patience': 10,
    'target_r2': 0.95,
    'max_mae': 5.0,
    'max_inference_time': 3.0
}

# Razas objetivo
BREEDS = [
    'brahman', 'nelore', 'angus', 'cebuinas',
    'criollo', 'pardo_suizo', 'guzerat', 'holstein'
]

print(f"‚úÖ Configuraci√≥n completada")
print(f"üìÅ Carpetas creadas: data/, models/, mlruns/")
print(f"üéØ Razas: {len(BREEDS)} razas")
if mlflow_available:
    print(f"üìä MLflow: {MLRUNS_DIR} ‚úÖ")


## üì• D√≠a 2-3: Descargar y Organizar Datasets Cr√≠ticos


In [None]:
# ============================================================
# BLOQUE 6: DESCARGAR NUESTRAS IM√ÅGENES (SCRAPING)
# ============================================================
# üñºÔ∏è Descarga im√°genes de ganado bovino desde m√∫ltiples fuentes
# üéØ Objetivo: 200+ im√°genes por raza para dataset ideal (1400+ total) ‚≠ê
# üí° Configurable: Cambia IMAGES_PER_BREED seg√∫n necesidad
# ‚ö†Ô∏è Respeta t√©rminos de uso y evita bloqueos

import os
import subprocess
import time
import shutil
from pathlib import Path
from PIL import Image
import numpy as np

print("=" * 60)
print("üñºÔ∏è DESCARGANDO IM√ÅGENES DE GANADO BOVINO")
print("=" * 60)
print()
print("‚ö†Ô∏è NOTA: Algunos sitios bloquean descargas autom√°ticas (HTTP 403)")
print("üí° El script continuar√° descargando lo que pueda")
print("üí° Si se interrumpe, puedes ejecutar nuevamente (contin√∫a donde qued√≥)")
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

# T√©rminos de b√∫squeda optimizados (evitan falsos positivos)
BREED_SEARCH_TERMS = {
    'brahman': [
        'brahman cattle breed', 'brahman cow cattle', 'brahman bull cattle',
        'brahman beef cattle', 'brahman ganado bovino', 'brahman zebu cattle',
        'american brahman cattle', 'brahman livestock'
    ],
    'nelore': ['nelore cattle', 'nelore cow', 'nelore bull', 'nelore ganado bovino'],
    'angus': ['angus cattle', 'angus cow', 'angus bull', 'angus ganado bovino'],
    'cebuinas': ['zebu cattle', 'indicus cattle', 'bos indicus cattle', 'zebu ganado bovino'],
    'criollo': [
        'criollo cattle bolivia', 'criollo ganado boliviano',
        'criollo bovino chiquitania', 'criollo bovino pantanal',
        'pantanal cattle bolivia', 'chiquitania cattle', 'bovino criollo pantanal'
    ],
    'pardo_suizo': [
        'brown swiss dairy cattle', 'brown swiss cow', 'brown swiss bull',
        'pardo suizo ganado bovino', 'brown swiss bovino'
    ],
    'jersey': [
        'jersey dairy cattle', 'jersey cattle breed', 'jersey cow',
        'jersey bull', 'jersey ganado bovino', 'jersey vaca lechera'
    ]
}

IMAGES_PER_BREED = 200
IMAGES_PER_SEARCH_TERM = 40

# Filtros espec√≠ficos por raza (evitan falsos positivos)
BREED_FILTERS = {
    'brahman': ['hindu', 'god', 'deity', 'temple', 'religion', 'vedic', 'prayer', 'ritual', 'spiritual', 'worship'],
    'cebuinas': ['cebu city', 'cebu philippines', 'cebu island', 'cebu province'],
    'criollo': ['horse', 'caballo', 'equine', 'criollo people', 'criollo culture', 'criollo person'],
    'pardo_suizo': ['palette', 'color swatch', 'color chart', 'color wheel', 'brown color'],
    'jersey': ['jersey shirt', 'jersey basketball', 'jersey sport', 'jersey clothing', 'jersey fabric']
}

# Filtros generales (dibujos, ilustraciones, etc.)
GENERAL_FILTERS = [
    'drawing', 'illustration', 'painting', 'art', 'sketch', 'cartoon',
    'logo', 'banner', 'poster', 'icon', 'vector', 'graphic design'
]


def validate_cattle_image(img_path: Path, breed: str) -> bool:
    """Valida imagen: solo ganado bovino real, sin falsos positivos."""
    try:
        img = Image.open(img_path)
        if img.mode not in ['RGB', 'RGBA', 'L']:
            return False
        if img.size[0] < 100 or img.size[1] < 100:
            return False
        
        # Detectar paletas de colores
        if img.mode == 'RGB':
            img_array = np.array(img)
            color_variance = np.var(img_array.reshape(-1, 3), axis=0)
            if np.all(color_variance < 100):
                return False
        
        # Filtrar por nombre y ruta
        path_lower = str(img_path).lower()
        filename_lower = img_path.name.lower()
        
        # Filtros generales
        for filter_term in GENERAL_FILTERS:
            if filter_term in path_lower or filter_term in filename_lower:
                return False
        
        # Filtros espec√≠ficos por raza
        if breed in BREED_FILTERS:
            for filter_term in BREED_FILTERS[breed]:
                if filter_term in path_lower or filter_term in filename_lower:
                    return False
        
        return True
    except Exception:
        return True


def consolidate_existing_images(breed_dir: Path, breed: str) -> int:
    """Consolida im√°genes existentes con numeraci√≥n correlativa."""
    if not breed_dir.exists():
        return 0
    
    all_images = sorted(list(breed_dir.glob('*.jpg')) + list(breed_dir.glob('*.png')) + list(breed_dir.glob('*.jpeg')))
    if not all_images:
        return 0
    
    print(f"   üìã Consolidando {len(all_images)} im√°genes existentes...")
    renamed_count = 0
    
    for idx, img_path in enumerate(all_images, start=1):
        new_name = breed_dir / f"{breed}_{idx:03d}{img_path.suffix}"
        if img_path.name == new_name.name:
            continue
        try:
            if not new_name.exists():
                shutil.move(str(img_path), str(new_name))
                renamed_count += 1
        except Exception:
            continue
    
    if renamed_count > 0:
        print(f"   ‚úÖ {renamed_count} im√°genes renombradas")
    
    return len(all_images)


def scrape_with_bing_downloader(breed: str, search_terms: list, output_dir: Path, limit: int = 200):
    """Scraping optimizado con validaci√≥n mejorada."""
    breed_dir = output_dir / breed
    breed_dir.mkdir(parents=True, exist_ok=True)
    
    existing_count = consolidate_existing_images(breed_dir, breed)
    existing_imgs = list(breed_dir.glob('*.jpg')) + list(breed_dir.glob('*.png'))
    already_downloaded = len(existing_imgs)
    
    print(f"\nüì• {breed.upper()}: Objetivo {limit} im√°genes")
    if already_downloaded > 0:
        print(f"‚úÖ Ya existen {already_downloaded} im√°genes")
        if already_downloaded >= limit:
            return already_downloaded
    
    downloaded = already_downloaded
    errors_count = 0
    
    try:
        from bing_image_downloader import downloader
        import sys
        from io import StringIO
        
        original_stderr = sys.stderr
        
        for search_term in search_terms:
            if downloaded >= limit:
                break
            
            remaining = limit - downloaded
            batch_size = min(remaining, IMAGES_PER_SEARCH_TERM)
            
            print(f"   üîç '{search_term}' ({batch_size} im√°genes)...", end=' ', flush=True)
            
            try:
                sys.stderr = StringIO()
                downloader.download(
                    search_term, limit=batch_size,
                    output_dir=str(breed_dir.parent),
                    adult_filter_off=True, force_replace=False,
                    timeout=10, verbose=False
                )
                sys.stderr = original_stderr
                
                # Buscar im√°genes descargadas
                possible_dirs = [
                    breed_dir.parent / search_term.replace(' ', '_'),
                    breed_dir.parent / search_term,
                    breed_dir.parent / search_term.replace(' ', '-')
                ]
                
                term_dir = None
                for possible_dir in possible_dirs:
                    if possible_dir.exists() and any(possible_dir.iterdir()):
                        term_dir = possible_dir
                        break
                
                if term_dir and term_dir.exists():
                    imgs = [img for img in list(term_dir.rglob('*.jpg')) + list(term_dir.rglob('*.png')) if img.is_file()]
                    moved = 0
                    
                    for img in imgs:
                        if downloaded >= limit:
                            break
                        
                        # Validar antes de mover
                        if not validate_cattle_image(img, breed):
                            try:
                                img.unlink()
                            except:
                                pass
                            continue
                        
                        next_num = downloaded + 1
                        new_name = breed_dir / f"{breed}_{next_num:03d}{img.suffix}"
                        
                        if new_name.exists():
                            continue
                        
                        try:
                            shutil.copy2(img, new_name)
                            downloaded += 1
                            moved += 1
                        except Exception:
                            continue
                    
                    try:
                        shutil.rmtree(term_dir, ignore_errors=True)
                    except:
                        pass
                    
                    print(f"‚úÖ {moved} descargadas")
                else:
                    print(f"‚ö†Ô∏è 0 descargadas")
                    errors_count += 1
                    
            except Exception as e:
                sys.stderr = original_stderr
                errors_count += 1
                if errors_count <= 10:
                    print(f"‚ö†Ô∏è Error: {str(e)[:50]}...")
                continue
            
            time.sleep(1)
        
        print(f"   ‚úÖ {breed}: {downloaded} im√°genes (objetivo: {limit})")
        return downloaded
        
    except ImportError:
        print(f"   ‚ö†Ô∏è Instalando bing-image-downloader...")
        subprocess.run(['pip', 'install', '-q', 'bing-image-downloader'], check=False)
        try:
            from bing_image_downloader import downloader
            return scrape_with_bing_downloader(breed, search_terms, output_dir, limit)
        except:
            pass
    
    return downloaded


def scrape_images():
    """Funci√≥n principal de scraping."""
    output_dir = RAW_DIR / 'scraped'
    output_dir.mkdir(parents=True, exist_ok=True)
    
    print("üì¶ Instalando herramientas...")
    subprocess.run(['pip', 'install', '-q', 'bing-image-downloader'], check=False)
    
    total_downloaded = 0
    results_by_breed = {}
    
    for breed, search_terms in BREED_SEARCH_TERMS.items():
        try:
            downloaded = scrape_with_bing_downloader(breed, search_terms, output_dir, limit=IMAGES_PER_BREED)
            results_by_breed[breed] = downloaded
            total_downloaded += downloaded
        except KeyboardInterrupt:
            print(f"\n‚ö†Ô∏è Interrumpido: {total_downloaded:,} im√°genes descargadas")
            break
        except Exception as e:
            print(f"‚ö†Ô∏è Error con {breed}: {e}")
            results_by_breed[breed] = 0
            continue
        
        if breed != list(BREED_SEARCH_TERMS.keys())[-1]:
            time.sleep(3)
    
    # Resumen
    print("\n" + "=" * 60)
    print("üìä RESUMEN DE DESCARGA")
    print("=" * 60)
    print()
    
    for breed, count in results_by_breed.items():
        status = "‚úÖ" if count >= 100 else "‚ö†Ô∏è" if count >= 50 else "‚ùå"
        print(f"{status} {breed.upper()}: {count} im√°genes")
    
    print(f"\nüéØ TOTAL: {total_downloaded:,} im√°genes")
    
    breeds_with_100 = sum(1 for count in results_by_breed.values() if count >= 100)
    print(f"üìà Razas con 100+ im√°genes: {breeds_with_100}/{len(BREED_SEARCH_TERMS)}")
    
    # Clasificaci√≥n
    if total_downloaded >= 1400:
        print(f"‚úÖ DATASET GRANDE ({total_downloaded:,} im√°genes) - Ideal")
    elif total_downloaded >= 1050:
        print(f"‚úÖ DATASET MEDIANO-GRANDE ({total_downloaded:,} im√°genes) - Recomendado")
    elif total_downloaded >= 700:
        print(f"‚úÖ DATASET MEDIANO ({total_downloaded:,} im√°genes) - M√≠nimo viable")
    elif total_downloaded >= 350:
        print(f"‚ö†Ô∏è DATASET MEDIANO-CHICO ({total_downloaded:,} im√°genes)")
    else:
        print(f"‚ùå DATASET PEQUE√ëO ({total_downloaded:,} im√°genes)")
    
    # Crear metadata
    create_basic_metadata(output_dir, results_by_breed)
    
    return total_downloaded


def create_basic_metadata(output_dir: Path, results_by_breed: dict):
    """Crea metadata.csv b√°sico con pesos estimados."""
    import pandas as pd
    import random
    
    breed_weights = {
        'brahman': {'min': 400, 'max': 500}, 'nelore': {'min': 380, 'max': 480},
        'angus': {'min': 500, 'max': 600}, 'cebuinas': {'min': 350, 'max': 450},
        'criollo': {'min': 300, 'max': 400}, 'pardo_suizo': {'min': 550, 'max': 650},
        'jersey': {'min': 300, 'max': 400}
    }
    
    random.seed(42)
    metadata_rows = []
    
    for breed, count in results_by_breed.items():
        if count == 0:
            continue
        
        breed_dir = output_dir / breed
        img_files = sorted(list(breed_dir.glob('*.jpg')) + list(breed_dir.glob('*.png')))
        weights = breed_weights.get(breed, {'min': 400, 'max': 500})
        
        for img_file in img_files[:count]:
            weight = random.uniform(weights['min'], weights['max'])
            metadata_rows.append({
                'image_path': f'{breed}/{img_file.name}',
                'weight_kg': round(weight, 1),
                'breed': breed,
                'age_category': random.choice(['ternero', 'vaquillona', 'toro', 'vaca'])
            })
    
    if metadata_rows:
        df_metadata = pd.DataFrame(metadata_rows)
        metadata_file = output_dir / 'metadata.csv'
        df_metadata.to_csv(metadata_file, index=False)
        print(f"\nüíæ Metadata: {metadata_file} ({len(metadata_rows):,} registros)")


# Ejecutar
try:
    scraped_images = scrape_images()
    
    if scraped_images > 0:
        print(f"\n‚úÖ BLOQUE 6 COMPLETADO")
        print(f"üìÅ Im√°genes en: {RAW_DIR / 'scraped'}")
    else:
        print(f"\n‚ö†Ô∏è BLOQUE 6 COMPLETADO - Sin im√°genes descargadas")
        print(f"üí° Verifica im√°genes manuales o ejecuta nuevamente")
        
except Exception as e:
    print(f"\n‚ùå Error en BLOQUE 6: {e}")
    import traceback
    traceback.print_exc()

print(f"\n{'=' * 60}")


In [None]:
# ============================================================
# BLOQUE 7: DESCARGAR CID DATASET (COMPLEMENTARIO)
# ============================================================
# üì• Descarga el CID Dataset desde S3 para combinar con nuestro dataset
# üí° CID: Cow Images Dataset para estimaci√≥n de peso y clasificaci√≥n de raza
# üìä Fuente: https://github.com/bhuiyanmobasshir94/CID
# ‚úÖ RECOMENDADO: Usar CID + nuestras im√°genes = mejor modelo
# üéØ Estrategia: CID aporta diversidad y calidad, nuestras im√°genes aportan
#    especificidad local (razas bolivianas, etapas de crianza, contexto real)
# üí° Beneficios: M√°s datos = mejor generalizaci√≥n, transfer learning, validaci√≥n cruzada

import os
import subprocess
import shutil
from pathlib import Path

print("=" * 60)
print("üì• DESCARGANDO CID DATASET (COMPLEMENTARIO)")
print("=" * 60)
print()
print("üí° ESTRATEGIA DE DATASETS:")
print("   - CID Dataset: Diversidad y calidad (17,899+ im√°genes)")
print("   - Nuestras im√°genes: Especificidad local (razas bolivianas, etapas)")
print("   - Combinaci√≥n: Mejor generalizaci√≥n y precisi√≥n")
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

CID_DIR = RAW_DIR / 'cid'
CID_DIR.mkdir(parents=True, exist_ok=True)

# URLs del CID Dataset (desde S3)
CID_URLS = {
    'images': 'https://cid-21.s3.amazonaws.com/images.tar.gz',
    'yt_images': 'https://cid-21.s3.amazonaws.com/yt_images.tar.gz',
    'metadata': 'https://cid-21.s3.amazonaws.com/dataset.csv'
}

# Verificar si ya est√° descargado
images_dir = CID_DIR / 'images'
yt_images_dir = CID_DIR / 'yt_images'
metadata_file = CID_DIR / 'dataset.csv'

if images_dir.exists() and any(images_dir.iterdir()) and metadata_file.exists():
    print(f"‚úÖ CID Dataset ya descargado en: {CID_DIR}")
    cid_content = CID_DIR
    CID_METADATA_FILE = str(metadata_file)
    
    # Contar im√°genes
    img_count = len(list(images_dir.rglob('*.jpg'))) + len(list(images_dir.rglob('*.png')))
    if yt_images_dir.exists():
        img_count += len(list(yt_images_dir.rglob('*.jpg'))) + len(list(yt_images_dir.rglob('*.png')))
    print(f"üìä Total im√°genes: {img_count:,}")
else:
    print("üì• Descargando CID Dataset desde S3...")
    print("üíæ Tama√±o estimado: ~8GB (puede tardar varios minutos)")
    print()
    
    # Descargar metadata CSV
    print("üì• Descargando metadata CSV...")
    try:
        subprocess.run(['wget', '-q', '--show-progress', CID_URLS['metadata'], '-O', str(metadata_file)], check=True)
        print(f"‚úÖ Metadata descargado: {metadata_file}")
        CID_METADATA_FILE = str(metadata_file)
    except Exception as e:
        print(f"‚ö†Ô∏è Error descargando metadata: {e}")
        CID_METADATA_FILE = None
    
    # Descargar im√°genes principales
    images_tar = CID_DIR / 'images.tar.gz'
    if not images_dir.exists() or not any(images_dir.iterdir()):
        print("\nüì• Descargando im√°genes principales...")
        try:
            subprocess.run(['wget', '-q', '--show-progress', CID_URLS['images'], '-O', str(images_tar)], check=True)
            print("üì¶ Extrayendo im√°genes...")
            subprocess.run(['tar', '-xzf', str(images_tar), '-C', str(CID_DIR)], check=True)
            images_tar.unlink()  # Eliminar archivo comprimido
            print(f"‚úÖ Im√°genes principales extra√≠das en: {images_dir}")
        except Exception as e:
            print(f"‚ö†Ô∏è Error descargando im√°genes principales: {e}")
    
    # Descargar im√°genes de YouTube (opcional)
    yt_tar = CID_DIR / 'yt_images.tar.gz'
    if not yt_images_dir.exists() or not any(yt_images_dir.iterdir()):
        print("\nüì• Descargando im√°genes de YouTube (opcional)...")
        try:
            subprocess.run(['wget', '-q', '--show-progress', CID_URLS['yt_images'], '-O', str(yt_tar)], check=True)
            print("üì¶ Extrayendo im√°genes de YouTube...")
            subprocess.run(['tar', '-xzf', str(yt_tar), '-C', str(CID_DIR)], check=True)
            yt_tar.unlink()  # Eliminar archivo comprimido
            print(f"‚úÖ Im√°genes de YouTube extra√≠das en: {yt_images_dir}")
        except Exception as e:
            print(f"‚ö†Ô∏è Error descargando im√°genes de YouTube: {e}")
    
    cid_content = CID_DIR
    if CID_METADATA_FILE is None:
        CID_METADATA_FILE = str(metadata_file) if metadata_file.exists() else None

# Configurar variables de entorno
if cid_content.exists():
    os.environ['CID_DATASET_PATH'] = str(cid_content)
    if CID_METADATA_FILE:
        os.environ['CID_METADATA_FILE'] = CID_METADATA_FILE
    
    print(f"\nüìã Variables de entorno configuradas:")
    print(f"   CID_DATASET_PATH = {cid_content}")
    if CID_METADATA_FILE:
        print(f"   CID_METADATA_FILE = {CID_METADATA_FILE}")
    
    print(f"\nüí° Pr√≥ximos pasos:")
    print(f"   - BLOQUE 6: Descargar nuestras propias im√°genes (complementar con CID)")
    print(f"   - BLOQUE 8: Preparar dataset combinado (CID + nuestras im√°genes)")
    print(f"   - BLOQUE 9: Resumen de datasets disponibles")
    print(f"\nüìä ESTRATEGIA DE ENTRENAMIENTO:")
    print(f"   - Usar CID para pre-entrenamiento o como datos adicionales")
    print(f"   - Nuestras im√°genes para fine-tuning y validaci√≥n espec√≠fica")
    print(f"   - Combinar ambos para mejor generalizaci√≥n del modelo")

print(f"\n{'=' * 60}")
print("‚úÖ BLOQUE 6 COMPLETADO")
print(f"{'=' * 60}")


In [None]:
# ============================================================
# BLOQUE 8: PREPARAR DATASET COMBINADO (ESTRATEGIA B)
# ============================================================
# üîó Combina CID Dataset + Nuestras im√°genes para entrenamiento
# üéØ Estrategia B: Combinaci√≥n desde el inicio para mejor modelo
# üí° CID aporta diversidad (~17,899 im√°genes) + Nuestras im√°genes aportan especificidad local
# üìä Resultado: Dataset combinado listo para pipeline de entrenamiento

import os
import pandas as pd
from pathlib import Path
import json

print("=" * 60)
print("üîó PREPARANDO DATASET COMBINADO (ESTRATEGIA B)")
print("=" * 60)
print()
print("üí° ESTRATEGIA DE COMBINACI√ìN:")
print("   - CID Dataset: Diversidad y calidad (~17,899 im√°genes)")
print("   - Nuestras im√°genes: Especificidad local (razas bolivianas, etapas)")
print("   - Combinaci√≥n: Mejor generalizaci√≥n y precisi√≥n")
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')


def prepare_cid_dataset() -> tuple[Path | None, int]:
    """Prepara CID Dataset."""
    cid_dir = RAW_DIR / 'cid'
    
    if not cid_dir.exists():
        return None, 0
    
    # Contar im√°genes en CID
    cid_images_dir = cid_dir / 'images'
    cid_yt_dir = cid_dir / 'yt_images'
    
    cid_count = 0
    if cid_images_dir.exists():
        cid_count += len(list(cid_images_dir.rglob('*.jpg'))) + len(list(cid_images_dir.rglob('*.png')))
    if cid_yt_dir.exists():
        cid_count += len(list(cid_yt_dir.rglob('*.jpg'))) + len(list(cid_yt_dir.rglob('*.png')))
    
    if cid_count == 0:
        return None, 0
    
    return cid_dir, cid_count


def prepare_local_dataset() -> tuple[Path | None, int]:
    """Prepara dataset desde im√°genes locales."""
    local_dir = RAW_DIR / 'local_images'

    if not local_dir.exists():
        return None, 0

    img_files = (
        list(local_dir.rglob('*.jpg')) +
        list(local_dir.rglob('*.png')) +
        list(local_dir.rglob('*.jpeg'))
    )

    if not img_files:
        return None, 0

    return local_dir, len(img_files)


def prepare_scraped_dataset() -> tuple[Path | None, int]:
    """Prepara dataset desde im√°genes scrapeadas."""
    scraped_dir = RAW_DIR / 'scraped'
    
    if not scraped_dir.exists():
        return None, 0
    
    img_files = (
        list(scraped_dir.rglob('*.jpg')) +
        list(scraped_dir.rglob('*.png')) +
        list(scraped_dir.rglob('*.jpeg'))
    )
    
    if not img_files:
        return None, 0
    
    return scraped_dir, len(img_files)


def create_combined_dataset():
    """Crea dataset combinado: CID + Nuestras im√°genes (Estrategia B)."""
    print("\n" + "=" * 60)
    print("üîç VERIFICANDO DATASETS DISPONIBLES")
    print("=" * 60)
    print()

    # 1. Verificar CID Dataset
    cid_path, cid_count = prepare_cid_dataset()
    
    # 2. Verificar nuestras im√°genes
    local_path, local_count = prepare_local_dataset()
    scraped_path, scraped_count = prepare_scraped_dataset()
    
    our_total = local_count + scraped_count
    
    # Resumen de datasets
    print("üìä RESUMEN DE DATASETS:")
    print(f"   - CID Dataset: {cid_count:,} im√°genes {'‚úÖ' if cid_path else '‚ùå'}")
    print(f"   - Im√°genes locales: {local_count:,} im√°genes {'‚úÖ' if local_path else '‚ùå'}")
    print(f"   - Im√°genes scrapeadas: {scraped_count:,} im√°genes {'‚úÖ' if scraped_path else '‚ùå'}")
    print(f"   - Total nuestras im√°genes: {our_total:,} im√°genes")
    
    total_images = cid_count + our_total
    print(f"\nüìä TOTAL COMBINADO: {total_images:,} im√°genes")
    
    # Estrategia seg√∫n disponibilidad
    if cid_path and our_total > 0:
        print(f"\n‚úÖ ESTRATEGIA B ACTIVADA: Combinaci√≥n desde el inicio")
        print(f"   - CID: {cid_count:,} im√°genes (diversidad)")
        print(f"   - Nuestras: {our_total:,} im√°genes (especificidad)")
        print(f"   - Total: {total_images:,} im√°genes para entrenamiento")
        
        # Crear estructura combinada
        combined_dir = RAW_DIR / 'combined'
        combined_dir.mkdir(parents=True, exist_ok=True)
        
        # Guardar metadata de combinaci√≥n
        metadata_info = {
            'cid_available': cid_path is not None,
            'cid_count': cid_count,
            'local_available': local_path is not None,
            'local_count': local_count,
            'scraped_available': scraped_path is not None,
            'scraped_count': scraped_count,
            'total_our_images': our_total,
            'total_combined': total_images,
            'strategy': 'B - Combination from start'
        }
        
        with open(combined_dir / 'dataset_info.json', 'w') as f:
            json.dump(metadata_info, f, indent=2)
        
        print(f"\n‚úÖ Estructura combinada creada en: {combined_dir}")
        return True
        
    elif cid_path and our_total == 0:
        print(f"\n‚ö†Ô∏è Solo CID disponible ({cid_count:,} im√°genes)")
        print(f"üí° Recomendaci√≥n: Descarga nuestras im√°genes para mejor modelo")
        return True
        
    elif not cid_path and our_total > 0:
        print(f"\n‚ö†Ô∏è Solo nuestras im√°genes disponibles ({our_total:,} im√°genes)")
        print(f"üí° Recomendaci√≥n: Descarga CID Dataset para mejor modelo")
        print(f"üí° Puedes entrenar solo con nuestras im√°genes, pero CID mejorar√≠a el modelo")
        return True
    
    # Si no hay datasets
    print("\n" + "=" * 60)
    print("‚ö†Ô∏è NO SE ENCONTRARON DATASETS")
    print("=" * 60)
    print()
    print("üí° PASOS RECOMENDADOS:")
    print(f"   1. Descarga CID Dataset (~17,899 im√°genes)")
    print(f"   2. Descarga nuestras im√°genes (200+ por raza)")
    print(f"   3. Vuelve a ejecutar este bloque para combinar ambos")
    print()
    
    print(f"\nüìã ESTRUCTURA M√çNIMA PARA ENTRENAMIENTO:")
    print(f"   - M√≠nimo viable: 100 im√°genes por raza (700 total)")
    print(f"   - Recomendado: 150 im√°genes por raza (1050 total)")
    print(f"   - Ideal: 200+ im√°genes por raza (1400+ total)")
    print(f"   - Con CID: {1400 + 17899:,} im√°genes totales (MEJOR MODELO)")

    return False


# Ejecutar
try:
    success = create_combined_dataset()

    if success:
        print(f"\n‚úÖ BLOQUE 6 COMPLETADO - Dataset combinado preparado")
        print(f"üí° Estrategia B: CID + Nuestras im√°genes listas para entrenamiento")
    else:
        print(f"\n‚ö†Ô∏è BLOQUE 6 COMPLETADO - Estructura demo creada")
        print(f"üí° Descarga CID Dataset y nuestras im√°genes primero")

except Exception as e:
    print(f"\n‚ùå Error: {e}")
    import traceback
    traceback.print_exc()

print(f"\n{'=' * 60}")



In [None]:
# ============================================================
# BLOQUE 9: RESUMEN DE DATASETS
# ============================================================
# üìä Muestra resumen de datasets disponibles (CID + nuestras im√°genes)

import pandas as pd
from pathlib import Path

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

if 'DATA_DIR' not in globals():
    DATA_DIR = RAW_DIR.parent / 'processed'
    DATA_DIR.mkdir(parents=True, exist_ok=True)


def summarize_datasets():
    """Resumen de datasets disponibles."""
    print("=" * 60)
    print("üìä RESUMEN DE DATASETS")
    print("=" * 60)
    print()

    datasets_info = []

    # CID Dataset
    cid_dir = RAW_DIR / 'cid'
    cid_count = 0
    if cid_dir.exists():
        cid_images_dir = cid_dir / 'images'
        cid_yt_dir = cid_dir / 'yt_images'
        if cid_images_dir.exists():
            cid_count += len(list(cid_images_dir.rglob('*.jpg')) + list(cid_images_dir.rglob('*.png')))
        if cid_yt_dir.exists():
            cid_count += len(list(cid_yt_dir.rglob('*.jpg')) + list(cid_yt_dir.rglob('*.png')))
    
    datasets_info.append({
        'name': 'CID Dataset',
        'images': cid_count,
        'description': 'Diversidad y calidad',
        'status': '‚úÖ Disponible' if cid_count > 0 else '‚ùå No disponible'
    })

    # Nuestras im√°genes (scraped)
    scraped_dir = RAW_DIR / 'scraped'
    scraped_count = 0
    if scraped_dir.exists():
        scraped_count = len(list(scraped_dir.rglob('*.jpg')) + list(scraped_dir.rglob('*.png')))
    
    datasets_info.append({
        'name': 'Nuestras Im√°genes',
        'images': scraped_count,
        'description': 'Especificidad local (razas bolivianas)',
        'status': '‚úÖ Disponible' if scraped_count > 0 else '‚ùå No disponible'
    })

    # Im√°genes locales
    local_dir = RAW_DIR / 'local_images'
    local_count = 0
    if local_dir.exists():
        local_count = len(list(local_dir.rglob('*.jpg')) + list(local_dir.rglob('*.png')) + list(local_dir.rglob('*.jpeg')))
    
    if local_count > 0:
        datasets_info.append({
            'name': 'Im√°genes Locales',
            'images': local_count,
            'description': 'Fotos manuales o descargadas',
            'status': '‚úÖ Disponible'
        })

    # Mostrar resumen
    df_datasets = pd.DataFrame(datasets_info)
    print(df_datasets.to_string(index=False))
    
    total_images = int(df_datasets['images'].sum())
    print(f"\nüéØ TOTAL: {total_images:,} im√°genes")
    
    # Guardar resumen
    summary_path = DATA_DIR / 'datasets_summary.csv'
    df_datasets.to_csv(summary_path, index=False)
    print(f"üíæ Resumen guardado: {summary_path}")
    
    return df_datasets


# Ejecutar
try:
    datasets_summary = summarize_datasets()
    print(f"\n‚úÖ BLOQUE 9 COMPLETADO")
except Exception as e:
    print(f"\n‚ùå Error: {e}")
    import traceback
    traceback.print_exc()

print(f"\n{'=' * 60}")


## üìä D√≠a 4: An√°lisis Exploratorio de Datos (EDA)


In [None]:
# ============================================================
# BLOQUE 10: VERIFICACI√ìN R√ÅPIDA DE DATOS (OPCIONAL)
# ============================================================
# ‚úÖ Verificaci√≥n m√≠nima: columnas requeridas para entrenamiento
# ‚ö†Ô∏è OPCIONAL: Puedes saltar este bloque para entrenar m√°s r√°pido
# üí° Solo verifica que los datos tienen peso y raza (sin gr√°ficos)

import pandas as pd
from pathlib import Path

print("=" * 60)
print("‚úÖ VERIFICACI√ìN R√ÅPIDA DE DATOS (OPCIONAL)")
print("=" * 60)
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')


def quick_verification():
    """Verificaci√≥n m√≠nima: solo comprobar que existen datos con columnas necesarias."""
    # 1. Intentar CID Dataset
    cid_dir = RAW_DIR / 'cid'
    if cid_dir.exists():
        metadata_files = list(cid_dir.rglob('*.csv'))
        if metadata_files:
            try:
                df = pd.read_csv(metadata_files[0])
                print(f"‚úÖ CID Dataset: {len(df):,} registros")
                print(f"üìã Columnas: {list(df.columns)}")
                
                # Verificar columnas necesarias
                has_weight = any('weight' in col.lower() or 'peso' in col.lower() for col in df.columns)
                has_breed = any('breed' in col.lower() or 'raza' in col.lower() for col in df.columns)
                
                if has_weight and has_breed:
                    print("‚úÖ Datos listos para entrenamiento")
                else:
                    print("‚ö†Ô∏è Faltan columnas: peso o raza")
                return True
            except:
                pass
    
    # 2. Intentar metadata scraped
    scraped_metadata = RAW_DIR / 'scraped' / 'metadata.csv'
    if scraped_metadata.exists():
        try:
            df = pd.read_csv(scraped_metadata)
            print(f"‚úÖ Dataset Scraped: {len(df):,} registros")
            print(f"üìã Columnas: {list(df.columns)}")
            
            has_weight = 'weight_kg' in df.columns
            has_breed = 'breed' in df.columns
            
            if has_weight and has_breed:
                print("‚úÖ Datos listos para entrenamiento")
            else:
                print("‚ö†Ô∏è Faltan columnas: weight_kg o breed")
            return True
        except:
            pass
    
    print("‚ö†Ô∏è No se encontr√≥ metadata")
    print("üí° El pipeline puede funcionar solo con im√°genes en carpetas")
    return False


# Ejecutar
try:
    verified = quick_verification()
    if verified:
        print(f"\n‚úÖ BLOQUE 10 COMPLETADO - Datos verificados")
    else:
        print(f"\n‚úÖ BLOQUE 10 COMPLETADO - Sin metadata (puedes continuar)")
except Exception as e:
    print(f"\n‚ö†Ô∏è Error en verificaci√≥n: {e}")
    print("üí° Puedes continuar con el entrenamiento")

print(f"\n{'=' * 60}")


## üîß D√≠a 5-6: Preparar Pipeline de Datos


In [None]:
# ============================================================
# BLOQUE 11: PIPELINE DE DATOS OPTIMIZADO
# ============================================================
# üîß Crea pipeline de datos usando m√≥dulos del proyecto
# ‚ö†Ô∏è Funciona con CID Dataset (BLOQUE 7) o dataset scrapeado (BLOQUE 10)
# üí° Usa: CattleDataGenerator (data.data_loader) y get_aggressive_augmentation (data.augmentation)

import pandas as pd
import numpy as np
from pathlib import Path

# Verificar que los m√≥dulos est√°n importados (BLOQUE 1)
try:
    from data.data_loader import CattleDataGenerator
    from data.augmentation import get_aggressive_augmentation, get_validation_transform
    print("‚úÖ M√≥dulos del proyecto importados correctamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulos del proyecto: {e}")
    print("üí° Ejecuta el BLOQUE 1 primero para importar los m√≥dulos")
    raise

print("=" * 60)
print("üîß PIPELINE DE DATOS OPTIMIZADO (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que RAW_DIR est√° definido
if 'RAW_DIR' not in globals():
    if 'BASE_DIR' in globals():
        RAW_DIR = BASE_DIR / 'data' / 'raw'
    else:
        RAW_DIR = Path('/content/drive/MyDrive/bovine-weight-estimation/data/raw')

# Intentar cargar dataset disponible
df_pipeline = None
dataset_name = "Desconocido"
base_data_dir = None

# 1. Intentar usar df_cid si est√° disponible (BLOQUE 12)
if 'df_cid' in globals() and df_cid is not None:
    df_pipeline = df_cid.copy()
    dataset_name = "CID Dataset"
    base_data_dir = RAW_DIR / 'cid' / 'CID'
    print(f"‚úÖ Usando CID Dataset: {len(df_pipeline):,} registros")
else:
    # 2. Intentar cargar metadata del dataset scrapeado (BLOQUE 6)
    scraped_metadata = RAW_DIR / 'scraped' / 'metadata.csv'
    if scraped_metadata.exists():
        try:
            df_pipeline = pd.read_csv(scraped_metadata)
            dataset_name = "Dataset Scrapeado"
            base_data_dir = RAW_DIR / 'scraped'
            print(f"‚úÖ Usando Dataset Scrapeado: {len(df_pipeline):,} registros")
        except Exception as e:
            print(f"‚ö†Ô∏è Error cargando metadata scrapeado: {e}")
    else:
        print("‚ö†Ô∏è No se encontr√≥ ning√∫n dataset disponible")
        print("üí° Ejecuta el BLOQUE 6 para descargar im√°genes o BLOQUE 7 para CID Dataset")

if df_pipeline is None or len(df_pipeline) == 0:
    print("\n‚ùå No hay datos disponibles para pipeline")
    print("üí° Ejecuta BLOQUE 6 para descargar im√°genes o BLOQUE 7 para CID Dataset")
    raise ValueError("No hay dataset disponible para crear el pipeline")

# Verificar y ajustar columnas para CattleDataGenerator
# CattleDataGenerator espera: 'image_filename', 'weight_kg', 'breed'
if 'image_path' in df_pipeline.columns:
    # Convertir image_path a image_filename (ruta relativa)
    if base_data_dir:
        def get_relative_path(path_str):
            path = Path(path_str)
            if path.is_absolute():
                try:
                    return path.relative_to(base_data_dir)
                except ValueError:
                    return Path(path.name)  # Si no es relativo, usar solo el nombre
            return path
        df_pipeline['image_filename'] = df_pipeline['image_path'].apply(get_relative_path)
    else:
        df_pipeline['image_filename'] = df_pipeline['image_path'].apply(lambda x: Path(x).name)

# Verificar columnas requeridas
required_cols = ['image_filename', 'weight_kg', 'breed']
missing_cols = [col for col in required_cols if col not in df_pipeline.columns]
if missing_cols:
    print(f"‚ùå Faltan columnas requeridas: {missing_cols}")
    print(f"üí° Columnas disponibles: {list(df_pipeline.columns)}")
    raise ValueError(f"Columnas requeridas faltantes: {missing_cols}")

print(f"\n‚úÖ Dataset cargado: {len(df_pipeline):,} registros")
print(f"üìä Columnas: {list(df_pipeline.columns)}")
print(f"üìÅ Directorio base de im√°genes: {base_data_dir}")

# Dividir datos en train/val/test
print("\nüìä Dividiendo datos en train/val/test...")
df_shuffled = df_pipeline.sample(frac=1, random_state=42).reset_index(drop=True)

n_total = len(df_shuffled)
n_train = int(n_total * (1 - CONFIG['validation_split'] - CONFIG['test_split']))
n_val = int(n_total * CONFIG['validation_split'])

df_train = df_shuffled[:n_train]
df_val = df_shuffled[n_train:n_train + n_val]
df_test = df_shuffled[n_train + n_val:]

print(f"üìà Train: {len(df_train):,} ({len(df_train)/n_total*100:.1f}%)")
print(f"üìà Val: {len(df_val):,} ({len(df_val)/n_total*100:.1f}%)")
print(f"üìà Test: {len(df_test):,} ({len(df_test)/n_total*100:.1f}%)")

# Crear generadores usando m√≥dulos del proyecto
print(f"\nüîß Creando generadores de datos usando CattleDataGenerator...")

# Augmentation para entrenamiento (agresivo para dataset peque√±o)
train_transform = get_aggressive_augmentation(image_size=CONFIG['image_size'])
val_transform = get_validation_transform(image_size=CONFIG['image_size'])

# Crear generadores
train_generator = CattleDataGenerator(
    annotations_df=df_train,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=train_transform,
    shuffle=True
)

val_generator = CattleDataGenerator(
    annotations_df=df_val,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=val_transform,
    shuffle=False
)

test_generator = CattleDataGenerator(
    annotations_df=df_test,
    images_dir=base_data_dir if base_data_dir else RAW_DIR,
    batch_size=CONFIG['batch_size'],
    image_size=CONFIG['image_size'],
    transform=val_transform,
    shuffle=False
)

print(f"\n‚úÖ BLOQUE 11 COMPLETADO")
print(f"üìä Generadores creados usando m√≥dulos del proyecto:")
print(f"   - Train: {len(df_train):,} im√°genes ({len(train_generator)} batches)")
print(f"   - Val: {len(df_val):,} im√°genes ({len(val_generator)} batches)")
print(f"   - Test: {len(df_test):,} im√°genes ({len(test_generator)} batches)")
print(f"üí° Contin√∫a con el BLOQUE 12 para crear la arquitectura del modelo")


In [None]:
# ============================================================
# BLOQUE 12: ARQUITECTURA DEL MODELO
# ============================================================
# üèóÔ∏è Crea modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 11 ejecutado (generadores creados)
# üí° Usa: BreedWeightEstimatorCNN.build_generic_model() (models.cnn_architecture)

print("=" * 60)
print("üèóÔ∏è ARQUITECTURA DEL MODELO (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que los m√≥dulos est√°n importados (BLOQUE 2)
try:
    from models.cnn_architecture import BreedWeightEstimatorCNN
    print("‚úÖ M√≥dulo BreedWeightEstimatorCNN importado correctamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Ejecuta el BLOQUE 2 primero para importar los m√≥dulos")
    raise

# Crear modelo gen√©rico usando m√≥dulo del proyecto
print("üèóÔ∏è Creando modelo gen√©rico usando BreedWeightEstimatorCNN...")
print(f"üìä Configuraci√≥n:")
print(f"   - Image size: {CONFIG['image_size']}")
print(f"   - Base architecture: EfficientNetB1 (desde m√≥dulo)")

# Usar build_generic_model del m√≥dulo del proyecto
model = BreedWeightEstimatorCNN.build_generic_model(
    input_shape=CONFIG['image_size'] + (3,),
    base_architecture='efficientnetb1'  # O 'mobilenetv2' para m√°s r√°pido
)

# Re-compilar con learning rate personalizado
model.compile(
    optimizer=optimizers.Adam(learning_rate=CONFIG['learning_rate']),
    loss='mse',
    metrics=['mae', 'mse']
)

print(f"\n‚úÖ Modelo creado con {model.count_params():,} par√°metros")
print(f"üìä Arquitectura: {model.name}")
print(f"üí° Usando m√≥dulo del proyecto: models.cnn_architecture.BreedWeightEstimatorCNN")

# Mostrar resumen
print(f"\nüìê Resumen del modelo:")
model.summary()


In [None]:
# ============================================================
# BLOQUE 13: CONFIGURACI√ìN DE ENTRENAMIENTO
# ============================================================
# ‚öôÔ∏è Configura callbacks (EarlyStopping, ReduceLR, ModelCheckpoint, TensorBoard)
# ‚ö†Ô∏è Requiere: BLOQUE 12 ejecutado (modelo creado)

def setup_training_callbacks():
    """Configurar callbacks para entrenamiento"""
    print("‚öôÔ∏è Configurando callbacks de entrenamiento...")
    
    callbacks_list = [
        # Early stopping
        callbacks.EarlyStopping(
            monitor='val_loss',
            patience=CONFIG['early_stopping_patience'],
            restore_best_weights=True,
            verbose=1
        ),
        
        # Reduce learning rate on plateau
        callbacks.ReduceLROnPlateau(
            monitor='val_loss',
            factor=0.5,
            patience=5,
            min_lr=1e-7,
            verbose=1
        ),
        
        # Model checkpoint
        callbacks.ModelCheckpoint(
            filepath=str(MODELS_DIR / 'best_model.h5'),
            monitor='val_loss',
            save_best_only=True,
            verbose=1
        ),
        
        # TensorBoard
        callbacks.TensorBoard(
            log_dir=str(BASE_DIR / 'logs'),
            histogram_freq=1,
            write_graph=True,
            write_images=True
        )
    ]
    
    print(f"‚úÖ {len(callbacks_list)} callbacks configurados")
    return callbacks_list

# Configurar callbacks
training_callbacks = setup_training_callbacks()

# Configurar MLflow
def start_mlflow_run():
    """Iniciar run de MLflow"""
    # Detectar nombre del dataset usado
    dataset_used = 'Scraped'
    if 'df_cid' in globals() and df_cid is not None:
        dataset_used = 'CID'
    elif 'dataset_name' in globals():
        dataset_used = dataset_name.replace('Dataset', '').strip()
    
    run = mlflow.start_run(run_name=f"cattle-weight-{dataset_used.lower()}-model")

    mlflow.log_params({
        'dataset': dataset_used,
        'model': 'EfficientNetB0',
        'batch_size': CONFIG['batch_size'],
        'learning_rate': CONFIG['learning_rate'],
        'epochs': CONFIG['epochs'],
        'image_size': CONFIG['image_size'],
        'augmentation': 'Albumentations'
    })

    print(f"üî¨ MLflow run iniciado: {run.info.run_id}")
    print(f"üìä Dataset registrado: {dataset_used}")
    return run

# Iniciar MLflow run
mlflow_run = start_mlflow_run()


In [None]:
# ============================================================
# BLOQUE 14: ENTRENAMIENTO DEL MODELO
# ============================================================
# üöÄ Entrena el modelo base (puede tardar horas con GPU)
# ‚ö†Ô∏è Requiere: BLOQUE 13 ejecutado (callbacks configurados)
# ‚ö†Ô∏è Tiempo estimado: 2-4 horas con GPU T4 (100 √©pocas)

def train_model():
    """Entrenar modelo base usando generadores del proyecto"""
    print("üöÄ Iniciando entrenamiento del modelo base...")
    print(f"üìä Configuraci√≥n: {CONFIG}")
    
    # Verificar que los generadores existen
    if 'train_generator' not in globals() or 'val_generator' not in globals():
        raise ValueError("Generadores no encontrados. Ejecuta el BLOQUE 11 primero.")
    
    # Calcular steps por √©poca (usando generadores)
    steps_per_epoch = len(train_generator)
    validation_steps = len(val_generator)
    
    print(f"üìà Steps por √©poca: {steps_per_epoch}")
    print(f"üìà Validation steps: {validation_steps}")
    print(f"üí° Usando generadores del proyecto (CattleDataGenerator)")
    
    # Entrenar modelo usando generadores
    history = model.fit(
        train_generator,
        epochs=CONFIG['epochs'],
        validation_data=val_generator,
        callbacks=training_callbacks,
        verbose=1
    )
    
    print("‚úÖ Entrenamiento completado")
    return history

# Entrenamiento real (requiere generadores preparados y tiempo de ejecuci√≥n con GPU)
history = train_model()


In [None]:
# ============================================================
# BLOQUE 15: EVALUACI√ìN DEL MODELO
# ============================================================
# üìä Eval√∫a el modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 14 ejecutado (modelo entrenado)
# üí° Usa: MetricsCalculator (models.evaluation.metrics)

import numpy as np

print("=" * 60)
print("üìä EVALUACI√ìN DEL MODELO (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que los m√≥dulos est√°n importados (BLOQUE 2)
try:
    from models.evaluation.metrics import MetricsCalculator, ModelMetrics
    print("‚úÖ M√≥dulo MetricsCalculator importado correctamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Ejecuta el BLOQUE 2 primero para importar los m√≥dulos")
    raise

# Verificar que el generador de test existe
if 'test_generator' not in globals():
    raise ValueError("Generador de test no encontrado. Ejecuta el BLOQUE 11 primero.")

def evaluate_model():
    """Evaluar modelo en conjunto de test usando MetricsCalculator"""
    print("üìä Evaluando modelo en conjunto de test...")
    
    # Obtener predicciones y valores reales
    y_true = []
    y_pred = []
    
    print("üîç Generando predicciones...")
    for i in range(len(test_generator)):
        batch_images, batch_targets = test_generator[i]
        predictions = model.predict(batch_images, verbose=0)
        y_true.extend(batch_targets.flatten())
        y_pred.extend(predictions.flatten())
    
    # Convertir a numpy arrays
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    
    print(f"üìä Total predicciones: {len(y_true):,}")
    
    # Calcular m√©tricas usando m√≥dulo del proyecto
    print("\nüìà Calculando m√©tricas usando MetricsCalculator...")
    metrics = MetricsCalculator.calculate_metrics(
        y_true=y_true,
        y_pred=y_pred,
        breed_type='generic'
    )
    
    # Mostrar resultados
    print(f"\nüìà RESULTADOS DE EVALUACI√ìN:")
    print(f"   R¬≤: {metrics.r2_score:.4f}")
    print(f"   MAE: {metrics.mae_kg:.2f} kg")
    print(f"   MSE: {metrics.mse_kg:.2f}")
    print(f"   MAPE: {metrics.mape_percent:.2f}%")
    print(f"   Bias: {metrics.bias_kg:.2f} kg")
    
    # Verificar objetivos (con validaci√≥n opcional)
    print(f"\nüéØ VERIFICACI√ìN DE OBJETIVOS:")
    r2_ok = metrics.r2_score >= CONFIG['target_r2']
    mae_ok = metrics.mae_kg < CONFIG['max_mae']
    
    print(f"   R¬≤ ‚â• {CONFIG['target_r2']}: {'‚úÖ' if r2_ok else '‚ö†Ô∏è'} ({metrics.r2_score:.4f})")
    print(f"   MAE < {CONFIG['max_mae']} kg: {'‚úÖ' if mae_ok else '‚ö†Ô∏è'} ({metrics.mae_kg:.2f} kg)")
    
    if not (r2_ok and mae_ok):
        print(f"\nüí° NOTA: Los objetivos no se cumplieron completamente")
        print(f"üí° Esto es normal en un primer entrenamiento. Puedes:")
        print(f"   - Ajustar hiperpar√°metros")
        print(f"   - Entrenar m√°s √©pocas")
        print(f"   - Usar fine-tuning")
    
    # Log m√©tricas en MLflow
    if 'mlflow' in globals() and ('mlflow_available' in globals() and mlflow_available):
        mlflow.log_metrics({
            'test_r2': metrics.r2_score,
            'test_mae_kg': metrics.mae_kg,
            'test_mse_kg': metrics.mse_kg,
            'test_mape_percent': metrics.mape_percent,
            'test_bias_kg': metrics.bias_kg
        })
    
    return metrics.to_dict()

# Evaluar modelo
evaluation_results = evaluate_model()

print(f"\n‚úÖ BLOQUE 15 COMPLETADO")
print(f"üí° M√©tricas calculadas usando m√≥dulo del proyecto: MetricsCalculator")


In [None]:
# ============================================================
# BLOQUE 12: EXPORTAR A TFLITE
# ============================================================
# üì± Exporta modelo usando m√≥dulos del proyecto
# ‚ö†Ô∏è Requiere: BLOQUE 15 ejecutado (modelo evaluado)
# üí° Usa: TFLiteExporter (models.export.tflite_converter)

print("=" * 60)
print("üì± EXPORTAR A TFLITE (USANDO M√ìDULOS DEL PROYECTO)")
print("=" * 60)
print()

# Verificar que los m√≥dulos est√°n importados (BLOQUE 2)
try:
    from models.export.tflite_converter import TFLiteExporter
    print("‚úÖ M√≥dulo TFLiteExporter importado correctamente")
except ImportError as e:
    print(f"‚ùå Error importando m√≥dulo del proyecto: {e}")
    print("üí° Ejecuta el BLOQUE 2 primero para importar los m√≥dulos")
    raise

# Guardar modelo temporalmente para conversi√≥n
print("üíæ Guardando modelo temporalmente para conversi√≥n...")
temp_model_path = MODELS_DIR / 'temp_model.h5'
MODELS_DIR.mkdir(parents=True, exist_ok=True)
model.save(str(temp_model_path))
print(f"‚úÖ Modelo guardado en: {temp_model_path}")

# Exportar usando TFLiteExporter del proyecto
tflite_path = MODELS_DIR / 'generic-cattle-v1.0.0.tflite'

print(f"\nüì± Exportando modelo a TFLite usando TFLiteExporter...")
print(f"üìÅ Archivo de salida: {tflite_path}")

# Usar TFLiteExporter del proyecto (optimizaci√≥n FP16 por defecto)
model_size_bytes = TFLiteExporter.convert_to_tflite(
    saved_model_path=str(temp_model_path),
    output_path=str(tflite_path),
    optimization='default'  # FP16: reduce 2x el tama√±o, mantiene precisi√≥n
)

model_size_kb = model_size_bytes / 1024
model_size_mb = model_size_kb / 1024

# Log en MLflow
if 'mlflow' in globals() and ('mlflow_available' in globals() and mlflow_available):
    mlflow.log_artifact(str(tflite_path))
    mlflow.log_metric('model_size_kb', model_size_kb)
    mlflow.log_metric('model_size_mb', model_size_mb)

# Limpiar modelo temporal
try:
    temp_model_path.unlink()
    print(f"üßπ Modelo temporal eliminado")
except:
    pass

print(f"\n‚úÖ BLOQUE 16 COMPLETADO")
print(f"üéØ MODELO BASE LISTO PARA INTEGRACI√ìN")
print(f"üìÅ Archivo: {tflite_path}")
print(f"üìè Tama√±o: {model_size_mb:.2f} MB ({model_size_kb:.1f} KB)")
print(f"üí° Usando m√≥dulo del proyecto: TFLiteExporter")
if 'mlflow_run' in globals():
    print(f"üî¨ MLflow run: {mlflow_run.info.run_id}")


## üìã Resumen y Pr√≥ximos Pasos


## üìù Notas Importantes

### ‚ö†Ô∏è Configuraci√≥n Requerida
1. **Kaggle API**: Subir `kaggle.json` para descargar datasets
2. **CID Dataset**: Reemplazar URL simulada con URL real
3. **CattleEyeView**: Solicitar acceso a autores del paper

### üîß Optimizaciones Implementadas
- **Mixed Precision**: FP16 para acelerar entrenamiento
- **Data Pipeline**: Cache + prefetch + shuffle optimizado
- **Augmentation**: Albumentations espec√≠fico para ganado
- **TFLite Export**: Optimizado para m√≥vil

### üìä M√©tricas Objetivo
- **R¬≤ ‚â• 0.95**: Explicaci√≥n 95% de varianza
- **MAE < 5 kg**: Error absoluto promedio
- **Inference < 3s**: Tiempo en m√≥vil

### üéØ Estado Actual
- ‚úÖ **Infraestructura ML**: Completada
- ‚úÖ **Pipeline de datos**: Optimizado
- ‚úÖ **Modelo base**: Listo para fine-tuning
- üîÑ **Pr√≥ximo**: Fine-tuning por raza espec√≠fica
