# 01 - Preparaci√≥n de Dataset para Detecci√≥n de EPP

Este notebook gu√≠a el proceso de preparaci√≥n del dataset para entrenar modelos de detecci√≥n de EPP.

## Objetivos:
- Recolectar y organizar im√°genes de entorno industrial
- Anotar EPPs usando herramientas como Roboflow, LabelImg o CVAT
- Preparar dataset en formato YOLO y Azure Custom Vision
- Realizar data augmentation para mejorar robustez

## EPPs a Detectar:
1. **Gafas de seguridad** (obligatorio)
2. **Zapatos de seguridad** (obligatorio)
3. **Traje/overol verde o cotona blanca/azul** (obligatorio)
4. **Mascarilla/respirador qu√≠mico** (condicional)
5. **Guantes resistentes a qu√≠micos** (condicional)

In [None]:
# Instalaci√≥n de dependencias
!pip install roboflow pillow opencv-python albumentations pandas matplotlib

In [None]:
import os
import yaml
from pathlib import Path
import shutil
from PIL import Image
import cv2
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from dotenv import load_dotenv

# Cargar variables de entorno
load_dotenv('../.env')

# Configuraci√≥n
PROJECT_ROOT = Path('..').resolve()
DATA_DIR = PROJECT_ROOT / 'data'
RAW_DIR = DATA_DIR / 'raw'
PROCESSED_DIR = DATA_DIR / 'processed'
MODELS_DIR = DATA_DIR / 'models'

# Crear directorios
for dir_path in [RAW_DIR, PROCESSED_DIR, MODELS_DIR]:
    dir_path.mkdir(parents=True, exist_ok=True)

print(f"Directorios creados en: {DATA_DIR}")

## Paso 1: Fuentes de Datos

### Opci√≥n A: Dataset P√∫blico (Inicial)
Puedes empezar con datasets p√∫blicos de PPE/EPP:
- Roboflow Universe: https://universe.roboflow.com/search?q=ppe
- Dataset de Kaggle sobre PPE detection
- Open Images Dataset (con filtros de seguridad industrial)

### Opci√≥n B: Dataset Personalizado (Recomendado para producci√≥n)
Captura im√°genes de TU planta de lixiviaci√≥n:
1. Toma 500-1000 fotos del entorno real
2. Incluye variaciones: diferentes √°ngulos, iluminaci√≥n, personas
3. Captura casos positivos (con EPP) y negativos (sin EPP)
4. Incluye los colores espec√≠ficos: overol verde, cotona blanca/azul

In [None]:
# Opci√≥n A: Descargar dataset de Roboflow
from roboflow import Roboflow

ROBOFLOW_API_KEY = os.getenv('ROBOFLOW_API_KEY')

if ROBOFLOW_API_KEY:
    rf = Roboflow(api_key=ROBOFLOW_API_KEY)
    
    # Ejemplo: descargar dataset p√∫blico de PPE
    # Busca en https://universe.roboflow.com un dataset de PPE que te guste
    # project = rf.workspace("workspace-name").project("project-name")
    # dataset = project.version(1).download("yolov8", location=str(RAW_DIR))
    
    print("Configura tu proyecto de Roboflow para descargar dataset")
else:
    print("‚ö†Ô∏è ROBOFLOW_API_KEY no configurada. A√±√°dela al archivo .env")
    print("Puedes obtener una API key gratuita en: https://roboflow.com")

## Paso 2: Estructura del Dataset

Organizaremos el dataset en formato est√°ndar para YOLO y Azure:

```
data/
‚îú‚îÄ‚îÄ raw/                  # Datos originales sin procesar
‚îú‚îÄ‚îÄ processed/
‚îÇ   ‚îú‚îÄ‚îÄ yolo/            # Formato YOLO (para open source)
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ images/
‚îÇ   ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ train/
‚îÇ   ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ val/
‚îÇ   ‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ test/
‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ labels/
‚îÇ   ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ train/
‚îÇ   ‚îÇ   ‚îÇ   ‚îú‚îÄ‚îÄ val/
‚îÇ   ‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ test/
‚îÇ   ‚îÇ   ‚îî‚îÄ‚îÄ data.yaml
‚îÇ   ‚îî‚îÄ‚îÄ azure/           # Formato Azure Custom Vision
‚îÇ       ‚îú‚îÄ‚îÄ images/
‚îÇ       ‚îî‚îÄ‚îÄ annotations.csv
‚îî‚îÄ‚îÄ models/              # Modelos entrenados
```

In [None]:
# Crear estructura de directorios
YOLO_DIR = PROCESSED_DIR / 'yolo'
AZURE_DIR = PROCESSED_DIR / 'azure'

for split in ['train', 'val', 'test']:
    (YOLO_DIR / 'images' / split).mkdir(parents=True, exist_ok=True)
    (YOLO_DIR / 'labels' / split).mkdir(parents=True, exist_ok=True)

(AZURE_DIR / 'images').mkdir(parents=True, exist_ok=True)

print("‚úÖ Estructura de directorios creada")

## Paso 3: Clases de EPP

Definimos las clases que detectar√° nuestro modelo:

In [None]:
# Definici√≥n de clases
PPE_CLASSES = {
    0: 'safety_glasses',      # Gafas de seguridad
    1: 'safety_shoes',         # Zapatos de seguridad
    2: 'green_coverall',       # Overol verde
    3: 'white_coat',           # Cotona blanca
    4: 'blue_coat',            # Cotona azul
    5: 'chemical_mask',        # Mascarilla qu√≠mica
    6: 'chemical_gloves',      # Guantes qu√≠micos
    7: 'person_no_ppe',        # Persona sin EPP (para detecci√≥n negativa)
}

# Crear archivo data.yaml para YOLO
data_yaml = {
    'path': str(YOLO_DIR.absolute()),
    'train': 'images/train',
    'val': 'images/val',
    'test': 'images/test',
    'nc': len(PPE_CLASSES),  # n√∫mero de clases
    'names': list(PPE_CLASSES.values())
}

with open(YOLO_DIR / 'data.yaml', 'w') as f:
    yaml.dump(data_yaml, f, default_flow_style=False)

print("‚úÖ Archivo data.yaml creado")
print(f"Clases: {list(PPE_CLASSES.values())}")

## Paso 4: Herramientas de Anotaci√≥n

Para anotar tus im√°genes personalizadas, usa una de estas herramientas:

### 1. Roboflow (Recomendado - Cloud)
- **Ventajas**: Interface intuitiva, auto-labeling con IA, augmentation autom√°tica
- **Link**: https://roboflow.com
- **Costo**: Plan gratuito hasta 10,000 im√°genes
- **Export**: Directo a YOLO, Azure, etc.

### 2. LabelImg (Local - Open Source)
```bash
pip install labelImg
labelImg
```

### 3. CVAT (Local/Cloud - Open Source)
- **Link**: https://cvat.org
- **Ventajas**: Colaborativo, potente, gratis

### Consejos de Anotaci√≥n:
1. **Precisi√≥n**: Dibuja bounding boxes ajustados al EPP
2. **Consistencia**: Usa los mismos nombres de clase siempre
3. **Casos dif√≠ciles**: Incluye oclusiones parciales, diferentes √°ngulos
4. **Balance**: Asegura que todas las clases tengan similar cantidad de ejemplos

## Paso 5: Data Augmentation

Aumentar el dataset con transformaciones para mejorar la robustez del modelo:

In [None]:
import albumentations as A
from albumentations.pytorch import ToTensorV2

# Definir transformaciones de augmentation
transform = A.Compose([
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.3),
    A.RandomGamma(p=0.3),
    A.Blur(blur_limit=3, p=0.2),
    A.GaussNoise(p=0.2),
    A.ShiftScaleRotate(shift_limit=0.1, scale_limit=0.2, rotate_limit=15, p=0.5),
    A.HueSaturationValue(p=0.3),
], bbox_params=A.BboxParams(format='yolo', label_fields=['class_labels']))

print("‚úÖ Pipeline de augmentation configurado")
print("Transformaciones: Flip, Brightness, Blur, Noise, Rotation, Color")

In [None]:
# Ejemplo de aplicaci√≥n de augmentation
def augment_image(image_path, bboxes, class_labels, num_augmentations=3):
    """
    Aplica data augmentation a una imagen y sus bounding boxes
    
    Args:
        image_path: Ruta a la imagen original
        bboxes: Lista de bounding boxes en formato YOLO [x_center, y_center, width, height]
        class_labels: Lista de etiquetas de clase para cada bbox
        num_augmentations: N√∫mero de versiones augmentadas a generar
    
    Returns:
        Lista de tuplas (imagen_augmentada, bboxes_augmentados, labels)
    """
    image = cv2.imread(str(image_path))
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    
    augmented_samples = []
    
    for i in range(num_augmentations):
        transformed = transform(image=image, bboxes=bboxes, class_labels=class_labels)
        augmented_samples.append((
            transformed['image'],
            transformed['bboxes'],
            transformed['class_labels']
        ))
    
    return augmented_samples

# Ejemplo de uso (comentado hasta que tengas im√°genes)
# augmented = augment_image('ruta/a/imagen.jpg', [[0.5, 0.5, 0.3, 0.4]], [0])
print("‚úÖ Funci√≥n de augmentation lista")

## Paso 6: An√°lisis del Dataset

Una vez que tengas im√°genes anotadas, analiza la distribuci√≥n:

In [None]:
def analyze_dataset(labels_dir):
    """
    Analiza la distribuci√≥n de clases en el dataset
    """
    class_counts = {class_name: 0 for class_name in PPE_CLASSES.values()}
    total_boxes = 0
    
    label_files = list(Path(labels_dir).glob('*.txt'))
    
    for label_file in label_files:
        with open(label_file, 'r') as f:
            for line in f:
                class_id = int(line.split()[0])
                class_name = PPE_CLASSES[class_id]
                class_counts[class_name] += 1
                total_boxes += 1
    
    # Crear DataFrame
    df = pd.DataFrame([
        {'Clase': k, 'Cantidad': v, 'Porcentaje': v/total_boxes*100 if total_boxes > 0 else 0}
        for k, v in class_counts.items()
    ])
    
    # Visualizar
    plt.figure(figsize=(12, 6))
    plt.bar(df['Clase'], df['Cantidad'])
    plt.xlabel('Clase de EPP')
    plt.ylabel('N√∫mero de instancias')
    plt.title('Distribuci√≥n de Clases en el Dataset')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
    
    print("\nüìä Estad√≠sticas del Dataset:")
    print(df.to_string(index=False))
    print(f"\nTotal de anotaciones: {total_boxes}")
    print(f"Total de im√°genes: {len(label_files)}")
    
    return df

# Descomentar cuando tengas labels
# df_train = analyze_dataset(YOLO_DIR / 'labels' / 'train')
print("‚úÖ Funci√≥n de an√°lisis lista")

## Paso 7: Divisi√≥n Train/Val/Test

Recomendaci√≥n est√°ndar: 70% train, 20% validation, 10% test

In [None]:
from sklearn.model_selection import train_test_split

def split_dataset(images_dir, labels_dir, train_ratio=0.7, val_ratio=0.2, test_ratio=0.1):
    """
    Divide el dataset en train/val/test
    """
    assert abs(train_ratio + val_ratio + test_ratio - 1.0) < 1e-5, "Las proporciones deben sumar 1"
    
    # Obtener lista de im√°genes
    image_files = list(Path(images_dir).glob('*.jpg')) + list(Path(images_dir).glob('*.png'))
    
    # Primera divisi√≥n: train y temp (val+test)
    train_files, temp_files = train_test_split(
        image_files, 
        train_size=train_ratio, 
        random_state=42
    )
    
    # Segunda divisi√≥n: val y test
    val_ratio_adjusted = val_ratio / (val_ratio + test_ratio)
    val_files, test_files = train_test_split(
        temp_files,
        train_size=val_ratio_adjusted,
        random_state=42
    )
    
    print(f"üìä Divisi√≥n del dataset:")
    print(f"  Train: {len(train_files)} im√°genes ({train_ratio*100:.0f}%)")
    print(f"  Val:   {len(val_files)} im√°genes ({val_ratio*100:.0f}%)")
    print(f"  Test:  {len(test_files)} im√°genes ({test_ratio*100:.0f}%)")
    
    return train_files, val_files, test_files

# Ejemplo de uso (descomentar cuando tengas im√°genes)
# train, val, test = split_dataset(RAW_DIR / 'images', RAW_DIR / 'labels')
print("‚úÖ Funci√≥n de divisi√≥n lista")

## Resumen y Pr√≥ximos Pasos

### ‚úÖ Has completado:
1. Configuraci√≥n de estructura de datos
2. Definici√≥n de clases de EPP
3. Pipeline de data augmentation
4. Herramientas de an√°lisis

### üìù Tareas pendientes:
1. **Recolectar/descargar im√°genes** de EPP en entorno industrial
2. **Anotar im√°genes** usando Roboflow, LabelImg o CVAT
3. **Aplicar augmentation** para expandir el dataset
4. **Analizar distribuci√≥n** de clases
5. **Dividir en train/val/test**

### ‚û°Ô∏è Siguiente notebook:
- **02_model_training_azure.ipynb**: Entrenar modelo con Azure Custom Vision
- **03_model_training_opensource.ipynb**: Entrenar modelo con YOLOv8

### üí° Recursos √∫tiles:
- [Roboflow Universe - PPE Datasets](https://universe.roboflow.com/search?q=ppe)
- [YOLOv8 Documentation](https://docs.ultralytics.com/)
- [Azure Custom Vision](https://www.customvision.ai/)
- [LabelImg Tutorial](https://github.com/heartexlabs/labelImg)

In [None]:
# Guardar configuraci√≥n para pr√≥ximos notebooks
config = {
    'project_root': str(PROJECT_ROOT),
    'data_dir': str(DATA_DIR),
    'yolo_dir': str(YOLO_DIR),
    'azure_dir': str(AZURE_DIR),
    'classes': PPE_CLASSES,
    'num_classes': len(PPE_CLASSES)
}

with open(DATA_DIR / 'config.yaml', 'w') as f:
    yaml.dump(config, f)

print("‚úÖ Configuraci√≥n guardada en data/config.yaml")