### Estructura del Proyecto Revisada

1. **Preparación de los Datos**
   - **Organización de Imágenes**: Las imágenes reales ya están clasificadas en carpetas según la postura de yoga, y las imágenes SVG simples también están etiquetadas. Se asegurará que ambas fuentes de datos estén correctamente organizadas y sean accesibles.
   - **Redimensionamiento y Normalización**: Las imágenes tendrán diferentes dimensiones y formatos, así que las redimensionaremos a un tamaño estándar (por ejemplo, 224x224 píxeles) y las normalizaremos para que todos los valores de píxel estén en el rango [0, 1].
   - **División del Conjunto de Datos**: Combinar las imágenes reales y SVG en un solo conjunto de datos, dividiéndolas en conjuntos de entrenamiento, validación y prueba, garantizando una proporción equilibrada de posturas en cada conjunto.

2. **Aumento de Datos (Data Augmentation)**
   - **Imágenes Reales**: Aplicar técnicas de aumento como rotación, cambios de escala, espejado horizontal, y variaciones de brillo/contraste para aumentar la variabilidad y robustez del modelo frente a condiciones de iluminación y perspectiva.
   - **Imágenes SVG**: Convertir los SVG en imágenes rasterizadas si es necesario y aplicar variaciones simples para simular diferentes ángulos y tamaños.

3. **Diseño de la Arquitectura de la CNN**
   - **Uso de Doble Entrada**: Considerar una arquitectura que pueda manejar tanto las imágenes reales como las SVG (por ejemplo, mediante un enfoque multi-input o concatenando las salidas de dos redes). Esto permitirá que el modelo aprenda características tanto de las imágenes detalladas como de las representaciones simplificadas.
   - **Definición de Capas**: Definir las capas convolucionales, de pooling, y fully connected, ajustando hiperparámetros como el número de filtros, tamaño de kernel, y funciones de activación (como ReLU).
   - **Función de Pérdida y Optimizador**: Seleccionar una función de pérdida adecuada para clasificación (como `categorical_crossentropy`) y un optimizador (como Adam).

4. **Entrenamiento del Modelo**
   - **Entrenamiento Híbrido**: Entrenar el modelo usando tanto las imágenes reales como las SVG para asegurar que aprenda de ambas fuentes y generalice bien. 
   - **Monitoreo del Rendimiento**: Visualizar las métricas de pérdida y precisión en el conjunto de validación. Implementar técnicas como el early stopping para detener el entrenamiento cuando la mejora se detenga.

5. **Evaluación del Modelo**
   - **Evaluación en el Conjunto de Prueba**: Evaluar el modelo utilizando el conjunto de prueba para calcular métricas como precisión, recall, F1-score, y generar una matriz de confusión.
   - **Evaluación Diferenciada**: Comparar el rendimiento del modelo en imágenes reales y SVG para asegurar que ambos tipos de datos se manejen correctamente.

6. **Guardado y Exportación del Modelo**
   - **Guardado del Modelo**: Guardar el modelo entrenado en un formato reutilizable (por ejemplo, `.h5` o `.pb` en Keras).
   - **Exportación del Modelo**: Convertir y exportar el modelo en un formato optimizado para inferencia en producción.

7. **Implementación y Pruebas del Modelo en Producción**
   - **Integración del Modelo**: Desplegar el modelo en un entorno de producción (usando frameworks como Flask, FastAPI o TensorFlow Serving) para inferencia en tiempo real.
   - **Pruebas de Inferencia**: Realizar pruebas con nuevas imágenes (tanto reales como SVG) para verificar la precisión y eficiencia del modelo en condiciones reales.

Ahora, podemos comenzar con el desarrollo del **Módulo 1: Preparación de los Datos**, que incluirá los pasos específicos para organizar, redimensionar, y normalizar las imágenes. ¿Procedemos con eso?

### Uso de SVG en el entrenamiento

Las imágenes SVG en blanco y negro, con un estilo simple de "monigote", representan esquemáticamente las posturas de yoga, mientras que las imágenes PNG que tienes son fotos reales de personas practicando yoga en diferentes ambientes. La diferencia de estilo y complejidad visual entre ambos tipos de imágenes es notable. Esto plantea una pregunta importante sobre la utilidad de los SVG en el proceso de entrenamiento de una red neuronal convolucional (CNN). Aquí algunas formas en que las imágenes SVG pueden ser útiles, así como las consideraciones para decidir si deben o no ser utilizadas:

### Utilidad de las Imágenes SVG en el Entrenamiento

1. **Aprendizaje de las Características Esenciales de las Posturas**:
   - Los SVG simplifican las posturas, mostrando solo las formas y ángulos clave sin distracciones como ropa, fondos o variaciones de luz. Esto puede ayudar al modelo a aprender las características esenciales de cada postura.
   - Podrían ser útiles como una forma de preentrenamiento o para reforzar el aprendizaje de las características fundamentales de las posturas.

2. **Aumento de la Variedad de Datos**:
   - Aunque las imágenes SVG son muy simples comparadas con las imágenes reales, incluirlas en el entrenamiento podría actuar como una forma de regularización, ayudando al modelo a generalizar mejor al aprender a reconocer la postura en un formato simplificado.
   - Esto puede ser especialmente útil si el conjunto de imágenes reales no es lo suficientemente grande o variado.

3. **Mejora de la Generalización del Modelo**:
   - Incluir diferentes tipos de representaciones (fotos reales y dibujos simplificados) puede hacer que el modelo sea más robusto. Si el modelo puede aprender a identificar la postura a partir de representaciones estilizadas, es posible que mejore su capacidad de generalizar cuando se enfrenta a nuevas imágenes que no ha visto antes.

### Consideraciones y Desafíos

1. **Diferencia en el Dominio de las Imágenes**:
   - Las imágenes SVG y las imágenes PNG reales provienen de dominios muy diferentes. Si no se maneja correctamente, esto podría confundir al modelo y afectar su rendimiento en el reconocimiento de imágenes reales.
   - Para integrar ambos tipos de imágenes de manera efectiva, podríamos entrenar el modelo en etapas: primero con los SVG para captar las características fundamentales, y luego con las imágenes reales para aprender a aplicarlas en situaciones más complejas.

2. **Ajuste del Modelo para Diferentes Estilos de Imágenes**:
   - Si se utilizan ambos tipos de imágenes, es importante ajustar la red para que sea capaz de manejar las diferencias visuales. Esto podría incluir técnicas como:
     - **Aumento de datos** para las imágenes reales, aplicando transformaciones que simulen estilos simples similares a los SVG.
     - **Entrenamiento con un conjunto de datos mixto** en el que se mezcle un balance de SVG y fotos reales para que el modelo aprenda a reconocer posturas en ambos contextos.

3. **Preentrenamiento Especializado**:
   - Otra estrategia sería usar los SVG solo para preentrenar el modelo en una etapa inicial y luego continuar el entrenamiento solo con imágenes reales. Esto se hace a veces para que el modelo primero aprenda las formas básicas antes de ver las complejidades del mundo real.

### Decisión Final

Si decides incluir las imágenes SVG en el entrenamiento, sería recomendable:
- Evaluar su impacto en el rendimiento del modelo en un experimento controlado (con y sin SVG) para ver si realmente mejoran la precisión y la capacidad de generalización.
- Utilizar técnicas de aumento de datos para simular diferentes estilos y asegurar que el modelo no dependa de características específicas de un solo tipo de imagen.

En resumen, los SVG pueden ser útiles para reforzar el aprendizaje de características básicas y mejorar la generalización si se manejan adecuadamente. Sin embargo, si las diferencias entre los dominios de las imágenes son demasiado grandes, podría ser más efectivo enfocar el entrenamiento exclusivamente en las imágenes reales.

¿Te gustaría seguir incluyendo los SVG en el pipeline o prefieres que enfoquemos el entrenamiento solo con las imágenes PNG reales?

### Módulo 1

Para el Módulo 1, vamos a estructurar el código para preparar los datos de manera que podamos trabajar con ambos conjuntos (las imágenes SVG y las imágenes reales en formato PNG). Realizaremos los siguientes pasos:

1. **Estandarización y Normalización de Imágenes**: 
   - Redimensionar todas las imágenes a un tamaño estándar.
   - Convertir las imágenes a escala de grises si es necesario (para las SVG) o mantenerlas en color (para las PNG).
   - Normalizar los valores de píxel.

2. **Cargar y Preprocesar las Imágenes**:
   - Cargar las imágenes desde sus rutas (SVG y PNG).
   - Asignar etiquetas basadas en el nombre de la postura (en sánscrito) para ambos conjuntos de datos.
   - Organizar todo en un DataFrame o una estructura que podamos usar para entrenar el modelo.

3. **Dividir el Conjunto de Datos**:
   - Dividir el conjunto de datos en entrenamiento, validación y prueba de manera balanceada.

Voy a mostrarte el código paso a paso para realizar estos procesos. A continuación, comenzaremos cargando y redimensionando las imágenes:

```python
import os
import json
import pandas as pd
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Cargar el DataFrame de las imágenes SVG
DS_PATH = "../ds"
DS_ENTRY = f"{DS_PATH}/Poses.json"

with open(DS_ENTRY, "r") as file:
    data = json.load(file)

df = pd.DataFrame(data["Poses"])

# Definir el tamaño de las imágenes para estandarización
IMAGE_SIZE = (224, 224)

# Función para cargar y procesar las imágenes SVG
def process_svg_images(df):
    svg_images = []
    labels = []
    
    for index, row in df.iterrows():
        svg_path = row['img_url']  # Ruta de la imagen SVG
        sanskrit_name = row['sanskrit_name']
        
        # Leer la imagen SVG
        image = cv2.imread(svg_path, cv2.IMREAD_UNCHANGED)
        if image is not None:
            # Redimensionar y normalizar
            image_resized = cv2.resize(image, IMAGE_SIZE)
            image_normalized = image_resized / 255.0  # Normalizar a [0, 1]
            svg_images.append(image_normalized)
            labels.append(sanskrit_name)
        else:
            print(f"Error al cargar la imagen SVG en: {svg_path}")
    
    return np.array(svg_images), np.array(labels)

# Cargar y procesar imágenes SVG
svg_images, svg_labels = process_svg_images(df)

# Función para cargar y procesar las imágenes reales en PNG
def process_png_images(ds_path):
    png_images = []
    labels = []
    
    for folder in os.listdir(ds_path):
        folder_path = os.path.join(ds_path, folder)
        if os.path.isdir(folder_path):
            for file in os.listdir(folder_path):
                file_path = os.path.join(folder_path, file)
                if file.endswith('.png'):
                    # Leer la imagen PNG
                    image = cv2.imread(file_path)
                    if image is not None:
                        # Redimensionar y normalizar
                        image_resized = cv2.resize(image, IMAGE_SIZE)
                        image_normalized = image_resized / 255.0  # Normalizar a [0, 1]
                        png_images.append(image_normalized)
                        labels.append(folder)  # El nombre de la carpeta es la etiqueta (en sánscrito)
                    else:
                        print(f"Error al cargar la imagen PNG en: {file_path}")
    
    return np.array(png_images), np.array(labels)

# Cargar y procesar imágenes PNG
png_images, png_labels = process_png_images(DS_PATH)

# Combinar ambos conjuntos de datos
all_images = np.concatenate((svg_images, png_images), axis=0)
all_labels = np.concatenate((svg_labels, png_labels), axis=0)

# Dividir el conjunto de datos en entrenamiento, validación y prueba
X_train, X_temp, y_train, y_temp = train_test_split(all_images, all_labels, test_size=0.3, stratify=all_labels, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape}")
print(f"Tamaño del conjunto de validación: {X_val.shape}")
print(f"Tamaño del conjunto de prueba: {X_test.shape}")
```

### Explicación del Código:

1. **Carga y Preprocesamiento de Imágenes SVG**:
   - `process_svg_images(df)` carga y redimensiona las imágenes SVG utilizando OpenCV y las normaliza al rango [0, 1].
   - Las etiquetas (posturas en sánscrito) se asignan basadas en el DataFrame.

2. **Carga y Preprocesamiento de Imágenes PNG**:
   - `process_png_images(ds_path)` carga las imágenes PNG de las subcarpetas, las redimensiona y normaliza.
   - Las etiquetas se extraen del nombre de la carpeta que corresponde a la postura de yoga.

3. **Combinación y División del Conjunto de Datos**:
   - Combinamos ambos conjuntos de imágenes y etiquetas.
   - Usamos `train_test_split` de `sklearn` para dividir el conjunto en entrenamiento (70%), validación (15%), y prueba (15%), asegurando que las proporciones se mantengan balanceadas con `stratify`.

Este código prepara los datos para el siguiente paso del pipeline. Puedes ejecutarlo y confirmar que todo funciona correctamente antes de avanzar al Módulo 2: **Aumento de Datos**. ¿Te parece bien continuar de esta forma?