# üß† 02_entrenamiento_modelo.ipynb

Este notebook entrena un modelo de aprendizaje profundo (Deep Learning) para reconocer letras del lenguaje de se√±as usando los *landmarks* generados por MediaPipe.

## üîÑ Etapas del notebook:
1. Importar librer√≠as
2. Cargar los datos limpios
3. Separar caracter√≠sticas y etiquetas
4. Codificar las etiquetas
5. Dividir el dataset en entrenamiento y prueba
6. Normalizar los datos
7. Crear el modelo neuronal
8. Compilar el modelo
9. Entrenar el modelo
10. Visualizar resultados


## üß© 1Ô∏è‚É£ Importar librer√≠as

Importamos todas las librer√≠as necesarias para el manejo de datos, construcci√≥n del modelo y visualizaci√≥n de resultados.

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.utils import to_categorical
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
import matplotlib.pyplot as plt

## üßπ 2Ô∏è‚É£ Cargar los datos limpios

Cargamos el dataset que fue previamente limpiado en el notebook `01_limpieza_datos.ipynb`. Este archivo contiene los landmarks de las manos normalizados y una columna con la etiqueta (letra).

In [None]:
data = pd.read_csv("/content/dataset_cleaned.csv")  # Cambia la ruta si est√° en otra ubicaci√≥n
data.head()

## ‚öôÔ∏è 3Ô∏è‚É£ Separar caracter√≠sticas (X) y etiquetas (y)

Separamos los datos en:
- **X:** las coordenadas de los 21 puntos de la mano (x, y, z)
- **y:** la letra correspondiente a cada muestra

In [None]:
X = data.drop('label', axis=1)
y = data['label']

## üßÆ 4Ô∏è‚É£ Codificar las etiquetas

Convertimos las letras (A, B, C...) en n√∫meros para que el modelo pueda entenderlas, y luego usamos *one-hot encoding* para representar cada letra como un vector binario.

In [None]:
le = LabelEncoder()
y_encoded = le.fit_transform(y)
y_categorical = to_categorical(y_encoded)

print("Etiquetas codificadas:", np.unique(y_encoded))
print("Forma de y_categorical:", y_categorical.shape)

## üß© 5Ô∏è‚É£ Dividir el dataset en entrenamiento y prueba

Reservamos un 80% de los datos para entrenamiento y un 20% para validaci√≥n. Esto nos permite evaluar el desempe√±o del modelo con datos que nunca ha visto.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y_categorical, test_size=0.2, random_state=42
)

print("Tama√±o de entrenamiento:", X_train.shape)
print("Tama√±o de prueba:", X_test.shape)

## ‚öñÔ∏è 6Ô∏è‚É£ Normalizar los datos

Los valores de los landmarks pueden variar mucho dependiendo de la imagen, por eso los normalizamos usando `StandardScaler` para que todos est√©n en una escala similar. Esto mejora el aprendizaje del modelo.

In [None]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## üß† 7Ô∏è‚É£ Crear el modelo neuronal

Dise√±amos una red neuronal totalmente conectada (Feedforward Neural Network):
- Capa 1: 128 neuronas con activaci√≥n ReLU.
- Dropout: 30% (reduce sobreajuste).
- Capa 2: 64 neuronas con activaci√≥n ReLU.
- Dropout: 30%.
- Capa de salida: tantas neuronas como letras, con activaci√≥n *softmax*.

In [None]:
model = Sequential([
    Dense(128, activation='relu', input_shape=(X_train.shape[1],)),
    Dropout(0.3),
    Dense(64, activation='relu'),
    Dropout(0.3),
    Dense(y_categorical.shape[1], activation='softmax')
])

model.summary()

## ‚öôÔ∏è 8Ô∏è‚É£ Compilar el modelo

Seleccionamos el optimizador, la funci√≥n de p√©rdida y la m√©trica de evaluaci√≥n:
- **Adam:** un optimizador r√°pido y eficiente.
- **Categorical Crossentropy:** adecuada para clasificaci√≥n multiclase.
- **Accuracy:** mide el porcentaje de predicciones correctas.

In [None]:
model.compile(
    optimizer='adam',
    loss='categorical_crossentropy',
    metrics=['accuracy']
)

## üöÄ 9Ô∏è‚É£ Entrenar el modelo

Entrenamos la red neuronal durante 50 √©pocas con un tama√±o de lote (*batch size*) de 32. Se mostrar√° c√≥mo evoluciona la p√©rdida y la precisi√≥n en cada iteraci√≥n.

In [None]:
history = model.fit(
    X_train, y_train,
    validation_data=(X_test, y_test),
    epochs=50,
    batch_size=32,
    verbose=1
)

## üìä üîü Visualizar resultados

Graficamos la precisi√≥n (*accuracy*) de entrenamiento y validaci√≥n para ver si el modelo est√° aprendiendo correctamente o si se est√° sobreajustando.

In [None]:
plt.figure(figsize=(10,5))
plt.plot(history.history['accuracy'], label='Entrenamiento')
plt.plot(history.history['val_accuracy'], label='Validaci√≥n')
plt.title('Precisi√≥n del modelo')
plt.xlabel('√âpocas')
plt.ylabel('Precisi√≥n')
plt.legend()
plt.show()

## üíæ 1Ô∏è‚É£1Ô∏è‚É£ Guardar el modelo entrenado

Guardamos el modelo y el codificador de etiquetas para poder usarlos m√°s adelante en la predicci√≥n en tiempo real.

In [None]:
model.save("/content/modelo_senas.h5")
import joblib
joblib.dump(le, "/content/label_encoder.pkl")
print("Modelo y codificador guardados correctamente ‚úÖ")

## ‚úÖ Conclusi√≥n

En este notebook entrenamos un modelo neuronal para reconocer letras del lenguaje de se√±as basado en los landmarks 3D de MediaPipe. 

El siguiente paso ser√° crear un notebook para la **predicci√≥n en tiempo real**, usando la c√°mara y el modelo `modelo_senas.h5`.