# Laboratorio
1. Para el dataset make a moon de sklearn, construir un modelo de una red neuronal con keras para clasificar los datos.

In [2]:
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.optimizers import Adam


In [3]:
# Generar un dataset con dos clases en forma de luna creciente
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)

# Dividir los datos en conjuntos de entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Normalizar los datos para que todas las características tengan la misma escala
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Ajustar el escalador en los datos de entrenamiento
X_test = scaler.transform(X_test)       # Aplicar la misma transformación a los datos de prueba

# Crear el modelo de red neuronal secuencial
model = Sequential([
    Input(shape=(2,)),                   # La entrada tiene 2 características (x, y)
    Dense(16, activation='relu'),        # Capa oculta con 16 neuronas y función de activación ReLU
    Dense(8, activation='relu'),         # Otra capa oculta con 8 neuronas
    Dense(1, activation='sigmoid')       # Capa de salida con una neurona y activación sigmoide (para clasificación binaria)
])

# Compilar el modelo con el optimizador Adam y una función de pérdida binaria
model.compile(optimizer=Adam(learning_rate=0.01), loss='binary_crossentropy', metrics=['accuracy'])

# Entrenar el modelo en el conjunto de entrenamiento y validarlo con el conjunto de prueba
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=50, batch_size=32, verbose=1)

# Evaluar el rendimiento del modelo en los datos de prueba
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Pérdida en test: {loss:.4f}, Precisión en test: {accuracy:.4f}")


Epoch 1/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 12ms/step - accuracy: 0.7879 - loss: 0.5459 - val_accuracy: 0.8733 - val_loss: 0.3431
Epoch 2/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.8700 - loss: 0.3317 - val_accuracy: 0.8900 - val_loss: 0.2718
Epoch 3/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.8699 - loss: 0.2969 - val_accuracy: 0.9000 - val_loss: 0.2377
Epoch 4/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.8834 - loss: 0.2709 - val_accuracy: 0.9200 - val_loss: 0.2000
Epoch 5/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 4ms/step - accuracy: 0.9308 - loss: 0.2040 - val_accuracy: 0.9467 - val_loss: 0.1494
Epoch 6/50
[1m22/22[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.9447 - loss: 0.1693 - val_accuracy: 0.9633 - val_loss: 0.1166
Epoch 7/50
[1m22/22[0m [32m━━━━━━━━━

**Datos no lineales:**

make_moons genera datos distribuidos en forma de lunas crecientes, lo que significa que una solución lineal (como una regresión logística) no sería suficiente. Por ello, una red neuronal con capas ocultas y funciones no lineales (como ReLU) puede capturar mejor la complejidad del problema.

**Capas ocultas ayudan a modelar la no linealidad:**

La inclusión de múltiples capas densas permite que el modelo capture las complejas fronteras de decisión entre las clases.
Por ejemplo, en este caso, dos capas ocultas con 16 y 8 neuronas respectivamente, son suficientes para separar las dos clases.

**Normalización mejora la convergencia:**

Escalar las características con StandardScaler mejora la eficiencia del entrenamiento, ya que los valores están en un rango consistente, ayudando a que el optimizador funcione correctamente.

**Resultados del modelo:**

Si la red está bien diseñada y entrenada, se puede lograr una alta precisión en los datos de prueba (habitualmente >95%), demostrando que la red neuronal puede manejar problemas de clasificación binaria no triviales.

2. Para el dataset load digits, construir un modelo de red neuronal empleando keras para realizar la clasificación.

In [6]:
# Cargar el dataset de dígitos escritos a mano (imágenes 8x8)
digits = load_digits()
X, y = digits.data, digits.target  # X contiene las características (imágenes) y y las etiquetas (dígitos)

# Convertir las etiquetas en formato one-hot encoding para clasificación multiclase
encoder = OneHotEncoder(sparse_output=False)  # sparse_output=False para devolver un arreglo denso
y = encoder.fit_transform(y.reshape(-1, 1))  # Convertir etiquetas enteras a vectores binarios

# Dividir los datos en conjuntos de entrenamiento (70%) y prueba (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Normalizar los datos para que cada característica tenga media 0 y desviación estándar 1
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)  # Ajustar el escalador en los datos de entrenamiento
X_test = scaler.transform(X_test)       # Aplicar la misma transformación a los datos de prueba

# Crear el modelo de red neuronal secuencial
model = Sequential([
    Input(shape=(64,)),                 # La entrada tiene 64 características (8x8 píxeles aplanados)
    Dense(128, activation='relu'),      # Primera capa oculta con 128 neuronas y función de activación ReLU
    Dense(64, activation='relu'),       # Segunda capa oculta con 64 neuronas
    Dense(10, activation='softmax')     # Capa de salida con 10 neuronas (una para cada clase) y activación softmax
])

# Compilar el modelo con el optimizador Adam y una función de pérdida categórica
model.compile(optimizer=Adam(learning_rate=0.001), loss='categorical_crossentropy', metrics=['accuracy'])

# Entrenar el modelo en el conjunto de entrenamiento y validarlo con el conjunto de prueba
history = model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=50, batch_size=32, verbose=1)

# Evaluar el rendimiento del modelo en los datos de prueba
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Pérdida en test: {loss:.4f}, Precisión en test: {accuracy:.4f}")


Epoch 1/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 15ms/step - accuracy: 0.3741 - loss: 1.9853 - val_accuracy: 0.8833 - val_loss: 0.8057
Epoch 2/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 9ms/step - accuracy: 0.9021 - loss: 0.6096 - val_accuracy: 0.9389 - val_loss: 0.3022
Epoch 3/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.9578 - loss: 0.2449 - val_accuracy: 0.9630 - val_loss: 0.1842
Epoch 4/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.9758 - loss: 0.1407 - val_accuracy: 0.9648 - val_loss: 0.1413
Epoch 5/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 3ms/step - accuracy: 0.9890 - loss: 0.0854 - val_accuracy: 0.9722 - val_loss: 0.1153
Epoch 6/50
[1m40/40[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 5ms/step - accuracy: 0.9932 - loss: 0.0614 - val_accuracy: 0.9722 - val_loss: 0.1005
Epoch 7/50
[1m40/40[0m [32m━━━━━━━━━

**Clasificación multiclase con Softmax:**

Este problema requiere identificar más de dos clases. Por ello, se utiliza la función de activación softmax en la capa de salida, que asigna una probabilidad a cada una de las 10 clases.

**Mayor complejidad del modelo:**

Las imágenes (de 8x8 píxeles) se convierten en vectores con 64 características. El modelo necesita aprender patrones más complejos, por lo que se requiere una arquitectura con más neuronas (ej., 128 en la primera capa) para capturar esta información.

**Codificación One-Hot:**

La salida se convierte en un formato one-hot encoding para representar las 10 clases, lo que permite que la red neuronal minimice la pérdida usando categorical_crossentropy.

**Normalización sigue siendo crucial:**

Similar al primer modelo, la normalización de las características mejora la estabilidad del entrenamiento, ya que las imágenes originales tienen valores en rangos diversos.

**Resultados esperados:**

Con una arquitectura adecuada y suficientes épocas de entrenamiento, es posible alcanzar una precisión superior al 90% en este dataset. Sin embargo, es posible que se necesite más optimización (como ajustes en las capas, regularización o aprendizaje profundo) para igualar el rendimiento de algoritmos especializados como el SVM.