# **Deep Learning - Proyecto de Clasificación Multiclase**

## 📌 Introducción
Este proyecto tiene como objetivo desarrollar un modelo de clasificación multiclase utilizando técnicas de **Deep Learning**. Se realiza con fines educativos y está diseñado para ser compartido con la comunidad, fomentando el aprendizaje y la colaboración.

---

👨‍💻 **Autor:** [Diego Fernando Lojan](https://github.com/DiegoFernandoLojanTN)  
📅 **Fecha de creación:** 12 Enero Del 2025   
📝 **Licencia:** MIT

---

## 📖 Descripción
- 🔍 **Objetivo:** Desarrollar y entrenar un modelo de clasificación multiclase.
- 🛠 **Tecnologías utilizadas:** Python, TensorFlow/Keras, Pandas, NumPy, Matplotlib.

---

In [4]:
# Importamos las librerías necesarias
import tensorflow as tf
import logging

# Configuramos TensorFlow para eliminar los warnings innecesarios
logging.getLogger("tensorflow").setLevel(logging.ERROR)

# Verificamos la versión de TensorFlow
print(f"✅ TensorFlow versión: {tf.__version__}")

✅ TensorFlow versión: 2.13.0


---
### 1️⃣ Importar conjunto de datos y funciones.
---

In [19]:
# Importamos las librerías necesarias
import tensorflow as tf  # Framework para Deep Learning
import pandas as pd  # Manejo y análisis de datos

# Librerías de Keras para construir la red neuronal
from tensorflow.keras.models import Sequential  # Modelo secuencial de Keras
from tensorflow.keras.layers import Dense  # Capa densa (fully connected) para la red
from scikeras.wrappers import KerasClassifier  # Envoltorio para usar Keras con scikit-learn
from tensorflow.keras.utils import to_categorical  # Utilidades para transformación de etiquetas en one-hot encoding

# Librerías de scikit-learn para preprocesamiento y validación
from sklearn.model_selection import cross_val_score  # Evaluación cruzada del modelo
from sklearn.model_selection import KFold  # Validación cruzada con K-fold
from sklearn.preprocessing import LabelEncoder  # Codificación de etiquetas categóricas en números

In [12]:
# Cargamos el dataset Iris desde un archivo CSV
file_path = "Datasets/iris.csv"  # Ruta del archivo
df = pd.read_csv(file_path, header=None)  # Leemos el archivo sin encabezados

# Convertimos el DataFrame a un array de NumPy para su procesamiento
dataset = df.values

In [13]:
# Mostramos las primeras filas del dataset para inspección
print("📊 Primeras 5 filas del dataset:")
print(df.head())

📊 Primeras 5 filas del dataset:
     0    1    2    3            4
0  5.1  3.5  1.4  0.2  Iris-setosa
1  4.9  3.0  1.4  0.2  Iris-setosa
2  4.7  3.2  1.3  0.2  Iris-setosa
3  4.6  3.1  1.5  0.2  Iris-setosa
4  5.0  3.6  1.4  0.2  Iris-setosa


In [14]:
# Verificamos las dimensiones del dataset
print(f"\n🔹 Dimensiones del dataset: {df.shape}")


🔹 Dimensiones del dataset: (150, 5)


In [15]:
# Separamos las características (X) y la variable objetivo (y)
X = dataset[:, 0:4].astype(float)  # Tomamos las primeras 4 columnas como features y las convertimos a tipo float
y = dataset[:, 4]  # La última columna representa las etiquetas de clase

# Mostramos información básica de los datos procesados
print(f"🔹 Dimensiones de X (características): {X.shape}")
print(f"🔹 Dimensiones de y (etiquetas): {y.shape}")

🔹 Dimensiones de X (características): (150, 4)
🔹 Dimensiones de y (etiquetas): (150,)


---
### 2️⃣ Codificar la variable de salida
---

En Machine Learning, los modelos no pueden procesar variables categóricas directamente. Por ello, convertimos la columna de especies del dataset de **Iris** en una representación numérica usando **One-Hot Encoding**.  

### 🔹 Transformación  
| Especie            | One-Hot Encoding |
|--------------------|----------------|
| Iris-setosa       | **1,0,0** |
| Iris-versicolor   | **0,1,0** |
| Iris-virginica    | **0,0,1** |

In [16]:
encoder = LabelEncoder()  # Inicializa el codificador de etiquetas
encoder.fit(y)  # Ajusta el codificador a los valores de y
encoded_y = encoder.transform(y)  # Transforma las etiquetas a valores numéricos
print(encoded_y)  # Muestra las etiquetas codificadas

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


 Después de aplicar **Label Encoding**, las clases se representan numéricamente de la siguiente manera:  

| Código | Especie           |
|--------|------------------|
| **0**  | Iris-setosa      |
| **1**  | Iris-versicolor  |
| **2**  | Iris-virginica   |

In [24]:
# Los valores enteros no son adecuados para redes neuronales, se deben convertir a valores tipo dummy
dummy_y = to_categorical(encoded_y)  # Convierte las etiquetas codificadas a formato dummy (One-Hot Encoding)
print(dummy_y)  # Muestra las etiquetas convertidas a formato dummy

[[1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0.

Después de aplicar **One-Hot Encoding**, las etiquetas codificadas se transforman en un formato de vector binario:

| Valor Original | Representación One-Hot |
|----------------|------------------------|
| **0** (Iris-setosa)     | `1, 0, 0`             |
| **1** (Iris-versicolor) | `0, 1, 0`             |
| **2** (Iris-virginica)  | `0, 0, 1`             |

Este formato es adecuado para redes neuronales, ya que evita interpretaciones ordinales y permite que el modelo procese correctamente las etiquetas.

---
### 3️⃣ Definir comportamiento de la red Neuronal
---

### 🔹 Definición de la Red Neuronal

Para el modelo de clasificación, se implementará una red neuronal simple con las siguientes características:

1. **Capa Oculta:**  
   - Se utilizará una capa oculta con **8 neuronas**.  
   - La **función de activación** será **ReLU** (Rectified Linear Unit), que ayuda a introducir no linealidad en el modelo.

2. **Capa de Salida:**  
   - La capa de salida tendrá **3 valores** de salida, uno para cada clase, ya que hemos utilizado **One-Hot Encoding** para las etiquetas.
   - El **valor más alto** en la capa de salida representará la clase predicha por el modelo.

3. **Función de Activación en la Capa de Salida:**  
   - La función de activación será **Softmax**, lo que permite convertir los valores de salida en probabilidades que suman 1, facilitando la clasificación de las clases.

4. **Optimización y Pérdida:**  
   - Se utilizará **Adam** como el optimizador, que es eficiente y ampliamente utilizado en problemas de clasificación.  
   - La función de **pérdida** será **categorical crossentropy**, adecuada para tareas de clasificación multiclase.

Este diseño de red neuronal permite una clasificación precisa de las clases en función de las probabilidades obtenidas en la capa de salida.

In [25]:
def baseline_model():
    # Inicializa el modelo secuencial
    model = Sequential()

    # Capa oculta con 8 neuronas y activación ReLU
    model.add(Dense(8, input_dim=4, activation='relu'))

    # Capa de salida con 3 neuronas y activación Softmax para clasificación multiclase
    model.add(Dense(3, activation='softmax'))

    # Compilación del modelo con función de pérdida categorical_crossentropy y optimizador Adam
    model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

    return model

## 🔹 Uso de KerasClassifier con scikit-learn

Ahora utilizaremos **KerasClassifier** para integrar el modelo de Keras con **scikit-learn**. Esto nos permitirá entrenar y evaluar el modelo de manera más flexible utilizando herramientas de scikit-learn.

### 🔸 Modificación de Parámetros
Al entrenar el modelo, ajustaremos los siguientes parámetros:

- **Número de épocas:** Se establecerá en **200** épocas para asegurar un entrenamiento adecuado.
- **Tamaño del batch:** Se establecerá en **5** para controlar el tamaño de los lotes de entrenamiento.

Con estas modificaciones, el modelo será entrenado de manera más eficiente y controlada.

In [28]:
# Crear el clasificador de Keras con los parámetros modificados
estimator = KerasClassifier(model=baseline_model, epochs=200, batch_size=5, verbose=0)

---
### 4️⃣ Evaluar modelo
---

## 🔹 Validación del Modelo con Validación Cruzada

En este paso, vamos a evaluar nuestro modelo (**estimator**) utilizando el procedimiento de **validación cruzada**. 

Realizaremos **10 pliegues** de validación cruzada para asegurarnos de que el modelo generaliza bien en diferentes subconjuntos del conjunto de datos. Utilizaremos los conjuntos de datos **X** y **dummy_y** para este proceso.

Este enfoque ayuda a obtener una mejor estimación del rendimiento del modelo y reduce el sesgo en la evaluación.

In [29]:
# Definir la validación cruzada con 10 pliegues y aleatorización
kfold = KFold(n_splits=10, shuffle=True, random_state=42)
# Realizar la validación cruzada sin mostrar información de verbose
results = cross_val_score(estimator, X, dummy_y, cv=kfold, verbose=0)
# Mostrar el rendimiento del modelo: media y desviación estándar de la precisión
print("Accuracy: %.2f%% (%.2f%%)" % (results.mean() * 100, results.std() * 100))

Accuracy: 97.33% (3.27%)
