<a href="https://colab.research.google.com/github/dtoralg/TheValley_MDS/blob/main/%5B03%5D%20-%20Algoritmos_Alternativos_Clasificacion/%5B01%5D%20-%20Notebooks/E1_Naive_Bayes_Classification_IRIS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio de clasificación con Naïve Bayes: Dataset Iris

## Introducción
En este ejercicio práctico aplicaremos Naïve Bayes, un clasificador probabilístico sencillo y eficaz, al famoso dataset Iris. Este dataset es uno de los más utilizados en Machine Learning y contiene medidas de sépalos y pétalos de tres especies de flores. El objetivo es entrenar un modelo que clasifique correctamente la especie de una flor a partir de sus características métricas. A través de este ejercicio, los alumnos desarrollarán una comprensión práctica de cómo funciona Naïve Bayes y cómo evaluar su rendimiento.



## Objetivos del ejercicio
Comprender la teoría básica de Naïve Bayes y su aplicación en problemas de clasificación.

Entrenar un modelo Gaussian Naïve Bayes sobre un problema multiclase.

Evaluar el rendimiento del modelo utilizando métricas como precisión, recall y matriz de confusión.

Interpretar los resultados y reflexionar sobre la utilidad de Naïve Bayes en problemas con características continuas.

## Descripción del dataset
El dataset Iris contiene 150 muestras de flores, cada una descrita por cuatro características métricas:

* Sepal length (cm): Longitud del sépalo.

* Sepal width (cm): Ancho del sépalo.

* Petal length (cm): Longitud del pétalo.

* Petal width (cm): Ancho del pétalo.

Cada muestra está etiquetada con una de tres especies de Iris:

* Iris-setosa

* Iris-versicolor

* Iris-virginica

Este dataset es ideal para ilustrar cómo funcionan los clasificadores probabilísticos, ya que permite explorar cómo las distribuciones de características ayudan a diferenciar entre clases.

### Importar librerías necesarias

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

### Cargar el dataset Iris como DataFrame

In [None]:
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target

print(f"Características: {iris.feature_names}")
print(f"Clases: {iris.target_names}")

df.head()

### Visualizar la distribución de las clases

In [None]:
sns.countplot(x='species', data=df)
plt.title("Distribución de clases en Iris")
plt.xticks(ticks=[0,1,2], labels=iris.target_names)
plt.ylabel("Número de muestras")
plt.show()

### Visualización exploratoria de las características

In [None]:
sns.pairplot(df, hue='species', palette='Set1',
             vars=iris.feature_names)
plt.suptitle("Distribución de características por especie", y=1.02)
plt.show()

# Estas gráficas ayudan a ver si las clases se separan bien en función de las características,
# lo que nos da pistas sobre la dificultad del problema.

### Dividir el dataset en entrenamiento y prueba

In [None]:
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0, stratify=y)

print(f"Tamaño conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Tamaño conjunto de prueba: {X_test.shape[0]} muestras")

### Entrenar el modelo **Naïve Bayes**

In [None]:
nb = GaussianNB()
nb.fit(X_train, y_train)
print("Modelo Naïve Bayes entrenado correctamente.")

### Realizar predicciones sobre el conjunto de prueba

In [None]:
y_pred = nb.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo Naïve Bayes sobre el conjunto de prueba: {accuracy:.2f}")


### Matriz de confusión y visualización

In [None]:
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris.target_names)
disp.plot(cmap=plt.cm.Blues)
plt.title("Matriz de confusión: Naïve Bayes en Iris")
plt.grid(False)
plt.show()


### Informe detallado de métricas

In [None]:
report = classification_report(y_test, y_pred, target_names=iris.target_names)
print("Informe de métricas:\n")
print(report)


### Reflexión

1. ¿Qué clases presentan mayor confusión en la matriz de confusión?
2. Observa el informe de métricas: ¿qué clases tienen mejor precisión y recall?
3. ¿Cómo ayuda Naïve Bayes a clasificar un problema multiclase como Iris?
4. ¿Qué harías para mejorar el rendimiento del modelo? Por ejemplo: ¿normalización, ingeniería de variables, etc.?
