<a href="https://colab.research.google.com/github/dtoralg/TheValley_MDS/blob/main/%5B03%5D%20-%20Algoritmos_Alternativos_Clasificacion/%5B01%5D%20-%20Notebooks/E3_Comparativa_entre_arboles_NB_SVM_IRIS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio de comparación: Árbol de Decisión, Naïve Bayes y SVM en Iris

## Introducción
En este ejercicio práctico vamos a entrenar y comparar tres clasificadores distintos sobre el mismo problema: predecir la especie de flores en el dataset Iris. Compararás un Árbol de Decisión, un modelo Naïve Bayes y un Support Vector Machine (SVM) para observar cómo cada algoritmo se comporta con los mismos datos. Esto te permitirá entender mejor las ventajas, limitaciones y diferencias entre modelos.

## Objetivos del ejercicio
* Aplicar Árbol de Decisión, Naïve Bayes y SVM sobre el dataset Iris.

* Evaluar cada modelo usando precisión y matriz de confusión.

* Visualizar gráficamente las fronteras de decisión de cada clasificador.

* Reflexionar sobre cuál modelo se ajusta mejor a los datos y por qué.

## Descripción del dataset
El dataset Iris contiene 150 muestras de flores, cada una descrita por cuatro características métricas:

* Sepal length (cm)

* Sepal width (cm)

* Petal length (cm)

* Petal width (cm)

Cada muestra está etiquetada con una de tres especies de Iris:

* Iris-setosa

* Iris-versicolor

* Iris-virginica

Es un dataset clásico en Machine Learning para problemas de clasificación multiclase.

### Importar librerías necesarias

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")


### Cargar el dataset Iris y explorarlo

In [None]:
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target
df.head()


### Dividir el dataset en entrenamiento y prueba

In [None]:
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0, stratify=y)

print(f"Tamaño conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Tamaño conjunto de prueba: {X_test.shape[0]} muestras")


### Entrenar Árbol de Decisión

In [None]:
tree = DecisionTreeClassifier(max_depth=5, random_state=0)
tree.fit(X_train, y_train)
y_pred_tree = tree.predict(X_test)

accuracy_tree = accuracy_score(y_test, y_pred_tree)
print(f"Precisión Árbol de Decisión: {accuracy_tree:.2f}")


### Entrenar Naïve Bayes

In [None]:
nb = GaussianNB()
nb.fit(X_train, y_train)
y_pred_nb = nb.predict(X_test)

accuracy_nb = accuracy_score(y_test, y_pred_nb)
print(f"Precisión Naïve Bayes: {accuracy_nb:.2f}")


### Entrenar SVM

In [None]:
svm = SVC(kernel='rbf', C=1, gamma='scale', random_state=0)
svm.fit(X_train, y_train)
y_pred_svm = svm.predict(X_test)

accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f"Precisión SVM (kernel RBF): {accuracy_svm:.2f}")


### Visualizar matrices de confusión

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

cm_tree = confusion_matrix(y_test, y_pred_tree)
disp_tree = ConfusionMatrixDisplay(confusion_matrix=cm_tree, display_labels=iris.target_names)
disp_tree.plot(ax=axes[0], cmap=plt.cm.Blues)
axes[0].set_title("Árbol de Decisión")

cm_nb = confusion_matrix(y_test, y_pred_nb)
disp_nb = ConfusionMatrixDisplay(confusion_matrix=cm_nb, display_labels=iris.target_names)
disp_nb.plot(ax=axes[1], cmap=plt.cm.Blues)
axes[1].set_title("Naïve Bayes")

cm_svm = confusion_matrix(y_test, y_pred_svm)
disp_svm = ConfusionMatrixDisplay(confusion_matrix=cm_svm, display_labels=iris.target_names)
disp_svm.plot(ax=axes[2], cmap=plt.cm.Blues)
axes[2].set_title("SVM (RBF)")

plt.tight_layout()
plt.show()


### Visualizar el árbol de decisión

In [None]:
plt.figure(figsize=(16, 8))
plot_tree(tree, feature_names=iris.feature_names, class_names=iris.target_names, filled=True)
plt.title("Árbol de Decisión entrenado en Iris")
plt.show()


### Comparar informes de métricas

In [None]:
print("Informe Árbol de Decisión:\n")
print(classification_report(y_test, y_pred_tree, target_names=iris.target_names))

print("\nInforme Naïve Bayes:\n")
print(classification_report(y_test, y_pred_nb, target_names=iris.target_names))

print("\nInforme SVM (RBF):\n")
print(classification_report(y_test, y_pred_svm, target_names=iris.target_names))


### Reflexión y discusión grupal

In [None]:
## Reflexión final

1. ¿Qué clasificador obtuvo mejor rendimiento? ¿Por qué crees que se debe a la forma de los datos?
2. Observando las matrices de confusión, ¿dónde cometió más errores cada modelo?
3. ¿Cuál de los tres modelos crees que sería más fácil de interpretar y explicar a alguien sin conocimientos técnicos?
4. ¿En qué situaciones reales usarías cada clasificador?
