<a href="https://colab.research.google.com/github/dtoralg/TheValley_MDS/blob/main/%5B03%5D%20-%20Algoritmos_Alternativos_Clasificacion/%5B01%5D%20-%20Notebooks/E2_Clasificacion_con_SVM_en_IRIS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ejercicio de clasificación con SVM: Dataset Iris

## Introducción

En este ejercicio aprenderás a entrenar y evaluar un modelo de Support Vector Machine (SVM), un algoritmo potente para clasificación supervisada. Probaremos dos kernels distintos (lineal y RBF) para comparar su rendimiento y entender cómo la elección del kernel afecta la capacidad del modelo para separar las clases.

## Objetivos del ejercicio
Comprender el funcionamiento básico de un SVM y el concepto de kernel.

Entrenar un SVM con diferentes kernels para observar diferencias de rendimiento.

Evaluar los modelos con métricas y matrices de confusión.

Reflexionar sobre cómo elegir el kernel adecuado según la naturaleza de los datos.

## Descripción del dataset
El dataset Iris contiene 150 muestras de flores de tres especies distintas: Iris-setosa, Iris-versicolor e Iris-virginica. Cada muestra está caracterizada por cuatro variables métricas:

* Sepal length (cm)

* Sepal width (cm)

* Petal length (cm)

* Petal width (cm)

Es un dataset ideal para practicar algoritmos de clasificación y explorar cómo un SVM puede separar múltiples clases.

### Importar librerías necesarias

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")


### Cargar y explorar el dataset Iris

In [None]:
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target

print("Primeras filas del dataset Iris:")
df.head()


### Visualización de las clases

In [None]:
sns.countplot(x='species', data=df)
plt.title("Distribución de clases en Iris")
plt.xticks(ticks=[0,1,2], labels=iris.target_names)
plt.ylabel("Número de muestras")
plt.show()


### Dividir el dataset en entrenamiento y prueba

In [None]:
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=0, stratify=y)

print(f"Tamaño del conjunto de entrenamiento: {X_train.shape[0]} muestras")
print(f"Tamaño del conjunto de prueba: {X_test.shape[0]} muestras")


### Entrenar SVM con kernel lineal

In [None]:
svm_linear = SVC(kernel='linear', C=1, random_state=0)
svm_linear.fit(X_train, y_train)
y_pred_linear = svm_linear.predict(X_test)

accuracy_linear = accuracy_score(y_test, y_pred_linear)
print(f"Precisión del modelo SVM (kernel lineal): {accuracy_linear:.2f}")


### Entrenar SVM con kernel RBF

In [None]:
svm_rbf = SVC(kernel='rbf', C=1, gamma='scale', random_state=0)
svm_rbf.fit(X_train, y_train)
y_pred_rbf = svm_rbf.predict(X_test)

accuracy_rbf = accuracy_score(y_test, y_pred_rbf)
print(f"Precisión del modelo SVM (kernel RBF): {accuracy_rbf:.2f}")


### Visualizar matrices de confusión

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

cm_linear = confusion_matrix(y_test, y_pred_linear)
disp_linear = ConfusionMatrixDisplay(confusion_matrix=cm_linear, display_labels=iris.target_names)
disp_linear.plot(ax=axes[0], cmap=plt.cm.Blues)
axes[0].set_title("SVM Lineal")

cm_rbf = confusion_matrix(y_test, y_pred_rbf)
disp_rbf = ConfusionMatrixDisplay(confusion_matrix=cm_rbf, display_labels=iris.target_names)
disp_rbf.plot(ax=axes[1], cmap=plt.cm.Blues)
axes[1].set_title("SVM RBF")

plt.tight_layout()
plt.show()


### Informe detallado de métricas

In [None]:
print("Informe de métricas para SVM (kernel lineal):\n")
print(classification_report(y_test, y_pred_linear, target_names=iris.target_names))

print("\nInforme de métricas para SVM (kernel RBF):\n")
print(classification_report(y_test, y_pred_rbf, target_names=iris.target_names))


### Reflexión y discusión grupal

1. ¿Qué diferencias observas entre los kernels lineal y RBF en términos de precisión y matriz de confusión?
2. ¿Qué kernel funcionó mejor? ¿Por qué crees que se debe a la forma en que se distribuyen las clases?
3. ¿En qué situaciones reales podrías necesitar un kernel no lineal como RBF?
4. ¿Cuáles serían las ventajas o limitaciones de usar SVM en un problema más complejo que Iris?
