# Regresión logística en el conjunto de datos Iris

En este notebook se muestra cómo utilizar la regresión logística para clasificar flores en el clásico conjunto de datos Iris.

## Descripción del conjunto de datos

El conjunto de datos Iris contiene 150 muestras de flores de tres especies (Setosa, Versicolor y Virginica). Cada muestra tiene cuatro características numéricas: largo del sépalo, ancho del sépalo, largo del pétalo y ancho del pétalo. Es un conjunto usado frecuentemente para tareas de clasificación.

In [None]:
# Importar bibliotecas
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt

# Cargar el dataset
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='species')

# Mostrar primeras filas
X.head()

In [None]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Inicializar y ajustar el modelo de regresión logística
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Predicciones
y_pred = model.predict(X_test)

# Calcular precisión
accuracy = accuracy_score(y_test, y_pred)
print(f'Exactitud del modelo: {accuracy:.3f}')

In [None]:
# Reporte de clasificación y matriz de confusión
print(classification_report(y_test, y_pred, target_names=iris.target_names))

cm = confusion_matrix(y_test, y_pred)
fig, ax = plt.subplots()
ax.imshow(cm)
ax.set_xticks(range(len(iris.target_names)))
ax.set_yticks(range(len(iris.target_names)))
ax.set_xticklabels(iris.target_names)
ax.set_yticklabels(iris.target_names)
plt.title('Matriz de confusión')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.show()

## Conclusión

La regresión logística es una técnica adecuada para problemas de clasificación multiclase cuando las clases son linealmente separables. Este ejemplo demuestra cómo entrenar un modelo sencillo en el conjunto de datos Iris y evaluar su rendimiento. La función logística convierte la salida lineal en probabilidades entre 0 y 1, lo que permite tomar decisiones de clasificación basadas en un umbral【61158358276537†L183-L200】.