# 🌟 IA Clásica: Regresión Logística y Visualización

Este notebook muestra cómo utilizar modelos clásicos de machine learning para tareas de clasificación, usando como ejemplo el famoso dataset Iris.

## ¿Qué aprenderás?
- 📊 Cargar y visualizar datos con Seaborn
- 🧮 Entrenar un modelo de regresión logística
- 🔍 Interpretar los resultados visualmente
- 💼 Entender aplicaciones prácticas

## 📚 Importamos las bibliotecas necesarias

In [None]:
# Bibliotecas esenciales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuración para gráficos
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.2)
%matplotlib inline

## 🌺 Cargamos el dataset Iris

El dataset Iris contiene medidas de 3 especies diferentes de flores iris:
- **Setosa**
- **Versicolor**
- **Virginica**

Para cada flor, tenemos 4 medidas:
- Longitud del sépalo (cm)
- Ancho del sépalo (cm)
- Longitud del pétalo (cm)
- Ancho del pétalo (cm)

In [None]:
# Cargamos el dataset de Iris desde seaborn
iris = sns.load_dataset("iris")

# Veamos las primeras filas
iris.head()

In [None]:
# Información básica del dataset
print(f"Forma del dataset: {iris.shape}")
print(f"Número de clases: {len(iris['species'].unique())}")
print(f"Clases: {iris['species'].unique()}")

# Estadísticas descriptivas
iris.describe()

## 📊 Visualización de Datos

La visualización nos ayuda a entender la estructura de los datos y cómo se relacionan las diferentes características.

In [None]:
# Visualización de pares de características
sns.pairplot(iris, hue="species", height=2.5)
plt.suptitle("Relaciones entre características por especie", y=1.02, fontsize=16)
plt.show()

### 💡 ¿Qué nos muestra el gráfico?

- 🌈 Cada color representa una especie de flor
- 📈 Cada gráfico muestra la relación entre dos características
- 🧩 Podemos ver qué características separan mejor las especies
- 🔍 Observamos que la longitud y ancho del pétalo son muy útiles para distinguir especies

In [None]:
# Gráfico de dispersión para las características más discriminativas
plt.figure(figsize=(10, 6))
sns.scatterplot(x="petal_length", y="petal_width", hue="species", 
                s=100, data=iris, palette="viridis")
plt.title("Longitud vs Ancho del Pétalo por Especie", fontsize=16)
plt.xlabel("Longitud del Pétalo (cm)", fontsize=14)
plt.ylabel("Ancho del Pétalo (cm)", fontsize=14)
plt.legend(title="Especie", fontsize=12)
plt.show()

## 🎯 Regresión Logística

### ¿Qué es la Regresión Logística?

- 🧠 Es un algoritmo de clasificación simple pero poderoso
- 📊 Predice la probabilidad de que una observación pertenezca a una categoría
- 🔢 Usa una función logística para transformar un valor en una probabilidad (0-1)
- 📈 Crea límites de decisión lineales entre clases

### Aplicaciones prácticas:

- 🏥 **Salud**: Predicción de diagnósticos médicos (¿tiene el paciente la enfermedad?)
- 🎓 **Educación**: Predicción de éxito académico (¿aprobará el estudiante?)
- 💰 **Finanzas**: Evaluación de riesgo crediticio (¿pagará el cliente su préstamo?)
- 📱 **Marketing**: Predicción de conversión (¿comprará el usuario el producto?)

In [None]:
# Preparamos los datos para el modelo
X = iris.drop('species', axis=1)  # Características
y = iris['species']               # Variable objetivo

# Dividimos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Creamos y entrenamos el modelo de regresión logística
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Hacemos predicciones
y_pred = model.predict(X_test)

# Evaluamos el rendimiento
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2%}")
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))

## 🔍 Visualización de la Frontera de Decisión

Para visualizar cómo el modelo separa las clases, creamos una frontera de decisión usando las dos características más importantes.

In [None]:
# Función para visualizar la frontera de decisión
def plot_decision_boundary(model, X, y, features):
    # Seleccionamos las dos características
    X_features = X[features]
    
    # Creamos una malla para visualizar la frontera
    x_min, x_max = X_features.iloc[:, 0].min() - 0.5, X_features.iloc[:, 0].max() + 0.5
    y_min, y_max = X_features.iloc[:, 1].min() - 0.5, X_features.iloc[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                         np.arange(y_min, y_max, 0.02))
    
    # Entrenamos un nuevo modelo solo con estas características
    model_2d = LogisticRegression(max_iter=200)
    model_2d.fit(X_features, y)
    
    # Predecimos en cada punto de la malla
    Z = model_2d.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    # Creamos el gráfico
    plt.figure(figsize=(12, 8))
    plt.contourf(xx, yy, Z, alpha=0.3, cmap='viridis')
    
    # Graficamos los puntos de datos reales
    scatter = plt.scatter(X_features.iloc[:, 0], X_features.iloc[:, 1], c=y.map({'setosa': 0, 'versicolor': 1, 'virginica': 2}), 
                         s=100, edgecolor='k', cmap='viridis')
    
    plt.xlabel(features[0], fontsize=15)
    plt.ylabel(features[1], fontsize=15)
    plt.title(f'Frontera de Decisión con {features[0]} y {features[1]}', fontsize=18)
    plt.colorbar(scatter, ticks=[0, 1, 2], label='Especie')
    plt.tight_layout()
    plt.show()

In [None]:
# Visualizamos la frontera de decisión para longitud y ancho del pétalo
plot_decision_boundary(model, iris, iris['species'], ['petal_length', 'petal_width'])

## 💼 Roles en Proyectos de IA

### 🧑‍💻 Rol del Data Analyst
- **Exploración de datos**: Entender las características y distribuciones
- **Visualización**: Crear gráficos que muestren patrones e insights
- **Comunicación**: Traducir hallazgos técnicos a lenguaje de negocio
- **Herramientas**: Excel, Tableau, Power BI, SQL, Python básico

### 👩‍🔬 Rol del Data Scientist
- **Construcción de modelos**: Seleccionar y entrenar algoritmos
- **Validación**: Evaluar y mejorar el rendimiento de los modelos
- **Implementación**: Convertir modelos en soluciones utilizables
- **Herramientas**: Python/R avanzado, bibliotecas de ML, estadística

## 🚀 Integración con Dashboards

Este modelo podría integrarse en un dashboard para clasificar nuevas flores en tiempo real:

In [None]:
# Ejemplo básico de cómo se usaría con Streamlit
# (No ejecutar, solo para ilustración)

'''
import streamlit as st

st.title("Clasificador de Flores Iris")

# Widgets para ingresar medidas
sepal_length = st.slider("Longitud del Sépalo (cm)", 4.0, 8.0, 5.8)
sepal_width = st.slider("Ancho del Sépalo (cm)", 2.0, 4.5, 3.0)
petal_length = st.slider("Longitud del Pétalo (cm)", 1.0, 7.0, 4.0)
petal_width = st.slider("Ancho del Pétalo (cm)", 0.1, 2.5, 1.3)

# Botón para clasificar
if st.button("Clasificar Flor"):
    # Crear un array con las características
    features = [[sepal_length, sepal_width, petal_length, petal_width]]
    
    # Hacer la predicción
    prediction = model.predict(features)[0]
    probability = model.predict_proba(features)[0]
    
    # Mostrar el resultado
    st.success(f"La flor es probablemente una **{prediction}**")
    
    # Mostrar probabilidades
    st.write("Probabilidades por clase:")
    prob_df = pd.DataFrame({
        'Especie': model.classes_,
        'Probabilidad': probability
    })
    st.bar_chart(prob_df.set_index('Especie'))
'''

## 🌟 Conclusión

- ✅ Hemos aprendido sobre la regresión logística, un modelo clásico de IA
- 📊 Visualizamos datos y fronteras de decisión para entender el modelo
- 💼 Entendimos los diferentes roles en proyectos de datos
- 🚀 Vimos cómo estos modelos pueden integrarse en aplicaciones prácticas

### Próximos pasos:
- Explora otros modelos como árboles de decisión o random forests
- Prueba con otros conjuntos de datos más complejos
- Implementa un dashboard real con Streamlit o Dash