# üåü IA Cl√°sica: Regresi√≥n Log√≠stica y Visualizaci√≥n

Este notebook muestra c√≥mo utilizar modelos cl√°sicos de machine learning para tareas de clasificaci√≥n, usando como ejemplo el famoso dataset Iris.

## ¬øQu√© aprender√°s?
- üìä Cargar y visualizar datos con Seaborn
- üßÆ Entrenar un modelo de regresi√≥n log√≠stica
- üîç Interpretar los resultados visualmente
- üíº Entender aplicaciones pr√°cticas

## üìö Importamos las bibliotecas necesarias

In [None]:
# Bibliotecas esenciales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuraci√≥n para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
sns.set(font_scale=1.2)
%matplotlib inline

## üå∫ Cargamos el dataset Iris

El dataset Iris contiene medidas de 3 especies diferentes de flores iris:
- **Setosa**
- **Versicolor**
- **Virginica**

Para cada flor, tenemos 4 medidas:
- Longitud del s√©palo (cm)
- Ancho del s√©palo (cm)
- Longitud del p√©talo (cm)
- Ancho del p√©talo (cm)

In [None]:
# Cargamos el dataset de Iris desde seaborn
iris = sns.load_dataset("iris")

# Veamos las primeras filas
iris.head()

In [None]:
# Informaci√≥n b√°sica del dataset
print(f"Forma del dataset: {iris.shape}")
print(f"N√∫mero de clases: {len(iris['species'].unique())}")
print(f"Clases: {iris['species'].unique()}")

# Estad√≠sticas descriptivas
iris.describe()

## üìä Visualizaci√≥n de Datos

La visualizaci√≥n nos ayuda a entender la estructura de los datos y c√≥mo se relacionan las diferentes caracter√≠sticas.

In [None]:
# Visualizaci√≥n de pares de caracter√≠sticas
sns.pairplot(iris, hue="species", height=2.5)
plt.suptitle("Relaciones entre caracter√≠sticas por especie", y=1.02, fontsize=16)
plt.show()

### üí° ¬øQu√© nos muestra el gr√°fico?

- üåà Cada color representa una especie de flor
- üìà Cada gr√°fico muestra la relaci√≥n entre dos caracter√≠sticas
- üß© Podemos ver qu√© caracter√≠sticas separan mejor las especies
- üîç Observamos que la longitud y ancho del p√©talo son muy √∫tiles para distinguir especies

In [None]:
# Gr√°fico de dispersi√≥n para las caracter√≠sticas m√°s discriminativas
plt.figure(figsize=(10, 6))
sns.scatterplot(x="petal_length", y="petal_width", hue="species", 
                s=100, data=iris, palette="viridis")
plt.title("Longitud vs Ancho del P√©talo por Especie", fontsize=16)
plt.xlabel("Longitud del P√©talo (cm)", fontsize=14)
plt.ylabel("Ancho del P√©talo (cm)", fontsize=14)
plt.legend(title="Especie", fontsize=12)
plt.show()

## üéØ Regresi√≥n Log√≠stica

### ¬øQu√© es la Regresi√≥n Log√≠stica?

- üß† Es un algoritmo de clasificaci√≥n simple pero poderoso
- üìä Predice la probabilidad de que una observaci√≥n pertenezca a una categor√≠a
- üî¢ Usa una funci√≥n log√≠stica para transformar un valor en una probabilidad (0-1)
- üìà Crea l√≠mites de decisi√≥n lineales entre clases

### Aplicaciones pr√°cticas:

- üè• **Salud**: Predicci√≥n de diagn√≥sticos m√©dicos (¬øtiene el paciente la enfermedad?)
- üéì **Educaci√≥n**: Predicci√≥n de √©xito acad√©mico (¬øaprobar√° el estudiante?)
- üí∞ **Finanzas**: Evaluaci√≥n de riesgo crediticio (¬øpagar√° el cliente su pr√©stamo?)
- üì± **Marketing**: Predicci√≥n de conversi√≥n (¬øcomprar√° el usuario el producto?)

In [None]:
# Preparamos los datos para el modelo
X = iris.drop('species', axis=1)  # Caracter√≠sticas
y = iris['species']               # Variable objetivo

# Dividimos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
# Creamos y entrenamos el modelo de regresi√≥n log√≠stica
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Hacemos predicciones
y_pred = model.predict(X_test)

# Evaluamos el rendimiento
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisi√≥n del modelo: {accuracy:.2%}")
print("\nInforme de clasificaci√≥n:")
print(classification_report(y_test, y_pred))

## üîç Visualizaci√≥n de la Frontera de Decisi√≥n

Para visualizar c√≥mo el modelo separa las clases, creamos una frontera de decisi√≥n usando las dos caracter√≠sticas m√°s importantes.

In [None]:
# Funci√≥n para visualizar la frontera de decisi√≥n
def plot_decision_boundary(model, X, y, features):
    # Seleccionamos las dos caracter√≠sticas
    X_features = X[features]
    
    # Creamos una malla para visualizar la frontera
    x_min, x_max = X_features.iloc[:, 0].min() - 0.5, X_features.iloc[:, 0].max() + 0.5
    y_min, y_max = X_features.iloc[:, 1].min() - 0.5, X_features.iloc[:, 1].max() + 0.5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),
                         np.arange(y_min, y_max, 0.02))
    
    # Entrenamos un nuevo modelo solo con estas caracter√≠sticas
    model_2d = LogisticRegression(max_iter=200)
    model_2d.fit(X_features, y)
    
    # Predecimos en cada punto de la malla
    Z = model_2d.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    # Creamos el gr√°fico
    plt.figure(figsize=(12, 8))
    plt.contourf(xx, yy, Z, alpha=0.3, cmap='viridis')
    
    # Graficamos los puntos de datos reales
    scatter = plt.scatter(X_features.iloc[:, 0], X_features.iloc[:, 1], c=y.map({'setosa': 0, 'versicolor': 1, 'virginica': 2}), 
                         s=100, edgecolor='k', cmap='viridis')
    
    plt.xlabel(features[0], fontsize=15)
    plt.ylabel(features[1], fontsize=15)
    plt.title(f'Frontera de Decisi√≥n con {features[0]} y {features[1]}', fontsize=18)
    plt.colorbar(scatter, ticks=[0, 1, 2], label='Especie')
    plt.tight_layout()
    plt.show()

In [None]:
# Visualizamos la frontera de decisi√≥n para longitud y ancho del p√©talo
plot_decision_boundary(model, iris, iris['species'], ['petal_length', 'petal_width'])

## üíº Roles en Proyectos de IA

### üßë‚Äçüíª Rol del Data Analyst
- **Exploraci√≥n de datos**: Entender las caracter√≠sticas y distribuciones
- **Visualizaci√≥n**: Crear gr√°ficos que muestren patrones e insights
- **Comunicaci√≥n**: Traducir hallazgos t√©cnicos a lenguaje de negocio
- **Herramientas**: Excel, Tableau, Power BI, SQL, Python b√°sico

### üë©‚Äçüî¨ Rol del Data Scientist
- **Construcci√≥n de modelos**: Seleccionar y entrenar algoritmos
- **Validaci√≥n**: Evaluar y mejorar el rendimiento de los modelos
- **Implementaci√≥n**: Convertir modelos en soluciones utilizables
- **Herramientas**: Python/R avanzado, bibliotecas de ML, estad√≠stica

## üöÄ Integraci√≥n con Dashboards

Este modelo podr√≠a integrarse en un dashboard para clasificar nuevas flores en tiempo real:

In [None]:
# Ejemplo b√°sico de c√≥mo se usar√≠a con Streamlit
# (No ejecutar, solo para ilustraci√≥n)

'''
import streamlit as st

st.title("Clasificador de Flores Iris")

# Widgets para ingresar medidas
sepal_length = st.slider("Longitud del S√©palo (cm)", 4.0, 8.0, 5.8)
sepal_width = st.slider("Ancho del S√©palo (cm)", 2.0, 4.5, 3.0)
petal_length = st.slider("Longitud del P√©talo (cm)", 1.0, 7.0, 4.0)
petal_width = st.slider("Ancho del P√©talo (cm)", 0.1, 2.5, 1.3)

# Bot√≥n para clasificar
if st.button("Clasificar Flor"):
    # Crear un array con las caracter√≠sticas
    features = [[sepal_length, sepal_width, petal_length, petal_width]]
    
    # Hacer la predicci√≥n
    prediction = model.predict(features)[0]
    probability = model.predict_proba(features)[0]
    
    # Mostrar el resultado
    st.success(f"La flor es probablemente una **{prediction}**")
    
    # Mostrar probabilidades
    st.write("Probabilidades por clase:")
    prob_df = pd.DataFrame({
        'Especie': model.classes_,
        'Probabilidad': probability
    })
    st.bar_chart(prob_df.set_index('Especie'))
'''

## üåü Conclusi√≥n

- ‚úÖ Hemos aprendido sobre la regresi√≥n log√≠stica, un modelo cl√°sico de IA
- üìä Visualizamos datos y fronteras de decisi√≥n para entender el modelo
- üíº Entendimos los diferentes roles en proyectos de datos
- üöÄ Vimos c√≥mo estos modelos pueden integrarse en aplicaciones pr√°cticas

### Pr√≥ximos pasos:
- Explora otros modelos como √°rboles de decisi√≥n o random forests
- Prueba con otros conjuntos de datos m√°s complejos
- Implementa un dashboard real con Streamlit o Dash