# Regresi√≥n Log√≠stica en Python ‚Äî Supervivencia del Titanic
**Duraci√≥n:** ~30 minutos  
**Objetivo:** Ajustar e interpretar una regresi√≥n log√≠stica para predecir la supervivencia en el Titanic usando caracter√≠sticas simples.

### Objetivos de Aprendizaje
- Entender la regresi√≥n log√≠stica como un GLM con el enlace **logit**.
- Ajustar regresi√≥n log√≠stica con **statsmodels** y **scikit-learn**.
- Interpretar coeficientes (razones de momios) y evaluar con precisi√≥n, ROC AUC, y matriz de confusi√≥n.

In [None]:
# Configuraci√≥n
import numpy as np
import pandas as pd
import statsmodels.api as sm
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, roc_auc_score, roc_curve, classification_report
import matplotlib.pyplot as plt

# Opciones de visualizaci√≥n
pd.set_option('display.max_columns', 100)

# ¬øQu√© es la Regresi√≥n Log√≠stica?

La **regresi√≥n log√≠stica** es un modelo lineal generalizado (GLM) que se utiliza para predecir **variables binarias** (0/1, No/S√≠, Fracaso/√âxito). A diferencia de la regresi√≥n lineal que predice valores continuos, la regresi√≥n log√≠stica predice **probabilidades** que est√°n restringidas al intervalo [0, 1].

**Funci√≥n log√≠stica (sigmoide):**
$$
p(x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k)}}
$$

**Funci√≥n de enlace logit:**
$$
\text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_k x_k
$$

**Propiedades clave:**
- **Rango:** Las probabilidades predichas est√°n siempre entre 0 y 1.
- **Forma S:** La funci√≥n log√≠stica tiene forma de "S" (sigmoide).
- **Interpretaci√≥n:** Los coeficientes representan el cambio en **log-odds** por unidad de cambio en la variable predictora.

**Casos de uso:**
- Predicci√≥n de supervivencia (vivo/muerto).
- Clasificaci√≥n de correos (spam/no spam).
- Diagn√≥stico m√©dico (enfermo/sano).
- Aprobaci√≥n de cr√©ditos (aprobado/rechazado).
- Marketing (compra/no compra).

**Raz√≥n de posibilidades (Odds Ratios):**
Los **odds** son la raz√≥n entre la probabilidad de √©xito y la probabilidad de fracaso:
$$
\text{Odds} = \frac{p}{1-p}
$$

La **raz√≥n de posibilidades** para una variable $x_i$ es:
$$
\text{OR}_i = e^{\beta_i}
$$

- Si $\text{OR} > 1$: La variable aumenta la probabilidad del evento.
- Si $\text{OR} < 1$: La variable disminuye la probabilidad del evento.
- Si $\text{OR} = 1$: La variable no tiene efecto en la probabilidad.

> La regresi√≥n log√≠stica es especialmente √∫til cuando necesitamos no solo clasificar, sino tambi√©n obtener **probabilidades calibradas** y entender la **importancia relativa** de cada predictor.

## 1) Cargar e Inspeccionar los Datos
Usaremos el conjunto de datos `titanic` incorporado en **Seaborn**.

In [None]:
# TODO: Cargar el dataset titanic de seaborn
# titanic = 

# TODO: Mostrar las primeras filas

In [None]:
# TODO: Informaci√≥n b√°sica y verificaciones r√°pidas
# - Mostrar shape del dataset
# - Verificar valores faltantes
# - Mostrar tasa de supervivencia

## 2) Preprocesamiento M√≠nimo
Mantendremos las cosas simples:
- Seleccionar algunos predictores: `age`, `fare`, `sex`, `class`
- Eliminar filas con valores faltantes en estas columnas
- Codificar variables categ√≥ricas con one-hot encoding

In [None]:
# TODO: Preprocesamiento
cols = ["age", "fare", "sex", "class", "survived"]
# df = 

# TODO: Codificar variables categ√≥ricas
# sex: male=0, female=1
# df["sex"] = 

# TODO: Crear variables dummy para 'class' y preparar X e y
# X = 
# y = 

# Mostrar resultado
# X.head()

## 3) Ajustar con **statsmodels** (Logit) para Interpretabilidad
Incluiremos una intersecci√≥n y veremos las estimaciones de los coeficientes. Tambi√©n calcularemos las **razones de momios**.

In [None]:
# TODO: Ajustar modelo log√≠stico con statsmodels
# - Agregar constante a X
# - Convertir columnas booleanas a enteros
# - Ajustar modelo Logit
# X_sm = 
# logit_model = 
# logit_summary = 

In [None]:
# TODO: Calcular razones de momios (exponencial de los coeficientes)
# odds_ratios = 

## 4) Entrenar/Probar con **scikit-learn** para Predicci√≥n
Evaluaremos con precisi√≥n, matriz de confusi√≥n, curva ROC, y AUC.

In [None]:
# TODO: Divisi√≥n train/test y ajuste del modelo
# X_train, X_test, y_train, y_test = 

# clf = 
# clf.fit()

# TODO: Predicciones
# y_pred = 
# y_proba = 

# TODO: M√©tricas de evaluaci√≥n
# print("Precisi√≥n:", )
# print("\nMatriz de confusi√≥n:\n", )
# print("\nROC AUC:", )
# print("\nReporte de clasificaci√≥n:\n", )

In [None]:
# TODO: Curva ROC
# fpr, tpr, thresholds = 

# plt.figure()
# plt.plot(fpr, tpr, label="Curva ROC")
# plt.plot([0,1], [0,1], linestyle="--", label="Azar")
# plt.xlabel("Tasa de Falsos Positivos")
# plt.ylabel("Tasa de Verdaderos Positivos")
# plt.title("Curva ROC - Regresi√≥n Log√≠stica (Titanic)")
# plt.legend(loc="lower right")
# plt.show()

## 5) Conclusiones
- Los coeficientes en regresi√≥n log√≠stica son **log-odds**; exponenciarlos da las **razones de momios**.
- Las caracter√≠sticas continuas (ej., `age`, `fare`) cambian los log-odds por cambio unitario.
- Las variables dummy categ√≥ricas (ej., `class_Second`, `class_Third`) son relativas a la l√≠nea base (`First`).

---

## üß™ Ejercicios
1. **Simplificar el modelo:** Ajusta un modelo con solo `age` y `sex`. Compara el AUC con el modelo completo.  
2. **Agregar caracter√≠sticas:** Intenta agregar `sibsp` y `parch` (hermanos/padres a bordo). ¬øCambia el rendimiento?  
3. **Calibrar umbrales:** En lugar de 0.5, elige un umbral que equilibre precisi√≥n y recall para la clase positiva.  
4. **Interpretaci√≥n:** Usando el logit de statsmodels, calcula e interpreta la raz√≥n de momios para `sex` y `class_Third`.