# Regresi√≥n de Poisson en Python ‚Äî Crime and Punishment (cpunish)
**Duraci√≥n:** ~30 minutos  
**Objetivo:** Ajustar e interpretar una regresi√≥n de Poisson para datos de conteo (n√∫mero de ejecuciones).

### Objetivos de aprendizaje
- Reconocer los **resultados de tipo conteo** y comprender por qu√© la regresi√≥n lineal no es apropiada en estos casos.  
- Ajustar un **modelo lineal generalizado de Poisson (GLM con enlace logar√≠tmico)** utilizando `statsmodels`.  
- Interpretar los coeficientes en t√©rminos de **efectos multiplicativos** (mediante la exponenciaci√≥n).  
- Verificar la **sobredispersi√≥n** b√°sica y comparar con un modelo **binomial negativo**.

## ¬øQu√© es una distribuci√≥n de Poisson?

La **distribuci√≥n de Poisson** modela el **n√∫mero de eventos** que ocurren en un intervalo fijo de tiempo o espacio, bajo estas condiciones:
- Los eventos ocurren **independientemente** entre s√≠.
- La **tasa media** de ocurrencia por unidad (Œª, "lambda") es **constante**.
- La probabilidad de m√°s de un evento en un intervalo muy peque√±o es despreciable.

**Funci√≥n de probabilidad (pmf):**
$
P(X = k) \;=\; \frac{e^{-\lambda}\,\lambda^{k}}{k!}, \quad k = 0,1,2,\dots
$

**Propiedades clave:**
- **Media:** $E[X] = \lambda$
- **Varianza:** $Var(X) = \lambda$
- Soporta datos de **conteo** (enteros no negativos).

**Procesos que modela:**
- Llegadas de clientes a una cola (por minuto).
- N√∫mero de llamadas a un call center por hora.
- Conteo de defectos en una longitud de material.
- Casos de un suceso raro por unidad (p. ej., mutaciones por Mb).

> En un **proceso de Poisson** con tasa $\lambda$, el n√∫mero de eventos en cualquier intervalo de longitud $t$ sigue $\text{Poisson}\lambda_t$.

In [None]:
# Setup
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
from scipy.stats import poisson

pd.set_option('display.max_columns', 100)

In [None]:
# Visualizaci√≥n de la distribuci√≥n de Poisson (PMF) para distintos Œª

# TODO: Completar la visualizaci√≥n
# Par√°metros (puedes cambiarlos)
lambdas = [2, 5]     # tasas medias (Œª)
k = np.arange(0, 21) # soporte discreto: 0..20

fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# TODO: Loop para crear los gr√°ficos
# for i, lam in enumerate(lambdas):
#     pmf = 
#     axes[i].stem(k, pmf, basefmt=" ")
#     axes[i].set_xlabel("k (conteos)")
#     axes[i].set_ylabel("P(X = k)")
#     axes[i].set_title(f"Poisson(Œª={lam})")

# plt.suptitle("Distribuci√≥n de Poisson ‚Äî Funci√≥n de probabilidad (PMF)")
# plt.tight_layout()
# plt.show()

## 1) Carga e inspecci√≥n de datos

El conjunto de datos **Crime and Punishment (`cpunish`)** proviene de `statsmodels` y contiene informaci√≥n socioecon√≥mica y demogr√°fica de los estados de EE. UU., junto con datos sobre la aplicaci√≥n de la pena de muerte.  

Se utiliza com√∫nmente para ilustrar modelos de regresi√≥n de conteo, como la **regresi√≥n de Poisson** o **binomial negativa**, donde la variable dependiente es el n√∫mero de ejecuciones.

| Variable | Tipo | Descripci√≥n |
|-----------|------|-------------|
| **EXECUTIONS** | `float64` | N√∫mero de ejecuciones (pena de muerte) en el estado entre 1977 y 1996. Es la variable dependiente del modelo. |
| **INCOME** | `float64` | Ingreso personal promedio per c√°pita del estado (en miles de d√≥lares). |
| **PERPOVERTY** | `float64` | Porcentaje de la poblaci√≥n del estado que vive por debajo del umbral de pobreza. |
| **PERBLACK** | `float64` | Porcentaje de la poblaci√≥n afroamericana en el estado. |
| **VC100k96** | `float64` | Tasa de cr√≠menes violentos en 1996 por cada 100 000 habitantes. |
| **SOUTH** | `float64` | Variable indicadora (dummy): 1 si el estado pertenece al sur de EE. UU., 0 en caso contrario. |
| **DEGREE** | `float64` | Porcentaje de la poblaci√≥n adulta con al menos un t√≠tulo universitario. |

### üß† Contexto
Este conjunto permite explorar c√≥mo los factores socioecon√≥micos y demogr√°ficos se relacionan con la frecuencia de ejecuciones.  
Por ejemplo, una **regresi√≥n de Poisson** puede estimar c√≥mo var√≠a el n√∫mero esperado de ejecuciones seg√∫n el nivel de ingreso, la educaci√≥n o la ubicaci√≥n geogr√°fica del estado.

In [None]:
# TODO: Cargar el dataset cpunish de statsmodels
# data = 
# data.head()

In [None]:
# TODO: Estructura b√°sica y tipos de datos
# print(data.shape)
# print(data.dtypes)
# data['EXECUTIONS'].describe()

## 2) Ajuste de una regresi√≥n de tipo Poisson
Predeciremos `executions` a partir de algunos predictores simples: `INCOME`, `SOUTH`, `PERBLACK`, `DEGREE`.  
Enlace: **logar√≠tmico** (**log**).

In [None]:
# TODO: Preparar datos y ajustar modelo de Poisson
# X = 
# y = 

# X = 
# poisson_model = 
# poisson_model.summary()

In [None]:
# TODO: Efectos multiplicativos (coeficientes exponenciados)
# mult_effects = 
# mult_effects.to_frame()

## 3) Predicho versus Observado

In [None]:
# TODO: Comparar valores predichos vs observados
# pred_mu = 
# comparison = 
# comparison.head()

Para el caso de la binomial negativa

In [None]:
# TODO: Gr√°fico de dispersi√≥n observado vs predicho
# plt.figure()
# plt.scatter(comparison["observed"], comparison["predicted"])
# plt.xlabel("Ejecuciones observadas")
# plt.ylabel("Ejecuciones predichas (Poisson GLM)")
# plt.title("Ejecuciones observadas vs Predichas")
# plt.plot([comparison["observed"].min(), comparison["observed"].max()],
#          [comparison["observed"].min(), comparison["observed"].max()],
#          linestyle="--")
# plt.show()

## 4) Verificaci√≥n de Sobredispersi√≥n

En la regresi√≥n de Poisson, se asume que la **media** y la **varianza** son iguales. Cuando la varianza es mayor que la media, tenemos **sobredispersi√≥n**, lo cual puede indicar que un modelo **binomial negativo** podr√≠a ser m√°s apropiado.

In [None]:
# TODO: Verificar sobredispersi√≥n
# mean_executions = 
# var_executions = 
# dispersion_ratio = 

# print(f"Media de ejecuciones: {mean_executions:.2f}")
# print(f"Varianza de ejecuciones: {var_executions:.2f}")
# print(f"Ratio dispersi√≥n (Var/Media): {dispersion_ratio:.2f}")

# if dispersion_ratio > 1.5:
#     print("\n‚ö†Ô∏è  Hay evidencia de sobredispersi√≥n. Considera un modelo binomial negativo.")
# else:
#     print("\n‚úÖ La dispersi√≥n parece apropiada para Poisson.")

## 5) Comparaci√≥n con Modelo Binomial Negativo

Si hay sobredispersi√≥n, podemos ajustar un modelo **binomial negativo** que permite que la varianza sea mayor que la media.

In [None]:
# TODO: Ajustar modelo binomial negativo
# nb_model = 
# nb_model.summary()

In [None]:
# TODO: Comparar AIC de ambos modelos
# print(f"AIC Poisson: {poisson_model.aic:.2f}")
# print(f"AIC Binomial Negativo: {nb_model.aic:.2f}")
# print(f"\nMejor modelo (menor AIC): {'Binomial Negativo' if nb_model.aic < poisson_model.aic else 'Poisson'}")

## 6) Conclusiones

- La **regresi√≥n de Poisson** es apropiada para datos de **conteo** (enteros no negativos).
- Los coeficientes representan el **cambio logar√≠tmico** en la tasa esperada.
- Los **efectos multiplicativos** se obtienen exponenciando los coeficientes.
- La **sobredispersi√≥n** puede requerir modelos alternativos como la **binomial negativa**.

---

## üß™ Ejercicios

1. **Interpretaci√≥n:** ¬øQu√© significa un coeficiente de 0.693 para una variable continua en el modelo de Poisson?
2. **Predicci√≥n:** Calcula el n√∫mero esperado de ejecuciones para un estado del sur con ingreso promedio.
3. **Modelo alternativo:** Prueba agregar la variable `VC100k96` (cr√≠menes violentos). ¬øMejora el modelo?
4. **Residuos:** Examina los residuos del modelo de Poisson. ¬øHay patrones que sugieran problemas con el ajuste?