# Modelos Lineales Generalizados en Python
# Regresión Poisson

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestran varios ejemplos de como usar Python para ajustar un modelo lineal generalizado. 

Las librerías necesarias son las siguientes:

In [1]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.formula.api import glm

Otras librerías que se usarán en los ejemplos son:

In [2]:
import pandas as pd
import numpy as np

## Ejemplo

En esta actividad vamos a utilizar los datos muertes de hombres con cáncer de pulmón, el ejemplo es presentado en el capítulo 7 de Agresti (2015). El objetivo es ajustar el siguiente modelo:

\begin{align}
Y_i &\sim Poisson(\mu_i), \\ 
\log(\mu_i / t_i) &= \beta_0 + \beta_1 Stage_2 + \beta_2 Stage_3 + \beta_3 Histo_2 + \beta_4 Histo_3 + \beta_5 Time_2 + \ldots + \beta_{10} Time_7
\end{align}

Los datos del ejemplo se refieren al número $Y$ de hombres muertos durante un seguimiento durante $t_i$ meses. La variable Histo corresponde a histología (I, II, III) y Stage corresponde al estado de la enfermedad (1, 2, 3).

Abajo una figura ilustrativa.

<img src="cancer.png" alt="drawing" width="300"/>

Lo primero que usted debe hacer es leer la base de datos.

In [3]:
file = 'http://users.stat.ufl.edu/~aa/glm/data/Cancer.dat'
datos = pd.read_csv(file, sep='\s+', header=0)
datos.head()

Unnamed: 0,time,histology,stage,count,risktime
0,1,1,1,9,157
1,1,2,1,5,77
2,1,3,1,1,21
3,2,1,1,2,139
4,2,2,1,2,68


Para ver el tamaño de la base de datos

In [4]:
datos.shape

(63, 5)

Para crear la variable logrisktime usamos la siguiente instrucción:

In [5]:
datos["logrisktime"] = np.log(datos["risktime"])

In [6]:
datos.head()

Unnamed: 0,time,histology,stage,count,risktime,logrisktime
0,1,1,1,9,157,5.056246
1,1,2,1,5,77,4.343805
2,1,3,1,1,21,3.044522
3,2,1,1,2,139,4.934474
4,2,2,1,2,68,4.219508


Para ajustar el modelo:

In [7]:
mod1 = smf.glm(formula='count ~ C(stage) + C(histology) + C(time)', offset=datos["logrisktime"], 
               data=datos, family=sm.families.Poisson(link=sm.families.links.log()))
mod1 = mod1.fit()
mod1.summary()

0,1,2,3
Dep. Variable:,count,No. Observations:,63.0
Model:,GLM,Df Residuals:,52.0
Model Family:,Poisson,Df Model:,10.0
Link Function:,log,Scale:,1.0
Method:,IRLS,Log-Likelihood:,-114.87
Date:,"Tue, 03 May 2022",Deviance:,43.923
Time:,08:18:09,Pearson chi2:,43.1
No. Iterations:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-3.0093,0.167,-18.073,0.000,-3.336,-2.683
C(stage)[T.2],0.4700,0.174,2.694,0.007,0.128,0.812
C(stage)[T.3],1.3243,0.152,8.709,0.000,1.026,1.622
C(histology)[T.2],0.1624,0.122,1.332,0.183,-0.077,0.401
C(histology)[T.3],0.1075,0.147,0.729,0.466,-0.181,0.397
C(time)[T.2],-0.1275,0.149,-0.855,0.393,-0.420,0.165
C(time)[T.3],-0.0797,0.164,-0.488,0.626,-0.400,0.241
C(time)[T.4],0.1189,0.171,0.695,0.487,-0.216,0.454
C(time)[T.5],-0.6651,0.261,-2.552,0.011,-1.176,-0.154


Usando los resultados de la tabla anterior podemos escribir el modelo

\begin{align}
Y_i &\sim Poisson(\hat{\mu_i}), \\ 
\log(\hat{\mu_i}) &= -3.0093 + 0.4700 Stage_2 + 1.3243 Stage_3 + 0.1624 Histo_2 + 0.1075 Histo_3 - 0.1275 Time_2 + \ldots - 0.10752 Time_7 + \log(t_i)
\end{align}

Recordemos que los valores de $\log(t_i)$ están en la última columna de los datos.

In [8]:
datos.head()

Unnamed: 0,time,histology,stage,count,risktime,logrisktime
0,1,1,1,9,157,5.056246
1,1,2,1,5,77,4.343805
2,1,3,1,1,21,3.044522
3,2,1,1,2,139,4.934474
4,2,2,1,2,68,4.219508
