# Modelos Lineales Generalizados en Python
# Regresión binomial negativa

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestran varios ejemplos de como usar Python para ajustar un modelo lineal generalizado. 

Las explicaciones mostradas aquí están basadas en un video de YouTube https://www.youtube.com/watch?v=__oC5IRCFKI

Las librerías necesarias son las siguientes:

In [1]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.formula.api import glm

Otras librerías que se usarán en los ejemplos son:

In [2]:
import pandas as pd

## Datos

En esta actividad vamos a utilizar los datos de los cangrejos presentados en el capítulo 1 de Agresti (2015). Los datos del ejemplo se refieren al número $Y$ de cangrejos machos pegados al caparazón de las cangrejas hembras. Abajo una figura ilustrativa.

<img src="cangreja.jpg" alt="drawing" width="300"/>

Lo primero que usted debe hacer es leer la base de datos.

In [3]:
file = 'http://users.stat.ufl.edu/~aa/glm/data/Crabs.dat'
datos = pd.read_csv(file, sep='\s+', header=0)
datos.head()

Unnamed: 0,crab,y,weight,width,color,spine
0,1,8,3.05,28.3,2,3
1,2,0,1.55,22.5,3,3
2,3,9,2.3,26.0,1,1
3,4,0,2.1,24.8,3,3
4,5,4,2.6,26.0,3,3


Para ver el tamaño de la base de datos

In [4]:
datos.shape

(173, 6)

Vamos a convertir las variables cualitativas que tienen números en verdaderas variables cualitativas usando pandas.

In [5]:
# Para convertir color
scale_mapper = {1:'medium light', 2:'medium', 3:'medium dark', 4:'dark'}
datos['color'] = datos['color'].replace(scale_mapper)
datos['color'] = pd.Categorical(datos['color'], categories=['medium light', 'medium', 'medium dark', 'dark'])

# Para convertir spine
scale_mapper = {1:'both good', 2:'one worn or broken', 3:'both worn or broken'}
datos['spine'] = datos['spine'].replace(scale_mapper)
datos['spine'] = pd.Categorical(datos['spine'], ordered = True)

datos.head()

Unnamed: 0,crab,y,weight,width,color,spine
0,1,8,3.05,28.3,medium,both worn or broken
1,2,0,1.55,22.5,medium dark,both worn or broken
2,3,9,2.3,26.0,medium light,both good
3,4,0,2.1,24.8,medium dark,both worn or broken
4,5,4,2.6,26.0,medium dark,both worn or broken


## Ejemplo 1

El objetivo de este ejemplo es ajustar el siguiente modelo:

\begin{align}
Y_i &\sim BinNeg(\mu_i, \phi), \\ 
\log(\mu_i) &= \beta_0 + \beta_1 Weight_i, \\
\phi &= constante
\end{align}

Para ajustar el modelo:

In [6]:
mod1 = smf.glm(formula='y ~ weight', data=datos, 
               family=sm.families.NegativeBinomial(link=sm.families.links.log()))
mod1 = mod1.fit()
mod1.summary()

0,1,2,3
Dep. Variable:,y,No. Observations:,173.0
Model:,GLM,Df Residuals:,171.0
Model Family:,NegativeBinomial,Df Model:,1.0
Link Function:,log,Scale:,1.0
Method:,IRLS,Log-Likelihood:,-374.4
Date:,"Mon, 02 May 2022",Deviance:,203.61
Time:,15:53:58,Pearson chi2:,155.0
No. Iterations:,7,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-0.8577,0.394,-2.175,0.030,-1.631,-0.085
weight,0.7576,0.154,4.933,0.000,0.457,1.059


Usando los resultados de la tabla anterior podemos escribir el modelo

\begin{align}
Y_i &\sim BinNeg(\hat{\mu}_i), \\ 
\log(\hat{\mu}_i) &= -0.8577 + 0.7576 Weight_i
\end{align}

Reto: ¿cómo se obtiene el valor del parámetro de dispersión $\phi$?