# Modelos Lineales Generalizado en Python
# Regresión multinomial - nominal

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestran varios ejemplos de como usar Python para ajustar un modelo lineal generalizado. 

Las explicaciones mostradas aquí están basadas en https://www.statsmodels.org/stable/examples/notebooks/generated/ordinal_regression.html

Las librerías necesarias son las siguientes:

In [4]:
import scipy.stats as stats
from statsmodels.miscmodels.ordinal_model import OrderedModel

ModuleNotFoundError: No module named 'statsmodels.miscmodels.ordinal_model'

Otras librerías que se usarán en los ejemplos son:

In [5]:
import pandas as pd

## Ejemplo

En esta actividad vamos a utilizar los datos presentados la sección 6.2.2 del libro "An Introduction to Categorical Data Analysis" de Agresti (2019). El objetivo es ajustar el siguiente modelo:

$$
logit(P(Y \leq j)) = \alpha_j + \beta x, \, \text{para} \, j=1, 2, 3, 4
$$

El objetivo es modelar ajustar un modelo de regresión multinomial para explicar la variable respuesta ideología política $Y$ en función del género y el partido. 

Abajo una figura ilustrativa.

<img src="logo_partidos_politicos.png" alt="drawing" width="200"/>

Lo primero que usted debe hacer es leer la base de datos.

In [6]:
datos = pd.read_csv('political_ideology.txt', sep='\s+', header=0)
datos.head()

Unnamed: 0,genero,partido,ideologia
1,Female,Democ,Muy lib
2,Female,Democ,Muy lib
3,Female,Democ,Muy lib
4,Female,Democ,Muy lib
5,Female,Democ,Muy lib


Para ver el tamaño de la base de datos

In [7]:
datos.shape

(661, 3)

Vamos a explorar el tipo de cada una de las variables.

In [8]:
datos.dtypes

genero       object
partido      object
ideologia    object
dtype: object

In [9]:
datos['ideologia'].dtype

dtype('O')

In [11]:
datos["y"] = pd.Categorical(datos['ideologia'], 
                            categories=["Muy lib", "Algo lib", "Mod", "Algo conser", "Muy conser"], 
                            ordered=True)

print(datos.head())

print(datos.dtypes)

   genero partido ideologia        y
1  Female   Democ   Muy lib  Muy lib
2  Female   Democ   Muy lib  Muy lib
3  Female   Democ   Muy lib  Muy lib
4  Female   Democ   Muy lib  Muy lib
5  Female   Democ   Muy lib  Muy lib
genero         object
partido        object
ideologia      object
y            category
dtype: object


Para ajustar el modelo:

In [12]:
mod_prob = OrderedModel(datos['y'],
                        datos[['genero', 'partido']],
                        distr='probit')

res_prob = mod_prob.fit(method='bfgs')
res_prob.summary()

NameError: name 'OrderedModel' is not defined

Usando los resultados de la tabla anterior podemos escribir el modelo

\begin{align}
Y_i &\sim Binomial(\hat{\mu_i}, m=1), \\ 
logit(\hat{\mu_i}) &= -12.3508 + 0.4972 \, width_i
\end{align}

## Funciones de enlace disponibles

Para conocer otras posibles funciones de enlace se puede utilizar la siguiente instrucción:

In [None]:
sm.families.family.Binomial.links

## Ajustando el modelo usando matrices

En esta parte vamos a volver a ajustar el modelo de regresión logística pero ingresando las matrices $y$ e $X$.

In [None]:
X = datos[["width"]]    # Para crear una matriz con la variable de interés
X = sm.add_constant(X)  # Para adicionar la columna de unos

y = datos[["y"]]

In [None]:
mod2 = sm.GLM(y, X, family=sm.families.Binomial(link=sm.families.links.logit()))
mod2 = mod2.fit()
mod2.summary()

Usando los resultados de la tabla anterior podemos escribir el modelo

\begin{align}
Y_i &\sim Binomial(\hat{\mu_i}, m=1), \\ 
logit(\hat{\mu_i}) &= -12.3508 + 0.4972 \, width_i
\end{align}

Vamos ahora a crear la matriz de confusión del modelo para ver el desempeño.

In [None]:
prob_hat = mod2.predict(X)

import numpy as np
y_hat = np.where(prob_hat > 0.5, 1, 0)

from sklearn import metrics
cm = metrics.confusion_matrix(datos["y"], y_hat)
print("La matriz de confusión obtenida es: \n")
print(cm)

## Haciendo predicciones con el modelo ajustado

Vamos a calcular $P(Y=1 | width)$ para tres cangrejas con anchos de 22, 26 y 28 cm.

Primero vamos a crear la nueva matriz $X$ con los datos.

In [None]:
new_width = {"width" : [22, 26, 28]}
new_X = pd.DataFrame(new_width)
new_X = sm.add_constant(new_X)
print(new_X)

Ahora vamos a calcular las probabilidades

In [None]:
prob_hat = mod2.predict(new_X)
print(prob_hat)

Vamos a usar un punto de corte de 0.5 para crear las clasificaciones. Si $P(Y=1) > 0.5$ entonces $Y=1$. 

In [None]:
y_hat = np.where(prob_hat > 0.5, 1, 0)
y_hat