# Modelos Lineales Generalizados en Python
# Regresión multinomial - nominal

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestran varios ejemplos de como usar Python para ajustar un modelo lineal generalizado. 

Las librerías necesarias son las siguientes:

In [1]:
from sklearn.linear_model import LogisticRegression

from sklearn.preprocessing import OneHotEncoder

Otras librerías que se usarán en los ejemplos son:

In [2]:
import pandas as pd

## Ejemplo

En esta actividad vamos a utilizar los datos presentados la sección 6.1.2 del libro "An Introduction to Categorical Data Analysis" de Agresti (2019). El objetivo es ajustar el siguiente modelo:

$$
logit \left( \frac{\pi_j}{\pi_c} \right) = \alpha_j + \beta_j length, \, \text{para} \, j=1, 2.
$$

El objetivo es modelar ajustar un modelo de regresión multinomial para explicar lo que come principalmente ($Y$) un cocodrilo en función de su longitud. 

Abajo una figura ilustrativa.

<img src="cocodrilo.jpg" alt="drawing" width="1000"/>

Lo primero que usted debe hacer es leer la base de datos.

In [3]:
url = "http://www.stat.ufl.edu/~aa/cat/data/Alligators.dat"
datos = pd.read_csv(url, sep='\s+', header=0)
datos.head()

Unnamed: 0,x,y
0,1.24,I
1,1.3,I
2,1.3,I
3,1.32,F
4,1.32,F


Para ver el tamaño de la base de datos

In [4]:
datos.shape

(59, 2)

Vamos a crear la matriz $X$ para entrenar el modelo.

In [5]:
X = datos[["x"]]

Vamos a codificar la variable ideología para crear el vector $y$.

In [6]:
scale_mapper = {"I":1, "O":2, "F":3}
datos["y"] = datos["y"].replace(scale_mapper)

y = datos["y"]

## Ajustando el modelo

Para más detalles de la función revisar este enlace: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html?highlight=logisticregression#sklearn.linear_model.LogisticRegression

In [7]:
# define the multinomial logistic regression model
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', fit_intercept=True)

# fit the model on the whole dataset
model.fit(X, y)

LogisticRegression(multi_class='multinomial')

## Haciendo predicciones con el modelo ajustado

¿Cuál podría ser el tipo de comida primario de un cocodrilo de 3.89 metros?

In [8]:
# define a single row of input data
row = [3.89]

# predict a multinomial probability distribution
probhat = model.predict_proba([row])

# predict the class
yhat = model.predict([row])

# summarize the results
print('Predicted Probabilities: %s' % probhat[0])
print('Predicted Class: %s' % yhat[0])

Predicted Probabilities: [0.0167821  0.20515485 0.77806306]
Predicted Class: 3




In [9]:
# Return the mean accuracy on the given test data and labels.
model.score(X, y)

0.6101694915254238