# Modelos Lineales Generalizados en Python
# Regresión multinomial - nominal

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestran varios ejemplos de como usar Python para ajustar un modelo lineal generalizado. 

Las librerías necesarias son las siguientes:

In [1]:
from sklearn.linear_model import LogisticRegression

Otras librerías que se usarán en los ejemplos son:

In [2]:
import pandas as pd

## Ejemplo

En esta actividad vamos a utilizar los datos presentados la sección 6.1.2 del libro "An Introduction to Categorical Data Analysis" de Agresti (2019). El objetivo es ajustar el siguiente modelo:

$$
logit \left( \frac{\pi_j}{\pi_c} \right) = \alpha_j + \beta_j \, length, \, \text{para} \, j=1, 2.
$$

El objetivo es modelar ajustar un modelo de regresión multinomial para explicar lo que come principalmente ($Y$) un cocodrilo en función de su longitud. 

Abajo una figura ilustrativa.

<img src="cocodrilo.jpg" alt="drawing" width="1000"/>

Lo primero que usted debe hacer es leer la base de datos.

In [None]:
url = "http://www.stat.ufl.edu/~aa/cat/data/Alligators.dat"
datos = pd.read_csv(url, sep='\s+', header=0)
datos.head()

Para ver el tamaño de la base de datos

In [None]:
datos.shape

Vamos a crear la matriz $X$ para entrenar el modelo.

In [None]:
X = datos[["x"]]

Vamos a codificar la variable ideología para crear el vector $y$.

In [None]:
scale_mapper = {"I":1, "O":2, "F":3}
datos["y"] = datos["y"].replace(scale_mapper)

y = datos["y"]

## Ajustando el modelo

Para más detalles de la función revisar este enlace: https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html?highlight=logisticregression#sklearn.linear_model.LogisticRegression

In [None]:
# define the multinomial logistic regression model
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', fit_intercept=True)

# fit the model on the whole dataset
model.fit(X, y)

## Haciendo predicciones con el modelo ajustado

¿Cuál podría ser el tipo de comida primario de dos cocodrilos de 3.89 metros y 2.15 metros?

In [None]:
# Definiendo el nuevo marco de datos
new_data = pd.DataFrame([3.89, 1.15])
new_data.columns = ["x"]
print('The newdata')
print(new_data)
print('\t')

# Calculando la probabilidad
probhat = model.predict_proba(new_data)

# Obteniendo la membresía
yhat = model.predict(new_data)

print('Predicted Probabilities:')
print(probhat)
print('\t')
print('Predicted Class:')
print(yhat)

In [None]:
# Para conocer los coeficientes del modelo ???
print(model.intercept_)
print('\t')
print(model.coef_)

In [None]:
# Para crear la matriz de confusión
mat_conf = pd.crosstab(index=model.predict(X), columns=y, rownames=['Prediccion'], colnames=['Membresia'])
print(mat_conf)

In [None]:
# Para obtener el accuracy manualmente
(13 + 23) / 59

In [None]:
# Para obtener el accuracy automáticamente
model.score(X, y)

In [None]:
# Para obtener los parámetros del modelo
model.get_params()