In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'

import matplotlib.pyplot as plt
import numpy as np

import statsmodels.api as sm

In [None]:
df = pd.read_csv('./dataset/compas-scores-two-years-filtered.csv')

In [None]:
df

In [None]:
df.shape

# **¿Cuál es la relación que existe entre las características del conjunto de datos y el `score_text` ?**

## Transformación de características cualitativas en cuantitativas

### Característica de salida `score_text`

Comprendamos el comportamiento de la característica objetivo: `score_text`

In [None]:
df['score_text'].value_counts()

La distribución de los valores de la característica `score_text` en un gráfico de barras:

In [None]:
df['score_text'].value_counts().plot(kind='bar', ylim=(0,4000))

Para equilibrar la distribución de los valores en la variable de salida, consideraremos los valores `High` y `Medium` como un solo valor. 

In [None]:
df.loc[df['score_text'] != 'Low', "score_text"] = "HM"

In [None]:
df['score_text'].value_counts()

Muestre la distribución de los valores de la característica `score_text` mediante un gráfico de barras.

### Características de entrada

#### Codificación de enteros (Integer encoding)

Generamos una representación numérica para cada uno los valores que se encuentran en la característica `race`. Guarde el resultado en `race_factor`. Para esto, utilizaremos las funciones [factorize](https://pandas.pydata.org/docs/reference/api/pandas.factorize.html) y [assign](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.assign.html) de Pandas.

In [None]:
df = df.assign(
    race_factor  = lambda dataframe: pd.factorize(df['race'])[0],
)

Una vista previa a las características `race` y `race_factor`, donde **`African-American`** toma el valor de **`1`**, **`Caucasian`** toma el valor de **`2`**, **`Hispanic`** toma el valor de **`3`**, etc.

In [None]:
df[['race', 'race_factor']].head(15)

Genere la representación numérica para:

* Asigne los resultados en `crime_factor` de la representación numérica de la característica `c_charge_degree`.
* Asigne los resultados en `age_factor` de la representación numérica de la característica `age_cat`.
* Asigne los resultados en `gender_factor` de la representación numérica de la característica `sex`.
* Asigne los resultados en `score_factor` de la representación numérica de la característica `score_text`.

Muestre el contenido de `df`. Revise las características generadas en el dataframe.

#### **Codificación One-Hot (One-Hot Encoding)**

Generamos una representación numérica por cada uno de los valores en la característica `age_cat`. Cada valor es cuantificado en una columna independiente. Los nombres de las características son automáticamente generados a partir de los valores únicos de la característica.

In [None]:
df = df.join(pd.get_dummies(df['age_cat'], prefix='age_cat'))

De `age_cat` se generan las características **`age_cat_Greater than 45`**,**`age_cat_25 - 45`** y **`age_cat_Less than 25`**.

In [None]:
df[['age_cat','age_cat_Greater than 45','age_cat_25 - 45', 'age_cat_Less than 25']].head(15)

In [None]:
df.head(15)

Genere la representación numérica para cada uno de los valores en:

* La característica `race`, el prefijo es `race`.
* La característica `sex`, el prefijo es `sex`.

Muestre el contenido de `df`. Revise las características generadas en el dataframe.

## Regresión Logística

"La regresión logística es una técnica de clasificación compartida por el aprendizaje automático del campo de las estadísticas. La regresión logística es un método estadístico para analizar un conjunto de datos en el que hay una o más variables independientes que determinan un resultado. La intención detrás del uso de la regresión logística es encontrar el modelo que mejor se ajuste para describir la relación entre la variable dependiente y la independiente." [Perfect Recipe for Classification Using Logistic Regression](https://towardsdatascience.com/the-perfect-recipe-for-classification-using-logistic-regression-f8648e267592)

Para la interpretación de los resultados multivariados [Interpreting Data using Statistical Models with Python](https://www.pluralsight.com/guides/interpreting-data-using-statistical-models-python) provee de una buena metodología a aplicar.

#### Modelo 1

Las listas `x_base` y `x_integer` contienen los nombres de las columnas a usar del dataframe `df`. La lista `y` contiene el nombre de la característica de salida.

In [None]:
x_base = ['priors_count','two_year_recid', 'crime_factor']
x_integer = ['age_factor', 'race_factor', 'gender_factor']

y = ['score_factor']

In [None]:
columnas1 = x_base+x_integer+y

In [None]:
columnas1

Guarde en `df1` el resultado de filtrar el dataframe `df` de acuerdo con `columnas1`. Muestre los 10 primeros registros del dataframe `df1`.

Generamos la fórmula (modelo linear) para el Generalized Logistic Model.

In [None]:
query_columns = [ 'Q("'+i+'")' for i in x_base+x_integer ]

formula = "score_factor ~ " + ' + '.join(query_columns)
formula

Construimos el modelo y mostramos el resumen del resultado. La familia estadística que se utilizará será binomial para ajustar el modelo.

In [None]:
modelo = sm.GLM.from_formula(formula, family=sm.families.Binomial(), data=df1[columnas1])
resultado = modelo.fit()
resultado.summary()

Guardamos el resultado en un nuevo archivo.

In [None]:
df1.to_csv('df1.csv', index=False)

#### Modelo 2

Las listas `x_base` y `x_onehot` contienen los nombres de las columnas a usar del dataframe `df`. La lista `y` contiene el nombre de la característica de salida.

In [None]:
x_base = ['priors_count','two_year_recid', 'crime_factor']
x_onehot = ['age_cat_25 - 45', 'age_cat_Greater than 45', 'age_cat_Less than 25',
           'race_African-American', 'race_Asian', 'race_Caucasian','race_Hispanic','race_Native American','race_Other',
            'sex_Female', 'sex_Male']

y = ['score_factor']

In [None]:
columnas2 = x_base+x_onehot+y
columnas2

Guarde en `df2` el resultado de filtrar el dataframe `df` de acuerdo con `columnas2`. Muestre los 10 primeros registros del dataframe `df2`.

Generamos la fórmula para el Generalized Logistic Model, sin incluir la característica objetivo

In [None]:
mycolumns = [ 'Q("'+i+'")' for i in x_base+x_onehot ]

formula = "score_factor ~ " + ' + '.join(mycolumns)
formula

Construimos el modelo y mostramos el resumen del resultado

In [None]:
modelo = sm.GLM.from_formula(formula, family=sm.families.Binomial(), data=df2)
resultado = modelo.fit()
resultado.summary()

Guarde el resultado en un nuevo archivo.

## Referencias

The Perfect Recipe for Classification Using Logistic Regression. (2021). Retrieved 18 February 2022, from https://towardsdatascience.com/the-perfect-recipe-for-classification-using-logistic-regression-f8648e267592

Singh, D., & Python, I. (2022). Interpreting Data using Statistical Models with Python | Pluralsight. Retrieved 18 February 2022, from https://www.pluralsight.com/guides/interpreting-data-using-statistical-models-python

Building A Logistic Regression in Python, Step by Step. (2019). Retrieved 18 February 2022, from https://towardsdatascience.com/building-a-logistic-regression-in-python-step-by-step-becd4d56c9c8