# COMPAS Recidivism Algorithm

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) es una herramienta de Northpointe, que evalúa la probabilidad de que un acusado de un delito se convierta en reincidente.

Propublica realiza un [análisis](https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing) en el que se propone a descubrir la precisión subyacente de su algoritmo de reincidencia y probar si el algoritmo estaba sesgado contra ciertos grupos. 

Los [resultados](https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm) demuestran que los acusados de raza negra tenían muchas más probabilidades que los acusados caucásicos de ser juzgados incorrectamente con un mayor riesgo de reincidencia, mientras que los acusados blancos tenían más probabilidades que los acusados de raza negra de ser marcados incorrectamente como de bajo riesgo.

El conjunto de datos está disponible en [Github](https://github.com/propublica/compas-analysis) y en [Kaggle](https://www.kaggle.com/danofer/compass).

In [None]:
import pandas as pd
pd.options.mode.chained_assignment = None  # default='warn'

import matplotlib.pyplot as plt
import numpy as np

In [None]:
df = pd.read_csv('./dataset/compas-scores-two-years.csv')

In [None]:
df

In [None]:
filas, columnas = df.shape
nombre_columnas = df.columns

Muestre el total de acusados (`filas`), el total de características (`columnas`) y los nombres de las características (`nombre_columnas`)

## Selección de columnas

In [None]:
columnas = ['age', 'c_charge_degree', 'race', 'age_cat', 'score_text', 'sex', 'priors_count', 
 'days_b_screening_arrest', 'decile_score', 'is_recid', 'two_year_recid', 'c_jail_in', 'c_jail_out']

Filtre el dataframe `df` para seleccionar las columnas que se encuentran en `columnas`. Guarde el resultado en la variable df2.

Muestre el dataframe `df2`.

## Limpieza de datos

Solo debemos considerar los registros que:

* La fecha del registro del cargo se realiza dentro de 30 días desde que la persona fue arrestada, caso contrario no existe certeza que el tipo del cargo sea el correcto. Los valores de la columna `days_b_screening_arrest` deben estar entre -30 y 30.

Sobreescriba los resultados en df2


In [None]:
df2 = df2[df2['days_b_screening_arrest'] <= 30]

* Utilice `df2` para filtrar los datos cuyos valores `days_b_screening_arrest` sean mayores o iguales a -30. Sobreescriba la variable `df2`.

* Utilice `df2` para filtrar los datos cuyos valores `c_charge_degree` sean diferentes de '0'. Sobreescriba la variable `df2`.

* Utilice `df2` para filtrar los datos con `score_text` diferente de `N/A`. Sobreescriba la variable `df2`.

* Obtenga y muestre el nuevo total de acusados luego de la limpieza de datos.

## Exploración de datos

Haremos un análisis descriptivo de ciertas variables, para esto haremos un conteo simple de valores únicos.

Muestre la columna `age_cat` del dataframe `df2`.

In [None]:
df2['age_cat']

¿Cuántos y cuáles son los valores únicos tiene la columna `age_cat`?

In [None]:
df2['age_cat'].unique()

¿Cuántos acusados están entre `25 - 45`, `Less than 25` y `Greater than 45`? 

In [None]:
df2["age_cat"].value_counts()

In [None]:
print('Porcentajes por grupo etarios')

filas, columnas = df2.shape

df2["age_cat"].value_counts()*100/filas

Realice el [conteo de valores únicos](https://pandas.pydata.org/docs/getting_started/intro_tutorials/06_calculate_statistics.html) para las columnas `race` y `sex`.

* Utilice la columna `race`, ¿Cuántos acusados se identifican como `African-American`, `Hispanic` o `Caucasian`?
* Utilice la columna `sex`, ¿Cuántos acusados se identifican como  `Female` o `Male`?

Realice la [tabulación cruzada](https://www.geeksforgeeks.org/pandas-crosstab-function-in-python/) entre las columnas `sex` y `race`.

* Utilice las columnas `sex` y `race`, ¿Cuántos acusados son `Female` - `African-American`, `Male` - `Caucasian`, `Female` - `Hispanic` y `Male` - `Hispanic` ?

¿Cuál es la correlación entre el puntaje en el decil (`decile_score`) y el tiempo de estadía en cárcel (`c_jail_out` y `c_jail_in`)?

In [None]:
difference = pd.to_datetime(df2['c_jail_out']) - pd.to_datetime(df2['c_jail_in']) 
df2['length_of_stay'] = (difference).astype('timedelta64[h]')

In [None]:
df2['length_of_stay'].corr(df2['decile_score'])

## Sesgo racial

Los juecen reciben dos puntajes del sistema Compas: uno que clasifica a las personas en riesgo (`score_text`, con valores 'High', 'Medium' y 'Low'), y el puntaje en deciles (`decile_score`, del 1 al 10 - más peligroso).

**¿Cuál es la tendencia en el puntaje en deciles (`decile_score`) para la raza `African-American`?**

* Utilice `df2` para filtrar los datos de la columna `race` cuyos valores sean iguales `African-American`.
* Cuente los valores únicos para la columna `decile_score` 
* Muestre los resultados con un [gráfico de barras](https://queirozf.com/entries/pandas-dataframe-plot-examples-with-matplotlib-pyplot) de los resultados anteriores.  **Nota:** Coloque en la configuración del plot _kind='bar'_ y _ylim=(0,650)_

In [None]:
dfraceAA = df2[df2['race'] == 'African-American']

In [None]:
results = dfraceAA['decile_score'].value_counts()

In [None]:
results.plot(kind='bar', ylim = (0, 650))

 **¿Cuál es la tendencia en el puntaje en deciles (`decile_score`) para la raza  `Caucasian`?**

## Referencias

Machine Bias. (2016). Retrieved 18 February 2022, from https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing

How We Analyzed the COMPAS Recidivism Algorithm. (2016). Retrieved 18 February 2022, from https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm

GitHub - propublica/compas-analysis: Data and analysis for 'Machine Bias'. (2022). Retrieved 18 February 2022, from https://github.com/propublica/compas-analysis