<h1></h1>
<h2><center> ETI195 - Ética para Ciencia de Datos y Estadística </center></h2>

<h1></h1>
<h2><center> Taller 0: Nivelación e introducción caso COMPAS </center></h2>



## Imports

In [1]:
import pandas as pd
import numpy as np

import matplotlib
from matplotlib import pyplot as plt

import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

Verificar que todas esas librerías estén instaladas, dado que se usarán continuamente en el curso.

```python
py -m pip install numpy pandas matplotlib seaborn scikit-learn
python3 -m pip install numpy pandas matplotlib seaborn scikit-learn
```


## Introducción al caso

### ¿Qué es COMPAS?

- COMPAS es un algoritmo desarrollado por la empresa
NorthPointe que es utilizado en el sistema de justicia criminal
de Estados Unidos para predecir la probabilidad o riesgo de
que un acusado vuelva a cometer un delito en el futuro.

- Este sistema fue diseñado con el objetivo de ayudar a los
jueces a tomar decisiones más informadas sobre el riesgo de
reincidencia y a determinar qué medidas cautelares o
sentencias serían más adecuadas para cada acusado.

- Este tipo de herramientas las conocemos generalmente como
“Instrumentos de evaluación de riesgo”.

Una investigación reciente llevada a cabo por ProPublica, un
medio de comunicación independiente y sin fines de lucro, encontró varios problemas con este algoritmo:

- El algoritmo suele etiquetar falsamente a los acusados
afro-americanos como futuros delincuentes, etiquetándolos
erróneamente de esta manera en una razón que duplica a la
de los acusados caucásicos.

- De la misma forma, el algoritmo suele etiquetar falsamente a
los acusados caucásicos como delincuentes de bajo riesgo, en
una razón que duplica a la de los acusados afro-americanos.

### COMPAS: Correctional Offender Management Profiling for Alternative Sanctions 

![imagen](https://static.propublica.org/projects/algorithmic-bias/assets/img/generated/opener-b-crop-960*540-00796e.jpg)
<b><h6> Imagen 1 - Machine Bias (ProPublica) </h6></b>

**Investigación hecha por ProPublica: Existe una clara diferencia en la distribución de los puntajes de riesgo según raza.**

<b><h3>Links de interés: </h3></b>

- [Artículo ProPublica: Machine Bias](https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing)

- [Metodología](https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm)

- [Códigos originales de ProPublica](https://github.com/propublica/compas-analysis/tree/master)




In [2]:
# Cargamos el dataset de githubusercontent.com

compas = pd.read_csv(
    "https://raw.githubusercontent.com/propublica/compas-analysis/master/compas-scores-two-years.csv"
)

compas.shape

(7214, 53)

In [3]:
print(f"El dataset tiene {compas.shape[0]} filas y {compas.shape[1]} columnas")

El dataset tiene 7214 filas y 53 columnas


In [4]:
compas.head()

Unnamed: 0,id,name,first,last,compas_screening_date,sex,dob,age,age_cat,race,...,v_decile_score,v_score_text,v_screening_date,in_custody,out_custody,priors_count.1,start,end,event,two_year_recid
0,1,miguel hernandez,miguel,hernandez,2013-08-14,Male,1947-04-18,69,Greater than 45,Other,...,1,Low,2013-08-14,2014-07-07,2014-07-14,0,0,327,0,0
1,3,kevon dixon,kevon,dixon,2013-01-27,Male,1982-01-22,34,25 - 45,African-American,...,1,Low,2013-01-27,2013-01-26,2013-02-05,0,9,159,1,1
2,4,ed philo,ed,philo,2013-04-14,Male,1991-05-14,24,Less than 25,African-American,...,3,Low,2013-04-14,2013-06-16,2013-06-16,4,0,63,0,1
3,5,marcu brown,marcu,brown,2013-01-13,Male,1993-01-21,23,Less than 25,African-American,...,6,Medium,2013-01-13,,,1,0,1174,0,0
4,6,bouthy pierrelouis,bouthy,pierrelouis,2013-03-26,Male,1973-01-22,43,25 - 45,Other,...,1,Low,2013-03-26,,,2,0,1102,0,0


## Columnas de interés:

1. `age` - Edad del acusado. Variable numérica.
2. `age_cat` - Categoría de edad. Puede ser < 25, 25-45, >45.
3. `sex` - Sexo del acusado. Puede ser  'Male' o 'Female'.
4. `race` - Raza del acusado. Puede ser 'African-American', 'Caucasian', 'Hispanic', 'Asian', o 'Other'.
5. `c_charge_degree` - Grado del crimen. Es o bien M (Misdemeanor), F (Felony), u O (Ordinary traffic offense).
6. `priors_count` - Número de crimenes anteriores cometidos por el acusado. Variable numérica.
7. `days_b_screening_arrest` - Días entre el arresto y la fecha del cargo por el delito registrado en COMPAS.
8. `decile_score` - Puntaje COMPAS predicho por el sistema. Toma valores entre 0 y 10.
9. `score_text` - Categoría de decile_score. Puede ser Low (1-4), Medium (5-7), y High (8-10).
10. `is_recid` - Variable que indica si un acusado es reincidente o no. Puede tomar valores 1, 0 o -1.
11. `two_year_recid` - Variable que indica si un acusado tuvo reincidencia dentro de un período de dos años.
12. `c_jail_in` - Momento en que el acusado fue ingresado a la cárcel.
13. `c_jail_out` - Momento en que el acusado fue liberado de la cárcel.

In [5]:
# Mantenemos las columnas de interés.

columns = [
    "age",
    "c_charge_degree",
    "race",
    "age_cat",
    "score_text",
    "sex",
    "priors_count",
    "days_b_screening_arrest",
    "decile_score",
    "is_recid",
    "two_year_recid",
    "c_jail_in",
    "c_jail_out",
]

compas = compas[columns]

In [6]:
compas.head()

Unnamed: 0,age,c_charge_degree,race,age_cat,score_text,sex,priors_count,days_b_screening_arrest,decile_score,is_recid,two_year_recid,c_jail_in,c_jail_out
0,69,F,Other,Greater than 45,Low,Male,0,-1.0,1,0,0,2013-08-13 06:03:42,2013-08-14 05:41:20
1,34,F,African-American,25 - 45,Low,Male,0,-1.0,3,1,1,2013-01-26 03:45:27,2013-02-05 05:36:53
2,24,F,African-American,Less than 25,Low,Male,4,-1.0,4,1,1,2013-04-13 04:58:34,2013-04-14 07:02:04
3,23,F,African-American,Less than 25,High,Male,1,,8,0,0,,
4,43,F,Other,25 - 45,Low,Male,2,,1,0,0,,


In [7]:
compas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7214 entries, 0 to 7213
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   age                      7214 non-null   int64  
 1   c_charge_degree          7214 non-null   object 
 2   race                     7214 non-null   object 
 3   age_cat                  7214 non-null   object 
 4   score_text               7214 non-null   object 
 5   sex                      7214 non-null   object 
 6   priors_count             7214 non-null   int64  
 7   days_b_screening_arrest  6907 non-null   float64
 8   decile_score             7214 non-null   int64  
 9   is_recid                 7214 non-null   int64  
 10  two_year_recid           7214 non-null   int64  
 11  c_jail_in                6907 non-null   object 
 12  c_jail_out               6907 non-null   object 
dtypes: float64(1), int64(5), object(7)
memory usage: 732.8+ KB


En la metodología propuesta por ProPublica (revisar <b>Links de interés</b>) se presentan los siguientes criterios para realizar la limpieza de los datos:

- Si la fecha del cargo por el delito de un acusado evaluado por COMPAS no estaba dentro de los 30 días desde el momento en que la persona fue arrestada, asumimos que, debido a razones de calidad de datos, no tenemos el delito correcto.

- Según se indica en el código publicado por ProPublica, se etiquetó con ```is_recid = -1``` los casos para los cuales no se encontró el caso de COMPAS.

- En una línea similar, se eliminan las infracciones de tráfico comunes (aquellas con un grado de ```c_charge_degree``` <b>'O'</b>), que no resultarían en tiempo de prisión.


In [8]:
# Aplicamos los filtros necesarios para limpiar el dataset según las condiciones dadas.
clean_df = compas[
    (
        (compas["days_b_screening_arrest"] <= 30)
        & (compas["days_b_screening_arrest"] >= -30)
        & (compas["is_recid"] != -1)
        & (compas["c_charge_degree"] != "O")
    )
]
clean_df.shape

(6172, 13)

In [9]:
compas.shape

(7214, 13)

In [10]:
print(f"Se eliminaron {compas.shape[0] - clean_df.shape[0]} registros.")

Se eliminaron 1042 registros.


In [11]:
clean_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6172 entries, 0 to 7213
Data columns (total 13 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   age                      6172 non-null   int64  
 1   c_charge_degree          6172 non-null   object 
 2   race                     6172 non-null   object 
 3   age_cat                  6172 non-null   object 
 4   score_text               6172 non-null   object 
 5   sex                      6172 non-null   object 
 6   priors_count             6172 non-null   int64  
 7   days_b_screening_arrest  6172 non-null   float64
 8   decile_score             6172 non-null   int64  
 9   is_recid                 6172 non-null   int64  
 10  two_year_recid           6172 non-null   int64  
 11  c_jail_in                6172 non-null   object 
 12  c_jail_out               6172 non-null   object 
dtypes: float64(1), int64(5), object(7)
memory usage: 675.1+ KB
