## Proyecto Análisis Avanzado de Datos para el sistema judicial de EEUU


### Contexto del Proyecto
A lo largo de los años, diversas metodologías para predecir riesgo de reincidencia en el ámbito judicial han sido objeto de polémica, revelando que, en general, su validez predictiva es moderada. Hasta hace poco, el uso del sistema Compass en EE.UU. generaba una preocupación particular por la ausencia de investigaciones exhaustivas que examinarán si las puntuaciones de riesgo presentaban algún tipo de sesgo hacia ciertos grupos étnicos. La cuestión de si estos resultados reflejan un sesgo inherente a las herramientas o discrepancias más amplias dentro del sistema de justicia sigue siendo un tema de debate.

Este contexto plantea importantes cuestiones éticas y metodológicas, especialmente en lo que respecta al uso de algoritmos y herramientas de análisis de datos en la toma de decisiones judiciales. La identificación y comprensión de posibles sesgos en los datos y en las herramientas analíticas son cruciales para garantizar un tratamiento justo y equitativo en el sistema de justicia, y subrayan la importancia de abordar estas problemáticas en proyectos de análisis de datos.



### Descripción del Proyecto
Analizar el conjunto de datos de reincidencia en delincuentes del condado de Broward en EEUU para entender los factores que pueden contribuir a un mayor riesgo de reincidencia, con foco en los sesgos potenciales que existan en los datos. Tenemos disponibles los scores de reincidencia de Compass para cada persona, y disponemos también de la información sobre si una persona reincide o no reincide en un plazo de dos años. Otro de los objetivos del proyecto será evaluar la fiabilidad de los scores devueltos por Compass y sus sesgos. Compararemos esa fiabilidad con la de un modelo simple que tendremos que implementar nosotros (sin sesgos), y acabaremos presentando los hallazgos más interesantes del proyecto en un dashboard. 


### Tareas
Análisis de Datos (EDA):
Familiarización con el conjunto de datos, incluyendo variables demográficas, puntajes de Compass y resultados de reincidencia.
Limpieza y preprocesamiento de datos para análisis.
Estadísticas descriptivas para comprender la composición de los datos.
Análisis de variables demográficas y su relación con los puntajes de Compass y la reincidencia.

Identificación de sesgos:
Investigación de posibles sesgos en los datos, particularmente relacionados con variables demográficas como raza y género.
Discusión sobre la importancia de identificar y abordar sesgos en el análisis de datos.

Evaluación de los Puntajes de Compass:
Análisis de la eficacia de los puntajes de Compass para predecir la reincidencia.
Comparación de tasas de verdaderos positivos y falsos positivos entre diferentes grupos demográficos.
Evaluación de otras posibles métricas o KPIs para el análisis. Será necesaria una familiarización previa con esas métricas a través de los recursos que se consideren oportunos.

Desarrollo de un Modelo Predictivo Simple:
Implementación de un modelo predictivo simple, como una regresión logística, para predecir la reincidencia basándose en variables seleccionadas (evitando sesgos).
Evaluación y comparación de la precisión del modelo desarrollado por los estudiantes con los puntajes de Compass.

Visualización de Datos y Creación de Dashboards:
Integración de resultados del análisis en un dashboard para mostrar resultados clave del análisis.
Incluir distribución de los puntajes de Compass, comparaciones de precisión entre modelo y los puntajes de Compass, especialmente en áreas identificadas de sesgo potencial.

Interpretación y Recomendaciones:
Análisis crítico de los hallazgos, discusión sobre los sesgos identificados y su impacto en las predicciones de reincidencia.
Propuesta de estrategias para mitigar los sesgos en futuros análisis predictivos.


ENTREGABLES
Documento técnico con metodología y resultados (memoria de proyecto).
Entregables solicitados para cada tarea: notebooks y códigos de cada tarea, y dashboard
Presentación final para congreso de EEUU











CÁLCULO DE LA NOTA





INFORMACIÓN DE LOS DATOS

Disponemos de datos de dos años de puntuaciones Compass de la Oficina del Sheriff del Condado de Broward en Florida, que fueron obtenidos por ProPublica. ProPublica es una organización de periodismo de investigación sin fines de lucro con sede en Estados Unidos, conocida por su análisis y reportajes sobre temas de interés público, incluidas las prácticas y políticas dentro del sistema de justicia. 

Los datos corresponden a personas evaluadas en 2013 y 2014. Las puntuaciones de riesgo de reincidencia de Compass se basan en las respuestas de un acusado a la encuesta de cribado Compass. Esa encuesta se completa por el acusado después de su arresto, bien el mismo día o el día después de que una persona es encarcelada.

Para los más de 11 mil acusados en espera de juicio en este conjunto de datos, ProPublica se encargó de recopilar los datos de sus posibles arrestos futuros hasta finales de marzo de 2016, con el objetivo de estudiar cómo la puntuación Compass predice la reincidencia para estos acusados. En los datos con los que trabajaremos para el proyecto contamos con ese indicador de si una persona ha sido arrestada de nuevo por un crimen cometido en un intervalo de dos años posteriores al crimen original, y con el período de tiempo entre arrestos.

Cada acusado en la etapa previa al juicio recibió al menos tres puntuaciones Compass: "Riesgo de Reincidencia", "Riesgo de Violencia" y "Riesgo de No Comparecencia". Las puntuaciones varían de 1 a 10, siendo 10 el riesgo más alto. Compass clasifica las puntuaciones del 1 al 4 como "Bajo", del 5 al 7 como "Medio" y del 8 al 10 como "Alto".


Two files: 
a) “compas- scores.csv”
file that contains the full dataset of pretrial defendants that ProPublica obtained from the Broward County Sheriff’s Office. This file contains 11,757 people.

Archivo que contiene el conjunto de datos completo de los acusados antes del juicio que ProPublica obtuvo de la Oficina del Sheriff del Condado de Broward. Este archivo contiene 11.757 personas

b)  “compas-scores-two-years.csv”
file that ProPublica created for the purpose of studying two-year general recidivism. The term general recidivism is used to distinguish it from the smaller subset of violent recidivism. General recidivism includes both violent and non-violent offenses. These files contain, in theory, a subset of people who are observed for at least two years, and it tags people who recidivated within two years as having a two_year_recid indicator flag turned on. The two-year general recidivism file contains 7,214 people.

Expediente que ProPublica creó con el propósito de estudiar la reincidencia general de dos años. El término reincidencia general se utiliza para distinguirlo del subconjunto más pequeño de reincidencia violenta. La reincidencia general incluye delitos violentos y no violentos. Estos archivos contienen, en teoría, un subconjunto de personas que son observadas durante al menos dos años, y etiquetan a las personas que reincidieron dentro de dos años como si tuvieran activado el indicador two_year_recid. El expediente general de reincidencia de dos años contiene 7.214 personas

In [5]:
from funciones_1 import *

In [6]:
df_compas_raw = pd.read_csv("https://raw.githubusercontent.com/MangelFdz/nuclio_g3_bias/13a4a83170a1103c7e32a9a5f46a819db8c5b7d5/users/Emilio/compas-scores-raw.csv", delimiter=',')
df_compas_2y = pd.read_csv("https://raw.githubusercontent.com/MangelFdz/nuclio_g3_bias/13a4a83170a1103c7e32a9a5f46a819db8c5b7d5/users/Emilio/compas-scores-two-years.csv", delimiter=',')

========================================================================================================================

# Análisis del Dataset1: "Compas-scores"

## 1. Revisión Inicial y Estructura del Dataset

In [7]:
check_df(df_compas_raw, '')

¿Cuántas filas y columnas hay en el conjunto de datos?
	Hay 60,843 filas y 28 columnas.

########################################################################################
¿Cuáles son las primeras dos filas del conjunto de datos?


Unnamed: 0,Person_ID,AssessmentID,Case_ID,Agency_Text,LastName,FirstName,MiddleName,Sex_Code_Text,Ethnic_Code_Text,DateOfBirth,...,RecSupervisionLevel,RecSupervisionLevelText,Scale_ID,DisplayText,RawScore,DecileScore,ScoreText,AssessmentType,IsCompleted,IsDeleted
0,50844,57167,51950,PRETRIAL,Fisher,Kevin,,Male,Caucasian,12/05/92,...,1,Low,7,Risk of Violence,-2.08,4,Low,New,1,0
1,50844,57167,51950,PRETRIAL,Fisher,Kevin,,Male,Caucasian,12/05/92,...,1,Low,8,Risk of Recidivism,-1.06,2,Low,New,1,0



########################################################################################
¿Cuáles son las últimas dos filas del conjunto de datos?


Unnamed: 0,Person_ID,AssessmentID,Case_ID,Agency_Text,LastName,FirstName,MiddleName,Sex_Code_Text,Ethnic_Code_Text,DateOfBirth,...,RecSupervisionLevel,RecSupervisionLevelText,Scale_ID,DisplayText,RawScore,DecileScore,ScoreText,AssessmentType,IsCompleted,IsDeleted
60841,68603,79669,72042,PRETRIAL,Ryan,Michael,,Male,Caucasian,02/06/85,...,1,Low,8,Risk of Recidivism,-0.34,5,Medium,New,1,0
60842,68603,79669,72042,PRETRIAL,Ryan,Michael,,Male,Caucasian,02/06/85,...,1,Low,18,Risk of Failure to Appear,16.0,2,Low,New,1,0



########################################################################################
¿Cómo puedes obtener una muestra aleatoria de filas del conjunto de datos?


Unnamed: 0,Person_ID,AssessmentID,Case_ID,Agency_Text,LastName,FirstName,MiddleName,Sex_Code_Text,Ethnic_Code_Text,DateOfBirth,...,RecSupervisionLevel,RecSupervisionLevelText,Scale_ID,DisplayText,RawScore,DecileScore,ScoreText,AssessmentType,IsCompleted,IsDeleted
37095,61621,70807,64201,PRETRIAL,LOVINSKY,WALKER,,Male,African-American,04/13/83,...,1,Low,7,Risk of Violence,-3.17,1,Low,New,1,0
10725,53939,61095,55465,Probation,Anderson,Jaime,Danielle,Female,Caucasian,04/12/83,...,1,Low,7,Risk of Violence,-3.13,1,Low,New,1,0



########################################################################################
¿Cuáles son las columnas del conjunto de datos?
	 - Person_ID
	 - AssessmentID
	 - Case_ID
	 - Agency_Text
	 - LastName
	 - FirstName
	 - MiddleName
	 - Sex_Code_Text
	 - Ethnic_Code_Text
	 - DateOfBirth
	 - ScaleSet_ID
	 - ScaleSet
	 - AssessmentReason
	 - Language
	 - LegalStatus
	 - CustodyStatus
	 - MaritalStatus
	 - Screening_Date
	 - RecSupervisionLevel
	 - RecSupervisionLevelText
	 - Scale_ID
	 - DisplayText
	 - RawScore
	 - DecileScore
	 - ScoreText
	 - AssessmentType
	 - IsCompleted
	 - IsDeleted

########################################################################################
¿Cuál es el tipo de datos de cada columna?
Person_ID                    int64
AssessmentID                 int64
Case_ID                      int64
Agency_Text                 object
LastName                    object
FirstName                   object
MiddleName                  object
Sex_Code_Text        

Unnamed: 0,Person_ID,AssessmentID,Case_ID,Agency_Text,LastName,FirstName,MiddleName,Sex_Code_Text,Ethnic_Code_Text,DateOfBirth,...,RecSupervisionLevel,RecSupervisionLevelText,Scale_ID,DisplayText,RawScore,DecileScore,ScoreText,AssessmentType,IsCompleted,IsDeleted
count,60843.0,60843.0,60843.0,60843,60843,60843,15648,60843,60843,60843,...,60843.0,60843,60843.0,60843,60843.0,60843.0,60798,60843,60843.0,60843.0
unique,,,,4,10896,7225,1871,2,9,10382,...,,4,,3,,,3,2,,
top,,,,PRETRIAL,Williams,Michael,A,Male,African-American,04/28/92,...,,Low,,Risk of Violence,,,Low,New,,
freq,,,,41100,417,777,606,47514,27018,30,...,,38472,,20281,,,41487,56139,,
mean,53683.206154,68061.02919,60209.128149,,,,,,,,...,1.630048,,11.0,,5.081457,3.571701,,,1.0,0.0
std,14363.648515,7320.208226,9638.501654,,,,,,,,...,0.94422,,4.966596,,10.080518,2.617854,,,0.0,0.0
min,656.0,649.0,350.0,,,,,,,,...,1.0,,7.0,,-4.79,-1.0,,,1.0,0.0
25%,52039.0,62582.0,56021.0,,,,,,,,...,1.0,,7.0,,-2.09,1.0,,,1.0,0.0
50%,57321.0,68229.0,61261.0,,,,,,,,...,1.0,,8.0,,-0.71,3.0,,,1.0,0.0
75%,62748.0,73870.0,66554.0,,,,,,,,...,2.0,,18.0,,14.0,5.0,,,1.0,0.0



########################################################################################
¿Hay valores nulos en el conjunto de datos?
MiddleName                 45195
ScoreText                     45
Person_ID                      0
CustodyStatus                  0
IsCompleted                    0
AssessmentType                 0
DecileScore                    0
RawScore                       0
DisplayText                    0
Scale_ID                       0
RecSupervisionLevelText        0
RecSupervisionLevel            0
Screening_Date                 0
MaritalStatus                  0
LegalStatus                    0
AssessmentID                   0
Language                       0
AssessmentReason               0
ScaleSet                       0
ScaleSet_ID                    0
DateOfBirth                    0
Ethnic_Code_Text               0
Sex_Code_Text                  0
FirstName                      0
LastName                       0
Agency_Text                    0
Case_ID 

In [8]:
df_compas_raw.columns

Index(['Person_ID', 'AssessmentID', 'Case_ID', 'Agency_Text', 'LastName',
       'FirstName', 'MiddleName', 'Sex_Code_Text', 'Ethnic_Code_Text',
       'DateOfBirth', 'ScaleSet_ID', 'ScaleSet', 'AssessmentReason',
       'Language', 'LegalStatus', 'CustodyStatus', 'MaritalStatus',
       'Screening_Date', 'RecSupervisionLevel', 'RecSupervisionLevelText',
       'Scale_ID', 'DisplayText', 'RawScore', 'DecileScore', 'ScoreText',
       'AssessmentType', 'IsCompleted', 'IsDeleted'],
      dtype='object')

Descripción de las columnas:
1. Person_ID: Identificador único para la persona evaluada.
2. AssessmentID: Identificador único para la evaluación realizada.
3. Case_ID: Identificador único para el caso judicial asociado.
4. Agency_Text: Texto descriptivo de la agencia que realizó la evaluación (e.g., "PRETRIAL").
5. LastName: Apellido de la persona evaluada.
6. FirstName: Primer nombre de la persona evaluada.
7. MiddleName: Segundo nombre o inicial de la persona evaluada (puede estar vacío).
8. Sex_Code_Text: Género de la persona evaluada (e.g., "Male", "Female").
9. Ethnic_Code_Text: Etnicidad de la persona evaluada (e.g., "Caucasian", "African-American").
10. DateOfBirth: Fecha de nacimiento de la persona evaluada.
11. ScaleSet_ID: Identificador del conjunto de escalas utilizadas en la evaluación.
12. ScaleSet: Texto descriptivo del conjunto de escalas utilizadas (e.g., "Risk of Recidivism").
13. AssessmentReason: Razón por la cual se realizó la evaluación (e.g., "Pretrial", "Post-Sentence").
14. Language: Idioma en el que se realizó la evaluación (e.g., "English").
15. LegalStatus: Estado legal de la persona evaluada en el momento de la evaluación (e.g., "Probation").
16. CustodyStatus: Estado de custodia de la persona evaluada (e.g., "Released").
17. MaritalStatus: Estado civil de la persona evaluada (e.g., "Single", "Married").
18. Screening_Date: Fecha en que se realizó la evaluación.
19. RecSupervisionLevel: Nivel de supervisión recomendado, expresado como un número (e.g., 1 para bajo, 3 para alto).
20. RecSupervisionLevelText: Texto descriptivo del nivel de supervisión recomendado (e.g., "Low", "Medium", "High").
21. Scale_ID: Identificador único para la escala específica utilizada dentro del conjunto de escalas.
22. DisplayText: Texto descriptivo del objetivo o área evaluada (e.g., "Risk of Violence").
23. RawScore: Puntuación bruta obtenida en la evaluación para esa escala.
24. DecileScore: Puntuación en deciles, que indica el riesgo relativo en una escala del 1 al 10.
25. ScoreText: Texto descriptivo de la puntuación, categorizado como "Low", "Medium", "High".
26. AssessmentType: Tipo de evaluación realizada, que puede indicar si es una evaluación nueva o de seguimiento (e.g., "New").
27. IsCompleted: Indicador binario de si la evaluación está completa (1 para completada, 0 para no completada).
28. IsDeleted: Indicador binario de si la evaluación fue eliminada (1 para eliminada, 0 para no eliminada).

In [9]:
df_compas_raw_transpose = df_compas_raw.transpose()
df_compas_raw_transpose

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,60833,60834,60835,60836,60837,60838,60839,60840,60841,60842
Person_ID,50844,50844,50844,50848,50848,50848,50855,50855,50855,50850,...,19968,68598,68598,68598,65667,65667,65667,68603,68603,68603
AssessmentID,57167,57167,57167,57174,57174,57174,57181,57181,57181,57176,...,39866,79660,79660,79660,79665,79665,79665,79669,79669,79669
Case_ID,51950,51950,51950,51956,51956,51956,51963,51963,51963,51958,...,36500,72035,72035,72035,72038,72038,72038,72042,72042,72042
Agency_Text,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,...,PRETRIAL,PRETRIAL,PRETRIAL,PRETRIAL,Probation,Probation,Probation,PRETRIAL,PRETRIAL,PRETRIAL
LastName,Fisher,Fisher,Fisher,KENDALL,KENDALL,KENDALL,DAYES,DAYES,DAYES,Debe,...,BUTTERFIELD,SUAREZ,SUAREZ,SUAREZ,West,West,West,Ryan,Ryan,Ryan
FirstName,Kevin,Kevin,Kevin,KEVIN,KEVIN,KEVIN,DANIEL,DANIEL,DANIEL,Mikerlie,...,JAMES,ANDERSON,ANDERSON,ANDERSON,James,James,James,Michael,Michael,Michael
MiddleName,,,,,,,,,,George,...,MICHAEL,,,,,,,,,
Sex_Code_Text,Male,Male,Male,Male,Male,Male,Male,Male,Male,Female,...,Male,Male,Male,Male,Male,Male,Male,Male,Male,Male
Ethnic_Code_Text,Caucasian,Caucasian,Caucasian,Caucasian,Caucasian,Caucasian,African-American,African-American,African-American,African-American,...,Caucasian,Caucasian,Caucasian,Caucasian,African-American,African-American,African-American,Caucasian,Caucasian,Caucasian
DateOfBirth,12/05/92,12/05/92,12/05/92,09/16/84,09/16/84,09/16/84,08/25/94,08/25/94,08/25/94,10/09/94,...,09/24/73,08/10/81,08/10/81,08/10/81,06/21/64,06/21/64,06/21/64,02/06/85,02/06/85,02/06/85


## 2. Limpieza y Procesamiento de Datos

### 2.1. Conversión de Columnas a formato correcto

In [10]:
# Detectamos que la columna "Ethic_Code_Text" tiene dos valores ("African-Am", "African-American"),
# que deberían estar combinados. Procedemos a hacerlo.

print(df_compas_raw["Ethnic_Code_Text"].unique())

# Reemplazar 'African-Am' con 'African-American'
df_compas_raw["Ethnic_Code_Text"] = df_compas_raw["Ethnic_Code_Text"].replace("African-Am", "African-American")

# Verificar los cambios
print(df_compas_raw["Ethnic_Code_Text"].unique())

['Caucasian' 'African-American' 'Hispanic' 'Other' 'Asian' 'African-Am'
 'Native American' 'Oriental' 'Arabic']
['Caucasian' 'African-American' 'Hispanic' 'Other' 'Asian'
 'Native American' 'Oriental' 'Arabic']


### 2.2. Manejo de Duplicados

In [11]:
# Cantidad de entradas duplicadas en el dataset:
valores_duplicados = df_compas_raw.duplicated().sum()
print("Entradas duplicadas del dataset:", valores_duplicados)

Entradas duplicadas del dataset: 0


In [12]:
# Contar la cantidad de evaluaciones por cada Person_ID
person_id_counts = df_compas_raw['Person_ID'].value_counts()

# Describir estadísticamente la distribución de evaluaciones por persona
print("\nDescripción estadística de la cantidad de evaluaciones por persona:")
print(person_id_counts.describe())


Descripción estadística de la cantidad de evaluaciones por persona:
count    18610.000000
mean         3.269371
std          0.940507
min          3.000000
25%          3.000000
50%          3.000000
75%          3.000000
max         12.000000
Name: Person_ID, dtype: float64


In [13]:
# Comprobamos que hay un total de Person_ID únicos de 18610, y que cada uno se repite un mínimo de 3 veces. Después de analizar la tabla transpuesta anteriormente, 
# rápidamente nos damos cuenta de que cada delito, o assessmentID, se triplica, ya que en este dataset se contemplan diferentes puntuaciones según el tipo de riesgo 
# (violencia, reincidencia o aparición) descritos en la columna "DisplayText". Nos quedaremos solo con los que hacen referencia a la reincidencia (Risk of Recidivism).

print(df_compas_raw["DisplayText"].unique())
df_compas_raw_risk_of_reicidivism = df_compas_raw[df_compas_raw['DisplayText'] == 'Risk of Recidivism']
df_compas_raw_solo_recidivism = (60843/3)
print (f'el número de filas si nos quedamos solo con Risk of Recidivism debería ser {df_compas_raw_solo_recidivism}')
print (f'el número de filas total real que nos queda en el dataframes, y de las columnas, es: {df_compas_raw_risk_of_reicidivism.shape}')

['Risk of Violence' 'Risk of Recidivism' 'Risk of Failure to Appear']
el número de filas si nos quedamos solo con Risk of Recidivism debería ser 20281.0
el número de filas total real que nos queda en el dataframes, y de las columnas, es: (20281, 28)


In [14]:
# Comprobamos si hay sólo un Person_ID por cada entrada, pero no es así, ya que la cantidad 
# de entradas resultante es = 20281, y obtenemos un número de IDs únicos = 18610.

df_compas_raw_risk_of_reicidivism['Person_ID'].nunique()

18610

In [15]:
# La cantidad de entradas sigue siendo superior al de IDs únicos (20281 vs 18610). Creamos un dataset solo con los Person_ID duplicados, y comprobamos 
# si siguen habiendo delitos duplicados (AssessmentID), pero no es así, por lo que entendemos que hay personas duplicadas porque han cometido diferentes delitos.

df_compas_raw_risk_dup = df_compas_raw_risk_of_reicidivism[df_compas_raw_risk_of_reicidivism['Person_ID'].duplicated(keep=False)]

print(f'el número de entradas en la tabla con sólo Person_ID duplicados es de: {len(df_compas_raw_risk_dup)}')
print(f'el número de valores únicos de AssessmentID, en la tabla con solo Person_ID duplicados es de: {df_compas_raw_risk_dup["AssessmentID"].nunique()}')

el número de entradas en la tabla con sólo Person_ID duplicados es de: 3204
el número de valores únicos de AssessmentID, en la tabla con solo Person_ID duplicados es de: 3204


In [16]:
# Comprobamos cuantas veces han repetido delitos los diferentes Person_ID, separandolos por grupos

count_per_id = df_compas_raw_risk_dup['Person_ID'].value_counts()
count_duplicates = count_per_id.value_counts()

print(count_duplicates)

2    1411
3     106
4      16
Name: Person_ID, dtype: int64


In [17]:
# Queremos quedarnos sólo con un Person_ID en tabla df_compas_raw_risk, para realizar los posteriores análisis y modelos predictivos en individuos únicos.
# Por ese motivo, nos quedaremos sólo con el último delito que hayan cometido cada uno de ellos. Comprobaremos si el número de entradas, y el número de
# valores únicos en Person_ID finalmente coinciden

df_compas_raw_risk_of_reicidivism = df_compas_raw_risk_of_reicidivism.sort_values(by=['Person_ID', 'Screening_Date'], ascending=[True, False])
df_compas_raw_risk_of_reicidivism = df_compas_raw_risk_of_reicidivism.drop_duplicates(subset='Person_ID', keep='first')

print(f'el número de entradas en la tabla df_compas_raw_risk es de: {len(df_compas_raw_risk_of_reicidivism)}')
print(f'el número de valores únicos de la columna Person_ID, en la tabla df_compas_raw_risk es de: {df_compas_raw_risk_of_reicidivism["Person_ID"].nunique()}')

el número de entradas en la tabla df_compas_raw_risk es de: 18610
el número de valores únicos de la columna Person_ID, en la tabla df_compas_raw_risk es de: 18610


<span style="color: yellow; font-size: 25px;">Finalmente, obtenemos una cantidad de entradas en este dataset equivalente al número de Person_ID únicos que habíamos obtenido desde el principio: 18.610</span>

Vamos a crear una columna donde se muestre la edad, al igual que en el "dataset df_compas_2y". Lo haremos restando la fecha del screening date, a la fecha de nacimiento:

In [18]:
# Las fechas de la columna Screening_Date contienen la hora y esta debe ser eliminada para que no se produzcan errores.
# Utilizaremos la función "limpiar_fecha" para ello.

# Las fechas de la columna DateOfBirth contienen diferentes formatos, y deben ser procesadas para que no se produzcan errores.
# Utilizaremos la función "procesar_fecha" para ello.

# Limpiar y convertir Screening_Date
df_compas_raw_risk_of_reicidivism['Screening_Date'] = df_compas_raw_risk_of_reicidivism['Screening_Date'].apply(limpiar_fecha)

# Verificar si las fechas se convirtieron correctamente
print(df_compas_raw_risk_of_reicidivism['Screening_Date'].head())

# Aplicar la función personalizada procesar_fecha a la columna DateOfBirth
df_compas_raw_risk_of_reicidivism['DateOfBirth'] = df_compas_raw_risk_of_reicidivism['DateOfBirth'].apply(procesar_fecha)

# Convertir 'DateOfBirth' a formato datetime por si hay valores que siguen siendo cadenas
df_compas_raw_risk_of_reicidivism['DateOfBirth'] = pd.to_datetime(
    df_compas_raw_risk_of_reicidivism['DateOfBirth'], errors='coerce'
)

# Verificar las fechas de ambas columnas
print(df_compas_raw_risk_of_reicidivism[['Screening_Date', 'DateOfBirth']].head())


47995   2014-07-13
48595   2014-07-20
57346   2014-11-07
40120   2014-04-06
40777   2014-04-13
Name: Screening_Date, dtype: datetime64[ns]
      Screening_Date DateOfBirth
47995     2014-07-13  1981-01-20
48595     2014-07-20  1988-11-25
57346     2014-11-07  1981-09-21
40120     2014-04-06  1990-02-05
40777     2014-04-13  1982-08-09


In [19]:
# Verificamos que todas las fechas se hayan convertido correctamente, y no tengamos ningun NaT

na_screening_dates = df_compas_raw_risk_of_reicidivism['Screening_Date'].isna().sum()
na_date_of_birth = df_compas_raw_risk_of_reicidivism['DateOfBirth'].isna().sum()

# Contar el total de entradas en cada columna
total_screening_dates = df_compas_raw_risk_of_reicidivism['Screening_Date'].shape[0]
total_date_of_birth = df_compas_raw_risk_of_reicidivism['DateOfBirth'].shape[0]

# Mostrar los resultados
print(f"Total de entradas en 'Screening_Date': {total_screening_dates}")
print(f"Valores NaT en 'Screening_Date': {na_screening_dates}")
print(f"Total de entradas en 'DateOfBirth': {total_date_of_birth}")
print(f"Valores NaT en 'DateOfBirth': {na_date_of_birth}")

# Verificar si todas las fechas se han convertido correctamente
if na_screening_dates == 0:
    print("Todas las fechas en 'Screening_Date' se han convertido correctamente.")
else:
    print("Algunas fechas en 'Screening_Date' no se han convertido correctamente.")

if na_date_of_birth == 0:
    print("Todas las fechas en 'DateOfBirth' se han convertido correctamente.")
else:
    print("Algunas fechas en 'DateOfBirth' no se han convertido correctamente.")

Total de entradas en 'Screening_Date': 18610
Valores NaT en 'Screening_Date': 0
Total de entradas en 'DateOfBirth': 18610
Valores NaT en 'DateOfBirth': 0
Todas las fechas en 'Screening_Date' se han convertido correctamente.
Todas las fechas en 'DateOfBirth' se han convertido correctamente.


In [20]:
# Todas las fechas se convirtieron correctamente. Utilizamos la función describe para ver en que rangos se encuentran las fechas de ambas columnas

# Usar describe() para obtener estadísticas descriptivas de las columnas de fechas
fechas_desc = df_compas_raw_risk_of_reicidivism[['DateOfBirth', 'Screening_Date']].describe(datetime_is_numeric=True)

# Mostrar el resultado
print(fechas_desc)

                         DateOfBirth                 Screening_Date
count                          18610                          18610
mean   2001-02-01 20:39:26.211714048  2013-12-15 18:53:39.688339712
min              1969-01-01 00:00:00            2013-01-01 00:00:00
25%              1981-08-13 06:00:00            2013-05-30 00:00:00
50%              1988-09-20 12:00:00            2013-12-13 00:00:00
75%              1994-11-27 00:00:00            2014-06-13 18:00:00
max              2068-12-28 00:00:00            2014-12-31 00:00:00


In [21]:
# Observamos que hay algunas fechas que son superiores al 2014 en la columna DateOfBirth, ya que el formato original era mm/dd/yy,
# y algunas fechas se han convertido al año 2000 en vez de al 1900 (por ejemplo al 31/12/2060 en vez de 31/12/1960). Para solucionarlo,
# restaremos 100 años a cualquier fecha que sea superior al 2014 en dicha columna, y comprobaremos el resultado


# Convertir la columna 'DateOfBirth' a datetime, ignorando los errores
df_compas_raw_risk_of_reicidivism['DateOfBirth'] = pd.to_datetime(df_compas_raw_risk_of_reicidivism['DateOfBirth'], errors='coerce')

# Definir la fecha límite
fecha_limite = pd.Timestamp('2014-12-31')

# Ajustar las fechas que son posteriores a la fecha límite
df_compas_raw_risk_of_reicidivism.loc[df_compas_raw_risk_of_reicidivism['DateOfBirth'] > fecha_limite, 'DateOfBirth'] -= pd.DateOffset(years=100)

# Verificar los cambios
# Obtener estadísticas descriptivas de la columna 'age'
estadisticas = df_compas_raw_risk_of_reicidivism['DateOfBirth'].describe(datetime_is_numeric=True)

print(estadisticas)

count                            18610
mean     1979-08-21 22:39:22.342826432
min                1918-04-11 00:00:00
25%                1971-03-19 00:00:00
50%                1982-09-23 00:00:00
75%                1989-07-25 18:00:00
max                1998-03-29 00:00:00
Name: DateOfBirth, dtype: object


In [22]:
# Al comprobar que el rango de fechas de DateOfBirth está correcto, procedemos a crear la columna "age"

# Asegúrate de que 'Screening_Date' y 'DateOfBirth' estén en formato datetime
df_compas_raw_risk_of_reicidivism['Screening_Date'] = pd.to_datetime(df_compas_raw_risk_of_reicidivism['Screening_Date'])
df_compas_raw_risk_of_reicidivism['DateOfBirth'] = pd.to_datetime(df_compas_raw_risk_of_reicidivism['DateOfBirth'])

# Calcular la edad
df_compas_raw_risk_of_reicidivism['age'] = df_compas_raw_risk_of_reicidivism['Screening_Date'].dt.year - df_compas_raw_risk_of_reicidivism['DateOfBirth'].dt.year

# Verificar los primeros valores de la nueva columna 'age'
print(df_compas_raw_risk_of_reicidivism[['Screening_Date', 'DateOfBirth', 'age']].head())

      Screening_Date DateOfBirth  age
47995     2014-07-13  1981-01-20   33
48595     2014-07-20  1988-11-25   26
57346     2014-11-07  1981-09-21   33
40120     2014-04-06  1990-02-05   24
40777     2014-04-13  1982-08-09   32


In [23]:
# Finalmente, comprobamos el rango de edades resultante
estadisticas = df_compas_raw_risk_of_reicidivism['age'].describe(datetime_is_numeric=True)

print(estadisticas)

count    18610.000000
mean        34.345997
std         12.223027
min         16.000000
25%         24.000000
50%         31.000000
75%         43.000000
max         95.000000
Name: age, dtype: float64


========================================================================================================================

# Análisis del Dataset2: "Compas-scores-two-years"

## 1. Revisión Inicial y Estructura del Dataset

In [24]:
check_df(df_compas_2y, '')

¿Cuántas filas y columnas hay en el conjunto de datos?
	Hay 7,214 filas y 53 columnas.

########################################################################################
¿Cuáles son las primeras dos filas del conjunto de datos?


Unnamed: 0,id,name,first,last,compas_screening_date,sex,dob,age,age_cat,race,...,v_decile_score,v_score_text,v_screening_date,in_custody,out_custody,priors_count.1,start,end,event,two_year_recid
0,1,miguel hernandez,miguel,hernandez,2013-08-14,Male,1947-04-18,69,Greater than 45,Other,...,1,Low,2013-08-14,2014-07-07,2014-07-14,0,0,327,0,0
1,3,kevon dixon,kevon,dixon,2013-01-27,Male,1982-01-22,34,25 - 45,African-American,...,1,Low,2013-01-27,2013-01-26,2013-02-05,0,9,159,1,1



########################################################################################
¿Cuáles son las últimas dos filas del conjunto de datos?


Unnamed: 0,id,name,first,last,compas_screening_date,sex,dob,age,age_cat,race,...,v_decile_score,v_score_text,v_screening_date,in_custody,out_custody,priors_count.1,start,end,event,two_year_recid
7212,11000,farrah jean,farrah,jean,2014-03-09,Female,1982-11-17,33,25 - 45,African-American,...,2,Low,2014-03-09,2014-03-08,2014-03-09,3,0,754,0,0
7213,11001,florencia sanmartin,florencia,sanmartin,2014-06-30,Female,1992-12-18,23,Less than 25,Hispanic,...,4,Low,2014-06-30,2015-03-15,2015-03-15,2,0,258,0,1



########################################################################################
¿Cómo puedes obtener una muestra aleatoria de filas del conjunto de datos?


Unnamed: 0,id,name,first,last,compas_screening_date,sex,dob,age,age_cat,race,...,v_decile_score,v_score_text,v_screening_date,in_custody,out_custody,priors_count.1,start,end,event,two_year_recid
6928,10548,patrick doerfor,patrick,doerfor,2014-02-27,Male,1965-03-17,51,Greater than 45,Caucasian,...,1,Low,2014-02-27,,,1,0,764,0,0
3565,5445,jean edmond,jean,edmond,2013-01-17,Male,1982-02-28,34,25 - 45,African-American,...,9,High,2013-01-17,2006-11-20,2007-01-01,9,0,33,1,1



########################################################################################
¿Cuáles son las columnas del conjunto de datos?
	 - id
	 - name
	 - first
	 - last
	 - compas_screening_date
	 - sex
	 - dob
	 - age
	 - age_cat
	 - race
	 - juv_fel_count
	 - decile_score
	 - juv_misd_count
	 - juv_other_count
	 - priors_count
	 - days_b_screening_arrest
	 - c_jail_in
	 - c_jail_out
	 - c_case_number
	 - c_offense_date
	 - c_arrest_date
	 - c_days_from_compas
	 - c_charge_degree
	 - c_charge_desc
	 - is_recid
	 - r_case_number
	 - r_charge_degree
	 - r_days_from_arrest
	 - r_offense_date
	 - r_charge_desc
	 - r_jail_in
	 - r_jail_out
	 - violent_recid
	 - is_violent_recid
	 - vr_case_number
	 - vr_charge_degree
	 - vr_offense_date
	 - vr_charge_desc
	 - type_of_assessment
	 - decile_score.1
	 - score_text
	 - screening_date
	 - v_type_of_assessment
	 - v_decile_score
	 - v_score_text
	 - v_screening_date
	 - in_custody
	 - out_custody
	 - priors_count.1
	 - start
	 - end
	 - even

Unnamed: 0,id,name,first,last,compas_screening_date,sex,dob,age,age_cat,race,...,v_decile_score,v_score_text,v_screening_date,in_custody,out_custody,priors_count.1,start,end,event,two_year_recid
count,7214.0,7214,7214,7214,7214,7214,7214,7214.0,7214,7214,...,7214.0,7214,7214,6978,6978,7214.0,7214.0,7214.0,7214.0,7214.0
unique,,7158,2800,3950,690,2,5452,,3,6,...,,3,690,1156,1169,,,,,
top,,anthony smith,michael,williams,2013-02-20,Male,1987-12-21,,25 - 45,African-American,...,,Low,2013-02-20,2014-01-04,2020-01-01,,,,,
freq,,3,149,83,32,5819,5,,4109,3696,...,,4761,32,20,61,,,,,
mean,5501.255753,,,,,,,34.817993,,,...,3.691849,,,,,3.472415,11.465068,553.436651,0.382867,0.450652
std,3175.70687,,,,,,,11.888922,,,...,2.510148,,,,,4.882538,46.954563,399.020583,0.48612,0.497593
min,1.0,,,,,,,18.0,,,...,1.0,,,,,0.0,0.0,0.0,0.0,0.0
25%,2735.25,,,,,,,25.0,,,...,1.0,,,,,0.0,0.0,148.25,0.0,0.0
50%,5509.5,,,,,,,31.0,,,...,3.0,,,,,2.0,0.0,530.5,0.0,0.0
75%,8246.5,,,,,,,42.0,,,...,5.0,,,,,5.0,1.0,914.0,1.0,1.0



########################################################################################
¿Hay valores nulos en el conjunto de datos?
violent_recid              7214
vr_charge_degree           6395
vr_case_number             6395
vr_offense_date            6395
vr_charge_desc             6395
c_arrest_date              6077
r_jail_out                 4898
r_jail_in                  4898
r_days_from_arrest         4898
r_charge_desc              3801
r_offense_date             3743
r_case_number              3743
r_charge_degree            3743
c_offense_date             1159
c_jail_out                  307
days_b_screening_arrest     307
c_jail_in                   307
out_custody                 236
in_custody                  236
c_charge_desc                29
c_days_from_compas           22
c_case_number                22
v_type_of_assessment          0
type_of_assessment            0
decile_score.1                0
v_decile_score                0
v_score_text                  0
v_

In [25]:
df_compas_2y.columns

Index(['id', 'name', 'first', 'last', 'compas_screening_date', 'sex', 'dob',
       'age', 'age_cat', 'race', 'juv_fel_count', 'decile_score',
       'juv_misd_count', 'juv_other_count', 'priors_count',
       'days_b_screening_arrest', 'c_jail_in', 'c_jail_out', 'c_case_number',
       'c_offense_date', 'c_arrest_date', 'c_days_from_compas',
       'c_charge_degree', 'c_charge_desc', 'is_recid', 'r_case_number',
       'r_charge_degree', 'r_days_from_arrest', 'r_offense_date',
       'r_charge_desc', 'r_jail_in', 'r_jail_out', 'violent_recid',
       'is_violent_recid', 'vr_case_number', 'vr_charge_degree',
       'vr_offense_date', 'vr_charge_desc', 'type_of_assessment',
       'decile_score.1', 'score_text', 'screening_date',
       'v_type_of_assessment', 'v_decile_score', 'v_score_text',
       'v_screening_date', 'in_custody', 'out_custody', 'priors_count.1',
       'start', 'end', 'event', 'two_year_recid'],
      dtype='object')

Descripción de las columnas:
1. id: Identificador único para cada persona.
2. name: Nombre completo de la persona evaluada.
3. first: Primer nombre de la persona.
4. last: Apellido de la persona.
5. compas_screening_date: Fecha en la que se realizó la evaluación COMPAS.
6. sex: Género de la persona evaluada.
7. dob Fecha de nacimiento (Date of Birth) de la persona.
8. age: Edad de la persona al momento de la evaluación.
9. age_cat: Categoría de edad (por ejemplo, joven, adulto, mayor).
10. race: Raza o etnia de la persona evaluada.
11. juv_fel_count: Número de delitos graves (felonies) cometidos por la persona cuando era menor de edad.
12. decile_score: Puntuación en una escala de 1 a 10 que indica el riesgo general de reincidencia.
13. juv_misd_count: Número de delitos menores (misdemeanors) cometidos por la persona siendo menor de edad.
14. juv_other_count: Otros tipos de delitos cometidos cuando era menor de edad.
15. priors_count: Número total de delitos previos en la vida de la persona.
16. days_b_screening_arrest: Días entre el arresto y la fecha de evaluación COMPAS.
17. c_jail_in: Fecha de entrada en prisión relacionada con el caso actual.
18. c_jail_out: Fecha de salida de prisión relacionada con el caso actual.
19. c_case_number: Número de caso del delito actual.
20. c_offense_date: Fecha en que ocurrió el delito actual.
21. c_arrest_date: Fecha del arresto relacionado con el delito actual.
22. c_days_from_compas: Días transcurridos desde la evaluación COMPAS hasta el delito actual.
23. c_charge_degree: Grado del cargo del delito actual (por ejemplo, grave o menor).
24. c_charge_desc: Descripción del cargo del delito actual.
25. is_recid: Indicador de si la persona reincidió o no (1 para sí, 0 para no).
26. r_case_number: Número de caso para el delito relacionado con la reincidencia.
27. r_charge_degree: Grado del cargo del delito relacionado con la reincidencia.
28. r_days_from_arrest: Días desde el arresto hasta el delito de reincidencia.
29. r_offense_date: Fecha del delito relacionado con la reincidencia.
30. r_charge_desc: Descripción del cargo relacionado con la reincidencia.
31. r_jail_in: Fecha de entrada a prisión por el delito de reincidencia.
32. r_jail_out: Fecha de salida de prisión por el delito de reincidencia.
33. violent_recid: Número de reincidencias violentas cometidas por la persona.
34. is_violent_recid: Indicador de si la persona reincidió con un delito violento (1 para sí, 0 para no).
35. vr_case_number: Número de caso relacionado con la reincidencia violenta.
36. vr_charge_degree: Grado del cargo de la reincidencia violenta.
37. vr_offense_date: Fecha del delito violento relacionado con la reincidencia.
38. vr_charge_desc: Descripción del cargo del delito violento relacionado con la reincidencia.
39. type_of_assessment: Tipo de evaluación realizada (general, violenta, etc.).
40. decile_score.1: Puntuación de riesgo para un tipo específico de evaluación (puede ser reincidencia violenta).
41. score_text: Texto asociado con la categoría de riesgo (por ejemplo, bajo, medio, alto).
42. screening_date: Fecha en que se realizó la evaluación del riesgo.
43. v_type_of_assessment: Tipo de evaluación específica para reincidencia violenta.
44. v_decile_score: Puntuación de riesgo para reincidencia violenta (1-10).
45. v_score_text: Texto asociado con la categoría de riesgo violento (bajo, medio, alto).
46. v_screening_date: Fecha de la evaluación del riesgo violento.
47. in_custody: Fecha de ingreso en custodia relacionada con el caso actual o reincidencia.
48. out_custody: Fecha de liberación de custodia relacionada con el caso actual o reincidencia.
49. priors_count.1: Número total de delitos previos, en una columna duplicada.
50. start: Fecha de inicio del seguimiento o evaluación para el análisis.
51. end: Fecha de finalización del seguimiento o análisis.
52. event: Indicador de si ocurrió un evento relevante (como reincidencia).
53. two_year_recid: Indicador de si la persona reincidió dentro de los dos años posteriores al arresto.

In [26]:
df_compas_2y_transpose = df_compas_2y.transpose()
df_compas_2y_transpose

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,7204,7205,7206,7207,7208,7209,7210,7211,7212,7213
id,1,3,4,5,6,7,8,9,10,13,...,10989,10990,10992,10994,10995,10996,10997,10999,11000,11001
name,miguel hernandez,kevon dixon,ed philo,marcu brown,bouthy pierrelouis,marsha miles,edward riddle,steven stewart,elizabeth thieme,bo bradac,...,rodney montgomery,christopher tun,alexander vega,jarred payne,raheem smith,steven butler,malcolm simmons,winston gregory,farrah jean,florencia sanmartin
first,miguel,kevon,ed,marcu,bouthy,marsha,edward,steven,elizabeth,bo,...,rodney,christopher,alexander,jarred,raheem,steven,malcolm,winston,farrah,florencia
last,hernandez,dixon,philo,brown,pierrelouis,miles,riddle,stewart,thieme,bradac,...,montgomery,tun,vega,payne,smith,butler,simmons,gregory,jean,sanmartin
compas_screening_date,2013-08-14,2013-01-27,2013-04-14,2013-01-13,2013-03-26,2013-11-30,2014-02-19,2013-08-30,2014-03-16,2013-11-04,...,2013-12-28,2013-05-28,2013-05-10,2014-05-10,2013-10-20,2013-11-23,2014-02-01,2014-01-14,2014-03-09,2014-06-30
sex,Male,Male,Male,Male,Male,Male,Male,Male,Female,Male,...,Male,Male,Male,Male,Male,Male,Male,Male,Female,Female
dob,1947-04-18,1982-01-22,1991-05-14,1993-01-21,1973-01-22,1971-08-22,1974-07-23,1973-02-25,1976-06-03,1994-06-10,...,1985-09-28,1992-04-28,1994-07-15,1985-07-31,1995-06-28,1992-07-17,1993-03-25,1958-10-01,1982-11-17,1992-12-18
age,69,34,24,23,43,44,41,43,39,21,...,30,23,21,30,20,23,23,57,33,23
age_cat,Greater than 45,25 - 45,Less than 25,Less than 25,25 - 45,25 - 45,25 - 45,25 - 45,25 - 45,Less than 25,...,25 - 45,Less than 25,Less than 25,25 - 45,Less than 25,Less than 25,Less than 25,Greater than 45,25 - 45,Less than 25
race,Other,African-American,African-American,African-American,Other,Other,Caucasian,Other,Caucasian,Caucasian,...,African-American,Caucasian,Caucasian,African-American,African-American,African-American,African-American,Other,African-American,Hispanic


## 2. Limpieza y Procesamiento de Datos

In [27]:
# Cantidad de entradas duplicadas en el dataset:
duplicated = df_compas_2y.duplicated().sum()
print("Numero de duplicados en el dataset:", duplicated)

Numero de duplicados en el dataset: 0


In [28]:
# Contar el número de valores duplicados en la columna 'id'
num_duplicados = df_compas_2y['id'].duplicated().sum()
print(f"Número de valores duplicados en la columna 'id': {num_duplicados}")

Número de valores duplicados en la columna 'id': 0


In [29]:
# Obtener estadísticas descriptivas de la columna 'age'
estadisticas_age = df_compas_2y['age'].describe()
print(estadisticas_age)

count    7214.000000
mean       34.817993
std        11.888922
min        18.000000
25%        25.000000
50%        31.000000
75%        42.000000
max        96.000000
Name: age, dtype: float64


In [30]:
print(df_compas_2y["race"].unique())

['Other' 'African-American' 'Caucasian' 'Hispanic' 'Native American'
 'Asian']


<span style="color: yellow; font-size: 25px;">Comprobamos que a diferencia del dataset df_compas_raw, las variables que utilizaremos para el análisis de este dataframes están limpias, y no necesitán ningún tipo de procesamiento. Procedemos a exportar los datasets limpios, para usarlos en los análisis posteriores.</span>

In [31]:
df_compas_2y.to_csv('df_compas_2y.csv', index=False)
df_compas_raw_risk_of_reicidivism.to_csv('df_compas_raw_risk_of_reicidivism.csv', index=False)