# Analizado los crímenes en la Ciudad de Nueva York

__Integrantes:__ 
- Daniel Flores
- Francisco Fernandez

Sección G1


## Hito 1

### Objetivo

El objetivo del problema es generar dos modelos predictivos relacionados con los stop-and-frisk (detenciones y cateos) realizadas por la policía de NYC (NYPD).

El primer modelo debe predecir si un determinado procedimiento terminará en arresto o no en base a las características medidas del sospechoso: género, raza y que se arrestado en uno de los cincos barrios.

El segundo modelo debe predecir si el procedimiento finalizará en una acción violenta.

### Contexto

Cada vez que un policía detiene a una persona en NYC, el oficial debe completar un formulario registrando los detalles de la detención. Los formularios eran llenados a mano hasta el año 2017, cuando los formularios en papel se conviertieron a electrónicos. La policía informa las detenciones y cateos de dos maneras: un informe resumido publicado trimestralmente y una base de datos completa publicada anualmente.

Los informes trimestrasles son publicados cada tres meses, incluyen información de detenciones, arrestos y citaciones. Los datos son desglosados por distrito policial, raza y genero de la persona detenida.

La base de datos anual incluye practicamente toda la información registrada por el oficial de policía después de una detención, tal como la edad, si la persona fue cateada, si tenía un arma o si se recuperó un arma de fuego, si se usó fuerza física en la detención, y la ubicación exacta de la detenciín dentro del distrito policial. La NYPD sube esta base de datos a su página web anualmente. La base de datos contiene más de 100 variables y dependiendo del año, sobre 10.000 observaciones, cada registro representa una detención realizada por un oficial de policía.

**Controversia**

Los procedimientos stop-and-frisk han sido muy criticado debido su alto porcentaje de detenciones de personas inocentes --sobre 80% entre 2002 y 2015-- y a que la mayoría de las detenciones recaen en personas de raza negra y latinos, lo mismo sucede con el uso de la fuerza.

Resumen de datos del año 2009:
- 581.168 procedimientos registrados.
- 510.742 eran inocentes (88%).
- 310.611 eran de raza negra (55%).
- 180.055 eran latinos (32%).
- 53.601 eran blancos (10%).
- 289,602 tenían entre 14-24 años (50%).

Desde el año 2011 hubo una reducción constante de los procedimientos registrados, disminuyendo el porcentaje de inocentes detenidos, pero se mantuvo la parcialidad hacia las razas negras y latinas:

Resumen de dartos del año 2018:
- 11.008 procedimientos registrados. 
- 7.645 eran inocentes (70%).
- 6,241 eran de raza negra (57%).
- 3,389 eran latinos (31%).
- 1,074 eran blancos (10%).

Fuente: según [STOP-AND-FRISK DATA](https://www.nyclu.org/en/stop-and-frisk-data)

**Se debe tener en cuenta, a priori, que existirá una parcialidad racial en la data de entrenamiento y posterior evaluación**.

### Desarrollo de la solución

Se seguirá el flujo habitual de machine learning:

1. **Importación/obtención de datos.**
2. **Análisis de datos:** Se analizarán los datos pérdidos y outliers, se generarán tendencias y estadística descriptiva de los atributos y vectores objetivos. Se presentará el esquema de recodificación en caso de requerirse.
3. **Preprocesamiento:** Se transformarán (recodificarán) y limpiarán datos. Se normalizarán los atributos. 
4. **Búsqueda y selección de algoritmos a ocupar en base a objetivos del modelo.** En esta sección en base al conocimiento previo y a búsqueda de problemas similares se seleccionarán los algoritmos a utilizar para los modelos. Selección de métricas para modelos.
5. **Entrenar y validación del modelo:** 
Se dividirán los datos en grupos: Entrenamiento, validación y **prueba PENDIENTE NOMBRE**. Se entrenarán y compararán los modelos utilizando los algoritmos seleccionados del item anterior en un GridSearch con la métrica previamente seleccionada. Los modelos tendrán hyperparámetros básicos.
Se seleccionará el modelo con mejor métrica y se ajustarán sus hyperparámetros utilizando los datos de validación.
Podría ser necesario recodificar datos.
6. **Evaluación del modelo**
Finalmente se evaluará el modelo seleccionado para cada problema, obteniéndo sus métricas, y finalmente se serializará.

## Aspectos computacionales

Se utilizara las principales librerias para el analisis de datos, las cuales son:

### Bibliotecas de Python 
 
- `pandas`:  Permite realizar tareas de manipulación, agregación y visualización de datos de forma más sencilla.
- `numpy`: Agrega soporte para vectores y matrices y  funciones matemáticas de alto nivel para operar con esos datos. 
- `matplotlib`: Permite crear visualizaciones de datos simples.
- `seaborn`: Permite visualizar modelos estadísticos. Se basa en Matplotlib.
- `statsmodels`: Estimación de modelos estadísticos, en nuestro caso la regresion logística.
- `scikit-learn`: Implementa aprendizaje de máquina, incluye varios algoritmos de clasificación, regresión y métricas, incluyendo varias herramientas útiles, como separación de datos de entrenamiento, validación cruzada y codificación de variables categóricas.
- `factor_analizer`: Permite implementar el EFA (análisis factorial exploratorio).
- `missingno`: Biblioteca para la visualización de datos perdidos.
- `warnings`: Evitará que aparezcan las advertencias de avisos de deprecación.
- `IPython.display`: Embellece el output de salida. 


### Módulos y funciones de Python

- `utils`: Módulo que contiene función para graficar
- `preproc_nyc_sqf`: Modulo con funciones básicas de limpieza de datos faltantes, transformación de etiquetas
nulas en variables categóricas y crea atributos sinteticos de edad del sospechoso y conversión de distancia a sistema metrico.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
# from sklearn.metrics import roc_curve
# from sklearn.metrics import roc_auc_score
# from sklearn.metrics import confusion_matrix
# from sklearn.model_selection import cross_validate

import missingno as msngo
import warnings

from IPython.display import display, Markdown

from utils import get_graph
from preproc_nyc_sqf import create_suitable_dataframe

pd.set_option("display.max_rows", 112)
pd.set_option("display.max_info_columns", 112)
pd.set_option("display.max_colwidth", 3000)

warnings.filterwarnings('ignore')

SyntaxError: invalid syntax (preproc_nyc_sqf.py, line 29)

## Descripción de datos

### Base de datos y procesamiento inicial
 
La base de datos es del año 2009, contiene sólo el 1% de los datos, la base de datos original tiene 111 columnas y 5812 observaciones. 

Se realiza un procesamiento inicial de las variables que consiste en:
- Eliminar valores nulos con dropna().
- Eliminar las columnas con un único valor, por ejemplo se eliminó la columna año.
- Eliminar las columnas categóricas con muchos valores únicos, por ejemplo se eliminó el número de calle.
- Se cofificaron las columnas officrid, offshld, sector, trhsloc, beat y offverb. Por lo tanto, la nueva descripción de las columnas es:
    - "officrid": ID CARD PROVIDED BY OFFICER? (Y: IF NOT IN UNIFORM, N)
    - "offshld": SHIELD PROVIDED BY OFFICER? (Y: IF NOT IN UNIFORM, N)
    - "sector": LOCATION OF STOP SECTOR (U FOR UNKNOWN)
    - "trhsloc": WAS LOCATION HOUSING OR TRANSIT AUTHORITY ? (U FOR UNKNOWN)
    - "beat": LOCATION OF STOP BEAT (U for UNKNOWN)
    - "offverb": VERBAL STATEMENT PROVIDED BY OFFICER (IF NOT IN UNIFORM)?
- Se agrega columna "meters" con altura del sospechoso en metros.
- Se agrega columna de "month" con el mes en que ocurrió el procedimiento.
- Se crea columna "age_individual" con la edad del sospechoso.

Se reducen las columnas a 75 y 4636 observaciones.

In [None]:
# Importa base de datos original y aplica procesamiento inicial

df = pd.read_csv("2009_1perc.csv", index_col=0)
display(Markdown("**Base de datos original**: Tiene {} columnas y {} ".format(df.shape[1], df.shape[0])))

df, _, _ = create_suitable_dataframe(df)
display(Markdown("**Base de datos procesada**: Tiene {} columnas y {} ".format(df.shape[1], df.shape[0])))

# Importa descripción de variables
df_spec = pd.read_csv("2009 SQF File Spec.csv", sep=";")
df_spec.set_index("Variable", inplace=True)

# Mantiene solo columnas en el nuevo dataframe y modifica/agrega descripciones
df_desc = df_spec[df_spec.index.isin(df.columns)]

df_desc.loc["officrid",["Label"]] = "ID CARD PROVIDED BY OFFICER? (Y: IF NOT IN UNIFORM, N)"
df_desc.loc["offshld",["Label"]] = "SHIELD PROVIDED BY OFFICER? (Y: IF NOT IN UNIFORM, N)"
df_desc.loc["sector",["Label"]] = "LOCATION OF STOP SECTOR (U FOR UNKNOWN)"
df_desc.loc["trhsloc",["Label"]] = "WAS LOCATION HOUSING OR TRANSIT AUTHORITY ? (U FOR UNKNOWN)"
df_desc.loc["beat",["Label"]] = "LOCATION OF STOP BEAT (U for UNKNOWN)"
df_desc.loc["offverb",["Label"]] = "VERBAL STATEMENT PROVIDED BY OFFICER (IF NOT IN UNIFORM)?"
df_desc.loc["meters",["Label"]] = "SUSPECT'S HEIGHT"
df_desc.loc["month",["Label"]] = "MONTH"
df_desc.loc["age_individual",["Label"]] = "SUSPECT'S AGE"


df_desc.loc[:, ["Label"]].head(df_desc.shape[0]).sort_index(axis="index")


### Análisis y visualización de datos pérdidos

El siguiente gráfico de barras muestra como se ven afectadas las variables al considerar los valores "U" (UNKNOWN) como pérdidos, y valores con espacios en blanco.

In [None]:
df_unknown = df.replace(to_replace="U", value=np.nan)
df_unknown = df_unknown.replace(to_replace=" ", value=np.nan)

filtered_data = msngo.nullity_filter(
    df_unknown, filter='bottom', n=15, p=0.999
)

color = (0.171, 0.637, 0.328)
#color = (0.629, 0.848, 0.606)

plt.figure()
msngo.matrix(filtered_data, color=color)

plt.figure()
msngo.bar(filtered_data, color=color)

Las columnas "beat" y "post" tienen muchos valores desconocidos, sobre 60% y 90% respectivamente. Por lo que se eliminarán ambas columnas, la información de ambas no es indispensable ya que hay otras variables que indican posición. 

El resto de valores pérdidos son bajos con respecto al total de datos (<5% por columna, sólo 4 variables). Por lo que se eliminarán las filas completas.

In [None]:
df_unknown.drop(axis="columns", columns=["beat", "post"], inplace=True)
df = df_unknown.dropna()
display(Markdown("**Base de datos procesada**: Tiene {} columnas y {} ".format(df.shape[1], df.shape[0])))

### Análisis y visualización de datos

In [None]:
get_graph(df.sort_index(axis="index"))