# ***Machine Learning Prueba 2 - Analizando los crímenes en la Ciudad de Nueva York***.
### Nombre(s): Thomas Peet, Braulio Águila, Camilo Ramírez
### Generación: G47
### Profesores: Alfonso Tobar - Sebastián Ulloa
### Fecha: 06-10-2022

### *Contexto*
En esta ocasión trabajaremos con datos públicos del departamento de policía de New York.    
El dataset es llamado stop_and_frisk_data y contiene información sobre interrogaciones    
y detenciones realizadas por el departamento de policía de NY en la vía pública. El    
diccionario de atributos se encuentra en el archivo 2009 SQF File Spec.xls.    
Para todo nuestro estudio utilizaremos los datos correspondientes al año 2009 como    
conjunto de entrenamiento y los datos del 2010 como conjunto de pruebas. Hay que hacer    
notar que los datos que estamos utilizando son un muestreo del de la cantidad de registros    
reales que contiene el dataset, esta decisión fue tomada debido a los largos tiempos de    
entrenamiento y procesamiento que requiere el volumen de datos reales. 

### *Objetivos*
Para alcanzar el objetivo general, su trabajo se puede desagregar en los siguientes puntos:  

1. Debe analizar de forma exploratoria los atributos. Reporte la cantidad de datos    
perdidos y presente su esquema de recodificación. Tenga presente que lo que    
observe en el análisis exploratorio debe guiar su proceso de ingeniería de atributos,    
por lo que se le recomienda que piense en aspectos de las variables involucradas     
que puedan afectar el proceso mencionado.

2. Reporte la probabilidad de que un individuo sea arrestado en uno de los cinco  
barrios, condicional al género y a la raza. Concluya, ¿qué implicancias éticas tienen  
algunas conclusiones de lo que observa?.

3. Entregue un modelo predictivo que prediga efectivamente si un determinado  
procedimiento concluirá en un arresto o no. Para ello, guíate por los siguientes  
lineamientos:  
    - Entrene por lo menos 3 modelos que sean capaces de predecir si se  
producirá un arresto o no. Una vez que encuentre un modelo satisfactorio,  
reporte al menos dos métricas de desempeño.  
    - Refine aquellos atributos relevantes con alguna estrategia que crea  
conveniente y reporte por lo menos 5 atributos relevantes para realizar la  
predicción.

4. Genere al menos cinco modelos predictivos que permitan determinar si el  
procedimiento policial concluirá en alguna acción violenta.  
○ Para ello, debe generar un nuevo atributo como vector objetivo que indique  
cuándo hubo violencia o no. Éste debe ser creado a partir de atributos  
existentes que indiquen el tipo de violencia.
  
5. Seleccione los 2 mejores modelos, serialicelos y envíalos a evaluación. Recuerde que  
el modelo serializado debe ser posterior al fit, para poder ejecutar predict en los  
nuevos datos

>>>#### Tipo de problema a resolver:
- De acuerdo con el enunciado y una revisión preliminar de los datos entregados, ambas problemáticas planteadas,  
el hecho de que ocurra o no un arresto, y de que un procedimiento policial es o no violento, corresponden a   
problemas de **clasificación**, ya que ambas variables objetivos son discretas.

>>>#### Tipo de métricas a implementar:
- Las métricas que se utilizarán para la división de muestras corresponden a :
- Tipo de preprocesamiento: 

>>>#### Modelos (5) con gridsearch e hiperparamétros tentativos/definitivos:
- Modelo 1:
- Modelo 2:
- Modelo 3:
- Modelo 4:
- Modelo 5:

>>>#### Comportamiento de variables objetivo (recodificados):
- Variable objetivo 1: procedimiento policial en el que ocurre o no un arresto ("arstmade")
- Variable objetivo 2: procedimiento policial 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline

from feature_engine.imputation import CategoricalImputer, MeanMedianImputer
from feature_engine.encoding import OrdinalEncoder, OneHotEncoder
from feature_engine.wrappers import SklearnTransformerWrapper
#from feature engine drop features ----> sacar features para el pipeline
from sklearn.preprocessing import StandardScaler

from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import VotingClassifier, RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier

from sklearn import set_config
set_config(display='diagram')

from pathlib import Path
from pandas_profiling import ProfileReport

import geopandas as gpd
import contextily as cx
#import shapely
#import folium 
import pyproj
import helpers as hp
import preproc_nyc_sqf_V2 as preproc
import contextily as cx
#pd.set_option('display.max_colwidth', None)
#pd.set_option('display.max_rows', None)
#pd.set_option('display.max_columns', None)

In [2]:
from sklearn.preprocessing import FunctionTransformer
import sys
sys.path.append('..')

from utils import CreateSuitableDataframeTransformer
from utils import OrdinalEncoderFixedTransformer
from utils import DropRowsTransformer
from utils import CriterioExperto
import utils

from imblearn.over_sampling import SMOTE
from imblearn.pipeline import Pipeline as Imb_Pipeline
from sklearn.ensemble import StackingClassifier


## ***Dataset interrogaciones/detenciones Policía de Nueva York - 2009***:

## Preprocesamiento del dataframe

---
### Definición de los datasets para los 2 problemas de clasificación

* Se eliminan los datos sin xcoord o ycoord
* Se eliminan los registros de detenidos menores de 18 años

In [3]:
df2009 = pd.read_csv('2009_1perc.csv', index_col=0)

drt = DropRowsTransformer()
df2009_nonull = drt.transform(df2009)

x_1, y_1, x_2, y_2 = utils.split_features_target(df2009_nonull)
# El mismo dataframe aplicando los criterios de descartar datos sin xcoord/ycoord y registros de menores de 18 años
x_1.shape, y_1.shape, x_2.shape, y_2.shape

((4499, 111), (4499,), (4499, 103), (4499,))

---
### Definición de columnas eliminadas en base a "Criterio Expertos"

In [4]:
# Considerar variables relevantes para modelos de procedimiento que concluye en arresto y/o procedimiento que concluye en situación violenta:
# redefinir variable "others" (esta mál escrita con respecto a la planilla)

var_eliminar_pf = ["pf_baton", "pf_hcuff", "pf_pepsp", "pf_other", "pf_ptwep", "pf_drwep", "pf_wall", "pf_hands", "pf_grnd"] # 9 variables eliminadas

var_eliminar_others = ["ac_rept", "ac_inves", "ac_proxm", "cs_casng", "cs_lkout", "explnstp","sumissue", "offunif", "officrid", "frisked", "searched", "cs_cloth", "offverb", "rf_furt", "sb_other", "ac_other", "rf_bulg", "cs_furtv", "recstat", "cs_bulge", "cs_other", "trhsloc", "build", "beat", "post","rf_attir", "cs_objcs","eyecolor", "haircolr", "sector" ]


---
### Definición de clasificadores base

In [5]:
#Se utiliza función entregada para limpieza preliminar de la data, se obtiene un df nuevo procesado y dos listas:
# proc_df #este nuevo dataframe, estas constituido de 69 variables categóricas y 2 númericas sintéticas ("meters", "month")

gnb = GaussianNB()
knc = KNeighborsClassifier()
svc = SVC(random_state=42, probability=True)
# funciona particularmente bien stackeando xgboost
lr = LogisticRegression(random_state=42)
rfc = RandomForestClassifier(random_state=42, n_estimators=100, max_depth=10)
gbc = GradientBoostingClassifier(random_state=42)


---
### Definición del main pipeline

In [None]:

# params = {
#     # 'preprocessing__num_imp__imputation_method': ['mean', 'median'],
#     'model__n_estimators': [10, 50, 100, 500],
#     'model__max_depth': [5, 10, 50, 100, 300]
# }

params = {
    'model__learning_rate': [0.01, 0.02, 0.04],
    'model__subsample': [0.9, 0.5, 0.2, 0.1],
    'model__n_estimators': [100, 500, 1000],
    'model__max_depth': [4, 7, 10]
}
# Solución para usar SMOTE en gridsearch con muchos pasos: https://stackoverflow.com/questions/65652054/not-able-to-feed-the-combined-smote-randomundersampler-pipeline-into-the-main

def main_pipeline(estimator):
    pipe = Imb_Pipeline(steps=[
        ('ce', CriterioExperto(columns = var_eliminar_others + var_eliminar_pf)),
        ('csd', CreateSuitableDataframeTransformer()),
        ('cat_imp', CategoricalImputer(imputation_method='frequent')),
        ('num_imp', MeanMedianImputer(imputation_method='mean')),
        ('oe', OrdinalEncoderFixedTransformer(encoding_method='ordered')),# aqui estoy pasando info desde el proceso csd (que son las columnas que seleccionamos como categoricas) para encodear.
        ('smote', SMOTE(sampling_strategy='auto',random_state=42)),
        ('sc', SklearnTransformerWrapper(StandardScaler())),
        ('model', estimator)
    ])
    return pipe

def gridsearch_train_and_save(pipe, params, scoring='accuracy', file_name='file.pickle'):
    search = GridSearchCV(pipe, params, cv=5, scoring=scoring, n_jobs=-1, error_score='raise', verbose=10)
    search.fit(x_1, y_1)

    utils.save_bytes_variable({'best_params': search.best_params_, 'best_score': search.best_score_, 'pipe': pd.DataFrame(search.cv_results_), 'params': params}, file_name)
    return search

---
### Optimización del sub-pipeline de preprocessing

In [None]:
params = {
        'smote': [SMOTE(sampling_strategy='auto',random_state=42), None],
        'cat_imp__imputation_method': ['frequent', 'missing'],
        'num_imp__imputation_method': ['median', 'mean'],
        'oe__encoding_method': ['ordered', 'arbitrary']
}

pipe = main_pipeline(rfc)

search_acc = gridsearch_train_and_save(pipe, params, scoring='accuracy', file_name='gridsearch_preprocessing_crimenes_accuracy.pickle')

search_rec = gridsearch_train_and_save(pipe, params, scoring='recall', file_name='gridsearch_preprocessing_crimenes_recall.pickle')

In [None]:
search_acc.best_params_, search_acc.best_score_

In [None]:
search_rec.best_params_, search_rec.best_score_

>>>#### Exploración variable objetivo 1 ("arstmade")

In [None]:
y_1.value_counts() #oversampling

In [None]:
#Visualización de el vector objetivo:
sns.histplot(y_1, x="arstmade"); # Categoría uno muchos menos casos que categoría 0.
plt.title("Vector objetivo : arstmade")
plt.xlabel("clases");

>>>#### Exploración variable objetivo 2 ("violencia física en arresto") --- Necesita ser recodificada

In [None]:
#Recodificando variable objetivo 2:

var_pf = proc_df.columns[np.where([i[0:2]=='pf' for i in proc_df.columns.tolist()])]. tolist()
u = proc_df[var_pf]
u["var_pf"] = [int(np.isin(["Y"], u.iloc[i].values.tolist())[0]) for i in range(0,len(u))]

proc_df.insert(proc_df.shape[1],"var_pf", u["var_pf"])
proc_df


In [None]:
# hp.cat_num_rate_analysis(proc_df)

In [None]:
proc_df.corr()

In [7]:
pd.set_option('display.max_rows', None)
df_probs = df2009
var_pf = df2009.columns[np.where([i[0:2]=='pf' for i in df2009.columns.tolist()])]. tolist()
u = df2009[var_pf]
# df_probs['violence'] = 
df_probs.insert(-1, 'violence', pd.Series([int(np.isin(["Y"], u.iloc[i].values.tolist())[0]) for i in range(0, len(u))]))

probs = pd.DataFrame(df_probs.groupby(['city', 'race', 'sex']).arstmade.value_counts
(normalize=True))
counts = pd.DataFrame(df_probs.groupby(['city', 'race', 'sex']).arstmade.value_counts
(normalize=False))

probs_v = pd.DataFrame(df_probs.groupby(['city', 'race', 'sex']).violence.value_counts
(normalize=True))
counts_v = pd.DataFrame(df_probs.groupby(['city', 'race', 'sex']).violence.value_counts
(normalize=False))

# Sex: F, M, Z
# Race: A, B, I, P, Q, U, W, X, Z
# City: BRONX, QUEENS, STATEN ISLAND, MANHATTAN, BROOKLYN

print(counts.query("race == 'B' & sex == 'M' "))
print(counts.query("race == 'W' & sex == 'M' "))
print('--------------')
print(counts_v.query("race == 'B' & sex == 'M' "))
print(counts_v.query("race == 'W' & sex == 'M' "))

df_probs.violence
## Este caso no se observa lo que se esperaba 

ValueError: unbounded slice

In [None]:
df2009.shape, df_probs.shape

In [None]:
#Eliminar variables (Considerar drop_features)
#dropna(axis = 1, inplace= True)
#df_na = df1.dropna(how="all", axis=1)  
#dfnan = df1.dropna(subset=["ID"])

In [None]:
#Formato para definir variables elegidas posterior al filtro

# # ***Listado de variables***:
# * `age`: Edad del individuo.
# * `workclass`: Naturaleza de la organización que emplea al individuo.
# * `education`: Nivel educacional del individuo:
#     | Variable          | Explicación                       |
#     | ----------------- | ------------------                |
#     | __Bachelors__     | (Licenciado)                      |
#     | __Some-college__  | (Superior incompleta)             |
#     | __11th__          | (3ro medio)                       |
#     | __HS-grad__       | (Secundaria completa)             |
#     | __Prof-school__   | (Escuela profesional)             |
#     | __ssoc-acdm__     | (Técnico superior administrativo) |
#     | __Assoc-voc__     | (Técnico superior vocacional)     |
#     | __9th__           | (1ro medio)                       |
#     | __7th-8th__       | (7mo-8vo)                         |
#     | __12th__          | (4to medio)                       |
#     | __Masters__       | (Maestría de postgrado)           |
#     | __1st-4th__       | (1ro-4to básico)                  |
#     | __10th__          | (2do medio)                       |
#     | __Doctorate__     | (Doctorado)                       |
#     | __5th-6th__       | (5to-6to)                         |
#     | __Preschool__     | (Preescolar).                     |
     
#     <br>  
    
# * `capital-gains`: Ingresos generados por inversiones fuera del trabajo asalariado
# * `capital-losses`: Pérdidas generadas por inversiones fuera del trabajo asalariado.
# * `fnlwgt`: Ponderador muestral.
# * `marital-status`: Estado civil del individuo: 

In [None]:
# Mapa
gdf = gpd.GeoDataFrame(proc_df, geometry=gpd.points_from_xy(proc_df.xcoord, proc_df.ycoord))
df = gpd.read_file(gpd.datasets.get_path("nybb"))
df_wm = df.to_crs(epsg=3857)
ax = df.plot(figsize=(15,10), alpha=0.5, edgecolor = "k")
cx.add_basemap(ax,crs=df.crs, zoom =11, source=cx.providers.Stamen.TonerLite)
#cx.add_basemap(ax, source=cx.providers.Stamen.TonerLabels)
gdf.plot(ax=ax, color= "red", edgecolor = "black", markersize = 4)


#Incorporar al código de arriba para poder plotear variable objetivo:
# fig,ax = plt.subplots(1, 1) #plt.figure(figsize=(10,8))
# fig.set_size_inches(25, 25)
# df2009map[df2009map.arstmade == "N"].plot(color="red", ax=ax, markersize = 1)
# df2009map[df2009map.arstmade == "Y"].plot(ax=ax,  markersize = 12)
# plt.show()

In [None]:
# función transformar x,y to lon, lat:
def xy_to_latlon(x,y):
    source_crs = 'epsg:2263' # Coordinate system of the file
    target_crs = 'epsg:4326' # Global lat-lon coordinate system
    polar_to_latlon = pyproj.Transformer.from_crs(source_crs, target_crs, always_xy=True)
    lat, lon = polar_to_latlon.transform(x,y)
    return lon, lat

In [None]:
#otra opción de crear mapa con folium:
import folium
def generateBaseMap(loc, zoom=11, tiles='OpenStreetMap', crs='ESPG3857'):
    return folium.Map(location=loc,
                   #control_scale=True, 
                   zoom_start=zoom,
                   #tiles=tiles)
    )
base_map = generateBaseMap([40.7127837, -74.0059413])


marker = list(range(len(df2009.xcoord)))
counter = 0
tooltip = "Click Here For More Info"
icon = folium.features.CustomIcon('https://cdn-icons-png.flaticon.com/128/7500/7500224.png', icon_size=(40, 40))

for x,y in zip(df2009.xcoord, df2009.ycoord):
    lon, lat = xy_to_latlon(x,y)
    marker[counter] = folium.Marker(icon=icon,
    #     #location=[40.7127837, -74.0059413],
    location=[lon, lat],
    #     #popup="<stong>Allianz Arena</stong>",
    #     #tooltip=tooltip
    )
    marker[counter].add_to(base_map)
    #print(f"latitud {lat} y longitud {lon}")
    if counter>5 : 
        break
    counter += 1
base_map

In [None]:
#Conteo de nulos
#proc_df.info(verbose=True, show_counts=True,memory_usage=False)

In [None]:
#Descripción de variables númericas:
proc_df.describe().T

In [None]:
#Descripción de variables categóricas: 
proc_df.describe(include="O").T


In [None]:
#cargar df2010
# df2 = pd.read_csv('2010_1perc.csv', index_col='Unnamed: 0')
# df2.head()

In [None]:
csd = CreateSuitableDataframeTransformer()
x_1 = df2009.drop(columns=['arstmade']) 
preprocess = Pipeline(steps=[ 
    ('ce', CriterioExperto(columns = var_eliminar_others + var_eliminar_pf)), 
    ('csd', csd), 
    ('cat_imp', CategoricalImputer(imputation_method='frequent')), 
    ('num_imp', MeanMedianImputer(imputation_method='mean')), 
    ('oe', OrdinalEncoderFixedTransformer(encoding_method='ordered', csd=csd)),# aqui estoy pasando info desde el proceso csd (que son las columnas que seleccionamos como categoricas)
    ('sc', SklearnTransformerWrapper(StandardScaler())) ,
]) 
