## Delitos Validados

Coder: LeninGF
Fecha: 29/09/2023

En este notebook se analizan algunas operaciones a ser realizadas sobre la bases de entrenamiento con respecto a la etiqueta delitos_validados a fin de obtener el entrenamiento con las 11 categorías

In [1]:
import pandas as pd
import os
import numpy as np
from snippets.utils import conectar_sql
from sqlalchemy import text
conx = conectar_sql()


conectando con big data database....
<sqlalchemy.engine.base.Connection object at 0x00000295F238F070>


En la base de datos con corte 8 de enero de 2023 se tiene el siguiente registro de las desagregaciones de delitos_validados

In [2]:
query = text("""SELECT robos.`Tipo_Delito_PJ`,
                robos.delitos_validados,
                count(robos.`NDD`) as 'TOTAL'
                from reportes.robos_2014_08012023 robos
                where robos.`Tipo_Delito_PJ`="ROBO"
                GROUP BY robos.delitos_validados
                ORDER BY count(robos.`NDD`) DESC;

"""
)

delitos_validados_df = pd.read_sql(query, conx)
delitos_validados_df.shape

(57, 3)

In [3]:
delitos_validados_df.delitos_validados = delitos_validados_df.delitos_validados.str.strip()

In [4]:
delitos_validados_df

Unnamed: 0,Tipo_Delito_PJ,delitos_validados,TOTAL
0,ROBO,ROBO A PERSONAS,260727
1,ROBO,ROBO A DOMICILIO,115081
2,ROBO,"ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEH...",93869
3,ROBO,ROBO DE MOTOS,69793
4,ROBO,ROBO DE CARROS,55070
5,ROBO,ROBO A UNIDADES ECONOMICAS,51457
6,ROBO,OTROS ROBOS,27039
7,ROBO,HURTO,14100
8,ROBO,ROBO A INSTITUCIONES EDUCATIVAS,11997
9,ROBO,ELIMINAR,7061


Ahora los delitos planteados por la comisión como válidos de 10 categorías son:

In [5]:
delitos_validados_cat10 = ["ROBO A PERSONAS", 
                           "ROBO A DOMICILIO", 
                           "ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEHICULOS", 
                           "ROBO DE MOTOS", 
                           "ROBO DE CARROS", 
                           "ROBO A UNIDADES ECONOMICAS", 
                           "ROBO A INSTITUCIONES EDUCATIVAS", 
                           "ROBO A EMBARCACIONES DE ESPACIOS ACUATICOS", 
                           "ROBO EN INSTITUCIONES PUBLICAS", 
                           "ROBO A ESTABLECIMIENTOS DE COLECTIVOS U ORGANIZACIONES SOCIALES"]
len(delitos_validados_cat10)

10

In [6]:
categorias_otros_robos = ["ROBO A INSTITUCIONES DE SALUD", 
                          "ROBO EN EJES VIALES O CARRETERAS", 
                          "ROBO A ENTIDADES FINANCIERAS"] # excluyo otros robos porque esta es la categoría a la que serán ingresados
len(categorias_otros_robos)

3

In [7]:
delitos_validados_df_mod = delitos_validados_df.copy()
delitos_validados_df_mod.delitos_validados[delitos_validados_df_mod.delitos_validados.isin(categorias_otros_robos)] = "OTROS ROBOS"
delitos_validados_df_mod.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  delitos_validados_df_mod.delitos_validados[delitos_validados_df_mod.delitos_validados.isin(categorias_otros_robos)] = "OTROS ROBOS"


Unnamed: 0,Tipo_Delito_PJ,delitos_validados,TOTAL
0,ROBO,ROBO A PERSONAS,260727
1,ROBO,ROBO A DOMICILIO,115081
2,ROBO,"ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEH...",93869
3,ROBO,ROBO DE MOTOS,69793
4,ROBO,ROBO DE CARROS,55070


Ahora todo lo que no esta contenido en las 10 categorías se va a otro robos y finalmente se tiene que agrupar la información nuevamente

In [8]:
delitos_validados_df_mod.delitos_validados[-delitos_validados_df_mod.delitos_validados.isin(delitos_validados_cat10)] = "OTROS ROBOS"
delitos_validados_df_mod.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  delitos_validados_df_mod.delitos_validados[-delitos_validados_df_mod.delitos_validados.isin(delitos_validados_cat10)] = "OTROS ROBOS"


Unnamed: 0,Tipo_Delito_PJ,delitos_validados,TOTAL
0,ROBO,ROBO A PERSONAS,260727
1,ROBO,ROBO A DOMICILIO,115081
2,ROBO,"ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEH...",93869
3,ROBO,ROBO DE MOTOS,69793
4,ROBO,ROBO DE CARROS,55070


In [9]:
resultado = pd.DataFrame(delitos_validados_df_mod.groupby(['Tipo_Delito_PJ', 'delitos_validados'])['TOTAL'].sum().reset_index().sort_values(by='TOTAL', ascending=False))
resultado

Unnamed: 0,Tipo_Delito_PJ,delitos_validados,TOTAL
5,ROBO,ROBO A PERSONAS,260727
1,ROBO,ROBO A DOMICILIO,115081
7,ROBO,"ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEH...",93869
9,ROBO,ROBO DE MOTOS,69793
0,ROBO,OTROS ROBOS,64355
8,ROBO,ROBO DE CARROS,55070
6,ROBO,ROBO A UNIDADES ECONOMICAS,51457
4,ROBO,ROBO A INSTITUCIONES EDUCATIVAS,11997
2,ROBO,ROBO A EMBARCACIONES DE ESPACIOS ACUATICOS,5309
10,ROBO,ROBO EN INSTITUCIONES PUBLICAS,5228


In [10]:
resultado.shape

(11, 3)

Modificacion de tipo 2. Se descartan todos los ejemplos que no corresponden a las 14 categorías

In [11]:
total_categorias = delitos_validados_cat10 + categorias_otros_robos + ['OTROS ROBOS']
len(total_categorias)
# delitos_validados_df_mod2 = 

14

In [12]:
delitos_validados_df_mod2 = delitos_validados_df.copy()
delitos_validados_df_mod2 = delitos_validados_df_mod2[delitos_validados_df_mod2.delitos_validados.isin(total_categorias)]
delitos_validados_df_mod2.shape, delitos_validados_df_mod.shape

((14, 3), (57, 3))

Ahora se re-acomoda la información convenientemente para obtener las 10 categorías

In [13]:
delitos_validados_df_mod2.delitos_validados[delitos_validados_df_mod2.delitos_validados.isin(categorias_otros_robos)] = "OTROS ROBOS"


In [14]:
resultado2 = pd.DataFrame(delitos_validados_df_mod2.groupby(['Tipo_Delito_PJ', 'delitos_validados'])['TOTAL'].sum().reset_index().sort_values(by='TOTAL', ascending=False))
resultado2

Unnamed: 0,Tipo_Delito_PJ,delitos_validados,TOTAL
5,ROBO,ROBO A PERSONAS,260727
1,ROBO,ROBO A DOMICILIO,115081
7,ROBO,"ROBO DE BIENES, ACCESORIOS Y AUTOPARTES DE VEH...",93869
9,ROBO,ROBO DE MOTOS,69793
8,ROBO,ROBO DE CARROS,55070
6,ROBO,ROBO A UNIDADES ECONOMICAS,51457
0,ROBO,OTROS ROBOS,31664
4,ROBO,ROBO A INSTITUCIONES EDUCATIVAS,11997
2,ROBO,ROBO A EMBARCACIONES DE ESPACIOS ACUATICOS,5309
10,ROBO,ROBO EN INSTITUCIONES PUBLICAS,5228


In [15]:
resultado2.shape

(11, 3)

En mi opinion es preferible la segunda opción

In [16]:
resultado.to_excel('temporales/agrupamientoOtrosRobosPropuesta1.xlsx')
resultado2.to_excel('temporales/agrupamientoOtrosRobosPropuesta2.xlsx')

In [1]:
import pandas as pd
import numpy as np

x = np.random.randint(0,100, (10,2))
df = pd.DataFrame(x, columns=['a', 'b'])
df['status'] = np.random.randint(0,2,len(df))
df

Unnamed: 0,a,b,status
0,60,73,0
1,8,94,1
2,6,26,1
3,15,68,0
4,12,81,0
5,75,22,1
6,47,76,1
7,33,88,1
8,53,83,1
9,26,76,0


In [3]:
def already_predicted(a,b,status):
    if status==1:
        return a*b, (a+b)/(a*b)
    else:
        return np.nan, np.nan

In [4]:
df[['predicted', 'score']] = df.apply(lambda x: already_predicted(x['a'], x['b'], x['status']), axis=1, result_type='expand')
df

Unnamed: 0,a,b,status,predicted,score
0,60,73,0,,
1,8,94,1,752.0,0.135638
2,6,26,1,156.0,0.205128
3,15,68,0,,
4,12,81,0,,
5,75,22,1,1650.0,0.058788
6,47,76,1,3572.0,0.034434
7,33,88,1,2904.0,0.041667
8,53,83,1,4399.0,0.030916
9,26,76,0,,


In [5]:
df['c'] = np.random.randint(0,200, len(df))

In [6]:
def update_predicted(a,b,c,status,predicted,score):
    if status == 1:
        return predicted, score, status
    elif status==0 and c > 50:
        return a*b, (a+b)/a*b, 1
    else:
        return np.nan, np.nan, status

In [10]:
df['status'].iloc[5] = 2
df['status'].iloc[6] = 3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [12]:
df[['predicted', 'score', 'status']] = df.apply(lambda x: update_predicted(a=x['a'],
                                                                           b=x['b'],
                                                                           c=x['c'],
                                                                           predicted=x['predicted'],
                                                                           score=x['score'],
                                                                           status=x['status']), axis=1, result_type='expand')

In [13]:
df

Unnamed: 0,a,b,status,predicted,score,c
0,60,73,1.0,4380.0,161.816667,173
1,8,94,1.0,752.0,0.135638,126
2,6,26,1.0,156.0,0.205128,46
3,15,68,1.0,1020.0,376.266667,176
4,12,81,1.0,972.0,627.75,187
5,75,22,2.0,,,33
6,47,76,3.0,,,161
7,33,88,1.0,2904.0,0.041667,16
8,53,83,1.0,4399.0,0.030916,195
9,26,76,1.0,1976.0,298.153846,141


In [1]:
def myfunc(a,b):
    return a+b

myfunc(5,3)

8