In [1]:
import pandas as pd
import numpy as np
import requests
import seaborn as sns
import matplotlib.pyplot as plt
import os
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None)
import matplotlib.pyplot as plt
from datetime import datetime
from sklearn.impute import SimpleImputer
from matplotlib.ticker import FixedLocator

In [2]:
# Carga del archivo
lesiones = pd.read_excel("datos/lesiones.xlsx", sheet_name='HECHOS', na_values=['SD', 'sd'])
lesiones.head()

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9.0,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,,,,,x,
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1.0,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,AUTO,,AUTO-SD,,x,,,,
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2.0,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,SD-SD,,,,,,
3,LC-2019-0000079,1,2019,1,1,2019-01-01 00:00:00,02:30:00,2.0,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,PEATON,,PEATON-SD,x,,,,,
4,LC-2019-0000082,4,2019,1,1,2019-01-01 00:00:00,04:30:00,4.0,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,AUTO,,AUTO-SD,,,x,,,


Función que permetirá ir corroborando la integridad de nuestros datos

In [3]:
def verificar(df):
    resumen = []
    total_filas = len(df)
    for col in df.columns:
        tipos_presentes = df[col].apply(lambda x: type(x).__name__).unique()
        cantidad_nulos = df[col].isnull().sum()
        porcentaje_nulos = round((cantidad_nulos / total_filas) * 100, 2)

        resumen.append({
            'Columna': col,
            'Tipos de Dato': tipos_presentes.tolist(),
            'Cantidad de Nulos': cantidad_nulos,
            '% de Nulos': porcentaje_nulos
        })
    return pd.DataFrame(resumen)


In [4]:
verificar(lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id,[str],0,0.0
1,n_victimas,[int],0,0.0
2,aaaa,[int],0,0.0
3,mm,[int],0,0.0
4,dd,[int],0,0.0
5,fecha,"[datetime, str]",0,0.0
6,hora,"[time, float, str]",9,0.04
7,franja_hora,[float],9,0.04
8,direccion_normalizada,"[float, str]",10868,45.69
9,comuna,"[int, str, float]",1015,4.27


### Eliminación de columnas

La columna 'fecha' se conservará, las columnas `aaaa`, `mm`, y `dd`, serán eliminados por ser considerados datos redundates.

In [5]:
lesiones.drop(columns=['aaaa','mm','dd'], inplace=True)

Eliminamos columna `hora`, para conservar la columna `franja_hora`, porque tiene la hora en entero, esto optimiza futuros análisis.

In [6]:
lesiones.drop(columns=['hora'],inplace=True)

Para la ubicación se utilizará las columnas `latitud` y `longitud`. Procederemos a eliminar las columnas relacionadas a direcciones.

In [7]:
# lesiones.drop(columns=['otra_direccion','calle','altura','cruce','geocodificacion_CABA','direccion_normalizada'],inplace=True)

La columna `participantes`detalla la información sobre los involucrados en el incidente, por tanto, columnas para detallar la presencia de **moto**, **auto**, **transporte público**, **camión** y **ciclista** resultan redundantes. 

In [8]:
lesiones.drop(columns=['moto','auto','transporte_publico','camion','ciclista'],inplace=True)

In [9]:
# Corroboramos la integridad de nuestro DF
verificar(lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,"[datetime, str]",0,0.0
3,franja_hora,[float],9,0.04
4,direccion_normalizada,"[float, str]",10868,45.69
5,comuna,"[int, str, float]",1015,4.27
6,tipo_calle,"[float, str]",11045,46.44
7,otra_direccion,"[str, float]",18295,76.92
8,calle,"[float, str]",10918,45.9
9,altura,[float],11014,46.31


La columna `gravedad` muestra una cantidad alarmante de valores nulos. No obstante, al revisar el diccionario, se aclara que se debe considerar como gravedad `leve`.

In [10]:
lesiones['gravedad'] = lesiones['gravedad'].fillna('leve')

In [11]:
# Verificamos como va quedando el DF
df_lesiones = lesiones
df_lesiones.head()

Unnamed: 0,id,n_victimas,fecha,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latutid,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01 00:00:00,9.0,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01 00:00:00,1.0,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01 00:00:00,2.0,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01 00:00:00,2.0,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01 00:00:00,4.0,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,AUTO,,AUTO-SD,leve


En la columna `comuna`, los datos 'No Especificada' serán convertidos a nulos. 

In [12]:
df_lesiones['comuna'] = df_lesiones['comuna'].replace('No Especificada', np.NaN)

### Cambio de tipos de datos
Las columnas `franja_hora`, `tipo_calle`, `comuna` y ``acusado`` serán transformadas a tipo categórico.

In [13]:
# Normalizamos todos los valores nulos
mask = df_lesiones.applymap(lambda x: x == '<NA>')
df_lesiones[mask] = np.NaN

In [14]:
df_lesiones['tipo_calle'] = df_lesiones['tipo_calle'].astype('category')
df_lesiones['acusado'] = df_lesiones['acusado'].astype('category')

La columna ``fecha`` la convertiremos a formato fecha

In [15]:
df_lesiones['fecha'] = pd.to_datetime(df_lesiones['fecha'], errors='coerce')

La columna ``comuna`` y ``franja_hora`` la convertiremos a formato INT

In [16]:
df_lesiones['comuna'] = df_lesiones['comuna'].astype('Int64')
df_lesiones['franja_hora'] = df_lesiones['franja_hora'].astype('Int64')

### Renombrar columnas

In [17]:
df_lesiones.head()

Unnamed: 0,id,n_victimas,fecha,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latutid,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,AUTO,,AUTO-SD,leve


Cambiamos todos los nombres de las columnas, para poder darle un mejor seguimiento

In [18]:
df_lesiones = df_lesiones.rename(columns={'id':'id_hecho'})
df_lesiones = df_lesiones.rename(columns={'franja_hora':'hh'})
df_lesiones = df_lesiones.rename(columns={'latutid':'latitud'})

In [19]:
df_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,AUTO,,AUTO-SD,leve


In [20]:
# Transformar a minúsculas las columnas en df_lesiones_hechos
columnas_a_minusc = ['tipo_calle', 'gravedad', 'victima', 'acusado', 'participantes']
df_lesiones[columnas_a_minusc] = df_lesiones[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

# Correciones ortográficas
mapeo_correcciones_victima_lesiones = {'peaton': 'peatón','transporte publico': 'transporte público','movil': 'móvil','otro': 'otro',
'camion': 'camión','monopatin': 'monopatín','utilitario': 'utilitario'}
df_lesiones['victima'] = df_lesiones['victima'].replace(mapeo_correcciones_victima_lesiones)

In [21]:
df_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,ciclista,,ciclista-sd,leve
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,auto,,auto-sd,leve
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,sd-sd,leve
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,peatón,,peaton-sd,leve
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,auto,,auto-sd,leve


In [22]:
df_lesiones.replace('nan', np.nan, inplace=True)

In [23]:
df_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,ciclista,,ciclista-sd,leve
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,auto,,auto-sd,leve
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,sd-sd,leve
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,peatón,,peaton-sd,leve
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,auto,,auto-sd,leve


# ETL dataframe ``LESIONES-VICTIMAS``

In [24]:
# Carga del archivo
df_lesiones_victimas = pd.read_excel('datos/lesiones.xlsx', sheet_name='VICTIMAS', na_values=['SD', 'sd'])
df_lesiones_victimas.head()

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,,Varon,57.0,
1,LC-2019-0000063,2019,1,1,2019-01-01,,,,
2,LC-2019-0000079,2019,1,1,2019-01-01,,Varon,,
3,LC-2019-0000082,2019,1,1,2019-01-01,,Varon,45.0,
4,LC-2019-0000082,2019,1,1,2019-01-01,,Mujer,45.0,


La columna ``FECHA`` será conservada, las columnas **AAA**, **DD**, y **MM** serán eliminadas, por ser información redundate.

In [25]:
df_lesiones_victimas.drop(columns=['AAA','MM','DD'],inplace=True)

In [26]:
verificar(df_lesiones_victimas)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID hecho,[str],0,0.0
1,FECHA,[Timestamp],0,0.0
2,VEHICULO_VICTIMA,"[float, str]",16272,58.95
3,SEXO,"[str, float]",2228,8.07
4,EDAD_VICTIMA,[float],4471,16.2
5,GRAVEDAD,"[float, str]",27068,98.05


La columna `gravedad` muestra una cantidad alarmante de valores nulos. No obstante, al revisar el diccionario, se aclara que se debe considerar como gravedad `leve`.

In [27]:
df_lesiones_victimas['GRAVEDAD'] = df_lesiones_victimas['GRAVEDAD'].fillna('leve')

### Cambio de tipo de datos

Conversión columnas ``VEHICULO_VICTIMA``, ``GRAVEDAD`` y ``SEXO`` a tipo categórico

In [28]:
# Cambio a tipo categórico
df_lesiones_victimas['VEHICULO_VICTIMA'] = df_lesiones_victimas['VEHICULO_VICTIMA'].astype('category')
df_lesiones_victimas['GRAVEDAD'] = df_lesiones_victimas['GRAVEDAD'].astype('category')
df_lesiones_victimas['SEXO'] = df_lesiones_victimas['SEXO'].astype('category')

Conversión columna `EDAD_VICTIMA` a tipo INT, para facilitar su posterior análisis

In [29]:
df_lesiones_victimas['EDAD_VICTIMA'] = df_lesiones_victimas['EDAD_VICTIMA'].astype('Int64')

In [30]:
df_lesiones_victimas.head()

Unnamed: 0,ID hecho,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019-01-01,,Varon,57.0,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Varon,,leve
3,LC-2019-0000082,2019-01-01,,Varon,45.0,leve
4,LC-2019-0000082,2019-01-01,,Mujer,45.0,leve


### Renombrar Columnas
Renombrar columnas del DF ``df_lesiones_victimas`` para la concordancia con el DF ``df_lesiones_hechos``

In [31]:
# Convertimos todo a minúsculas
df_lesiones_victimas.columns = df_lesiones_victimas.columns.str.lower()
df_lesiones_victimas.rename(columns={'id hecho': 'id_hecho', 'fecha ': 'fecha', 'sexo': 'sexo_victima'}, inplace=True)

In [32]:
df_lesiones_victimas.head()

Unnamed: 0,id_hecho,fecha,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,LC-2019-0000053,2019-01-01,,Varon,57.0,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Varon,,leve
3,LC-2019-0000082,2019-01-01,,Varon,45.0,leve
4,LC-2019-0000082,2019-01-01,,Mujer,45.0,leve


### Renombrar datos de las columnas

In [33]:
df_lesiones_victimas['sexo_victima'].unique()

['Varon', NaN, 'Mujer', 'varon', 'mujer', 'MUJER', 'Mujer ']
Categories (6, object): ['MUJER', 'Mujer', 'Mujer ', 'Varon', 'mujer', 'varon']

In [34]:
# Mapeo de categorías
mapeo_sexo = {'Varon': 'Masculino', 'varon': 'Masculino', 'Mujer': 'Femenino', 'mujer': 'Femenino', 'MUJER': 'Femenino', 'Mujer ': 'Femenino'}
# Aplicar el mapeo a la columna 'sexo_victima'
df_lesiones_victimas['sexo_victima'] = df_lesiones_victimas['sexo_victima'].map(mapeo_sexo, na_action='ignore')

In [35]:
df_lesiones_victimas['sexo_victima'].unique()

array(['Masculino', nan, 'Femenino'], dtype=object)

Corregimos la ortografía de la columna ``vehiculo_victima``

In [36]:
# Diccionario dado:
diccionario_correcciones = {'movil': 'móvil','camion': 'camión','monopatin': 'monopatín','peaton':'peatón',
                            'transporte publico':'transporte público'}
# Correción acorde al diccionario
df_lesiones_victimas['vehiculo_victima'] = df_lesiones_victimas['vehiculo_victima'].replace(diccionario_correcciones.keys(), diccionario_correcciones.values(), regex=True)

In [37]:
# Convertimos los valores 'nan' en valores nulos
df_lesiones_victimas.replace('nan', np.nan, inplace=True)

In [38]:
df_lesiones_victimas.head()

Unnamed: 0,id_hecho,fecha,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,LC-2019-0000053,2019-01-01,,Masculino,57.0,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Masculino,,leve
3,LC-2019-0000082,2019-01-01,,Masculino,45.0,leve
4,LC-2019-0000082,2019-01-01,,Femenino,45.0,leve


In [39]:
# Creamos una función para asignar el rango etario

def asignar_rango(edad):
    rangos_etarios = {
        (0, 17): "1_ 0 a 17 años",
        (18, 29): "2_ 18 a 29 años",
        (30, 39): "3_ 30 a 39 años",
        (40, 49): "4_ 40 a 49 años",
        (50, 59): "5_ 50 a 59 años",
        (60, float('inf')): "6_ 60 años o más"
    }

    for rango, etiqueta in rangos_etarios.items():
        if rango[0] <= edad <= rango[1]:
            return etiqueta

    return np.nan

In [40]:
df_lesiones_victimas

Unnamed: 0,id_hecho,fecha,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,LC-2019-0000053,2019-01-01,,Masculino,57,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Masculino,,leve
3,LC-2019-0000082,2019-01-01,,Masculino,45,leve
4,LC-2019-0000082,2019-01-01,,Femenino,45,leve
...,...,...,...,...,...,...
27600,LC-2021-0451911,2021-09-11,TRANSPORTE PUBLICO,Masculino,87,leve
27601,LC-2021-0530228,2021-10-25,TRANSPORTE PUBLICO,Femenino,60,leve
27602,LC-2021-0530228,2021-10-25,TRANSPORTE PUBLICO,Femenino,32,leve
27603,LC-2021-0201378,2021-05-02,MOTO,Masculino,32,leve


# ETL dataframe ``HOMICIDIOS-HECHOS``

In [41]:
homicidios_hechos= pd.read_excel('datos/homicidios.xlsx',sheet_name = 'HECHOS',na_values=['SD', 'sd'])

In [42]:
homicidios_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4.0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1.0,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7.0,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0.0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5.0,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


### Eliminación de columnas
La columna `FECHA` será conservada, las columnas **AAAA**, **DD**, y **MM**, serán eliminadas por ser consideradas información redundate.

In [43]:
homicidios_hechos.drop(columns=['AAAA','DD','MM'],inplace=True)

La columna ``HH``, que representa la hora entera, será conservada, mientras que la columna **HORA**, que incluye los minutos, será eliminada.

In [44]:
homicidios_hechos.drop(columns=['HORA'],inplace=True)

Para la ubicación del hecho, se ha decidido utilizar las columnas `pos X` y `pos Y`, procedemos a eliminar las demas columnas que hacen referencia a ubicación.

In [45]:
homicidios_hechos.drop(columns=['LUGAR_DEL_HECHO','Calle','Altura','Cruce','Dirección Normalizada','XY (CABA)'],inplace=True)

### 2. Valores Nulos
Calcular el porcentaje de valores nulos por columnas

In [46]:
verificar(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID,[str],0,0.0
1,N_VICTIMAS,[int],0,0.0
2,FECHA,[Timestamp],0,0.0
3,HH,[float],1,0.14
4,TIPO_DE_CALLE,[str],0,0.0
5,COMUNA,[int],0,0.0
6,pos x,[str],0,0.0
7,pos y,[str],0,0.0
8,PARTICIPANTES,[str],0,0.0
9,VICTIMA,"[str, float]",9,1.29


El porcentaje de valores nulos en el conjunto de datos es bajo, afectando solo a 3 columnas. Sin embargo, se identificaron irregularidades en la columna de "Comuna", donde la presencia de "Comuna 0" indica una inconsistencia, ya que las comunas deben estar en el rango de 1 a 15. Estos casos también serán tratados como valores nulos. Además, se observaron puntos en las columnas "Pos X" y "Pos Y", y se decidirá reemplazarlos por valores nulos para mantener la consistencia en la representación de coordenadas geográficas.

In [47]:
# Reemplazo de la Comuna 0 por Valores Nulos
homicidios_hechos.loc[homicidios_hechos['COMUNA'] == 0, 'COMUNA'] = np.nan

# Reemplazo de los '.' por valores nulos de las columnas pos x y pos y
homicidios_hechos.loc[homicidios_hechos['pos x'] == '.' ,'pos x'] = np.nan
homicidios_hechos.loc[homicidios_hechos['pos y'] == '.' ,'pos y'] = np.nan

In [48]:
verificar(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID,[str],0,0.0
1,N_VICTIMAS,[int],0,0.0
2,FECHA,[Timestamp],0,0.0
3,HH,[float],1,0.14
4,TIPO_DE_CALLE,[str],0,0.0
5,COMUNA,[float],2,0.29
6,pos x,"[str, float]",12,1.72
7,pos y,"[str, float]",12,1.72
8,PARTICIPANTES,[str],0,0.0
9,VICTIMA,"[str, float]",9,1.29


### Cambio de tipo de datos
Las columnas ``HH``, ``TIPO_DE_CALLE``, ``COMUNA`` y ``ACUSADO`` las pasaremos a tipo **CATEGORY**

In [49]:
homicidios_hechos['HH'] = homicidios_hechos['HH'].astype('category')
homicidios_hechos['TIPO_DE_CALLE'] = homicidios_hechos['TIPO_DE_CALLE'].astype('category')
homicidios_hechos['COMUNA'] = homicidios_hechos['COMUNA'].astype('category')
homicidios_hechos['ACUSADO'] = homicidios_hechos['ACUSADO'].astype('category')

Las columnas 'pos X' y 'pos Y' serán transformadas al tipo **FLOAT**

In [50]:
homicidios_hechos['pos x'] = homicidios_hechos['pos x'].astype('float')
homicidios_hechos['pos y'] = homicidios_hechos['pos y'].astype('float')

### Renombrar columnas

In [51]:
# Pasamos a minúscilas todos los encabezados
homicidios_hechos.columns = homicidios_hechos.columns.str.lower()

Renombrar columnas: ``id``, ``pos x`` y ``pos y``

In [52]:
homicidios_hechos.rename(columns={'id': 'id_hecho', 'pos x': 'longitud', 'pos y': 'latitud','tipo_de_calle':'tipo_calle'}, inplace=True)

Pasar a minúsculas el contenido de las columnas `tipo_calle`, `participantes`, `victima` y `acusado`

In [53]:
columnas_a_minusc = ['tipo_calle', 'participantes', 'victima', 'acusado']
homicidios_hechos[columnas_a_minusc] = homicidios_hechos[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

In [54]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros


In [55]:
# Convertimos los nan a valores nulos
homicidios_hechos.replace('nan', np.nan, inplace=True)

Creamos la columna 'gravedad' y asignamos el valor 'fatal'

In [56]:
homicidios_hechos['gravedad']='fatal'

In [57]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal


Cambiar el contenido de la columna **victima**, según el diccionario dado.

In [58]:
mapeo_correcciones_victima = {'peaton': 'peatón','movil': 'móvil'}
homicidios_hechos['victima'] = homicidios_hechos['victima'].replace(mapeo_correcciones_victima)

In [59]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal


In [60]:
verificar(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,hh,"[float, nan]",1,0.14
4,tipo_calle,[str],0,0.0
5,comuna,"[float, nan]",2,0.29
6,longitud,[float],12,1.72
7,latitud,[float],12,1.72
8,participantes,[str],0,0.0
9,victima,"[str, float]",9,1.29


# ETL dataframe ``HOMICIDIOS-VICTIMAS``

In [61]:
df_homicidios_victimas= pd.read_excel('datos/homicidios.xlsx',sheet_name = 'VICTIMAS',na_values=['SD', 'sd'])

In [62]:
df_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19.0,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70.0,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30.0,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18.0,
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29.0,2016-02-01 00:00:00


### liminación de columnas
La columna `FECHA` será conservada, las columnas **AAAA**, **DD**, y **MM**, serán eliminadas por ser consideradas información redundate.

In [63]:
df_homicidios_victimas.drop(columns=['AAAA','MM','DD','FECHA_FALLECIMIENTO'],inplace=True)

### Valores nulos

In [64]:
verificar(df_homicidios_victimas)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID_hecho,[str],0,0.0
1,FECHA,[Timestamp],0,0.0
2,ROL,"[str, float]",11,1.53
3,VICTIMA,"[str, float]",9,1.26
4,SEXO,"[str, float]",6,0.84
5,EDAD,[float],53,7.39


### Cambio de tipo de datos
Conversión de columnas ``ROL``, ``VICTIMA`` y ``SEXO`` a tipo categórico

In [65]:
df_homicidios_victimas['ROL'] = df_homicidios_victimas['ROL'].astype('category')
df_homicidios_victimas['VICTIMA'] = df_homicidios_victimas['VICTIMA'].astype('category')
df_homicidios_victimas['SEXO'] = df_homicidios_victimas['SEXO'].astype('category')

### Renombrar columnas
Todos los nombres de las columnas serán convertidos a minúsculas. 

In [66]:
df_homicidios_victimas.columns = df_homicidios_victimas.columns.str.lower()

Cambiamos el nombre de las columnas

In [67]:
df_homicidios_victimas.rename(columns={'edad': 'edad_victima','victima':'vehiculo_victima','sexo':'sexo_victima'}, inplace=True)

A las columnas 'rol', 'victima', 'sexo' y 'acusado' se les cambió el contenido de sus filas a minúsculas.

In [68]:
columnas_a_minusc = ['rol', 'vehiculo_victima', 'sexo_victima']
df_homicidios_victimas[columnas_a_minusc] = df_homicidios_victimas[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

In [69]:
df_homicidios_victimas

Unnamed: 0,id_hecho,fecha,rol,vehiculo_victima,sexo_victima,edad_victima
0,2016-0001,2016-01-01,conductor,moto,masculino,19.0
1,2016-0002,2016-01-02,conductor,auto,masculino,70.0
2,2016-0003,2016-01-03,conductor,moto,masculino,30.0
3,2016-0004,2016-01-10,conductor,moto,masculino,18.0
4,2016-0005,2016-01-21,conductor,moto,masculino,29.0
...,...,...,...,...,...,...
712,2021-0092,2021-12-12,peaton,peaton,femenino,50.0
713,2021-0093,2021-12-13,pasajero_acompañante,moto,femenino,18.0
714,2021-0094,2021-12-20,pasajero_acompañante,moto,femenino,43.0
715,2021-0095,2021-12-30,conductor,moto,masculino,27.0


In [70]:
df_homicidios_victimas['rol'].unique()

array(['conductor', 'pasajero_acompañante', 'peaton', 'nan', 'ciclista'],
      dtype=object)

In [71]:
df_homicidios_victimas['vehiculo_victima'].unique()

array(['moto', 'auto', 'peaton', 'nan', 'cargas', 'bicicleta',
       'pasajeros', 'movil'], dtype=object)

Cambiamos los datos de las columnas ``rol`` y ``vehiculo_victima``, siguiendo las indicaciones del diccionario

In [72]:
# Diccionario de correcciones
diccionario_correcciones_rol = {'pasajero_acompañante': 'pasajero', 'peaton': 'peatón'}
diccionario_correcciones_vehi_vic = {'peaton': 'peatón', 'movil': 'móvil'}
df_homicidios_victimas['rol'] = df_homicidios_victimas['rol'].replace(diccionario_correcciones_rol)
df_homicidios_victimas['vehiculo_victima'] = df_homicidios_victimas['vehiculo_victima'].replace(diccionario_correcciones_vehi_vic)

In [73]:
df_homicidios_victimas['gravedad'] = 'fatal'

In [74]:
df_homicidios_victimas.head()

Unnamed: 0,id_hecho,fecha,rol,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,2016-0001,2016-01-01,conductor,moto,masculino,19.0,fatal
1,2016-0002,2016-01-02,conductor,auto,masculino,70.0,fatal
2,2016-0003,2016-01-03,conductor,moto,masculino,30.0,fatal
3,2016-0004,2016-01-10,conductor,moto,masculino,18.0,fatal
4,2016-0005,2016-01-21,conductor,moto,masculino,29.0,fatal


# MERGE DE LOS DATAFRAMES

### DataFrame ``homicidios_hechos`` y ``homicidios_víctimas``

Integración de Datos: Fusión de Información sobre Homicidios Hechos y Víctimas

In [75]:
df_homicidios_combinado = pd.merge(homicidios_hechos, df_homicidios_victimas, how='inner', on='id_hecho')

In [76]:
df_homicidios_combinado.head()

Unnamed: 0,id_hecho,n_victimas,fecha_x,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad_x,fecha_y,rol,vehiculo_victima,sexo_victima,edad_victima,gravedad_y
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal,2016-01-01,conductor,moto,masculino,19.0,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal,2016-01-02,conductor,auto,masculino,70.0,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal,2016-01-03,conductor,moto,masculino,30.0,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal,2016-01-10,conductor,moto,masculino,18.0,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal,2016-01-21,conductor,moto,masculino,29.0,fatal


Refinamiento de Datos: Ajuste de columnas en el conjunto de datos de Homicidios Combinado, según el diccionario dado.

In [77]:
df_homicidios_combinado.drop(columns=['fecha_y', 'gravedad_y'], inplace=True)
df_homicidios_combinado.rename(columns={
    'fecha_x': 'fecha',
    'gravedad_x': 'gravedad',
    'hh': 'franja_hora',
    'longitud': 'pos_x',
    'latitud': 'pos_y',
    'vehiculo_victima': 'vehiculo_victima',  # Asumiendo que deseas conservar este nombre
    'sexo_victima': 'sexo_victima',
    'edad_victima': 'edad_victima'
    }, inplace=True)

In [78]:
df_homicidios_combinado.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,victima,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal,conductor,moto,masculino,19.0
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal,conductor,auto,masculino,70.0
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal,conductor,moto,masculino,30.0
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal,conductor,moto,masculino,18.0
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal,conductor,moto,masculino,29.0


In [79]:
# Eliminar la columna 'vehiculo_victima' de forma permanente
df_homicidios_combinado.drop('victima', axis=1, inplace=True)

Convertir las columnas a ``enteros`` y manejar los valores NaN

In [80]:
df_homicidios_combinado['franja_hora'] = df_homicidios_combinado['franja_hora'].astype('Int64')
df_homicidios_combinado['edad_victima'] = df_homicidios_combinado['edad_victima'].astype('Int64')

Convertir a tipo de datos ``categóricos``

In [81]:
df_homicidios_combinado['tipo_calle'] = df_homicidios_combinado['tipo_calle'].astype('category')
df_homicidios_combinado['comuna'] = df_homicidios_combinado['comuna'].astype('category')
df_homicidios_combinado['participantes'] = df_homicidios_combinado['participantes'].astype('category')
df_homicidios_combinado['acusado'] = df_homicidios_combinado['acusado'].astype('category')
df_homicidios_combinado['gravedad'] = df_homicidios_combinado['gravedad'].astype('category')
df_homicidios_combinado['rol'] = df_homicidios_combinado['rol'].astype('category')
df_homicidios_combinado['vehiculo_victima'] = df_homicidios_combinado['vehiculo_victima'].astype('category')
df_homicidios_combinado['sexo_victima'] = df_homicidios_combinado['sexo_victima'].astype('category')

Convertimos a tipo de dato ``datetime``

In [82]:
df_homicidios_combinado['fecha'] = pd.to_datetime(df_homicidios_combinado['fecha'], errors='coerce')

In [83]:
df_homicidios_combinado.to_csv('datos/homicidios_hechos_victimas.csv', index=False)

#### Tratando columnas ``franja_hora`` y `comuna`

In [84]:
nombre_columna = 'franja_hora'
filas_con_nulos = df_homicidios_combinado[df_homicidios_combinado[nombre_columna].isnull()]
filas_con_nulos

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
536,2019-0103,1,2019-12-18,,gral paz,11.0,-58.521694,-34.594716,moto-moto,moto,fatal,conductor,moto,masculino,24


Procedemos a imputar con la ``mediana`` el dato faltante en la columna ``franja_hora``, porque preferimos preservar la fila completa, ya que ese único dato faltante no afectará en gran manera

In [85]:
mediana_edad = df_homicidios_combinado['franja_hora'].median()
df_homicidios_combinado['franja_hora'] = df_homicidios_combinado['franja_hora'].fillna(mediana_edad)

In [86]:
nombre_columna = 'comuna'
filas_con_nulos = df_homicidios_combinado[df_homicidios_combinado[nombre_columna].isnull()]
filas_con_nulos

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
121,2016-0151,1,2016-11-18,20,calle,,,,peaton-sd,,fatal,peatón,peatón,,
141,2016-0174,1,2016-12-27,0,autopista,,,,sd-sd,,fatal,,,,


Procedemos a eliminar estas 2 filas, ya que la información en su mayoría de columnas es nula, no aportará mucho preservar estas columnas

In [87]:
filas_a_eliminar = [121, 141]
df_homicidios_combinado =df_homicidios_combinado.drop(filas_a_eliminar, axis=0)

In [88]:
df_homicidios_combinado.info()

<class 'pandas.core.frame.DataFrame'>
Index: 715 entries, 0 to 716
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   id_hecho          715 non-null    object        
 1   n_victimas        715 non-null    int64         
 2   fecha             715 non-null    datetime64[ns]
 3   franja_hora       715 non-null    Int64         
 4   tipo_calle        715 non-null    category      
 5   comuna            715 non-null    category      
 6   pos_x             704 non-null    float64       
 7   pos_y             704 non-null    float64       
 8   participantes     715 non-null    category      
 9   acusado           694 non-null    category      
 10  gravedad          715 non-null    category      
 11  rol               715 non-null    category      
 12  vehiculo_victima  715 non-null    category      
 13  sexo_victima      715 non-null    category      
 14  edad_victima      664 non-null 

#### Tratando columna `pos_x` y `pos_y`
Verificamos de manera general la información que tiene todas las columnas, cuya columna `pos_x` es nulo

In [89]:
nombre_columna = 'pos_x'
filas_con_nulos = df_homicidios_combinado[df_homicidios_combinado[nombre_columna].isnull()]
filas_con_nulos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
39,2016-0052,1,2016-04-20,20,autopista,13.0,,,moto-sd,,fatal,,moto,,
108,2016-0136,1,2016-10-25,0,autopista,4.0,,,moto-cargas,cargas,fatal,conductor,moto,,
182,2017-0042,1,2017-04-10,9,gral paz,14.0,,,moto-cargas,cargas,fatal,conductor,moto,masculino,
186,2017-0050,2,2017-04-28,11,autopista,9.0,,,moto-cargas,cargas,fatal,conductor,moto,masculino,46.0
187,2017-0050,2,2017-04-28,11,autopista,9.0,,,moto-cargas,cargas,fatal,pasajero,moto,masculino,16.0


Obteniendo la lista de códigos ``id_hecho`` donde las filas son nulas en **pos_x** y **pos_y**

In [90]:
nombre_columna = 'pos_x'
filas_con_nulos = df_homicidios_combinado[df_homicidios_combinado[nombre_columna].isnull()]
codigos_con_nulos = filas_con_nulos['id_hecho'].tolist()
print(codigos_con_nulos)

['2016-0052', '2016-0136', '2017-0042', '2017-0050', '2017-0050', '2017-0051', '2017-0140', '2018-0039', '2020-0026', '2020-0039', '2021-0023']


Traemos la base original, para poder obtener coordenas, usando la columna ``LUGAR_DEL_HECHO``, con la herramienta API de google

In [91]:
df_original = pd.read_excel('datos/homicidios.xlsx',sheet_name = 'HECHOS',na_values=['SD', 'sd'])

In [92]:
# Normalizamos los id_hecho, para ambos DF
df_original.rename(columns={'ID': 'id_hecho'}, inplace=True)

In [93]:
# Filtrar la base de datos original usando los códigos con nulos
df_original_filtrado = df_original[df_original['id_hecho'].isin(codigos_con_nulos)]
df_original_filtrado.head()

Unnamed: 0,id_hecho,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
38,2016-0052,1,2016-04-20,2016,4,20,20:00:00,20.0,AUTOPISTA LUGONES PK 10000,AUTOPISTA,"LUGONES, LEOPOLDO AV.",,,,13,Point (. .),.,.,MOTO-SD,MOTO,
106,2016-0136,1,2016-10-25,2016,10,25,00:00:00,0.0,AU BUENOS AIRES - LA PLATA KM. 4,AUTOPISTA,AUTOPISTA BUENOS AIRES - LA PLATA,,,,4,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
176,2017-0042,1,2017-04-10,2017,4,10,09:00:00,9.0,AV. LEOPOLDO LUGONES PKM 6900,GRAL PAZ,"LUGONES, LEOPOLDO AV.",,,"LUGONES, LEOPOLDO AV.",14,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
180,2017-0050,2,2017-04-28,2017,4,28,11:08:08,11.0,AU PERITO MORENO Y RAMAL ENLACE AU1/AU6,AUTOPISTA,AUTOPISTA PERITO MORENO,,,,9,Point (. .),.,.,MOTO-CARGAS,MOTO,CARGAS
181,2017-0051,1,2017-05-01,2017,5,1,03:47:47,3.0,AU DELLEPIANE 2400,AUTOPISTA,AUTOPISTA DELLEPIANE LUIS TTE. GRAL.,,,,7,Point (. .),.,.,AUTO-AUTO,AUTO,AUTO


Corroboramos cuantos datos se pudieron obtener sus coordenas y cuales faltaron

### Tratamos la columna `acusado`

In [94]:
if 'Desconocido' not in df_homicidios_combinado['acusado'].cat.categories:
    df_homicidios_combinado['acusado'] = df_homicidios_combinado['acusado'].cat.add_categories('Desconocido')

df_homicidios_combinado['acusado'] = df_homicidios_combinado['acusado'].fillna('Desconocido')
df_homicidios_combinado['acusado'].value_counts()

acusado
auto           210
pasajeros      178
cargas         150
objeto fijo     67
moto            58
Desconocido     21
multiple        17
bicicleta        7
otro             6
tren             1
Name: count, dtype: int64

### Tratamos las columna `rol`, `vehiculo_victima`, `sexo_victima`

In [95]:
columnas_categoricas = ['rol', 'vehiculo_victima', 'sexo_victima']

for columna in columnas_categoricas:
    if 'Desconocido' not in df_homicidios_combinado[columna].cat.categories:
        df_homicidios_combinado[columna] = df_homicidios_combinado[columna].cat.add_categories('Desconocido')
    
    df_homicidios_combinado[columna] = df_homicidios_combinado[columna].fillna('Desconocido')

In [96]:
df_homicidios_combinado.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
0,2016-0001,1,2016-01-01,4,avenida,8.0,-58.47534,-34.68757,moto-auto,auto,fatal,conductor,moto,masculino,19
1,2016-0002,1,2016-01-02,1,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,pasajeros,fatal,conductor,auto,masculino,70
2,2016-0003,1,2016-01-03,7,avenida,1.0,-58.390403,-34.631894,moto-auto,auto,fatal,conductor,moto,masculino,30
3,2016-0004,1,2016-01-10,0,avenida,8.0,-58.465039,-34.68093,moto-sd,Desconocido,fatal,conductor,moto,masculino,18
4,2016-0005,1,2016-01-21,5,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,pasajeros,fatal,conductor,moto,masculino,29


In [97]:
df_homicidios_combinado.to_csv('datos/lesiones_hechos_victimas.csv', index=False)

## DataFrame ``lesiones_hechos`` y ``lesiones_víctimas``

Integración de Datos: Fusión de Información sobre Homicidios Hechos y Víctimas

In [98]:
df_final_lesiones = pd.merge(df_lesiones, df_lesiones_victimas, on='id_hecho', how='inner')

In [99]:
df_final_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha_x,hh,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latitud,victima,acusado,participantes,gravedad_x,fecha_y,vehiculo_victima,sexo_victima,edad_victima,gravedad_y
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,ciclista,,ciclista-sd,leve,2019-01-01,,,,leve
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,auto,,auto-sd,leve,2019-01-01,,Masculino,57.0,leve
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,sd-sd,leve,2019-01-01,,,,leve
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,peatón,,peaton-sd,leve,2019-01-01,,Masculino,,leve
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,auto,,auto-sd,leve,2019-01-01,,Masculino,45.0,leve


In [100]:
# Eliminar columnas redundantes
df_final_lesiones = df_final_lesiones.drop(columns=['fecha_y', 'gravedad_y'])

# Renombrar columnas
df_final_lesiones.rename(columns={
    'fecha_x': 'fecha',
    'hh': 'franja_hora',
    'gravedad_x': 'gravedad',
    'longitud': 'pos_x',
    'latitud': 'pos_y',
}, inplace=True)

In [101]:
df_final_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,pos_x,pos_y,victima,acusado,participantes,gravedad,vehiculo_victima,sexo_victima,edad_victima
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,ciclista,,ciclista-sd,leve,,,
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,auto,,auto-sd,leve,,Masculino,57.0
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,sd-sd,leve,,,
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,peatón,,peaton-sd,leve,,Masculino,
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,auto,,auto-sd,leve,,Masculino,45.0


In [102]:
verificar(df_final_lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,franja_hora,"[int, NAType]",8,0.03
4,direccion_normalizada,"[float, str]",12696,46.0
5,comuna,"[int, NAType]",1624,5.88
6,tipo_calle,"[float, str]",12879,46.67
7,otra_direccion,"[str, float]",21138,76.59
8,calle,"[float, str]",12744,46.18
9,altura,[float],12847,46.55


In [103]:
nombre_columna = 'pos_x'
filas_con_nulos = df_final_lesiones[df_final_lesiones[nombre_columna].isnull()]
codigos_con_nulos = filas_con_nulos['id_hecho'].tolist()
print(codigos_con_nulos)

['LC-2019-0000928', 'LC-2019-0022496', 'LC-2019-0007634', 'LC-2019-0008283', 'LC-2019-0008283', 'LC-2019-0008974', 'LC-2019-0010983', 'LC-2019-0010983', 'LC-2019-0011092', 'LC-2019-0011335', 'LC-2019-0017186', 'LC-2019-0022256', 'LC-2019-0687058', 'LC-2019-0688515', 'LC-2019-0757409', 'LC-2019-0025134', 'LC-2019-0025021', 'LC-2019-0029566', 'LC-2019-0033845', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0033624', 'LC-2019-0036508', 'LC-2019-0037956', 'LC-2019-0037956', 'LC-2019-0039050', 'LC-2019-0039585', 'LC-2019-0044699', 'LC-2019-0047479', 'LC-2019-0047733', 'LC-2019-0049828', 'LC-2019-0073279', 'LC-2019-0049592', 'LC-2019-0050069', 'LC-2019-0050175', 'LC-2019-0050175', 'LC-2019-0050670', 'LC-2019-0051216', 'LC-2019-0051464', 'LC-2019-0051464', 'LC-2019-0051508', 'LC-2019-0053244', 'LC-2019-0056387', 'LC-2019-0056420', 'LC-2019-0056420', 'LC-2019-0057074', 'LC-2019-0057299', 'LC-2019-0059155', 'LC-2019-0060398', 'LC-2019-0060398', 'LC-2019-00

In [104]:
df_original = pd.read_excel('datos/lesiones.xlsx',sheet_name = 'HECHOS',na_values=['SD', 'sd'])
# Normalizamos los id_hecho, para ambos DF
df_original.rename(columns={'id': 'id_hecho'}, inplace=True)

In [105]:
verificar(df_final_lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,franja_hora,"[int, NAType]",8,0.03
4,direccion_normalizada,"[float, str]",12696,46.0
5,comuna,"[int, NAType]",1624,5.88
6,tipo_calle,"[float, str]",12879,46.67
7,otra_direccion,"[str, float]",21138,76.59
8,calle,"[float, str]",12744,46.18
9,altura,[float],12847,46.55


In [106]:
nombre_columna = 'pos_x'
filas_con_nulos2 = df_final_lesiones[df_final_lesiones[nombre_columna].isnull()]
codigos_con_nulos2 = filas_con_nulos2['id_hecho'].tolist()
print(codigos_con_nulos2)

['LC-2019-0000928', 'LC-2019-0022496', 'LC-2019-0007634', 'LC-2019-0008283', 'LC-2019-0008283', 'LC-2019-0008974', 'LC-2019-0010983', 'LC-2019-0010983', 'LC-2019-0011092', 'LC-2019-0011335', 'LC-2019-0017186', 'LC-2019-0022256', 'LC-2019-0687058', 'LC-2019-0688515', 'LC-2019-0757409', 'LC-2019-0025134', 'LC-2019-0025021', 'LC-2019-0029566', 'LC-2019-0033845', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0034229', 'LC-2019-0033624', 'LC-2019-0036508', 'LC-2019-0037956', 'LC-2019-0037956', 'LC-2019-0039050', 'LC-2019-0039585', 'LC-2019-0044699', 'LC-2019-0047479', 'LC-2019-0047733', 'LC-2019-0049828', 'LC-2019-0073279', 'LC-2019-0049592', 'LC-2019-0050069', 'LC-2019-0050175', 'LC-2019-0050175', 'LC-2019-0050670', 'LC-2019-0051216', 'LC-2019-0051464', 'LC-2019-0051464', 'LC-2019-0051508', 'LC-2019-0053244', 'LC-2019-0056387', 'LC-2019-0056420', 'LC-2019-0056420', 'LC-2019-0057074', 'LC-2019-0057299', 'LC-2019-0059155', 'LC-2019-0060398', 'LC-2019-0060398', 'LC-2019-00

In [107]:
verificar(df_final_lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,franja_hora,"[int, NAType]",8,0.03
4,direccion_normalizada,"[float, str]",12696,46.0
5,comuna,"[int, NAType]",1624,5.88
6,tipo_calle,"[float, str]",12879,46.67
7,otra_direccion,"[str, float]",21138,76.59
8,calle,"[float, str]",12744,46.18
9,altura,[float],12847,46.55


In [108]:
df_final_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,pos_x,pos_y,victima,acusado,participantes,gravedad,vehiculo_victima,sexo_victima,edad_victima
0,LC-2019-0000179,1,2019-01-01,9,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-58.408911,-34.559658,ciclista,,ciclista-sd,leve,,,
1,LC-2019-0000053,1,2019-01-01,1,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-58.44351,-34.669125,auto,,auto-sd,leve,,Masculino,57.0
2,LC-2019-0000063,1,2019-01-01,2,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-58.468335,-34.677556,,,sd-sd,leve,,,
3,LC-2019-0000079,1,2019-01-01,2,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-58.437425,-34.647349,peatón,,peaton-sd,leve,,Masculino,
4,LC-2019-0000082,4,2019-01-01,4,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-58.398225,-34.604579,auto,,auto-sd,leve,,Masculino,45.0


In [109]:
columnas_a_eliminar = ['direccion_normalizada', 'otra_direccion', 'calle', 'altura', 'cruce', 'geocodificacion_CABA', 'vehiculo_victima' ]
df_final_lesiones = df_final_lesiones.drop(columnas_a_eliminar, axis=1)

In [110]:
df_final_lesiones.head()

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,comuna,tipo_calle,pos_x,pos_y,victima,acusado,participantes,gravedad,sexo_victima,edad_victima
0,LC-2019-0000179,1,2019-01-01,9,14,,-58.408911,-34.559658,ciclista,,ciclista-sd,leve,,
1,LC-2019-0000053,1,2019-01-01,1,8,,-58.44351,-34.669125,auto,,auto-sd,leve,Masculino,57.0
2,LC-2019-0000063,1,2019-01-01,2,8,,-58.468335,-34.677556,,,sd-sd,leve,,
3,LC-2019-0000079,1,2019-01-01,2,7,,-58.437425,-34.647349,peatón,,peaton-sd,leve,Masculino,
4,LC-2019-0000082,4,2019-01-01,4,3,,-58.398225,-34.604579,auto,,auto-sd,leve,Masculino,45.0


## Guardar la data procesada en formato CSV

In [111]:
df_final_lesiones.to_csv('datos/lesiones_hechos_victimas.csv', index=False)