In [200]:
import pandas as pd
import numpy as np
import os
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
pd.set_option('display.max_columns', None)

In [201]:
data_directory = r'C:\Users\Isaac\Documents\Proyecto_Individual_2'
os.chdir(data_directory)

# ETL dataframe `LESIONES HECHOS`

In [202]:
# Carga del archivo
lesiones = pd.read_excel('datasets/raw/lesiones.xlsx', sheet_name='HECHOS', na_values=['SD', 'sd'])
lesiones

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,tipo_calle,otra_direccion,calle,altura,cruce,geocodificacion_CABA,longitud,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9.0,,14,,"Obligado Rafael, Av.Costanera 3300, Barrio: Pa...",,,,Point (104991.46333918849995825 107720.9664748...,-5.840891e+01,-3.455966e+01,CICLISTA,,CICLISTA-SD,,,,,x,
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1.0,,8,,"Autopista Presidente Héctor J. Cámpora y Roca,...",,,,Point (101813.84712503915943671 95578.55507230...,-5.844351e+01,-3.466913e+01,AUTO,,AUTO-SD,,x,,,,
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2.0,,8,,"Barros Pazos, Jose y Larraya 0, Barrio: Villa ...",,,,Point (99538.58660300650808495 94643.418717990...,-5.846834e+01,-3.467756e+01,,,SD-SD,,,,,,
3,LC-2019-0000079,1,2019,1,1,2019-01-01 00:00:00,02:30:00,2.0,,7,,"Torres Y Tenorio, Pres. y Riestra Av. 0, Barri...",,,,Point (102372.16830963784013875 97994.13750300...,-5.843742e+01,-3.464735e+01,PEATON,,PEATON-SD,x,,,,,
4,LC-2019-0000082,4,2019,1,1,2019-01-01 00:00:00,04:30:00,4.0,,3,,"Corrientes Av. y Uriburu Jose E., Pres. 0, Bar...",,,,Point (105968.98286849579017144 102737.1734686...,-5.839822e+01,-3.460458e+01,AUTO,,AUTO-SD,,,x,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
23780,LC-2021-0652849,1,2021,12,31,2021-12-31 00:00:00,19:30:00,19.0,"ALBERDI, JUAN BAUTISTA AV. y GUAMINI",9,AVENIDA,,"ALBERDI, JUAN BAUTISTA AV.",0.0,GUAMINI,Point (95400.5441905024 96621.6007711877),-5.851348e+01,-3.465971e+01,,,SD-SD,,,,,,
23781,LC-2021-0652865,2,2021,12,31,2021-12-31 00:00:00,19:40:00,19.0,"ALBERDI, JUAN BAUTISTA AV. 4436",9,AVENIDA,,"ALBERDI, JUAN BAUTISTA AV.",4436.0,,Point (97705.4491469278 98614.8825470092),-5.848833e+01,-3.464175e+01,,,SD-SD,,,,,,
23782,LC-2021-0652907,1,2021,12,31,2021-12-31 00:00:00,20:00:00,20.0,,1,,Barrio Padre Carlos Mugica (Villa 31 bis),,,,Point (107377.10694920316745993 105120.7873965...,-5.838289e+01,-3.458308e+01,,,SD-SD,,,,,,
23783,LC-2021-0652921,1,2021,12,31,2021-12-31 00:00:00,22:00:00,22.0,LINIERS VIRREY y MORENO,5,CALLE,,LINIERS VIRREY,0.0,MORENO,Point (104472.702045632 101660.930364258),-5.841453e+01,-3.461429e+01,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,x,0,x,0,0,GRAVE


Función que permetirá ir corroborando la integridad de nuestros datos

In [203]:
def resumen_tipos_de_datos(df):
    resumen = []
    total_filas = len(df)
    for col in df.columns:
        tipos_presentes = df[col].apply(lambda x: type(x).__name__).unique()
        cantidad_nulos = df[col].isnull().sum()
        porcentaje_nulos = round((cantidad_nulos / total_filas) * 100, 2)

        resumen.append({
            'Columna': col,
            'Tipos de Dato': tipos_presentes.tolist(),
            'Cantidad de Nulos': cantidad_nulos,
            '% de Nulos': porcentaje_nulos
        })
    return pd.DataFrame(resumen)


In [204]:
resumen_tipos_de_datos(lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id,[str],0,0.0
1,n_victimas,[int],0,0.0
2,aaaa,[int],0,0.0
3,mm,[int],0,0.0
4,dd,[int],0,0.0
5,fecha,"[datetime, str]",0,0.0
6,hora,"[time, float, str]",9,0.04
7,franja_hora,[float],9,0.04
8,direccion_normalizada,"[float, str]",10868,45.69
9,comuna,"[int, str, float]",1015,4.27


### 1. Eliminación de columnas

La columna 'fecha' se conservará, las columnas `aaaa`, `mm`, y `dd`, serán eliminados por ser considerados datos redundates.

In [205]:
lesiones.drop(columns=['aaaa','mm','dd'], inplace=True)

Eliminamos columna `hora`, para conservar la columna `franja_hora`, porque tiene la hora en entero, esto optimiza futuros análisis.

In [206]:
lesiones.drop(columns=['hora'],inplace=True)

Para la ubicación se utilizará las columnas `latitud` y `longitud`. Procederemos a eliminar las columnas relacionadas a direcciones.

In [207]:
lesiones.drop(columns=['otra_direccion','calle','altura','cruce','geocodificacion_CABA','direccion_normalizada'],inplace=True)

La columna `participantes`detalla la información sobre los involucrados en el incidente, por tanto, columnas para detallar la presencia de **moto**, **auto**, **transporte público**, **camión** y **ciclista** resultan redundantes. 

In [208]:
lesiones.drop(columns=['moto','auto','transporte_publico','camion','ciclista'],inplace=True)

In [209]:
# Corroboramos la integridad de nuestro DF
resumen_tipos_de_datos(lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,"[datetime, str]",0,0.0
3,franja_hora,[float],9,0.04
4,comuna,"[int, str, float]",1015,4.27
5,tipo_calle,"[float, str]",11045,46.44
6,longitud,[float],1471,6.18
7,latutid,[float],1471,6.18
8,victima,"[str, float]",10733,45.13
9,acusado,"[float, str]",15288,64.28


La columna `gravedad` muestra una cantidad alarmante de valores nulos. No obstante, al revisar el diccionario, se aclara que se debe considerar como gravedad `leve`.

In [210]:
lesiones['gravedad'] = lesiones['gravedad'].fillna('leve')

In [211]:
# Verificamos como va quedando el DF
df_lesiones_hechos = lesiones
df_lesiones_hechos

Unnamed: 0,id,n_victimas,fecha,franja_hora,comuna,tipo_calle,longitud,latutid,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01 00:00:00,9.0,14,,-5.840891e+01,-3.455966e+01,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01 00:00:00,1.0,8,,-5.844351e+01,-3.466913e+01,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01 00:00:00,2.0,8,,-5.846834e+01,-3.467756e+01,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01 00:00:00,2.0,7,,-5.843742e+01,-3.464735e+01,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01 00:00:00,4.0,3,,-5.839822e+01,-3.460458e+01,AUTO,,AUTO-SD,leve
...,...,...,...,...,...,...,...,...,...,...,...,...
23780,LC-2021-0652849,1,2021-12-31 00:00:00,19.0,9,AVENIDA,-5.851348e+01,-3.465971e+01,,,SD-SD,leve
23781,LC-2021-0652865,2,2021-12-31 00:00:00,19.0,9,AVENIDA,-5.848833e+01,-3.464175e+01,,,SD-SD,leve
23782,LC-2021-0652907,1,2021-12-31 00:00:00,20.0,1,,-5.838289e+01,-3.458308e+01,,,SD-SD,leve
23783,LC-2021-0652921,1,2021-12-31 00:00:00,22.0,5,CALLE,-5.841453e+01,-3.461429e+01,MOTO,TRANSPORTE PUBLICO,MOTO-TRANSPORTE PUBLICO,GRAVE


En la columna `comuna`, los datos 'No Especificada' serán convertidos a nulos. 

In [212]:
df_lesiones_hechos['comuna'] = df_lesiones_hechos['comuna'].replace('No Especificada', np.NaN)

### 2. Cambio de tipos de datos
Las columnas `franja_hora`, `tipo_calle`, `comuna` y ``acusado`` serán transformadas a tipo categórico.

In [213]:
# Normalizamos todos los valores nulos
mask = df_lesiones_hechos.applymap(lambda x: x == '<NA>')
df_lesiones_hechos[mask] = np.NaN

In [214]:
df_lesiones_hechos['tipo_calle'] = df_lesiones_hechos['tipo_calle'].astype('category')
df_lesiones_hechos['acusado'] = df_lesiones_hechos['acusado'].astype('category')

La columna ``fecha`` la convertiremos a formato fecha

In [215]:
df_lesiones_hechos['fecha'] = pd.to_datetime(df_lesiones_hechos['fecha'], errors='coerce')

La columna ``comuna`` y ``franja_hora`` la convertiremos a formato INT

In [216]:
df_lesiones_hechos['comuna'] = df_lesiones_hechos['comuna'].astype('Int64')
df_lesiones_hechos['franja_hora'] = df_lesiones_hechos['franja_hora'].astype('Int64')

In [217]:
df_lesiones_hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23785 entries, 0 to 23784
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             23785 non-null  object        
 1   n_victimas     23785 non-null  int64         
 2   fecha          23785 non-null  datetime64[ns]
 3   franja_hora    23776 non-null  Int64         
 4   comuna         22328 non-null  Int64         
 5   tipo_calle     12740 non-null  category      
 6   longitud       22314 non-null  float64       
 7   latutid        22314 non-null  float64       
 8   victima        13052 non-null  object        
 9   acusado        8497 non-null   category      
 10  participantes  23785 non-null  object        
 11  gravedad       23785 non-null  object        
dtypes: Int64(2), category(2), datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 1.9+ MB


### 3. Renombrar columnas

In [218]:
df_lesiones_hechos.head()

Unnamed: 0,id,n_victimas,fecha,franja_hora,comuna,tipo_calle,longitud,latutid,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,14,,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01,1,8,,-58.44351,-34.669125,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01,2,8,,-58.468335,-34.677556,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01,2,7,,-58.437425,-34.647349,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01,4,3,,-58.398225,-34.604579,AUTO,,AUTO-SD,leve


Cambiamos todos los nombres de las columnas, para poder darle un mejor seguimiento

In [219]:
df_lesiones_hechos = df_lesiones_hechos.rename(columns={'id':'id_hecho'})
df_lesiones_hechos = df_lesiones_hechos.rename(columns={'franja_hora':'hh'})
df_lesiones_hechos = df_lesiones_hechos.rename(columns={'latutid':'latitud'})

In [220]:
df_lesiones_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,comuna,tipo_calle,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,14,,-58.408911,-34.559658,CICLISTA,,CICLISTA-SD,leve
1,LC-2019-0000053,1,2019-01-01,1,8,,-58.44351,-34.669125,AUTO,,AUTO-SD,leve
2,LC-2019-0000063,1,2019-01-01,2,8,,-58.468335,-34.677556,,,SD-SD,leve
3,LC-2019-0000079,1,2019-01-01,2,7,,-58.437425,-34.647349,PEATON,,PEATON-SD,leve
4,LC-2019-0000082,4,2019-01-01,4,3,,-58.398225,-34.604579,AUTO,,AUTO-SD,leve


In [221]:
# Transformar a minúsculas las columnas en df_lesiones_hechos
columnas_a_minusc = ['tipo_calle', 'gravedad', 'victima', 'acusado', 'participantes']
df_lesiones_hechos[columnas_a_minusc] = df_lesiones_hechos[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

# Correciones ortográficas
mapeo_correcciones_victima_lesiones = {'peaton': 'peatón','transporte publico': 'transporte público','movil': 'móvil','otro': 'otro',
'camion': 'camión','monopatin': 'monopatín','utilitario': 'utilitario'}
df_lesiones_hechos['victima'] = df_lesiones_hechos['victima'].replace(mapeo_correcciones_victima_lesiones)

In [222]:
df_lesiones_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,comuna,tipo_calle,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,14,,-58.408911,-34.559658,ciclista,,ciclista-sd,leve
1,LC-2019-0000053,1,2019-01-01,1,8,,-58.44351,-34.669125,auto,,auto-sd,leve
2,LC-2019-0000063,1,2019-01-01,2,8,,-58.468335,-34.677556,,,sd-sd,leve
3,LC-2019-0000079,1,2019-01-01,2,7,,-58.437425,-34.647349,peatón,,peaton-sd,leve
4,LC-2019-0000082,4,2019-01-01,4,3,,-58.398225,-34.604579,auto,,auto-sd,leve


In [223]:
df_lesiones_hechos.replace('nan', np.nan, inplace=True)

In [224]:
df_lesiones_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,comuna,tipo_calle,longitud,latitud,victima,acusado,participantes,gravedad
0,LC-2019-0000179,1,2019-01-01,9,14,,-58.408911,-34.559658,ciclista,,ciclista-sd,leve
1,LC-2019-0000053,1,2019-01-01,1,8,,-58.44351,-34.669125,auto,,auto-sd,leve
2,LC-2019-0000063,1,2019-01-01,2,8,,-58.468335,-34.677556,,,sd-sd,leve
3,LC-2019-0000079,1,2019-01-01,2,7,,-58.437425,-34.647349,peatón,,peaton-sd,leve
4,LC-2019-0000082,4,2019-01-01,4,3,,-58.398225,-34.604579,auto,,auto-sd,leve


# ETL dataframe ``LESIONES-VICTIMAS``

In [225]:
# Carga del archivo
df_lesiones_victimas = pd.read_excel('datasets/raw/lesiones.xlsx', sheet_name='VICTIMAS', na_values=['SD', 'sd'])
df_lesiones_victimas

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,,Varon,57.0,
1,LC-2019-0000063,2019,1,1,2019-01-01,,,,
2,LC-2019-0000079,2019,1,1,2019-01-01,,Varon,,
3,LC-2019-0000082,2019,1,1,2019-01-01,,Varon,45.0,
4,LC-2019-0000082,2019,1,1,2019-01-01,,Mujer,45.0,
...,...,...,...,...,...,...,...,...,...
27600,LC-2021-0451911,2021,9,11,2021-09-11,TRANSPORTE PUBLICO,Varon,87.0,
27601,LC-2021-0530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,60.0,
27602,LC-2021-0530228,2021,10,25,2021-10-25,TRANSPORTE PUBLICO,Mujer,32.0,
27603,LC-2021-0201378,2021,5,2,2021-05-02,MOTO,Varon,32.0,


La columna ``FECHA`` será conservada, las columnas **AAA**, **DD**, y **MM** serán eliminadas, por ser información redundate.

In [226]:
df_lesiones_victimas.drop(columns=['AAA','MM','DD'],inplace=True)

In [227]:
resumen_tipos_de_datos(df_lesiones_victimas)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID hecho,[str],0,0.0
1,FECHA,[Timestamp],0,0.0
2,VEHICULO_VICTIMA,"[float, str]",16272,58.95
3,SEXO,"[str, float]",2228,8.07
4,EDAD_VICTIMA,[float],4471,16.2
5,GRAVEDAD,"[float, str]",27068,98.05


La columna `gravedad` muestra una cantidad alarmante de valores nulos. No obstante, al revisar el diccionario, se aclara que se debe considerar como gravedad `leve`.

In [228]:
df_lesiones_victimas['GRAVEDAD'] = df_lesiones_victimas['GRAVEDAD'].fillna('leve')

### 1. Cambio de tipo de datos

Conversión columnas ``VEHICULO_VICTIMA``, ``GRAVEDAD`` y ``SEXO`` a tipo categórico

In [229]:
# Cambio a tipo categórico
df_lesiones_victimas['VEHICULO_VICTIMA'] = df_lesiones_victimas['VEHICULO_VICTIMA'].astype('category')
df_lesiones_victimas['GRAVEDAD'] = df_lesiones_victimas['GRAVEDAD'].astype('category')
df_lesiones_victimas['SEXO'] = df_lesiones_victimas['SEXO'].astype('category')

Conversión columna `EDAD_VICTIMA` a tipo INT, para facilitar su posterior análisis

In [230]:
df_lesiones_victimas['EDAD_VICTIMA'] = df_lesiones_victimas['EDAD_VICTIMA'].astype('Int64')

In [231]:
df_lesiones_victimas.head()

Unnamed: 0,ID hecho,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019-01-01,,Varon,57.0,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Varon,,leve
3,LC-2019-0000082,2019-01-01,,Varon,45.0,leve
4,LC-2019-0000082,2019-01-01,,Mujer,45.0,leve


### 2. Renombrar Columnas
Renombrar columnas del DF ``df_lesiones_victimas`` para la concordancia con el DF ``df_lesiones_hechos``

In [232]:
# Convertimos todo a minúsculas
df_lesiones_victimas.columns = df_lesiones_victimas.columns.str.lower()
df_lesiones_victimas.rename(columns={'id hecho': 'id_hecho', 'fecha ': 'fecha', 'sexo': 'sexo_victima'}, inplace=True)

In [233]:
df_lesiones_victimas

Unnamed: 0,id_hecho,fecha,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,LC-2019-0000053,2019-01-01,,Varon,57,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Varon,,leve
3,LC-2019-0000082,2019-01-01,,Varon,45,leve
4,LC-2019-0000082,2019-01-01,,Mujer,45,leve
...,...,...,...,...,...,...
27600,LC-2021-0451911,2021-09-11,TRANSPORTE PUBLICO,Varon,87,leve
27601,LC-2021-0530228,2021-10-25,TRANSPORTE PUBLICO,Mujer,60,leve
27602,LC-2021-0530228,2021-10-25,TRANSPORTE PUBLICO,Mujer,32,leve
27603,LC-2021-0201378,2021-05-02,MOTO,Varon,32,leve


### 3. Renombrar datos de las columnas

In [234]:
df_lesiones_victimas['sexo_victima'].unique()

['Varon', NaN, 'Mujer', 'varon', 'mujer', 'MUJER', 'Mujer ']
Categories (6, object): ['MUJER', 'Mujer', 'Mujer ', 'Varon', 'mujer', 'varon']

In [235]:
# Mapeo de categorías
mapeo_sexo = {'Varon': 'Masculino', 'varon': 'Masculino', 'Mujer': 'Femenino', 'mujer': 'Femenino', 'MUJER': 'Femenino', 'Mujer ': 'Femenino'}
# Aplicar el mapeo a la columna 'sexo_victima'
df_lesiones_victimas['sexo_victima'] = df_lesiones_victimas['sexo_victima'].map(mapeo_sexo, na_action='ignore')

In [236]:
df_lesiones_victimas['sexo_victima'].unique()

array(['Masculino', nan, 'Femenino'], dtype=object)

Corregimos la ortografía de la columna ``vehiculo_victima``

In [237]:
# Diccionario dado:
diccionario_correcciones = {'movil': 'móvil','camion': 'camión','monopatin': 'monopatín','peaton':'peatón',
                            'transporte publico':'transporte público'}
# Correción acorde al diccionario
df_lesiones_victimas['vehiculo_victima'] = df_lesiones_victimas['vehiculo_victima'].replace(diccionario_correcciones.keys(), diccionario_correcciones.values(), regex=True)

In [238]:
# Convertimos los valores 'nan' en valores nulos
df_lesiones_victimas.replace('nan', np.nan, inplace=True)

In [239]:
df_lesiones_victimas.head()

Unnamed: 0,id_hecho,fecha,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,LC-2019-0000053,2019-01-01,,Masculino,57.0,leve
1,LC-2019-0000063,2019-01-01,,,,leve
2,LC-2019-0000079,2019-01-01,,Masculino,,leve
3,LC-2019-0000082,2019-01-01,,Masculino,45.0,leve
4,LC-2019-0000082,2019-01-01,,Femenino,45.0,leve


# ETL dataframe ``HOMICIDIOS-HECHOS``

In [240]:
homicidios_hechos= pd.read_excel('datasets/raw/homicidios.xlsx',sheet_name = 'HECHOS',na_values=['SD', 'sd'])

In [241]:
homicidios_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4.0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1.0,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7.0,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0.0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5.0,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


### 1. Eliminación de columnas
La columna `FECHA` será conservada, las columnas **AAAA**, **DD**, y **MM**, serán eliminadas por ser consideradas información redundate.

In [242]:
homicidios_hechos.drop(columns=['AAAA','DD','MM'],inplace=True)

La columna ``HH``, que representa la hora entera, será conservada, mientras que la columna **HORA**, que incluye los minutos, será eliminada.

In [243]:
homicidios_hechos.drop(columns=['HORA'],inplace=True)

Para la ubicación del hecho, se ha decidido utilizar las columnas `pos X` y `pos Y`, procedemos a eliminar las demas columnas que hacen referencia a ubicación.

In [244]:
homicidios_hechos.drop(columns=['LUGAR_DEL_HECHO','Calle','Altura','Cruce','Dirección Normalizada','XY (CABA)'],inplace=True)

### 2. Valores Nulos
Calcular el porcentaje de valores nulos por columnas

In [245]:
resumen_tipos_de_datos(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID,[str],0,0.0
1,N_VICTIMAS,[int],0,0.0
2,FECHA,[Timestamp],0,0.0
3,HH,[float],1,0.14
4,TIPO_DE_CALLE,[str],0,0.0
5,COMUNA,[int],0,0.0
6,pos x,[str],0,0.0
7,pos y,[str],0,0.0
8,PARTICIPANTES,[str],0,0.0
9,VICTIMA,"[str, float]",9,1.29


El porcentaje de valores nulos en el conjunto de datos es bajo, afectando solo a 3 columnas. Sin embargo, se identificaron irregularidades en la columna de "Comuna", donde la presencia de "Comuna 0" indica una inconsistencia, ya que las comunas deben estar en el rango de 1 a 15. Estos casos también serán tratados como valores nulos. Además, se observaron puntos en las columnas "Pos X" y "Pos Y", y se decidirá reemplazarlos por valores nulos para mantener la consistencia en la representación de coordenadas geográficas.

In [246]:
# Reemplazo de la Comuna 0 por Valores Nulos
homicidios_hechos.loc[homicidios_hechos['COMUNA'] == 0, 'COMUNA'] = np.nan

# Reemplazo de los '.' por valores nulos de las columnas pos x y pos y
homicidios_hechos.loc[homicidios_hechos['pos x'] == '.' ,'pos x'] = np.nan
homicidios_hechos.loc[homicidios_hechos['pos y'] == '.' ,'pos y'] = np.nan

In [247]:
resumen_tipos_de_datos(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID,[str],0,0.0
1,N_VICTIMAS,[int],0,0.0
2,FECHA,[Timestamp],0,0.0
3,HH,[float],1,0.14
4,TIPO_DE_CALLE,[str],0,0.0
5,COMUNA,[float],2,0.29
6,pos x,"[str, float]",12,1.72
7,pos y,"[str, float]",12,1.72
8,PARTICIPANTES,[str],0,0.0
9,VICTIMA,"[str, float]",9,1.29


### 3. Cambio de tipo de datos
Las columnas ``HH``, ``TIPO_DE_CALLE``, ``COMUNA`` y ``ACUSADO`` las pasaremos a tipo **CATEGORY**

In [248]:
homicidios_hechos['HH'] = homicidios_hechos['HH'].astype('category')
homicidios_hechos['TIPO_DE_CALLE'] = homicidios_hechos['TIPO_DE_CALLE'].astype('category')
homicidios_hechos['COMUNA'] = homicidios_hechos['COMUNA'].astype('category')
homicidios_hechos['ACUSADO'] = homicidios_hechos['ACUSADO'].astype('category')

Las columnas 'pos X' y 'pos Y' serán transformadas al tipo **FLOAT**

In [249]:
homicidios_hechos['pos x'] = homicidios_hechos['pos x'].astype('float')
homicidios_hechos['pos y'] = homicidios_hechos['pos y'].astype('float')

### 4. Renombrar columnas

In [250]:
# Pasamos a minúscilas todos los encabezados
homicidios_hechos.columns = homicidios_hechos.columns.str.lower()

Renombrar columnas: ``id``, ``pos x`` y ``pos y``

In [251]:
homicidios_hechos.rename(columns={'id': 'id_hecho', 'pos x': 'longitud', 'pos y': 'latitud','tipo_de_calle':'tipo_calle'}, inplace=True)

Pasar a minúsculas el contenido de las columnas `tipo_calle`, `participantes`, `victima` y `acusado`

In [252]:
columnas_a_minusc = ['tipo_calle', 'participantes', 'victima', 'acusado']
homicidios_hechos[columnas_a_minusc] = homicidios_hechos[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

In [253]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros


In [254]:
# Convertimos los nan a valores nulos
homicidios_hechos.replace('nan', np.nan, inplace=True)

Creamos la columna 'gravedad' y asignamos el valor 'fatal'

In [255]:
homicidios_hechos['gravedad']='fatal'

In [256]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal


Cambiar el contenido de la columna **victima**, según el diccionario dado.

In [257]:
mapeo_correcciones_victima = {'peaton': 'peatón','movil': 'móvil'}
homicidios_hechos['victima'] = homicidios_hechos['victima'].replace(mapeo_correcciones_victima)

In [258]:
homicidios_hechos.head()

Unnamed: 0,id_hecho,n_victimas,fecha,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.47534,-34.68757,moto-auto,moto,auto,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.68093,moto-sd,moto,,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal


In [259]:
resumen_tipos_de_datos(homicidios_hechos)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,hh,"[float, nan]",1,0.14
4,tipo_calle,[str],0,0.0
5,comuna,"[float, nan]",2,0.29
6,longitud,[float],12,1.72
7,latitud,[float],12,1.72
8,participantes,[str],0,0.0
9,victima,"[str, float]",9,1.29


# ETL dataframe ``HOMICIDIOS-VICTIMAS``

In [260]:
df_homicidios_victimas= pd.read_excel('datasets/raw/homicidios.xlsx',sheet_name = 'VICTIMAS',na_values=['SD', 'sd'])

In [261]:
df_homicidios_victimas.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19.0,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70.0,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30.0,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18.0,
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29.0,2016-02-01 00:00:00


### 1. Eliminación de columnas
La columna `FECHA` será conservada, las columnas **AAAA**, **DD**, y **MM**, serán eliminadas por ser consideradas información redundate.

In [262]:
df_homicidios_victimas.drop(columns=['AAAA','MM','DD','FECHA_FALLECIMIENTO'],inplace=True)

### 2. Valores nulos

In [263]:
resumen_tipos_de_datos(df_homicidios_victimas)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,ID_hecho,[str],0,0.0
1,FECHA,[Timestamp],0,0.0
2,ROL,"[str, float]",11,1.53
3,VICTIMA,"[str, float]",9,1.26
4,SEXO,"[str, float]",6,0.84
5,EDAD,[float],53,7.39


### 3. Cambio de tipo de datos
Conversión de columnas ``ROL``, ``VICTIMA`` y ``SEXO`` a tipo categórico

In [264]:
df_homicidios_victimas['ROL'] = df_homicidios_victimas['ROL'].astype('category')
df_homicidios_victimas['VICTIMA'] = df_homicidios_victimas['VICTIMA'].astype('category')
df_homicidios_victimas['SEXO'] = df_homicidios_victimas['SEXO'].astype('category')

### 4. Renombrar columnas
Todos los nombres de las columnas serán convertidos a minúsculas. 

In [265]:
df_homicidios_victimas.columns = df_homicidios_victimas.columns.str.lower()

Cambiamos el nombre de las columnas

In [266]:
df_homicidios_victimas.rename(columns={'edad': 'edad_victima','victima':'vehiculo_victima','sexo':'sexo_victima'}, inplace=True)

A las columnas 'rol', 'victima', 'sexo' y 'acusado' se les cambió el contenido de sus filas a minúsculas.

In [267]:
columnas_a_minusc = ['rol', 'vehiculo_victima', 'sexo_victima']
df_homicidios_victimas[columnas_a_minusc] = df_homicidios_victimas[columnas_a_minusc].apply(lambda x: x.astype(str).str.lower())

In [268]:
df_homicidios_victimas

Unnamed: 0,id_hecho,fecha,rol,vehiculo_victima,sexo_victima,edad_victima
0,2016-0001,2016-01-01,conductor,moto,masculino,19.0
1,2016-0002,2016-01-02,conductor,auto,masculino,70.0
2,2016-0003,2016-01-03,conductor,moto,masculino,30.0
3,2016-0004,2016-01-10,conductor,moto,masculino,18.0
4,2016-0005,2016-01-21,conductor,moto,masculino,29.0
...,...,...,...,...,...,...
712,2021-0092,2021-12-12,peaton,peaton,femenino,50.0
713,2021-0093,2021-12-13,pasajero_acompañante,moto,femenino,18.0
714,2021-0094,2021-12-20,pasajero_acompañante,moto,femenino,43.0
715,2021-0095,2021-12-30,conductor,moto,masculino,27.0


In [269]:
df_homicidios_victimas['rol'].unique()

array(['conductor', 'pasajero_acompañante', 'peaton', 'nan', 'ciclista'],
      dtype=object)

In [270]:
df_homicidios_victimas['vehiculo_victima'].unique()

array(['moto', 'auto', 'peaton', 'nan', 'cargas', 'bicicleta',
       'pasajeros', 'movil'], dtype=object)

Cambiamos los datos de las columnas ``rol`` y ``vehiculo_victima``, siguiendo las indicaciones del diccionario

In [271]:
# Diccionario de correcciones
diccionario_correcciones_rol = {'pasajero_acompañante': 'pasajero', 'peaton': 'peatón'}
diccionario_correcciones_vehi_vic = {'peaton': 'peatón', 'movil': 'móvil'}
df_homicidios_victimas['rol'] = df_homicidios_victimas['rol'].replace(diccionario_correcciones_rol)
df_homicidios_victimas['vehiculo_victima'] = df_homicidios_victimas['vehiculo_victima'].replace(diccionario_correcciones_vehi_vic)

In [272]:
df_homicidios_victimas['gravedad'] = 'fatal'

In [273]:
df_homicidios_victimas.head()

Unnamed: 0,id_hecho,fecha,rol,vehiculo_victima,sexo_victima,edad_victima,gravedad
0,2016-0001,2016-01-01,conductor,moto,masculino,19.0,fatal
1,2016-0002,2016-01-02,conductor,auto,masculino,70.0,fatal
2,2016-0003,2016-01-03,conductor,moto,masculino,30.0,fatal
3,2016-0004,2016-01-10,conductor,moto,masculino,18.0,fatal
4,2016-0005,2016-01-21,conductor,moto,masculino,29.0,fatal


# CONCATENACIÓN DE LOS DATAFRAMES

### DataFrame ``homicidios_hechos`` y ``homicidios_víctimas``

Integración de Datos: Fusión de Información sobre Homicidios Hechos y Víctimas

In [274]:
df_homicidios_combinado = pd.merge(homicidios_hechos, df_homicidios_victimas, how='inner', on='id_hecho')

In [275]:
df_homicidios_combinado

Unnamed: 0,id_hecho,n_victimas,fecha_x,hh,tipo_calle,comuna,longitud,latitud,participantes,victima,acusado,gravedad_x,fecha_y,rol,vehiculo_victima,sexo_victima,edad_victima,gravedad_y
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.475340,-34.687570,moto-auto,moto,auto,fatal,2016-01-01,conductor,moto,masculino,19.0,fatal
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal,2016-01-02,conductor,auto,masculino,70.0,fatal
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal,2016-01-03,conductor,moto,masculino,30.0,fatal
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.680930,moto-sd,moto,,fatal,2016-01-10,conductor,moto,masculino,18.0,fatal
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal,2016-01-21,conductor,moto,masculino,29.0,fatal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,17.0,avenida,7.0,-58.433538,-34.645616,moto-auto,moto,auto,fatal,2021-12-13,pasajero,moto,femenino,18.0,fatal
713,2021-0094,1,2021-12-20,1.0,autopista,9.0,-58.467398,-34.651178,moto-auto,moto,auto,fatal,2021-12-20,pasajero,moto,femenino,43.0,fatal
714,2021-0095,1,2021-12-30,0.0,avenida,11.0,-58.472934,-34.619847,moto-cargas,moto,cargas,fatal,2021-12-30,conductor,moto,masculino,27.0,fatal
715,2021-0096,1,2021-12-15,10.0,avenida,9.0,-58.470668,-34.650217,auto-cargas,auto,cargas,fatal,2021-12-15,conductor,auto,masculino,60.0,fatal


Refinamiento de Datos: Ajuste de columnas en el conjunto de datos de Homicidios Combinado, según el diccionario dado.

In [276]:
df_homicidios_combinado.drop(columns=['fecha_y', 'gravedad_y'], inplace=True)
df_homicidios_combinado.rename(columns={
    'fecha_x': 'fecha',
    'gravedad_x': 'gravedad',
    'hh': 'franja_hora',
    'longitud': 'pos_x',
    'latitud': 'pos_y',
    'vehiculo_victima': 'vehiculo_victima',  # Asumiendo que deseas conservar este nombre
    'sexo_victima': 'sexo_victima',
    'edad_victima': 'edad_victima'
    }, inplace=True)

In [277]:
df_homicidios_combinado

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,tipo_calle,comuna,pos_x,pos_y,participantes,victima,acusado,gravedad,rol,vehiculo_victima,sexo_victima,edad_victima
0,2016-0001,1,2016-01-01,4.0,avenida,8.0,-58.475340,-34.687570,moto-auto,moto,auto,fatal,conductor,moto,masculino,19.0
1,2016-0002,1,2016-01-02,1.0,gral paz,9.0,-58.508775,-34.669777,auto-pasajeros,auto,pasajeros,fatal,conductor,auto,masculino,70.0
2,2016-0003,1,2016-01-03,7.0,avenida,1.0,-58.390403,-34.631894,moto-auto,moto,auto,fatal,conductor,moto,masculino,30.0
3,2016-0004,1,2016-01-10,0.0,avenida,8.0,-58.465039,-34.680930,moto-sd,moto,,fatal,conductor,moto,masculino,18.0
4,2016-0005,1,2016-01-21,5.0,avenida,1.0,-58.387183,-34.622466,moto-pasajeros,moto,pasajeros,fatal,conductor,moto,masculino,29.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,17.0,avenida,7.0,-58.433538,-34.645616,moto-auto,moto,auto,fatal,pasajero,moto,femenino,18.0
713,2021-0094,1,2021-12-20,1.0,autopista,9.0,-58.467398,-34.651178,moto-auto,moto,auto,fatal,pasajero,moto,femenino,43.0
714,2021-0095,1,2021-12-30,0.0,avenida,11.0,-58.472934,-34.619847,moto-cargas,moto,cargas,fatal,conductor,moto,masculino,27.0
715,2021-0096,1,2021-12-15,10.0,avenida,9.0,-58.470668,-34.650217,auto-cargas,auto,cargas,fatal,conductor,auto,masculino,60.0


In [278]:
df_homicidios_combinado.to_csv('datasets/homicidios_hechos_victimas.csv', index=False)

### DataFrame ``lesiones_hechos`` y ``lesiones_víctimas``

Integración de Datos: Fusión de Información sobre Homicidios Hechos y Víctimas

In [279]:
df_final_lesiones = pd.merge(df_lesiones_hechos, df_lesiones_victimas, on='id_hecho', how='inner')

In [280]:
df_final_lesiones

Unnamed: 0,id_hecho,n_victimas,fecha_x,hh,comuna,tipo_calle,longitud,latitud,victima,acusado,participantes,gravedad_x,fecha_y,vehiculo_victima,sexo_victima,edad_victima,gravedad_y
0,LC-2019-0000179,1,2019-01-01,9,14,,-5.840891e+01,-3.455966e+01,ciclista,,ciclista-sd,leve,2019-01-01,,,,leve
1,LC-2019-0000053,1,2019-01-01,1,8,,-5.844351e+01,-3.466913e+01,auto,,auto-sd,leve,2019-01-01,,Masculino,57,leve
2,LC-2019-0000063,1,2019-01-01,2,8,,-5.846834e+01,-3.467756e+01,,,sd-sd,leve,2019-01-01,,,,leve
3,LC-2019-0000079,1,2019-01-01,2,7,,-5.843742e+01,-3.464735e+01,peatón,,peaton-sd,leve,2019-01-01,,Masculino,,leve
4,LC-2019-0000082,4,2019-01-01,4,3,,-5.839822e+01,-3.460458e+01,auto,,auto-sd,leve,2019-01-01,,Masculino,45,leve
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27593,LC-2021-0652865,2,2021-12-31,19,9,avenida,-5.848833e+01,-3.464175e+01,,,sd-sd,leve,2021-12-31,,Masculino,28,leve
27594,LC-2021-0652865,2,2021-12-31,19,9,avenida,-5.848833e+01,-3.464175e+01,,,sd-sd,leve,2021-12-31,,Masculino,52,leve
27595,LC-2021-0652907,1,2021-12-31,20,1,,-5.838289e+01,-3.458308e+01,,,sd-sd,leve,2021-12-31,,Masculino,23,leve
27596,LC-2021-0652921,1,2021-12-31,22,5,calle,-5.841453e+01,-3.461429e+01,moto,transporte publico,moto-transporte publico,grave,2021-12-31,MOTO,Masculino,31,GRAVE


In [281]:
# Eliminar columnas redundantes
df_final_lesiones = df_final_lesiones.drop(columns=['fecha_y', 'gravedad_y'])

# Renombrar columnas
df_final_lesiones.rename(columns={
    'fecha_x': 'fecha',
    'hh': 'franja_hora',
    'gravedad_x': 'gravedad',
    'longitud': 'pos_x',
    'latitud': 'pos_y',
}, inplace=True)

In [282]:
df_final_lesiones

Unnamed: 0,id_hecho,n_victimas,fecha,franja_hora,comuna,tipo_calle,pos_x,pos_y,victima,acusado,participantes,gravedad,vehiculo_victima,sexo_victima,edad_victima
0,LC-2019-0000179,1,2019-01-01,9,14,,-5.840891e+01,-3.455966e+01,ciclista,,ciclista-sd,leve,,,
1,LC-2019-0000053,1,2019-01-01,1,8,,-5.844351e+01,-3.466913e+01,auto,,auto-sd,leve,,Masculino,57
2,LC-2019-0000063,1,2019-01-01,2,8,,-5.846834e+01,-3.467756e+01,,,sd-sd,leve,,,
3,LC-2019-0000079,1,2019-01-01,2,7,,-5.843742e+01,-3.464735e+01,peatón,,peaton-sd,leve,,Masculino,
4,LC-2019-0000082,4,2019-01-01,4,3,,-5.839822e+01,-3.460458e+01,auto,,auto-sd,leve,,Masculino,45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27593,LC-2021-0652865,2,2021-12-31,19,9,avenida,-5.848833e+01,-3.464175e+01,,,sd-sd,leve,,Masculino,28
27594,LC-2021-0652865,2,2021-12-31,19,9,avenida,-5.848833e+01,-3.464175e+01,,,sd-sd,leve,,Masculino,52
27595,LC-2021-0652907,1,2021-12-31,20,1,,-5.838289e+01,-3.458308e+01,,,sd-sd,leve,,Masculino,23
27596,LC-2021-0652921,1,2021-12-31,22,5,calle,-5.841453e+01,-3.461429e+01,moto,transporte publico,moto-transporte publico,grave,MOTO,Masculino,31


In [283]:
resumen_tipos_de_datos(df_final_lesiones)

Unnamed: 0,Columna,Tipos de Dato,Cantidad de Nulos,% de Nulos
0,id_hecho,[str],0,0.0
1,n_victimas,[int],0,0.0
2,fecha,[Timestamp],0,0.0
3,franja_hora,[float],8,0.03
4,comuna,[float],1624,5.88
5,tipo_calle,"[float, str]",12879,46.67
6,pos_x,[float],1656,6.0
7,pos_y,[float],1656,6.0
8,victima,"[str, float]",12822,46.46
9,acusado,"[float, str]",17918,64.92


## Guardar la data procesada en formato CSV

In [284]:
df_final_lesiones.to_csv('datasets/lesiones_hechos_victimas.csv', index=False)