## ETL (Extract, Load, Transform)

En este proceso de ETL (extracción, transformación y carga), nos enfocaremos en explorar los conjuntos de datos proporcionados en formato xlsx, específicamente 'homicidios.xlsx' y 'lesiones.xlsx'. Cada archivo consta de dos hojas: 'HECHOS' y 'VICTIMAS'. El propósito es comprender cada dato presente en estos conjuntos y realizar un análisis que nos permita tomar acciones para mitigar las pérdidas humanas en las diversas carreteras de la Ciudad de Buenos Aires, Argentina.

 1.Importar Librerías

In [35]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

### 2. Carga, lectura y visualización de datos

### 2.1 Dataset Homicidios-Hechos

In [36]:
# Definir la ruta del archivo Excel
path = 'homicidios.xlsx'
# Leer el archivo Excel con dos hojas ('HECHOS' y 'VICTIMAS')
df_homicidios = pd.read_excel(path, sheet_name=['HECHOS', 'VICTIMAS'])
# Acceder al DataFrame correspondiente a la hoja 'HECHOS'
df_homicidios_hechos = df_homicidios['HECHOS']

In [37]:
# Mostrar las primeras filas del DataFrame 'HECHOS'
df_homicidios_hechos.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [38]:
# Obtener información general del DataFrame
df_homicidios_hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

In [39]:
# Se reemplazan los 'SD' por NaN en todo el DataFrame
df_homicidios_hechos.replace(['SD','sd'], np.nan, inplace=True)


Optamos por excluir las columnas 'AAAA', 'MM', 'DD', 'HORA', 'LUGAR_DEL_HECHO', 'Calle', 'Altura', 'Cruce', 'Dirección Normalizada', 'XY (CABA)' y 'PARTICIPANTES' debido a la redundancia de la información que ya está presente de manera más precisa en otras columnas del conjunto de datos. Esta decisión tiene como objetivo simplificar la estructura del conjunto de datos, reducir la redundancia, ahorrar espacio y facilitar un análisis más eficiente.

In [40]:
# Se eliminan las columnas que no seran tenidas en cuenta.
columnas_a_eliminar_hechos = ['AAAA', 'MM', 'DD', 'HORA', 'LUGAR_DEL_HECHO', 'Calle', 'Altura', 'Cruce', 
                       'Dirección Normalizada', 'XY (CABA)', 'PARTICIPANTES']
df_homicidios_hechos.drop(columnas_a_eliminar_hechos, axis=1, inplace=True)


In [41]:
# Se renombran las columnas con el objetivo de mejorar la claridad y la legibilidad del conjunto de datos.
df_homicidios_hechos.rename(columns={'ID':'Id_Siniestro','N_VICTIMAS':'Nro_Victimas','FECHA':'Fecha','HH':'Franja_Hora','TIPO_DE_CALLE':'Tipo_Calle',
                          'COMUNA':'Comuna','pos x':'Longitud','pos y':'Latitud','VICTIMA':'Victima','ACUSADO':'Acusado'},inplace=True)

In [42]:
df_homicidios_hechos.head()

Unnamed: 0,Id_Siniestro,Nro_Victimas,Fecha,Franja_Hora,Tipo_Calle,Comuna,Longitud,Latitud,Victima,Acusado
0,2016-0001,1,2016-01-01,4.0,AVENIDA,8,-58.47533969,-34.68757022,MOTO,AUTO
1,2016-0002,1,2016-01-02,1.0,GRAL PAZ,9,-58.50877521,-34.66977709,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,7.0,AVENIDA,1,-58.39040293,-34.63189362,MOTO,AUTO
3,2016-0004,1,2016-01-10,0.0,AVENIDA,8,-58.46503904,-34.68092974,MOTO,
4,2016-0005,1,2016-01-21,5.0,AVENIDA,1,-58.38718297,-34.6224663,MOTO,PASAJEROS


In [43]:
# Se convierte la columna Franja_hora a entero
# Convertir la columna a tipo numérico y luego a tipo entero
df_homicidios_hechos['Franja_Hora'] = pd.to_numeric(df_homicidios_hechos['Franja_Hora'], errors='coerce').astype('Int64')


Se categorizan las columnas 'Franja_Hora', 'Tipo_Calle', 'Comuna', 'Victima' y 'Acusado'. Esta acción busca mejorar la gestión y el análisis de la información, facilitando así la comprensión de la distribución de los valores en cada una de estas columnas.

In [44]:
# Categorizar las columnas Franja_Hora, Comuna, Victima, Tipo_Calle
columnas_a_categorizar = ['Franja_Hora','Tipo_Calle','Comuna','Victima','Acusado']

# Categorizar las columnas
for column in columnas_a_categorizar:
    df_homicidios_hechos[column] = df_homicidios_hechos[column].astype('category')

In [45]:
# Se conviente las Tipo_Calle, Victima, Acusado a tipo titulo 
df_homicidios_hechos['Tipo_Calle'] = df_homicidios_hechos['Tipo_Calle'].str.title()
df_homicidios_hechos['Victima'] = df_homicidios_hechos['Victima'].str.title()
df_homicidios_hechos['Acusado'] = df_homicidios_hechos['Acusado'].str.title()


Transformar todos los datos a formato de título no solo previene posibles problemas de coincidencia, sino que también simplifica las operaciones de búsqueda y filtrado al estandarizar la presentación de las palabras clave. Este proceso garantiza consistencia en los datos, facilitando la manipulación y comprensión de la información en el conjunto de datos.

In [46]:
df_homicidios_hechos.head()
# df_homicidios_hechos.info()

Unnamed: 0,Id_Siniestro,Nro_Victimas,Fecha,Franja_Hora,Tipo_Calle,Comuna,Longitud,Latitud,Victima,Acusado
0,2016-0001,1,2016-01-01,4,Avenida,8,-58.47533969,-34.68757022,Moto,Auto
1,2016-0002,1,2016-01-02,1,Gral Paz,9,-58.50877521,-34.66977709,Auto,Pasajeros
2,2016-0003,1,2016-01-03,7,Avenida,1,-58.39040293,-34.63189362,Moto,Auto
3,2016-0004,1,2016-01-10,0,Avenida,8,-58.46503904,-34.68092974,Moto,
4,2016-0005,1,2016-01-21,5,Avenida,1,-58.38718297,-34.6224663,Moto,Pasajeros


In [47]:
# Se filtran las filas con valores iguales a 0 ó "." en las columnas especificadas
filas_con_cero_o_vacios = df_homicidios_hechos[(df_homicidios_hechos['Comuna'].eq(0) 
                                            | df_homicidios_hechos['Longitud'].eq('.') | df_homicidios_hechos['Latitud'].eq('.'))]
filas_con_cero_o_vacios

Unnamed: 0,Id_Siniestro,Nro_Victimas,Fecha,Franja_Hora,Tipo_Calle,Comuna,Longitud,Latitud,Victima,Acusado
38,2016-0052,1,2016-04-20,20,Autopista,13,.,.,Moto,
106,2016-0136,1,2016-10-25,0,Autopista,4,.,.,Moto,Cargas
119,2016-0151,1,2016-11-18,20,Calle,0,.,.,Peaton,
139,2016-0174,1,2016-12-27,0,Autopista,0,.,.,,
176,2017-0042,1,2017-04-10,9,Gral Paz,14,.,.,Moto,Cargas
180,2017-0050,2,2017-04-28,11,Autopista,9,.,.,Moto,Cargas
181,2017-0051,1,2017-05-01,3,Autopista,7,.,.,Auto,Auto
256,2017-0140,1,2017-11-19,23,Autopista,4,.,.,Moto,Pasajeros
313,2018-0039,1,2018-04-21,22,Autopista,14,.,.,Peaton,Auto
546,2020-0026,1,2020-05-17,6,Autopista,14,.,.,Moto,Objeto Fijo


Se procede a actualizar los valores faltantes, representados por 0 o '.', utilizando información obtenida de Google Maps. Esta actualización se basa en la dirección, nombre de la calle y/o comuna del incidente. Para aquellos casos en los que el Id del siniestro carece de esta información, se realiza una validación utilizando el incidente más cercano, considerando el tipo de calle presente, que en este escenario es "calle".

In [48]:
# Se reemplazan los valores

registros_actualizar = [
    {'Id_Siniestro': '2016-0052', 'Comuna': 13,'Longitud': -58.45770, 'Latitud': -34.55160}, 
    {'Id_Siniestro': '2016-0136', 'Comuna': 4, 'Longitud': -58.38871, 'Latitud': -34.64367},
    {'Id_Siniestro': '2016-0151', 'Comuna': 10,'Longitud': -58.37030, 'Latitud': -34.59710},
    {'Id_Siniestro': '2016-0174', 'Comuna': 7, 'Longitud': -58.42032, 'Latitud': -34.62794}, 
    {'Id_Siniestro': '2017-0042', 'Comuna': 14,'Longitud': -58.42346, 'Latitud': -34.55706},
    {'Id_Siniestro': '2017-0050', 'Comuna': 9, 'Longitud': -58.49258, 'Latitud': -34.64043}, 
    {'Id_Siniestro': '2017-0051', 'Comuna': 7, 'Longitud': -58.46782, 'Latitud': -34.65168},    
    {'Id_Siniestro': '2017-0140', 'Comuna': 4, 'Longitud': -58.37709, 'Latitud': -34.63747}, 
    {'Id_Siniestro': '2018-0039', 'Comuna': 14,'Longitud': -58.41706, 'Latitud': -34.56162}, 
    {'Id_Siniestro': '2020-0026', 'Comuna': 14,'Longitud': -58.45273, 'Latitud': -34.56366}, 
    {'Id_Siniestro': '2020-0039', 'Comuna': 9, 'Longitud': -58.49320, 'Latitud': -34.66320}, 
    {'Id_Siniestro': '2021-0023', 'Comuna': 4, 'Longitud': -58.35247, 'Latitud': -34.61986},]

In [49]:
# Iterar sobre los registros y realizar el reemplazo
for registro in registros_actualizar:
    Id_Siniestro = registro['Id_Siniestro']
    Comuna = registro['Comuna']
    Longitud = registro['Longitud']
    Latitud = registro['Latitud']

    # Utilizar loc para reemplazar los valores específicos
    df_homicidios_hechos.loc[df_homicidios_hechos['Id_Siniestro'] == Id_Siniestro, 'Comuna'] = Comuna
    df_homicidios_hechos.loc[df_homicidios_hechos['Id_Siniestro'] == Id_Siniestro, 'Longitud'] = Longitud
    df_homicidios_hechos.loc[df_homicidios_hechos['Id_Siniestro'] == Id_Siniestro, 'Latitud'] = Latitud

df_homicidios_hechos.head()

Unnamed: 0,Id_Siniestro,Nro_Victimas,Fecha,Franja_Hora,Tipo_Calle,Comuna,Longitud,Latitud,Victima,Acusado
0,2016-0001,1,2016-01-01,4,Avenida,8,-58.47533969,-34.68757022,Moto,Auto
1,2016-0002,1,2016-01-02,1,Gral Paz,9,-58.50877521,-34.66977709,Auto,Pasajeros
2,2016-0003,1,2016-01-03,7,Avenida,1,-58.39040293,-34.63189362,Moto,Auto
3,2016-0004,1,2016-01-10,0,Avenida,8,-58.46503904,-34.68092974,Moto,
4,2016-0005,1,2016-01-21,5,Avenida,1,-58.38718297,-34.6224663,Moto,Pasajeros


### 2.2 Dataset Homicidios-Victimas

In [50]:
# Definir la ruta del archivo Excel
path = 'homicidios.xlsx'
# Leer el archivo Excel con dos hojas ('HECHOS' y 'VICTIMAS')
df_homicidios = pd.read_excel(path, sheet_name=['HECHOS', 'VICTIMAS'])
# Acceder al DataFrame correspondiente a la hoja 'HECHOS'
df_homicidios_victimas = df_homicidios['VICTIMAS']

In [51]:
# Información general del Dataframe VICTIMAS
df_homicidios_victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


In [52]:
# Se reemplazan los 'SD' por NaN en todo el DataFrame
df_homicidios_victimas.replace(['SD','sd'], np.nan, inplace=True)


Se excluyen las columnas 'FECHA', 'AAAA', 'MM', 'DD' debido a su redundancia, así como la columna 'VICTIMA', ya que su información está duplicada en la hoja de datos de 'HECHOS'. Este proceso de eliminación simplifica el conjunto de datos y evita duplicaciones innecesarias.

In [53]:
# Se eliminan las columnas que no seran tenidas en cuenta.
columnas_a_eliminar_victimas = ['FECHA','AAAA', 'MM', 'DD', 'VICTIMA','FECHA_FALLECIMIENTO']
df_homicidios_victimas.drop(columnas_a_eliminar_victimas, axis=1, inplace=True)

In [54]:
# Se renombran las columnas con el objetivo de mejorar la claridad y la legibilidad del conjunto de datos.
df_homicidios_victimas.rename(columns={'ID_hecho': 'Id_Siniestro', 'SEXO': 'Sexo',
               'EDAD': 'Edad', 'ROL': 'Rol'}, inplace=True)

In [55]:
# Se convierte la columna Edad a entero
df_homicidios_victimas['Edad'] = df_homicidios_victimas['Edad'].astype('Int64')

In [56]:
# Categorizar las columnas Franja_Hora, Comuna, Victima, Tipo_Calle
columnas_a_categorizar_victimas = ['Sexo','Edad','Rol']

# Categorizar las columnas
for column in columnas_a_categorizar_victimas:
    df_homicidios_victimas[column] = df_homicidios_victimas[column].astype('category')

In [57]:
# Se conviente las Tipo_Calle, Victima, Acusado a tipo titulo 
df_homicidios_victimas['Rol'] = df_homicidios_victimas['Rol'].str.title()
df_homicidios_victimas['Sexo'] = df_homicidios_victimas['Sexo'].str.title()

In [58]:
# Se unifican los Dataframe
df_homicidios = pd.merge(df_homicidios_hechos, df_homicidios_victimas, left_on='Id_Siniestro', right_on='Id_Siniestro', how='inner')
print(df_homicidios.shape)
df_homicidios.head()

(717, 13)


Unnamed: 0,Id_Siniestro,Nro_Victimas,Fecha,Franja_Hora,Tipo_Calle,Comuna,Longitud,Latitud,Victima,Acusado,Rol,Sexo,Edad
0,2016-0001,1,2016-01-01,4,Avenida,8,-58.47533969,-34.68757022,Moto,Auto,Conductor,Masculino,19
1,2016-0002,1,2016-01-02,1,Gral Paz,9,-58.50877521,-34.66977709,Auto,Pasajeros,Conductor,Masculino,70
2,2016-0003,1,2016-01-03,7,Avenida,1,-58.39040293,-34.63189362,Moto,Auto,Conductor,Masculino,30
3,2016-0004,1,2016-01-10,0,Avenida,8,-58.46503904,-34.68092974,Moto,,Conductor,Masculino,18
4,2016-0005,1,2016-01-21,5,Avenida,1,-58.38718297,-34.6224663,Moto,Pasajeros,Conductor,Masculino,29


In [59]:
# Se guardan los datos limpieos en CSV
df_homicidios.to_csv('homicidios_new.csv', index=False)