# Proceso de ETL para Homicidos en Siniestros Viales Buenos Aires

Con base en una extensa experiencia en el ámbito de la ciencia de datos, se emprenderá el proceso de ETL (Extract, Transform, Load) sobre el dataset "homicidos", el cual contiene datos pormenorizados sobre homicidios asociados a incidentes viales en la Ciudad, abarcando el período comprendido entre los años 2016 y 2021. Este conjunto de datos proporciona información crucial como fechas, ubicaciones y tipos de transporte involucrados en cada evento, lo que permitirá un análisis exhaustivo para extraer conocimientos relevantes y establecer medidas preventivas eficaces.

## 1. Importacion de librerias

In [23]:
import pandas as pd

##  2. Cargamos los datos

En esta sección, los datos serán cargados a un DataFrame de pandas y se empleará el método .head() para revisar su estructura inicial. Como los archivos se encuentran separados en dos hoajas dentro de excel, se realizara este proceso para cada una de las hojas del archivo de excel

In [24]:
homicidios_h = pd.read_excel('Datasets\homicidios.xlsx', sheet_name='HECHOS', na_values=['sd', 'SD'])
homicidios_v = pd.read_excel('Datasets\homicidios.xlsx', sheet_name='VICTIMAS', na_values=['sd', 'SD'])

In [25]:
homicidios_h.head(3)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4.0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1.0,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7.0,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO


In [26]:
homicidios_v.head(3)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19.0,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70.0,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30.0,2016-01-03 00:00:00


## 3. Revisamos la información de cada dataframe

En este paso, se procederá a explorar la estructura de cada uno de los dataframes previamente cargados. Esta exploración permitirá comprender la composición de los datos, identificar posibles inconsistencias o patrones relevantes, y así estar en posición de realizar las modificaciones necesarias para mejorar su calidad o adaptarlos a los requerimientos específicos del análisis o aplicación que se pretende llevar a cabo.

### Dataframe Homicidios - Hechos

In [27]:
homicidios_h.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   695 non-null    object        
 7   HH                     695 non-null    float64       
 8   LUGAR_DEL_HECHO        695 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

Exploración de las Columnas:

- La columna "ID" parece ser una identificación única para cada registro en el DataFrame.
- La columna "N_VICTIMAS" indica el número de víctimas involucradas en un incidente.
- La columna "FECHA" almacena la fecha del incidente en formato datetime64[ns], lo que permite un fácil manejo y análisis de fechas.
- Las columnas "AAAA", "MM" y "DD" parecen ser desgloses de la fecha en año, mes y día, respectivamente.
- La columna "HORA" contiene información sobre la hora del incidente. Sin embargo, hay una instancia faltante.
- Las columnas relacionadas con la ubicación del incidente incluyen "LUGAR_DEL_HECHO", "TIPO_DE_CALLE", "Calle", "Altura", "Cruce" y "Dirección Normalizada". Estas columnas proporcionan información detallada sobre la ubicación del incidente, incluyendo el tipo de calle, nombres de calles, altura, cruce y dirección normalizada.
- La columna "COMUNA" indica la comuna donde ocurrió el incidente.
- Las columnas "XY (CABA)", "pos x" y "pos y" parecen contener información de coordenadas geográficas.
- Las columnas "PARTICIPANTES", "VICTIMA" y "ACUSADO" contienen información sobre los involucrados en el incidente.

Valores Nulos:

Las columnas "Altura", "Cruce", "Dirección Normalizada", "VICTIMA" y "ACUSADO" tienen valores nulos. Es importante considerar cómo manejar estos valores faltantes durante el análisis.

In [28]:
# Creamos una función que nos permita calcular los datos nulos para los dataframes
def porcentaje_valores_nulos(dataframe):
    total_filas = len(dataframe)
    print("Porcentaje de valores nulos por columna:")
    for columna in dataframe.columns:
        valores_nulos = dataframe[columna].isnull().sum()
        porcentaje_nulos = (valores_nulos / total_filas) * 100
        print(f"{columna}: {porcentaje_nulos:.2f}%")

    total_valores_nulos = dataframe.isnull().sum().sum()
    porcentaje_total_nulos = (total_valores_nulos / (total_filas * len(dataframe.columns))) * 100
    print(f"\nTotal de valores nulos en el DataFrame: {total_valores_nulos}")
    print(f"Porcentaje total de valores nulos en el DataFrame: {porcentaje_total_nulos:.2f}%")

In [29]:
# Creamos una función que nos permita calcular los datos duplicados para los dataframes

def porcentaje_valores_duplicados(dataframe, columna):
    total_filas = len(dataframe)
    valores_duplicados = dataframe.duplicated(subset=[columna]).sum()
    porcentaje_duplicados = (valores_duplicados / total_filas) * 100
    print(f"Porcentaje de valores duplicados en la columna '{columna}': {porcentaje_duplicados:.2f}%")

In [30]:
porcentaje_valores_nulos(homicidios_h)

Porcentaje de valores nulos por columna:
ID: 0.00%
N_VICTIMAS: 0.00%
FECHA: 0.00%
AAAA: 0.00%
MM: 0.00%
DD: 0.00%
HORA: 0.14%
HH: 0.14%
LUGAR_DEL_HECHO: 0.14%
TIPO_DE_CALLE: 0.00%
Calle: 0.14%
Altura: 81.47%
Cruce: 24.57%
Dirección Normalizada: 1.15%
COMUNA: 0.00%
XY (CABA): 0.00%
pos x: 0.00%
pos y: 0.00%
PARTICIPANTES: 0.00%
VICTIMA: 1.29%
ACUSADO: 3.30%

Total de valores nulos en el DataFrame: 782
Porcentaje total de valores nulos en el DataFrame: 5.35%


In [31]:
porcentaje_valores_duplicados(homicidios_h, 'ID')

Porcentaje de valores duplicados en la columna 'ID': 0.00%


In [32]:
# Eliminación de columnas innecesarias
columnas_inecesarias = ['AAAA','DD','MM','HORA','LUGAR_DEL_HECHO','Calle','Altura','Cruce','Dirección Normalizada','XY (CABA)']
homicidios_h.drop(columns=columnas_inecesarias, inplace=True)

In [33]:
porcentaje_valores_nulos(homicidios_h)

Porcentaje de valores nulos por columna:
ID: 0.00%
N_VICTIMAS: 0.00%
FECHA: 0.00%
HH: 0.14%
TIPO_DE_CALLE: 0.00%
COMUNA: 0.00%
pos x: 0.00%
pos y: 0.00%
PARTICIPANTES: 0.00%
VICTIMA: 1.29%
ACUSADO: 3.30%

Total de valores nulos en el DataFrame: 33
Porcentaje total de valores nulos en el DataFrame: 0.43%


In [34]:
homicidios_h['FECHA']

0     2016-01-01
1     2016-01-02
2     2016-01-03
3     2016-01-10
4     2016-01-21
         ...    
691   2021-12-13
692   2021-12-20
693   2021-12-30
694   2021-12-15
695   2021-11-18
Name: FECHA, Length: 696, dtype: datetime64[ns]

In [35]:
homicidios_h['HH']

0       4.0
1       1.0
2       7.0
3       0.0
4       5.0
       ... 
691    17.0
692     1.0
693     0.0
694    10.0
695     6.0
Name: HH, Length: 696, dtype: float64

In [36]:
homicidios_h['PARTICIPANTES'].value_counts()

PARTICIPANTES
PEATON-PASAJEROS       105
MOTO-AUTO               83
MOTO-CARGAS             78
PEATON-AUTO             77
MOTO-PASAJEROS          46
MOTO-OBJETO FIJO        40
PEATON-CARGAS           38
AUTO-AUTO               31
PEATON-MOTO             30
MOTO-MOTO               25
AUTO-OBJETO FIJO        22
MULTIPLE                17
AUTO-CARGAS             14
BICICLETA-CARGAS        10
AUTO-PASAJEROS           9
MOTO-SD                  9
BICICLETA-PASAJEROS      8
BICICLETA-AUTO           8
SD-SD                    5
PEATON-BICICLETA         5
AUTO-SD                  4
CARGAS-CARGAS            4
PEATON-SD                4
PASAJEROS-PASAJEROS      3
MOTO-OTRO                2
MOTO-BICICLETA           2
SD-AUTO                  2
MOTO-MOVIL               2
CARGAS-OBJETO FIJO       1
CARGAS-AUTO              1
MOVIL-PASAJEROS          1
SD-CARGAS                1
SD-MOTO                  1
MOVIL-CARGAS             1
PASAJEROS-AUTO           1
AUTO-MOVIL               1
CARGAS-PASAJER

In [37]:
# Creación de nuevas columnas a partir de datos existentes
homicidios_h[['AFECTADO_1', 'AFECTADO_2']] = homicidios_h['PARTICIPANTES'].str.split('-', expand=True)

In [38]:
homicidios_h = homicidios_h.drop(columns=['PARTICIPANTES'])

In [39]:
homicidios_h.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,HH,TIPO_DE_CALLE,COMUNA,pos x,pos y,VICTIMA,ACUSADO,AFECTADO_1,AFECTADO_2
0,2016-0001,1,2016-01-01,4.0,AVENIDA,8,-58.47533969,-34.68757022,MOTO,AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,1.0,GRAL PAZ,9,-58.50877521,-34.66977709,AUTO,PASAJEROS,AUTO,PASAJEROS


In [40]:
homicidios_h['ACUSADO'].value_counts()

ACUSADO
AUTO           204
PASAJEROS      173
CARGAS         146
OBJETO FIJO     62
MOTO            57
MULTIPLE        17
BICICLETA        7
OTRO             6
TREN             1
Name: count, dtype: int64

In [41]:
homicidios_h['VICTIMA'].value_counts()

VICTIMA
MOTO           295
PEATON         264
AUTO            83
BICICLETA       29
CARGAS           7
PASAJEROS        5
MOVIL            2
OBJETO FIJO      1
PEATON_MOTO      1
Name: count, dtype: int64

In [42]:
# Cambiamos los nombres de las columnas
homicidios_h.rename(columns={'pos x': 'LATITUD', 'pos y': 'LONGITUD'}, inplace=True)
homicidios_h.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,HH,TIPO_DE_CALLE,COMUNA,LATITUD,LONGITUD,VICTIMA,ACUSADO,AFECTADO_1,AFECTADO_2
0,2016-0001,1,2016-01-01,4.0,AVENIDA,8,-58.47533969,-34.68757022,MOTO,AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,1.0,GRAL PAZ,9,-58.50877521,-34.66977709,AUTO,PASAJEROS,AUTO,PASAJEROS


In [43]:
homicidios_h['AFECTADO_2'].value_counts()

AFECTADO_2
AUTO           203
PASAJEROS      173
CARGAS         146
OBJETO FIJO     63
MOTO            57
SD              23
BICICLETA        7
MOVIL            3
OTRO             3
TREN             1
Name: count, dtype: int64

In [44]:
# Guardamos los datos
homicidios_h.to_csv('CSV\homicidios_hechos.csv', index=False)

### Homicidios - Victimas

In [45]:
homicidios_v.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  706 non-null    object        
 6   VICTIMA              708 non-null    object        
 7   SEXO                 711 non-null    object        
 8   EDAD                 664 non-null    float64       
 9   FECHA_FALLECIMIENTO  649 non-null    object        
dtypes: datetime64[ns](1), float64(1), int64(3), object(5)
memory usage: 56.1+ KB


Cantidad de entradas y columnas:

El conjunto de datos contiene 717 entradas (filas) y 10 columnas.

Columnas:

- ID_hecho: Parece ser un identificador único para cada evento.
- FECHA: Una columna de fecha y hora que indica cuándo ocurrió el evento.
- AAAA, MM, DD: Estas columnas parecen ser desgloses de la fecha en año, mes y día, respectivamente. Podrían ser redundantes dado que ya existe la columna 'FECHA'.
- ROL: Parece indicar el rol de una persona involucrada en el evento (p. ej., testigo, víctima, perpetrador, etc.).
- VICTIMA: Nombre o identificador de la víctima.
- SEXO: Género de la víctima o de la persona involucrada.
- EDAD: Edad de la víctima o de la persona involucrada.
- FECHA_FALLECIMIENTO: Fecha de fallecimiento en caso de que la persona haya muerto como resultado del evento.

Valores nulos:

- Se observan valores nulos en varias columnas: ROL, VICTIMA, SEXO, EDAD, FECHA_FALLECIMIENTO.
- La columna con la mayor cantidad de valores nulos es 'FECHA_FALLECIMIENTO', lo que indica que no todas las entradas implican muertes.

Tipos de datos:

- La mayoría de las columnas parecen tener tipos de datos adecuados:
- 'ID_hecho' es de tipo objeto (posiblemente una cadena).
- 'FECHA' es de tipo datetime64.
- 'AAAA', 'MM' y 'DD' son de tipo entero.
- 'ROL', 'VICTIMA' y 'SEXO' son de tipo objeto (cadenas).
- 'EDAD' es de tipo flotante.
- 'FECHA_FALLECIMIENTO' es de tipo objeto (posiblemente una cadena)

In [46]:
porcentaje_valores_duplicados(homicidios_v, 'ID_hecho')

Porcentaje de valores duplicados en la columna 'ID_hecho': 2.93%


In [47]:
porcentaje_valores_nulos(homicidios_v)

Porcentaje de valores nulos por columna:
ID_hecho: 0.00%
FECHA: 0.00%
AAAA: 0.00%
MM: 0.00%
DD: 0.00%
ROL: 1.53%
VICTIMA: 1.26%
SEXO: 0.84%
EDAD: 7.39%
FECHA_FALLECIMIENTO: 9.48%

Total de valores nulos en el DataFrame: 147
Porcentaje total de valores nulos en el DataFrame: 2.05%


In [48]:
columnas_eliminar = ['AAAA', 'MM', 'DD', 'FECHA_FALLECIMIENTO']
columnas_eliminar = list(set(columnas_eliminar).intersection(homicidios_v.columns))
homicidios_v = homicidios_v.drop(columns=columnas_eliminar)

In [49]:
homicidios_v.head(2)

Unnamed: 0,ID_hecho,FECHA,ROL,VICTIMA,SEXO,EDAD
0,2016-0001,2016-01-01,CONDUCTOR,MOTO,MASCULINO,19.0
1,2016-0002,2016-01-02,CONDUCTOR,AUTO,MASCULINO,70.0


In [50]:
homicidios_v['ROL'].value_counts()

ROL
CONDUCTOR               330
PEATON                  267
PASAJERO_ACOMPAÑANTE     80
CICLISTA                 29
Name: count, dtype: int64

In [51]:
homicidios_v['VICTIMA'].value_counts()

VICTIMA
MOTO         303
PEATON       267
AUTO          94
BICICLETA     29
CARGAS         7
PASAJEROS      5
MOVIL          3
Name: count, dtype: int64

In [52]:
homicidios_v['SEXO'].value_counts()

SEXO
MASCULINO    545
FEMENINO     166
Name: count, dtype: int64

In [53]:
homicidios_v.to_csv('CSV\homicidios_victimas.csv', index=False)