# Extracción, transformación y carga (ETL)

## 0 Configuraciones Globales e Importaciones

En esta sección, importamos todas las bibliotecas y/o módulos necesarios para nuestro proceso ETL y establecemos configuraciones globales de ser requerido.

### Importación de Bibliotecas y/o Módulos

In [192]:
import sys
import os
import pandas as pd
from utils import utilitarios as u


print(f"System version: {sys.version}")
print(f"Pandas version: {pd.__version__}")

System version: 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)]
Pandas version: 2.1.0
Numpy version: 1.25.2


## 1 Extracción

En esta sección, extraemos los datasets de la fuente de datos y describimos a detalle su contenido.

### 1.1 Extracción de los datos

En esta sección, extraemos los datos de cada hoja de los libros de Excel `homicidios.xlsx` y `lesiones.xlsx` haciendo uso de la función `read_excel_files()` del módulo `utils`, que lee todos los archivos .xlsx en una carpeta y los almacena en un diccionario de DataFrames.

In [20]:
folder_path = '../data/raw'
dfs = u.read_excel_files(folder_path)

DataFrame 1: homicidios.xlsx_HECHOS
DataFrame 2: homicidios.xlsx_DICCIONARIO_HECHOS
DataFrame 3: homicidios.xlsx_VICTIMAS
DataFrame 4: homicidios.xlsx_DICCIONARIO_VICTIMAS
DataFrame 5: homicidios.xlsx_clas
DataFrame 6: lesiones.xlsx_HECHOS
DataFrame 7: lesiones.xlsx_DICCIONARIO_HECHOS
DataFrame 8: lesiones.xlsx_VICTIMAS
DataFrame 9: lesiones.xlsx_DICCIONARIO_VICTIMAS
Cantidad de DataFrames: 9


#### 1.1.1 Dataset `homicidios.xlsx`

Observamos los datos extraidos de las hojas `HECHOS` y `VICTIMAS` del libro de Excel `homicidios.xlsx`.

##### 1.1.1.1 `homicidios_hechos`

In [21]:
# Extraemos el df correspondiente del diccionario de DataFrames
homicidios_hechos_df = dfs["homicidios.xlsx_HECHOS"]
homicidios_hechos_df.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [22]:
homicidios_hechos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID                     696 non-null    object        
 1   N_VICTIMAS             696 non-null    int64         
 2   FECHA                  696 non-null    datetime64[ns]
 3   AAAA                   696 non-null    int64         
 4   MM                     696 non-null    int64         
 5   DD                     696 non-null    int64         
 6   HORA                   696 non-null    object        
 7   HH                     696 non-null    object        
 8   LUGAR_DEL_HECHO        696 non-null    object        
 9   TIPO_DE_CALLE          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

##### 1.1.1.2 `homicidios_victimas`

In [23]:
# Extraemos el df correspondiente del diccionario de DataFrames
homicidios_victimas_df = dfs["homicidios.xlsx_VICTIMAS"]
homicidios_victimas_df.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [24]:
homicidios_victimas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   ID_hecho             717 non-null    object        
 1   FECHA                717 non-null    datetime64[ns]
 2   AAAA                 717 non-null    int64         
 3   MM                   717 non-null    int64         
 4   DD                   717 non-null    int64         
 5   ROL                  717 non-null    object        
 6   VICTIMA              717 non-null    object        
 7   SEXO                 717 non-null    object        
 8   EDAD                 717 non-null    object        
 9   FECHA_FALLECIMIENTO  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


#### 1.1.2 Dataset `lesiones.xlsx`

Observamos los datos extraidos de las hojas `HECHOS` y `VICTIMAS` del libro de Excel `lesiones.xlsx`.

##### 1.1.2.1 `lesiones_hechos`

In [25]:
# Extraemos el df correspondiente del diccionario de DataFrames
lesiones_hechos_df = dfs["lesiones.xlsx_HECHOS"]
lesiones_hechos_df.head()

Unnamed: 0,id,n_victimas,aaaa,mm,dd,fecha,hora,franja_hora,direccion_normalizada,comuna,...,latutid,victima,acusado,participantes,moto,auto,transporte_publico,camion,ciclista,gravedad
0,LC-2019-0000179,1,2019,1,1,2019-01-01 00:00:00,09:00:00,9,SD,14,...,-34.559658,CICLISTA,SD,CICLISTA-SD,SD,SD,SD,SD,x,SD
1,LC-2019-0000053,1,2019,1,1,2019-01-01 00:00:00,01:55:00,1,SD,8,...,-34.669125,AUTO,SD,AUTO-SD,SD,x,SD,SD,SD,SD
2,LC-2019-0000063,1,2019,1,1,2019-01-01 00:00:00,02:00:00,2,SD,8,...,-34.677556,SD,SD,SD-SD,SD,SD,SD,SD,SD,SD
3,LC-2019-0000079,1,2019,1,1,2019-01-01 00:00:00,02:30:00,2,SD,7,...,-34.647349,PEATON,SD,PEATON-SD,x,SD,SD,SD,SD,SD
4,LC-2019-0000082,4,2019,1,1,2019-01-01 00:00:00,04:30:00,4,SD,3,...,-34.604579,AUTO,SD,AUTO-SD,SD,SD,x,SD,SD,SD


In [26]:
lesiones_hechos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23785 entries, 0 to 23784
Data columns (total 27 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     23785 non-null  object 
 1   n_victimas             23785 non-null  int64  
 2   aaaa                   23785 non-null  int64  
 3   mm                     23785 non-null  int64  
 4   dd                     23785 non-null  int64  
 5   fecha                  23785 non-null  object 
 6   hora                   23785 non-null  object 
 7   franja_hora            23780 non-null  object 
 8   direccion_normalizada  23732 non-null  object 
 9   comuna                 23616 non-null  object 
 10  tipo_calle             23785 non-null  object 
 11  otra_direccion         23785 non-null  object 
 12  calle                  12867 non-null  object 
 13  altura                 12771 non-null  float64
 14  cruce                  9407 non-null   object 
 15  ge

##### 1.1.2.1 `lesiones_victimas`

In [27]:
# Extraemos el df correspondiente del diccionario de DataFrames
lesiones_victimas_df = dfs["lesiones.xlsx_VICTIMAS"]
lesiones_victimas_df.head()

Unnamed: 0,ID hecho,AAA,MM,DD,FECHA,VEHICULO_VICTIMA,SEXO,EDAD_VICTIMA,GRAVEDAD
0,LC-2019-0000053,2019,1,1,2019-01-01,sd,Varon,57,SD
1,LC-2019-0000063,2019,1,1,2019-01-01,sd,SD,SD,SD
2,LC-2019-0000079,2019,1,1,2019-01-01,sd,Varon,SD,SD
3,LC-2019-0000082,2019,1,1,2019-01-01,sd,Varon,45,SD
4,LC-2019-0000082,2019,1,1,2019-01-01,sd,Mujer,45,SD


In [28]:
lesiones_victimas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   ID hecho          27605 non-null  object        
 1   AAA               27605 non-null  int64         
 2   MM                27605 non-null  int64         
 3   DD                27605 non-null  int64         
 4   FECHA             27605 non-null  datetime64[ns]
 5   VEHICULO_VICTIMA  27605 non-null  object        
 6   SEXO              27605 non-null  object        
 7   EDAD_VICTIMA      27605 non-null  object        
 8   GRAVEDAD          27605 non-null  object        
dtypes: datetime64[ns](1), int64(3), object(5)
memory usage: 1.9+ MB


### 1.2 Descripción de los datasets.

#### 1.2.1 Dataset `homicidios`

Hemos observado que `homicidios_hechos` contiene **696** registros y **21** variables con datos de siniestros viales con víctimas fatales. Así como que `homicidios_victimas` contiene **717** registros y **10** variables con información sobre las victimas de estos. La descripción de cada variable puede ser consultada en las [Notas](../references/NOTAS_HOMICIDIOS_SINIESTRO_VIAL.pdf) para el uso del dataset de homicidios de siniestros viales.

#### 1.2.2 Dataset `lesiones`

Por otro lado, `lesiones_hechos` contiene **23785** registros y **27** variables con información sobre las lesiones en siniestros viales.  Además `homicidios_victimas` contiene **27605** registros y **9** variables con datos sobre los lesionados en dichos siniestros. La descripción de cada variable puede ser consultada en las [Notas](../references/NOTAS_LESIONES_SINIESTRO_VIAL.pdf) para el uso del dataset de lesiones en siniestros viales.

## 2 Transformación

En esta sección, realizamos la limpieza inicial de los datos y las transformaciones necesarias. Esto puede incluir la creación de nuevas columnas a partir de las existentes, la eliminación de duplicados o columnas innecesarias, la gestión de valores nulos o la corrección de tipos de datos.

### 2.1 Creación del DataFrame `homicidios`

Vamos a unir los DataFrames `homicidios_hechos` y `homicidios_victimas`, esto nos permitirá tener un solo DataFrame con toda la información relevante sobre los siniestros viales con víctimas fatales . Vamos a hacer uso de la función merge de pandas para hacer esta operación.

* Primero, seleccionamos solo las columnas necesarias:

In [39]:
homicidios_hechos_df.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

In [36]:
homicidios_victimas_df.columns

Index(['ID_hecho', 'FECHA', 'AAAA', 'MM', 'DD', 'ROL', 'VICTIMA', 'SEXO',
       'EDAD', 'FECHA_FALLECIMIENTO'],
      dtype='object')

In [175]:
homicidios_hechos_columns = ['ID', 'N_VICTIMAS', 'FECHA', 'HORA', 'TIPO_DE_CALLE', 'Cruce', 'COMUNA', 'pos x', 'pos y', 'PARTICIPANTES', 'VICTIMA', 'ACUSADO']
homicidios_victimas_columns = ['ID_hecho', 'ROL', 'SEXO','EDAD']

* Segundo, creamos subsets de los DataFrames con solo las columnas necesarias:

In [176]:
homicidios_hechos_subset = homicidios_hechos_df[homicidios_hechos_columns]
homicidios_victimas_subset = homicidios_victimas_df[homicidios_victimas_columns]

* Luego, hacemos un merge entre `homicidios_hechos_df` en todas las filas de la columna `ID` que coincidan con las filas de la columna `ID_hecho` de `homicidios_victimas_subset` .

In [177]:
homicidios_df = pd.merge(left=homicidios_hechos_subset, right=homicidios_victimas_subset, left_on='ID', right_on='ID_hecho', how='left')
homicidios_df.drop(['ID_hecho'], axis=1, inplace=True)
homicidios_df

Unnamed: 0,ID,N_VICTIMAS,FECHA,HORA,TIPO_DE_CALLE,Cruce,COMUNA,pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD
0,2016-0001,1,2016-01-01,04:00:00,AVENIDA,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.",8,-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,19
1,2016-0002,1,2016-01-02,01:15:00,GRAL PAZ,DE LOS CORRALES AV.,9,-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS,CONDUCTOR,MASCULINO,70
2,2016-0003,1,2016-01-03,07:00:00,AVENIDA,,1,-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO,CONDUCTOR,MASCULINO,30
3,2016-0004,1,2016-01-10,00:00:00,AVENIDA,"VILLEGAS, CONRADO, GRAL.",8,-58.46503904,-34.68092974,MOTO-SD,MOTO,SD,CONDUCTOR,MASCULINO,18
4,2016-0005,1,2016-01-21,05:20:00,AVENIDA,"SAENZ PE?A, LUIS, PRES.",1,-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,29
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0093,1,2021-12-13,17:10:00,AVENIDA,MOM,7,-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO,PASAJERO_ACOMPAÑANTE,FEMENINO,18
713,2021-0094,1,2021-12-20,01:10:00,AUTOPISTA,LACARRA AV.,9,-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO,PASAJERO_ACOMPAÑANTE,FEMENINO,43
714,2021-0095,1,2021-12-30,00:43:00,AVENIDA,TERRADA,11,-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS,CONDUCTOR,MASCULINO,27
715,2021-0096,1,2021-12-15,10:30:00,AVENIDA,,9,-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS,CONDUCTOR,MASCULINO,60


### 2.2 Variables cuantitativas

In [178]:
# Se convierte la columna 'HORA' al tipo de dato datetime
homicidios_df['HORA'] = pd.to_datetime(homicidios_df['HORA'], format="%H:%M:%S", errors='coerce')

# En caso de valores faltantes se imputan por la moda
homicidios_df['HORA'] = homicidios_df['HORA'].fillna(homicidios_df['HORA'].mode().iloc[0])

# Unimos las columnas 'FECHA' y 'HORA' en una nueva columna llamada 'fecha_hora'
homicidios_df['fecha_hora'] = homicidios_df['FECHA'].dt.strftime("%Y-%m-%d") + " " + homicidios_df['HORA'].dt.strftime("%H:%M:%S")

# Convertimos la columna 'fecha_hora' a tipo datetime.
homicidios_df['fecha_hora'] = pd.to_datetime(homicidios_df['fecha_hora'])

# Mostrar el resultado
homicidios_df[['FECHA', 'HORA', 'fecha_hora']].sample(5)

Unnamed: 0,FECHA,HORA,fecha_hora
615,2020-12-24,1900-01-01 12:30:00,2020-12-24 12:30:00
319,2018-04-02,1900-01-01 13:00:00,2018-04-02 13:00:00
207,2017-06-04,1900-01-01 09:00:00,2017-06-04 09:00:00
360,2018-07-11,1900-01-01 13:15:00,2018-07-11 13:15:00
153,2017-01-24,1900-01-01 14:00:00,2017-01-24 14:00:00


In [179]:
homicidios_df.EDAD.unique()

array([19, 70, 30, 18, 29, 22, 16, 59, 65, 34, 41, 50, 38, 21, 52, 36, 20,
       54, 'SD', 56, 24, 78, 79, 26, 57, 37, 58, 23, 60, 42, 53, 51, 40,
       87, 76, 75, 35, 80, 43, 45, 67, 27, 55, 49, 81, 25, 33, 46, 83, 39,
       28, 7, 48, 4, 82, 32, 17, 47, 61, 10, 95, 73, 84, 66, 85, 1, 15,
       13, 77, 44, 31, 62, 74, 71, 11, 86, 69, 72, 12, 63, 92, 68, 91, 64,
       5, 88], dtype=object)

In [180]:
# Convertimos la columna 'EDAD' a tipo de dato numérico
homicidios_df['EDAD'] = pd.to_numeric(homicidios_df['EDAD'], errors='coerce')

# Definimos los límites de los intervalos de edad
bins = [0, 18, 30, 45, 65, 100]

# Definimos las etiquetas de los intervalos de edad
labels = ['0-17', '18-29', '30-44', '45-64', '65+']

# Creamos una nueva columna 'rango_edad' con los intervalos de edad
homicidios_df['rango_edad'] = pd.cut(homicidios_df['EDAD'], bins=bins, labels=labels, right=False)

# Agregar la categoría 'SD' a la columna 'rango_edad'
homicidios_df['rango_edad'] = homicidios_df['rango_edad'].cat.add_categories('SD')
homicidios_df['rango_edad'] = homicidios_df['rango_edad'].fillna('SD')

# Mostrar el resultado
homicidios_df[['EDAD','rango_edad']].sample(5)

Unnamed: 0,EDAD,rango_edad
419,39.0,30-44
230,28.0,18-29
478,,SD
669,56.0,45-64
171,28.0,18-29


### 2.2 Variables cualitativas

In [181]:
# Creamos una nueva columna llamada 'es_cruce' que convierte la columna 'Cruce' a booleana
homicidios_df['es_cruce'] = pd.notna(homicidios_df['Cruce'])
homicidios_df[['Cruce', 'es_cruce']]

Unnamed: 0,Cruce,es_cruce
0,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.",True
1,DE LOS CORRALES AV.,True
2,,False
3,"VILLEGAS, CONRADO, GRAL.",True
4,"SAENZ PE?A, LUIS, PRES.",True
...,...,...
712,MOM,True
713,LACARRA AV.,True
714,TERRADA,True
715,,False


In [182]:
homicidios_df.ACUSADO.value_counts()

ACUSADO
AUTO           210
PASAJEROS      178
CARGAS         150
OBJETO FIJO     67
MOTO            58
SD              23
MULTIPLE        17
BICICLETA        7
OTRO             6
TREN             1
Name: count, dtype: int64

In [169]:
homicidios_df.VICTIMA.value_counts()

VICTIMA
MOTO           302
PEATON         266
AUTO            92
BICICLETA       29
SD               9
CARGAS           7
PASAJEROS        5
MOVIL            3
OBJETO FIJO      2
PEATON_MOTO      2
Name: count, dtype: int64

La columna `VICTIMA` contiene las categorías `OBJETO FIJO` y `PEATON_MOTO` que no se encuentran descritas en el diccionario de datos. Procedemos a observar dichas categorías.

In [183]:
homicidios_df[homicidios_df['VICTIMA'].isin(['OBJETO FIJO', 'PEATON_MOTO'])]

Unnamed: 0,ID,N_VICTIMAS,FECHA,HORA,TIPO_DE_CALLE,Cruce,COMUNA,pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,fecha_hora,rango_edad,es_cruce
237,2017-0108,2,2017-09-02,1900-01-01 04:53:08,GRAL PAZ,MACHAIN,12,-58.49491054,-34.54795581,AUTO-OBJETO FIJO,OBJETO FIJO,AUTO,PASAJERO_ACOMPAÑANTE,MASCULINO,17.0,2017-09-02 04:53:08,0-17,True
238,2017-0108,2,2017-09-02,1900-01-01 04:53:08,GRAL PAZ,MACHAIN,12,-58.49491054,-34.54795581,AUTO-OBJETO FIJO,OBJETO FIJO,AUTO,PASAJERO_ACOMPAÑANTE,MASCULINO,10.0,2017-09-02 04:53:08,0-17,True
602,2020-0063,2,2020-12-05,1900-01-01 07:10:00,CALLE,ALTA GRACIA,11,-58.52783814,-34.61047001,PEATON_MOTO-MOTO,PEATON_MOTO,MOTO,PEATON,MASCULINO,38.0,2020-12-05 07:10:00,30-44,True
603,2020-0063,2,2020-12-05,1900-01-01 07:10:00,CALLE,ALTA GRACIA,11,-58.52783814,-34.61047001,PEATON_MOTO-MOTO,PEATON_MOTO,MOTO,PASAJERO_ACOMPAÑANTE,MASCULINO,21.0,2020-12-05 07:10:00,18-29,True


Notamos que los valores para las columnas `VICTIMA` y `ACUSADO` se encuentran invertidos. Por otro lado, la columna `PARTICIPANTES` contiene la categoría `PEATON_MOTO`.  Procedemos a corregirlos:

In [184]:
# Invertimos los valores de las columnas 'VICTIMA' y 'ACUSADO' en los índices 237 y 238
homicidios_df.loc[[237, 238], ['VICTIMA', 'ACUSADO']] = homicidios_df.loc[[237, 238], ['ACUSADO', 'VICTIMA']].values

# Reemplazamos los valores de las columnas 'PARTICIPANTES' y 'VICTIMA' en los índices 602 y 603
homicidios_df.loc[[602, 603], ['PARTICIPANTES', 'VICTIMA']] = homicidios_df.loc[[602, 603], ['PARTICIPANTES', 'VICTIMA']].replace({'PEATON_MOTO-MOTO': 'PEATON-MOTO', 'PEATON_MOTO': 'PEATON'})
homicidios_df[homicidios_df['ID'].isin(['2017-0108', '2020-0063'])]

Unnamed: 0,ID,N_VICTIMAS,FECHA,HORA,TIPO_DE_CALLE,Cruce,COMUNA,pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,fecha_hora,rango_edad,es_cruce
237,2017-0108,2,2017-09-02,1900-01-01 04:53:08,GRAL PAZ,MACHAIN,12,-58.49491054,-34.54795581,AUTO-OBJETO FIJO,AUTO,OBJETO FIJO,PASAJERO_ACOMPAÑANTE,MASCULINO,17.0,2017-09-02 04:53:08,0-17,True
238,2017-0108,2,2017-09-02,1900-01-01 04:53:08,GRAL PAZ,MACHAIN,12,-58.49491054,-34.54795581,AUTO-OBJETO FIJO,AUTO,OBJETO FIJO,PASAJERO_ACOMPAÑANTE,MASCULINO,10.0,2017-09-02 04:53:08,0-17,True
602,2020-0063,2,2020-12-05,1900-01-01 07:10:00,CALLE,ALTA GRACIA,11,-58.52783814,-34.61047001,PEATON-MOTO,PEATON,MOTO,PEATON,MASCULINO,38.0,2020-12-05 07:10:00,30-44,True
603,2020-0063,2,2020-12-05,1900-01-01 07:10:00,CALLE,ALTA GRACIA,11,-58.52783814,-34.61047001,PEATON-MOTO,PEATON,MOTO,PASAJERO_ACOMPAÑANTE,MASCULINO,21.0,2020-12-05 07:10:00,18-29,True


### 2.3 Coordenadas geográficas

Del análisis previo, se notó que hay datos faltantes en las coordenadas geográficas `pos x` y `pos y`. Observemos estos registros:

In [185]:
homicidios_df[homicidios_df['pos x'] == '.']

Unnamed: 0,ID,N_VICTIMAS,FECHA,HORA,TIPO_DE_CALLE,Cruce,COMUNA,pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,fecha_hora,rango_edad,es_cruce
39,2016-0052,1,2016-04-20,1900-01-01 20:00:00,AUTOPISTA,,13,.,.,MOTO-SD,MOTO,SD,SD,SD,,2016-04-20 20:00:00,SD,False
108,2016-0136,1,2016-10-25,1900-01-01 00:00:00,AUTOPISTA,,4,.,.,MOTO-CARGAS,MOTO,CARGAS,CONDUCTOR,SD,,2016-10-25 00:00:00,SD,False
121,2016-0151,1,2016-11-18,1900-01-01 20:35:00,CALLE,,0,.,.,PEATON-SD,PEATON,SD,PEATON,SD,,2016-11-18 20:35:00,SD,False
141,2016-0174,1,2016-12-27,1900-01-01 00:00:00,AUTOPISTA,,0,.,.,SD-SD,SD,SD,SD,SD,,2016-12-27 00:00:00,SD,False
182,2017-0042,1,2017-04-10,1900-01-01 09:00:00,GRAL PAZ,,14,.,.,MOTO-CARGAS,MOTO,CARGAS,CONDUCTOR,MASCULINO,,2017-04-10 09:00:00,SD,False
186,2017-0050,2,2017-04-28,1900-01-01 11:08:08,AUTOPISTA,,9,.,.,MOTO-CARGAS,MOTO,CARGAS,CONDUCTOR,MASCULINO,46.0,2017-04-28 11:08:08,45-64,False
187,2017-0050,2,2017-04-28,1900-01-01 11:08:08,AUTOPISTA,,9,.,.,MOTO-CARGAS,MOTO,CARGAS,PASAJERO_ACOMPAÑANTE,MASCULINO,16.0,2017-04-28 11:08:08,0-17,False
188,2017-0051,1,2017-05-01,1900-01-01 03:47:47,AUTOPISTA,,7,.,.,AUTO-AUTO,AUTO,AUTO,CONDUCTOR,MASCULINO,33.0,2017-05-01 03:47:47,30-44,False
266,2017-0140,1,2017-11-19,1900-01-01 23:22:17,AUTOPISTA,,4,.,.,MOTO-PASAJEROS,MOTO,PASAJEROS,CONDUCTOR,MASCULINO,24.0,2017-11-19 23:22:17,18-29,False
327,2018-0039,1,2018-04-21,1900-01-01 22:15:00,AUTOPISTA,,14,.,.,PEATON-AUTO,PEATON,AUTO,PEATON,MASCULINO,37.0,2018-04-21 22:15:00,30-44,False


In [186]:
# Se reemplazan los valores faltantes por 0
homicidios_df[['pos x', 'pos y']] = homicidios_df[['pos x', 'pos y']].replace('.', 0)
homicidios_df[homicidios_df['pos x'] == 0].sample()


Unnamed: 0,ID,N_VICTIMAS,FECHA,HORA,TIPO_DE_CALLE,Cruce,COMUNA,pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO,ROL,SEXO,EDAD,fecha_hora,rango_edad,es_cruce
188,2017-0051,1,2017-05-01,1900-01-01 03:47:47,AUTOPISTA,,7,0,0,AUTO-AUTO,AUTO,AUTO,CONDUCTOR,MASCULINO,33.0,2017-05-01 03:47:47,30-44,False


In [187]:
homicidios_df.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'HORA', 'TIPO_DE_CALLE', 'Cruce', 'COMUNA',
       'pos x', 'pos y', 'PARTICIPANTES', 'VICTIMA', 'ACUSADO', 'ROL', 'SEXO',
       'EDAD', 'fecha_hora', 'rango_edad', 'es_cruce'],
      dtype='object')

In [188]:
columns = ['FECHA', 'HORA', 'Cruce', 'EDAD']
homicidios_df.drop(columns, axis=1, inplace=True)
homicidios_df.columns

Index(['ID', 'N_VICTIMAS', 'TIPO_DE_CALLE', 'COMUNA', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO', 'ROL', 'SEXO', 'fecha_hora',
       'rango_edad', 'es_cruce'],
      dtype='object')

In [189]:
# Se convierten los nombres de las columnas a minúsculas
homicidios_df.columns = [x.lower() for x in homicidios_df.columns]

# Se renombran algunas columnas
homicidios_df.rename(columns={'pos x':'longitud', 'pos y':'latitud'}, inplace=True)
homicidios_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   id             717 non-null    object        
 1   n_victimas     717 non-null    int64         
 2   tipo_de_calle  717 non-null    object        
 3   comuna         717 non-null    int64         
 4   longitud       717 non-null    object        
 5   latitud        717 non-null    object        
 6   participantes  717 non-null    object        
 7   victima        717 non-null    object        
 8   acusado        717 non-null    object        
 9   rol            717 non-null    object        
 10  sexo           717 non-null    object        
 11  fecha_hora     717 non-null    datetime64[ns]
 12  rango_edad     717 non-null    category      
 13  es_cruce       717 non-null    bool          
dtypes: bool(1), category(1), datetime64[ns](1), int64(2), object(9)
memory usa

## 3 Carga

In [193]:
def dataframe_to_csv(dataframe:pd.DataFrame, folder_path:str, file_name:str):

    """
    Guarda un DataFrame en un archivo CSV.

    Args:
        dataframe: El DataFrame que queremos exportar.
        folder_path: La ruta de destino del archivo.
        file_name: El nombre del archivo.

    Returns:
        None
    """

    # Verificamos si el folder_path existe
    if not os.path.exists(folder_path):
        # Si no existe, lo creamos
        os.makedirs(folder_path)

    # Exportamos el DataFrame a un archivo CSV
    dataframe.to_csv(os.path.join(folder_path, file_name), index=False)

    print(f'El archivo {file_name} se guardó correctamente en {folder_path}')

In [194]:
# Definimos la ruta de destino y el nombre del archivo.
folder_path = '../data/processed/'
file_name = 'homicidios_processed.csv'

dataframe_to_csv(homicidios_df,folder_path,file_name)

El archivo homicidios_processed.csv se guardó correctamente en ../data/processed/


## 4 Referencias

* Buenos Aires Data | Siniestros viales. (s. f.). Buenos Aires Data. https://data.buenosaires.gob.ar/dataset/victimas-siniestros-viales