In [212]:
import pandas as pd
import numpy as np
import datetime

# 1

## Extracción, transformación y carga de los datos de homicidios.xlsx, devolviendo un df 'homicidios' que contiene 717 registros de víctimas fatales asociadas con los 696 hechos a través de un ID.

In [213]:
hechos_hom = pd.read_excel('homicidios.xlsx', sheet_name='HECHOS')
victimas_hom = pd.read_excel('homicidios.xlsx', sheet_name='VICTIMAS')

In [214]:
hechos_h = hechos_hom.copy()
victimas_h = victimas_hom.copy()

Extracción de columnas a utilizar de ambas tablas

In [215]:
hechos_h = hechos_h[['ID','FECHA','AAAA','MM','DD','HH','COMUNA','pos x','pos y','TIPO_DE_CALLE','ACUSADO']]
victimas_h = victimas_h[['ID_hecho','VICTIMA']]

Normalización del nombre de las columnas

In [216]:
hechos_h.rename(columns={'AAAA': 'A','MM': 'M', 'DD': 'D', 'HH': 'H',
                         'pos x': 'LONGITUD', 'pos y': 'LATITUD', 'TIPO_DE_CALLE': 'TIPO_CALLE'}, inplace=True)
victimas_h.rename(columns={'ID_hecho': 'ID'}, inplace=True)

In [217]:
hechos_h.shape

(696, 11)

In [218]:
victimas_h.shape

(717, 2)

Merge entre ambas tablas, por medio de ID

In [219]:
homicidios = pd.merge(hechos_h, victimas_h, on='ID', how='right')

In [220]:
homicidios.shape

(717, 12)

Agregamos la columna fatal con valor 1, para luego al unir con el df de lesiones, diferenciar fatal 1 o 0

In [221]:
homicidios['FATAL'] = 1

Pasamos FECHA a formato date

In [222]:
homicidios['FECHA'] = pd.to_datetime(homicidios['FECHA'])

In [223]:
homicidios

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
0,2016-0001,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,AVENIDA,AUTO,MOTO,1
1,2016-0002,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,GRAL PAZ,PASAJEROS,AUTO,1
2,2016-0003,2016-01-03,2016,1,3,7,1,-58.39040293,-34.63189362,AVENIDA,AUTO,MOTO,1
3,2016-0004,2016-01-10,2016,1,10,0,8,-58.46503904,-34.68092974,AVENIDA,SD,MOTO,1
4,2016-0005,2016-01-21,2016,1,21,5,1,-58.38718297,-34.62246630,AVENIDA,PASAJEROS,MOTO,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
712,2021-0092,2021-12-12,2021,12,12,6,3,-58.40596860,-34.61011987,AVENIDA,AUTO,PEATON,1
713,2021-0093,2021-12-13,2021,12,13,17,7,-58.43353773,-34.64561636,AVENIDA,AUTO,MOTO,1
714,2021-0094,2021-12-20,2021,12,20,1,9,-58.46739825,-34.65117757,AUTOPISTA,AUTO,MOTO,1
715,2021-0095,2021-12-30,2021,12,30,0,11,-58.47293407,-34.61984745,AVENIDA,CARGAS,MOTO,1


Eliminamos único registro con H sin dato

In [224]:
homicidios[homicidios['H'] == 'SD']

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
537,2019-0103,2019-12-18,2019,12,18,SD,11,-58.52169422,-34.5947164,GRAL PAZ,MOTO,MOTO,1


In [225]:
homicidios = homicidios[homicidios['H'] != 'SD']

Pasamos H a int

In [226]:
homicidios = homicidios.copy()
homicidios['H'] = homicidios['H'].astype(int)

In [227]:
homicidios.info()

<class 'pandas.core.frame.DataFrame'>
Index: 716 entries, 0 to 716
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          716 non-null    object        
 1   FECHA       716 non-null    datetime64[ns]
 2   A           716 non-null    int64         
 3   M           716 non-null    int64         
 4   D           716 non-null    int64         
 5   H           716 non-null    int32         
 6   COMUNA      716 non-null    int64         
 7   LONGITUD    716 non-null    object        
 8   LATITUD     716 non-null    object        
 9   TIPO_CALLE  716 non-null    object        
 10  ACUSADO     716 non-null    object        
 11  VICTIMA     716 non-null    object        
 12  FATAL       716 non-null    int64         
dtypes: datetime64[ns](1), int32(1), int64(5), object(6)
memory usage: 75.5+ KB


***

# 2

## Extracción, transformación y carga de los datos de lesiones.xlsx, devolviendo un df 'lesiones' que contiene 27605 registros de víctimas con lesiones asociadas con los 23785 hechos a través de un ID.

In [228]:
hechos_les = pd.read_excel('lesiones.xlsx', sheet_name='HECHOS')
victimas_les = pd.read_excel('lesiones.xlsx', sheet_name='VICTIMAS')

In [229]:
hechos_l = hechos_les.copy()
victimas_l = victimas_les.copy()

Extracción de columnas a utilizar de ambas tablas

In [230]:
hechos_l = hechos_l[['id','fecha','aaaa','mm','dd','franja_hora','comuna','longitud','latutid','tipo_calle','acusado']]
victimas_l = victimas_l[['ID hecho','VEHICULO_VICTIMA']]

Normalización del nombre de las columnas

In [231]:
hechos_l.rename(columns={'id':'ID','fecha':'FECHA','aaaa':'A','mm':'M','dd':'D','franja_hora':'H',
                         'comuna':'COMUNA','longitud':'LONGITUD','latutid':'LATITUD','tipo_calle':'TIPO_CALLE','acusado':'ACUSADO'}, inplace=True)
victimas_l.rename(columns={'ID hecho':'ID','VEHICULO_VICTIMA':'VICTIMA'}, inplace=True)


In [232]:
hechos_l.shape

(23785, 11)

In [233]:
victimas_l.shape

(27605, 2)

Merge entre ambas tablas, por medio de ID

In [234]:
lesiones = pd.merge(hechos_l, victimas_l, on='ID', how='right')

In [235]:
lesiones.shape

(27605, 12)

Agregamos la columna fatal con valor 0, para luego al unir con el df de lesiones, diferenciar fatal 1 o 0

In [236]:
lesiones['FATAL'] = 0

Pasamos FECHA a formato date

In [237]:
lesiones['FECHA'] = pd.to_datetime(lesiones['FECHA'])

In [238]:
lesiones

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
0,LC-2019-0000053,2019-01-01,2019.0,1.0,1.0,1,8,-58.44351,-34.669125,SD,SD,sd,0
1,LC-2019-0000063,2019-01-01,2019.0,1.0,1.0,2,8,-58.468335,-34.677556,SD,SD,sd,0
2,LC-2019-0000079,2019-01-01,2019.0,1.0,1.0,2,7,-58.437425,-34.647349,SD,SD,sd,0
3,LC-2019-0000082,2019-01-01,2019.0,1.0,1.0,4,3,-58.398225,-34.604579,SD,SD,sd,0
4,LC-2019-0000082,2019-01-01,2019.0,1.0,1.0,4,3,-58.398225,-34.604579,SD,SD,sd,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
27600,LC-2021-0451911,2021-09-11,2021.0,9.0,11.0,18,14,-58.420119387377,-34.581370448309,AVENIDA,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
27601,LC-2021-0530228,2021-10-25,2021.0,10.0,25.0,12,14,-58.406897,-34.581142,SD,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
27602,LC-2021-0530228,2021-10-25,2021.0,10.0,25.0,12,14,-58.406897,-34.581142,SD,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
27603,LC-2021-0201378,2021-05-02,2021.0,5.0,2.0,0,SD,SD,SD,SD,OBJETO FIJO,MOTO,0


In [239]:
lesiones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27605 entries, 0 to 27604
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          27605 non-null  object        
 1   FECHA       27598 non-null  datetime64[ns]
 2   A           27598 non-null  float64       
 3   M           27598 non-null  float64       
 4   D           27598 non-null  float64       
 5   H           27593 non-null  object        
 6   COMUNA      27420 non-null  object        
 7   LONGITUD    27328 non-null  object        
 8   LATITUD     27328 non-null  object        
 9   TIPO_CALLE  27598 non-null  object        
 10  ACUSADO     27598 non-null  object        
 11  VICTIMA     27605 non-null  object        
 12  FATAL       27605 non-null  int64         
dtypes: datetime64[ns](1), float64(3), int64(1), object(8)
memory usage: 2.7+ MB


Borro los 7 valores con Año nulo, ya que son registros casi sin datos

In [240]:
lesiones[lesiones['A'].isna()]

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
11790,PNA-2019-0005246,NaT,,,,,,,,,,sd,0
16186,HC-2020-0499647,NaT,,,,,,,,,,AUTO,0
16187,HC-2020-0499647,NaT,,,,,,,,,,AUTO,0
16188,HC-2020-0499647,NaT,,,,,,,,,,AUTO,0
22821,HC-2021-0147160,NaT,,,,,,,,,,SD,0
22822,HC-2021-0147160,NaT,,,,,,,,,,SD,0
26799,HC-2021-0167039,NaT,,,,,,,,,,PEATON,0


In [241]:
lesiones.dropna(subset=['A'], inplace=True)

paso Año, Mes y Día a entero

In [242]:
lesiones = lesiones.copy()
lesiones['A'] = lesiones['A'].astype(int)

In [243]:
lesiones = lesiones.copy()
lesiones['M'] = lesiones['M'].astype(int)

In [244]:
lesiones = lesiones.copy()
lesiones['D'] = lesiones['D'].astype(int)

Paso Hora a entero

In [245]:
lesiones[lesiones['H'] == 'sd']

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
11783,PFA-2019-0000120,2019-02-26,2019,2,26,sd,,,,SD,SD,sd,0
11784,PFA-2019-0000301,2019-11-04,2019,11,4,sd,,,,SD,SD,sd,0
18744,LC-2021-0448511,2021-08-23,2021,8,23,sd,SD,SD,SD,SD,SD,SD,0


In [246]:
lesiones = lesiones[lesiones['H'] != 'sd']
lesiones = lesiones.dropna(subset=['H'])

In [247]:
lesiones = lesiones.copy()
lesiones['H'] = lesiones['H'].astype(int)

***

### Exportamos como csv de respaldo el df homicidios y el df lesiones con los merge y normalizaciones ya realizados

In [248]:
#homicidios.to_csv('homicidiosETL.csv', index=False)
#lesiones.to_csv('lesionesETL.csv', index=False)
#hom = pd.read_csv('homicidiosETL.csv')
#les = pd.read_csv('lesionesETL.csv')

***

# 3

## Concatenación de ambos df (homicidios y lesiones), en un archivo total, llamado siniestrosETL.csv, donde se encuentran los 28322 registros totales que incluyen las 28322 víctimas (717 fatales + 27605 lesionadas) y se relacionan con un hecho específico de los 24481 hechos registrados (23785 con lesiones + 696 con víctimas fatales)

In [249]:
hom = homicidios.copy()
les = lesiones.copy()

In [250]:
siniestros = pd.concat([hom, les], ignore_index=True)

In [251]:
siniestros

Unnamed: 0,ID,FECHA,A,M,D,H,COMUNA,LONGITUD,LATITUD,TIPO_CALLE,ACUSADO,VICTIMA,FATAL
0,2016-0001,2016-01-01,2016,1,1,4,8,-58.47533969,-34.68757022,AVENIDA,AUTO,MOTO,1
1,2016-0002,2016-01-02,2016,1,2,1,9,-58.50877521,-34.66977709,GRAL PAZ,PASAJEROS,AUTO,1
2,2016-0003,2016-01-03,2016,1,3,7,1,-58.39040293,-34.63189362,AVENIDA,AUTO,MOTO,1
3,2016-0004,2016-01-10,2016,1,10,0,8,-58.46503904,-34.68092974,AVENIDA,SD,MOTO,1
4,2016-0005,2016-01-21,2016,1,21,5,1,-58.38718297,-34.62246630,AVENIDA,PASAJEROS,MOTO,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...
28301,LC-2021-0451911,2021-09-11,2021,9,11,18,14,-58.420119387377,-34.581370448309,AVENIDA,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
28302,LC-2021-0530228,2021-10-25,2021,10,25,12,14,-58.406897,-34.581142,SD,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
28303,LC-2021-0530228,2021-10-25,2021,10,25,12,14,-58.406897,-34.581142,SD,TRANSPORTE PUBLICO,TRANSPORTE PUBLICO,0
28304,LC-2021-0201378,2021-05-02,2021,5,2,0,SD,SD,SD,SD,OBJETO FIJO,MOTO,0


In [252]:
siniestros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28306 entries, 0 to 28305
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          28306 non-null  object        
 1   FECHA       28306 non-null  datetime64[ns]
 2   A           28306 non-null  int64         
 3   M           28306 non-null  int64         
 4   D           28306 non-null  int64         
 5   H           28306 non-null  int32         
 6   COMUNA      28130 non-null  object        
 7   LONGITUD    28038 non-null  object        
 8   LATITUD     28038 non-null  object        
 9   TIPO_CALLE  28306 non-null  object        
 10  ACUSADO     28306 non-null  object        
 11  VICTIMA     28306 non-null  object        
 12  FATAL       28306 non-null  int64         
dtypes: datetime64[ns](1), int32(1), int64(4), object(7)
memory usage: 2.7+ MB


Exportación del archivo siniestrosETL.csv

In [253]:
siniestros.to_csv('siniestrosETL.csv', index=False)

***