# ETL del archivo `homicidios.xlxs`

### Importamos librerias 

In [112]:
import pandas as pd 
import numpy as np 


El archivo `homicidios.xlxs` contiene 5 hojas con informacion sobre Accidentes viales dentro de la Ciudad Autonoma de Buenos Aires (CABA).
* Primer hoja 'HECHOS' : esta hoja contiene informacion sobre todo lo relacionado a los accidentes viales dentro de CABA.
* Segunda hoja 'DICCIONARIO_HECHOS': esta hoja contiene un diccionario donde se explica a que hace referencia cada columna de la hoja 'HECHOS'
* Tercer hoja 'VICTIMAS': esta hoja contiene los datos de personas fallecidas en un siniestro vial.
* Cuarta hoja 'DICCIONARIO_VICTIMAS': esta hoja contiene un diccionario donde se explica a que hace referencia cada columna de la hoja 'VICTIMAS'

Procedemos a cargar los datos del archivo `homicidios.xlsx` y convertimos cada hoja del archivo en un dataframe. 

In [113]:
# Lee todas las hojas del archivo Excel
excel_homicidios = pd.ExcelFile('datasets/homicidios.xlsx')

# Obtén una lista de nombres de todas las hojas
nombres_hojas = excel_homicidios.sheet_names

# Itera sobre cada hoja y crea un dataframe para cada una
for hoja in nombres_hojas:
    # Lee la hoja específica y crea un dataframe con el nombre de la hoja
    globals()[hoja] = excel_homicidios.parse(hoja)


In [114]:
nombres_hojas #llamamos a la lista para ver el nombre de las hojas 

['HECHOS', 'DICCIONARIO_HECHOS', 'VICTIMAS', 'DICCIONARIO_VICTIMAS', 'clas']

In [115]:
#llamamos al df con el nombre de la hoja y lo guardamos en una variable 
hechos_homicidios = HECHOS
hechos_homicidios.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [116]:
#hacemos lo mismo que el paso anterior pero con la hoja VICTIMA
victimas_homicidios = VICTIMAS
victimas_homicidios.head()

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


Procedemos a ver los duplicados

In [117]:
hechos_homicidios[hechos_homicidios.duplicated()]

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO


In [118]:
victimas_homicidios[victimas_homicidios.duplicated()]

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO


Como podemos observar, ambos dataframes no contienen duplicados. Una vez que sabemos esto, procedemos a ver los nulos.

In [119]:
hechos_homicidios.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

Como podemos ver, la columna 'Altura' contiene 567 valores nulos. Teniendo en cuenta esta informacion y luego de ver que dicha columna no es importante para nuestro analisis, procedemos a eliminarla

In [120]:
hechos_homicidios = hechos_homicidios.drop(columns='Altura')
hechos_homicidios.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS


Procedemos a eliminar la columna 'DD' ya que no es relevante para nuestro analisis. 

In [121]:
hechos_homicidios = hechos_homicidios.drop(columns='DD')
hechos_homicidios.shape

(696, 19)

Eliminamos la columna 'Cruce' la cual contiene varios valores nulos y ademas el resto de los datos no proporcionan informacion relevante para nuestro analisis

In [122]:
hechos_homicidios = hechos_homicidios.drop(columns='Cruce')
hechos_homicidios.head(2)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.","PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS


Teniendo en cuenta que la columna 'HH' representa la franja horaria, decidimos eliminar la columna 'HORA' y cambiar el nombre de la columna 'HH' a 'FRANJA_HORARIA'

In [123]:
hechos_homicidios = hechos_homicidios.drop(columns='HORA')

In [124]:
hechos_homicidios = hechos_homicidios.rename(columns={'HH': 'FRANJA_HORARIA'})

In [125]:
hechos_homicidios.head()

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,FRANJA_HORARIA,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.","PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


Como ultimo cambio dentro del dataframe `hechos_homicidios.xlsx` pondremos el nombre de todas las columnas en mayuscula para tener una disposicion mas homogenea de los datos 

In [126]:
hechos_homicidios.columns = hechos_homicidios.columns.str.upper()
hechos_homicidios.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'FRANJA_HORARIA',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'CALLE', 'DIRECCIÓN NORMALIZADA',
       'COMUNA', 'XY (CABA)', 'POS X', 'POS Y', 'PARTICIPANTES', 'VICTIMA',
       'ACUSADO'],
      dtype='object')

Ahora veremos los datos nulos del dataframe `victimas_homicidios`

In [127]:
victimas_homicidios.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

Como podemos observar, el dataframe `victimas_homicidios` no contiene valores nulos. por lo cual procedemos a eliminar la columna 'DD' que no es de importancia para nuestro analisis

In [128]:
victimas_homicidios = victimas_homicidios.drop(columns='DD')
victimas_homicidios.head(5)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


Procedemos a cambiar el nombre de la columna 'ID_hecho' por 'ID', con el objetivo de luego hacer un merge de ambos dataframes con el parametro on='ID'.

In [133]:
victimas_homicidios = victimas_homicidios.rename(columns={'ID_hecho': 'ID'})

In [134]:
victimas_homicidios.head(1)

Unnamed: 0,ID,FECHA,AAAA,MM,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00


Una vez terminada la eliminacion de columnas innecesarias y duplicados de ambos dataframe, procedemos a ver como esta conformado los tipos de datos de cada columna

In [135]:
hechos_homicidios.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
FRANJA_HORARIA                   object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
CALLE                            object
DIRECCIÓN NORMALIZADA            object
COMUNA                            int64
XY (CABA)                        object
POS X                            object
POS Y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [136]:
victimas_homicidios.dtypes

ID                             object
FECHA                  datetime64[ns]
AAAA                            int64
MM                              int64
ROL                            object
VICTIMA                        object
SEXO                           object
EDAD                           object
FECHA_FALLECIMIENTO            object
dtype: object

### Procedemos a guardar los dataframes en formato CSV

In [131]:
hechos_homicidios.to_csv('datasets_limpios/hechos_homicidios.csv', index=False, encoding='utf-8')

In [132]:
victimas_homicidios.to_csv('datasets_limpios/victimas_homicidios.csv', index=False, encoding='utf-8')