                                        Extract Transform Loading                                             


Para empezar este proyecto de An√°lisis de Datos, debemos entender d√≥nde estamos parados, con qu√© datos contamos, y en qu√© estado se encuentran. Para ello, comenzaremos con un proceso de ETL (Extracci√≥n, Transformaci√≥n y Carga de Datos) con el cual recopilaremos lo necesario.

In [1]:
# Importamos las librer√≠as necesarias para este proceso de ETL
import pandas as pd # Librer√≠a de manipulaci√≥n y an√°lisis de datos.
import numpy as np # Librer√≠a fundamental para la computaci√≥n cient√≠fica en Python. 
import matplotlib.pyplot as plt # Librer√≠a para crear visualizaciones y gr√°ficos en Python.
import seaborn as sns # Librer√≠a para crear gr√°ficos estad√≠sticos e informativos.
import funciones # De funciones.py, donde se encuentran las funciones que utilizaremos en este Python.

Como nuestros datasets est√°n en un archivo .XLSX (Excel), lo mejor que podemos hacer es crear dataframes de PANDAS para trabajarlos m√°s c√≥modamente.

In [2]:
# Especificamos la ruta del archivo Excel
archivo_excel = (r"Datasets\homicidios.xlsx")

# Especificamos los nombres de las hojas que contiene nuestro Dataset
nombres_hojas = ["HECHOS", "VICTIMAS"]

# Importamos las hojas del archivo Excel como Dataframes separados
dataframes = pd.read_excel(archivo_excel, sheet_name=nombres_hojas)

# Accedemos a cada Dataframe por su nombre de hoja
df_hechos = dataframes["HECHOS"]
df_victimas = dataframes["VICTIMAS"]

                                    Comenzamos el primer an√°lisis de df_hechos                                            

In [3]:
print(df_hechos.head())  # Mostramos las primeras 5 filas del Dataframe
print(df_hechos.shape)   # Mostramos la cantidad de filas y columnas del Dataframe

          ID  N_VICTIMAS      FECHA  AAAA  MM  DD      HORA HH  \
0  2016-0001           1 2016-01-01  2016   1   1  04:00:00  4   
1  2016-0002           1 2016-01-02  2016   1   2  01:15:00  1   
2  2016-0003           1 2016-01-03  2016   1   3  07:00:00  7   
3  2016-0004           1 2016-01-10  2016   1  10  00:00:00  0   
4  2016-0005           1 2016-01-21  2016   1  21  05:20:00  5   

                             LUGAR_DEL_HECHO TIPO_DE_CALLE  ...  Altura  \
0  AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ       AVENIDA  ...     NaN   
1          AV GRAL PAZ  Y AV DE LOS CORRALES      GRAL PAZ  ...     NaN   
2                         AV ENTRE RIOS 2034       AVENIDA  ...  2034.0   
3      AV LARRAZABAL Y GRAL VILLEGAS CONRADO       AVENIDA  ...     NaN   
4  AV SAN JUAN Y PRESIDENTE LUIS SAENZ PE√ëA        AVENIDA  ...     NaN   

                                 Cruce  \
0  FERNANDEZ DE LA CRUZ, F., GRAL. AV.   
1                  DE LOS CORRALES AV.   
2                        

In [4]:
funciones.verificar_tipo_datos(df_hechos) # Llamamos la funci√≥n 'verificar_tipo_datos' que se encuentra en el archivo funciones.py, para tener un an√°lisis detallado sobre los datos que contiene nuestro Dataframe

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,N_VICTIMAS,[<class 'int'>],100.0,0.0,0
2,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
3,AAAA,[<class 'int'>],100.0,0.0,0
4,MM,[<class 'int'>],100.0,0.0,0
5,DD,[<class 'int'>],100.0,0.0,0
6,HORA,"[<class 'datetime.time'>, <class 'str'>, <clas...",100.0,0.0,0
7,HH,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
8,LUGAR_DEL_HECHO,[<class 'str'>],100.0,0.0,0
9,TIPO_DE_CALLE,[<class 'str'>],100.0,0.0,0


In [13]:
funciones.verifica_duplicados_por_columna(df_hechos, 'ID') # Llamamos a la funci√≥n 'verifica_duplicados_por_columna', detallada en el archivo funciones.py, y nos posicionamos en la columna 'ID' para corroborar que no se encuentren filas duplicadas 

'No hay duplicados'

                                         Descripci√≥n del DataFrame df_hechos                                               

Este conjunto de datos contiene informaci√≥n sobre siniestros viales en la Ciudad Aut√≥noma de Buenos Aires. Consta de 21 columnas y 696 filas, aunque algunas columnas a√∫n contienen valores nulos, no posee filas duplicadas. A continuaci√≥n se detallan las columnas:

üöë N_VICTIMAS: Cantidad de personas que participaron del siniestro vial.

üìÖ FECHA: Fecha en que ocurri√≥ el hecho, en formato YYYY-MM-DD.

üìÜ AAAA: A√±o en que ocurri√≥ el hecho.

üóìÔ∏è MM: Mes en que ocurri√≥ el hecho.

üìÜ DD: D√≠a en que ocurri√≥ el hecho.

‚è∞ HORA: Hora en que ocurri√≥ el hecho.

üïí HH: Franja horaria en que ocurri√≥ el hecho.

üìç LUGAR_DEL_HECHO: Sitio donde ocurri√≥ el hecho.

üõ£Ô∏è TIPO_DE_CALLE: Tipo de pavimento donde ocurri√≥ el hecho.

üèôÔ∏è Calle: Nombre de la calle donde ocurri√≥ el hecho.

üè¢ Altura: Altura num√©rica de la calle donde ocurri√≥ el hecho.

‚õî Cruce: En caso de ser una encrucijada, calle que cruza.

üõ£Ô∏è Direcci√≥n normalizada: Es la direcci√≥n normalizada seg√∫n USIG.

üèòÔ∏è COMUNA: Comuna de la ciudad donde ocurri√≥ el hecho. (Unidades pol√≠tico administrativas en las que se divide la Ciudad Aut√≥noma de Buenos Aires)

üó∫Ô∏è XY (CABA): Geocodificaci√≥n plana.

üó∫Ô∏è pos x: Longitud con separador punto. WGS84

üó∫Ô∏è pos y: Latitud con separador punto. WGS84

üë• PARTICIPANTES: Conjunci√≥n de v√≠ctima y acusado.

üöó VICTIMAS: Veh√≠culo que ocupaba quien haya fallecido o se haya lastimado a ra√≠z del hecho, o bien peat√≥n/a. Clasificaci√≥n agregada del tipo de veh√≠culos.

üöì ACUSADO: Veh√≠culo que ocupaba quien result√≥ acusado/a del hecho, sin implicar culpabilidad legal.

Este resumen proporciona una visi√≥n general de la estructura y el contenido del DataFrame üìäüèûÔ∏è

                                            Limpieza del Dataframe df_hechos                                      

Como pudimos ver anteriormente, existen cuatro (4) columnas con datos nulos, la m√°s grave es la columna 'Altura' con un 81.47% de datos nulos. Por lo tanto, la analizaremos por separado.

In [8]:
# Creamos un nuevo DataFrame con las filas donde 'Altura' no es nulo
df_hechos_con_altura = df_hechos.dropna(subset=['Altura'])
df_hechos_con_altura = df_hechos_con_altura.drop(columns=['Cruce'])

# Eliminamos la columna 'Altura' del DataFrame original
df_hechos = df_hechos.drop(columns=['Altura'])

Al eliminar la columna 'Altura', podemos observar que si bien es la columna con mayor cantidad de nulos, no es la √∫nica que puede llegar a ser irrelevante. Tambi√©n nos encontramos con que hay muchas columnas innecesarias que simplemente repiten la informaci√≥n. Por ejemplo: 
* ['Fecha'] = (['AAAA'], ['MM'], ['DD'])
* ['HORA'] = ['HH']
* ['XY (CABA)'] = (['pos x'], ['pos y'])
* ['LUGAR_DEL_HECHO] = (['Calle'], ['Cruce'], ['Direcci√≥n Normalizada'])

In [18]:
# Imprimimos r√°pidamente una fila de nuestro Dataframe para justificar nuestro an√°lisis
df_columnas_parecidas = ["AAAA", "MM", "DD","FECHA", "HH","HORA","Direcci√≥n Normalizada", "Calle", "Cruce","LUGAR_DEL_HECHO"]
print(df_hechos[df_columnas_parecidas].loc[10])

AAAA                                                  2016
MM                                                       2
DD                                                      14
FECHA                                  2016-02-14 00:00:00
HH                                                       5
HORA                                              05:14:00
Direcci√≥n Normalizada    SCALABRINI ORTIZ, RAUL AV. y VERA
Calle                           SCALABRINI ORTIZ, RAUL AV.
Cruce                                                 VERA
LUGAR_DEL_HECHO                 AV SCALABRINI ORTIZ Y VERA
Name: 10, dtype: object


Para un mejor manejo de nuestros datos, decimidos eliminar las columnas antes nombradas, junto a la columna 'XY (CABA)', ya que preferimos utilizar las columnas de 'pos x' y 'pos y' para ubicar geogr√°ficamente nuestros datos.

In [20]:
# Utilizamos el comando drop
df_hechos = df_hechos.drop(columns=["AAAA", "MM", "DD","FECHA", "HH","HORA","Direcci√≥n Normalizada", "Calle", "Cruce","LUGAR_DEL_HECHO", "XY (CABA)"])

Ahora, el Dataframe df_hechos tiene s√≥lo los datos que utilizaremos, quitando columnas sin relevancia.

In [24]:
# Volvemos a llamar a la funci√≥n 'verificar_tipo_datos'
print(funciones.verificar_tipo_datos(df_hechos))
df_hechos.shape

    nombre_campo       tipo_datos  no_nulos_%  nulos_%  nulos
0             ID  [<class 'str'>]       100.0      0.0      0
1     N_VICTIMAS  [<class 'int'>]       100.0      0.0      0
2  TIPO_DE_CALLE  [<class 'str'>]       100.0      0.0      0
3         COMUNA  [<class 'int'>]       100.0      0.0      0
4          pos x  [<class 'str'>]       100.0      0.0      0
5          pos y  [<class 'str'>]       100.0      0.0      0
6  PARTICIPANTES  [<class 'str'>]       100.0      0.0      0
7        VICTIMA  [<class 'str'>]       100.0      0.0      0
8        ACUSADO  [<class 'str'>]       100.0      0.0      0


(696, 9)

As√≠ conclu√≠mos el proceso de ETL para nuestro primer dataset, con un Dataframe de pandas que contiene 696 filas, 9 columnas, ning√∫n duplicado, y ning√∫n dato nulo 

                                    Comenzamos el segundo an√°lisis df_victimas                                            

Ahora, vamos a analizar la otra p√°gina del dataset, guardada en un archivo diferente de pandas llamado df_victimas

In [None]:
print(df_victimas.head())  # Mostramos las primeras 5 filas 
print(df_victimas.shape)   # Imprimimos el tama√±o de nuestro Dataframe

    ID_hecho      FECHA  AAAA  MM  DD        ROL VICTIMA       SEXO EDAD  \
0  2016-0001 2016-01-01  2016   1   1  CONDUCTOR    MOTO  MASCULINO   19   
1  2016-0002 2016-01-02  2016   1   2  CONDUCTOR    AUTO  MASCULINO   70   
2  2016-0003 2016-01-03  2016   1   3  CONDUCTOR    MOTO  MASCULINO   30   
3  2016-0004 2016-01-10  2016   1  10  CONDUCTOR    MOTO  MASCULINO   18   
4  2016-0005 2016-01-21  2016   1  21  CONDUCTOR    MOTO  MASCULINO   29   

   FECHA_FALLECIMIENTO  
0  2016-01-01 00:00:00  
1  2016-01-02 00:00:00  
2  2016-01-03 00:00:00  
3                   SD  
4  2016-02-01 00:00:00  
(717, 10)


En nuestro primer vistazo, notamos que el Dataframe sigue un formato muy parecido al anteriormente analizado, df_hechos. En este caso, con 717 filas para 10 columnas.

In [11]:
# Una vez m√°s, llamamos a nuestra funci√≥n 'verificar_tipo_datos' para tener un mejor pantallazo de nuestro Dataframe
funciones.verificar_tipo_datos(df_victimas)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,ID_hecho,[<class 'str'>],100.0,0.0,0
1,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
2,AAAA,[<class 'int'>],100.0,0.0,0
3,MM,[<class 'int'>],100.0,0.0,0
4,DD,[<class 'int'>],100.0,0.0,0
5,ROL,[<class 'str'>],100.0,0.0,0
6,VICTIMA,[<class 'str'>],100.0,0.0,0
7,SEXO,[<class 'str'>],100.0,0.0,0
8,EDAD,"[<class 'int'>, <class 'str'>]",100.0,0.0,0
9,FECHA_FALLECIMIENTO,"[<class 'datetime.datetime'>, <class 'str'>]",100.0,0.0,0


Vemos que los tipos de datos est√°n correctos, y adem√°s, no contienen ning√∫n dato nulo. 

In [12]:
# Por √∫ltimo, comprobamos los duplicados llamando a nuestra funci√≥n 'verifica_duplicados_por_columna' en la columna 'ID_hecho'.
funciones.verifica_duplicados_por_columna(df_victimas, 'ID_hecho')

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
29,2016-0041,2016-03-29,2016,3,29,CONDUCTOR,MOTO,MASCULINO,54,2016-03-29 00:00:00
30,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPA√ëANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
98,2016-0126,2016-09-18,2016,9,18,CONDUCTOR,AUTO,MASCULINO,37,SD
99,2016-0126,2016-09-18,2016,9,18,PASAJERO_ACOMPA√ëANTE,AUTO,MASCULINO,60,SD
163,2017-0026,2017-02-26,2017,2,26,PASAJERO_ACOMPA√ëANTE,AUTO,FEMENINO,23,2017-02-26 00:00:00
164,2017-0026,2017-02-26,2017,2,26,CONDUCTOR,AUTO,MASCULINO,19,2017-02-26 00:00:00
173,2017-0035,2017-03-23,2017,3,23,CONDUCTOR,AUTO,MASCULINO,28,2017-03-23 00:00:00
174,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPA√ëANTE,AUTO,MASCULINO,32,2017-03-23 00:00:00
175,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPA√ëANTE,AUTO,MASCULINO,30,2017-03-23 00:00:00
177,2017-0036,2017-03-29,2017,3,29,CONDUCTOR,MOTO,MASCULINO,20,2017-03-29 00:00:00


Nuestra funci√≥n nos muestra que existen varias filas duplicadas, sin embargo, debemos analizar que los casos duplicados realmente lo sean.

In [None]:
# Para corroborar nuestras sospechas, llamamos a un subset del Dataframe s√≥lo para un mismo 'ID_hecho' 
df_victimas[df_victimas['ID_hecho']=='2017-0035']

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
173,2017-0035,2017-03-23,2017,3,23,CONDUCTOR,AUTO,MASCULINO,28,2017-03-23 00:00:00
174,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPA√ëANTE,AUTO,MASCULINO,32,2017-03-23 00:00:00
175,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPA√ëANTE,AUTO,MASCULINO,30,2017-03-23 00:00:00


Como se puede apreciar, no se tratan de filas duplicadas, si no de distintos accidentados dentro del mismo siniestro vial.

                          Descripci√≥n del Dataframe df_victimas                                                       

Este conjunto de datos contiene informaci√≥n sobre las v√≠ctimas de siniestros viales en la Ciudad Aut√≥noma de Buenos Aires. Consta de 10 columnas y 717 filas. A continuaci√≥n se detallan las columnas:

üìÖ FECHA: Fecha en que ocurri√≥ el hecho, en formato YYYY-MM-DD.

üìÜ AAAA: A√±o en que ocurri√≥ el hecho.

üóìÔ∏è MM: Mes en que ocurri√≥ el hecho.

üìÜ DD: D√≠a en que ocurri√≥ el hecho.

üöë ROL: Posici√≥n relativa al veh√≠culo que presentaba la v√≠ctima en el momento del siniestro.

üöó VICTIMA: Veh√≠culo que ocupaba quien haya fallecido o se haya lastimado a ra√≠z del hecho, o bien peat√≥n/a. Clasificaci√≥n agregada del tipo de veh√≠culos.

üßë SEXO: Sexo informado por fuente policial de la v√≠ctima.

üéÇ EDAD: Edad de la v√≠ctima al momento del siniestro.

üïØÔ∏è FECHA_FALLECIMIENTO: Fecha de fallecimiento de la v√≠ctima.

Este resumen proporciona una visi√≥n general de la estructura y el contenido del Dataframe df_victimas üìäüèûÔ∏è

                                            Limpieza del Dataframe df_victimas                                      

Como pas√≥ en el Dataframe anterior, podemos observar que la mayor√≠a de las columnas no aporta un valor real para nuestro an√°lisis. Por lo tanto, decidimos eliminar las columnas 'AAAA', 'MM', 'DD' y 'FECHA_FALLECIMIENTO'. 

In [25]:
# Utilizamos el comando drop
df_victimas = df_victimas.drop(columns=["AAAA", "MM", "DD", "FECHA_FALLECIMIENTO"])
print(df_victimas.head())

De esta manera, tenemos un Dataframe que nos aporta √∫nicamente el Rol que ten√≠a la V√≠ctima del siniestro (Conductor, Pasajero, Peat√≥n, Otro), su Edad y su Sexo. Por ello, decidimos unificar los dataframes df_hechos y df_victimas en uno solo, para continuar con el An√°lisis Exploratorio de los Datos.

In [29]:
# Primero eliminamos la columna 'Victima', que coincide con la columna del dataframe df_hechos.
df_victimas = df_victimas.drop(columns=["VICTIMA"])
# Luego, renombraremos la columna 'ROL', que pasar√° a ser 'ROL_VICTIMA'. De esta manera nos servir√° mucho m√°s en nuestro dataframe unificado.
df_victimas.rename(columns={'ROL': 'ROL_VICTIMA'}, inplace=True)

KeyError: "['VICTIMA'] not found in axis"

Volvemos a ver por √∫ltima vez nuestro Dataframe df_victimas

In [31]:
print(df_victimas.head())

    ID_hecho      FECHA ROL_VICTIMA       SEXO EDAD
0  2016-0001 2016-01-01   CONDUCTOR  MASCULINO   19
1  2016-0002 2016-01-02   CONDUCTOR  MASCULINO   70
2  2016-0003 2016-01-03   CONDUCTOR  MASCULINO   30
3  2016-0004 2016-01-10   CONDUCTOR  MASCULINO   18
4  2016-0005 2016-01-21   CONDUCTOR  MASCULINO   29


Para unificarlo en nuestro nuevo y √∫nico Dataframe, df_siniestros_viales

In [33]:
# Utilizamos la funci√≥n Merge de Pandas para unir ambos dataframes seg√∫n sus IDs
df_siniestros_viales = pd.merge(df_hechos, df_victimas, left_on='ID', right_on='ID_hecho', how='inner')
# Eliminamos la columna 'Id_hecho' para que no repita datos.
df_siniestros_viales = df_siniestros_viales.drop(columns=["ID_hecho"])

                                    Guardamos el Dataframe unificado                                            

In [37]:
# Con nuestra funci√≥n, vemos los datos finales de nuestro Dataframe
funciones.verificar_tipo_datos(df_siniestros_viales)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,ID,[<class 'str'>],100.0,0.0,0
1,N_VICTIMAS,[<class 'int'>],100.0,0.0,0
2,TIPO_DE_CALLE,[<class 'str'>],100.0,0.0,0
3,COMUNA,[<class 'int'>],100.0,0.0,0
4,pos x,[<class 'str'>],100.0,0.0,0
5,pos y,[<class 'str'>],100.0,0.0,0
6,PARTICIPANTES,[<class 'str'>],100.0,0.0,0
7,VICTIMA,[<class 'str'>],100.0,0.0,0
8,ACUSADO,[<class 'str'>],100.0,0.0,0
9,FECHA,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0


In [39]:
# Y lo guardamos en un archivo nuevo
df_siniestros_viales.to_csv('df_siniestros_viales.csv', index=False)