<h1 align="center"> ETL:  Extracción/transformación/carga y EDA: Análisis exploratorio de datos  </h1> 

<h1 align="center"> ------ETL HECHOS------ </h1>

Partiendo de bases de datos sobre registros históricos de siniestros viales, información geoespacial de la infraestructura urbana y datos del flujo vehicular, implementaremos un proceso sistemático de limpieza y estructuración de datos. Este proceso no solo garantizará la calidad y consistencia de la información, sino que también permitirá la creación de un conjunto de datos robusto y confiable para su posterior análisis."

- Se importan todas las librerías necesarias para la realización del proyecto, 
Prepararse para analizar conjuntos de datos, crear gráficos para visualizar tendencias y patrones en los datos e importar el módulo de advertencias, que se utiliza para gestionar advertencias en Python. 

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import numpy as np
from datetime import  datetime
import warnings
warnings.filterwarnings("ignore")

- Se toma el archivo 'homicidios.xlsx' y extraemos la información contenida en la hoja "HECHOS" y convertimos esa hoja en un DataFrame llamado hechos. Esto permite realizar análisis y manipulaciones de datos sobre esa información

In [2]:
hechos = pd.read_excel('homicidios.xlsx' , sheet_name='HECHOS') #sheet name permite seleccionar una hoja en particular dentro del archivo, ya que el archivo contiene más de una.

- Revisamos las dimensiones de nuestro Dataframe para tener presente del tamaño de la información con la que estamos tratando.

In [3]:
hechos.shape

(696, 21)

- Visualizamos el dataframe creado  anteriormente.

In [4]:
hechos #Para visualizar el dataframe creado.

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AV. RIESTRA Y MOM,AVENIDA,...,,MOM,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AU DELLEPIANE Y LACARRA,AUTOPISTA,...,,LACARRA AV.,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AV. GAONA Y TERRADA,AVENIDA,...,,TERRADA,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AV. EVA PERON 4071,AVENIDA,...,4071.0,,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


In [5]:
# Ahora se comienza a analizar la información contenida en la hoja "HECHOS" 
# y comenzar a identificar registros duplicados a través de una mascara o filtro

hechos[hechos['ID'].duplicated()] 


Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO


- Esta línea de código pone en mayúscula la primera letra detodos los nombres de las columnas en el DataFrame 'hechos'. Por ejemplo, si había una columna llamada "fecha", ahora se llamará "Fecha" este cambio se realizó para hacer las columnas más fáciles de leer y más  coherentes con la convención de nombres de columnas en español.

In [6]:
hechos.columns = [x.capitalize() for x in hechos.columns] #El método 'capitalize' convierte la primera letra de una cadena a mayúscula y el resto a minúsculas

- El propósito de este código es estandarizar los nombres de las columnas, haciéndolos más descriptivos y consistentes. Este tipo de renombrado es común en la limpieza y preparación de datos, ya que ayuda a hacer el DataFrame más fácil de entender y trabajar con él en análisis posteriores.

In [7]:
hechos = hechos.rename(columns= {'Dirección normalizada':'Dirección_Normalizada',
                                'Xy (caba)':'XY (CABA)',
                                'Pos x':'POS_X',
                                'Aaaa':'Año',
                                'Mm':'Mes',
                                'Hora':'Hora_exacta',
                                'Dd':'Día',
                                'Hh':'Hora',
                                'Pos y':'POS_Y'}
)

- Se toma la columna 'Id' como campo de identificación del registro, se verifica que la cantidad resultante de la ejecución del script sea igual a la cantidad de filas del dataframe 'hechos'.

In [8]:
len(hechos['Id'].unique()) 

#si el resultado es también el número total de filas en hechos, 
# eso indicaría que cada fila tiene un ID único, 
# lo cual es generalmente lo esperado para un campo de identificación.

696

- En este proceso de ETL sobre siniestros viales, hechos.info() proporciona una visión general crucial del estado actual del DataFrame después de las operaciones de limpieza y preprocesamiento realizadas.

In [9]:
hechos.info()

#Con este script podemos obtener información valiosa como la cantidad de valores no nulos en cada columna,
#la cantidad de columnas con su nombre, el tipo de dato de cada una, y ayuda a planificar los siguientes
# pasos de la limpieza de datos. 


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 21 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   Id                     696 non-null    object        
 1   N_victimas             696 non-null    int64         
 2   Fecha                  696 non-null    datetime64[ns]
 3   Año                    696 non-null    int64         
 4   Mes                    696 non-null    int64         
 5   Día                    696 non-null    int64         
 6   Hora_exacta            696 non-null    object        
 7   Hora                   696 non-null    object        
 8   Lugar_del_hecho        696 non-null    object        
 9   Tipo_de_calle          696 non-null    object        
 10  Calle                  695 non-null    object        
 11  Altura                 129 non-null    float64       
 12  Cruce                  525 non-null    object        
 13  Direc

- El siguiente código proporciona una vista rápida de la calidad de los datos, ayudando a identificar qué columnas necesitan atención en términos de limpieza o imputación de datos faltantes.

In [10]:
hechos.isnull().sum()

Id                         0
N_victimas                 0
Fecha                      0
Año                        0
Mes                        0
Día                        0
Hora_exacta                0
Hora                       0
Lugar_del_hecho            0
Tipo_de_calle              0
Calle                      1
Altura                   567
Cruce                    171
Dirección_Normalizada      8
Comuna                     0
XY (CABA)                  0
POS_X                      0
POS_Y                      0
Participantes              0
Victima                    0
Acusado                    0
dtype: int64

- Se identifican los registros donde no se ha especificado información sobre el cruce.

In [11]:
hechos[hechos['Lugar_del_hecho'] == "SD"]

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Lugar_del_hecho,Tipo_de_calle,...,Altura,Cruce,Dirección_Normalizada,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado
119,2016-0151,1,2016-11-18,2016,11,18,20:35:00,20,SD,CALLE,...,,,,0,Point (. .),.,.,PEATON-SD,PEATON,SD


In [12]:
# Se ven los valores nulos de cruce en relación con 'Lugar del hecho'.
hechos[hechos['Cruce'].isnull()][['Cruce', 'Lugar_del_hecho']]

Unnamed: 0,Cruce,Lugar_del_hecho
2,,AV ENTRE RIOS 2034
9,,AV ENTRE RIOS 1366
14,,SUIPACHA 156
33,,LIMA 1483
35,,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....
...,...,...
680,,AU 25 DE MAYO KM7 (ALTURA PASCO)
685,,ESMERALDA 1359
687,,AV. GAONA 3655
694,,AV. EVA PERON 4071


- Se convierte la columna en una representación binaria de si hay un cruce o no. Luego, el código muestra las columnas 'Cruce' y 'Lugar_del_hecho' del DataFrame 'hechos' para revisar el resultado de la transformación.

In [13]:
# Se reemplazan los valores no nulos por "no" y los nulos por "si"
hechos['Cruce'] = np.where(hechos['Cruce'].notnull(), 'Sí', 'No')
# Se revisa la columna
hechos[['Cruce', 'Lugar_del_hecho']]

Unnamed: 0,Cruce,Lugar_del_hecho
0,Sí,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ
1,Sí,AV GRAL PAZ Y AV DE LOS CORRALES
2,No,AV ENTRE RIOS 2034
3,Sí,AV LARRAZABAL Y GRAL VILLEGAS CONRADO
4,Sí,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA
...,...,...
691,Sí,AV. RIESTRA Y MOM
692,Sí,AU DELLEPIANE Y LACARRA
693,Sí,AV. GAONA Y TERRADA
694,No,AV. EVA PERON 4071


- Este código se utiliza para completar los valores faltantes en la columna 'Dirección_Normalizada' del DataFrame 'hechos'. La función fillna() se emplea para rellenar los valores nulos (NaN) en 'Dirección_Normalizada' con los valores correspondientes de la columna 'Lugar_del_hecho'. Esto asegura que no haya vacíos en la información de dirección, utilizando el lugar del hecho como respaldo cuando la dirección normalizada no está disponible. Esta operación es útil para mejorar la integridad de los datos y garantizar que cada registro tenga una ubicación asociada, lo que es crucial para análisis geoespaciales o de localización en el contexto de siniestros viales.

In [14]:
#Completar los valores faltantes de la columna 'Dirección_Normalizada' con los de 'Lugar_del_hecho'
hechos['Dirección_Normalizada'] = hechos['Dirección_Normalizada'].fillna(hechos['Lugar_del_hecho'])

- Volvemos a verificar que la que se hayan aplicado los cambios y reducido a cero la columna de dirección normalizada.

In [15]:
hechos.isnull().sum()

Id                         0
N_victimas                 0
Fecha                      0
Año                        0
Mes                        0
Día                        0
Hora_exacta                0
Hora                       0
Lugar_del_hecho            0
Tipo_de_calle              0
Calle                      1
Altura                   567
Cruce                      0
Dirección_Normalizada      0
Comuna                     0
XY (CABA)                  0
POS_X                      0
POS_Y                      0
Participantes              0
Victima                    0
Acusado                    0
dtype: int64

- Este código realiza una optimización en el DataFrame 'hechos'. Primero, elimina la columna 'Lugar_del_hecho' original. Luego, renombra la columna 'Dirección_Normalizada' a 'Lugar_del_hecho'. Esta operación consolida la información de ubicación en una sola columna, eliminando redundancias y manteniendo los datos normalizados, lo que mejora la eficiencia y claridad del conjunto de datos para futuros análisis.

In [16]:
# Eliminar columna 'Lugar_del_hecho' y se reemplaza con 'Dirección normalizada' a la cual se le cambia el nombre 
hechos = hechos.drop(columns=['Lugar_del_hecho']).rename(columns={'Dirección_Normalizada': 'Lugar_del_hecho'})

- Este código se encarga de rellenar los valores faltantes en la columna 'Calle' del DataFrame 'hechos'. Utiliza el método fillna() para reemplazar cualquier valor nulo (NaN) con la cadena 'SD'. Esta acción asegura que no haya espacios vacíos en la columna 'Calle', facilitando futuros análisis y evitando errores potenciales causados por valores faltantes. Es una práctica común en la limpieza de datos para mantener la integridad de la información.

In [17]:
#Completar el valor faltante de la columna 'Calle' con SD
hechos['Calle'] = hechos['Calle'].fillna('SD')

In [18]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 20 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    object        
 7   Hora             696 non-null    object        
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Altura           129 non-null    float64       
 11  Cruce            696 non-null    object        
 12  Lugar_del_hecho  696 non-null    object        
 13  Comuna           696 non-null    int64         
 14  XY (CABA)        696 non-null    object   

- Se examinó el dataframe y se establece que con la columna booliana de cruce se puede descartar la columna de "Altura".

In [19]:
hechos = hechos.drop('Altura', axis=1)
#axis=1 especifica que se eliminará una columna y se identifica la misma con el encabezado de  la columna misma


In [20]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    object        
 7   Hora             696 non-null    object        
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  POS_X            696 non-null    object   

- Se comenzará a transformar los tipos de datos de algunas columnas a la que se les puede aplicar fórmulas o identificar como una columna de tipo fecha.

In [21]:
# Cantidad de valores por tipo de dato en la columna 'hora'
hechos['Hora_exacta'].apply(type).value_counts()

Hora_exacta
<class 'datetime.time'>        608
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [22]:
# Cantidad de valores por tipo de dato en la columna 'hora'
hechos['Hora'].apply(type).value_counts()

Hora
<class 'int'>    695
<class 'str'>      1
Name: count, dtype: int64

In [23]:
# Cantidad de valores por tipo de dato en la columna 'hora'
hechos['Comuna'].apply(type).value_counts()

Comuna
<class 'int'>    696
Name: count, dtype: int64

In [24]:
hechos['Hora_exacta'].mode().iloc[0]

datetime.time(14, 0)

- Esta función revisa por todo el dataset e identifica un formato en específico "%H:%M:%S" y al aplicarlo transforma los campos con este formato a formato (time)


In [25]:
hechos['Hora_exacta'].isnull().sum()

np.int64(0)

In [26]:
hechos['Hora_exacta'].apply(type).value_counts()

Hora_exacta
<class 'datetime.time'>        608
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [27]:
hechos

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,Sí,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",Sí,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,ENTRE RIOS AV.,No,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,LARRAZABAL AV.,Sí,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,Sí,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AVENIDA,RIESTRA AV.,Sí,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AUTOPISTA,"DELLEPIANE, LUIS, TTE. GRAL.",Sí,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AVENIDA,GAONA AV.,Sí,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AVENIDA,"PERON, EVA AV.",No,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


- Se verifica que se hayan normalizado todos los tipos de datos dentro de la columna.

In [28]:
hechos['Hora_exacta'] = hechos['Hora_exacta'].apply(lambda x: str(hechos['Hora_exacta'].mode().iloc[0]) if x== 'SD' else x)

- Se identifica la fila que contiene en la columna 'Hora_exacta' y revisar qué decisión tomar para este registro.

In [29]:
hechos[hechos['Hora_exacta'] == 'SD']

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado


In [30]:
hechos['Hora_exacta'].apply(type).value_counts()

Hora_exacta
<class 'datetime.time'>        608
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [35]:
hechos['Hora_exacta'] = pd.to_datetime(hechos['Hora_exacta'], format='%H:%M:%S')

In [32]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    object        
 7   Hora             696 non-null    object        
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  POS_X            696 non-null    object   

In [33]:
hechos

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AVENIDA,PIEDRA BUENA AV.,Sí,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",Sí,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AVENIDA,ENTRE RIOS AV.,No,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AVENIDA,LARRAZABAL AV.,Sí,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AVENIDA,SAN JUAN AV.,Sí,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,17:10:00,17,AVENIDA,RIESTRA AV.,Sí,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,01:10:00,1,AUTOPISTA,"DELLEPIANE, LUIS, TTE. GRAL.",Sí,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,00:43:00,0,AVENIDA,GAONA AV.,Sí,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,10:30:00,10,AVENIDA,"PERON, EVA AV.",No,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


In [37]:
# Si tu hora está en un formato específico, por ejemplo "HH:MM:SS"
hechos['Hora'] = hechos['Hora_exacta'].dt.hour

In [38]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    datetime64[ns]
 7   Hora             696 non-null    int32         
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  POS_X            696 non-null    object   

In [39]:
hechos

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,1900-01-01 04:00:00,4,AVENIDA,PIEDRA BUENA AV.,Sí,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,1900-01-01 01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",Sí,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,1900-01-01 07:00:00,7,AVENIDA,ENTRE RIOS AV.,No,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,1900-01-01 00:00:00,0,AVENIDA,LARRAZABAL AV.,Sí,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,1900-01-01 05:20:00,5,AVENIDA,SAN JUAN AV.,Sí,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.62246630,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,1900-01-01 17:10:00,17,AVENIDA,RIESTRA AV.,Sí,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-58.43353773,-34.64561636,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,1900-01-01 01:10:00,1,AUTOPISTA,"DELLEPIANE, LUIS, TTE. GRAL.",Sí,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-58.46739825,-34.65117757,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,1900-01-01 00:43:00,0,AVENIDA,GAONA AV.,Sí,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-58.47293407,-34.61984745,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,1900-01-01 10:30:00,10,AVENIDA,"PERON, EVA AV.",No,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-58.47066794,-34.65021673,AUTO-CARGAS,AUTO,CARGAS


- Se verifica que todos los campos de la columna 'Hora_exacta' hayan cambiado a formado datetime.time

In [40]:
hechos['Hora_exacta'].apply(type).value_counts()

Hora_exacta
<class 'pandas._libs.tslibs.timestamps.Timestamp'>    696
Name: count, dtype: int64

In [41]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    datetime64[ns]
 7   Hora             696 non-null    int32         
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  POS_X            696 non-null    object   

- Ahora se procede a identificar inconsistencias en el tipo de datos de la columna 'Hora', detectando  si hay valores que no sean de tipo 'datetime.time'

In [42]:
hechos['Hora'].apply(type).value_counts()

Hora
<class 'int'>    696
Name: count, dtype: int64

In [43]:
hechos['Hora_exacta'].apply(type).value_counts()

Hora_exacta
<class 'pandas._libs.tslibs.timestamps.Timestamp'>    696
Name: count, dtype: int64

In [44]:
hechos['Comuna'].apply(type).value_counts()

Comuna
<class 'int'>    696
Name: count, dtype: int64

- Basándose en el diccionario de datos adjunto en este proyecto, se identifican a los actores "victima" y los actores "acusado" para comparar cuáles están dentro del diccionario de datos y cuáles no.

In [45]:
#Traer los valores únicos de la columna 'Victima'
print(hechos['Victima'].unique())

#Traer los valores únicos de la columna 'Acusado'
print(hechos['Acusado'].unique())

['MOTO' 'AUTO' 'PEATON' 'SD' 'CARGAS' 'BICICLETA' 'PASAJEROS' 'MOVIL'
 'OBJETO FIJO' 'PEATON_MOTO']
['AUTO' 'PASAJEROS' 'SD' 'OBJETO FIJO' 'CARGAS' 'MOTO' 'MULTIPLE' 'OTRO'
 'BICICLETA' 'TREN']


- Se encuentra que existen dos actores dentro de la columna "victima" que no se encuentran en el diccionario de datos, OBJETO FIJO y PEATON ROJO

In [46]:
#Buscar los registros 
hechos[hechos['Victima'].isin(['OBJETO FIJO', 'PEATON_MOTO'])]

#El método .isin() verifica si los métodos están en la lista especificada
# e identifica el Id al que corresponde.

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado
230,2017-0108,2,2017-09-02,2017,9,2,1900-01-01 04:53:08,4,GRAL PAZ,"PAZ, GRAL. AV.",Sí,"PAZ, GRAL. AV. y MACHAIN",12,Point (97098.48468623 109019.96106626),-58.49491054,-34.54795581,AUTO-OBJETO FIJO,OBJETO FIJO,AUTO
583,2020-0063,2,2020-12-05,2020,12,5,1900-01-01 07:10:00,7,CALLE,NUEVA YORK,Sí,NUEVA YORK y ALTA GRACIA,11,Point (94080.62190808 102083.62453795),-58.52783814,-34.61047001,PEATON_MOTO-MOTO,PEATON_MOTO,MOTO


In [47]:
#Cambiar el dato de los dos registros por el valor correspondiente a su par columnar: Acusado
hechos['Victima']= hechos['Victima'].replace({'OBJETO FIJO':'AUTO','PEATON_MOTO':'PEATON'})

In [48]:
#Se cambia el dato de la columna "Acusado" donde se encontraba el problema en la que victima = objeto fijo
ubicacion = (hechos['Id']) == '2017-0108'
hechos.loc[ubicacion, 'Acusado'] = hechos.loc[ubicacion, 'Acusado'].replace('AUTO', 'OBJETO FIJO')

In [49]:
#Cambiar el dato de los dos registros de la columna participantes por la nueva combinación de víctima-acusado cambiadas en el paso anterior
hechos['Participantes']= hechos['Participantes'].replace({'PEATON_MOTO-MOTO':'PEATON'})

- Finalmente se indaga en el dataset que los cambios hayan sido realizados.

In [50]:
hechos[hechos['Victima'].isin(['OBJETO FIJO', 'PEATON_MOTO'])]

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),POS_X,POS_Y,Participantes,Victima,Acusado


- Observamos que las columnas de participantes, victima y acusado pueden ser categorizadas, se pasarán esas columnas al tipo de dato category.

In [51]:
hechos['Participantes'] = hechos['Participantes'].astype('category')
hechos['Victima'] = hechos['Victima'].astype('category')
hechos['Acusado'] = hechos['Acusado'].astype('category')

In [52]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    datetime64[ns]
 7   Hora             696 non-null    int32         
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  POS_X            696 non-null    object   

- Este script realiza un renombramiento de columnas importante para la correcta interpretación de coordenadas geográficas en Buenos Aires, Argentina, este cambio es crucial para asegurar que las ubicaciones de los siniestros viales se mapeen correctamente en el contexto geográfico de Buenos Aires.

In [53]:
hechos = hechos.rename(columns= {'POS_X':'Longitud_Y',
                                'POS_Y':'Latitud_X'})

In [54]:
hechos.columns

Index(['Id', 'N_victimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora_exacta', 'Hora',
       'Tipo_de_calle', 'Calle', 'Cruce', 'Lugar_del_hecho', 'Comuna',
       'XY (CABA)', 'Longitud_Y', 'Latitud_X', 'Participantes', 'Victima',
       'Acusado'],
      dtype='object')

- Procedemos a cambiar la posición de latitud y longitud en el orden de las columnas para mejor manejo de la  información.

In [55]:
hechos = hechos[['Id', 'N_victimas', 'Fecha', 'Año', 'Mes', 'Día', 'Hora_exacta', 'Hora',
        'Tipo_de_calle', 'Calle', 'Cruce', 'Lugar_del_hecho', 'Comuna',
        'XY (CABA)', 'Latitud_X', 'Longitud_Y' , 'Participantes', 'Victima',
        'Acusado']]

In [56]:
hechos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 696 entries, 0 to 695
Data columns (total 19 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Id               696 non-null    object        
 1   N_victimas       696 non-null    int64         
 2   Fecha            696 non-null    datetime64[ns]
 3   Año              696 non-null    int64         
 4   Mes              696 non-null    int64         
 5   Día              696 non-null    int64         
 6   Hora_exacta      696 non-null    datetime64[ns]
 7   Hora             696 non-null    int32         
 8   Tipo_de_calle    696 non-null    object        
 9   Calle            696 non-null    object        
 10  Cruce            696 non-null    object        
 11  Lugar_del_hecho  696 non-null    object        
 12  Comuna           696 non-null    int64         
 13  XY (CABA)        696 non-null    object        
 14  Latitud_X        696 non-null    object   

In [57]:
hechos

Unnamed: 0,Id,N_victimas,Fecha,Año,Mes,Día,Hora_exacta,Hora,Tipo_de_calle,Calle,Cruce,Lugar_del_hecho,Comuna,XY (CABA),Latitud_X,Longitud_Y,Participantes,Victima,Acusado
0,2016-0001,1,2016-01-01,2016,1,1,1900-01-01 04:00:00,4,AVENIDA,PIEDRA BUENA AV.,Sí,"PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-34.68757022,-58.47533969,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,1900-01-01 01:15:00,1,GRAL PAZ,"PAZ, GRAL. AV.",Sí,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-34.66977709,-58.50877521,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,1900-01-01 07:00:00,7,AVENIDA,ENTRE RIOS AV.,No,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-34.63189362,-58.39040293,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,1900-01-01 00:00:00,0,AVENIDA,LARRAZABAL AV.,Sí,"LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-34.68092974,-58.46503904,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,1900-01-01 05:20:00,5,AVENIDA,SAN JUAN AV.,Sí,"SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-34.62246630,-58.38718297,MOTO-PASAJEROS,MOTO,PASAJEROS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
691,2021-0093,1,2021-12-13,2021,12,13,1900-01-01 17:10:00,17,AVENIDA,RIESTRA AV.,Sí,RIESTRA AV. y MOM,7,Point (102728.60090138 98186.24929177),-34.64561636,-58.43353773,MOTO-AUTO,MOTO,AUTO
692,2021-0094,1,2021-12-20,2021,12,20,1900-01-01 01:10:00,1,AUTOPISTA,"DELLEPIANE, LUIS, TTE. GRAL.",Sí,"DELLEPIANE, LUIS, TTE. GRAL. y LACARRA AV.",9,Point (99624.29795829 97569.69801131),-34.65117757,-58.46739825,MOTO-AUTO,MOTO,AUTO
693,2021-0095,1,2021-12-30,2021,12,30,1900-01-01 00:43:00,0,AVENIDA,GAONA AV.,Sí,GAONA AV. y TERRADA,11,Point (99116.45492358 101045.23284826),-34.61984745,-58.47293407,MOTO-CARGAS,MOTO,CARGAS
694,2021-0096,1,2021-12-15,2021,12,15,1900-01-01 10:30:00,10,AVENIDA,"PERON, EVA AV.",No,"PERON, EVA AV. 4071",9,Point (99324.54463985 97676.26932409),-34.65021673,-58.47066794,AUTO-CARGAS,AUTO,CARGAS


- Se exporta el dataframe a formato excel para continuar con el proceso con la presentación del dashboard

In [58]:
hechos.to_excel('ETL_hechos.xlsx', index=False)

In [59]:
hechos.to_csv('ETL_hechos.csv', index=False)

--------------------

<h1 align="center"> ------ETL VICTIMAS------ </h1>

- Se toma el archivo 'homicidios.xlsx' y extraemos la información contenida en la hoja "VICTIMAS" y convertimos esa hoja en un DataFrame llamado hechos. Esto permite realizar análisis y manipulaciones de datos sobre esa información

In [60]:
victimas = pd.read_excel('homicidios.xlsx' , sheet_name='VICTIMAS') #sheet name permite seleccionar una hoja en particular dentro del archivo, ya que el archivo contiene más de una.

In [61]:
victimas.shape

(717, 10)

In [62]:
victimas

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0008,2016-01-24,2016,1,24,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
4,2016-0009,2016-01-24,2016,1,24,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
...,...,...,...,...,...,...,...,...,...,...
712,2017-0089,2017-07-13,2017,7,13,SD,SD,MASCULINO,23,SD
713,2017-0112,2017-09-10,2017,9,10,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,SD
714,2017-0115,2017-09-19,2017,9,19,CONDUCTOR,MOTO,MASCULINO,34,SD
715,2017-0126,2017-10-14,2017,10,14,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,SD


In [63]:
# Ahora se comienza a analizar la información contenida en la hoja "victimas" 
# y comenzar a identificar registros duplicados a través de una mascara o filtro

victimas[victimas['ID_hecho'].duplicated()] 

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
26,2016-0041,2016-03-29,2016,3,29,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
102,2017-0026,2017-02-26,2017,2,26,CONDUCTOR,AUTO,MASCULINO,19,2017-02-26 00:00:00
112,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,32,2017-03-23 00:00:00
113,2017-0035,2017-03-23,2017,3,23,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,30,2017-03-23 00:00:00
115,2017-0036,2017-03-29,2017,3,29,CONDUCTOR,MOTO,MASCULINO,20,2017-03-29 00:00:00
124,2017-0050,2017-04-28,2017,4,28,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,16,2017-04-28 00:00:00
174,2017-0108,2017-09-02,2017,9,2,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,10,2017-09-02 00:00:00
212,2017-0153,2017-12-11,2017,12,11,CONDUCTOR,MOTO,MASCULINO,30,2017-12-12 00:00:00
233,2018-0015,2018-02-06,2018,2,6,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,19,2018-02-06 00:00:00
245,2018-0026,2018-03-09,2018,3,9,PASAJERO_ACOMPAÑANTE,MOVIL,MASCULINO,30,2018-03-09 00:00:00


- Esta línea de código pone en mayúscula la primera letra de todos los nombres de las columnas en el DataFrame 'victimas'. Por ejemplo, si había una columna llamada "fecha", ahora se llamará "Fecha" este cambio se realizó para hacer las columnas más fáciles de leer y más  coherentes con la convención de nombres de columnas en español.

In [64]:
victimas.columns = [x.capitalize() for x in victimas.columns] #El método 'capitalize' convierte la primera letra de una cadena a mayúscula y el resto a minúsculas

- El propósito de este código es estandarizar los nombres de las columnas, haciéndolos más descriptivos y consistentes. Este tipo de renombrado es común en la limpieza y preparación de datos, ya que ayuda a hacer el DataFrame más fácil de entender y trabajar con él en análisis posteriores.

In [65]:
victimas = victimas.rename(columns= {'Aaaa':'Año',
                                'Mm':'Mes',
                                'Dd':'Día'}
)

In [66]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 10 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id_hecho             717 non-null    object        
 1   Fecha                717 non-null    datetime64[ns]
 2   Año                  717 non-null    int64         
 3   Mes                  717 non-null    int64         
 4   Día                  717 non-null    int64         
 5   Rol                  717 non-null    object        
 6   Victima              717 non-null    object        
 7   Sexo                 717 non-null    object        
 8   Edad                 717 non-null    object        
 9   Fecha_fallecimiento  717 non-null    object        
dtypes: datetime64[ns](1), int64(3), object(6)
memory usage: 56.1+ KB


- Después de una comparación se pudo determinar que los datos relacionados a las fechas en las columnas pueden ser descartados, debido a que esa información ya está contenida en el dataframe hechos, por lo que procedemos a borrarlas.

In [67]:
victimas = victimas.drop(['Fecha', 'Año', 'Mes', 'Día'], axis=1)

In [68]:
victimas

Unnamed: 0,Id_hecho,Rol,Victima,Sexo,Edad,Fecha_fallecimiento
0,2016-0001,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0008,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
4,2016-0009,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
...,...,...,...,...,...,...
712,2017-0089,SD,SD,MASCULINO,23,SD
713,2017-0112,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,SD
714,2017-0115,CONDUCTOR,MOTO,MASCULINO,34,SD
715,2017-0126,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,SD


In [69]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Id_hecho             717 non-null    object
 1   Rol                  717 non-null    object
 2   Victima              717 non-null    object
 3   Sexo                 717 non-null    object
 4   Edad                 717 non-null    object
 5   Fecha_fallecimiento  717 non-null    object
dtypes: object(6)
memory usage: 33.7+ KB


- Previamente pudimos añalizar que la columna fecha se encuentran algunos dato tipo string por que no podremos convertir la columna a enteros sin antes tratar con esos string

In [70]:
victimas

Unnamed: 0,Id_hecho,Rol,Victima,Sexo,Edad,Fecha_fallecimiento
0,2016-0001,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0008,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
4,2016-0009,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
...,...,...,...,...,...,...
712,2017-0089,SD,SD,MASCULINO,23,SD
713,2017-0112,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,SD
714,2017-0115,CONDUCTOR,MOTO,MASCULINO,34,SD
715,2017-0126,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,SD


- Se busca los campos dentro de cada columna que presentan datos nulos dentro de todo el dataset

In [71]:
victimas.isnull().sum()

Id_hecho               0
Rol                    0
Victima                0
Sexo                   0
Edad                   0
Fecha_fallecimiento    0
dtype: int64

- Se tiene previsto, tener la columna de "Edad" como número entero, para ello se deben verificar a través de una función lambda, los campos que sean string en esta columna y determinar qué se hará con ellos.

In [72]:
victimas[victimas['Edad'].apply(lambda x: isinstance(x, str))]

Unnamed: 0,Id_hecho,Rol,Victima,Sexo,Edad,Fecha_fallecimiento
26,2016-0041,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2016-03-30 00:00:00
103,2017-0027,PEATON,PEATON,MASCULINO,SD,2017-02-26 00:00:00
114,2017-0036,PASAJERO_ACOMPAÑANTE,MOTO,FEMENINO,SD,2017-03-29 00:00:00
119,2017-0042,CONDUCTOR,MOTO,MASCULINO,SD,2017-04-10 00:00:00
161,2017-0093,PEATON,PEATON,MASCULINO,SD,2017-07-25 00:00:00
179,2017-0112,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,SD,2017-09-13 00:00:00
208,2017-0151,PEATON,PEATON,MASCULINO,SD,2017-12-04 00:00:00
211,2017-0153,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,SD,2017-12-12 00:00:00
231,2018-0014,PEATON,PEATON,MASCULINO,SD,2018-02-04 00:00:00
260,2018-0040,PEATON,PEATON,FEMENINO,SD,2018-04-27 00:00:00


- Se identifica la cantidad de registros donde no existan datos sobre el evento y aparece representado con un SD = Sin Dato en las diferentes columnas como rol, víctima y edad.

In [73]:
print('Rol tiene:', len(victimas[victimas['Rol']=='SD']))
print('Víctima tiene:', len(victimas[victimas['Victima']=='SD']))
print('Edad tiene:', len(victimas[victimas['Edad']=='SD']))

Rol tiene: 11
Víctima tiene: 9
Edad tiene: 53


- Mostrar el tipo de datos de las diferentes columnas

In [74]:
#Tipo de datos en rol
victimas['Rol'].apply(type).value_counts() 

Rol
<class 'str'>    717
Name: count, dtype: int64

In [75]:
#Tipo de datos en víctimas
victimas['Victima'].apply(type).value_counts() 

Victima
<class 'str'>    717
Name: count, dtype: int64

In [76]:
#Tipo de datos en víctimas
victimas['Sexo'].apply(type).value_counts() 

Sexo
<class 'str'>    717
Name: count, dtype: int64

In [77]:
#Tipo de datos en edad
victimas['Edad'].apply(type).value_counts() 

Edad
<class 'int'>    664
<class 'str'>     53
Name: count, dtype: int64

In [78]:
#fecha de fallecimento
victimas['Fecha_fallecimiento'].apply(type).value_counts() 

Fecha_fallecimiento
<class 'datetime.datetime'>    648
<class 'str'>                   69
Name: count, dtype: int64

In [79]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Id_hecho             717 non-null    object
 1   Rol                  717 non-null    object
 2   Victima              717 non-null    object
 3   Sexo                 717 non-null    object
 4   Edad                 717 non-null    object
 5   Fecha_fallecimiento  717 non-null    object
dtypes: object(6)
memory usage: 33.7+ KB


In [80]:
def ingresa_valor_frecuente(df, columna):
    
    #Se reemplaza 'SD' con NaN en la columna especificada
    df[columna]=df[columna].replace('SD', pd.NA)
    
    #Verifica el valor más frecuente en la columna
    valor_frecuente= df[columna].mode().iloc[0]
    print('El valor más frecuente de', columna, 'es:', valor_frecuente)

    #Se modifican los valores NaN, con el valor más frecuente
    df[columna].fillna(valor_frecuente, inplace=True)



In [81]:
valor_frecuente_sexo = ingresa_valor_frecuente(victimas, 'Sexo')
print(valor_frecuente_sexo)

El valor más frecuente de Sexo es: MASCULINO
None


In [82]:
#Una vez modificada la columna 'Sexo', se modifica la columna 'Edad'

"""
    Imputa los valores faltantes (NaN) en la columna 'Edad' utilizando la edad media según el sexo.
    
    Parámetros:
    -----------
    df : pandas.DataFrame
        DataFrame que debe contener las columnas 'Edad' y 'Sexo', donde 'Sexo' tiene las categorías
        'FEMENINO' y 'MASCULINO'.
        
    Retorna:
    --------
    None
        La función modifica el DataFrame original in-place, reemplazando los valores 'SD' con NaN
        y luego imputando estos NaN con la edad media correspondiente al sexo de cada registro.
        Finalmente convierte la columna 'Edad' a tipo entero.
"""
def ingresa_edad_media_segun_sexo(df):
    
    #Reemplaza 'SD' con NaN en la columna 'Edad'.
    df['Edad']= df['Edad'].replace('SD', pd.NA)

    #Se calcula el valor promedio de la edad, para cada género(es decir, agrupamos por género).
    promedio_por_genero= df.groupby('Sexo')['Edad'].mean()
    print(f'La edad promedio de Femenino es {round(promedio_por_genero["FEMENINO"])} y de Masculino es {round(promedio_por_genero["MASCULINO"])}')

    #Modificamos los valores NaN en 'Edad', con los valores correspondientes en cada género.
    #Se verifica fila por fila, si el valor en 'Edad' es NaN, se aplica la función, sino se devuelve el valor original.
    df['Edad']= df.apply(lambda row: promedio_por_genero[row['Sexo']] if pd.isna(row['Edad']) else row['Edad'], axis=1)

    #Convertimos el valor ingresado a tipo int
    df['Edad']= df['Edad'].astype(int)


In [83]:
# Llamar a la función 
edad_media_sexo = ingresa_edad_media_segun_sexo(victimas)
print(edad_media_sexo)

La edad promedio de Femenino es 51 y de Masculino es 40
None


In [84]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Id_hecho             717 non-null    object
 1   Rol                  717 non-null    object
 2   Victima              717 non-null    object
 3   Sexo                 717 non-null    object
 4   Edad                 717 non-null    int64 
 5   Fecha_fallecimiento  717 non-null    object
dtypes: int64(1), object(5)
memory usage: 33.7+ KB


In [85]:
victimas

Unnamed: 0,Id_hecho,Rol,Victima,Sexo,Edad,Fecha_fallecimiento
0,2016-0001,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0008,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24 00:00:00
4,2016-0009,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26 00:00:00
...,...,...,...,...,...,...
712,2017-0089,SD,SD,MASCULINO,23,SD
713,2017-0112,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,SD
714,2017-0115,CONDUCTOR,MOTO,MASCULINO,34,SD
715,2017-0126,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,SD


In [86]:
victimas['Fecha_fallecimiento'] = pd.to_datetime(victimas['Fecha_fallecimiento'], errors='coerce')

In [87]:
victimas['Fecha_fallecimiento'] = pd.to_datetime(victimas['Fecha_fallecimiento']).dt.date

In [88]:
victimas 

Unnamed: 0,Id_hecho,Rol,Victima,Sexo,Edad,Fecha_fallecimiento
0,2016-0001,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01
1,2016-0002,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02
2,2016-0003,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03
3,2016-0008,CONDUCTOR,MOTO,MASCULINO,30,2016-01-24
4,2016-0009,PASAJERO_ACOMPAÑANTE,MOTO,MASCULINO,29,2016-01-26
...,...,...,...,...,...,...
712,2017-0089,SD,SD,MASCULINO,23,NaT
713,2017-0112,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,1,NaT
714,2017-0115,CONDUCTOR,MOTO,MASCULINO,34,NaT
715,2017-0126,PASAJERO_ACOMPAÑANTE,AUTO,MASCULINO,39,NaT


In [89]:
victimas['Fecha_fallecimiento'] = pd.to_datetime(victimas['Fecha_fallecimiento'], errors='coerce')

In [90]:
victimas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 717 entries, 0 to 716
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Id_hecho             717 non-null    object        
 1   Rol                  717 non-null    object        
 2   Victima              717 non-null    object        
 3   Sexo                 717 non-null    object        
 4   Edad                 717 non-null    int64         
 5   Fecha_fallecimiento  649 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 33.7+ KB


- Se exporta el dataframe a formato excel para continuar con el proceso con la presentación del dashboard

In [91]:
victimas.to_excel('ETL_victimas.xlsx', index=False)

In [92]:
victimas.to_csv('ETL_victimas.csv', index=False)

---------------

<h1 align="center"> ------EDA------ </h1>

El Análisis Exploratorio de Datos (EDA) representa una fase crucial en nuestra misión de comprender y prevenir los siniestros viales en Buenos Aires. A través de técnicas estadísticas y visualizaciones avanzadas, examinaremos patrones temporales, identificaremos zonas de alto riesgo y analizaremos las correlaciones entre diversos factores como horarios, condiciones climáticas y características viales. Este análisis exhaustivo nos permitirá descubrir insights valiosos que servirán como base para desarrollar estrategias efectivas de prevención y mejorar la seguridad vial en la ciudad.

In [93]:
'''
# Estadísticas descriptivas
print(hechos['N_victimas'].describe())

# Histograma con Seaborn
sns.histplot(data=hechos, x='N_VICTIMAS', bins=20, kde=True)
plt.xlabel('Número de Víctimas')
plt.ylabel('Frecuencia')
plt.title('Distribución de Víctimas')
plt.show()
'''

"\n# Estadísticas descriptivas\nprint(hechos['N_victimas'].describe())\n\n# Histograma con Seaborn\nsns.histplot(data=hechos, x='N_VICTIMAS', bins=20, kde=True)\nplt.xlabel('Número de Víctimas')\nplt.ylabel('Frecuencia')\nplt.title('Distribución de Víctimas')\nplt.show()\n"