# Analisis Exploratorio de Datos

Mediante la exploración detallada de un extenso conjunto de datos proporcionado por el Observatorio de Movilidad y Seguridad Vial (OMSV), se busca identificar patrones, tendencias y factores clave que contribuyen a la ocurrencia de siniestros y a la gravedad de sus consecuencias. Este análisis preliminar no solo sienta las bases para el diseño del dashboard y la definición de KPIs, sino que también ofrece perspectivas críticas que respaldarán la formulación de políticas efectivas y medidas preventivas para reducir el número de víctimas fatales en siniestros viales en la ciudad.

## 0. Importacion de librerias

In [4]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

## 1. Extraccion de datos

In [11]:
df_hechos = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="HECHOS")

In [10]:
df_victimas = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="VICTIMAS")

## 2. Exploracion Inicial

### 2a. Examinamos la estructura de los dataframes

In [32]:
df_victimas.head(5)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [24]:
df_victimas.shape

(717, 10)

In [31]:
df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [25]:
df_hechos.shape

(696, 21)

In [26]:
df_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

### 2b. Verificamos los tipos de datos de cada columna

In [16]:
df_hechos.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
DD                                int64
HORA                             object
HH                               object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
Calle                            object
Altura                          float64
Cruce                            object
Dirección Normalizada            object
COMUNA                            int64
XY (CABA)                        object
pos x                            object
pos y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [17]:
df_victimas.dtypes

ID_hecho                       object
FECHA                  datetime64[ns]
AAAA                            int64
MM                              int64
DD                              int64
ROL                            object
VICTIMA                        object
SEXO                           object
EDAD                           object
FECHA_FALLECIMIENTO            object
dtype: object

### 2c. Comprobamos los datos nulos de cada variable

In [18]:
df_victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

In [19]:
df_hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

### 2d. Examinamos datos duplicados

In [23]:
hechos_duplicados = df_hechos.duplicated().sum()
victimas_duplicados = df_victimas.duplicated().sum()
print("Cantidad de duplicados en df_hechos:", hechos_duplicados)
print("Cantidad de duplicados en df_victimas:", victimas_duplicados)

Cantidad de duplicados en df_hechos: 0
Cantidad de duplicados en df_victimas: 0


### Conclusiones preliminares:
* Datos de Víctimas:<br>
El DataFrame de víctimas proporciona información detallada sobre las personas involucradas en los siniestros.<br>
* Relación entre Variables de Hechos y Víctimas:<br>
Las variables compartidas entre los dos DataFrames, como el identificador del siniestro ("ID"), pueden usarse para vincular la información de hechos y víctimas. <br>
* Consistencia en la Integración de Datos:<br>
Aunque el DataFrame de hechos tiene 696 filas y el DataFrame de víctimas tiene 717 filas, se observa que hay más víctimas que hechos.<br>
* Datos Faltantes:<br>
Se identificaron valores faltantes en las columnas "Altura","Calle","Cruce" y "Dirección Normalizada". Estos requerirán un manejo adecuado durante el análisis.<br>
* Tipos de Datos:<br>
La columna "HORA" parece estar en formato de cadena. Se sugiere convertirla a un formato de tiempo. Además, la columna "EDAD" en el DataFrame de hechos tiene el tipo de dato "object," lo que podría beneficiarse de una conversión a un tipo numérico.<br>
* Geocodificación:<br>
Las columnas "pos x" y "pos y" proporcionan información de geolocalización. Se podran utilizar para visualizar la distribución espacial de los siniestros en un mapa. Estas variables tambien nos permiten mapear geográficamente los siniestros, identificando áreas de alta frecuencia.<br>
* Datos de Víctimas:<br>
Las variables relacionadas con las víctimas, como "SEXO" y "EDAD," ofrecen información valiosa sobre el perfil de las personas involucradas en los siniestros.<br>
* Datos de Participantes:<br>
La variable "PARTICIPANTES" indica siniestros con múltiples vehículos involucrados.<br>


## 3. Limpieza de datos

### 3a. Manejo de valores nulos

In [29]:
df_hechos[["Altura", "Calle", "Cruce","Dirección Normalizada"]].isnull().sum()

Altura                   567
Calle                      1
Cruce                    171
Dirección Normalizada      8
dtype: int64

In [30]:
df_hechos[["Altura", "Calle", "Cruce","Dirección Normalizada"]].isnull().mean()*100

Altura                   81.465517
Calle                     0.143678
Cruce                    24.568966
Dirección Normalizada     1.149425
dtype: float64