# Analisis Exploratorio de Datos

Mediante la exploración detallada de un extenso conjunto de datos proporcionado por el Observatorio de Movilidad y Seguridad Vial (OMSV), se busca identificar patrones, tendencias y factores clave que contribuyen a la ocurrencia de siniestros y a la gravedad de sus consecuencias. Este análisis preliminar no solo sienta las bases para el diseño del dashboard y la definición de KPIs, sino que también ofrece perspectivas críticas que respaldarán la formulación de políticas efectivas y medidas preventivas para reducir el número de víctimas fatales en siniestros viales en la ciudad.

## 0. Importacion de librerias

In [1]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime
import warnings
warnings.filterwarnings("ignore")

## 1. Extraccion de datos

In [2]:
df_hechos = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="HECHOS")

In [3]:
df_victimas = pd.read_excel("Datasets\homicidios.xlsx", sheet_name="VICTIMAS")

## 2. Exploracion Inicial

### 2a. Examinamos la estructura de los dataframes

In [4]:
df_victimas.head(5)

Unnamed: 0,ID_hecho,FECHA,AAAA,MM,DD,ROL,VICTIMA,SEXO,EDAD,FECHA_FALLECIMIENTO
0,2016-0001,2016-01-01,2016,1,1,CONDUCTOR,MOTO,MASCULINO,19,2016-01-01 00:00:00
1,2016-0002,2016-01-02,2016,1,2,CONDUCTOR,AUTO,MASCULINO,70,2016-01-02 00:00:00
2,2016-0003,2016-01-03,2016,1,3,CONDUCTOR,MOTO,MASCULINO,30,2016-01-03 00:00:00
3,2016-0004,2016-01-10,2016,1,10,CONDUCTOR,MOTO,MASCULINO,18,SD
4,2016-0005,2016-01-21,2016,1,21,CONDUCTOR,MOTO,MASCULINO,29,2016-02-01 00:00:00


In [5]:
df_victimas.shape

(717, 10)

In [6]:
df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,...,Altura,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,...,,DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,2034.0,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


In [7]:
df_hechos.shape

(696, 21)

In [8]:
df_hechos.columns

Index(['ID', 'N_VICTIMAS', 'FECHA', 'AAAA', 'MM', 'DD', 'HORA', 'HH',
       'LUGAR_DEL_HECHO', 'TIPO_DE_CALLE', 'Calle', 'Altura', 'Cruce',
       'Dirección Normalizada', 'COMUNA', 'XY (CABA)', 'pos x', 'pos y',
       'PARTICIPANTES', 'VICTIMA', 'ACUSADO'],
      dtype='object')

### 2b. Verificamos los tipos de datos de cada columna

In [9]:
df_hechos.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
DD                                int64
HORA                             object
HH                               object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
Calle                            object
Altura                          float64
Cruce                            object
Dirección Normalizada            object
COMUNA                            int64
XY (CABA)                        object
pos x                            object
pos y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [10]:
df_victimas.dtypes

ID_hecho                       object
FECHA                  datetime64[ns]
AAAA                            int64
MM                              int64
DD                              int64
ROL                            object
VICTIMA                        object
SEXO                           object
EDAD                           object
FECHA_FALLECIMIENTO            object
dtype: object

### 2c. Comprobamos los datos nulos de cada variable

In [11]:
df_victimas.isnull().sum()

ID_hecho               0
FECHA                  0
AAAA                   0
MM                     0
DD                     0
ROL                    0
VICTIMA                0
SEXO                   0
EDAD                   0
FECHA_FALLECIMIENTO    0
dtype: int64

In [12]:
df_hechos.isnull().sum()

ID                         0
N_VICTIMAS                 0
FECHA                      0
AAAA                       0
MM                         0
DD                         0
HORA                       0
HH                         0
LUGAR_DEL_HECHO            0
TIPO_DE_CALLE              0
Calle                      1
Altura                   567
Cruce                    171
Dirección Normalizada      8
COMUNA                     0
XY (CABA)                  0
pos x                      0
pos y                      0
PARTICIPANTES              0
VICTIMA                    0
ACUSADO                    0
dtype: int64

### 2d. Examinamos datos duplicados

In [13]:
hechos_duplicados = df_hechos.duplicated().sum()
victimas_duplicados = df_victimas.duplicated().sum()
print("Cantidad de duplicados en df_hechos:", hechos_duplicados)
print("Cantidad de duplicados en df_victimas:", victimas_duplicados)

Cantidad de duplicados en df_hechos: 0
Cantidad de duplicados en df_victimas: 0


### Conclusiones preliminares:
* Datos de Víctimas:<br>
El DataFrame de víctimas proporciona información detallada sobre las personas involucradas en los siniestros.<br>
* Relación entre Variables de Hechos y Víctimas:<br>
Las variables compartidas entre los dos DataFrames, como el identificador del siniestro ("ID"), pueden usarse para vincular la información de hechos y víctimas. <br>
* Consistencia en la Integración de Datos:<br>
Aunque el DataFrame de hechos tiene 696 filas y el DataFrame de víctimas tiene 717 filas, se observa que hay más víctimas que hechos.<br>
* Datos Faltantes:<br>
Se identificaron valores faltantes en las columnas "Altura","Calle","Cruce" y "Dirección Normalizada". Estos requerirán un manejo adecuado durante el análisis.<br>
* Tipos de Datos:<br>
La columna "HORA" parece estar en formato de cadena. Se sugiere convertirla a un formato de tiempo. Además, la columna "EDAD" en el DataFrame de hechos tiene el tipo de dato "object," lo que podría beneficiarse de una conversión a un tipo numérico.<br>
* Geocodificación:<br>
Las columnas "pos x" y "pos y" proporcionan información de geolocalización. Se podran utilizar para visualizar la distribución espacial de los siniestros en un mapa. Estas variables tambien nos permiten mapear geográficamente los siniestros, identificando áreas de alta frecuencia.<br>
* Datos de Víctimas:<br>
Las variables relacionadas con las víctimas, como "SEXO" y "EDAD," ofrecen información valiosa sobre el perfil de las personas involucradas en los siniestros.<br>
* Datos de Participantes:<br>
La variable "PARTICIPANTES" indica siniestros con múltiples vehículos involucrados.<br>


## 3. Limpieza de datos

### 3a. Manejo de valores nulos

In [14]:
df_hechos[["Altura", "Calle", "Cruce","Dirección Normalizada"]].isnull().sum()

Altura                   567
Calle                      1
Cruce                    171
Dirección Normalizada      8
dtype: int64

In [15]:
df_hechos[["Altura", "Calle", "Cruce","Dirección Normalizada"]].isnull().mean()*100

Altura                   81.465517
Calle                     0.143678
Cruce                    24.568966
Dirección Normalizada     1.149425
dtype: float64

En el caso de la variable"Calle" las filas con nulos representan una proporcion muy baja en cuanto al total de registros por lo que se procede a eliminar.

In [16]:
df_hechos = df_hechos.dropna(subset=["Calle"])
df_hechos_calle_nulos = df_hechos["Calle"].isnull().sum()
print(df_hechos_calle_nulos)

0


La variable "Altura" indica el punto de la calle donde ocurrio el hecho, esta variable tiene la gran mayoria de los registros nulos por lo que no nos aportar informacion relevante para el analisis por lo que se procede a eliminar la misma. Tambien hay que tener en cuenta que gran parte de los hechos ocurren en intersecciones y cuando esto no sucede la altura de la calle suele estar especificada en la variable "Lugar del hecho"

In [17]:
df_hechos = df_hechos.drop(["Altura"], axis=1)
df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


En cuanto a la variable "Cruce" vamos a verificar si la falta de valores en la columna se justifica por la naturaleza del hecho (ocurrido en un cruce o no)

In [18]:
con_cruce = df_hechos[df_hechos["Cruce"].notna()]
contexto = con_cruce[["LUGAR_DEL_HECHO","TIPO_DE_CALLE","Cruce"]]

In [19]:
contexto.head()

Unnamed: 0,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Cruce
0,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,"FERNANDEZ DE LA CRUZ, F., GRAL. AV."
1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,DE LOS CORRALES AV.
3,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,"VILLEGAS, CONRADO, GRAL."
4,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,"SAENZ PE?A, LUIS, PRES."
5,AV 27 DE FEBRERO Y AV ESCALADA,AVENIDA,ESCALADA AV.


In [20]:
sin_cruce = df_hechos[df_hechos["Cruce"].isna()]
contexto_sin_cruce = sin_cruce[["LUGAR_DEL_HECHO","TIPO_DE_CALLE"]]

In [21]:
contexto_sin_cruce.head()

Unnamed: 0,LUGAR_DEL_HECHO,TIPO_DE_CALLE
2,AV ENTRE RIOS 2034,AVENIDA
9,AV ENTRE RIOS 1366,AVENIDA
14,SUIPACHA 156,CALLE
33,LIMA 1483,CALLE
35,AUTOPISTA 1 SUR PRESIDENTE ARTURO FRONDIZI KM....,AUTOPISTA


En base a lo observado arriba podemos asumir que los valores nulos que se encuentran en la variable corresponden a hechos que no sucedieron en un cruce por lo que procedemos a imputar esos valores como "Sin cruce"

In [22]:
df_hechos["Cruce"].fillna("Sin cruce", inplace=True)
df_hechos_nulos = df_hechos["Cruce"].isnull().sum()
print("Cantidad de valores nulos la variable Cruce:", df_hechos_nulos)

Cantidad de valores nulos la variable Cruce: 0


La variable "Direccion normalizada" representa a la calle donde ocurrio el hecho, en este caso la cantidad de valores nulos son pocos en comparacion con el total de registros por lo que se procede a eliminar los nulos

In [23]:
df_hechos = df_hechos.dropna(subset=["Dirección Normalizada"])
df_hechos_direccion_nulos = df_hechos["Dirección Normalizada"].isnull().sum()
print("Cantidad de valores nulos la variable Direccion Normalizada:", df_hechos_direccion_nulos)

Cantidad de valores nulos la variable Direccion Normalizada: 0


### 3b. Conversion del tipo de datos

#### Dataframe HECHOS

In [24]:
df_hechos.dtypes

ID                               object
N_VICTIMAS                        int64
FECHA                    datetime64[ns]
AAAA                              int64
MM                                int64
DD                                int64
HORA                             object
HH                               object
LUGAR_DEL_HECHO                  object
TIPO_DE_CALLE                    object
Calle                            object
Cruce                            object
Dirección Normalizada            object
COMUNA                            int64
XY (CABA)                        object
pos x                            object
pos y                            object
PARTICIPANTES                    object
VICTIMA                          object
ACUSADO                          object
dtype: object

In [25]:
df_hechos["FECHA"].apply(type).value_counts()

FECHA
<class 'pandas._libs.tslibs.timestamps.Timestamp'>    688
Name: count, dtype: int64

In [26]:
df_hechos["HORA"].apply(type).value_counts()

HORA
<class 'datetime.time'>        600
<class 'str'>                   85
<class 'datetime.datetime'>      3
Name: count, dtype: int64

In [27]:
df_hechos["HORA"].unique()

array([datetime.time(4, 0), datetime.time(1, 15), datetime.time(7, 0),
       datetime.time(0, 0), datetime.time(5, 20), datetime.time(18, 30),
       datetime.time(19, 10), datetime.time(15, 20), datetime.time(1, 20),
       datetime.time(11, 30), datetime.time(5, 14), datetime.time(22, 0),
       datetime.time(16, 54), datetime.time(9, 30), datetime.time(16, 0),
       datetime.time(23, 35), datetime.time(6, 0), datetime.time(4, 50),
       datetime.time(7, 30), datetime.time(9, 35), datetime.time(10, 0),
       datetime.time(17, 30), datetime.time(12, 30), datetime.time(0, 15),
       datetime.time(11, 0), datetime.time(8, 6), datetime.time(1, 50),
       datetime.time(18, 15), datetime.time(19, 40),
       datetime.time(10, 25), datetime.time(5, 30), datetime.time(17, 40),
       datetime.time(9, 50), datetime.time(21, 0), datetime.time(20, 30),
       datetime.time(4, 45), datetime.time(14, 0), datetime.time(16, 30),
       datetime.time(18, 11), datetime.time(14, 40), datetime.ti

In [28]:
df_hechos["HH"].apply(type).value_counts()

HH
<class 'int'>    687
<class 'str'>      1
Name: count, dtype: int64

In [29]:
df_hechos["HH"].unique()

array([4, 1, 7, 0, 5, 18, 19, 15, 11, 22, 16, 9, 23, 6, 10, 17, 12, 8, 21,
       20, 14, 3, 2, 13, 'SD'], dtype=object)

In [30]:
def convertir_a_time(valor):
    try:
        return datetime.strptime(str(valor), '%H:%M:%S').time()
    except (ValueError, TypeError):
        return None

In [31]:
df_hechos["HORA"] = df_hechos["HORA"].apply(convertir_a_time)
df_hechos.head(5)

Unnamed: 0,ID,N_VICTIMAS,FECHA,AAAA,MM,DD,HORA,HH,LUGAR_DEL_HECHO,TIPO_DE_CALLE,Calle,Cruce,Dirección Normalizada,COMUNA,XY (CABA),pos x,pos y,PARTICIPANTES,VICTIMA,ACUSADO
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,PIEDRA BUENA AV.,"FERNANDEZ DE LA CRUZ, F., GRAL. AV.","PIEDRA BUENA AV. y FERNANDEZ DE LA CRUZ, F., G...",8,Point (98896.78238426 93532.43437792),-58.47533969,-34.68757022,MOTO-AUTO,MOTO,AUTO
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,GRAL PAZ,"PAZ, GRAL. AV.",DE LOS CORRALES AV.,"PAZ, GRAL. AV. y DE LOS CORRALES AV.",9,Point (95832.05571093 95505.41641999),-58.50877521,-34.66977709,AUTO-PASAJEROS,AUTO,PASAJEROS
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,ENTRE RIOS AV.,Sin cruce,ENTRE RIOS AV. 2034,1,Point (106684.29090040 99706.57687843),-58.39040293,-34.63189362,MOTO-AUTO,MOTO,AUTO
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,LARRAZABAL AV.,"VILLEGAS, CONRADO, GRAL.","LARRAZABAL AV. y VILLEGAS, CONRADO, GRAL.",8,Point (99840.65224780 94269.16534422),-58.46503904,-34.68092974,MOTO-SD,MOTO,SD
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,SAN JUAN AV.,"SAENZ PE?A, LUIS, PRES.","SAN JUAN AV. y SAENZ PEÃ‘A, LUIS, PRES.",1,Point (106980.32827929 100752.16915795),-58.38718297,-34.6224663,MOTO-PASAJEROS,MOTO,PASAJEROS


En el caso de la variable HORA que representa la hora del siniestro se convierte el tipo de dato de object a datetime para su posterior analisis, pero en cuanto a la variable HH que representa la franja horaria del siniestro se procede a conventir a tipo int pero previamente en el unico registro que se encuentra SD se procede a imputar el valor 

In [32]:
hora_moda = df_hechos["HH"].mode()[0]
df_hechos["HH"] = df_hechos["HH"].replace("SD",hora_moda)

In [33]:
df_hechos["HH"].unique()

array([ 4,  1,  7,  0,  5, 18, 19, 15, 11, 22, 16,  9, 23,  6, 10, 17, 12,
        8, 21, 20, 14,  3,  2, 13], dtype=int64)

In [34]:
df_hechos["HH"].apply(type).value_counts()

HH
<class 'int'>    688
Name: count, dtype: int64

En cuanto a las variables "pos y" y "pos x" represetan la longitud y latitud del lugar donde ocurrio el siniestro, por lo que se proce a transformar de object a numeric 

In [35]:
df_hechos["pos y"].apply(type).value_counts()

pos y
<class 'str'>    688
Name: count, dtype: int64

In [36]:
df_hechos["pos x"].apply(type).value_counts()

pos x
<class 'str'>    688
Name: count, dtype: int64

In [37]:
df_hechos["pos x"] = pd.to_numeric(df_hechos["pos x"], errors="coerce")
df_hechos["pos y"] = pd.to_numeric(df_hechos["pos y"], errors="coerce")

In [38]:
print(df_hechos["pos y"].apply(type).value_counts())
print(df_hechos["pos x"].apply(type).value_counts())

pos y
<class 'float'>    688
Name: count, dtype: int64
pos x
<class 'float'>    688
Name: count, dtype: int64
