# Analisis Exploratorio de Datos

Mediante la exploración detallada de un extenso conjunto de datos proporcionado por el Observatorio de Movilidad y Seguridad Vial (OMSV), se busca identificar patrones, tendencias y factores clave que contribuyen a la ocurrencia de siniestros y a la gravedad de sus consecuencias. Este análisis preliminar no solo sienta las bases para el diseño del dashboard y la definición de KPIs, sino que también ofrece perspectivas críticas que respaldarán la formulación de políticas efectivas y medidas preventivas para reducir el número de víctimas fatales en siniestros viales en la ciudad.

## 0. Importamos librerias

In [11]:
import pandas as pd
import calendar
import seaborn as sns
import matplotlib.pyplot as plt
from datetime import datetime
import warnings
warnings.filterwarnings("ignore")

## 1. Obtencion de datos

In [12]:
df_siniestros = pd.read_csv("Datasets/df_siniestros.csv")

## 2. Exploracion Inicial

### 2A. Examinamos las primeras filas del dataframe para entender la estructura

In [13]:
df_siniestros.head()

Unnamed: 0,Id,Nro Victimas,Fecha,Año,Mes,Dia,Hora,Franja Horaria,Lugar,Tipo Calle,...,Latitud,Participantes,Victima,Acusado,DiaSemana,MomentoDia,Rol,Sexo,Edad,Fecha_fallecimiento
0,2016-0001,1,2016-01-01,2016,1,1,04:00:00,4,AV PIEDRA BUENA Y AV FERNANDEZ DE LA CRUZ,AVENIDA,...,-34.68757,MOTO-AUTO,MOTO,AUTO,Viernes,Noche,CONDUCTOR,MASCULINO,19.0,2016-01-01
1,2016-0002,1,2016-01-02,2016,1,2,01:15:00,1,AV GRAL PAZ Y AV DE LOS CORRALES,AUTOPISTA,...,-34.669777,AUTO-PASAJEROS,AUTO,PASAJEROS,Sábado,Noche,CONDUCTOR,MASCULINO,70.0,2016-01-02
2,2016-0003,1,2016-01-03,2016,1,3,07:00:00,7,AV ENTRE RIOS 2034,AVENIDA,...,-34.631894,MOTO-AUTO,MOTO,AUTO,Domingo,Mañana,CONDUCTOR,MASCULINO,30.0,2016-01-03
3,2016-0004,1,2016-01-10,2016,1,10,00:00:00,0,AV LARRAZABAL Y GRAL VILLEGAS CONRADO,AVENIDA,...,-34.68093,MOTO-SD,MOTO,SD,Domingo,Noche,CONDUCTOR,MASCULINO,18.0,
4,2016-0005,1,2016-01-21,2016,1,21,05:20:00,5,AV SAN JUAN Y PRESIDENTE LUIS SAENZ PEÑA,AVENIDA,...,-34.622466,MOTO-PASAJEROS,MOTO,PASAJEROS,Jueves,Noche,CONDUCTOR,MASCULINO,29.0,2016-02-01


In [14]:
df_siniestros.shape

(708, 26)

In [15]:
df_siniestros.columns

Index(['Id', 'Nro Victimas', 'Fecha', 'Año', 'Mes', 'Dia', 'Hora',
       'Franja Horaria', 'Lugar', 'Tipo Calle', 'Calle', 'Cruce',
       'Dirección Normalizada', 'Comuna', 'Geocodificacion', 'Longitud',
       'Latitud', 'Participantes', 'Victima', 'Acusado', 'DiaSemana',
       'MomentoDia', 'Rol', 'Sexo', 'Edad', 'Fecha_fallecimiento'],
      dtype='object')

### 2B. Verificar los tipos de datos de las variables

In [16]:
df_siniestros.dtypes

Id                        object
Nro Victimas               int64
Fecha                     object
Año                        int64
Mes                        int64
Dia                        int64
Hora                      object
Franja Horaria             int64
Lugar                     object
Tipo Calle                object
Calle                     object
Cruce                     object
Dirección Normalizada     object
Comuna                     int64
Geocodificacion           object
Longitud                 float64
Latitud                  float64
Participantes             object
Victima                   object
Acusado                   object
DiaSemana                 object
MomentoDia                object
Rol                       object
Sexo                      object
Edad                     float64
Fecha_fallecimiento       object
dtype: object

## 3. Identificamos valores nulos y faltantes

In [17]:
columnas_sd_dicc = {}  

for columna in df_siniestros.columns:
    cantidad = (df_siniestros[columna] == 'SD').sum()
    columnas_sd_dicc[columna] = cantidad

for columna, conteo in columnas_sd_dicc.items():
    print(f"Columna '{columna}': {conteo} veces que aparece 'SD'")

Columna 'Id': 0 veces que aparece 'SD'
Columna 'Nro Victimas': 0 veces que aparece 'SD'
Columna 'Fecha': 0 veces que aparece 'SD'
Columna 'Año': 0 veces que aparece 'SD'
Columna 'Mes': 0 veces que aparece 'SD'
Columna 'Dia': 0 veces que aparece 'SD'
Columna 'Hora': 0 veces que aparece 'SD'
Columna 'Franja Horaria': 0 veces que aparece 'SD'
Columna 'Lugar': 0 veces que aparece 'SD'
Columna 'Tipo Calle': 0 veces que aparece 'SD'
Columna 'Calle': 0 veces que aparece 'SD'
Columna 'Cruce': 0 veces que aparece 'SD'
Columna 'Dirección Normalizada': 0 veces que aparece 'SD'
Columna 'Comuna': 0 veces que aparece 'SD'
Columna 'Geocodificacion': 0 veces que aparece 'SD'
Columna 'Longitud': 0 veces que aparece 'SD'
Columna 'Latitud': 0 veces que aparece 'SD'
Columna 'Participantes': 0 veces que aparece 'SD'
Columna 'Victima': 9 veces que aparece 'SD'
Columna 'Acusado': 21 veces que aparece 'SD'
Columna 'DiaSemana': 0 veces que aparece 'SD'
Columna 'MomentoDia': 0 veces que aparece 'SD'
Columna 'Ro

In [18]:
df_siniestros.isnull().sum()

Id                        0
Nro Victimas              0
Fecha                     0
Año                       0
Mes                       0
Dia                       0
Hora                      4
Franja Horaria            0
Lugar                     0
Tipo Calle                0
Calle                     0
Cruce                     0
Dirección Normalizada     0
Comuna                    0
Geocodificacion           0
Longitud                  4
Latitud                   4
Participantes             0
Victima                   0
Acusado                   0
DiaSemana                 0
MomentoDia                0
Rol                       0
Sexo                      0
Edad                      3
Fecha_fallecimiento      65
dtype: int64

## 5. Estadisticas descriptivas basicas

In [19]:
df_siniestros.describe()

Unnamed: 0,Nro Victimas,Año,Mes,Dia,Franja Horaria,Comuna,Longitud,Latitud,Edad
count,708.0,708.0,708.0,708.0,708.0,708.0,704.0,704.0,705.0
mean,1.059322,2018.182203,6.70339,15.932203,11.550847,7.420904,-58.441664,-34.6197,42.068085
std,0.253709,1.670738,3.582472,8.659417,6.687738,4.380517,0.046397,0.035292,19.26935
min,1.0,2016.0,1.0,1.0,0.0,0.0,-58.529942,-34.70525,1.0
25%,1.0,2017.0,4.0,9.0,6.0,4.0,-58.476556,-34.643918,28.0
50%,1.0,2018.0,7.0,16.0,11.0,8.0,-58.444513,-34.622866,36.0
75%,1.0,2019.0,10.0,23.0,17.0,11.0,-58.401841,-34.597013,55.0
max,3.0,2021.0,12.0,31.0,23.0,15.0,-58.356082,-34.534654,95.0
