# Análisis de muertes por accidentes viales en Argentina

Este proyecto analiza datos disponibles sobre accidentes en Argentina intentando encontrar patrones, tendencias o cualquier factor que facilite la toma de decisiones a la hora de prevenir mas siniestros.

In [11]:
import pandas as pd
import io
import matplotlib.pyplot as plt


# Carga del dataset y exploración inicial
df = pd.read_csv('../data/Accidentes.csv', sep = ';')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
df.head()

  df = pd.read_csv('../data/Accidentes.csv', sep = ';')


Unnamed: 0,id_hecho,federal,tipo_persona,tipo_persona_id,provincia_id,provincia_nombre,departamento_id,departamento_nombre,localidad_id,localidad_nombre,latitud,longitud,anio,mes,fecha_hecho,hora_hecho,calle_nombre,calle_altura,calle_interseccion,calle_interseccion_nombre,semaforo_estado,tipo_lugar,modo_produccion_hecho,modo_produccion_hecho_ampliada,modo_produccion_hecho_otro,clima_condicion,clima_otro,motivo_origen_registro,motivo_origen_registro_otro,victima_sexo,victima_tr_edad,victima_18_años_o_mas,victima_clase,victima_clase_otro,victima_vehiculo,victima_vehiculo_ampliado,victima_vehiculo_otro,victima_identidad_genero,inculpado_sexo,inculpado_tr_edad,inculpado_18_años_o_mas,inculpado_vehiculo,inculpado_vehiculo_ampliado,inculpado_vehiculo_otro,inculpado_identidad_genero
0,13075,No,Imputado,Imputado idRegistro 13483,58,Neuquén,58035,Confluencia,70,Neuquén,-39.0,-68.0,2017,1,5/1/2017,08:30:00,RUTA PROVINCIAL 7,,Sí,EX PEAJE,Sin semáforo,Ruta Provincial,Colisión vehículo-vehículo,Colisión vehículo-vehículo,,Bueno,,Intervención policial,,No corresponde,No corresponde,No corresponde,No corresponde,,No corresponde,-----,,No corresponde,Masculino,25-29,Sí,Camioneta,Camioneta,,Varón
1,13075,No,Víctima,Víctima idRegistro 16629,58,Neuquén,58035,Confluencia,70,Neuquén,-39.0,-68.0,2017,1,5/1/2017,08:30:00,RUTA PROVINCIAL 7,,Sí,EX PEAJE,Sin semáforo,Ruta Provincial,Colisión vehículo-vehículo,Colisión vehículo-vehículo,,Bueno,,Intervención policial,,Masculino,30-34,No corresponde,Pasajero,,Camioneta,Camioneta,Camioneta,Varón,No corresponde,No corresponde,No corresponde,No corresponde,No corresponde,,No corresponde
2,13076,No,Imputado,Imputado idRegistro 13484,58,Neuquén,58035,Confluencia,70,Neuquén,-39.0,-68.0,2017,1,27/1/2017,19:37:00,PICUN LEUFU,,Sí,REPUBLICA DE ITALIA,Sin semáforo,Calle,Colisión vehículo-vehículo,Colisión vehículo-vehículo,,Bueno,,Intervención policial,,No corresponde,No corresponde,No corresponde,No corresponde,,No corresponde,-----,,No corresponde,Femenino,30-34,Sí,Automóvil,Automóvil,,Mujer
3,13076,No,Imputado,Imputado idRegistro 13485,58,Neuquén,58035,Confluencia,70,Neuquén,-39.0,-68.0,2017,1,27/1/2017,19:37:00,PICUN LEUFU,,Sí,REPUBLICA DE ITALIA,Sin semáforo,Calle,Colisión vehículo-vehículo,Colisión vehículo-vehículo,,Bueno,,Intervención policial,,No corresponde,No corresponde,No corresponde,No corresponde,,No corresponde,-----,,No corresponde,Masculino,35-39,Sí,Automóvil,Automóvil,,Varón
4,13076,No,Víctima,Víctima idRegistro 16630,58,Neuquén,58035,Confluencia,70,Neuquén,-39.0,-68.0,2017,1,27/1/2017,19:37:00,PICUN LEUFU,,Sí,REPUBLICA DE ITALIA,Sin semáforo,Calle,Colisión vehículo-vehículo,Colisión vehículo-vehículo,,Bueno,,Intervención policial,,Masculino,20-24,No corresponde,Conductor,,Motocicleta,Motocicleta,,Varón,No corresponde,No corresponde,No corresponde,No corresponde,No corresponde,,No corresponde


In [12]:
# Dimensiones del DataFrame
df.shape

(52027, 45)

In [13]:
# Tipos de datos 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52027 entries, 0 to 52026
Data columns (total 45 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   id_hecho                        52027 non-null  int64  
 1   federal                         52027 non-null  object 
 2   tipo_persona                    52027 non-null  object 
 3   tipo_persona_id                 52027 non-null  object 
 4   provincia_id                    52027 non-null  int64  
 5   provincia_nombre                52027 non-null  object 
 6   departamento_id                 52027 non-null  int64  
 7   departamento_nombre             52027 non-null  object 
 8   localidad_id                    52027 non-null  object 
 9   localidad_nombre                52027 non-null  object 
 10  latitud                         34907 non-null  object 
 11  longitud                        34907 non-null  object 
 12  anio                            

In [14]:
# Vemos la proporción de nulos
porcentaje_nulos = (df.isna().sum()) / len(df) * 100
print(porcentaje_nulos.sort_values(ascending=False))

victima_clase_otro                100.000000
motivo_origen_registro_otro       100.000000
clima_otro                         99.863532
victima_vehiculo_otro              99.525247
inculpado_vehiculo_otro            99.484883
modo_produccion_hecho_otro         97.132258
calle_altura                       52.588079
calle_interseccion_nombre          42.108905
latitud                            32.905991
longitud                           32.905991
calle_interseccion                  3.117612
fecha_hecho                         2.544832
victima_vehiculo_ampliado           0.949507
inculpado_vehiculo_ampliado         0.017299
victima_tr_edad                     0.000000
victima_18_años_o_mas               0.000000
victima_sexo                        0.000000
id_hecho                            0.000000
victima_vehiculo                    0.000000
victima_clase                       0.000000
victima_identidad_genero            0.000000
inculpado_sexo                      0.000000
inculpado_

In [15]:
# Constatamos que no haya duplicados
df.duplicated().sum()

np.int64(0)

Ahora podemos comenzar con la limpieza de los datos a utilizar. Como requisito usaremos columnas con menos del 30% de nulos para mayor precisión en nuestros resultados finales. Las columnas elgidas corresponderan a:
- Locaciones
- Fechas
- Inculpados
- Victimas

## Locaciones de siniestros
### Por provincias 

In [21]:
# Cuento los siniestros por cada provincia
count_prov = df['provincia_nombre'].value_counts()
porcen_prov = count_prov / count_prov.sum() * 100
print(porcen_prov)

provincia_nombre
Buenos Aires                                             27.107079
Santa Fe                                                  9.272109
Córdoba                                                   8.714706
Tucumán                                                   6.352471
Santiago del Estero                                       5.583639
Misiones                                                  5.189613
Chaco                                                     4.272781
Salta                                                     4.243950
Mendoza                                                   3.477041
Entre Ríos                                                3.427067
Ciudad Autónoma de Buenos Aires                           2.900417
Formosa                                                   2.202702
Corrientes                                                2.116209
San Juan                                                  2.112365
San Luis                                     

In [None]:
# Reemplazo por nombres mas cortos para el gráfico
df['provincia_nombre'] = df['provincia_nombre'].replace('Ciudad Autónoma de Buenos Aires', 'CABA')
df['provincia_nombre'] = df['provincia_nombre'].replace('Tierra del Fuego, Antártida e Islas del Atlántico Sur', 'Tierra del fuego')

# Grafico los porcentajes
porcen_prov.sort_values(ascending=False).plot(kind='bar', figsize=(12,6), color='g')
plt.title('Accidentes por provincia')
plt.ylabel('Porcentaje (%)')
plt.xlabel('Provincia')
#plt.xticks(rotation=45, ha='right')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()