<a href="https://colab.research.google.com/github/Urutau/Data_Science/blob/main/Accidentes_viales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Datos abiertos PBA: Defunciones por incidentes viales

##Exploración de dataset
Este dataset fue extraído de https://catalogo.datos.gba.gob.ar/dataset/defunciones-por-incidentes-viales, el 21 de enero de 2023.

In [None]:
#Importación de librerías

import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
#Lectura del csv

df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/Datasets/defunciones-incidentes-viales-2017.csv")


###Dimensiones del dataset

In [None]:
print(f'El dataframe cuenta con {df.shape[0]} registros, y {df.shape[1]} columnas')

El dataframe cuenta con 1369 registros, y 14 columnas


###Encabezados

In [None]:
df.head()

Unnamed: 0,fuente_datos,numero_victima,municipio_id,municipio_nombre,fecha_hecho,hora_hecho,momento_hecho,edad,sexo,clase_victima,vehiculo_victima,tipo_via,tipo_incidente,clima
0,Egresos hospitalarios,2-2017-1293,,,2016-12-14,Sin especificar,Sin especificar,75,Masculino,Sin especificar,Sin especificar,Sin especificar,Sin especificar,Sin especificar
1,Ministerio de Seguridad,1-2017-1,60412.0,José C. Paz,2017-01-01,07:10:00,Diurno,21,Masculino,Conductor,Vehículo,Ruta provincial,Colisión vehículo/Vehículo,Bueno
2,Ministerio de Seguridad,1-2017-1039,60412.0,José C. Paz,2017-01-01,06:05:00,Nocturno,22,Masculino,Conductor,Motocicleta,Calle,Colisión vehículo/Vehículo,Sin especificar
3,Ministerio de Seguridad,1-2017-2,60412.0,José C. Paz,2017-01-01,07:10:00,Diurno,42,Masculino,Conductor,Vehículo,Ruta provincial,Colisión vehículo/Vehículo,Bueno
4,Ministerio de Seguridad,1-2017-592,60098.0,Berisso,2017-01-01,01:40:00,Nocturno,18,Masculino,Conductor,Motocicleta,Calle,Colisión vehículo/Vehículo,Bueno


###Información: datos no nulos y tipo de datos por columna



In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1369 entries, 0 to 1368
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   fuente_datos      1369 non-null   object 
 1   numero_victima    1369 non-null   object 
 2   municipio_id      713 non-null    float64
 3   municipio_nombre  713 non-null    object 
 4   fecha_hecho       1369 non-null   object 
 5   hora_hecho        1369 non-null   object 
 6   momento_hecho     1369 non-null   object 
 7   edad              1369 non-null   object 
 8   sexo              1369 non-null   object 
 9   clase_victima     1369 non-null   object 
 10  vehiculo_victima  1369 non-null   object 
 11  tipo_via          1369 non-null   object 
 12  tipo_incidente    1369 non-null   object 
 13  clima             1369 non-null   object 
dtypes: float64(1), object(13)
memory usage: 149.9+ KB


####Conteo de valores nulos

In [None]:
df.isna().sum()

fuente_datos          0
numero_victima        0
municipio_id        656
municipio_nombre    656
fecha_hecho           0
hora_hecho            0
momento_hecho         0
edad                  0
sexo                  0
clase_victima         0
vehiculo_victima      0
tipo_via              0
tipo_incidente        0
clima                 0
dtype: int64

###Transformación de datos

####Tratamiento de valores nulos

In [None]:
#Registros nulos en municipio_nombre
#nota: el valor de Nan = Nan es False. Nan no es igual a nada :)

dfNAN = df[(df.municipio_nombre != df.municipio_nombre)]
dfNAN.head()

In [None]:
#también funciona dfNAN2 = df[df.municipio_id.isnull()]
dfNAN2 = df[df.municipio_nombre.isna()]
dfNAN2.head()

#####Valores nulos en municipio_nombre

In [None]:
#Reemplazo de nulos por valor "Otros"
df.municipio_nombre.fillna('Otros', inplace=True)

####Eliminación de columnas: numero_victima, municipio_id

In [None]:
df.drop(['numero_victima', 'municipio_id', 'hora_hecho'], axis=1, inplace=True)

###Corrección del tipo de datos por columna

In [None]:
df['fuente_datos'] = df['fuente_datos'].astype("string", copy=False)
df['municipio_nombre'] = df['municipio_nombre'].astype("string", copy=False)
df['momento_hecho'] = df['momento_hecho'].astype("string", copy=False)
df['sexo'] = df['sexo'].astype("string", copy=False)
df['clase_victima'] = df['clase_victima'].astype("string", copy=False)
df['vehiculo_victima'] = df['vehiculo_victima'].astype("string", copy=False)
df['tipo_via'] = df['tipo_via'].astype("string", copy=False)
df['tipo_incidente'] = df['tipo_incidente'].astype("string", copy=False)
df['clima'] = df['clima'].astype("string", copy=False)

df['fecha_hecho'] = pd.to_datetime(df['fecha_hecho'], format='%Y-%m-%d')

#pd.to_datetime(df['hora_hecho'], format='%H:%M:%S', errors='coerce')
#df['edad'] = df['edad'].astype(int, copy=False)

df.dtypes

##Análisis gráfico

###Univariado

In [None]:
F_muni = df[df['municipio_nombre'] != "Otros"]
sns.catplot(data = F_muni, y="municipio_nombre", kind="count", aspect=3).set(title="Decesos por municipio (exceptuada la categoría Otros)", xlabel="Decesos", ylabel="")
plt.show()

In [None]:
F_edad = df[df.edad != "Sin especificar"]['edad'].astype(int).sort_values()
sns.displot(x=F_edad, kind="hist", bins=20, aspect=2).set(title="Decesos totales por edad", xlabel="Edad", ylabel="")

plt.show()