En esta jupyter notebook se desarrolla la extracción, transformación y carga del conjunto de datos para 2019.

In [12]:
import pandas as pd
import json

%load_ext autoreload
%autoreload 2

import utils

import warnings
warnings.filterwarnings("ignore")

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


Se extraen los datos desde el archivo .csv, se convierte en Dataframe y se observa su contenido.

In [13]:
# Ruta al dataset
ruta_siniestro2023 = '../Datasets/feu-siniestros - (FC)feu-siniestros-2023 (1).csv'

# Leer el archivo CSV directamente en un DataFrame
df_sin2023 = pd.read_csv(ruta_siniestro2023)

# Mostrar el DataFrame
df_sin2023

Unnamed: 0,id_feu,unidad_regional,siniestro_fecha,siniestro_hora,provincia,id_provincia,departamento,id_departamento,localidad,zona_ocurrencia,...,senalizacion_carteleria,senalizacion_horizontal,senalizacion_transitoria,luminosidad,luz_artificial,transito_restringido,estado_ambiental,visibilidad,visibilidad_otro,semaforo
0,182665,OBSERVATORIO VIAL,2023-12-30,12:30:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,Si,Si,No,Día,,,Despejado,,,Funciona
1,197455,OBSERVATORIO VIAL,2023-12-27,0:15:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,S/D,S/D,S/D,Noche,SI,,Despejado,,,Funciona
2,207065,OBSERVATORIO VIAL,2023-12-27,10:10:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,Si,Si,No,Día,,,Despejado,,,Sin Semáforo
3,202001,OBSERVATORIO VIAL,2023-12-24,13:50:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,S/D,S/D,S/D,Día,,,Despejado,,,Sin Semáforo
4,207724,OBSERVATORIO VIAL,2023-12-24,23:45:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,S/D,S/D,S/D,Noche,NO,,Despejado,,,Sin Semáforo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
379,185920,OBSERVATORIO VIAL,2023-01-07,6:25:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,Si,Si,Si,Noche,,,Despejado,,,Funciona
380,184878,OBSERVATORIO VIAL,2023-01-04,9:10:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,S/D,S/D,S/D,Día,,,Despejado,,,Sin Semáforo
381,189219,OBSERVATORIO VIAL,2023-01-03,10:40:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,S/D,S/D,S/D,Día,,,Despejado,,,S/D
382,185890,OBSERVATORIO VIAL,2023-01-03,19:10:00,CORRIENTES,18,CAPITAL,21,CORRIENTES,Urbana,...,Si,Si,Si,Noche,SI,,Despejado,,,Funciona


Se revisan los tipos de datos por columna y la cantidad de nulos.

In [14]:
utils.verificar_tipo_datos(df_sin2023)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_feu,[<class 'int'>],100.0,0.0,0
1,unidad_regional,[<class 'str'>],100.0,0.0,0
2,siniestro_fecha,[<class 'str'>],100.0,0.0,0
3,siniestro_hora,[<class 'str'>],100.0,0.0,0
4,provincia,[<class 'str'>],100.0,0.0,0
5,id_provincia,[<class 'int'>],100.0,0.0,0
6,departamento,[<class 'str'>],100.0,0.0,0
7,id_departamento,[<class 'int'>],100.0,0.0,0
8,localidad,[<class 'str'>],100.0,0.0,0
9,zona_ocurrencia,[<class 'str'>],100.0,0.0,0


Se observa que hay columnas con más de 90% de nulos, por lo cual decidimos borrarlas.

In [15]:
# Eliminar columnas con más del 90% de valores nulos
umbral = 0.9  # Umbral del 90%
df_2023filtrado = df_sin2023.dropna(thresh=len(df_sin2023) * (1 - umbral), axis=1)

# Mostrar las columnas que se mantuvieron
df_2023filtrado.columns

Index(['id_feu', 'unidad_regional', 'siniestro_fecha', 'siniestro_hora',
       'provincia', 'id_provincia', 'departamento', 'id_departamento',
       'localidad', 'zona_ocurrencia', 'via_publica', 'nombre_via',
       'altura_km', 'entre_calle_1', 'latitud', 'longitud', 'ilesos',
       'heridos', 'fallecidos', 'vehiculos', 'peatones',
       'tipo_siniestro_multiple', 'tipo_siniestro_unico', 'tipo_colision',
       'cantidad_de_involucrados', 'configuracion_de_la_via', 'cono_de_vision',
       'material_de_la_calzada', 'estado_de_la_calzada',
       'estado_fisico_ambiental', 'division_fisica_de_la_via',
       'barreras_de_seguridad', 'senalizacion_carteleria',
       'senalizacion_horizontal', 'senalizacion_transitoria', 'luminosidad',
       'luz_artificial', 'estado_ambiental', 'semaforo'],
      dtype='object')

Verificamos ahora duplicados

In [16]:
utils.verifica_duplicados_por_columna(df_2023filtrado, 'id_feu')

'No hay duplicados'

No hay duplicados, podemos continuar corrigiendo los tipos de datos en algunas columnas. Por ejemplo, fechas y horas.

In [17]:
# Convertir la columna siniestro_fecha a tipo datetime
df_2023filtrado['siniestro_fecha'] = pd.to_datetime(df_2023filtrado['siniestro_fecha'], format='%Y-%m-%d', errors='coerce')

# Convertir la columna siniestro_hora a tipo time (si está en formato 24 horas)
df_2023filtrado['siniestro_hora'] = pd.to_datetime(df_2023filtrado['siniestro_hora'], format='%H:%M:%S', errors='coerce').dt.time

# Verificar las conversiones
df_2023filtrado[['siniestro_fecha', 'siniestro_hora']].head()

Unnamed: 0,siniestro_fecha,siniestro_hora
0,2023-12-30,12:30:00
1,2023-12-27,00:15:00
2,2023-12-27,10:10:00
3,2023-12-24,13:50:00
4,2023-12-24,23:45:00


Ahora, podemos pasar en limpio qué datos contiene este Dataframe

In [18]:
utils.verificar_tipo_datos(df_2023filtrado)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_feu,[<class 'int'>],100.0,0.0,0
1,unidad_regional,[<class 'str'>],100.0,0.0,0
2,siniestro_fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
3,siniestro_hora,[<class 'datetime.time'>],100.0,0.0,0
4,provincia,[<class 'str'>],100.0,0.0,0
5,id_provincia,[<class 'int'>],100.0,0.0,0
6,departamento,[<class 'str'>],100.0,0.0,0
7,id_departamento,[<class 'int'>],100.0,0.0,0
8,localidad,[<class 'str'>],100.0,0.0,0
9,zona_ocurrencia,[<class 'str'>],100.0,0.0,0


In [19]:
print(df_2023filtrado.shape)

(384, 39)


Este conjunto contiene 39 columnas y quedó con 384 filas luego de borrar las columnas con mayor porcentaje de nulos. Las columnas que contiene son:

* id_feu: es el índice del siniestro.
* unidad_regional: es el nombre de la unidad regional encargada de cargar el dato. En este caso, el 100% corresponde a Observatorio Vial.
* siniestro_fecha: es la fecha del siniestro.
* siniestro_hora: es la hora del siniestro.
* id_provincia: es la provincia en la que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Corrientes.
* departamento: es el departamento en el que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Capital.
* id_departamento: es la ID del departamento en el que ocurrió el siniestro.
* localidad: es la localidad en la que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Corrientes.
* zona_ocurrencia: es la especificación sobre el tipo de zona donde ocurrió el siniestro. Urbana o Rural.
* via_publica: es la especificación sobre el tipo de calle en la que ocurrió el siniestro. Avenida, Calle o Ruta.
* nombre_via: es el nombre de la calle, avenida o ruta donde ocurrió el siniestro.
* altura_km: es la altura en kilómetros dónde ocurrió el siniestro.
* entre_calle_1: es el cruce en donde ocurrió el siniestro.
* latitud: es la latitud de dónde ocurrió el siniestro.
* longitud: es la longitud de dónde ocurrió el siniestro.
* ilesos: es la cantidad de personas que no sufrieron daños en el siniestro.
* heridos: es la cantidad de personas que sufrieron daños en el siniestro.
* fallecidos: es la cantidad de personas que fallecieron en el siniestro.
* vehiculos: es la cantidad de vehículos involucrados en el siniestro.
* peatones: es la cantidad de peatones involucrados en el siniestro.
* tipo_siniestro_multiple: es la especificación del hecho.
* despiste_previo: es la respuesta ante el hecho.
* tipo_colision: es el tipo de colisión del siniestro.
* cantidad_involucrados: es la cantidad de personas que participaron del siniestro.
* trazado_via: es la especficidad sobre el tipo de calle en que ocurrió el hecho. Recta o Curva.
* configuracion_de_la_via: es el tipo de configuración de la vía. Intersección, Cruce, Rotonda.
* pendiente_declive: es si existe pendiente.
* material_de_la_calzada: es el material del que está hecha la calzada donde ocurrió el siniestro.
* estado_de_la_calzada: es el estado en que se encontraba la calzada en el momento del siniestro.
* estado_fisico_ambiental: el estado de la calzada al momento del siniestro. Seca, Mojada.
* division_fisica_de_la_via: es el qué divide la vía donde ocurrió el siniestro. Por ejemplo, barrera de hormigón.
* senalización_carteleria: es si existía señalización en la zona al momento del hecho.
* senalización_horizontal: es si existía señalización horizontal en la zona al momento del hecho.
* senalización_transitoria: es si existía señalización transitoria en la zona al momento del hecho.
* luminosidad: es si el hecho ocurrió de día o de noche. Luz Natural.
* luz_artifical: es si en el lugar del hecho existía luz artificial.
* transito_restringido: es si el lugar era de tránsito restringido.
* estado_ambiental: es cómo estaba el tiempo al momento del hecho. Despejado, lluvioso, etc.
* visibilidad: es cómo se encontraba la visibilidad al momento del hecho. 
* semaforo: es si existe semáforo en la zona del hecho, y su funcionamiento.

In [20]:
# Eliminar columnas innecesarias
columnas_a_eliminar = [
    'unidad_regional',
    'id_provincia',
    'id_departamento',
    'altura_km',
    'tipo_siniestro_multiple',
    'configuracion_de_la_via',
    'division_fisica_de_la_via',
    'senalizacion_carteleria',
    'senalizacion_horizontal',
    'senalizacion_transitoria', 
    'provincia',
    'departamento',
    'localidad',
    ]

df_2023filtrado = df_2023filtrado.drop(columns=columnas_a_eliminar)


Ahora tenemos un Dataframe mucho más manejable, con los datos más importantes para nuestra investigación. Vamos a guardarlo para su futuro uso.

In [21]:
sin2023 = '../Datasets_limpios/siniestros2023.csv'
df_2023filtrado.to_csv(sin2023)