En esta jupyter notebook se desarrolla la extracción, transformación y carga del conjunto de datos para 2018.

In [1]:
import pandas as pd
import json

%load_ext autoreload
%autoreload 2

import utils

import warnings
warnings.filterwarnings("ignore")

Se extraen los datos desde el archivo .csv, se convierte en Dataframe y se observa su contenido.

In [2]:
# Ruta al dataset
ruta_siniestro2018 = '../Datasets/feu-siniestros - (FC)feu-siniestros-2018.csv'

# Leer el archivo CSV directamente en un DataFrame
df_sin2018 = pd.read_csv(ruta_siniestro2018)

# Mostrar el DataFrame
df_sin2018

Unnamed: 0,id_feu,unidad_regional,siniestro_fecha,siniestro_hora,provincia,id_provincia,departamento,id_departamento,localidad,zona_ocurrencia,...,senalizacion_carteleria,senalizacion_horizontal,senalizacion_transitoria,luminosidad,luz_artificial,transito_restringido,estado_ambiental,visibilidad,visibilidad_otro,semaforo
0,49056,OBSERVATORIO VIAL,2018-10-29,20:10:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,Si,Si,No,Atardecer,,,Despejado,Buena,,Funciona
1,49059,OBSERVATORIO VIAL,2018-10-31,19:30:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,No,No,Noche,NO,Sin Restricción,Nublado,Buena,,Sin Semáforo
2,48998,OBSERVATORIO VIAL,2018-10-08,13:10:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,No,No,Día,NO,,Despejado,Buena,,Sin Semáforo
3,49069,OBSERVATORIO VIAL,2018-11-05,7:15:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,Si,Si,S/D,Día,NO,Sin Restricción,Despejado,Buena,,Funciona
4,48869,OBSERVATORIO VIAL,2018-08-25,10:30:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,Si,,Día,NO,,Despejado,Buena,,Sin Semáforo
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
401,49032,OBSERVATORIO VIAL,2018-10-21,19:10:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,No,No,Noche,SI,Sin Restricción,Despejado,Buena,,Sin Semáforo
402,49118,OBSERVATORIO VIAL,2018-11-28,14:20:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,No,No,Día,NO,Sin Restricción,Nublado,Buena,,Sin Semáforo
403,49160,OBSERVATORIO VIAL,2018-12-11,21:00:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,Si,Si,No,Noche,SI,Sin Restricción,Despejado,Buena,,Sin Semáforo
404,49108,OBSERVATORIO VIAL,2018-11-22,22:50:00,CORRIENTES,18,CAPITAL,21.0,CORRIENTES,Urbana,...,No,No,No,Noche,SI,Sin Restricción,Lluvia,Lluvia,,Sin Semáforo


Se revisan los tipos de datos por columna y la cantidad de nulos.

In [3]:
utils.verificar_tipo_datos(df_sin2018)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_feu,[<class 'int'>],100.0,0.0,0
1,unidad_regional,[<class 'str'>],100.0,0.0,0
2,siniestro_fecha,[<class 'str'>],100.0,0.0,0
3,siniestro_hora,[<class 'str'>],100.0,0.0,0
4,provincia,[<class 'str'>],100.0,0.0,0
5,id_provincia,[<class 'int'>],100.0,0.0,0
6,departamento,"[<class 'str'>, <class 'float'>]",99.51,0.49,2
7,id_departamento,[<class 'float'>],99.51,0.49,2
8,localidad,[<class 'str'>],100.0,0.0,0
9,zona_ocurrencia,[<class 'str'>],100.0,0.0,0


Se observa que hay columnas con más de 90% de nulos, por lo cual decidimos borrarlas.

In [4]:
# Eliminar columnas con más del 50% de valores nulos
umbral = 0.8  # Umbral del 50%
df_2018filtrado = df_sin2018.dropna(thresh=len(df_sin2018) * (1 - umbral), axis=1)

# Mostrar las columnas que se mantuvieron
df_2018filtrado.columns

Index(['id_feu', 'unidad_regional', 'siniestro_fecha', 'siniestro_hora',
       'provincia', 'id_provincia', 'departamento', 'id_departamento',
       'localidad', 'zona_ocurrencia', 'via_publica', 'nombre_via',
       'altura_km', 'entre_calle_1', 'latitud', 'longitud', 'ilesos',
       'heridos', 'fallecidos', 'vehiculos', 'peatones',
       'tipo_siniestro_multiple', 'tipo_siniestro_unico', 'despiste_previo',
       'tipo_colision', 'cantidad_de_involucrados', 'trazado_via',
       'configuracion_de_la_via', 'pendiente_declive',
       'material_de_la_calzada', 'estado_de_la_calzada',
       'estado_fisico_ambiental', 'division_fisica_de_la_via',
       'senalizacion_carteleria', 'senalizacion_horizontal',
       'senalizacion_transitoria', 'luminosidad', 'luz_artificial',
       'transito_restringido', 'estado_ambiental', 'visibilidad', 'semaforo'],
      dtype='object')

Verificamos ahora duplicados

In [5]:
utils.verifica_duplicados_por_columna(df_2018filtrado, 'id_feu')

'No hay duplicados'

No hay duplicados, podemos continuar corrigiendo los tipos de datos en algunas columnas. Por ejemplo, fechas y horas.

In [6]:
# Convertir la columna siniestro_fecha a tipo datetime
df_2018filtrado['siniestro_fecha'] = pd.to_datetime(df_2018filtrado['siniestro_fecha'], format='%Y-%m-%d', errors='coerce')

# Convertir la columna siniestro_hora a tipo time (si está en formato 24 horas)
df_2018filtrado['siniestro_hora'] = pd.to_datetime(df_2018filtrado['siniestro_hora'], format='%H:%M:%S', errors='coerce').dt.time

# Verificar las conversiones
df_2018filtrado[['siniestro_fecha', 'siniestro_hora']].head()


Unnamed: 0,siniestro_fecha,siniestro_hora
0,2018-10-29,20:10:00
1,2018-10-31,19:30:00
2,2018-10-08,13:10:00
3,2018-11-05,07:15:00
4,2018-08-25,10:30:00


Ahora, podemos pasar en limpio qué datos contiene este Dataframe

In [7]:
utils.verificar_tipo_datos(df_2018filtrado)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_feu,[<class 'int'>],100.0,0.0,0
1,unidad_regional,[<class 'str'>],100.0,0.0,0
2,siniestro_fecha,[<class 'pandas._libs.tslibs.timestamps.Timest...,100.0,0.0,0
3,siniestro_hora,[<class 'datetime.time'>],100.0,0.0,0
4,provincia,[<class 'str'>],100.0,0.0,0
5,id_provincia,[<class 'int'>],100.0,0.0,0
6,departamento,"[<class 'str'>, <class 'float'>]",99.51,0.49,2
7,id_departamento,[<class 'float'>],99.51,0.49,2
8,localidad,[<class 'str'>],100.0,0.0,0
9,zona_ocurrencia,[<class 'str'>],100.0,0.0,0


In [8]:
print(df_2018filtrado.shape)

(406, 42)


Este conjunto contiene 42 columnas y quedó con 406 filas luego de borrar las columnas con mayor porcentaje de nulos. Las columnas que contiene son:

* id_feu: es el índice del siniestro.
* unidad_regional: es el nombre de la unidad regional encargada de cargar el dato. En este caso, el 100% corresponde a Observatorio Vial.
* siniestro_fecha: es la fecha del siniestro.
* siniestro_hora: es la hora del siniestro.
* id_provincia: es la provincia en la que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Corrientes.
* departamento: es el departamento en el que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Capital.
* id_departamento: es la ID del departamento en el que ocurrió el siniestro.
* localidad: es la localidad en la que ocurrió el siniestro. En nuestro caso, el 100% corresponde a Corrientes.
* zona_ocurrencia: es la especificación sobre el tipo de zona donde ocurrió el siniestro. Urbana o Rural.
* via_publica: es la especificación sobre el tipo de calle en la que ocurrió el siniestro. Avenida, Calle o Ruta.
* nombre_via: es el nombre de la calle, avenida o ruta donde ocurrió el siniestro.
* altura_km: es la altura en kilómetros dónde ocurrió el siniestro.
* entre_calle_1: es el cruce en donde ocurrió el siniestro.
* latitud: es la latitud de dónde ocurrió el siniestro.
* longitud: es la longitud de dónde ocurrió el siniestro.
* ilesos: es la cantidad de personas que no sufrieron daños en el siniestro.
* heridos: es la cantidad de personas que sufrieron daños en el siniestro.
* fallecidos: es la cantidad de personas que fallecieron en el siniestro.
* vehiculos: es la cantidad de vehículos involucrados en el siniestro.
* peatones: es la cantidad de peatones involucrados en el siniestro.
* tipo_siniestro_multiple: es la especificación del hecho.
* despiste_previo: es la respuesta ante el hecho.
* tipo_colision: es el tipo de colisión del siniestro.
* cantidad_involucrados: es la cantidad de personas que participaron del siniestro.
* trazado_via: es la especficidad sobre el tipo de calle en que ocurrió el hecho. Recta o Curva.
* configuracion_de_la_via: es el tipo de configuración de la vía. Intersección, Cruce, Rotonda.
* pendiente_declive: es si existe pendiente.
* material_de_la_calzada: es el material del que está hecha la calzada donde ocurrió el siniestro.
* estado_de_la_calzada: es el estado en que se encontraba la calzada en el momento del siniestro.
* estado_fisico_ambiental: el estado de la calzada al momento del siniestro. Seca, Mojada.
* division_fisica_de_la_via: es el qué divide la vía donde ocurrió el siniestro. Por ejemplo, barrera de hormigón.
* senalización_carteleria: es si existía señalización en la zona al momento del hecho.
* senalización_horizontal: es si existía señalización horizontal en la zona al momento del hecho.
* senalización_transitoria: es si existía señalización transitoria en la zona al momento del hecho.
* luminosidad: es si el hecho ocurrió de día o de noche. Luz Natural.
* luz_artifical: es si en el lugar del hecho existía luz artificial.
* transito_restringido: es si el lugar era de tránsito restringido.
* estado_ambiental: es cómo estaba el tiempo al momento del hecho. Despejado, lluvioso, etc.
* visibilidad: es cómo se encontraba la visibilidad al momento del hecho. 
* semaforo: es si existe semáforo en la zona del hecho, y su funcionamiento.

In [9]:
# Eliminar columnas innecesarias
columnas_a_eliminar = [
    'unidad_regional',
    'id_provincia',
    'id_departamento',
    'altura_km',
    'tipo_siniestro_multiple',
    'despiste_previo',
    'tipo_colision',
    'trazado_via',
    'configuracion_de_la_via',
    'pendiente_declive',
    'division_fisica_de_la_via',
    'senalizacion_carteleria',
    'senalizacion_horizontal',
    'senalizacion_transitoria',
    'transito_restringido', 
    'provincia',
    'departamento',
    'localidad',
    ]

df_2018filtrado = df_2018filtrado.drop(columns=columnas_a_eliminar)


Ahora tenemos un Dataframe mucho más manejable, con los datos más importantes para nuestra investigación. Vamos a guardarlo para su futuro uso.

In [10]:
sin2018 = '../Datasets_limpios/siniestros2018.csv'
df_2018filtrado.to_csv(sin2018)

A continuación, veremos qué contiene el segundo Datasets que tenemos para el año 2018.

In [11]:
# Ruta al dataset
ruta_involucrados2018 = '../Datasets/feu-involucrado-descarga - (FC)feu-involucrado-2018.csv'

# Leer el archivo CSV directamente en un DataFrame
df_inv2018 = pd.read_csv(ruta_involucrados2018)

# Mostrar el DataFrame
df_inv2018

Unnamed: 0,id_feu,siniestro_fecha,provincia,id_provincia,numero,numero_ocupantes,tipo_involucrado,otro_tipo_involucrado,ano_vehiculo,uso_vehiculo,tipo_servicio_vehiculo,tipo_vehiculo_de_movilidad_personal,tipo_de_bicicleta,tipo_de_transporte_de_carga,sustancias_peligrosas,tipo_transporte_pasajeros,tipo_traccion_a_sangre
0,48796,2018-08-14 7:30:00,CORRIENTES,21,0,1,Automóvil,,2007.0,Privado,,,,,,,
1,48796,2018-08-14 7:30:00,CORRIENTES,21,1,1,Automóvil,,2010.0,Privado,,,,,,,
2,48823,2018-08-08 15:00:00,CORRIENTES,21,0,1,Automóvil,,2000.0,,,,,,,,
3,48823,2018-08-08 15:00:00,CORRIENTES,21,1,1,Automóvil,,2015.0,Privado,,,,,,,
4,48832,2018-08-10 14:10:00,CORRIENTES,21,0,1,Automóvil,,2016.0,Privado,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
786,49160,2018-12-11 21:00:00,CORRIENTES,21,1,1,Peatón,,,,,,,,,,
787,49004,2018-10-09 19:00:00,CORRIENTES,21,1,1,Peatón,,,,,,,,,,
788,48997,2018-10-07 11:40:00,CORRIENTES,21,0,1,Peatón,,,,,,,,,,
789,48982,2018-10-01 18:15:00,CORRIENTES,21,1,1,Peatón,,,,,,,,,,


No parece un Dataset muy valioso. Vamos a confirmarlo.


In [12]:
utils.verificar_tipo_datos(df_inv2018)

Unnamed: 0,nombre_campo,tipo_datos,no_nulos_%,nulos_%,nulos
0,id_feu,[<class 'int'>],100.0,0.0,0
1,siniestro_fecha,[<class 'str'>],100.0,0.0,0
2,provincia,[<class 'str'>],100.0,0.0,0
3,id_provincia,[<class 'int'>],100.0,0.0,0
4,numero,[<class 'int'>],100.0,0.0,0
5,numero_ocupantes,[<class 'int'>],100.0,0.0,0
6,tipo_involucrado,[<class 'str'>],100.0,0.0,0
7,otro_tipo_involucrado,[<class 'float'>],0.0,100.0,791
8,ano_vehiculo,[<class 'float'>],96.46,3.54,28
9,uso_vehiculo,"[<class 'str'>, <class 'float'>]",85.21,14.79,117


La mayoría de estos datos se encuentran nulos, o no nos agregan nada a nuestro futuro EDA. Por lo cual, se decide NO utilizarlos.

Procedemos a analizar entonces, el último posible dataset a utilizar. Semáforos.

In [13]:
# Ruta al dataset
ruta_semaforos = '../Datasets/bdgis_semaforos - recurso_semaforos (1).csv'

# Leer el archivo CSV directamente en un DataFrame
df_semaforos = pd.read_csv(ruta_semaforos)

# Mostrar el DataFrame
df_semaforos

Unnamed: 0,gid,nom_barrio,esquina,calle,calle2,suj-column,nro_artef,sem-artef,sem-arte_2,sem-arte_3,...,led,tipo led,suj-soport,de-cargado,de-bateria,de-cabl al,de_cam s_n,c-estado,lng,lat
0,1,,1.0,AV. 3 DE ABRIL,AV. COSTANERA GRAL. SAN MARTIN,"con pescante 5,5m.",3.0,1*300+2*200,3*200,3*200\n,...,amarillo 200,12v,doble,24V,no,bueno,no,bueno,-58.855530,-27.473426
1,2,,2.0,AV. 3 DE ABRIL,AV. COSTANERA GRAL. SAN MARTIN,"con pescante 5,5m.",2.0,1*300+2*200,3*200,ninguno,...,amarillo 200,12v,simple,24V,no,bueno,no,bueno,-58.855712,-27.473398
2,3,,3.0,AV. 3 DE ABRIL,AV. COSTANERA GRAL. SAN MARTIN,"con pescante 5,5m.",4.0,1*300+2*200,3*200,3*200\n,...,amarillo 200,12v,doble,Ninguno,no,bueno,no,bueno,-58.855479,-27.473166
3,4,,4.0,AV. 3 DE ABRIL,CHACO,"con pescante 5,5m.",4.0,1*300+2*200,1*300+2*200,3*200\n,...,amarillo 200,12v,doble,12V,no,bueno,no,bueno,-58.847385,-27.474526
4,5,,5.0,AV. 3 DE ABRIL,CHACO,"con pescante 5,5m.",2.0,3*300,3*300,ninguno,...,amarillo 200,12v,doble,24V,no,bueno,no,bueno,-58.847295,-27.474420
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
382,295,,295.0,PDTE. DR. RAUL RICARDO ALFONSIN,GODOY CRUZ,"con pescante 5,5m.",2.0,1*300+2*200,3*200,ninguno,...,amarillo 200,12v,doble,Ninguno,no,bueno,no,bueno,-58.833872,-27.476002
383,296,,296.0,PDTE. DR. RAUL RICARDO ALFONSIN,GODOY CRUZ,"con pescante 5,5m.",2.0,1*300+2*200,3*200,ninguno,...,amarillo 200,12v,doble,Ninguno,no,bueno,no,bueno,-58.814533,-27.478528
384,508,,,AV. 3 DE ABRIL,CATAMARCA,,,,,,...,,,,,,,,,-58.835615,-27.467602
385,96,,96.0,AV. INDEPENDENCIA,AV. CHACABUCO,"con pescante 5,5m.",2.0,3*200,3*300,ninguno,...,amarillo 200,12v,doble,12V,no,bueno,no,bueno,,


Nuevamente los datos no son de vital importancia para nuestro proyecto, sin embargo, nos quedaremos con algunas columnas importantes.

In [14]:
df_semaforos = df_semaforos[['lat', 'lng']]

df_semaforos.head()

Unnamed: 0,lat,lng
0,-27.473426,-58.85553
1,-27.473398,-58.855712
2,-27.473166,-58.855479
3,-27.474526,-58.847385
4,-27.47442,-58.847295


Guardamos este primer nuevo Dataset para su uso en la posteridad. 

In [15]:
output_path = '../Datasets_limpios/semaforos_lat_lng.csv'
df_semaforos.to_csv(output_path)