## Predicciones de Riesgos de Accidentes de Tránsito con Machine Learning

Los accidentes de tránsito son uno de los eventos lamentables que experimenta cualquier nación. En este notebook, se analiza la utlización de diferentes técnicas de *machine learning* para la predicción de riesgos asociados a dichos accidentes.

### Objetivo General

- Utilizar Machine learning para la predicción de riesgos asociados de accidentes de tránsito
- Analizar y agrupar áreas geográficas con características similares en términos de siniestralidad vial mediante técnicas de clustering, con el fin de identificar patrones y tendencias que contribuyan a la formulación de estrategias de prevención y mejora de la seguridad vial

### Objetivos Específicos
- Aplicar técnicas de clustering como K-Means, para agrupar áreas geográficas con características similares en términos de siniestralidad además de evaluar la idoneidad de diferentes enfoques y parámetros de clustering 
- Investigar y analizar patrones emergentes en los grupos identificados, centrándose en las similitudes y diferencias clave entre las áreas agrupadas.
- Establecer relaciones causales entre variables identificadas y la frecuencia de siniestros
- Evaluar la validez de los grupos formados mediante técnicas de validación interna y externa

### Hipótesis
- Evaluación de riesgos en seguridad vial, uso de técnicas avanzadas de Machine Learning
- Técnicas de aprendizaje automático en datos abiertos de siniestros de tránsito



## Lectura Dataset

Se realiza la lectura de los datos originales del ANT

In [1]:
import pandas as pd
import os
dataset_path = os.path.join(os.getcwd(), 'data', 'dataset_original.xlsx')
dataset = pd.read_excel(dataset_path)
dataset.shape

(165017, 60)

In [2]:
pd.set_option('display.max_columns', None)
pd.options.display.max_rows = None

In [3]:
dataset.sample(5)

Unnamed: 0,NUMERO,ANIO,SINIESTROS,LESIONADOS,FALLECIDOS,ENTE_DE_CONTROL,LATITUD_Y,LONGITUD_X,DPA_1,PROVINCIA,DPA_2,CANTON,DPA_3,PARROQUIA,DIRECCION,ZONA_PLANIFICACION,ZONA,ID_DE_LA_VIA,NOMBRE_DE_LA_VIA,UBICACION_DE_LA_VIA,JERARQUIA_DE_LA_VIA,FECHA,HORA,PERIODO_1,PERIODO_2,DIA_1,DIA_2,MES_1,MES_2,FERIADO,CODIGO_CAUSA,CAUSA_PROBABLE,TIPO_DE_SINIESTRO,TIPO_DE_VEHICULO_1,SERVICIO_1,AUTOMOVIL,BICICLETA,BUS,CAMION,CAMIONETA,EMERGENCIAS,ESPECIAL,FURGONETA,MOTOCICLETA,NO_IDENTIFICADO,SCOOTER_ELECTRICO,TRICIMOTO,VEHICULO_DEPORTIVO_UTILITARIO,SUMA_DE_VEHICULOS,TIPO_ID_1,EDAD_1,SEXO_1,CONDICION_1,PARTICIPANTE_1,CASCO_1,CINTURON_1,DPA_PROV,DPA_CANT,DPA_PARR,GRUPO ETARIO
93183,157533,2023,MSD00491112023,1,0,EMPRESA PUBLICA MUNICIPAL DE TRANSPORTE SANTO ...,-0.248006,-79.197862,23,SANTO DOMINGO DE LOS TSACHILAS,2301,SANTO DOMINGO,230150,SANTO DOMINGO DE LOS COLORADOS,AV BOMBOLI Y CALLE ANDRES MARIA MUÑOZ,ZONA 4,URBANA,ND,ND,ND,ND,"domingo, 19 de noviembre de 2023",17:00:00,DE 17H00 A 17H59,17.0,DOMINGO,7.0,NOVIEMBRE,11.0,NO,C11,NO MANTENER LA DISTANCIA PRUDENCIAL CON RESPEC...,CHOQUE POSTERIOR,BUS,PUBLICO,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2.0,LICENCIA,54.0,HOMBRE,LESIONADO,CONDUCTOR PRESENTE,NO,NO,23,2301,230150,DE 50 A 64 AÑOS
53204,105325,2021,MRI09261062021,2,0,"DIRECCION DE GESTION DE MOVILIDAD, TRANSITO Y ...",-1.671541,-78.653626,6,CHIMBORAZO,601,RIOBAMBA,60150,RIOBAMBA,JOSE JOA2QUIN DE OLMEDO Y VICENTE ROCAFUERTE,ZONA 3,URBANA,ND,ND,ND,ND,"miércoles, 23 de junio de 2021",05:08:00,DE 05H00 A 05H59,5.0,MIERCOLES,3.0,JUNIO,6.0,NO,C07,"PEATON TRANSITA BAJO INFLUENCIA DE ALCOHOL, SU...",CHOQUE LATERAL,AUTOMOVIL,PARTICULAR,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,CEDULA,24.0,HOMBRE,LESIONADO,CONDUCTOR PRESENTE,NO,NO,6,601,60150,DE 20 A 29 AÑOS
151078,6280,2017,CTE06280032017,0,0,COMISION DE TRANSITO DEL ECUADOR - CTE,-2.051055,-79.899533,9,GUAYAS,906,DAULE,90650,DAULE (DAULE),DAULE: AV. LEON FEBRES CORDERO RIVADENEIRA SEN...,ZONA 5,URBANA,178,PERIMETRAL DE GUAYAQUIL (VIA A LA COSTA - VIA ...,E40,ARTERIAL,"domingo, 19 de marzo de 2017",15:00:00,DE 15H00 A 15H59,15.0,DOMINGO,7.0,MARZO,3.0,NO,C14,CONDUCIR DESATENTO A LAS CONDICIONES DE TRANSI...,PERDIDA DE PISTA,AUTOMOVIL,PARTICULAR,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,NO IDENTIFICADO,-1.0,NO IDENTIFICADO,NO IDENTIFICADO,CONDUCTOR AUSENTE,NO,NO,9,906,90650,NO IDENTIFICADO
37493,31114,2018,DMQ02147022018,0,0,AGENCIA METROPOLITANA DE TRANSITO DE QUITO - AMT,-0.203601,-78.483057,17,PICHINCHA,1701,QUITO,170150,QUITO,12 DE OCTUBRE Y CORUÑA,ZONA 9,URBANA,ND,ND,ND,ND,"viernes, 2 de febrero de 2018",12:49:00,DE 12H00 A 12H59,12.0,VIERNES,5.0,FEBRERO,2.0,NO,C09,CONDUCIR VEHICULO SUPERANDO LOS LIMITES MAXIMO...,ESTRELLAMIENTOS,MOTOCICLETA,PARTICULAR,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,CEDULA,22.0,HOMBRE,ILESO,CONDUCTOR PRESENTE,NO,NO,17,1701,170150,DE 20 A 29 AÑOS
61414,48176,2018,MAM19209102018,0,0,"DIRECCION DE TRANSITO, TRANSPORTE TERRESTRE Y ...",-1.271245,-78.611754,18,TUNGURAHUA,1801,AMBATO,180150,AMBATO,AV BOLIVARIANA Y JULIO JARAMILLO,ZONA 3,URBANA,ND,ND,ND,ND,"viernes, 5 de octubre de 2018",20:30:00,DE 20H00 A 20H59,20.0,VIERNES,5.0,OCTUBRE,10.0,NO,C14,CONDUCIR DESATENTO A LAS CONDICIONES DE TRANSI...,OTROS,AUTOMOVIL,PARTICULAR,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,CEDULA,34.0,MUJER,ILESO,CONDUCTOR PRESENTE,NO,NO,18,1801,180150,DE 30 A 39 AÑOS


In [4]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 165017 entries, 0 to 165016
Data columns (total 60 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   NUMERO                         165017 non-null  int64  
 1   ANIO                           165017 non-null  int64  
 2   SINIESTROS                     165017 non-null  object 
 3   LESIONADOS                     165017 non-null  int64  
 4   FALLECIDOS                     165017 non-null  int64  
 5   ENTE_DE_CONTROL                165017 non-null  object 
 6   LATITUD_Y                      165017 non-null  float64
 7   LONGITUD_X                     165017 non-null  float64
 8   DPA_1                          165017 non-null  int64  
 9   PROVINCIA                      165017 non-null  object 
 10  DPA_2                          165017 non-null  int64  
 11  CANTON                         165017 non-null  object 
 12  DPA_3                         

Eliminando filas vacías ya que no tiene realizar un modelo de *machine learning* sobre datos inexistentes

In [5]:
dataset_cl1 = dataset.dropna()
dataset_cl1.shape

(164992, 60)

Generando una columna en formato `datetime` para fecha y hora

In [6]:
# dataset_cl1['FECHA_STR'] = dataset_cl1.apply(lambda x: str(x.FECHA)+' '+str(x.HORA), axis=1)
# dataset_cl1['FECHA_STR'] = dataset_cl1.FECHA.astype(str)+' '+dataset_cl1.HORA.astype(str)
dataset_cl1.loc[:, 'FECHA_STR'] = dataset_cl1['FECHA'].astype(str) + ' ' + dataset_cl1['HORA'].astype(str)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_cl1.loc[:, 'FECHA_STR'] = dataset_cl1['FECHA'].astype(str) + ' ' + dataset_cl1['HORA'].astype(str)


In [7]:
import re

def convert_spanish_date(date_str):
    # Define a mapping of month names to numeric values
    month_mapping = {
        'enero': '01',
        'febrero': '02',
        'marzo': '03',
        'abril': '04',
        'mayo': '05',
        'junio': '06',
        'julio': '07',
        'agosto': '08',
        'septiembre': '09',
        'octubre': '10',
        'noviembre': '11',
        'diciembre': '12'
    }

    # Extract day, month, and year using regex
    match = re.match(r'(\w+), (\d+) de (\w+) de (\d+) (\d+):(\d+):(\d+)', date_str)
    if match:
        day, day_num, month, year, hour, minute, second = match.groups()
        month_num = month_mapping.get(month.lower(), 'InvalidMonth')
        if month_num != 'InvalidMonth':
            return f"{year}/{month_num}/{day_num} {hour}:{minute}:{second}"
        else:
            return "Invalid month name"
    else:
        return "Invalid date format"

dataset_cl1['FECHA_STR2'] = dataset_cl1.FECHA_STR.apply(lambda x: convert_spanish_date(x))



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_cl1['FECHA_STR2'] = dataset_cl1.FECHA_STR.apply(lambda x: convert_spanish_date(x))


In [8]:
dataset_cl1.sample(5)

Unnamed: 0,NUMERO,ANIO,SINIESTROS,LESIONADOS,FALLECIDOS,ENTE_DE_CONTROL,LATITUD_Y,LONGITUD_X,DPA_1,PROVINCIA,DPA_2,CANTON,DPA_3,PARROQUIA,DIRECCION,ZONA_PLANIFICACION,ZONA,ID_DE_LA_VIA,NOMBRE_DE_LA_VIA,UBICACION_DE_LA_VIA,JERARQUIA_DE_LA_VIA,FECHA,HORA,PERIODO_1,PERIODO_2,DIA_1,DIA_2,MES_1,MES_2,FERIADO,CODIGO_CAUSA,CAUSA_PROBABLE,TIPO_DE_SINIESTRO,TIPO_DE_VEHICULO_1,SERVICIO_1,AUTOMOVIL,BICICLETA,BUS,CAMION,CAMIONETA,EMERGENCIAS,ESPECIAL,FURGONETA,MOTOCICLETA,NO_IDENTIFICADO,SCOOTER_ELECTRICO,TRICIMOTO,VEHICULO_DEPORTIVO_UTILITARIO,SUMA_DE_VEHICULOS,TIPO_ID_1,EDAD_1,SEXO_1,CONDICION_1,PARTICIPANTE_1,CASCO_1,CINTURON_1,DPA_PROV,DPA_CANT,DPA_PARR,GRUPO ETARIO,FECHA_STR,FECHA_STR2
102660,28629,2017,DMQ28629122017,0,0,AGENCIA METROPOLITANA DE TRANSITO DE QUITO - AMT,-0.191671,-78.490842,17,PICHINCHA,1701,QUITO,170150,QUITO,ITALIA - VANCOUVER,ZONA 9,URBANA,ND,ND,ND,ND,"miércoles, 27 de diciembre de 2017",18:52:00,DE 18H00 A 18H59,18.0,MIERCOLES,3.0,DICIEMBRE,12.0,NO,C23,NO RESPETAR LAS SEÑALES REGLAMENTARIAS DE TRAN...,CHOQUE LATERAL,AUTOMOVIL,COMERCIAL,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,CEDULA,46.0,HOMBRE,ILESO,CONDUCTOR PRESENTE,NO,NO,17,1701,170150,DE 40 A 49 AÑOS,"miércoles, 27 de diciembre de 2017 18:52:00",2017/12/27 18:52:00
141856,138392,2022,PNE00124122022,0,0,POLICIA NACIONAL DEL ECUADOR,-0.187288,-78.335967,17,PICHINCHA,1701,QUITO,170183,TABABELA,E-35 NORTE - KM 235+900,ZONA 9,RURAL,62,CUSUBAMBA - PIFO,E35,ARTERIAL,"martes, 20 de diciembre de 2022",19:30:00,DE 19H00 A 19H59,19.0,MARTES,2.0,DICIEMBRE,12.0,NO,C14,CONDUCIR DESATENTO A LAS CONDICIONES DE TRANSI...,CHOQUE POSTERIOR,MOTOCICLETA,PARTICULAR,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2.0,LICENCIA,46.0,HOMBRE,ILESO,CONDUCTOR PRESENTE,NO,SI,17,1701,170183,DE 40 A 49 AÑOS,"martes, 20 de diciembre de 2022 19:30:00",2022/12/20 19:30:00
4322,38318,2018,ATM09351052018,1,0,AGENCIA DE TRANSITO Y MOVILIDAD DE GUAYAQUIL -...,-2.236337,-79.918771,9,GUAYAS,901,GUAYAQUIL,90150,GUAYAQUIL,ISLA TRINITARIA,ZONA 8,URBANA,ND,ND,ND,ND,"miércoles, 16 de mayo de 2018",11:57:00,DE 11H00 A 11H59,11.0,MIERCOLES,3.0,MAYO,5.0,NO,C19,REALIZAR CAMBIO BRUSCO O INDEBIDO DE CARRIL.,CHOQUE LATERAL,MOTOCICLETA,PARTICULAR,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,2.0,CEDULA,-1.0,MUJER,LESIONADO,PASAJERO,NO,NO,9,901,90150,NO IDENTIFICADO,"miércoles, 16 de mayo de 2018 11:57:00",2018/05/16 11:57:00
13901,80744,2020,ATM01652012020,3,0,AGENCIA DE TRANSITO Y MOVILIDAD DE GUAYAQUIL -...,-2.186375,-79.886391,9,GUAYAS,901,GUAYAQUIL,90150,GUAYAQUIL,LORENZO DE GARAICOA Y ALEJO LASCANO,ZONA 8,URBANA,ND,ND,ND,ND,"lunes, 27 de enero de 2020",09:26:00,DE 09H00 A 09H59,9.0,LUNES,1.0,ENERO,1.0,NO,C09,CONDUCIR VEHICULO SUPERANDO LOS LIMITES MAXIMO...,ATROPELLOS,CAMIONETA,PARTICULAR,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,CEDULA,71.0,HOMBRE,LESIONADO,CONDUCTOR PRESENTE,NO,SI,9,901,90150,MAYOR DE 65 AÑOS,"lunes, 27 de enero de 2020 09:26:00",2020/01/27 09:26:00
90500,22332,2017,DMQ22332102017,1,0,AGENCIA METROPOLITANA DE TRANSITO DE QUITO - AMT,-0.197808,-78.439037,17,PICHINCHA,1701,QUITO,170157,CUMBAYA,OSWALDO GUAYASAMIN - LA CERAMICA,ZONA 9,RURAL,ND,ND,ND,ND,"martes, 10 de octubre de 2017",18:30:00,DE 18H00 A 18H59,18.0,MARTES,2.0,OCTUBRE,10.0,NO,C09,CONDUCIR VEHICULO SUPERANDO LOS LIMITES MAXIMO...,ESTRELLAMIENTOS,CAMION,PARTICULAR,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,CEDULA,26.0,MUJER,LESIONADO,PEATON,NO,NO,17,1701,170157,DE 20 A 29 AÑOS,"martes, 10 de octubre de 2017 18:30:00",2017/10/10 18:30:00


In [9]:
from datetime import datetime
dataset_cl1['FECHA_DT'] = dataset_cl1.FECHA_STR2.apply(lambda x: datetime.strptime(x, "%Y/%m/%d %H:%M:%S"))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dataset_cl1['FECHA_DT'] = dataset_cl1.FECHA_STR2.apply(lambda x: datetime.strptime(x, "%Y/%m/%d %H:%M:%S"))


In [10]:
dataset_cl1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 164992 entries, 0 to 165016
Data columns (total 63 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   NUMERO                         164992 non-null  int64         
 1   ANIO                           164992 non-null  int64         
 2   SINIESTROS                     164992 non-null  object        
 3   LESIONADOS                     164992 non-null  int64         
 4   FALLECIDOS                     164992 non-null  int64         
 5   ENTE_DE_CONTROL                164992 non-null  object        
 6   LATITUD_Y                      164992 non-null  float64       
 7   LONGITUD_X                     164992 non-null  float64       
 8   DPA_1                          164992 non-null  int64         
 9   PROVINCIA                      164992 non-null  object        
 10  DPA_2                          164992 non-null  int64         
 11  CANTO

In [20]:
dataset_cl1.sample(5)

Unnamed: 0,NUMERO,ANIO,SINIESTROS,LESIONADOS,FALLECIDOS,ENTE_DE_CONTROL,LATITUD_Y,LONGITUD_X,DPA_1,PROVINCIA,DPA_2,CANTON,DPA_3,PARROQUIA,DIRECCION,ZONA_PLANIFICACION,ZONA,ID_DE_LA_VIA,NOMBRE_DE_LA_VIA,UBICACION_DE_LA_VIA,JERARQUIA_DE_LA_VIA,FECHA,HORA,PERIODO_1,PERIODO_2,DIA_1,DIA_2,MES_1,MES_2,FERIADO,CODIGO_CAUSA,CAUSA_PROBABLE,TIPO_DE_SINIESTRO,TIPO_DE_VEHICULO_1,SERVICIO_1,AUTOMOVIL,BICICLETA,BUS,CAMION,CAMIONETA,EMERGENCIAS,ESPECIAL,FURGONETA,MOTOCICLETA,NO_IDENTIFICADO,SCOOTER_ELECTRICO,TRICIMOTO,VEHICULO_DEPORTIVO_UTILITARIO,SUMA_DE_VEHICULOS,TIPO_ID_1,EDAD_1,SEXO_1,CONDICION_1,PARTICIPANTE_1,CASCO_1,CINTURON_1,DPA_PROV,DPA_CANT,DPA_PARR,GRUPO ETARIO,FECHA_STR,FECHA_STR2,FECHA_DT
142844,137660,2022,CTE00156122022,0,0,COMISION DE TRANSITO DEL ECUADOR - CTE,-3.019083,-79.040833,1,AZUAY,101,CUENCA,10168,TARQUI (CUENCA),RED VIAL E 35 KM 11 APROXIMADAMENTE,ZONA 6,RURAL,236,CUENCA - CUMBE,E35,ARTERIAL,"viernes, 9 de diciembre de 2022",10:00:00,DE 10H00 A 10H59,10.0,VIERNES,5.0,DICIEMBRE,12.0,NO,C23,NO RESPETAR LAS SEÑALES REGLAMENTARIAS DE TRAN...,CHOQUE LATERAL,CAMIONETA,PARTICULAR,0.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,LICENCIA,26.0,HOMBRE,ILESO,CONDUCTOR PRESENTE,NO,NO,1,101,10168,DE 20 A 29 AÑOS,"viernes, 9 de diciembre de 2022 10:00:00",2022/12/9 10:00:00,2022-12-09 10:00:00
115338,153396,2023,CTE00195092023,1,1,COMISION DE TRANSITO DEL ECUADOR - CTE,-2.158889,-79.854722,9,GUAYAS,907,DURAN,90750,ELOY ALFARO (DURAN),DURAN: PUENTE DE LA UNIDAD NACIONAL.,ZONA 8,RURAL,180,LA PUNTILLA - DURAN (PUENTE RMA),E40,ARTERIAL,"domingo, 10 de septiembre de 2023",08:45:00,DE 08H00 A 08H59,8.0,DOMINGO,7.0,SEPTIEMBRE,9.0,NO,C11,NO MANTENER LA DISTANCIA PRUDENCIAL CON RESPEC...,CHOQUE POSTERIOR,CAMION,PUBLICO,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,2.0,LICENCIA,-1.0,HOMBRE,FALLECIDO,CONDUCTOR PRESENTE,NO,NO,9,907,90750,NO IDENTIFICADO,"domingo, 10 de septiembre de 2023 08:45:00",2023/09/10 08:45:00,2023-09-10 08:45:00
52752,148197,2023,CTE00245062023,2,0,COMISION DE TRANSITO DEL ECUADOR - CTE,-2.167251,-79.465556,9,GUAYAS,912,NARANJITO,91250,NARANJITO,"NARANJITO, CALLE PICHINCHA Y CALLE CRISTOBAL C...",ZONA 5,URBANA,ND,ND,ND,ND,"miércoles, 14 de junio de 2023",21:10:00,DE 21H00 A 21H59,21.0,MIERCOLES,3.0,JUNIO,6.0,NO,C18,CONDUCIR EN SENTIDO CONTRARIO A LA VIA NORMAL ...,CHOQUE FRONTAL,MOTOCICLETA,PARTICULAR,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,2.0,CEDULA,31.0,HOMBRE,LESIONADO,PASAJERO,NO,NO,9,912,91250,DE 30 A 39 AÑOS,"miércoles, 14 de junio de 2023 21:10:00",2023/06/14 21:10:00,2023-06-14 21:10:00
19096,124871,2022,ATM00078052022,0,0,AGENCIA DE TRANSITO Y MOVILIDAD DE GUAYAQUIL -...,-2.184527,-79.880131,9,GUAYAS,901,GUAYAQUIL,90150,GUAYAQUIL,LOJA Y BAQUERIZO MORENO,ZONA 8,URBANA,ND,ND,ND,ND,"sábado, 7 de mayo de 2022",21:50:00,DE 21H00 A 21H59,21.0,SABADO,6.0,MAYO,5.0,NO,C09,CONDUCIR VEHICULO SUPERANDO LOS LIMITES MAXIMO...,CHOQUE POSTERIOR,AUTOMOVIL,PARTICULAR,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,LICENCIA,25.0,MUJER,ILESO,CONDUCTOR PRESENTE,NO,SI,9,901,90150,DE 20 A 29 AÑOS,"sábado, 7 de mayo de 2022 21:50:00",2022/05/7 21:50:00,2022-05-07 21:50:00
11081,42961,2018,ATM13994072018,2,0,AGENCIA DE TRANSITO Y MOVILIDAD DE GUAYAQUIL -...,-2.148098,-79.876527,9,GUAYAS,901,GUAYAQUIL,90150,GUAYAQUIL,AV. BENJAMIN ROSALES,ZONA 8,URBANA,ND,ND,ND,ND,"domingo, 22 de julio de 2018",18:16:00,DE 18H00 A 18H59,18.0,DOMINGO,7.0,JULIO,7.0,NO,C09,CONDUCIR VEHICULO SUPERANDO LOS LIMITES MAXIMO...,CHOQUE POSTERIOR,AUTOMOVIL,PARTICULAR,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3.0,CEDULA,-1.0,HOMBRE,LESIONADO,PASAJERO,NO,NO,9,901,90150,NO IDENTIFICADO,"domingo, 22 de julio de 2018 18:16:00",2018/07/22 18:16:00,2018-07-22 18:16:00


## Comportamiento en el tiempo

Para esto se puede agrupar el número de incidentes segun fecha

In [12]:
# dataset_cl1.groupby('FECHA_DT')['SINIESTROS'].count().plot()
# Group by date and count the occurrences of each accident code. IF grouping by hour is required use dt.hour
code_counts = dataset_cl1.groupby(dataset_cl1['FECHA_DT'].dt.date)['SINIESTROS'].count().reset_index()
# code_counts.columns = ['FECHA', 'SINIESTROS']
code_counts.head()

Unnamed: 0,FECHA_DT,SINIESTROS
0,2017-01-01,150
1,2017-01-02,71
2,2017-01-03,67
3,2017-01-04,55
4,2017-01-05,68


In [13]:
code_counts.describe()

Unnamed: 0,SINIESTROS
count,2647.0
mean,62.331696
std,20.527867
min,5.0
25%,48.0
50%,60.0
75%,76.0
max,151.0


In [19]:
code_counts[code_counts['SINIESTROS']==code_counts['SINIESTROS'].max()]

Unnamed: 0,FECHA_DT,SINIESTROS
1095,2020-01-01,151


Se observa que el máximo registro de accidentes se tiene para el 1 de enero de 2020 ¿es un comportamiento cíclico el que se tenga mas accidentes en el cambio de fin a nuevo año?

In [24]:
dataset_cl1[(dataset_cl1['FECHA_DT']>=datetime(2020,1,1, 0,0,0))&(dataset_cl1['FECHA_DT']<datetime(2020,1,2,0,0,0))].shape

(151, 63)

In [28]:
code_counts['FECHA_DT'] = pd.to_datetime(code_counts['FECHA_DT'])

In [29]:
code_counts[((code_counts.FECHA_DT.dt.month==12)&(code_counts.FECHA_DT.dt.day==31))
            |((code_counts.FECHA_DT.dt.month==1)&(code_counts.FECHA_DT.dt.day==1))]

Unnamed: 0,FECHA_DT,SINIESTROS
0,2017-01-01,150
364,2017-12-31,83
365,2018-01-01,110
729,2018-12-31,54
730,2019-01-01,117
1094,2019-12-31,66
1095,2020-01-01,151
1460,2020-12-31,77
1461,2021-01-01,125
1825,2021-12-31,88


In [30]:
import plotly.express as px
fig = px.line(code_counts, x='FECHA_DT', y='SINIESTROS', title='SINIESTROS EN EL TIEMPO')
fig.show()

In [39]:
code_counts_year = dataset_cl1.groupby(dataset_cl1['FECHA_DT'].dt.year)['SINIESTROS'].count().reset_index()
fig = px.box(code_counts_year, x='FECHA_DT', y='SINIESTROS', title='SINIESTROS EN EL TIEMPO')
fig.show()

In [34]:
code_counts_year

Unnamed: 0,FECHA_DT,SINIESTROS
0,2017,28967
1,2018,25530
2,2019,24595
3,2020,16972
4,2021,21352
5,2022,21733
6,2023,20977
7,2024,4866


## Obteniendo datos climáticos

Se consulta *openweather* para obtener datos meteorológicos históricos ya que el clima es un factor a considerar en los accidentes de tránsico

In [42]:
from dotenv import load_dotenv
load_dotenv()
WEATHER_API_KEY = os.getenv("WEATHER")

In [44]:
# Convert UTC timestamps (nanoseconds) to Unix timestamps (seconds)
# dataset_cl1['FECHA_DT_UTC_seconds'] = dataset_cl1['FECHA_DT'].dt.tz_localize('America/Guayaquil').dt.tz_convert('UTC').dt.timestamp(unit='ns')/1e9
dataset_cl1['FECHA_DT_UTC_seconds'] = dataset_cl1['FECHA_DT'].dt.tz_localize('America/Guayaquil').dt.tz_convert('UTC').dt.timestamp(unit='ns')/1e9

AttributeError: 'DatetimeProperties' object has no attribute 'timestamp'