# Predicciones de Riesgos de Accidentes de Tránsido con Machine Learning

## Objetivo General
Aplicar las técnicas de Machine Learning para realizar predicciones sobre el fenómeno de siniestros de tránsito utilizando el conjunto de datos de la AMT de Ecuador con fecha de corte 2024-x-x.
## Objetivo Específico:
- Utilizar aprendizaje supervisado que permita predecir, dados unas condiciones de entrada, el nivel de gravedad del accidente. Para esto se considera la **Pirámide de Bird**, la cual se adapta según la relación de fallecidos y lesionados en el siniestro.
- Utilizar aprendizaje supervisado para predecir la cantidad de lesionados y fallecidos según condiciones de entrada. Para esto se puede partir del dataset original.
- Utilizar aprendizaje supervisado para obtener grupos de siniestralidad en función de las características del accidente

In [1]:
import pandas as pd
import os
dataset_path = os.path.join(os.getcwd(), 'data', 'dataset_original.xlsx')
dataset = pd.read_excel(dataset_path)
dataset.shape

(165017, 60)

In [2]:
pd.set_option('display.max_columns', None)
pd.options.display.max_rows = None

In [3]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 165017 entries, 0 to 165016
Data columns (total 60 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   NUMERO                         165017 non-null  int64  
 1   ANIO                           165017 non-null  int64  
 2   SINIESTROS                     165017 non-null  object 
 3   LESIONADOS                     165017 non-null  int64  
 4   FALLECIDOS                     165017 non-null  int64  
 5   ENTE_DE_CONTROL                165017 non-null  object 
 6   LATITUD_Y                      165017 non-null  float64
 7   LONGITUD_X                     165017 non-null  float64
 8   DPA_1                          165017 non-null  int64  
 9   PROVINCIA                      165017 non-null  object 
 10  DPA_2                          165017 non-null  int64  
 11  CANTON                         165017 non-null  object 
 12  DPA_3                         

In [4]:
dataset_cl1 = dataset.dropna()
dataset_cl1.shape

(164992, 60)

## Valores únicos contenidos en el dataset

Se revisa cuál es el contenido de valores únicos en el dataset en el caso de que la columna sea de tipo object

In [9]:
for column in ['FERIADO', 'CODIGO_CAUSA', 'CAUSA_PROBABLE', 'TIPO_DE_SINIESTRO', 'TIPO_DE_VEHICULO_1','SERVICIO_1', 'PARTICIPANTE_1', 'CASCO_1', 'CINTURON_1', 'GRUPO ETARIO']:
    if dataset_cl1[column].dtype == "object":
        print(f"{column} tiene los siguientes valores\n{set(dataset_cl1[column])}")

FERIADO tiene los siguientes valores
{'SI', 'NO'}
CODIGO_CAUSA tiene los siguientes valores
{'C19', 'C18', 'C26', 'C22', 'C07', 'C25', 'C06', 'C09', 'C05', 'C17', 'C01', 'C03', 'C15', 'C02', 'C28', 'C27', 'C10', 'C16', 'C23', 'C11', 'C24', 'C08', 'C12', 'C21', 'C14', 'C04', 'C20'}
CAUSA_PROBABLE tiene los siguientes valores
{'CONDUCIR DESATENTO A LAS CONDICIONES DE TRANSITO (CELULAR, PANTALLAS DE VIDEO, COMIDA, MAQUILLAJE O CUALQUIER OTRO ELEMENTO DISTRACTOR).', 'MALAS CONDICIONES DE LA VIA Y/O CONFIGURACION. (ILUMINACION Y DISEÑO).', 'NO GUARDAR LA DISTANCIA LATERAL MINIMA DE SEGURIDAD ENTRE VEHICULOS.', 'ADELANTAR O REBASAR A OTRO VEHICULO EN MOVIMIENTO EN ZONAS O SITIOS PELIGROSOS TALES COMO: CURVAS, PUENTES, TUNELES, PENDIENTES, ETC.', 'NO TRANSITAR POR LAS ACERAS O ZONAS DE SEGURIDAD DESTINADAS PARA EL EFECTO.', 'PRESENCIA DE AGENTES EXTERNOS EN LA VIA (AGUA, ACEITE, PIEDRA, LASTRE, ESCOMBROS, MADEROS, ETC.).', 'CONDUCIR EN SENTIDO CONTRARIO A LA VIA NORMAL DE CIRCULACION.', 'NO R