# ACCIDENTES DE TRANSITO

### Objetivos
- Limpiar los datos de INE sobre estadisticas de accidentes de transito
- Dar recomendaciones de como mejorar el set de datos para que sirva para prevenir accidentes

### Causas de Accidentes
- Fallas Mecanicas (eg. frenos)
- Conductores ebrios, durante días festivos o fin de semana
- Uso de telefono durante se va manejando
- Incumplir la normalidad del semaforo (eg. Ignorar el semaforo rojo)
- Exceso de velocidad

### Datos que contiene el Set
Los datos que se utilizaron durante la realización del proyectos, fueron los brindados por la página [Instituto Nacional de Estadistica](https://www.ine.gob.gt/estadisticasine/index.php/usuario/hechos_transito_menu)

Las variables que se encuentran en los set de datos son:
- Numero de correlativo
- Año de ocurrencia
- Dia de ocurrencia
- Hora de ocurrencia
- Grupo de Hora
- Grupo de hora mañana, tarde y noche
- Mes de ocurrencia
- Dia de ocurrencia
- Departamento de ocurrencia
- Municipio de ocurencia
- Zona de ocurrencia
- Sexo de la persona
- Edad de la Persona
- Grupo de edad 80 y más
- Grupo de edad 60 y más
- Edades Quinquenales
- Mayor y Menor
- Tipo de Vehiculo
- Marca de Vehiculo
- Color de Vehiculo
- Grupo de modelo de vehiculo
- Tipo de Vehiculo
- Tipo de evento
- Fallecidos y Lesionados
- Internados o no internads

### Datos Necesarios para Asegurados
Muchos de los vehiculos al momento de los accidentes se encuentran asegurados, por lo que al momento de un choque estos mismo llaman a la aseguradora, la cual solicita los siguientes datos:

- **Datos del vehiculo**
    - Marca del Vehiculo
    - Tipo de Vehiculo
    - Modelo de Vehiculo
    - Color de Vehiculo
    
- **Datos del Accidentes**
    - Fecha del Accidente
    - Hora del Accidente
    - Lado de la Calle
    - Velocidad
    - Causa del Accidente


### ANALISIS DE DATOS DE FALLECIDOS Y LESIONADOS

Para la generación del dataset fue realizado en el link que se encuentra a continuación [Fallecidos y Lesionados](https://github.com/MaaarcosG/AccidentesTransito/blob/master/FallecidosLesionados.ipynb)

In [1]:
import pandas as pd

In [2]:
dataFallecidos = pd.read_csv('FallecidosCompletos.csv', na_values=['NaN'])
dataFallecidos.head(5)

Unnamed: 0,año_ocu,color_veh,depto_ocu,día_ocu,día_sem_ocu,fall_les,g_hora_5,hora_ocu,mes_ocu,modelo_veh,tipo_eve,tipo_veh
0,2019,5,1,1,2,2,1,5,1,2018,6,4
1,2019,5,1,1,2,2,3,21,1,2018,1,4
2,2019,5,1,1,2,2,3,21,1,2018,1,4
3,2019,5,1,1,2,2,1,7,1,2018,1,4
4,2019,3,1,1,2,2,1,11,1,2006,1,4


In [3]:
dataFallecidos.isnull().sum() #Se puede observar que el data set, no contiene ningún valor null

año_ocu        0
color_veh      0
depto_ocu      0
día_ocu        0
día_sem_ocu    0
fall_les       0
g_hora_5       0
hora_ocu       0
mes_ocu        0
modelo_veh     0
tipo_eve       0
tipo_veh       0
dtype: int64

In [4]:
dataFallecidos.duplicated().sum() #Verificamos que hay filas duplicadas, por lo que las vamos a eliminar

16678

### Diccionarios de los Valores
Se crearon los diccionario de los valores para identificar mejor cada uno de los datos

In [5]:
fall_les = {1: 'Fallecido', 2: 'Lesionado', 9: 'Ignorado'}
dataFallecidos['fall_les'] = dataFallecidos['fall_les'].replace(fall_les)

In [6]:
tipo_eve = {1: 'Colision', 
            2: 'Choque', 
            3: 'Vuelco', 
            4: 'Caida', 
            5: 'Atropello', 
            6: 'Derrape', 
            7: 'Embarranco', 
            8: 'Encuneto', 
            99: 'Ignorado'}

dataFallecidos['tipo_eve'] = dataFallecidos['tipo_eve'].replace(tipo_eve)

### Verificacion de los Datos
Se verifica que los datos esten correctamente

In [7]:
dataF = dataFallecidos.drop_duplicates() #Eliminamos las filas que se encuentren duplicadas
dataF.head(5)

Unnamed: 0,año_ocu,color_veh,depto_ocu,día_ocu,día_sem_ocu,fall_les,g_hora_5,hora_ocu,mes_ocu,modelo_veh,tipo_eve,tipo_veh
0,2019,5,1,1,2,Lesionado,1,5,1,2018,Derrape,4
1,2019,5,1,1,2,Lesionado,3,21,1,2018,Colision,4
3,2019,5,1,1,2,Lesionado,1,7,1,2018,Colision,4
4,2019,3,1,1,2,Lesionado,1,11,1,2006,Colision,4
5,2019,1,1,1,2,Fallecido,1,8,1,9999,Derrape,4


In [8]:
dataF.duplicated().sum() #Verificamos que las filas no estan duplicadas

0

In [9]:
dataF['año_ocu'].unique() #Se observa que solo se tienen los años correspondiente

array([2019, 2018, 2017, 2016, 2015], dtype=int64)

In [10]:
sorted(dataF['tipo_veh'].unique()) #Se observa que los valores son los correspondientes.

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 16, 17, 18, 20, 21, 22, 23, 99]

In [11]:
dataF['fall_les'].unique()

array(['Lesionado', 'Fallecido', 'Ignorado'], dtype=object)

In [12]:
dataF['tipo_eve'].unique()

array(['Derrape', 'Colision', 'Vuelco', 'Caida', 'Choque', 'Atropello',
       'Ignorado', 'Embarranco', 'Encuneto'], dtype=object)

#### Pregunta No. 1 ¿Cual es el tipo de accidente más común?

In [13]:
dataF['tipo_eve'].value_counts()

Colision      15993
Atropello     11624
Choque         3199
Vuelco         1343
Caida          1305
Derrape         533
Embarranco       72
Ignorado         10
Encuneto          4
Name: tipo_eve, dtype: int64

Se puede observar que el tipo de accidente más común en los ultimos 4 años, es decir del 2015 al 2019, es la **colisión**.

#### Pregunta No. 2 ¿Que año tiene más accidentes?

In [14]:
dataF['año_ocu'].value_counts()

2016    7756
2019    7183
2015    6702
2018    6511
2017    5931
Name: año_ocu, dtype: int64

El año con mayor cantidad de accidentes es **2016** el cual registra 7756 accidentes en total.

#### Pregunta No. 3 ¿Cuanto fallecidos y lesionados hay en General?

In [15]:
dataF['fall_les'].value_counts()

Lesionado    26606
Fallecido     7474
Ignorado         3
Name: fall_les, dtype: int64

Se puede observar que la cantidad de lesionados es mayor a los fallecidos.

#### Pregunta No. 3 ¿Cuanto de los Fallecidos fueron por Colision?

Agrupamos los datos, entre fallecidos y el tipo de choque que queremos, en este caso se tomo el tipo **colision** debido a que es el que más se encuentran registrados

In [16]:
FC =dataF.loc[(dataF['fall_les'] == 'Fallecido') & (dataF['tipo_eve'] == 'Colision')] #Fallecidos por Colision
cantidadFallecidosColision = FC['fall_les'].value_counts()
cantidadFallecidosColision

Fallecido    2400
Name: fall_les, dtype: int64

Se observa que la cantidad de fallecidos durante un accidente causado por colision, es de **2400**. Procederemos a verificar sacando la cantidad de Lesionados, y luego sumar ambos datos, y observar si es la misma cantidad que tenemos registrada.

In [17]:
LC =dataF.loc[(dataF['fall_les'] == 'Lesionado') & (dataF['tipo_eve'] == 'Colision')]
cantidadLesionadosColision = LC['fall_les'].value_counts()
cantidadLesionadosColision

Lesionado    13592
Name: fall_les, dtype: int64

Verificamos que la cantidad sea la misma encontrados anteriormente, en la Pregunta No. 1 

In [19]:
#relacion con la Pregunta No. 1
verificacionData = dataF['tipo_eve'].value_counts()

print('Cantidad de Colision: ', 2400 + 13592)
print('Cantidad de Colision: ', verificacionData[0])

Cantidad de Colision:  15992
Cantidad de Colision:  15993
