# Trabajo Práctico 1: Análisis Exploratorio de Datos

## 1. Listado de variables y selección
Se eligió aplicar el análisis exploratorio de datos sobre un conjunto de datos de los accidentes de tráfico ocurridos en la ciudad de Addis Ababa, Etiopía entre los años 2017 y 2020.



####  Variables

* Age_band_of_driver: Rango etario del conductor **(entrada)**
* Sex_of_driver: Sexo del conductor **(entrada)**
* Educational_level: Nivel académico del conductor
* Vehicle_driver_relation: Pertenencia entre conductor y vehiculo
* Driving_experience: Años de experiencia del conductor **(entrada)**
* Lanes_or_Medians: Tipo de separación entre carriles **(entrada)**
* Types_of_Junction: Tipo de intersección **(entrada)**
* Road_surface_type: Tipo de superficie de la ruta **(entrada)**
* Light_conditions: Condiciones luminarias **(entrada)**
* Weather_conditions: Condiciones metereológicas **(entrada)**
* Type_of_collision: Tipo de colisión **(entrada)**
* Vehicle_movement: Movimiento del vehiculo **(entrada)**
* Pedestrian_movement: Movimiento de los peatones 
* Cause_of_accident: Causa del accidente **(entrada)**        
* Accident_severity: Gravedad del accidente **(salida)**


La variable de salida **"Accident_severity"** puede tomar los valores **0=Fatal injury, 1=Serious injury, 2=Slight injury**

Las variables **"Educational_level"**, **"Vehicle_driver_relation"**, **"Pedestrian_movement"** no serán usadas ya que para una correcta interpretación de las mismas se hace necesario conocer el contexto socio-ecónomico de la sociedad estudiada.
___


In [2]:
import pandas
import numpy

In [3]:
accidentes = pandas.read_csv('dataset.csv')

columnas={'Age_band_of_driver':'age', 'Sex_of_driver':'sex', 'Driving_experience':'exp', 'Lanes_or_Medians':'medians',
          'Types_of_Junction': 'junction', 'Road_surface_type':'surface', 'Light_conditions': 'light',
          'Weather_conditions': 'weather', 'Type_of_collision':'collision', 'Vehicle_movement':'car_movement',
          'Cause_of_accident': 'acc_cause', 'Accident_severity': 'severity'
         }

accidentes.rename(columns=columnas, inplace=True)

del accidentes['Educational_level']
del accidentes['Vehicle_driver_relation']
del accidentes['Pedestrian_movement']
accidentes.head()


accidentes.to_csv('accidentes.csv', index=False)

Para poder estudiar las variables primero es preciso codificar las categorias de todas las variables de entrada.

In [None]:
entradas_codificadas = {'age':{'Under 18':0, '18-30':1, '31-50':2, 'Over 51':3},
                        
                        'sex':{'Male':0, 'Female':1}, ## OHE
                        
                        'exp':{'Below 1yr':0, '1-2yr':1, '2-5yr':2, '5-10yr':3, 'Above 10yr':4},
                        
                        'medians':{'One way':0, 'Double carriageway (median)':1,
                                   'Two-way (divided with broken lines road marking)':2,
                                   'Two-way (divided with solid lines road marking)':3,
                                   'Undivided Two way':4, 'other':5}, ## OHE
                        
                        'junction':{'Crossing':0, 'No junction':1, 'O Shape':2,
                                    'T Shape':3, 'X Shape':4, 'Y Shape':5, 'Other':6}, ## OHE
                        
                        'surface': {'Asphalt roads':0, 'Asphalt roads with some distress':1,
                                    'Earth roads':2, 'Gravel roads':3, 'Other':4}, ## OHE
                        
                        'light': {'Daylight':0, 'Darkness - no lighting':1,
                                  'Darkness - lights unlit':2, 'Darkness - lights lit':3}, ## OHE
                        
                        'weather': {'Cloudy':0, 'Fog or mist':1, 'Normal':2, 'Raining':3,
                                    'Raining and Windy':4, 'Snow':5, 'Windy':6, 'Other':7}, ## OHE
                        
                        'collision': {'Collision with animals':0, 'Collision with pedestrians':1,
                                      'Collision with roadside objects':2, 'Collision with roadside-parked vehicles':3,
                                      'Fall from vehicles':4, 'Rollover':5, 'Vehicle with vehicle collision':6,
                                      'With Train':7,'Other':8},
                       
                        'car_movement': {'Entering a junction':0, 'Getting off':1, 'Going straight':2,
                                        'Moving Backward':3, 'Overtaking':4, 'Parked':5, 'Reversing':6,'Stopping':7,
                                        'Turnover':8, 'U-Turn':9, 'Waiting to go':10, 'Other':11},
                       
                        'acc_cause': {'Changing lane to the left':0, 'Changing lane to the right':1,
                                      'Driving at high speed':2, 'Driving carelessly':3,
                                      'Driving to the left':4,'Driving under the influence of drugs':5,
                                      'Drunk driving':6,'Getting off the vehicle improperly':7,
                                      'Improper parking':8,'Moving Backward':9,
                                      'No distancing':10,'No priority to pedestrian':11,
                                      'No priority to vehicle':12,'Overloading':13,
                                      'Overspeed':14,'Overtaking':15,'Overturning':16,
                                      'Turnover':17, 'Other':18}}

accidentes.replace(entradas_codificadas, inplace=True)

# Convertimos los "Unknown" en nulos para que no caigan como categorias
# accidentes.replace('Unknown', numpy.NaN, inplace=True)

accidentes.head()

accidentes.to_csv('accidentes.csv')

## 2. Análisis detallado de un conjunto de variables

¿Qué tan grave fueron los accidentes?

In [None]:
accidentes.severity.value_counts()

In [None]:
import matplotlib.pyplot as plt
import plotly.express as px

In [None]:
accidentes.severity.value_counts().plot.pie(autopct='%1.0f%%', figsize=(8,8))

Se observa claramente que la gravedad de la gran mayoria de los accidentes son de lesiones leves esto parece indicar que el sistema vehicular en situaciones límites funciona bien. Le sigue una porcion del 14% de accidentes con heridas graves y un pequeña cantidad de 158 accidentes fatales.
Al ser la distribución tan despareja, el modelo al ser entrenado, puede llegar a darle mas a peso a la salida dominante

In [None]:
# Distribucion de la edad de los conductores
px.histogram(accidentes, x="age", color="age")

In [None]:
# Edad del conductor contra gravedad del accidente
px.histogram(accidentes, x="severity", color='age', barmode='group')

Se observa que la distribucion de la edad de los conductores accidentados se aproxima a una distribucion normal y la mayoria  ronda entre los 18-30 años y 31-50 años, es decir adolescentes y adultos. La mínima cantidad de conductores accidentados son menores de edad. 

In [None]:
# Distribucion de la experiencia del conductor
accidentes_l = accidentes.replace(["Unknown","unknown"], numpy.NaN)
accidentes_l.exp.value_counts().plot.pie(autopct='%1.0f%%', figsize=(8,8))

El gráfico muestra que el 72% de los accidentados tiene minimamente 2 años de experiencia en conducir y el resto hasta menos de un año de experiencia y solo un 1% sin licencia. Este 72% experimentado puede llegar a explicar la leve gravedad en la mayoria de accidentes

In [None]:
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('experiencia por fatal')
accidentes_l[accidentes_l.severity == 0].exp.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('experiencia por grave')
accidentes_l[accidentes_l.severity == 1].exp.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('experiencia por leve')
accidentes_l[accidentes_l.severity == 2].exp.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

Contra la hipótesis antes mencionada al parecer en los accidentes fatales participan una pequeña porcion mas conductores experimentados de entre 2,5 y 10 años. Es interesante observar que los conductores menos experimentados por debajo del año de experiencia participan casi un 10% menos en accidentes fatales que en graves y leves, esto puede indicar que conducen mas cuidadosamente. 

In [None]:
#Distribucion del clima en los momentos del accidente
accidentes_l.weather.value_counts().plot.pie(autopct='%1.0f%%', figsize=(8,8))

In [None]:
# Clima del momento del accidente contra gravedad del accidente
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('clima en fatales')
accidentes_l[accidentes_l.severity == 0].weather.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('clima en graves')
accidentes_l[accidentes_l.severity == 1].weather.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('clima en leves')
accidentes_l[accidentes_l.severity == 2].weather.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

Se da cuenta de que la gran mayoria de los dias de accidente son normales osea soleados porque la distribucion es dispareja claramente. Es muy interesante y lógico observar que se dan mas dias lluviosos en accidentes fatales que en el resto de accidentes incluso por sobre dias con neblina, viento o nieve. A pesar de esta situación, el tercer grafico parece indicar que cuando los dias no son soleados se dan mas accidentes, pero leves. Esto indica que los conductores transitan mas cuidadosamente en dias complicados.

In [None]:
# Distribucion del tipo de colisión en los accidentes
px.histogram(accidentes, x="collision", color="collision")

In [None]:
# Tipo de colisión contra gravedad del accidente
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('colision en fatales')
accidentes_l[accidentes_l.severity == 0].collision.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('colision en graves')
accidentes_l[accidentes_l.severity == 1].collision.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('colision en leves')
accidentes_l[accidentes_l.severity == 2].collision.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

La distribucion indica que la gran mayoria de colisiones son vehiculos contra otros vehiculos le sigue en mucho menor proporcion vehiculos contra objetos en el camino, luego colisiones contra peatones, colisiones con vuelcos y en menor cantidad contra animales. Los numeros indican que la difencia entre accidentes graves y leves contra fatales pasa por la colision contra peatones y es coherente. Se ve tambien que en accidentes fatales no se dan colisiones contra otros vehiculos estacionados o caidas de vehiculos u otros tipos de colisiones mientras en los otros accidentes si.

In [None]:
# Distribucion de causas de accidentes
px.histogram(accidentes, x="acc_cause", color="acc_cause")

In [None]:
# Causas de accidentes contra gravedad
px.histogram(accidentes, x="acc_cause", color="severity", barmode="group")

A primera vista aqui se observa una mayor variabilidad en las relaciones entre las variables que los anteriores casos.
La mayor causa de accidentes es por el poco distanciamiento entre vehiculos, le siguen cambiar de carril a la derecha,
cambiar de carril a la izquierda, conducir descuidademente, no darle prioridad a otros vehiculos, ir en reversa y
no darle prioridad a los peatones. La mismas distribucion aparece en la relacion con la gravedad de los accidentes

In [None]:
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('causas en fatales')
accidentes_l[accidentes_l.severity == 0].acc_cause.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('causas en graves')
accidentes_l[accidentes_l.severity == 1].acc_cause.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('causas en leves')
accidentes_l[accidentes_l.severity == 2].acc_cause.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

La distribución sigue siendo igual pero es muy interesante observar las distintas causas para cada tipo de accidente.
Por ejemplo las causas mayore en fatales (en orden) son retroceder, cambiar de carril a la derecha, conducir descuidademente, 
mantenerse sin distancia, cambiar al carril izquierdo. Mientras que en leves las causas mayoritarias son conducir
sin distanciamiento, cambiar al carril derecho, cambiar al carril izquierdo, conducir sin cuidado,  y no darle prioridad 
a otros vehiculos.

In [None]:
import seaborn as sns

In [None]:
sns.heatmap(accidentes_l.corr(),annot=True,cmap='RdYlGn',linewidths=0.2)
fig=plt.gcf()
fig.set_size_inches(10,8)
plt.show()

Se observa que no existe una correlacion muy fuerte entre las entradas y la salida. Esto puede suceder debido 
a que quizas las entradas seleccionadas no son las que mas causalidad tiene con la severidad de un accidente
sin embargo notamos (como es de esperar) una correlacion que destaca entre las entradas "light" y "weather"
con la gravedad del accidente. Ya se notó cuando se analizó el clima ahora se comprueba contra luminosidad.

In [None]:
# Luminosidad contra gravedad del accidente
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('luminosidad en fatales')
accidentes_l[accidentes_l.severity == 0].light.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('luminosidad en graves')
accidentes_l[accidentes_l.severity == 1].light.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('luminosidad en leves')
accidentes_l[accidentes_l.severity == 2].light.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

In [None]:
# Luminosidad contra gravedad del accidente
f,ax=plt.subplots(1,3,figsize=(16,6))

ax[0].set_title('clima contra luz de dia')
accidentes_l[accidentes_l.light == 0].weather.value_counts().plot.pie(ax=ax[0], autopct='%1.0f%%')
ax[1].set_title('clima contra noche con luces')
accidentes_l[accidentes_l.light == 1].weather.value_counts().plot.pie(ax=ax[1], autopct='%1.0f%%')
ax[2].set_title('clima contra noche sin luces')
accidentes_l[accidentes_l.light == 2].weather.value_counts().plot.pie(ax=ax[2], autopct='%1.0f%%')

## Conclusión

Se llegó a la conclusion que la luminosidad y el clima al momento del accidente son lo que mas influyen en la gravedad del mismo. Los gráficos demuestran que en accidente graves y leves hay mayormente luz del dia en un 70-70% de los casos y es noche un 27-26 de los casos. En cambio, los accidentes fatales se dan de noche un poco menos del doble de veces que en los leves y el resto en oscuridad absoluta sin luces. Esto último habla de que las carreteras estan muy iluminadas. Se explica una causalidad bastante parecida a la comentada respecto al clima la momento del accidente, pero en este caso mas acentuada. Por ultimo se observa que cuando es de noche y hay un clima que no es normal como lluvia, viento, nieve se registran mas accidentes que si el clima es normal.