# DESAFIO IV - Parte 1.a
#### Preparación de dataset para análisis exploratorio

## Clasificación de accidentes de tráfico
#### Grupo 5
Alexandra Binder y Verónica Nieves

---
## Introducción

**Contexto**


Existen distintos factores que, en conjunto se ven involucrados en el origen de los accidentes automovilísticos. Por ejemplo: el clima, las características del conductor, las especificaciones del automóvil, entre otros. El presente dataset es producto del registro manual de los accidentes de tráfico del periodo 2017 - 2020 de la ciudad **Addis Ababa**, ciudad capital de Ethiopia. La información fue recopilada por los departamentos de policía y posteriormente utilizada con fines de inventigación. Toda la información sensible ha sido excluida durante la transcripción de los datos desde los regitros manuales hasta la creación del archivo CSV. Finalmente se tienen 32 features y 12.316 registros de accidentes.

<br>
<img src="image/mapa_addis.png" alt="position-map" width="300"/>

Los datos se encuentran disponibles en:
https://www.kaggle.com/datasets/saurabhshahane/road-traffic-accidents

**Las features del dataset son las siguientes:**

 * Time
 * Day_of_week
 * Age_band_of_driver
 * Sex_of_driver
 * Educational_level
 * Vehicle_driver_relation
 * Driving_experience
 * Type_of_vehicle
 * Owner_of_vehicle
 * Service_year_of_vehicle
 * Defect_of_vehicle
 * Area_accident_occured
 * Lanes_or_Medians
 * Road_allignment
 * Types_of_Junction
 * Road_surface_type
 * Road_surface_conditions
 * Light_conditions
 * Weather_conditions
 * Type_of_collision
 * Number_of_vehicles_involved 
 * Number_of_casualties 
 * Vehicle_movement
 * Casualty_class
 * Sex_of_casualty
 * Age_band_of_casualty
 * Casualty_severity
 * Work_of_casuality
 * Fitness_of_casuality
 * Pedestrian_movement
 * Cause_of_accident
 * Accident_severity

Este dataset fue seleccionado porque nos resulta interesante conocer cuáles son los distintos aspectos que influyen en la gravedad de un accidente automovilístico, y cómo estos interactúan entre sí. 

Queremos identificar cuáles son las características que tienen mayor influencia al momento de definir la gravedad de un accidente de tránsito, para luego obtener un modelo que prediga con mayor facilidad la gravedad de las heridas _(ligeras, graves, fatales)_ que se puedan ocasionar en accidentes de automovilísticos futuros. Esto permitirá identificar las condiciones que los conductores deben cumplir y/o evitar para **prevenir** accidentes con heridas fatales.

### **Objetivos del Desafío 3**
- **Explorar y limpiar en dataset**
- **Balancear el dataset respecto a la variable target: `Accident_severity`**
- **Predecir la variable target con al menos tres modelos de clasificación.**
- **Evaluar la performance de los modelos y comparar ventajas y desventajas de cada modelo.**
- **Determinar e interpretar la importancia de las features incluidas en la predicción.**

---

<a id="indice">

<a id="indice"></a> 
## **Índice**

[Módulo 1 - Exploración y limpieza](#modulo_01)

[Módulo 2 - Análisis exploratorio y selección de features](#modulo_02)

[Módulo 3 - Balance de clases](#modulo_03)

[Módulo 4 - Modelos de clasificación](#modulo_04)

   [  * 4.1 Modelo 1](#modelo_1)
   
   [  * 4.2 Modelo 2](#modelo_2)
   
   [  * 4.3 Modelo 3](#modelo_3)
   

[Módulo 5 - Evaluación y comparación de modelos](#modulo_05)


[Conclusión](#modulo_06)

---

<a id="modulo_01"></a> 
## Módulo 1 - Exploración y limpieza
[Ir a índice](#indice)

En esta primera sección vamos a explorar los datos, definir si es posible completar algunos valores faltantes o si es preferible reducir el número de registros y/o columnas según lo obersvado. Además se buscará mantener aquellas features que aportan información relevante al trabajo de clasificación.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")
%matplotlib inline

In [2]:
data = pd.read_csv("RTA_road_traffic_accidents.csv")
data.head(3)

Unnamed: 0,Time,Day_of_week,Age_band_of_driver,Sex_of_driver,Educational_level,Vehicle_driver_relation,Driving_experience,Type_of_vehicle,Owner_of_vehicle,Service_year_of_vehicle,...,Vehicle_movement,Casualty_class,Sex_of_casualty,Age_band_of_casualty,Casualty_severity,Work_of_casuality,Fitness_of_casuality,Pedestrian_movement,Cause_of_accident,Accident_severity
0,17:02:00,Monday,18-30,Male,Above high school,Employee,1-2yr,Automobile,Owner,Above 10yr,...,Going straight,na,na,na,na,,,Not a Pedestrian,Moving Backward,Slight Injury
1,17:02:00,Monday,31-50,Male,Junior high school,Employee,Above 10yr,Public (> 45 seats),Owner,5-10yrs,...,Going straight,na,na,na,na,,,Not a Pedestrian,Overtaking,Slight Injury
2,17:02:00,Monday,18-30,Male,Junior high school,Employee,1-2yr,Lorry (41?100Q),Owner,,...,Going straight,Driver or rider,Male,31-50,3,Driver,,Not a Pedestrian,Changing lane to the left,Serious Injury


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12316 entries, 0 to 12315
Data columns (total 32 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Time                         12316 non-null  object
 1   Day_of_week                  12316 non-null  object
 2   Age_band_of_driver           12316 non-null  object
 3   Sex_of_driver                12316 non-null  object
 4   Educational_level            11575 non-null  object
 5   Vehicle_driver_relation      11737 non-null  object
 6   Driving_experience           11487 non-null  object
 7   Type_of_vehicle              11366 non-null  object
 8   Owner_of_vehicle             11834 non-null  object
 9   Service_year_of_vehicle      8388 non-null   object
 10  Defect_of_vehicle            7889 non-null   object
 11  Area_accident_occured        12077 non-null  object
 12  Lanes_or_Medians             11931 non-null  object
 13  Road_allignment              12

Tenemos un total de 12,316 registros y 32 columnas, de las cuales 2 son del tipo **int** y 30 son de tipo **object**. Notemos que las columnas `Service_year_of_vehicle`, `Defect_of_vehicle`, `Work_of_casuality` , y `Fitness_of_casuality` tienen gran cantidad de registros nulos. Revisaremos columna por columna para definir si la información es relevante para la prediccion de nuestra variable objetivo, de los contrario, la eliminaremos.

---
### 1.1. Limpieza

### Variable objetivo

Creamos una función que arme una tabla donde se identifiquen las diferentes categorías de la feature de interés, que contabilice la cantidad y porcentaje de registros asociados a cada una de ellas. Esto último se hace con el objetivo de definir si es necesario redefinir o no las categorías para evitar sesgos en las predicciones.

In [4]:
def series_null_balance (data, target): #target es el nombre de la variable target
    
    df_target = pd.DataFrame({
        '#': data[target].value_counts().values,
        '%': ((data[target].value_counts().values/data.shape[0])*100).round(2)
    })
    df_target.index = data[target].value_counts().index
    
    print("Series dtype = ", data[target].dtype)
    print("Cantidad total de registros = ", data.shape[0])
    print("Cantidad total de registros nulos en", target, " = ", data[target].isna().sum())
    print("Porcentaje total de registros nulos en ", target, " = ", ((data[target].isna().sum()/data.shape[0])*100).round(2), "%")
   
    return df_target

In [5]:
series_null_balance(data, "Accident_severity")

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Accident_severity  =  0
Porcentaje total de registros nulos en  Accident_severity  =  0.0 %


Unnamed: 0,#,%
Slight Injury,10415,84.56
Serious Injury,1743,14.15
Fatal injury,158,1.28


Es importante notar que nuestra variable objetivo puede tomar tres valores distintos, pero se encuentran en proporciones desblanceadas. 

En otros trabajos derivados de este dataset (publicados en https://www.kaggle.com/), los autores han optado por eliminar las features de menor relevancia, eliminar registros nulos, completar los valores faltantes con los valores de mayor frecuencia en cada feature o con la etiqueta _"Unknown"_, transformar variables categóricas en variables numéricas (asignando un número a cada categoría) y creando variables dummies.


Nosotros haremos la limpieza de los datos cuidando mantener la mayor cantidad de registros de la clase minoritaria _Fatal injury_, la cual representa unicamente el 1.28% de los registros totales. Para facilitar este proceso generamos la siguiente función que busca analizar los datos nulos o pertenecientes a la categoría `Unknown` de una feature específica y mostrar cuántos de estos registros pertenecen a la categoría `Fatal injury` en nuestra variable objetivo:

In [6]:
def fatal_injury_percentage(feature, na_or_unknown="Unknown", null=False):
    if null:
        mask = new_data[feature].isnull()
    else:
        mask = new_data[feature] == na_or_unknown
        
    fat_inj = new_data[mask]["Accident_severity"].value_counts(normalize=False)
    total_fat_inj = new_data[new_data['Accident_severity'] == "Fatal injury"].shape[0]
    
    print (fat_inj)
    print ("\n", fat_inj[2], "≈",round(100*fat_inj[2]/total_fat_inj,3),"% registros con edad desconocida pertenecen a los accidentes con heridas fatales")

---
Pasamos a explorar cada una de las columnas del dataset para determinar con cuáles trabajaremos y cómo resolver los casos nulos. 
A lo largo de esta exploración de features crearemos `new_data` que será el data set con el que trabajaremos en los siguientes modulos.

In [7]:
new_data = data

#### Columnas completas, sin registros nulos
Esta variables la dejaremos para realizar un análisis exploratorio posteriormente.

In [8]:
[x for x in data.columns if data[x].isna().sum() == 0]

['Time',
 'Day_of_week',
 'Age_band_of_driver',
 'Sex_of_driver',
 'Road_surface_conditions',
 'Light_conditions',
 'Weather_conditions',
 'Number_of_vehicles_involved',
 'Number_of_casualties',
 'Casualty_class',
 'Sex_of_casualty',
 'Age_band_of_casualty',
 'Casualty_severity',
 'Pedestrian_movement',
 'Cause_of_accident',
 'Accident_severity']

#### <span style="color:blue"> Time </span>

In [9]:
series_null_balance(data, "Time").head(3)

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Time  =  0
Porcentaje total de registros nulos en  Time  =  0.0 %


Unnamed: 0,#,%
15:30:00,120,0.97
17:10:00,110,0.89
18:30:00,103,0.84


Conservaremos unicamente la hora, (sin minutos ni segundos), y eliminaremos la columna `Time`

In [10]:
#Agregamos la columna "Hour" y eliminamos "Time"
new_data["Hour"] = [int(pd.to_datetime(t).strftime("%H")) for t in data['Time']]
new_data = new_data.drop(["Time"], axis=1)
new_data["Hour"].dtype

dtype('int64')

#### <span style="color:blue"> Day_of_week </span>

In [11]:
series_null_balance(data, "Day_of_week")

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Day_of_week  =  0
Porcentaje total de registros nulos en  Day_of_week  =  0.0 %


Unnamed: 0,#,%
Friday,2041,16.57
Thursday,1851,15.03
Wednesday,1840,14.94
Tuesday,1770,14.37
Monday,1681,13.65
Saturday,1666,13.53
Sunday,1467,11.91


Notamos que los días en los que ocurren la mayoría de los accidentes son los viernes y los jueves (16.57% y 15.03%, respectivamente); mientras que aquellos donde menos ocurren son durante los fines de semana (sábado y domingo; 13.53% y 11.91%, respectivamente). El hecho de que haya una mayor cantidad de accidentes los dias viernes puede deberse a que es el último día hábil de la semana, cuando muchas personas se juntan para cenar, salir de fiesta y convivir con amigos y familiares; no obstante, para realizar una mejor suposición es necesario analizar el resto de los datos.

#### <span style="color:blue"> Age_band_of_driver </span>

In [12]:
series_null_balance(data, "Age_band_of_driver")

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Age_band_of_driver  =  0
Porcentaje total de registros nulos en  Age_band_of_driver  =  0.0 %


Unnamed: 0,#,%
18-30,4271,34.68
31-50,4087,33.18
Over 51,1585,12.87
Unknown,1548,12.57
Under 18,825,6.7


Observamos que los datos se encuentran divididos en cuatro rangos etarios y que además existe una categoría `Unknown` que no define una edad específica. Analizaremos cuántos elementos de esta categoría perteneces a accidentes fatales o `Fatal injury`.

In [13]:
fatal_injury_percentage("Age_band_of_driver")

Slight Injury     1370
Serious Injury     172
Fatal injury         6
Name: Accident_severity, dtype: int64

 6 ≈ 3.797 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Casi el 4% de estos datos corresponden a accidentes fatales. En esta ocasión decidimos conservarlos ya que de eliminar la categoría `Unknown`, perderíamos casi el 12.5% de los datos totales, el cual es un tamaño no menor. Modificaremos los nombres de las categorias para una mejor interpretación de los datos:

In [14]:
new_data['Age_band_of_driver'] = new_data['Age_band_of_driver'].map({
    'Under 18': 'Underage', 
    '18-30': 'Young_Adult', 
    '31-50': 'Adult', 
    'Over 51': 'Older_Adult', 
    'Unknown': 'Unknown'})

series_null_balance(data, "Age_band_of_driver")

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Age_band_of_driver  =  0
Porcentaje total de registros nulos en  Age_band_of_driver  =  0.0 %


Unnamed: 0,#,%
18-30,4271,34.68
31-50,4087,33.18
Over 51,1585,12.87
Unknown,1548,12.57
Under 18,825,6.7


#### <span style="color:blue"> Sex_of_driver </span>

In [15]:
series_null_balance(data, "Sex_of_driver")

Series dtype =  object
Cantidad total de registros =  12316
Cantidad total de registros nulos en Sex_of_driver  =  0
Porcentaje total de registros nulos en  Sex_of_driver  =  0.0 %


Unnamed: 0,#,%
Male,11437,92.86
Female,701,5.69
Unknown,178,1.45


In [16]:
fatal_injury_percentage("Sex_of_driver")

Slight Injury     159
Serious Injury     18
Fatal injury        1
Name: Accident_severity, dtype: int64

 1 ≈ 0.633 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Observamos que además de los géneros binarios existe una categoría `Unknown` la cual solamente representa un 1.45% de la totalidad de los datos. Si analizamos cuántos elementos de esta categoría pertenecen a accidentes fatales o `Fatal injury`, se contabiliza un único registro, por lo cual, eliminar la categoría `Unknown` de la feature `Sex of driver` parece ser una opción viable.

In [17]:
new_data = new_data[new_data['Sex_of_driver'] != 'Unknown']

#### <span style="color:blue"> Road_surface_conditions </span>

In [18]:
# Valores en dataset original
series_null_balance(new_data, "Road_surface_conditions")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Road_surface_conditions  =  0
Porcentaje total de registros nulos en  Road_surface_conditions  =  0.0 %


Unnamed: 0,#,%
Dry,9220,75.96
Wet or damp,2848,23.46
Snow,68,0.56
Flood over 3cm. deep,2,0.02


Se observan cuatro categorías: `Dry`, `Wet or damp`, `Snow`, `Flood over 3cm. deep`. Como las últimas dos categorías representan únicamente un 0.58% de la totalidad de los registros, y además, junto a `Wet or damp` representan condiciones de la ruta "no seca", decidimos unificar estas tres categorias. De esta manera el feature `Road_surface_conditions` termina siendo una variable categórica binaria, `Dry` vs `Not dry`.

In [19]:
# Redefinimos valores para simplificar
new_data['Road_surface_conditions'] = new_data['Road_surface_conditions'].map({
    'Dry':'Dry',
    'Wet or damp':'Not dry',
    'Snow':'Not dry',
    'Flood over 3cm. deep':'Not dry'})

In [20]:
series_null_balance(new_data, "Road_surface_conditions")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Road_surface_conditions  =  0
Porcentaje total de registros nulos en  Road_surface_conditions  =  0.0 %


Unnamed: 0,#,%
Dry,9220,75.96
Not dry,2918,24.04


#### <span style="color:blue"> Light_conditions </span>
Nuevamente simplificamos los valores.


In [21]:
series_null_balance(new_data, "Light_conditions")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Light_conditions  =  0
Porcentaje total de registros nulos en  Light_conditions  =  0.0 %


Unnamed: 0,#,%
Daylight,8680,71.51
Darkness - lights lit,3230,26.61
Darkness - no lighting,189,1.56
Darkness - lights unlit,39,0.32


Para `Light_conditions` se vuelve a repetir el caso del feature anterior. Se observan cuatro categorías: `Daylight`, `Darkness - lights lit`, `Darkness - no lighting`, `Darkness - lights unlit`. Como las últimas dos categorías representan únicamente un 1.88% de la totalidad de los registros, y además, junto a `Darkness - lights lit` representan condiciones de luz en oscuridad, decidimos unificar estas tres categorias. De esta manera el feature `Light_conditions` termina siendo una variable categórica binaria, `Daylight` vs `Darkness`.

In [22]:
# Redefinimos valores para simplificar
new_data['Light_conditions'] = new_data['Light_conditions'].map({
    'Daylight':'Daylight',
    'Darkness - lights lit':'Darkness',
    'Darkness - no lighting':'Darkness',
    'Darkness - lights unlit':'Darkness'})

In [23]:
series_null_balance(new_data, "Light_conditions")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Light_conditions  =  0
Porcentaje total de registros nulos en  Light_conditions  =  0.0 %


Unnamed: 0,#,%
Daylight,8680,71.51
Darkness,3458,28.49


#### <span style="color:blue"> Weather_conditions </span>

In [24]:
series_null_balance(new_data, "Weather_conditions")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Weather_conditions  =  0
Porcentaje total de registros nulos en  Weather_conditions  =  0.0 %


Unnamed: 0,#,%
Normal,9926,81.78
Raining,1305,10.75
Unknown,291,2.4
Other,290,2.39
Cloudy,122,1.01
Windy,95,0.78
Snow,60,0.49
Raining and Windy,39,0.32
Fog or mist,10,0.08


In [25]:
# Variable "Weather conditions" en data new en registros con condiciones de suelo "No Dry"
new_data[new_data['Road_surface_conditions'] == 'Not dry']['Weather_conditions'].value_counts(normalize=False)

Raining              1288
Normal               1168
Other                 205
Windy                  89
Cloudy                 53
Snow                   53
Raining and Windy      32
Unknown                20
Fog or mist            10
Name: Weather_conditions, dtype: int64

Se observa que la columna `Weather_conditions` es categorica. Tan solo dos de las nueve categorías representan el 92.5% de los datos, y el resto corresponde a proporciones menores al 2.5%, es decir no aportan información de manera significativa. `Weather_conditions` es una feature que se relaciona con la feature `Road_Cond_Dry`, ya que las condiciones del suelo dependen directamente de las condiciones climáticas. Sin embargo, observamos que la columna `Road_Cond_Dry` clasifica mejor los datos. Por esta razón decidimos eliminar la columna `Weather_conditions` y conservar `Road_Cond_Dry`.

In [26]:
# Eliminamos esta columna en new_data
new_data = new_data.drop(["Weather_conditions"], axis=1)
new_data.head(3)

Unnamed: 0,Day_of_week,Age_band_of_driver,Sex_of_driver,Educational_level,Vehicle_driver_relation,Driving_experience,Type_of_vehicle,Owner_of_vehicle,Service_year_of_vehicle,Defect_of_vehicle,...,Casualty_class,Sex_of_casualty,Age_band_of_casualty,Casualty_severity,Work_of_casuality,Fitness_of_casuality,Pedestrian_movement,Cause_of_accident,Accident_severity,Hour
0,Monday,Young_Adult,Male,Above high school,Employee,1-2yr,Automobile,Owner,Above 10yr,No defect,...,na,na,na,na,,,Not a Pedestrian,Moving Backward,Slight Injury,17
1,Monday,Adult,Male,Junior high school,Employee,Above 10yr,Public (> 45 seats),Owner,5-10yrs,No defect,...,na,na,na,na,,,Not a Pedestrian,Overtaking,Slight Injury,17
2,Monday,Young_Adult,Male,Junior high school,Employee,1-2yr,Lorry (41?100Q),Owner,,No defect,...,Driver or rider,Male,31-50,3,Driver,,Not a Pedestrian,Changing lane to the left,Serious Injury,17


#### <span style="color:blue"> Number_of_vehicles_involved </span>

In [27]:
series_null_balance(new_data, "Number_of_vehicles_involved")

Series dtype =  int64
Cantidad total de registros =  12138
Cantidad total de registros nulos en Number_of_vehicles_involved  =  0
Porcentaje total de registros nulos en  Number_of_vehicles_involved  =  0.0 %


Unnamed: 0,#,%
2,8217,67.7
1,1965,16.19
3,1546,12.74
4,361,2.97
6,42,0.35
7,7,0.06


Vemos que el 67.7% de los accidentes suceden entre dos vehículos y el 16.19% corresponde a accidentes de un único vehículo involucrado.  Los accidentes entre 4 o más vehículos involucrados representan solo el 3.38% de los datos; por esta razón decidimos unificar las categorias 4, 6 y 7 en la categoría 6.

In [28]:
new_data["Number_of_vehicles_involved"] = [6 if (x == 4) or (x == 7) else x for x in new_data["Number_of_vehicles_involved"]]
series_null_balance(new_data, "Number_of_vehicles_involved")

Series dtype =  int64
Cantidad total de registros =  12138
Cantidad total de registros nulos en Number_of_vehicles_involved  =  0
Porcentaje total de registros nulos en  Number_of_vehicles_involved  =  0.0 %


Unnamed: 0,#,%
2,8217,67.7
1,1965,16.19
3,1546,12.74
6,410,3.38


#### <span style="color:blue"> Number_of_casualties </span>

In [29]:
series_null_balance(new_data, "Number_of_casualties")

Series dtype =  int64
Cantidad total de registros =  12138
Cantidad total de registros nulos en Number_of_casualties  =  0
Porcentaje total de registros nulos en  Number_of_casualties  =  0.0 %


Unnamed: 0,#,%
1,8280,68.22
2,2252,18.55
3,893,7.36
4,387,3.19
5,207,1.71
6,89,0.73
7,22,0.18
8,8,0.07


Notamos que la mayoría de los accidentes (68.22% de los casos) involucran a una única persona accidentada; mientras que en segundo lugar se encuentran aquellos con dos personas accidentadas (18.55%). Como las categorias 5, 6, 7, 8 representan clases con menos de un 1.71% de representación, decidimos unificarlas en la categoría 6.

In [30]:
new_data["Number_of_casualties"] = [6 if (x == 5) or (x == 7) or (x == 8) else x for x in new_data["Number_of_casualties"]]
series_null_balance(new_data, "Number_of_casualties")

Series dtype =  int64
Cantidad total de registros =  12138
Cantidad total de registros nulos en Number_of_casualties  =  0
Porcentaje total de registros nulos en  Number_of_casualties  =  0.0 %


Unnamed: 0,#,%
1,8280,68.22
2,2252,18.55
3,893,7.36
4,387,3.19
6,326,2.69


#### <span style="color:blue"> Casualty_class </span>

In [31]:
series_null_balance(new_data, "Casualty_class")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Casualty_class  =  0
Porcentaje total de registros nulos en  Casualty_class  =  0.0 %


Unnamed: 0,#,%
Driver or rider,4881,40.21
na,4382,36.1
Pedestrian,1623,13.37
Passenger,1252,10.31


Vemos que en el 40.21% de los accidentes la persona herida es el conductor. Notemos la presencia del valor `na`, con 36.10% de participación. Asumimos que `na` **no** significa que el número de personas heridas fue 0, ya que la feature `Number_of_casualies` no toma ese valor, ni presenta registros nulos. Analogamente a un caso previo, analizamos el porcentaje de participación de la clase `na` en los accidentes de gravedad fatal _(Accident_severity=Fatal injury)_.

In [32]:
fatal_injury_percentage("Casualty_class", "na")

Slight Injury     3728
Serious Injury     606
Fatal injury        48
Name: Accident_severity, dtype: int64

 48 ≈ 30.573 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Observemos que el 30.57% de los accidentes con heridas fatales presentan el valor `na`en `Casualty_class`. Nuestra interpretación fue similar al caso previo: el hecho de tratarse de un accidente con heridas fatales hace imposible determinar la feature `Casualty_class`. Por esta razón redefinimos `na` como `Unknown`.

In [33]:
# Redefinimos valores para simplificar
new_data['Casualty_class'] = [ 'Unknown' if x == 'na' else x for x in new_data['Casualty_class'] ]
series_null_balance(new_data, "Casualty_class")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Casualty_class  =  0
Porcentaje total de registros nulos en  Casualty_class  =  0.0 %


Unnamed: 0,#,%
Driver or rider,4881,40.21
Unknown,4382,36.1
Pedestrian,1623,13.37
Passenger,1252,10.31


#### <span style="color:blue"> Sex_of_casualty </span>

In [34]:
series_null_balance(new_data, "Sex_of_casualty")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Sex_of_casualty  =  0
Porcentaje total de registros nulos en  Sex_of_casualty  =  0.0 %


Unnamed: 0,#,%
Male,5186,42.73
na,4382,36.1
Female,2570,21.17


Como se observa que el 36.10% de los datos no indican el sexo de la persona accidentada, y consideramos que es un dato que no aporta mucha imformación para la clasificación de la variable objetivo, decidimos eliminar esta feature del dataset.

In [35]:
new_data = new_data.drop(columns='Sex_of_casualty')

#### <span style="color:blue"> Age_band_of_casualty </span>

In [36]:
series_null_balance(new_data, "Age_band_of_casualty")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Age_band_of_casualty  =  0
Porcentaje total de registros nulos en  Age_band_of_casualty  =  0.0 %


Unnamed: 0,#,%
na,4382,36.1
18-30,3107,25.6
31-50,2420,19.94
Under 18,1008,8.3
Over 51,977,8.05
5,244,2.01


En este caso ocurre lo mismo que en el feature anterior, 36.08% de los registros contienen un valor faltante en esta columna (la mayor porción de los datos); además hay una categoría denominada `5` que no parece tener sentido y que se lleva casi el 2% de los datos. Por estas razones decidimos eliminala.

In [37]:
new_data = new_data.drop(columns='Age_band_of_casualty')

#### <span style="color:blue"> Casualty_severity </span>

In [38]:
series_null_balance(new_data, "Casualty_severity")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Casualty_severity  =  0
Porcentaje total de registros nulos en  Casualty_severity  =  0.0 %


Unnamed: 0,#,%
3,6976,57.47
na,4382,36.1
2,754,6.21
1,26,0.21


Este feature indica la severidad del daño realizado hacia la/s personas accidentadas, donde se diferencian 4 niveles diferentes: `na`, `1`, `2` y `3`. Interpretando `na` como severidad de daño nula, y tomando las categorias en orden creciente de severidad, pasamos a renombrar las categorias de tipo objeto como de tipo int para una mejor interpretabilidad de los datos.

In [39]:
# Redefinimos valores para simplificar
new_data['Casualty_severity'] = new_data['Casualty_severity'].map({
    'na':0, '1':1, '2':2, '3':3})

series_null_balance(new_data, "Casualty_severity")

Series dtype =  int64
Cantidad total de registros =  12138
Cantidad total de registros nulos en Casualty_severity  =  0
Porcentaje total de registros nulos en  Casualty_severity  =  0.0 %


Unnamed: 0,#,%
3,6976,57.47
0,4382,36.1
2,754,6.21
1,26,0.21


#### <span style="color:blue"> Pedestrian_movement  </span>

In [40]:
series_null_balance(new_data, "Pedestrian_movement")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Pedestrian_movement  =  0
Porcentaje total de registros nulos en  Pedestrian_movement  =  0.0 %


Unnamed: 0,#,%
Not a Pedestrian,11224,92.47
Crossing from nearside - masked by parked or statioNot a Pedestrianry vehicle,335,2.76
Unknown or other,287,2.36
Crossing from driver's nearside,139,1.15
Crossing from offside - masked by parked or statioNot a Pedestrianry vehicle,69,0.57
"In carriageway, statioNot a Pedestrianry - not crossing (standing or playing)",46,0.38
"Walking along in carriageway, back to traffic",18,0.15
"In carriageway, statioNot a Pedestrianry - not crossing (standing or playing) - masked by parked or statioNot a Pedestrianry vehicle",13,0.11
"Walking along in carriageway, facing traffic",7,0.06


Este feature describe con mucho detalle de qué manera se movía el peatón. Sin embargo, el 92.48% de los datos pertenecen a una única categoría (`Not a Pedestrian`). Por esta razón optamos por convertir esta feature en una feature booleana, donde **1:** _Si hubo movimiento de peatón_, y **0:** _No hubo movimiento_.

In [41]:
new_data['Pedestrian_movement'] = ["No_pedestrian" if x == 'Not a Pedestrian' else "Pedestrian" for x in new_data['Pedestrian_movement']]

In [42]:
new_data.head()

Unnamed: 0,Day_of_week,Age_band_of_driver,Sex_of_driver,Educational_level,Vehicle_driver_relation,Driving_experience,Type_of_vehicle,Owner_of_vehicle,Service_year_of_vehicle,Defect_of_vehicle,...,Number_of_casualties,Vehicle_movement,Casualty_class,Casualty_severity,Work_of_casuality,Fitness_of_casuality,Pedestrian_movement,Cause_of_accident,Accident_severity,Hour
0,Monday,Young_Adult,Male,Above high school,Employee,1-2yr,Automobile,Owner,Above 10yr,No defect,...,2,Going straight,Unknown,0,,,No_pedestrian,Moving Backward,Slight Injury,17
1,Monday,Adult,Male,Junior high school,Employee,Above 10yr,Public (> 45 seats),Owner,5-10yrs,No defect,...,2,Going straight,Unknown,0,,,No_pedestrian,Overtaking,Slight Injury,17
2,Monday,Young_Adult,Male,Junior high school,Employee,1-2yr,Lorry (41?100Q),Owner,,No defect,...,2,Going straight,Driver or rider,3,Driver,,No_pedestrian,Changing lane to the left,Serious Injury,17
3,Sunday,Young_Adult,Male,Junior high school,Employee,5-10yr,Public (> 45 seats),Governmental,,No defect,...,2,Going straight,Pedestrian,3,Driver,Normal,No_pedestrian,Changing lane to the right,Slight Injury,1
4,Sunday,Young_Adult,Male,Junior high school,Employee,2-5yr,,Owner,5-10yrs,No defect,...,2,Going straight,Unknown,0,,,No_pedestrian,Overtaking,Slight Injury,1


De esta manera terminamos obteniendo una columna con la siguiente distribución.

In [43]:
series_null_balance(new_data, "Pedestrian_movement")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Pedestrian_movement  =  0
Porcentaje total de registros nulos en  Pedestrian_movement  =  0.0 %


Unnamed: 0,#,%
No_pedestrian,11224,92.47
Pedestrian,914,7.53


#### <span style="color:blue"> Cause_of_accident </span>

In [44]:
series_null_balance(new_data, "Cause_of_accident")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Cause_of_accident  =  0
Porcentaje total de registros nulos en  Cause_of_accident  =  0.0 %


Unnamed: 0,#,%
No distancing,2237,18.43
Changing lane to the right,1776,14.63
Changing lane to the left,1450,11.95
Driving carelessly,1380,11.37
No priority to vehicle,1192,9.82
Moving Backward,1117,9.2
No priority to pedestrian,713,5.87
Other,448,3.69
Overtaking,424,3.49
Driving under the influence of drugs,335,2.76


Notemos que las primeras 6 causas (No distancing, Changing lane to the right, Changing lane to the left, Driving carelessly, No priority to vehicle, Moving Backward), causan el 75.5% de los accidentes. Existen causas similares que pueden agruparse a manera de simplificación. Redefinimos las categorias considerando las clases más representativas y agrupando las menos representativas.
 - **No_distance:** No distancing
 - **Changing_lane:** Changing lane to the left, Changing lane to the right
 - **Driving_carelessly:** Driving carelessly, No priority to vehicle, No priority to pedestrian, Driving at high speed, Overspeed,
 - **Other:** _other case_
 

In [45]:
new_data['Cause_of_accident'] = new_data['Cause_of_accident'].map({
    'No distancing': 'No_distance',
    
    'Changing lane to the left': 'Changing_lane', 
    'Changing lane to the right': 'Changing_lane',
    
    'Driving carelessly': 'Driving_carelessly', 
    'No priority to vehicle': 'Driving_carelessly', 
    'No priority to pedestrian': 'Driving_carelessly',
    'Driving at high speed': 'Driving_carelessly', 
    'Overspeed': 'Driving_carelessly',
    
    'Moving Backward': 'Other', 
    'Other': 'Other',
    'Overtaking': 'Other',
    'Overloading': 'Other', 
    'Improper parking': 'Other',
    'Getting off the vehicle improperly': 'Other',
    'Driving to the left': 'Other',
    'Overloading': 'Other', 
    'Overturning':'Other',
    'Turnover': 'Other', 
    'Driving under the influence of drugs':'Other',
    'Drunk driving': 'Other','Unknown': 'Other'})

series_null_balance(new_data, "Cause_of_accident")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Cause_of_accident  =  0
Porcentaje total de registros nulos en  Cause_of_accident  =  0.0 %


Unnamed: 0,#,%
Driving_carelessly,3519,28.99
Changing_lane,3226,26.58
Other,3156,26.0
No_distance,2237,18.43


Hasta aquí hemos analizado solo las features que no presentaban valores nulos. A continuación, vamos a analizar las variables que presentan registros nulos para determinar si es necesario completar los valores faltantes o eliminar la feature.

---
Cuando existan valores nulos y la feature resulte importante, los registros serán completados aplicando el criterio que mejor aplique en cada uno de los casos; siempre buscando evitar eliminar dichos registros, pues queremos conservar la mayor cantidad de datos en la clase minorista `Fatal_injury`. Si la feature no aporta información relevante para predecir la variable objetivo, entonces será eliminada.

Las features que vamos a analizar son las siguientes:

In [46]:
[x for x in data.columns if data[x].isna().sum() > 0]

['Educational_level',
 'Vehicle_driver_relation',
 'Driving_experience',
 'Type_of_vehicle',
 'Owner_of_vehicle',
 'Service_year_of_vehicle',
 'Defect_of_vehicle',
 'Area_accident_occured',
 'Lanes_or_Medians',
 'Road_allignment',
 'Types_of_Junction',
 'Road_surface_type',
 'Type_of_collision',
 'Vehicle_movement',
 'Work_of_casuality',
 'Fitness_of_casuality']

#### <span style="color:blue">Educational_level</span>

In [47]:
series_null_balance(new_data, "Educational_level")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Educational_level  =  729
Porcentaje total de registros nulos en  Educational_level  =  6.01 %


Unnamed: 0,#,%
Junior high school,7504,61.82
Elementary school,2126,17.52
High school,1099,9.05
Above high school,361,2.97
Writing & reading,175,1.44
Unknown,99,0.82
Illiterate,45,0.37


Como este feature contiene la categoría `Unknown`, aprovechamos para incluir en ella los valores nulos. Vemos como se distribuyen los valores nulos en cada clase de la variable objetivo:

In [48]:
# Completarmos nulos con etiqueta "Unknown"
new_data['Educational_level'] = new_data['Educational_level'].fillna("Unknown")
series_null_balance(new_data, "Educational_level")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Educational_level  =  0
Porcentaje total de registros nulos en  Educational_level  =  0.0 %


Unnamed: 0,#,%
Junior high school,7504,61.82
Elementary school,2126,17.52
High school,1099,9.05
Unknown,828,6.82
Above high school,361,2.97
Writing & reading,175,1.44
Illiterate,45,0.37


Vemos que el 61.82% de los conductores tienen un nivel de educación `Junior high school`. En segundo lugar tenemos `Elementary school` con un 17.52%. Para simplificar agruparemos las 7 categorias de la siguiente manera:

- **Elementary:** Elementary school, Writing & reading, Illiterate
- **Middle:** Junior high school, High school
- **Advanced:** Above high school, 
- **Unknown:** Unknown

(aunque _iliterate_ signifique que la persona es analfabeta, como solo corresponde al 0.37% de los casos, se lo adicionó a la categoría `Elementary`)

In [49]:
# Redefinimos categorias en "Educationa_level"
new_data['Educational_level'] = new_data['Educational_level'].map({
    'Elementary school': 'Elementary', 
    'Writing & reading':'Elementary',
    'Illiterate': 'Elementary',
    'Junior high school': 'Middle', 
    'High school': 'Middle',
    'Above high school': 'Advanced', 
    'Unknown': 'Unknown'})

In [50]:
series_null_balance(new_data, "Educational_level")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Educational_level  =  0
Porcentaje total de registros nulos en  Educational_level  =  0.0 %


Unnamed: 0,#,%
Middle,8603,70.88
Elementary,2346,19.33
Unknown,828,6.82
Advanced,361,2.97


Observamos que ahora contamos un 6.82% de los datos pertenecientes a la categoría `Unknown` de la feature `Educational_level`. Como esta proporción supera a la categoría advanced, parecería viable guardar estos datos. No obstante vamos a analizar cuántos de estos datos pertenecen a la categoría `Fatal injury` en la feature objetivo.

In [51]:
# Presencia de valores nulos en "Accident_severity"
fatal_injury_percentage("Educational_level")

Slight Injury     697
Serious Injury    117
Fatal injury       14
Name: Accident_severity, dtype: int64

 14 ≈ 8.917 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Tenemos 14 registros de la clase `Fatal injury` con valor `Unknown` en la feature `Educational_level`. Dado que es una cantidad considerable respecto al número total de registros en esta clase, decidimos mantener los registros de new_data con la etiqueta "Unknown".

#### <span style="color:blue">Vehicle_driver_relation</span>

In [52]:
series_null_balance(new_data, "Vehicle_driver_relation")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Vehicle_driver_relation  =  572
Porcentaje total de registros nulos en  Vehicle_driver_relation  =  4.71 %


Unnamed: 0,#,%
Employee,9490,78.18
Owner,1943,16.01
Other,122,1.01
Unknown,11,0.09


El 78.18% de los conductores manejaban un vehículo perteneciente a la empresa donde trabajan. Existen otras tres relaciones _vehículo-conductor_: 1. donde el conductor es el propietario del vehiculo; 2. donde el conductor no guarda ninguna de las dos relaciones anteriores con el vehiculo; y 3. se desconoce la relación entre el conductor y el vehiculo.

Decidimos primero unificar a la categoría `Unknown` aquellos valores nulos:

In [53]:
new_data['Vehicle_driver_relation'] = new_data['Vehicle_driver_relation'].fillna("Unknown")
series_null_balance(new_data, "Vehicle_driver_relation")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Vehicle_driver_relation  =  0
Porcentaje total de registros nulos en  Vehicle_driver_relation  =  0.0 %


Unnamed: 0,#,%
Employee,9490,78.18
Owner,1943,16.01
Unknown,583,4.8
Other,122,1.01


In [54]:
fatal_injury_percentage("Vehicle_driver_relation")

Slight Injury     490
Serious Injury     84
Fatal injury        9
Name: Accident_severity, dtype: int64

 9 ≈ 5.732 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Como observamos que el 5.73% de los casos `Unknown` pertenecen a la categoría `Fatal injury` en la feature `Accident_severity`, decidimos mantener esta categoría y unificar a la misma aquellos elementos encontrados en la categoría llamada `Other`. 

In [55]:
new_data['Vehicle_driver_relation'] = ['Unknown' if x == 'Other' else x for x in new_data['Vehicle_driver_relation']]
series_null_balance(new_data, "Vehicle_driver_relation")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Vehicle_driver_relation  =  0
Porcentaje total de registros nulos en  Vehicle_driver_relation  =  0.0 %


Unnamed: 0,#,%
Employee,9490,78.18
Owner,1943,16.01
Unknown,705,5.81


#### <span style="color:blue">Driving_experience</span>

In [56]:
series_null_balance(new_data, "Driving_experience")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Driving_experience  =  817
Porcentaje total de registros nulos en  Driving_experience  =  6.73 %


Unnamed: 0,#,%
5-10yr,3306,27.24
2-5yr,2584,21.29
Above 10yr,2232,18.39
1-2yr,1735,14.29
Below 1yr,1315,10.83
No Licence,116,0.96
unknown,33,0.27


Se observa que la mayoría de los accidentes son ocasionados por conductores con experiencia de más años, mientras que aquellos con menos experiencia representan el porcentaje con menor accidentes ocasionados. Esta distribución de los datos resulta curiosa ya que uno esperaría lo contrario; quizás al tener poca experiencia conducen con mayor precaución.

Pasamos a unificar los valores nulos en la categoría `unknown` y analizar cuantos registros pertenecen a la categoría `Fatal injury` de la feature target:

In [57]:
new_data['Driving_experience'] = new_data['Driving_experience'].fillna("unknown")
series_null_balance(new_data, "Driving_experience")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Driving_experience  =  0
Porcentaje total de registros nulos en  Driving_experience  =  0.0 %


Unnamed: 0,#,%
5-10yr,3306,27.24
2-5yr,2584,21.29
Above 10yr,2232,18.39
1-2yr,1735,14.29
Below 1yr,1315,10.83
unknown,850,7.0
No Licence,116,0.96


In [58]:
fatal_injury_percentage("Driving_experience", "unknown")

Slight Injury     708
Serious Injury    128
Fatal injury       14
Name: Accident_severity, dtype: int64

 14 ≈ 8.917 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Decidimos no eliminar los datos pertenecientes a `unkown` ya que representa casi un 9% de los datos asociados con accidentes fatales.

Posteriormente redefinimos las categorías, agrupándolas de la siguiente manera:
* Basic: Below 1yr, 1-2yr
* Intermediate: 2-5yr
* Advanced: 5-10yr, Above 10yr
* Unknown: unknown, No Licence

Consideramos que `No Licence` no reprenta una categoria de nivel de expertise del conductor, puesto que, puede tener muchos años de experiencia y no contar con la licencia al momento del accidente. No significa que nunca haya tenido una licencia o que no cuente con experiencia conduciendo. Por esta razón, y porque no es una categoría muy representativa, decidimos agrupar `No Licence` con `Unknown`.

De esta manera, obtenemos solo 4 clases.

In [59]:
# Redefinimos categorias en "Driving_experience"
new_data['Driving_experience'] = new_data['Driving_experience'].map({
    'Below 1yr': 'Beginner', 
    '1-2yr':'Beginner',
    '2-5yr': 'Intermediate', 
    '5-10yr': 'Advanced',
    'Above 10yr': 'Expert', 
    'No Licence': 'Unknown',
    'unknown': 'Unknown'})

In [60]:
series_null_balance(new_data, "Driving_experience")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Driving_experience  =  0
Porcentaje total de registros nulos en  Driving_experience  =  0.0 %


Unnamed: 0,#,%
Advanced,3306,27.24
Beginner,3050,25.13
Intermediate,2584,21.29
Expert,2232,18.39
Unknown,966,7.96


#### <span style="color:blue"> Type_of_vehicle </span>

In [61]:
series_null_balance(new_data, "Type_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_vehicle  =  925
Porcentaje total de registros nulos en  Type_of_vehicle  =  7.62 %


Unnamed: 0,#,%
Automobile,3171,26.12
Lorry (41?100Q),2155,17.75
Other,1182,9.74
Pick up upto 10Q,793,6.53
Public (12 seats),704,5.8
Stationwagen,674,5.55
Lorry (11?40Q),540,4.45
Public (13?45 seats),528,4.35
Public (> 45 seats),400,3.3
Long lorry,376,3.1


Analizamos la distribución de los nulos de esta categoría en función de la variable target.

In [62]:
fatal_injury_percentage("Type_of_vehicle", null=True)

Slight Injury     801
Serious Injury    113
Fatal injury       11
Name: Accident_severity, dtype: int64

 11 ≈ 7.006 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Como representan el 7% de los datos categorizados como `Fatal injury` en la variable target, modificamos los datos para que pertenezcan a una nueva una categoría `Unknown`.

In [63]:
new_data['Type_of_vehicle'] = new_data['Type_of_vehicle'].fillna("Unknown")
series_null_balance(new_data, "Type_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_vehicle  =  0
Porcentaje total de registros nulos en  Type_of_vehicle  =  0.0 %


Unnamed: 0,#,%
Automobile,3171,26.12
Lorry (41?100Q),2155,17.75
Other,1182,9.74
Unknown,925,7.62
Pick up upto 10Q,793,6.53
Public (12 seats),704,5.8
Stationwagen,674,5.55
Lorry (11?40Q),540,4.45
Public (13?45 seats),528,4.35
Public (> 45 seats),400,3.3


Esta feature toma 18 valores categóricos distintos, donde la mayoria de ellos representan menos del 5% de participación. El vehículo más común en la lista de accidentes es `Automobile` con un 26.12%. Para simplificar definimos las clases considerando de manera general el tamaño y principal uso del vehículo:

* **Automobile**: Automobile, Taxi, Stationwagen
* **Lorry**: Lorry (41?100Q), Lorry (11?40Q), Long lorry
* **Pick up**: Pick up upto 10Q
* **Public**: Public (12 seats), Public (13?45 seats), Public (> 45 seats)
* **Other**: Other, Motorcycle, Special vehicle, Ridden horse, Turbo, Bajaj, Bicycle
* **Unknown**: Unknown

In [64]:
new_data['Type_of_vehicle'] = new_data['Type_of_vehicle'].map({
    'Automobile': 'Automobile', 
    'Taxi': 'Automobile', 
    'Stationwagen': 'Automobile', 

    'Lorry (41?100Q)': 'Lorry', 
    'Lorry (11?40Q)': 'Lorry',
    'Long lorry': 'Lorry',

    'Pick up upto 10Q': 'Pick up',

    'Public (12 seats)': 'Public', 
    'Public (13?45 seats)': 'Public',
    'Public (> 45 seats)': 'Public', 
    
    'Other': 'Other',
    'Motorcycle': 'Other', 
    'Special vehicle': 'Other', 
    'Ridden horse': 'Other', 
    'Turbo': 'Other', 
    'Bajaj': 'Other',
    'Bicycle': 'Other',
    
    'Unknown': 'Unknown'
})
series_null_balance(new_data, "Type_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_vehicle  =  0
Porcentaje total de registros nulos en  Type_of_vehicle  =  0.0 %


Unnamed: 0,#,%
Automobile,4107,33.84
Lorry,3071,25.3
Public,1632,13.45
Other,1610,13.26
Unknown,925,7.62
Pick up,793,6.53


Como observamos que la categoría `Unknown` representa el 7.62% de los datos y que además supera a la categoría `Pick up`, decidimos mantenerla. 

#### <span style="color:blue"> Owner_of_vehicle </span>

In [65]:
series_null_balance(new_data, "Owner_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Owner_of_vehicle  =  474
Porcentaje total de registros nulos en  Owner_of_vehicle  =  3.91 %


Unnamed: 0,#,%
Owner,10313,84.96
Governmental,1022,8.42
Organization,307,2.53
Other,22,0.18


Notamos que esta feature no solo está altamente desbalanceada, sino que además contiene varios elementos nulos y que describe a los datos de una manera similiar a la feature `Vehicle_driver_relation`, decidimos que esta feature es irrelevante para nuestro objetivo; razón por la cual la eliminamos. 

In [66]:
#Eliminamos feature
new_data = new_data.drop(['Owner_of_vehicle'], axis=1)

#### <span style="color:blue"> Service_year_of_vehicle </span>

In [67]:
series_null_balance(new_data, "Service_year_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Service_year_of_vehicle  =  3865
Porcentaje total de registros nulos en  Service_year_of_vehicle  =  31.84 %


Unnamed: 0,#,%
Unknown,2841,23.41
2-5yrs,1767,14.56
Above 10yr,1303,10.73
5-10yrs,1264,10.41
1-2yr,818,6.74
Below 1yr,280,2.31


Pasamos a agregar los datos nulos a la categoría `Unknown`.

In [68]:
new_data["Service_year_of_vehicle"] = new_data["Service_year_of_vehicle"].fillna('Unknown')
series_null_balance(new_data, "Service_year_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Service_year_of_vehicle  =  0
Porcentaje total de registros nulos en  Service_year_of_vehicle  =  0.0 %


Unnamed: 0,#,%
Unknown,6706,55.25
2-5yrs,1767,14.56
Above 10yr,1303,10.73
5-10yrs,1264,10.41
1-2yr,818,6.74
Below 1yr,280,2.31


A pesar de que mitad de los datos (55.25%) toman el valor `Unknown`, consideramos que esta feature es importante para la predicción de la variable target y que uno espera que los accidentes sean peores si interactuaron autos en peor estado. Además creemos que el no saber cuándo fue el último service aporta información válida para la clasificación.

Para conservar los registros simplificamos el nombre de las categorías en `Service_year_of_vehicle`:
* **Valid_Recent_Exp:** con menos de 2 años desde el servicio (Below 1yr, 1-2yr), 
* **Moderate_Exp:**: entre 2 y 5 años desde el servicio
* **Advanced_Exp:** más de 5 años desde el servicio, 
* **Unknown:** valor desconocido o nulo.
 

In [69]:
# Redefinimos categorias en "Service_year_of_vehicle"
new_data['Service_year_of_vehicle'] = new_data['Service_year_of_vehicle'].map({
    'Below 1yr': 'Valid_Recent_Exp', 
    '1-2yr':'Valid_Recent_Exp',
    '2-5yrs': 'Moderate_Exp',
    '5-10yrs': 'Advanced_Exp',
    'Above 10yr': 'Advanced_Exp',
    'Unknown': 'Unknown'
})
series_null_balance(new_data, "Service_year_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Service_year_of_vehicle  =  0
Porcentaje total de registros nulos en  Service_year_of_vehicle  =  0.0 %


Unnamed: 0,#,%
Unknown,6706,55.25
Advanced_Exp,2567,21.15
Moderate_Exp,1767,14.56
Valid_Recent_Exp,1098,9.05


#### <span style="color:blue"> Defect_of_vehicle </span>

In [70]:
series_null_balance(new_data, "Defect_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Defect_of_vehicle  =  4354
Porcentaje total de registros nulos en  Defect_of_vehicle  =  35.87 %


Unnamed: 0,#,%
No defect,7674,63.22
7,74,0.61
5,36,0.3


Unimos las categorias `5` y `7` en una nueva categoría llamada `With defect`.

In [71]:
new_data["Defect_of_vehicle"] = ['With defect' if (x == '7') or (x == '5') else x for x in new_data["Defect_of_vehicle"]]
series_null_balance(new_data, "Defect_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Defect_of_vehicle  =  4354
Porcentaje total de registros nulos en  Defect_of_vehicle  =  35.87 %


Unnamed: 0,#,%
No defect,7674,63.22
With defect,110,0.91


Analizamos los datos nulos en función de la variable obejtivo.

In [72]:
fatal_injury_percentage("Defect_of_vehicle", null=True)

Slight Injury     3709
Serious Injury     592
Fatal injury        53
Name: Accident_severity, dtype: int64

 53 ≈ 33.758 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Decidimos agregar estos datos como categoría `Unknown` ya que representan casi un 34% de los accidentes fatales.

In [73]:
new_data["Defect_of_vehicle"] = new_data["Defect_of_vehicle"].fillna('Unknown')
series_null_balance(new_data, "Defect_of_vehicle")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Defect_of_vehicle  =  0
Porcentaje total de registros nulos en  Defect_of_vehicle  =  0.0 %


Unnamed: 0,#,%
No defect,7674,63.22
Unknown,4354,35.87
With defect,110,0.91


Esta información puede interpetarse de la siguiente manera: estamos seguros que el 63.22% de los autos involucrados en un accidente no contaban con defectos en el momento del incidente; mientras que del casi 36% restante no sabemos si los autos contaban o no con fallas, sin embargo sabemos que el 33.76% de estos últimos incidentes acabaron en `Fatal injury`. No tener certeza de no poseer defectos en el auto puede indicar información relevante al objetivo de clasificación. Razón por la cual mantenemos este feature.

#### <span style="color:blue"> Area_accident_occured </span>

In [74]:
series_null_balance(new_data, "Area_accident_occured")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Area_accident_occured  =  233
Porcentaje total de registros nulos en  Area_accident_occured  =  1.92 %


Unnamed: 0,#,%
Other,3774,31.09
Office areas,3395,27.97
Residential areas,2028,16.71
Church areas,1049,8.64
Industrial areas,444,3.66
School areas,410,3.38
Recreational areas,323,2.66
Outside rural areas,216,1.78
Hospital areas,119,0.98
Market areas,62,0.51


Agregamos los datos nulos a la categoría `Unknown`.

In [75]:
new_data['Area_accident_occured'] = new_data['Area_accident_occured'].fillna('Unknown')
series_null_balance(new_data, "Area_accident_occured")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Area_accident_occured  =  0
Porcentaje total de registros nulos en  Area_accident_occured  =  0.0 %


Unnamed: 0,#,%
Other,3774,31.09
Office areas,3395,27.97
Residential areas,2028,16.71
Church areas,1049,8.64
Industrial areas,444,3.66
School areas,410,3.38
Recreational areas,323,2.66
Unknown,254,2.09
Outside rural areas,216,1.78
Hospital areas,119,0.98


Reacomodamos las categorías de la siguiente manera:
* **Urban:** Office areas, Residential areas, Church areas, Industrial areas, School areas, Recreational areas, Hospital areas, Market areas
* **Rural:** Outside rural areas, Rural village areas, 
* **Other:** Other
* **Unknown:** Unknown, Rural village areasOffice areas

In [76]:
# Redefinimos categorias en "Service_year_of_vehicle"
new_data['Area_accident_occured'] = new_data['Area_accident_occured'].map({
    'Office areas': 'Urban',
    'Residential areas': 'Urban', 
    'Church areas': 'Urban', 
    'Industrial areas': 'Urban', 
    'School areas': 'Urban', 
    'Recreational areas': 'Urban', 
    ' Recreational areas': 'Urban', 
    'Hospital areas': 'Urban', 
    'Market areas': 'Urban',
    
    'Outside rural areas': 'Rural', 
    'Rural village areas': 'Rural', 
    
    'Other': 'Other',
    'Unknown': 'Unknown',
    'Rural village areasOffice areas': 'Unknown',
})

In [77]:
series_null_balance(new_data, "Area_accident_occured")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Area_accident_occured  =  2213
Porcentaje total de registros nulos en  Area_accident_occured  =  18.23 %


Unnamed: 0,#,%
Urban,5834,48.06
Other,3774,31.09
Unknown,273,2.25
Rural,44,0.36


Como el 48.06% de los datos representan accidentes en zonas urbanas, solo el 0.36% de los registros representan accidentes en zonas rurales y además como entre los registros `Other` y `Unknown` se conforman el 33.34% de los datos, concluimos en que esta feature no aporta información significante, razón por la cual decidimos eliminarla.

In [78]:
new_data = new_data.drop(columns="Area_accident_occured")

#### <span style="color:blue"> Lanes_or_Medians </span>

In [79]:
series_null_balance(new_data, "Lanes_or_Medians")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Lanes_or_Medians  =  379
Porcentaje total de registros nulos en  Lanes_or_Medians  =  3.12 %


Unnamed: 0,#,%
Two-way (divided with broken lines road marking),4342,35.77
Undivided Two way,3745,30.85
other,1635,13.47
Double carriageway (median),1001,8.25
One way,841,6.93
Two-way (divided with solid lines road marking),138,1.14
Unknown,57,0.47


Agregamos los valores nulos a la categoría `Unknown`.

In [80]:
new_data["Lanes_or_Medians"] = new_data["Lanes_or_Medians"].fillna('Unknown')
series_null_balance(new_data, "Lanes_or_Medians")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Lanes_or_Medians  =  0
Porcentaje total de registros nulos en  Lanes_or_Medians  =  0.0 %


Unnamed: 0,#,%
Two-way (divided with broken lines road marking),4342,35.77
Undivided Two way,3745,30.85
other,1635,13.47
Double carriageway (median),1001,8.25
One way,841,6.93
Unknown,436,3.59
Two-way (divided with solid lines road marking),138,1.14


Reordenamos las categorías de la siguiente manera:
* **Divided_Two-way:**: Two-way (divided with broken lines road marking), Two-way (divided with solid lines road marking)
* **Undivided_Two-way:**: Undivided Two way
* **One-way:**: Double carriageway (median), One way
* **Other:** other
* **Unknown:**: Unknown

In [81]:
# Redefinimos categorias en "Service_year_of_vehicle"
new_data['Lanes_or_Medians'] = new_data['Lanes_or_Medians'].map({
    'Two-way (divided with broken lines road marking)': 'Divided_Two-way', 
    'Two-way (divided with solid lines road marking)': 'Divided_Two-way',
    'Undivided Two way': 'Undivided_Two-way',
    'Double carriageway (median)': 'One-way', 
    'One way': 'One-way',
    'other': 'Other',
    'Unknown': 'Unknown',
})
series_null_balance(new_data, "Lanes_or_Medians")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Lanes_or_Medians  =  0
Porcentaje total de registros nulos en  Lanes_or_Medians  =  0.0 %


Unnamed: 0,#,%
Divided_Two-way,4480,36.91
Undivided_Two-way,3745,30.85
One-way,1842,15.18
Other,1635,13.47
Unknown,436,3.59


In [82]:
fatal_injury_percentage("Lanes_or_Medians")

Slight Injury     377
Serious Injury     54
Fatal injury        5
Name: Accident_severity, dtype: int64

 5 ≈ 3.185 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Esta feature ofrece información sobre el tipo de caminos y carriles. Los datos categorizados como `Unknown` representan el 3.19% de los accidentes que terminaron en `Fatal injury`, razón por la cual decidimos mantenerlos.


#### <span style="color:blue"> Road_allignment </span>

In [83]:
series_null_balance(new_data, "Road_allignment")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Road_allignment  =  139
Porcentaje total de registros nulos en  Road_allignment  =  1.15 %


Unnamed: 0,#,%
Tangent road with flat terrain,10301,84.87
Tangent road with mild grade and flat terrain,495,4.08
Steep grade downward with mountainous terrain,427,3.52
Tangent road with mountainous terrain and,391,3.22
Gentle horizontal curve,163,1.34
Escarpments,110,0.91
Sharp reverse curve,57,0.47
Tangent road with rolling terrain,37,0.3
Steep grade upward with mountainous terrain,18,0.15


Notamos que la categoría `Tangent road with flat terrain` representa casi el 85% de los datos, mientras que las otras categorías representan menos de un 4% cada una.

De modificar las categorías para convertirlas en más genéricas, obtendríamos: `Tangent road`, `Steep grade`, `Curve` y `Escarpents`; la primera categoría representaría el 92.47% de los datos; razón por la cual decidimos eliminar esta feature.

In [84]:
new_data = new_data.drop(columns="Road_allignment")

#### <span style="color:blue"> Types_of_Junction </span>

In [85]:
series_null_balance(new_data, "Types_of_Junction")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Types_of_Junction  =  882
Porcentaje total de registros nulos en  Types_of_Junction  =  7.27 %


Unnamed: 0,#,%
Y Shape,4479,36.9
No junction,3783,31.17
Crossing,2134,17.58
Other,442,3.64
Unknown,187,1.54
O Shape,159,1.31
T Shape,60,0.49
X Shape,12,0.1


Agregamos los datos nulos a la categoría `Unknown`.

In [86]:
new_data['Types_of_Junction'] = new_data['Types_of_Junction'].fillna('Unknown')
series_null_balance(new_data, "Types_of_Junction")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Types_of_Junction  =  0
Porcentaje total de registros nulos en  Types_of_Junction  =  0.0 %


Unnamed: 0,#,%
Y Shape,4479,36.9
No junction,3783,31.17
Crossing,2134,17.58
Unknown,1069,8.81
Other,442,3.64
O Shape,159,1.31
T Shape,60,0.49
X Shape,12,0.1


El 36.90% de los accidentes ocurrieron en intersecciones de caminos del tipo **Y**, mientras que el 31.17% ocurrió en caminos rectos sin intesección. 

La categoría `Unknown` representa el 8.81% de los datos por lo que evaluamos qué tanto impacta en los casos de `Fatal injury` de nuestra variable objetivo.

In [87]:
fatal_injury_percentage("Types_of_Junction")

Slight Injury     883
Serious Injury    167
Fatal injury       19
Name: Accident_severity, dtype: int64

 19 ≈ 12.102 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Como representa el 12.10% de los casos, consideramos esta feature es relevante para obtener buenos resultados en nuestro problema de clasificación. Por esta razón decidimos conservar estos datos. Posteriormente se simplificaron los nombres de las clases de la siguiente manera:
* **Y:** Y Shape
* **No junction:** No junction
* **Crossing:** Crossing
* **Unknown:** Unknown
* **Other:** Other, O Shape, T Shape, X Shape

(En el caso de `Other` decidimos agrupar varias categorías que tenían muy poca representación de los datos.)

In [88]:
# Redefinimos categorias en "Types_of_Junction"
new_data['Types_of_Junction'] = new_data['Types_of_Junction'].map({ 
    'Y Shape':'Y', 
    'No junction': 'No_junction',
    'Crossing':'Crossing',
    'Unknown':'Unknown',
    'Other':'Other', 
    'O Shape':'Other', 
    'T Shape':'Other', 
    'X Shape':'Other', 
})
series_null_balance(new_data, "Types_of_Junction")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Types_of_Junction  =  0
Porcentaje total de registros nulos en  Types_of_Junction  =  0.0 %


Unnamed: 0,#,%
Y,4479,36.9
No_junction,3783,31.17
Crossing,2134,17.58
Unknown,1069,8.81
Other,673,5.54


#### <span style="color:blue"> Road_surface_type</span>

In [89]:
series_null_balance(new_data, "Road_surface_type")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Road_surface_type  =  171
Porcentaje total de registros nulos en  Road_surface_type  =  1.41 %


Unnamed: 0,#,%
Asphalt roads,11132,91.71
Earth roads,351,2.89
Gravel roads,240,1.98
Other,165,1.36
Asphalt roads with some distress,79,0.65


Como esta feature se encuentra altamente desbalanceado, decidimos eliminarlo.

In [90]:
new_data = new_data.drop(columns=['Road_surface_type'])

#### <span style="color:blue"> Type_of_collision </span>

In [91]:
series_null_balance(new_data, "Type_of_collision")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_collision  =  154
Porcentaje total de registros nulos en  Type_of_collision  =  1.27 %


Unnamed: 0,#,%
Vehicle with vehicle collision,8649,71.26
Collision with roadside objects,1758,14.48
Collision with pedestrians,884,7.28
Rollover,394,3.25
Collision with animals,167,1.38
Collision with roadside-parked vehicles,54,0.44
Fall from vehicles,33,0.27
Other,25,0.21
Unknown,11,0.09
With Train,9,0.07


Agregamos los valores nulos a la categoría `Unknown`.

In [92]:
new_data['Type_of_collision'] = new_data['Type_of_collision'].fillna('Unknown')
series_null_balance(new_data, "Type_of_collision")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_collision  =  0
Porcentaje total de registros nulos en  Type_of_collision  =  0.0 %


Unnamed: 0,#,%
Vehicle with vehicle collision,8649,71.26
Collision with roadside objects,1758,14.48
Collision with pedestrians,884,7.28
Rollover,394,3.25
Collision with animals,167,1.38
Unknown,165,1.36
Collision with roadside-parked vehicles,54,0.44
Fall from vehicles,33,0.27
Other,25,0.21
With Train,9,0.07


Se observa que el 71.26% de los datos representan accidentes ocurridos entre vehiculos y que además es posible unificar algunas categorías de la siguiente manera:
* **"Vehicle":** Vehicle with vehicle collision
* **Inanimated_Objects:** Collision with roadside objects, Collision with roadside-parked vehicles, 
* **Animated_Objects:** Collision with pedestrians, Collision with animals, With Train
* **Other:** Rollover, Fall from vehicles, Other

In [93]:
# Redefinimos categorias en "Types_of_Junction"
new_data['Type_of_collision'] = new_data['Type_of_collision'].map({
    'Vehicle with vehicle collision':'Vehicles', 
    
    'Collision with roadside objects':'Inanimated_Objects',
    'Collision with roadside-parked vehicles':'Inanimated_Objects',
    
    'With Train':'Animated_Objects',
    'Collision with pedestrians':'Animated_Objects', 
    'Collision with animals':'Animated_Objects', 
    
    'Rollover':'Other',
    'Fall from vehicles':'Other',
    'Other':'Other',
    'Unknown': 'Unknown'
})
series_null_balance(new_data, "Type_of_collision")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_collision  =  0
Porcentaje total de registros nulos en  Type_of_collision  =  0.0 %


Unnamed: 0,#,%
Vehicles,8649,71.26
Inanimated_Objects,1812,14.93
Animated_Objects,1060,8.73
Other,452,3.72
Unknown,165,1.36


Analizamos que tan relevantes son los datos en la categoría `Unknown`

In [94]:
fatal_injury_percentage("Type_of_collision")

Slight Injury     132
Serious Injury     31
Fatal injury        2
Name: Accident_severity, dtype: int64

 2 ≈ 1.274 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Como observamos que solamente representan el 1.27% de los datos categorizados como `Fatal injury` en la variable target, podríamos eliminarlos; pero, como la feature `Type of collision` contiene una categoría `Other`, agregamos estos datos a esta categoría.

In [95]:
new_data['Type_of_collision'] = ['Other' if x == 'Unknown' else x for x in new_data['Type_of_collision']]
series_null_balance(new_data, "Type_of_collision")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Type_of_collision  =  0
Porcentaje total de registros nulos en  Type_of_collision  =  0.0 %


Unnamed: 0,#,%
Vehicles,8649,71.26
Inanimated_Objects,1812,14.93
Animated_Objects,1060,8.73
Other,617,5.08


#### <span style="color:blue"> Vehicle_movement </span>

In [96]:
series_null_balance(new_data, "Vehicle_movement")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Vehicle_movement  =  306
Porcentaje total de registros nulos en  Vehicle_movement  =  2.52 %


Unnamed: 0,#,%
Going straight,8023,66.1
Moving Backward,976,8.04
Other,934,7.69
Reversing,553,4.56
Turnover,479,3.95
Getting off,338,2.78
Entering a junction,191,1.57
Overtaking,95,0.78
Unknown,87,0.72
Stopping,60,0.49


Antes de analizar estos datos, agregamos los valores nulos a la categoría `Unknown` y agrupamos los datos en categorias donde tengan territorio en común.

In [97]:
new_data["Vehicle_movement"] = new_data["Vehicle_movement"].fillna('Unknown')

In [98]:
# Redefinimos categorias en "Vehicle_movement"
new_data['Vehicle_movement'] = new_data['Vehicle_movement'].map({
    'Going straight':'Forward', 
    
    'Moving Backward':'Backward', 
    'Reversing':'Backward', 
    
    'Overtaking':'Turn', 
    'Turnover':'Turn', 
    'U-Turn':'Turn',
    'Entering a junction': 'Turn', 
    
    'Getting off':'Stop', 
    'Stopping':'Stop', 
    'Waiting to go': 'Stop',
    'Parked': 'Stop',
    
    'Other':'Other', 
    'Unknown':'Unknown'
})
series_null_balance(new_data, "Vehicle_movement")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Vehicle_movement  =  0
Porcentaje total de registros nulos en  Vehicle_movement  =  0.0 %


Unnamed: 0,#,%
Forward,8023,66.1
Backward,1529,12.6
Other,934,7.69
Turn,814,6.71
Stop,445,3.67
Unknown,393,3.24


Analizamos la importancia de los datos `Unknown`.

In [99]:
fatal_injury_percentage("Vehicle_movement")

Slight Injury     319
Serious Injury     67
Fatal injury        7
Name: Accident_severity, dtype: int64

 7 ≈ 4.459 % registros con edad desconocida pertenecen a los accidentes con heridas fatales


Decidimos mantener estos datos ya que representan casi un 4.5% de los accidentes que terminaron en `Fatal injury` en la variable target. Además, como por poco supera a la categoría `Stop` de `Vehicle_movement`, decidimos no unificar estos datos a `Other`. 

#### <span style="color:blue"> Work_of_casuality </span>

In [100]:
series_null_balance(new_data, "Work_of_casuality")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Work_of_casuality  =  3152
Porcentaje total de registros nulos en  Work_of_casuality  =  25.97 %


Unnamed: 0,#,%
Driver,5822,47.97
Self-employed,2012,16.58
Employee,542,4.47
Other,455,3.75
Student,103,0.85
Unemployed,33,0.27
Unknown,19,0.16


Agregamos los valores nulos a la categoría `Unknown`.

In [101]:
new_data["Work_of_casuality"] = new_data["Work_of_casuality"].fillna('Unknown')
series_null_balance(new_data, "Work_of_casuality")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Work_of_casuality  =  0
Porcentaje total de registros nulos en  Work_of_casuality  =  0.0 %


Unnamed: 0,#,%
Driver,5822,47.97
Unknown,3171,26.12
Self-employed,2012,16.58
Employee,542,4.47
Other,455,3.75
Student,103,0.85
Unemployed,33,0.27


Como la categoría más representada (`Driver`, 47.97%) no indica cuál es la profesión del conductor y además la siguiente categoría con mayor representación es `Unknown`, consideramos esta feature poco relevante para nuestro objetivo. Por esta razon decidimos eliminarla.

In [102]:
#Eliminamos feature
new_data = new_data.drop(["Work_of_casuality"], axis=1)

#### <span style="color:blue"> Fitness_of_casuality</span>

In [103]:
series_null_balance(new_data, "Fitness_of_casuality")

Series dtype =  object
Cantidad total de registros =  12138
Cantidad total de registros nulos en Fitness_of_casuality  =  2593
Porcentaje total de registros nulos en  Fitness_of_casuality  =  21.36 %


Unnamed: 0,#,%
Normal,9474,78.05
NormalNormal,19,0.16
Deaf,18,0.15
Blind,17,0.14
Other,17,0.14


Al igual que la feature anterior, las dos categorías mayormente representadas no parecen aportar información relevante para nuestro objetivo; razón por la cual decidimos eliminarla.

In [104]:
#Eliminamos feature
new_data = new_data.drop(["Fitness_of_casuality"], axis=1)

---
Finalmente se analizararon las features de nuestro dataset, eliminamos aquellas que no parecen aportar valor a nuestro objetivo de clasificar la gravedad de un accidente, y eliminamos los registros nulos cuando se tenía un porcentaje de participación muy bajo en la clase `Fatal injury` de nuestra variable objetivo.  

Ahora generaremos una versión de los datos limpios para utilizar en los siguientes módulos.

In [105]:
# Generamos una nueva versión del dataset
new_data.to_csv("RTA_clean.csv", index=False)
df = pd.read_csv("RTA_clean.csv", index_col=False)

print("\nDespués de la limpieza, el dataset tiene dimensón: ", df.shape)
print("se eliminaron ", data.shape[0]-df.shape[0], " registros, y ", data.shape[1]-df.shape[1], "features \n")

df.info()


Después de la limpieza, el dataset tiene dimensón:  (12138, 23)
se eliminaron  178  registros, y  10 features 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12138 entries, 0 to 12137
Data columns (total 23 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Day_of_week                  12138 non-null  object
 1   Age_band_of_driver           12138 non-null  object
 2   Sex_of_driver                12138 non-null  object
 3   Educational_level            12138 non-null  object
 4   Vehicle_driver_relation      12138 non-null  object
 5   Driving_experience           12138 non-null  object
 6   Type_of_vehicle              12138 non-null  object
 7   Service_year_of_vehicle      12138 non-null  object
 8   Defect_of_vehicle            12138 non-null  object
 9   Lanes_or_Medians             12138 non-null  object
 10  Types_of_Junction            12138 non-null  object
 11  Road_surface_conditions      121

In [106]:
df.head(5)

Unnamed: 0,Day_of_week,Age_band_of_driver,Sex_of_driver,Educational_level,Vehicle_driver_relation,Driving_experience,Type_of_vehicle,Service_year_of_vehicle,Defect_of_vehicle,Lanes_or_Medians,...,Type_of_collision,Number_of_vehicles_involved,Number_of_casualties,Vehicle_movement,Casualty_class,Casualty_severity,Pedestrian_movement,Cause_of_accident,Accident_severity,Hour
0,Monday,Young_Adult,Male,Advanced,Employee,Beginner,Automobile,Advanced_Exp,No defect,Unknown,...,Inanimated_Objects,2,2,Forward,Unknown,0,No_pedestrian,Other,Slight Injury,17
1,Monday,Adult,Male,Middle,Employee,Expert,Public,Advanced_Exp,No defect,Undivided_Two-way,...,Vehicles,2,2,Forward,Unknown,0,No_pedestrian,Other,Slight Injury,17
2,Monday,Young_Adult,Male,Middle,Employee,Beginner,Lorry,Unknown,No defect,Other,...,Inanimated_Objects,2,2,Forward,Driver or rider,3,No_pedestrian,Changing_lane,Serious Injury,17
3,Sunday,Young_Adult,Male,Middle,Employee,Advanced,Public,Unknown,No defect,Other,...,Vehicles,2,2,Forward,Pedestrian,3,No_pedestrian,Changing_lane,Slight Injury,1
4,Sunday,Young_Adult,Male,Middle,Employee,Intermediate,Unknown,Advanced_Exp,No defect,Other,...,Vehicles,2,2,Forward,Unknown,0,No_pedestrian,Other,Slight Injury,1


---
El trabajo continúa en la parte 2.