<p align="center">
  <img width="100" height="100" src="../images/logo.png">
</p>

<div>
<h1>03. Preproceso: Modelo C_SEV</h1> 

Canadian Car Accidents Practice <br>
<strong>Aprendizaje Automático</strong> <br>
<strong>Master Universitario en Ciencia de Datos<strong>
</div>

<div style='text-align:right'>Álvaro Serrano del Rincón (<i>a.serranodelrincon@cunef.edu</i>)</div>
<div style='text-align:right'>Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>

---

## 3.0 Introducción

En este notebook realizaremos el preprocesado de los datos del dataset conforme al análisis realizado en el notebook EDA 
```01_EDA```. Para ello procederemos a explicar paso a paso las decisiones tomadas en cuanto a su preprocesado.

Para este trabajo estamos utilizando un entorno de propósito espécifico.

In [1]:
# Verificamos el entorno: ML_P1
!conda info


     active environment : ML_P1
    active env location : C:\Users\carviagu\anaconda3\envs\ML_P1
            shell level : 1
       user config file : C:\Users\carviagu\.condarc
 populated config files : 
          conda version : 4.10.3
    conda-build version : 3.21.4
         python version : 3.8.8.final.0
       virtual packages : __cuda=11.3=0
                          __win=0=0
                          __archspec=1=x86_64
       base environment : C:\Users\carviagu\anaconda3  (writable)
      conda av data dir : C:\Users\carviagu\anaconda3\etc\conda
  conda av metadata url : None
           channel URLs : https://repo.anaconda.com/pkgs/main/win-64
                          https://repo.anaconda.com/pkgs/main/noarch
                          https://repo.anaconda.com/pkgs/r/win-64
                          https://repo.anaconda.com/pkgs/r/noarch
                          https://repo.anaconda.com/pkgs/msys2/win-64
                          https://repo.anaconda.com/pkgs/msys2/no

### 3.0.1 Estructura

<< PONER ESTRUCTURA >>

## Librerías

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
import matplotlib.ticker as ticker
import plotly.express as px

%matplotlib inline

from sklearn.utils import resample
from sklearn.model_selection import train_test_split

## Scripts
En este notebook procedemos a importar dos scripts con funciones útiles, previamente utilizadas en el EDA y que permitirán verificar el proceso de realización de las muestras de train y test.

In [3]:
import sys

import sys  
sys.path.insert(0, '../scripts/')

import csv_tools
import eda_tools

## 3.1 Lectura y preparación

A continuación leeremos el dataset, de la misma forma que lo hicimos en el EDA.

In [15]:
# Función propia que verifica que existe el fichero de datos previamente.
accidents_df = csv_tools.csv_import(origin="../data/sev_df.csv")

Reading file...
Reading ended.


In [16]:
accidents_df.head()

Unnamed: 0,C_YEAR,C_MNTH,C_WDAY,C_HOUR,C_SEV,C_VEHS,C_CONF,C_RCFG,C_WTHR,C_RSUR,C_RALN,C_TRAF,C_PERS
0,1999,1,1,0,2,1,1,01,1,4,1,18,1
1,1999,1,1,0,2,1,1,01,1,5,1,18,1
2,1999,1,1,0,2,1,1,01,2,1,1,18,1
3,1999,1,1,0,2,1,1,01,6,3,2,18,2
4,1999,1,1,0,2,1,1,UU,1,2,3,18,1


## 3.2 Train y Test
A continuación vamos a proceder a crear y dividir los datos en Train (muestra de entrenamiento) y test (muestra de test) que usaremos para nuestros modelos. 

In [18]:
# accidents_eq_df = csv_tools.csv_import(origin = "../data/NCBD_reduced.csv")

# Separamos los valores (X) de la variable objetivo (Y)
X = accidents_df.drop('C_SEV', axis=1)
Y = accidents_df['C_SEV']

# Realizamos la división de train y test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20, random_state=0)

## 3.3 Balanceo de la variable objetivo en Train
En el EDA pudimos apreciar como había un importante desequilibrio en la variable objetivo, existiendo un 98% y 2% de accidentes no mortales y mortales respectivamente. 

In [21]:
X_train_sev = pd.concat([X_train, Y_train], axis=1)
eda_tools.classes_overview(df = X_train_sev, obj_val = 'C_SEV')

Unnamed: 0,index,percentaje,C_SEV
0,2,98.055666,1404971
1,1,1.944334,27859


Para que nuestro modelo entrene de la forma más adecuada vamos a realizar un balanceo de la variable objetivo en Train.

Para ello realizaremos un remuestreo de los datos mediante la técnica de **subsampling** con el objetivo de reducir el número de muestras de la clase 2 (ningún fallecido) frente a las de 1 (al menos un fallecido). Para ello:
* Primero, dividimos el dataset dos dataset, uno por clase.
* Segundo, realizamos un resample de la clase mayoritaria, para extraer una muestra del mismo. 
* Finalmente, juntaremos ambos datasets para formar la muestra a utilizar. 

In [23]:
# Dividimos la clases
sev01_df = X_train_sev[X_train_sev['C_SEV'] == 1]
sev02_df = X_train_sev[X_train_sev['C_SEV'] == 2]

Realizamos una muestra de ```sev02_df``` con un tamaño superior al 15% de ```sev01_df```. Esto se realiza para que pese a reducir el desequilibrio existente, buscamos que se asemeje a la realidad y por lo tanto mantenga cierto grado de desequilibrio. 

Destacar que usamos como semilla el valor 0. Este se ha determinado de forma arbitraria, permitirá replicar los resultados en caso de querer realizar más pruebas.

In [26]:
# Tamaño a muestrear
sample_size = int(sev01_df.shape[0] * (1.20))

# Realizamos una muestra del sev02_df
sev02_sam_df = resample(sev02_df, replace=True, n_samples = sample_size, random_state=0)

# Juntamos y creamos la versión a utilizar
X_train_sev = pd.concat([sev01_df, sev02_sam_df])
X_train_sev['C_SEV'].value_counts()

2    33430
1    27859
Name: C_SEV, dtype: int64

Observamos como se ha reducido considerablemente la muestra de accidentes no mortales, y hemos podido equilibrar en cierto grado el dataset. 

In [29]:
Y_train = X_train_sev['C_SEV']
X_train = X_train_sev.drop(['C_SEV'], axis=1)

## 3.4 Tratamiento
A continuación procederemos a realizar la limpieza de los datos y su procesamiento:

Analizamos tipos:

In [40]:
eda_tools.dataset_overview(data = XY_train)

Unnamed: 0,columna,tipo_dato,nulos,nulos%
0,C_YEAR,int64,0,0.0
1,C_MNTH,object,0,0.0
2,C_WDAY,object,0,0.0
3,C_HOUR,object,0,0.0
4,C_SEV,int64,0,0.0
5,C_VEHS,object,0,0.0
6,C_CONF,object,0,0.0
7,C_RCFG,object,0,0.0
8,C_WTHR,object,0,0.0
9,C_RSUR,object,0,0.0


### 3.4.2 Valores faltantes
Para llevar a cabo este proceso realizaremos la conversión correspondiente por tipo de variable, esto es, pues el signficado que estas tienen es distinto. 

A nivel general si el porcentaje es inferior a 0.1 dedicidimos eliminar esas variables, en caso contrario aplicaremos una técnicas de sustitución de ese valor. Consideramos que un valor inferior a 0.1 no es relevante para los datos.

Primero veamos como está la muestra de train:

In [41]:
especial_values = [['U', 'UU', 'UUUU'], ['N', 'NN', 'NNNN'], ['Q', 'QQ', 'QQQQ']]

# Valoración del train
eda_tools.special_values_summary(df = XY_train, vals = especial_values)

Unnamed: 0,column_name,U,U%,N,N%,Q,Q%,total,total%
0,C_YEAR,0,[0.0],0,[0.0],0,[0.0],0,0.0
1,C_MNTH,5,[0.004],0,[0.0],0,[0.0],5,0.0
2,C_WDAY,21,[0.017],0,[0.0],0,[0.0],21,0.0
3,C_HOUR,1346,[1.118],0,[0.0],0,[0.0],1346,1.1
4,C_SEV,0,[0.0],0,[0.0],0,[0.0],0,0.0
5,C_VEHS,8,[0.007],0,[0.0],0,[0.0],8,0.0
6,C_CONF,3381,[2.807],0,[0.0],6135,[5.094],9516,7.9
7,C_RCFG,9527,[7.91],0,[0.0],3411,[2.832],12938,10.7
8,C_WTHR,1596,[1.325],0,[0.0],337,[0.28],1933,1.6
9,C_RSUR,1439,[1.195],0,[0.0],3573,[2.967],5012,4.2


In [42]:
# Valoración del test
eda_tools.special_values_summary(df = XY_test, vals = especial_values)

Unnamed: 0,column_name,U,U%,N,N%,Q,Q%,total,total%
0,C_YEAR,0,[0.0],0,[0.0],0,[0.0],0,0.0
1,C_MNTH,4,[0.011],0,[0.0],0,[0.0],4,0.0
2,C_WDAY,11,[0.029],0,[0.0],0,[0.0],11,0.0
3,C_HOUR,413,[1.102],0,[0.0],0,[0.0],413,1.1
4,C_SEV,0,[0.0],0,[0.0],0,[0.0],0,0.0
5,C_VEHS,9,[0.024],0,[0.0],0,[0.0],9,0.0
6,C_CONF,1032,[2.754],0,[0.0],1868,[4.986],2900,7.7
7,C_RCFG,2791,[7.449],0,[0.0],1044,[2.787],3835,10.2
8,C_WTHR,463,[1.236],0,[0.0],115,[0.307],578,1.5
9,C_RSUR,423,[1.129],0,[0.0],1145,[3.056],1568,4.2


**Para los valores U (desconocido)**: Se establecerá el valor medio ponderado (redondeado a la unidad superior) de las categorías asignadas. Al haber tanta variabilidad asignaremos la categoría media.

**Para los valores Q (otra categoría no contemplada)**: Se eliminarán del dataset pues no poseen información útil de cara a determinar la mortalidad.

Es importante tener en cuenta aspectos de la variable que estemos hablando, lo vemos  a continuación:

```C_MNTH```: Solo tiene valores U, es decir, NaN. Observamos que su valor es inferior a 0.1, son solo 5 filas, por lo que las eliminamos al no tener un peso significativo.

In [43]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_MNTH')

Unnamed: 0,index,percentaje,C_MNTH
0,08,9.534208,11483
1,07,9.488542,11428
2,09,9.009465,10851
3,10,8.987878,10825
4,12,8.957157,10788
5,06,8.845898,10654
6,11,8.646629,10414
7,01,8.203255,9880
8,05,7.98987,9623
9,03,6.83826,8236


In [44]:
XY_train = XY_train.drop(XY_train[XY_train['C_MNTH'] == 'UU'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_MNTH'] == 'UU'].index, axis=0)

```C_WDAY```: Solo tiene valores U:

In [45]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_WDAY')

Unnamed: 0,index,percentaje,C_WDAY
0,5,16.792461,20224
1,6,15.393366,18539
2,4,14.646075,17639
3,3,13.604849,16385
4,2,13.588243,16365
5,1,13.159796,15849
6,7,12.801926,15418
7,U,0.013285,16


In [46]:
XY_train = XY_train.drop(XY_train[XY_train['C_WDAY'] == 'U'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_WDAY'] == 'U'].index, axis=0)

```C_HOUR```: Valores U

In [47]:
hour_ovw = eda_tools.classes_overview(df = XY_train[XY_train['C_HOUR'] != 'UU' ], obj_val = 'C_HOUR')
eda_tools.classes_overview(df = XY_train, obj_val = 'C_HOUR')

Unnamed: 0,index,percentaje,C_HOUR
0,16,7.941438,9563
1,17,7.814381,9410
2,15,7.680682,9249
3,14,6.39517,7701
4,18,6.359462,7658
5,13,5.813036,7000
6,12,5.719197,6887
7,11,4.904542,5906
8,19,4.870494,5865
9,08,4.662885,5615


In [48]:
hour_ovw['cat'] = hour_ovw['index'].astype(int)
hour_ovw['weight'] = hour_ovw['cat'] * hour_ovw['percentaje']
mean_val = np.round(hour_ovw['weight'].sum(axis=0) / 100, decimals = 0)
XY_train['C_HOUR'] = XY_train['C_HOUR'].replace('UU', '13')
XY_test['C_HOUR'] = XY_test['C_HOUR'].replace('UU', '13')

```C_VEHS```: Valores U

In [49]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_VEHS')

Unnamed: 0,index,percentaje,C_VEHS
0,02,56.682085,68256
1,01,28.845946,34736
2,03,10.708443,12895
3,04,2.643271,3183
4,05,0.673482,811
5,06,0.209269,252
6,07,0.075569,91
7,08,0.0382,46
8,09,0.028235,34
9,10,0.015778,19


In [50]:
XY_train = XY_train.drop(XY_train[XY_train['C_VEHS'] == 'UU'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_VEHS'] == 'UU'].index, axis=0)

```C_CONF```: Tiene valores U y Q

In [51]:
conf_ovw = eda_tools.classes_overview(df = XY_train[(XY_train['C_CONF'] != 'UU') & 
                                                    (XY_train['C_CONF'] != 'QQ')], obj_val = 'C_CONF')
eda_tools.classes_overview(df = XY_train, obj_val = 'C_CONF')

Unnamed: 0,index,percentaje,C_CONF
0,21,23.074943,27785
1,35,13.595821,16371
2,06,10.789622,12992
3,31,7.500914,9032
4,33,6.295884,7581
5,36,6.03013,7261
6,04,5.502774,6626
7,QQ,5.093346,6133
8,03,4.556024,5486
9,02,4.071853,4903


In [52]:
# Sustiuimos UU por la media ponderada
conf_ovw['cat'] = conf_ovw['index'].astype(int)
conf_ovw['weight'] = conf_ovw['cat'] * conf_ovw['percentaje']
mean_val = np.round(conf_ovw['weight'].sum(axis=0) / 100, decimals = 0)
XY_train['C_CONF'] = XY_train['C_CONF'].replace('UU', '21')
XY_test['C_CONF'] = XY_test['C_CONF'].replace('UU', '21')

# Eliminamos las variables QQ pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_CONF'] == 'QQ'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_CONF'] == 'QQ'].index, axis=0)

```C_RCFG```: Tiene valores U y Q

In [53]:
rcfg_ovw = eda_tools.classes_overview(df = XY_train[(XY_train['C_RCFG'] != 'UU') & 
                                                    (XY_train['C_RCFG'] != 'QQ')], obj_val = 'C_RCFG')
eda_tools.classes_overview(df = XY_train, obj_val = 'C_RCFG')

Unnamed: 0,index,percentaje,C_RCFG
0,02,41.720701,47678
1,01,41.414433,47328
2,UU,8.045223,9194
3,03,4.523141,5169
4,QQ,2.421267,2767
5,05,0.951181,1087
6,04,0.553032,632
7,08,0.196887,225
8,06,0.115507,132
9,07,0.028877,33


In [54]:
# Sustiuimos UU por la media ponderada
rcfg_ovw['cat'] = rcfg_ovw['index'].astype(int)
rcfg_ovw['weight'] = rcfg_ovw['cat'] * rcfg_ovw['percentaje']
mean_val = np.round(rcfg_ovw['weight'].sum(axis=0) / 100, decimals = 0)
XY_train['C_RCFG'] = XY_train['C_RCFG'].replace('UU', '02')
XY_test['C_RCFG'] = XY_test['C_RCFG'].replace('UU', '02')

# Eliminamos las variables QQ pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_RCFG'] == 'QQ'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_RCFG'] == 'QQ'].index, axis=0)

```C_WTHR```: Tiene valores U y Q

In [57]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_WTHR')

Unnamed: 0,index,percentaje,C_WTHR
0,1,69.405983,77396
1,2,10.404261,11602
2,3,9.709269,10827
3,4,6.140146,6847
4,6,1.778284,1983
5,U,1.312863,1464
6,5,0.602626,672
7,7,0.359603,401
8,Q,0.286965,320


In [60]:
# Sustiuimos U por la mayoritaria
XY_train['C_WTHR'] = XY_train['C_WTHR'].replace('U', '1')
XY_test['C_WTHR'] = XY_test['C_WTHR'].replace('U', '1')

# Eliminamos las variables QQ pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_WTHR'] == 'Q'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_WTHR'] == 'Q'].index, axis=0)

```C_RSUR``` 

In [61]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_RSUR')

Unnamed: 0,index,percentaje,C_RSUR
0,1,66.266458,73683
1,2,17.753076,19740
2,5,5.405065,6010
3,3,4.273689,4752
4,Q,3.062271,3405
5,4,1.285164,1429
6,U,1.170948,1302
7,6,0.636736,708
8,7,0.120512,134
9,8,0.017987,20


In [62]:
# Sustiuimos U por la mayoritaria
XY_train['C_RSUR'] = XY_train['C_RSUR'].replace('U', '1')
XY_test['C_RSUR'] = XY_test['C_RSUR'].replace('U', '1')

# Eliminamos las variables Q pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_RSUR'] == 'Q'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_RSUR'] == 'Q'].index, axis=0)

```C_RALN```

In [63]:
eda_tools.classes_overview(df = XY_train, obj_val = 'C_RALN')

Unnamed: 0,index,percentaje,C_RALN
0,1,68.192825,73503
1,2,10.529099,11349
2,3,8.569679,9237
3,U,5.693637,6137
4,4,5.321607,5736
5,5,0.733855,791
6,6,0.552015,595
7,Q,0.407285,439


In [64]:
# Sustiuimos U por la mayoritaria
XY_train['C_RALN'] = XY_train['C_RALN'].replace('U', '1')
XY_test['C_RALN'] = XY_test['C_RALN'].replace('U', '1')

# Eliminamos las variables Q pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_RALN'] == 'Q'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_RALN'] == 'Q'].index, axis=0)

```C_TRAF```

In [66]:
traf_ovw = eda_tools.classes_overview(df = XY_train[(XY_train['C_TRAF'] != 'UU') & 
                                                    (XY_train['C_TRAF'] != 'QQ')], obj_val = 'C_TRAF')
eda_tools.classes_overview(df = XY_train, obj_val = 'C_TRAF')

Unnamed: 0,index,percentaje,C_TRAF
0,18,58.077468,62345
1,01,23.739613,25484
2,03,10.818087,11613
3,UU,2.662369,2858
4,QQ,1.357268,1457
5,04,1.26225,1355
6,06,0.712636,765
7,08,0.381935,410
8,02,0.344673,370
9,05,0.100607,108


In [68]:
# Sustiuimos UU por la media ponderada
traf_ovw['cat'] = traf_ovw['index'].astype(int)
traf_ovw['weight'] = traf_ovw['cat'] * traf_ovw['percentaje']
mean_val = np.round(traf_ovw['weight'].sum(axis=0) / 100, decimals = 0)
XY_train['C_TRAF'] = XY_train['C_TRAF'].replace('UU', '12')
XY_test['C_TRAF'] = XY_test['C_TRAF'].replace('UU', '12')

# Eliminamos las variables QQ pues no aportan información util al referirse a categorías 
# no contempladas.
XY_train = XY_train.drop(XY_train[XY_train['C_TRAF'] == 'QQ'].index, axis=0)
XY_test = XY_test.drop(XY_test[XY_test['C_TRAF'] == 'QQ'].index, axis=0)

Verificamos que todo es correcto:

In [70]:
eda_tools.special_values_summary(df = XY_train, vals = especial_values)

Unnamed: 0,column_name,U,U%,N,N%,Q,Q%,total,total%
0,C_YEAR,0,[0.0],0,[0.0],0,[0.0],0,0.0
1,C_MNTH,0,[0.0],0,[0.0],0,[0.0],0,0.0
2,C_WDAY,0,[0.0],0,[0.0],0,[0.0],0,0.0
3,C_HOUR,0,[0.0],0,[0.0],0,[0.0],0,0.0
4,C_SEV,0,[0.0],0,[0.0],0,[0.0],0,0.0
5,C_VEHS,0,[0.0],0,[0.0],0,[0.0],0,0.0
6,C_CONF,0,[0.0],0,[0.0],0,[0.0],0,0.0
7,C_RCFG,0,[0.0],0,[0.0],0,[0.0],0,0.0
8,C_WTHR,0,[0.0],0,[0.0],0,[0.0],0,0.0
9,C_RSUR,0,[0.0],0,[0.0],0,[0.0],0,0.0


In [71]:
eda_tools.special_values_summary(df = XY_test, vals = especial_values)

Unnamed: 0,column_name,U,U%,N,N%,Q,Q%,total,total%
0,C_YEAR,0,[0.0],0,[0.0],0,[0.0],0,0.0
1,C_MNTH,0,[0.0],0,[0.0],0,[0.0],0,0.0
2,C_WDAY,0,[0.0],0,[0.0],0,[0.0],0,0.0
3,C_HOUR,0,[0.0],0,[0.0],0,[0.0],0,0.0
4,C_SEV,0,[0.0],0,[0.0],0,[0.0],0,0.0
5,C_VEHS,0,[0.0],0,[0.0],0,[0.0],0,0.0
6,C_CONF,0,[0.0],0,[0.0],0,[0.0],0,0.0
7,C_RCFG,0,[0.0],0,[0.0],0,[0.0],0,0.0
8,C_WTHR,0,[0.0],0,[0.0],0,[0.0],0,0.0
9,C_RSUR,0,[0.0],0,[0.0],0,[0.0],0,0.0


Hemos tratado todos los valores especiales y ahora nuestro conjunto de datos no posee valores missings.

### 3.4.3 Codificación de variables

In [23]:
# ENCODING ¿?
# Sexo -> M/F LabelEncoding o OneHotEncoding
# 
# Encoding de variables con una codificación extraña  
#

In [24]:
# SELECCIÓN DE VARIABLES
# Correlación ?
# Lasso o modelo de regresión?
# Justificar elección final ? 

## 3.5 Modelo final

---

<div style='text-align:center'>Elaborado por Álvaro Serrano del Rincón (<i>a.serranodelrincon@cunef.edu</i>)</div> 
<div style='text-align:center'>y Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div> 