<p align="center">
  <img width="100" height="100" src="../images/logo.png">
</p>

<div>
<h1>03. Preproceso: Modelo C_SEV</h1> 

Canadian Car Accidents Practice <br>
<strong>Aprendizaje Automático</strong> <br>
<strong>Master Universitario en Ciencia de Datos<strong>
</div>

<div style='text-align:right'>Álvaro Serrano del Rincón (<i>a.serranodelrincon@cunef.edu</i>)</div>
<div style='text-align:right'>Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>

---

## 3.0 Introducción

En este notebook realizaremos el preprocesado de los datos del dataset conforme al análisis realizado en el notebook EDA 
```01_EDA```. Para ello procederemos a explicar paso a paso las decisiones tomadas en cuanto a su preprocesado.

Para este trabajo estamos utilizando un entorno de propósito espécifico.

In [None]:
# Verificamos el entorno: ML_P1
!conda info

### 3.0.1 Estructura

<< PONER ESTRUCTURA >>

## Librerías

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
import matplotlib.ticker as ticker
import plotly.express as px

%matplotlib inline

from sklearn.utils import resample
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression
from sklearn import preprocessing

from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import TomekLinks

from collections import Counter
from sklearn.datasets import make_classification
from numpy import where

## Scripts
En este notebook procedemos a importar dos scripts con funciones útiles, previamente utilizadas en el EDA y que permitirán verificar el proceso de realización de las muestras de train y test.

In [None]:
import sys

import sys  
sys.path.insert(0, '../scripts/')

import csv_tools
import eda_tools

## 3.1 Lectura y preparación

A continuación leeremos el dataset, de la misma forma que lo hicimos en el EDA.

In [None]:
# Función propia que verifica que existe el fichero de datos previamente.
accidents_df = csv_tools.csv_import(origin="../data/sev_df_05.csv")

In [None]:
accidents_df.head()

## 3.2 Train y Test
A continuación vamos a proceder a crear y dividir los datos en Train (muestra de entrenamiento) y test (muestra de test) que usaremos para nuestros modelos. 

In [None]:
# Separamos los valores (X) de la variable objetivo (Y)
X = accidents_df.drop('C_SEV', axis=1)
Y = accidents_df['C_SEV']

# Realizamos la división de train y test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.20, random_state=1234, stratify=Y)

## 3.3 Tratamiento
A continuación procederemos a realizar la limpieza de los datos y su procesamiento:

Analizamos tipos:

In [None]:
eda_tools.dataset_overview(data = X_train)

### 3.4.2 Valores faltantes
Para llevar a cabo este proceso realizaremos la conversión correspondiente por tipo de variable, esto es, pues el signficado que estas tienen es distinto. 

A nivel general si el porcentaje es inferior a 0.1 dedicidimos eliminar esas variables, en caso contrario aplicaremos una técnicas de sustitución de ese valor. Consideramos que un valor inferior a 0.1 no es relevante para los datos.

Primero veamos como está la muestra de train:

In [None]:
especial_values = [['U', 'UU', 'UUUU'], ['Q', 'QQ', 'QQQQ']]

# Valoración del train
eda_tools.special_values_summary(df = X_train, vals = especial_values)

In [None]:
# Valoración del test
eda_tools.special_values_summary(df = X_test, vals = especial_values)

Generalmente analizaremos primero el porcentaje de valores especiales, siendo igual o inferior a 0.1% el criterio de eliminación de estos del dataset. En el resto se analizará la variable objetivo mayoritaria y se buscará el valor más frecuente con la misma variable objetivo para realizar la clasificación. En el caso de las variables ```Q``` se seguirá el mismo criterio si bien en algunos casos por razones de que no se tratan de simples datos faltantes deberán categorizarse de manera específica.
Lo analizamos a continuación:

```C_MNTH```: Observamos valores ```U```, estos son inferiores a un 0.1% lo que los hace insignificantes dentro y por lo tanto los eliminamos.

In [None]:
# Train
to_drop = X_train[X_train['C_MNTH'] == 'UU'].index
X_train = X_train.drop(to_drop, axis=0)
Y_train = Y_train.drop(to_drop, axis=0)

# Test
to_drop = X_test[X_test['C_MNTH'] == 'UU'].index
X_test = X_test.drop(to_drop, axis=0)
Y_test = Y_test.drop(to_drop, axis=0)

```C_WDAY```: Observamos valores ```U```, estos son inferiores a un 0.1% lo que los hace insignificantes dentro y por lo tanto los eliminamos.

In [None]:
# Train
to_drop = X_train[X_train['C_WDAY'] == 'U'].index
X_train = X_train.drop(to_drop, axis=0)
Y_train = Y_train.drop(to_drop, axis=0)

# Test
to_drop = X_test[X_test['C_WDAY'] == 'U'].index
X_test = X_test.drop(to_drop, axis=0)
Y_test = Y_test.drop(to_drop, axis=0)

```C_HOUR```: Observamos que hay valores ```U```. Hacemos uso de una tabla resumen que muestra el porcentaje de valores por categoría y la variable objetivo mayoritaria de esa categoría.

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_HOUR')

Categorizaremos los valores ```UU``` como accidentes nocturnos (```night```), pues es la variable mayoritaria con su misma variable objetivo.

In [None]:
X_train['C_HOUR'] = X_train['C_HOUR'].replace(to_replace = 'UU', value = 'night')
X_test['C_HOUR'] = X_test['C_HOUR'].replace(to_replace = 'UU', value = 'night')

```C_VEHS```: Observamos valores ```U```, estos son inferiores a un 0.1% lo que los hace insignificantes dentro y por lo tanto los eliminamos.

In [None]:
# Train
to_drop = X_train[X_train['C_VEHS'] == 'UU'].index
X_train = X_train.drop(to_drop, axis=0)
Y_train = Y_train.drop(to_drop, axis=0)

# Test
to_drop = X_test[X_test['C_VEHS'] == 'UU'].index
X_test = X_test.drop(to_drop, axis=0)
Y_test = Y_test.drop(to_drop, axis=0)

```C_CONF```: Tiene valores ```U``` y ```Q```. Ambos valores presentan la misma variable objetivo mayoritaria respecto a una de las clases, por lo que las clasificaremos como ```one vehicle```.

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_CONF')

In [None]:
# Valores QQ se engloban dentro de la categoría other
X_train['C_CONF'] = X_train['C_CONF'].replace(to_replace = 'QQ', value = 'one vehicle')
X_test['C_CONF'] = X_test['C_CONF'].replace(to_replace = 'QQ', value = 'one vehicle')

# Valores UU se traspasan a la categoría de back
X_train['C_CONF'] = X_train['C_CONF'].replace(to_replace = 'UU', value = 'one vehicle')
X_test['C_CONF'] = X_test['C_CONF'].replace(to_replace = 'UU', value = 'one vehicle')

```C_RCFG```: Tiene valores ```U``` y ```Q```. Los valores ```Q``` por su naturaleza se asignan a la categoría ```specific```, los valores ```U``` se categorizarán como ```normal```, pues coincide en variable objetivo. 

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_RCFG')

In [None]:
# Valores QQ se engloban dentro de la categoría specific, no pueden ser normales
X_train['C_RCFG'] = X_train['C_RCFG'].replace(to_replace = 'QQ', value = 'specific')
X_test['C_RCFG'] = X_test['C_RCFG'].replace(to_replace = 'QQ', value = 'specific')

# Valores UU se traspasan a la categoría de specific, misma C_SEV
X_train['C_RCFG'] = X_train['C_RCFG'].replace(to_replace = 'UU', value = 'normal')
X_test['C_RCFG'] = X_test['C_RCFG'].replace(to_replace = 'UU', value = 'normal')

```C_WTHR```: Tiene valores ```U``` y ```Q```. Los valores ```Q``` por su naturaleza se asignan a la categoría ```bad```, asumimos que son condiciones poco habituales. En el caso de los valores ```U``` se caracterizan como ```normal``` al coincidir su variabe objetivo.

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_WTHR')

In [None]:
# Valores QQ se engloban dentro de la categoría bad, asumimos que son condiciones poco habituales
X_train['C_WTHR'] = X_train['C_WTHR'].replace(to_replace = 'Q', value = 'bad')
X_test['C_WTHR'] = X_test['C_WTHR'].replace(to_replace = 'Q', value = 'bad')

# Valores UU se traspasan a la categoría de normal, variable mayoritaria (sin coincidencias de CSEV)
X_train['C_WTHR'] = X_train['C_WTHR'].replace(to_replace = 'U', value = 'normal')
X_test['C_WTHR'] = X_test['C_WTHR'].replace(to_replace = 'U', value = 'normal')

```C_RSUR```: Tiene valores ```U``` y ```Q```. Los cuales cuales clasificaremos como carreteras con problemas (```dragged```). Pues ambas poseen una variable objetivo mayoritaria común y, además, las ```Q``` por su razón de ser otro tipo de situación de carretera no contemplada la debemos de clasificar en esta segunda categoría.

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_RSUR')

In [None]:
# Valores Q se engloban dentro de la categoría dragged, no pueden ser normales
X_train['C_RSUR'] = X_train['C_RSUR'].replace(to_replace = 'Q', value = 'dragged')
X_test['C_RSUR'] = X_test['C_RSUR'].replace(to_replace = 'Q', value = 'dragged')

# Valores U se traspasan a la categoría de dragged, misma C_SEV
X_train['C_RSUR'] = X_train['C_RSUR'].replace(to_replace = 'U', value = 'dragged')
X_test['C_RSUR'] = X_test['C_RSUR'].replace(to_replace = 'U', value = 'dragged')

```C_RALN```: Observamos variables ```U``` y ```Q```. Las ```Q``` se clasifican como otros tipos de carreteras: ```curve/ramp```, pues no pueden ser de la otra categoría. En el caso de ```U```, siguiendo la mayoría de la variable objetivo se clasifica como ```normal```:

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_RALN')

In [None]:
# Valores Q se engloban dentro de la categoría curve/ramp, no pueden ser normales
X_train['C_RALN'] = X_train['C_RALN'].replace(to_replace = 'Q', value = 'curve/ramp')
X_test['C_RALN'] = X_test['C_RALN'].replace(to_replace = 'Q', value = 'curve/ramp')

# Valores U se traspasan a la categoría normal, misma C_SEV
X_train['C_RALN'] = X_train['C_RALN'].replace(to_replace = 'U', value = 'normal')
X_test['C_RALN'] = X_test['C_RALN'].replace(to_replace = 'U', value = 'normal')

```C_TRAF```: Aquí se observa una situación similar a la anterior:

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
eda_tools.classes_overview_target(df = XY_train, target = 'C_SEV', obj_val = 'C_TRAF')

In [None]:
# Valores Q se engloban dentro de la categoría safe, otro tipo de medida de seguridad no contemplada
X_train['C_TRAF'] = X_train['C_TRAF'].replace(to_replace = 'QQ', value = 'safe')
X_test['C_TRAF'] = X_test['C_TRAF'].replace(to_replace = 'QQ', value = 'safe')

# Valores U se traspasan a la categoría unsafe, misma C_SEV
X_train['C_TRAF'] = X_train['C_TRAF'].replace(to_replace = 'UU', value = 'safe')
X_test['C_TRAF'] = X_test['C_TRAF'].replace(to_replace = 'UU', value = 'safe')

Verificamos que todo es correcto:

In [None]:
eda_tools.special_values_summary(df = X_train, vals = especial_values)

In [None]:
eda_tools.special_values_summary(df = X_test, vals = especial_values)

Hemos tratado todos los valores especiales y ahora nuestro conjunto de datos no posee valores missings.

### 3.4.3 Codificación de variables y tipos
Ahora que hemos tratado los valores missings y especiales procedermos a modificar los tipos y codificaciones de las variables

#### 3.4.3.1 Variables numéricas
Para este modelo consideramos variables numéricas: 
* ```C_YEAR```: Año del accidente
* ```C_VEHS```: Número de vehículos implicados
* ```C_PERS```: Número de personas implicadas

Solo ```C_PERS``` es ya de tipo numérico. Convertimos las otras dos:

In [None]:
numeric = ['C_YEAR', 'C_VEHS', 'C_PERS']
for col in numeric:
    X_train[col] = X_train[col].astype(float)
    X_test[col] = X_test[col].astype(float)

#### 3.4.3.2 Variables categóricas: Encoding

Vamos a codificar las variable categóricas. Repasemos primero la estructura de las categorías:

In [None]:
'''
categorical = ['C_MNTH', 'C_WDAY', 'C_HOUR', 'C_CONF', 
               'C_RCFG', 'C_WTHR', 'C_RSUR', 'C_RALN', 
               'C_TRAF']

XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train

fig, axes = plt.subplots(5, 2, figsize=(15, 35), sharey=False)
fig.suptitle('Categorial Values by Severity (normalized)')

i = 0
j = 0
for cat in categorical:
    temp = eda_tools.norm_category(df = XY_train, obj_val = 'C_SEV', cat_val = cat)
    sns.barplot(data = temp, x = cat, y = 'group%', hue = 'C_SEV', ax = axes[i,j]);
    if (j == 0): 
        j = 1
    else:
        j = 0
        i += 1
'''

Como norma general debido al elevado uso de categorías en algunas variables, se va a evitar utilizar téncicas como OneHotEncoder de manera abusiva pues crearía demasidas variables.

**Label Encoder**

Se hará uso del LabelEncoder para las variables con solo dos categorías. Estas son: ```C_RCFG```, ```C_WTHR```, ```C_RSUR```, ```C_RALN``` y ```C_TRAF```. Al tener únicamente dos categorías, resulta interesante hacer uso de 1 y 0 para poder diferenciarlas. 

Ref: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [None]:
labelCat = ['C_RCFG', 'C_WTHR', 'C_RSUR', 'C_RALN', 'C_TRAF', 'C_MNTH', 'C_WDAY']
lb = preprocessing.LabelEncoder()

In [None]:
for cat in labelCat:
    X_train[cat] = lb.fit_transform(X_train[cat])
    X_test[cat] = lb.fit_transform(X_test[cat])

La variable objetivo hay que codificarla también:1 -> 0 y 2 -> 1

In [None]:
Y_train = lb.fit_transform(Y_train)
Y_test = lb.fit_transform(Y_test)

**One Hot Encoder**

Finalmente, haremos uso del OneHotEncoder para la variable ```C_HOUR```. Esta solo tiene tres categorías lo que creará solo dos variables nuevas. 

Ref: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder

In [None]:
ohe = preprocessing.OneHotEncoder()

In [None]:
# Train
categories = ohe.fit_transform(X_train[['C_HOUR']]).toarray()
new_categories = ['C_HOUR_A', 'C_HOUR_M', 'C_HOUR_N']
position = 0
for nc in new_categories:
    accum = list()
    for enc in categories:
        accum.append(enc[position])
    X_train[nc] = accum
    position += 1

X_train = X_train.drop(['C_HOUR'], axis=1)

In [None]:
# Test
categories = ohe.fit_transform(X_test[['C_HOUR']]).toarray()
new_categories = ['C_HOUR_A', 'C_HOUR_M', 'C_HOUR_N']
position = 0
for nc in new_categories:
    accum = list()
    for enc in categories:
        accum.append(enc[position])
    X_test[nc] = accum
    position += 1

X_test = X_test.drop(['C_HOUR'], axis=1)

In [None]:
# Train
categories = ohe.fit_transform(X_train[['C_CONF']]).toarray()
new_categories = ['C_CONF_O', 'C_CONF_TO', 'C_CONF_TS']
position = 0
for nc in new_categories:
    accum = list()
    for enc in categories:
        accum.append(enc[position])
    X_train[nc] = accum
    position += 1

X_train = X_train.drop(['C_CONF'], axis=1)

In [None]:
# Test
categories = ohe.fit_transform(X_test[['C_CONF']]).toarray()
new_categories = ['C_CONF_O', 'C_CONF_TO', 'C_CONF_TS']
position = 0
for nc in new_categories:
    accum = list()
    for enc in categories:
        accum.append(enc[position])
    X_test[nc] = accum
    position += 1

X_test = X_test.drop(['C_CONF'], axis=1)

## 3.5 Escalado
Realizamos un escalado de las variables del dataset

In [None]:
scaler = StandardScaler()
model_scaled = scaler.fit(X_train)
X_train = pd.DataFrame(scaler.transform(X_train), columns=X_train.columns, index=X_train.index)
X_test= pd.DataFrame(scaler.transform(X_test), columns=X_test.columns, index=X_test.index)

In [None]:
X_train

## 3.6 Balanceo
En el EDA pudimos apreciar como había un importante desequilibrio en la variable objetivo, existiendo un 98% y 2% de accidentes no mortales y mortales respectivamente. 

In [None]:
X_train_sev = X_train
X_train['C_SEV'] = Y_train
eda_tools.classes_overview(df = X_train_sev, obj_val = 'C_SEV')

Hacemos uso de la técnica de balanceo Smote Tomek Links con un remuestreo de a clase mayoritaria (accidentes no mortales) de tal forma que los datos estén más equilibrado y permitan al modelo un mejor aprendizaje de ambas clases.

Ref: https://towardsdatascience.com/imbalanced-classification-in-python-smote-tomek-links-method-6e48dfe69bbc

Ref: https://imbalanced-learn.org/dev/references/generated/imblearn.under_sampling.TomekLinks.html#imblearn.under_sampling.TomekLinks

In [None]:
oversample = SMOTE()

In [None]:
X_train, Y_train = oversample.fit_resample(X_train, Y_train)

Observamos como se ha reducido considerablemente la muestra de accidentes no mortales, y hemos podido equilibrar en cierto grado el dataset. 

In [None]:
X_train_sev = X_train
X_train['C_SEV'] = Y_train
eda_tools.classes_overview(df = X_train_sev, obj_val = 'C_SEV')

## 3.7 Selección de variables

### 3.7.1 Correlaciones

In [None]:
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train
sns.heatmap(XY_train[['C_SEV', 'C_YEAR', 'C_VEHS', 'C_PERS']].corr(), annot = True)

Analizamos las correlaciones de las variables continuas del modelo. Observamos como no existe una fuerte correlación con la variable objetivo, si bien las variables ```C_VEHS``` y ```C_PERS``` muestran un correlación a destacar. Esta es normal teniendo en cuenta que el número de vehículos involucrados tienen una relación con las personas involucradas al ser estas usuarios de estos vehículos.

### 3.7.2 Regresión de Lasso
A continuación procedemos a realizar una regresión de Lasso con el objetivo de valorar que variables del modelo son mayormente significativas e importantes para el mismo. De esta forma reducimos las variables y simplificamos el modelo.

In [None]:
'''
sel_lasso = SelectFromModel(LogisticRegression(C=1, penalty='l1', 
                                          solver='liblinear'), threshold = 0.1) # jugar con el threshold
sel_lasso.fit(X_train, Y_train)
'''

In [None]:
'''
sel_lasso.get_support()
selected_feat_lasso = X_train.columns[sel_lasso.get_support()]
selected_feat_lasso
'''

In [None]:
'''categorical = selected_feat_lasso

XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train

fig, axes = plt.subplots(7, 2, figsize=(15, 35), sharey=False)
fig.suptitle('Categorial Values by Severity (normalized)')

i = 0
j = 0
for cat in categorical:
    temp = eda_tools.norm_category(df = XY_train, obj_val = 'C_SEV', cat_val = cat)
    sns.barplot(data = temp, x = cat, y = 'group%', hue = 'C_SEV', ax = axes[i,j]);
    if (j == 0): 
        j = 1
    else:
        j = 0
        i += 1
''''

In [None]:
'''
# Coeficientes del modelo
# ==============================================================================
df_coeficientes_lasso = pd.DataFrame(
                        {'predictor': X_train.columns,
                         'coef': sel_lasso.estimator_.coef_.flatten()}
                  )

fig, ax = plt.subplots(figsize=(16, 3.84))
ax.stem(df_coeficientes_lasso.predictor, df_coeficientes_lasso.coef, markerfmt=' ')
plt.xticks(rotation=90, ha='right', size=10)
ax.set_xlabel('variable')
ax.set_ylabel('coeficientes')
ax.set_title('Coeficientes del modelo lasso');
'''

In [None]:
# Descomentar solo si hacemos uso de Lasso
#X_train = X_train[selected_feat_lasso]
#X_test = X_test[selected_feat_lasso]

## 3.8 Modelo final

Finalmente, ya tenemos dos conjuntos procesados de train y test que podemos utilizar para realizar los modelos:

### 3.8.1 Train

In [None]:
X_train.head()

In [None]:
# Guardado de train
XY_train = X_train.copy()
XY_train['C_SEV'] = Y_train

# Revisar nombres antes de guardar (CUIDADO: Sobreescritura)
# Crear nueva carpeta <model_x> si es nuevo
XY_train.to_csv("../data/csev/model_5/fulltrainCSEV.csv", index=False)

### 3.8.2 Test


In [None]:
X_test.head()

In [None]:
# Guardado de test
XY_test = X_test.copy()
XY_test['C_SEV'] = Y_test

# Revisar nombres antes de guardar (CUIDADO: Sobreescritura)
# Crear nueva carpeta <model_x> si es nuevo
XY_test.to_csv("../data/csev/model_5/fulltestCSEV.csv", index=False)

---

<div style='text-align:center'>Elaborado por Álvaro Serrano del Rincón (<i>a.serranodelrincon@cunef.edu</i>)</div> 
<div style='text-align:center'>y Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div> 