### Data Load

In [None]:
dir_data = 'data/'
dir_raw = 'data/raw/'
dir_preprocessed = 'data/preprocessed/'

##### Librerias

En este apartado, vamos a importar todas las librerías necesarias para realizar las tareas de la práctica, como el análisis y procesamiento de datos, generar el modelo, etc. Estas librerías son numpy, matplotlib, pandas, seaborn, xgboost, sklearn y shap. Estas librerías nos permiten manipular, visualizar y analizar los datos de manera eficiente.

In [None]:
# Librerias
import os

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import shap
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_auc_score, roc_curve
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from xgboost import XGBClassifier

### EDA

Una vez que se han cargado, se pueden configurar algunas opciones para optimizar la visualización y el manejo de datos en pandas:

In [None]:
pd.set_option('display.max_columns', None)  # Muestra todas las columnas
pd.set_option('display.max_rows', None)     # Muestra todas las filas (¡cuidado con dataframes muy grandes!)
pd.set_option('display.width', 1000)        # Ajusta el ancho del output
pd.set_option('display.expand_frame_repr', False)  # Evita saltos de linea en columnas grandes


##### Análisis preliminar

Transformamos todos los archivos en formato CSV y añadimos una fila al final indicando la maniobra que se está representando en el conjunto de datos.

In [None]:
# Asignar otro atributo a cada dataframe de cada archivo (el nombre del archivo) y eliminacion de la primera parte 'STISIMData:'.

# files = os.listdir(dir_raw)
# dfs = []
# for driver in files:
#     files = os.listdir(dir_raw + driver)
#     for file in files:
#         df = pd.read_excel(dir_raw + driver + '/' + file)
#         df['maniobra'] = file[11:-5]
#         df.to_csv(dir_preprocessed + '/column_added/' + driver + '_' + file[11:-5], index=False)
#         dfs.append(df)
#         #print(file + ' processed')
#     print(driver + ' processed')

In [None]:
dfs = []
for file in os.listdir(dir_preprocessed + '/column_added'):
    df = pd.read_csv(dir_preprocessed + '/column_added/' + file)
    dfs.append(df)

##### Valores Faltantes

Es importante verificar si hay valores faltantes en los datos, ya que pueden afectar el rendimiento del modelo. Para ello, calculamos la media de los valores faltantes por columna en cada DataFrame y mostramos los resultados.

In [None]:
# plot missing values
for df in dfs:
    print(df.isnull().mean())
    # sns.heatmap(df.isnull(), cbar=False)
    # plt.show()

Como podemos ver, hay columnas que tienen una gran cantidad de valores faltantes (>99%), por lo que procedemos a eliminarlas.

Aunque pueden ser relevantes, las consideramos no informativas ya que la cantidad es demasiado pequeña.

Nota: Pueden representar accidentes ya que el porcentaje de valores faltantes en ellas es el mismo.

Asumimos que estas filas son extras, las instancias están bien.

In [None]:
dfs = [df.drop( columns=['Accidents', 'Collisions', 'Peds Hit', 'Speeding Tics', 'Red Lgt Tics', 'Speed Exceed', 'Stop Sign Ticks']) for df in dfs]

Desechamos Long Dist, Lat Pos, Throtle input, etc. porque no son necesarias (segun el enunciado)

Utilizaremos:

* Speed - Velocidad
* RPM - Revoluciones por minuto 
* Steering Wheel angle - Ángulo del volante.  
* Gas Pedal - Pedal del acelerador. 
* Brake Pedal - Pedal del freno (b),  
* Clutch Pedal - Pedal del embrague  
* Gear – Marcha.

Nota: Tras ejecutar el modelo (clasificación multiclase con xgboost) con un extremadamente alto rendimiento, se sospechó de que hubiese fuga de datos. Para comprobarlo, se realizaron varias pruebas quitando atributos de manera selectiva hasta que se vio una caída abismal de la precisión cuando se quitaron los atributos de Latitud y Longitud. Se sospecha que esto podría ser algo del simulador de donde se obtuvieron los datos.

In [None]:
dfs = [df.drop(columns=['Elapsed time', 'Long Dist', 'Lat Pos', 'Hand wheel torque', 'Throttle input']) for df in dfs]

In [None]:
dfs[0].head()

Una vez que los datos están cargados y preprocesados, obtenemos una visión general de las estadísticas descriptivas de las columnas. Esto nos ayuda a entender las distribuciones y el rango de los datos, así como a identificar posibles valores atípicos.

In [None]:
for df in dfs:
    # Imprimir el maximo, minimo y promedio de cada columna
    print(df.describe().loc[['max', 'min', 'mean']])

In [None]:
# Mostrar un histograma de cada columna con el titulo 'maniobra'
# for df in dfs:
#     df.hist(figsize=(20, 20))
#     plt.suptitle(df['maniobra'][0])
#     plt.show()

No vemos valores atípicos claros o valores incorrectos, por lo que no eliminaremos ninguna instancia.

Dado que hay instancias donde no se realizan maniobras, decidimos eliminarlas ya que no proporcionan información útil.

In [None]:
# Eliminar las filas del dataframe que tienen 0 en 'Maneuver marker flag'
dfs_cleaned = []
for df in dfs:
    # Encuentra los indices donde 'Maneuver marker flag' es 1
    marker_indices = df[df['Maneuver marker flag'] == 1].index

    if not marker_indices.empty:  # Si hay al menos un 1 en la columna
        last_index = marker_indices[-1]  # Ultima ocurrencia de 1
        dfs_cleaned.append(df.iloc[:last_index + 1])  # Mantener todo hasta ahi
    else:
        dfs_cleaned.append(df)  # Si no hay 1s, mantener el DataFrame intacto

dfs = dfs_cleaned

Observamos que el 3 step turning puede ser tanto 3step-Turning como 3step-Turnings, por lo que nos quedamos con la primera

In [None]:
# Cambiar el valor de la columna 'maniobra' de "3step-Turnings" a "3step-Turn"
def change_maniobra(df):
    df['maniobra'] = df['maniobra'].apply(lambda x: '3step-Turning' if x == '3step-Turnings' else x)
    return df

In [None]:
dfs = [change_maniobra(df) for df in dfs]

##### Concatenar en drivers

Combinamos los distintos DataFrames de cada conductor en un único DataFrame para facilitar su procesamiento. Esto nos permitirá entrenar el modelo con un conjunto de datos unificado y obtener mejores generalizaciones.

Antes de concatenar los DataFrames, es importante dividir los datos en conjuntos de entrenamiento y prueba para evaluar el rendimiento del modelo de manera objetiva. Usaremos una proporción de 4:1, es decir, el 80% de los datos para entrenamiento y el 20% para prueba.

In [None]:
# Separar los dataframes en entrenamiento y prueba en una proporcion de 4 a 1
dfs_train = dfs[:-10]
dfs_test = dfs[-10:]

Ahora, combinamos todos los DataFrames en un solo DataFrame para cada conjunto (entrenamiento y prueba). Esto facilita el manejo de los datos, ya que tendremos un único DataFrame con todas las muestras en lugar de múltiples archivos separados.

In [None]:
# Combinar los dataframes de entrenamiento
df_train = pd.concat(dfs_train)
# Combinar los dataframes de prueba
df_test = pd.concat(dfs_test)

##### Aplanar Conjunto de Datos

Ahora procedemos a aplanar los datos. Esto significa que vamos a transformar los datos secuenciales en una representación más estructurada que pueda ser utilizada por un modelo de Machine Learning de manera eficiente.

Dado que los datos están organizados temporalmente, utilizaremos agregaciones estadísticas y medias móviles para capturar la información relevante en cada segmento de conducción.

In [None]:
def flattenMA(df):
    # Define cuales columnas son numericas y cuales categoricas
    numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
    # Quitamos 'flag' de la lista numerica (si no queremos procesarla)
    if 'Maneuver marker flag' in numeric_cols:
        numeric_cols.remove('Maneuver marker flag')

    categorical_cols = df.select_dtypes(exclude=[np.number]).columns.tolist()

    # Define las ventanas para los moving averages
    window1 = 30
    window2 = 60
    window3 = 100
    window4 = 150 
    window5 = 200
    window6 = 200

    # Separamos el DataFrame en segmentos:
    # Cada segmento contiene las filas con flag==0 hasta antes de aparecer un 1.
    segments = []
    segment_rows = []

    for _, row in df.iterrows():
        if row['Maneuver marker flag'] == 1:
            # Cuando encontramos un 1, si tenemos filas acumuladas en el segmento, lo agregamos y reiniciamos
            if segment_rows:
                segments.append(pd.DataFrame(segment_rows))
                segment_rows = []
        else:
            segment_rows.append(row)

    # Agregar el ultimo segmento (si no finaliza en 1)
    if segment_rows:
        segments.append(pd.DataFrame(segment_rows))

    # Procesamos cada segmento para obtener las agregaciones:
    result = []
    for seg in segments:
        seg_result = {}
        
        # Para las columnas numericas, calculamos dos moving averages y tomamos el ultimo valor de cada serie
        for col in numeric_cols:
            # Calculate MA according to the window
            ma1 = seg[col].rolling(window=window1, min_periods=1).mean().iloc[-1]
            ma2 = seg[col].rolling(window=window2, min_periods=1).mean().iloc[-1]
            ma3 = seg[col].rolling(window=window3, min_periods=1).mean().iloc[-1]
            ma4 = seg[col].rolling(window=window4, min_periods=1).mean().iloc[-1]
            ma5 = seg[col].rolling(window=window5, min_periods=1).mean().iloc[-1]
            # ma6 = seg[col].rolling(window=window6, min_periods=1).mean().iloc[-1]

            seg_result[f"{col}_ma1"] = ma1
            seg_result[f"{col}_ma2"] = ma2
            seg_result[f"{col}_ma3"] = ma3
            seg_result[f"{col}_ma4"] = ma4
            seg_result[f"{col}_ma5"] = ma5
            # seg_result[f"{col}_ma6"] = ma6
        
        # Para las columnas categoricas, se extrae una lista de valores unicos que aparecieron
        for col in categorical_cols:
            unique_vals = seg[col].unique().tolist()
            seg_result[col] = unique_vals
        
        result.append(seg_result)

    # Se crea el DataFrame final aplanado (cada fila es un segmento)
    df_result = pd.DataFrame(result)
    return df_result

Aplicamos la función flattenMA() a los conjuntos de entrenamiento y prueba para obtener la versión aplanada de los datos.

In [None]:
df_train_flat = flattenMA(df_train)
df_test_flat = flattenMA(df_test)

Comprobamos si la distribución de maniobras sigue siendo balanceada o si hay alguna clase que domine en exceso.

In [None]:
print(df_train_flat['maniobra'].value_counts())
print(df_test_flat['maniobra'].value_counts())

Hemos verificado que no hay problemas con maniobra, así que eliminamos la lista y mantenemos el elemento que contiene.

In [None]:
df_train_flat['maniobra'] = df_train_flat['maniobra'].apply(lambda x: x[0])

df_test_flat['maniobra'] = df_test_flat['maniobra'].apply(lambda x: x[0])

In [None]:
df_train_flat.head(3)

Para asegurar que los datos procesados se puedan reutilizar sin repetir todo este proceso, guardamos los DataFrames en formato CSV.

In [None]:
# Guardar en CSV
df_train_flat.to_csv(dir_preprocessed + 'non_minmax/' + 'train_flat.csv', index=False)
df_test_flat.to_csv(dir_preprocessed + 'non_minmax/' + 'test_flat.csv', index=False)

### Entrenamiento del Modelo (Clasificador Multiclase)

En esta sección, tomamos los datos aplanados y los preparamos para entrenar un modelo de clasificación multiclase. Nuestro objetivo es entrenar un modelo que pueda predecir correctamente la maniobra realizada en función de las características extraídas.

##### Asignar Datos

Ahora que los datos han sido transformados, los separamos en variables independientes (X) y la variable objetivo (y).

In [None]:
X_train = df_train_flat.drop(columns='maniobra')
y_train = df_train_flat['maniobra']
X_test = df_test_flat.drop(columns='maniobra')
y_test = df_test_flat['maniobra']

Antes de continuar, es útil verificar que las características se han asignado correctamente.

In [None]:
X_test.head()

##### Escalado MinMax

Para mejorar el rendimiento del modelo, normalizamos las características numéricas utilizando MinMaxScaler. Esto asegura que todas las variables estén en un rango similar (entre 0 y 1), evitando que algunas con valores más grandes dominen sobre otras.

In [None]:
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

##### Codificación de y

Los modelos de Machine Learning no trabajan con etiquetas categóricas como la maniobra. Por ello, convertimos la variable objetivo (y) en valores numéricos mediante LabelEncoder.

In [None]:
le = LabelEncoder()
y_train_encoded = le.fit_transform(y_train)
y_test_encoded = le.transform(y_test)

Para comprobar que la transformación es correcta, podemos visualizar el mapeo entre clases y números.

In [None]:
print(y_test_encoded)

##### Entrenamiento

Ahora que hemos preprocesado los datos, es momento de entrenar el modelo. Utilizaremos XGBoost, un algoritmo basado en árboles de decisión que es eficiente y suele ofrecer un buen rendimiento en tareas de clasificación multiclase.

In [None]:
num_classes = y_train.nunique()

In [None]:
# Se usa 'multi:softmax' para que se devuelvan las etiquetas o 'multi:softprob' para probabilidades.
model = XGBClassifier(
    objective='multi:softprob',  # 'multi:softprob' si se prefiere probabilidades
    num_class=num_classes,
    use_label_encoder=False,
    eval_metric='mlogloss',
    random_state=42
)

In [None]:
model.fit(X_train_scaled, y_train_encoded)

##### Predicciones

Después de entrenar el modelo, utilizamos los datos de prueba para realizar predicciones y evaluar su rendimiento.

In [None]:
y_pred = model.predict(X_test_scaled)

##### Métricas

Evaluamos el modelo utilizando precisión, el reporte de clasificación, la matriz de confusión y la curva ROC.

In [None]:
def get_accuracy(y_test, y_pred, multiclass = False):
    # Calcular la exactitud
    accuracy = accuracy_score(y_test, y_pred)
    print("Accuracy:", accuracy)

    # Generar y mostrar el reporte de clasificacion
    print("Reporte de Clasificacion:")
    print(classification_report(y_test, y_pred))
    
    # Calcular y mostrar la matriz de confusion
    print("Matriz de Confusion:")
    print(confusion_matrix(y_test, y_pred))

    # Generar y mostrar la curva ROC
    if not multiclass:
        print("Curva ROC:")
        fpr, tpr, _ = roc_curve(y_test, y_pred)
        plt.plot(fpr, tpr, label=f"AUC = {roc_auc_score(y_test, y_pred)})")
        plt.plot([0, 1], [0, 1], linestyle="--", color="gray")
        plt.title("Curva ROC")
        plt.xlabel("Tasa de Falsos Positivos (FPR)")
        plt.ylabel("Tasa de Verdaderos Positivos (TPR)")
        plt.legend()
        plt.show()

In [None]:
get_accuracy(y_test_encoded, y_pred, True)

### Modelado (1 vs All)

En esta sección, vamos a entrenar un segundo modelo utilizando la estrategia One vs All (OvA). En lugar de tratar la clasificación como un problema multiclase, entrenaremos un modelo binario para cada clase, donde cada modelo aprenderá a distinguir una maniobra en particular contra todas las demás.

Este enfoque puede ser útil en escenarios donde algunas clases son más difíciles de diferenciar y puede mejorar el rendimiento en comparación con un modelo de clasificación multiclase estándar.

In [None]:
# Concatenar la codificacion one-hot de maniobra y anadirla al dataframe
df_train_flat = pd.concat([df_train_flat, pd.get_dummies(df_train_flat['maniobra'])], axis=1).drop(columns='maniobra')
df_test_flat = pd.concat([df_test_flat, pd.get_dummies(df_test_flat['maniobra'])], axis=1).drop(columns='maniobra')

In [None]:
df_train_flat.columns[-5:]

In [None]:
# '3step-Turning', 'Overtaking', 'Stopping', 'Turnings', 'U-Turnings'
X_train_flat = df_train_flat.drop(columns=['3step-Turning', 'Overtaking', 'Stopping', 'Turnings', 'U-Turnings'])
X_test_flat = df_test_flat.drop(columns=['3step-Turning', 'Overtaking', 'Stopping', 'Turnings', 'U-Turnings'])

# 3step-Turning
y_train_flat_3step = df_train_flat['3step-Turning']
y_test_flat_3step = df_test_flat['3step-Turning']
# Overtaking
y_train_flat_overtaking = df_train_flat['Overtaking']
y_test_flat_overtaking = df_test_flat['Overtaking']
# Stopping
y_train_flat_stopping = df_train_flat['Stopping']
y_test_flat_stopping = df_test_flat['Stopping']
# Turnings
y_train_flat_turnings = df_train_flat['Turnings']
y_test_flat_turnings = df_test_flat['Turnings']
# U-Turnings
y_train_flat_uturnings = df_train_flat['U-Turnings']
y_test_flat_uturnings = df_test_flat['U-Turnings']

##### Escalado MinMax

Al igual que en el modelo multiclase, es necesario escalar las características antes de entrenar el modelo One vs All (OvA). Esto asegura que todas las variables tengan un rango similar y evita que características con valores grandes dominen sobre otras.

In [None]:
# Escalador MinMax
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train_flat)
X_test_scaled = scaler.transform(X_test_flat)

##### Entrenamiento de Modelos

En esta parte, en lugar de usar OneVsRestClassifier, se entrena un modelo independiente para cada clase de manera manual. Para cada maniobra, creamos un clasificador binario XGBoost, donde la clase objetivo se trata como positiva y todas las demás clases se agrupan como negativas.

Este enfoque permite personalizar los hiperparámetros de cada modelo según la distribución de los datos de cada clase.

Entrenamos los modelos con la metrica logloss (clase binaria).

Escalamos el peso del positivo a 5 (5 maniobras, por lo que para balancearlo lo escalamos a 5)

In [None]:
# 3step-Turning
model_3step = XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=5,
    eval_metric='logloss',
    random_state=42
)
model_3step.fit(X_train_flat, y_train_flat_3step)

# Overtaking
model_overtaking = XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=5,
    eval_metric='logloss',
    random_state=42
)
model_overtaking.fit(X_train_flat, y_train_flat_overtaking)

# Stopping
model_stopping = XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=5,
    eval_metric='logloss',
    random_state=42
)
model_stopping.fit(X_train_flat, y_train_flat_stopping)

# Turnings
model_turnings = XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=5,
    eval_metric='logloss',
    random_state=42
)
model_turnings.fit(X_train_flat, y_train_flat_turnings)

# U-Turnings
model_uturnings = XGBClassifier(
    objective='binary:logistic',
    scale_pos_weight=5,
    eval_metric='logloss',
    random_state=42
)
model_uturnings.fit(X_train_flat, y_train_flat_uturnings)

##### Evaluación

Una vez entrenados los modelos binarios para cada maniobra, evaluamos su rendimiento utilizando varias métricas clave:

- Precisión (accuracy_score): proporción de predicciones correctas.
- Reporte de clasificación (classification_report): incluye precisión, recall y F1-score.
- Matriz de confusión (confusion_matrix): muestra los aciertos y errores en la clasificación.
- ROC AUC (roc_auc_score): mide la capacidad del modelo para distinguir entre clases.
- Curva ROC (roc_curve): representa gráficamente la capacidad del modelo para diferenciar clases.

In [None]:
y_pred_3step = model_3step.predict(X_test_flat)
y_pred_overtaking = model_overtaking.predict(X_test_flat)
y_pred_stopping = model_stopping.predict(X_test_flat)
y_pred_turnings = model_turnings.predict(X_test_flat)
y_pred_uturnings = model_uturnings.predict(X_test_flat)

get_accuracy(y_test_flat_3step, y_pred_3step)
get_accuracy(y_test_flat_overtaking, y_pred_overtaking)
get_accuracy(y_test_flat_stopping, y_pred_stopping)
get_accuracy(y_test_flat_turnings, y_pred_turnings)
get_accuracy(y_test_flat_uturnings, y_pred_uturnings)

##### Explicabilidad con SHAP

TODO: Explica esto

In [None]:
# Establecer figsize a (10, 10)
plt.figure(figsize=(10, 10))

explainer = shap.TreeExplainer(model_3step)
shap_values = explainer.shap_values(X_test_flat)

shap.summary_plot(shap_values, X_test_flat, plot_type="bar", plot_size=(8,6))

shap.summary_plot(shap_values, X_test_flat, plot_size=(8,6))

# Supongamos que ya tienes shap_values y X_test_scaled
instance_idx = 0  # Seleccionamos una instancia
# Valor real de la etiqueta para la instancia
real_value = y_test.iloc[instance_idx]  # o y_test[instance_idx] si es un array

### Conclusión

##### Fuga de Datos

Se sospecha fuertemente que hay una fuga de datos por parte de los atributos de latitud y longitud, principalmente del latitud.

Mediante SHAP se ve que laitutd tiene un impacto abrumador en la salida de la predicción.

Se sospecha que esto es algo específico del simulador, en la cual los recorridos parten de la misma posición o que siguen un trayecto espacial muy similar.

Debido a esto, si se mantienen estos datos de localización, el modelo tendría un rendimiento extremadamente alto para situaciones de la simulación mientras que este rendimiento no se trasladaría a uno en la vida real, ya que no estarás siempre en la misma posición recorriendo el mismo trayecto.

![image-2.png](attachment:image-2.png)
![image.png](attachment:image.png)


##### Rendimiento del Modelo