## Nuevas variables **Diferencias**

Con el objetivo de mejorar los resultados obtenidos en los modelos de P2, se ha decidido crear nuevas variables a partir de las variables de las medias ponderadas. Las variables que se han creado son la diferencia entre las estadísticas de cada peleador, por ejemplo: de tener KD_A y KD_B, pasamos a tener KD_DIFF.  

En este proceso, observamos que un experto en el área no necesariamente se enfocaría en las estadísticas de cada peleador de manera individual. En lugar de eso, podría ser más útil analizar la diferencia entre las estadísticas de los dos peleadores. Es decir, en lugar de considerar los datos de cada peleador por separado, se podría prestar más atención a cómo varían esas estadísticas de un peleador a otro.  

Por esta razón, calculamos la diferencia en las estadísticas entre los peleadores y luego probamos varios modelos de predicción para ver si este enfoque ofrecía mejores resultados que trabajar solo con las estadísticas individuales de cada luchador.

* [Carga de los datos](#Carga-de-los-datos)  
* [Crear nuevas variables](#Crear-nuevas-variables)  
* [Partición de los datos](#particion-de-los-datos)
* [Guardar datos](#guardar-datos)

CONCLUSIONES:  
Como podemos observar, las variables que se consideran más relevantes no están directamente relacionadas con las características del combate en sí, sino que se enfocan más en otros aspectos, como el número de victorias por decisión, la racha de victorias, y el número total de peleas de cada peleador. Esto nos lleva a la conclusión de que, en lugar de centrarnos únicamente en las estadísticas de los combates de cada luchador, habría sido más interesante y útil obtener información sobre contra quién ha peleado cada peleador.

El análisis de los rivales a los que se ha enfrentado cada luchador podría proporcionar una perspectiva más valiosa sobre su desempeño y capacidad, ya que enfrentarse a oponentes más fuertes o con habilidades diferentes podría tener un gran impacto en el resultado de los combates. Por lo tanto, obtener datos sobre la calidad y el nivel de los rivales sería probablemente más relevante que simplemente analizar las estadísticas de las peleas pasadas.

In [16]:
import pandas as pd
import os

### Carga de los datos

In [17]:
ruta = os.path.join(os.getcwd(), "..", "..", "..","data", "processed", "peleas_ponderadas.parquet")
df = pd.read_parquet(ruta)

### Filtrado del *dataframe*
Eliminamos datos anteriores al 2010 debido a que siempre ganaba el Peleador A y los datos generaban muchos fallos al entrenar el modelo generando grandes desbalances

In [18]:
df = df[df["DATE"].dt.year >= 2010]

### Crear nuevas variables

Se separan las colunmas de cada peleador y se calcula la diferencia. También se elimina del *dataframe* las columnas que no sean diferencia.

In [19]:
# Lista de columnas que tienen contraparte en A y B
columnas_a = ['KD_A', 'SIG_STR_A', 'TD_PORC_A', 'SUB_ATT_A', 'REV_A', 'CTRL_A', 
              'TOTAL_STR_A_x', 'TOTAL_STR_A_y', 'TD_A_x', 'TD_A_y', 
              'STR_HEAD_A_x', 'STR_HEAD_A_y', 'STR_BODY_A_x', 'STR_BODY_A_y', 
              'STR_LEG_A_x', 'STR_LEG_A_y', 'STR_DISTANCE_A_x', 'STR_DISTANCE_A_y', 
              'STR_CLINCH_A_x', 'STR_CLINCH_A_y', 'STR_GROUND_A_x', 'STR_GROUND_A_y', 
              'STRIKER_A', 'GRAPPLER_A', 'Record_A', 'Peleas_A', 'Puntos_A', 
              'Racha_A', 'Victorias_KO_A', 'Victorias_Sub_A', 'Victorias_Decision_A', 
              'Derrotas_KO_A', 'Derrotas_Sub_A', 'Derrotas_Decision_A']

columnas_b = ['KD_B', 'SIG_STR_B', 'TD_PORC_B', 'SUB_ATT_B', 'REV_B', 'CTRL_B', 
              'TOTAL_STR_B_x', 'TOTAL_STR_B_y', 'TD_B_x', 'TD_B_y', 
              'STR_HEAD_B_x', 'STR_HEAD_B_y', 'STR_BODY_B_x', 'STR_BODY_B_y', 
              'STR_LEG_B_x', 'STR_LEG_B_y', 'STR_DISTANCE_B_x', 'STR_DISTANCE_B_y', 
              'STR_CLINCH_B_x', 'STR_CLINCH_B_y', 'STR_GROUND_B_x', 'STR_GROUND_B_y', 
              'STRIKER_B', 'GRAPPLER_B', 'Record_B', 'Peleas_B', 'Puntos_B', 
              'Racha_B', 'Victorias_KO_B', 'Victorias_Sub_B', 'Victorias_Decision_B', 
              'Derrotas_KO_B', 'Derrotas_Sub_B', 'Derrotas_Decision_B']

# Calcular las diferencias
for col_a, col_b in zip(columnas_a, columnas_b):
    if col_a in df.columns and col_b in df.columns:
        df[f'{col_a[:-2]}_DIFF'] = df[col_a] - df[col_b]

# Eliminar las columnas originales
df.drop(columns=columnas_a + columnas_b, inplace=True)

# Mostrar el DataFrame resultante
df.head()

Unnamed: 0,DATE,Peleador_A,Peleador_B,WINNER,KD_DIFF,SIG_STR_DIFF,TD_DIFF,SUB_ATT_DIFF,REV_DIFF,CTRL_DIFF,...,Record_DIFF,Peleas_DIFF,Puntos_DIFF,Racha_DIFF,Victorias_KO_DIFF,Victorias_Sub_DIFF,Victorias_Decision_DIFF,Derrotas_KO_DIFF,Derrotas_Sub_DIFF,Derrotas_Decision_DIFF
283,2010-01-02,Rashad Evans,Thiago Silva,False,-0.3,-0.239,0.230769,-0.2,0.0,1.2,...,17.3,4.0,4.223836,0.5,-0.7,0.0,4.0,-0.3,0.0,1.0
284,2010-01-02,Sam Stout,Joe Lauzon,False,0.5,-0.252,-0.33125,-3.0,0.0,-104.6,...,-2.0,1.0,-2.396327,-0.9,-1.8,-2.5,2.5,-1.0,1.0,2.8
285,2010-01-11,Rafael Dos Anjos,Kyle Bradley,False,0.0,-0.114,-0.082353,1.3,0.3,187.2,...,0.0,0.0,0.0,0.0,-0.5,0.0,0.5,-0.8,0.0,0.8
286,2010-01-11,Amir Sadollah,Brad Blackburn,False,-1.1,0.048,0.0,-0.1,0.0,110.6,...,-3.0,0.0,-0.546865,-1.0,-1.0,1.0,-0.8,0.8,0.0,0.0
287,2010-01-11,Gray Maynard,Nate Diaz,False,0.0,0.062,0.142089,-1.3,-0.6,158.4,...,-2.4,-1.0,-0.943809,3.3,1.0,-4.5,3.3,0.0,0.0,-1.8


### Particion de los datos
Se dividen los datos en train y test, respetando el orden temporal

In [20]:
# Ordenar por fecha (si no está ordenado ya)
df = df.sort_values(by="DATE")

# Definir los tamaños de cada subconjunto
train_size = 0.8  # 80%
test_size = 0.2    # 20%

# Calcular índice de corte
n = len(df)
train_end = int(n * train_size)

# Dividir el DataFrame
df_train = df.iloc[:train_end]
df_test = df.iloc[train_end:]

# Obtener las fechas de corte
train_end_date = df_train["DATE"].max()
test_end_date = df_test["DATE"].max()

print(f"Última fecha en train: {train_end_date}")
print(f"Última fecha en test: {test_end_date}")

# Mostrar tamaños
print(f"Train: {len(df_train)}, Test: {len(df_test)}")


Última fecha en train: 2022-11-12 00:00:00
Última fecha en test: 2025-02-15 00:00:00
Train: 2554, Test: 639


Se verifica la distribución de las clases tras la división. Como se observa están muy poco desbalanceadas

In [21]:
# Verificar tamaños y balance
def check_distribution(data, name):
    total = len(data)
    class_dist = data["WINNER"].value_counts(normalize=True).round(2)
    print(f"{name}: {total} muestras ({total/len(df):.0%}) | Distribución: {class_dist.to_dict()}")

check_distribution(df_train, "Entrenamiento")
check_distribution(df_test, "Prueba")

Entrenamiento: 2554 muestras (80%) | Distribución: {False: 0.56, True: 0.44}
Prueba: 639 muestras (20%) | Distribución: {False: 0.55, True: 0.45}


### Guardar datos
Se guardan los *dataframes* en archivos *parquet*

In [22]:
base_dir = os.path.join(os.getcwd(), "..", "..", "..","data")
ruta_partition = os.path.join(base_dir, "P2_dif")

os.makedirs(ruta_partition, exist_ok=True)

df_train.to_parquet(os.path.join(ruta_partition, "train.parquet"), index = False)
df_test.to_parquet(os.path.join(ruta_partition, "test.parquet"), index = False)