## Importing libraries

In [1]:
# Data processing  
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np
import pickle

# Pandas options  
# -----------------------------------------------------------------------
pd.options.display.max_colwidth = None

# Path configuration for custom module imports
# -----------------------------------------------------------------------
import sys
sys.path.append('../')  # Adds the parent directory to the path for custom module imports

# Ignore warnings  
# -----------------------------------------------------------------------
import warnings
warnings.filterwarnings("ignore")

# Custom functions and classes
# -----------------------------------------------------------------------
from src.support_preprocess import preprocess

## Data loading

In [2]:
df = pd.read_csv('../data/raw/WrestlingWorldTournament.csv', index_col=0)

In [3]:
df.head()

Unnamed: 0,name,gender,age,height,nationality,weight,sports,hours_per_day,strength,agility,mental,federation,year_start,rank
0,Aaron Peavy,Female,41,165.0,England,82,"Boxing, MMA",3,7,8,7,Fight Zone Wrestling,1989,42
1,Abe Rutland,Male,36,185.0,Japan,100,Judo,0,8,5,9,World Wrestling Entertainment,2006,161
2,Adrian Quinn,Male,29,178.5,Japan,93,Karate,4,8,8,7,World Wrestling Entertainment,2012,153
3,Alan Beckham,Male,39,187.5,Japan,107,Judo,3,7,6,8,Fight Zone Wrestling,2003,252
4,Albertha Rodriguez,Female,29,158.0,USA,72,MMA,1,5,7,7,Consejo Global de Lucha Libre,2012,360


Antes de nada vamos a eliminar las columnas que no nos resulten de interés. En nuestro caso vamos a eliminar `name`, `sports` y `year_start` por el momento.

* `name` es un identificador único y no lo necesitamos.

* `sports` contiene una lista de deportes entre los que solamente se encuentran artes marciales. Podríamos separar la lista en diferentes columnas o contar el número de deportes, pero esto generaría más columnas o información sesgada, por lo que simplemente la eliminamos por el momento.

* `year_start` proporciona una información similar a `age` pero es más difícil de interpretar.

## Encoding

Para realizar el encoding de las variables categóricas podemos definir diferentes estrategias. Como en este caso queremos entrenar un modelo de clustering no tenemos una variable respuesta contra la que llevar a cabo un `TargetEncoding` por lo que directamente ejecutaremos un `FrequencyEncoding` salvo para gender, que usamos un `OneHotEncoding`

## Scaling

Vamos a probar utilizando un escalador `minmax`

## Execution

In [4]:
df = pd.read_csv('../data/raw/WrestlingWorldTournament.csv', index_col=0)

cols = ['name', 'sports', 'year_start']

encoding_methods = {"onehot": ['gender'],
                    "target": [],
                    "ordinal" : {},
                    "frequency": ['nationality', 'federation']
                    }

df_encoded, df_scaled = preprocess(df, encoding_methods, "minmax", columns_drop=cols)

## Data saving

In [5]:
df_encoded.to_csv('../data/output/WrestlingWorldTournament_encoded.csv')
df_scaled.to_csv('../data/output/WrestlingWorldTournament_scaled.csv')