# **Feature Engineering**

In [43]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [44]:
path = "C:/Users/franc/Documents/Lic. IA/Semestre 4/Machine learning" # Cambiar por la ruta de los datos
df = pd.read_csv(path + '/data/chess_games_clean.csv')

In [45]:
df.head()

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
0,Classical,eisaaaa,HAMID449,1-0,2016.06.30,22:00:01,1901,1896,11,-11,D10,Slav Defense,300+5,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,go4jas,Sergei1973,0-1,2016.06.30,22:00:01,1641,1627,-11,12,C20,King's Pawn Opening: 2.b3,300+0,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,Evangelistaizac,kafune,1-0,2016.06.30,22:00:02,1647,1688,13,-13,B01,Scandinavian Defense: Mieses-Kotroc Variation,180+0,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,Jvayne,Wsjvayne,1-0,2016.06.30,22:00:02,1706,1317,27,-25,A00,Van't Kruijs Opening,-,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,kyoday,BrettDale,0-1,2016.06.30,22:00:02,1945,1900,-14,13,B90,"Sicilian Defense: Najdorf, Lipnitsky Attack",180+0,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Tratamiento columna Result

In [46]:
df["Result"].value_counts()

Result
1-0        3111715
0-1        2901038
1/2-1/2     238763
Name: count, dtype: int64

Se cambiarán los valores de la columna result por valores numéricos de la siguiente manera:  
|Antes | Después|
|------|--------|
|'1-0' | 1 |
|'0-1' | 0 |
|'1/2-1/2' | 0.5|

In [47]:
# Mapear los resultados a valores numéricos
result_mapping = {'1-0': 1, '0-1': 0, '1/2-1/2': 2}
df['Result'] = df['Result'].map(result_mapping)
df["Result"].head()

0    1
1    0
2    1
3    1
4    0
Name: Result, dtype: int64

## Tratamiento columna "UTCTime"

In [48]:
# Convertir la columna "UTCTime" a tipo datetime
df["UTCTime"] = pd.to_datetime(df["UTCTime"], format="%H:%M:%S")

# Crear columnas para la hora y el minuto
df["Hour"] = df["UTCTime"].dt.hour

# Eliminar la columna "UTCTime"
df = df.drop(columns=["UTCTime"])

# Reordenar las columnas
df = df[['Event', 'White', 'Black', 'Result', 'UTCDate', 'Hour','WhiteElo', 'BlackElo', 'WhiteRatingDiff', 'BlackRatingDiff', 'ECO', 'Opening', 'TimeControl', 'Termination', 'AN']]

df.head()

Unnamed: 0,Event,White,Black,Result,UTCDate,Hour,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
0,Classical,eisaaaa,HAMID449,1,2016.06.30,22,1901,1896,11,-11,D10,Slav Defense,300+5,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,go4jas,Sergei1973,0,2016.06.30,22,1641,1627,-11,12,C20,King's Pawn Opening: 2.b3,300+0,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,Evangelistaizac,kafune,1,2016.06.30,22,1647,1688,13,-13,B01,Scandinavian Defense: Mieses-Kotroc Variation,180+0,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,Jvayne,Wsjvayne,1,2016.06.30,22,1706,1317,27,-25,A00,Van't Kruijs Opening,-,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,kyoday,BrettDale,0,2016.06.30,22,1945,1900,-14,13,B90,"Sicilian Defense: Najdorf, Lipnitsky Attack",180+0,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Eliminando columna "UTCDate", "ECO", "WhiteRatingDiff" y "BlackRatingDiff"

Cómo el dataset se obtuvo sólo de las partidas jugadas en el mes de Junio, entonces no me es muy relevante el día en cuanto a que afectara a los resultados de las partidas así que se eliminará del dataset.  
También, las columnas "ECO" y "Opening" hablan ambas del tipo de apertura en la partida, pero "Opening" da más información, así que se eliminará la columna "ECO".  
Las columnas "WhiteRatingDiff" y "BlackRatingDiff" dan los puntos que se sumaron o restaron al elo de cada uno, por lo que sería un spoiler para el dataset al hacer la regresión, y cómo este ejercicio es sólo didáctico, no importará si se eliminan para entrenar el modelo,

In [49]:
df = df.drop(columns=["UTCDate", "ECO", "WhiteRatingDiff", "BlackRatingDiff"])
df.sample()

Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
291495,Bullet,Onan,mamedov0911,1,12,1526,1500,Torre Attack #2,60+1,Time forfeit,1. d4 Nf6 2. Nf3 Nc6 3. Bf4 d5 4. Nbd2 Bf5 5. ...


## Frequency Encoding para columnas con muchas categorías

In [50]:
columnas_cat = []
for col in df.columns:
    if df[col].dtype == object:
        if df[col].nunique() > 10:
            print(f"{col} : {df[col].nunique()}")
            columnas_cat.append(col)
print(columnas_cat)

White : 118502
Black : 115415
Opening : 2941
TimeControl : 841
AN : 6184814
['White', 'Black', 'Opening', 'TimeControl', 'AN']


In [51]:
columnas_cat.remove("AN")
print(columnas_cat)

['White', 'Black', 'Opening', 'TimeControl']


In [52]:
for column in columnas_cat:
    freq_encoding = df[column].value_counts().to_dict()
    df[column] = df[column].map(freq_encoding)
df.head()

Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
0,Classical,54,52,1,22,1901,1896,10695,105090,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,27,4,0,22,1641,1627,4157,1074584,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,18,133,1,22,1647,1688,112174,948246,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,10,10,1,22,1706,1317,133036,22211,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,31,175,0,22,1945,1900,3787,948246,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Tratamiento columna AN

La columna "AN" muestra las jugadas hechas en las partidas, pero estos datos como categóricos no aportan mucho al modelo, y viendo la frecuencia de las diferentes categorías de esta columna, prácticamente cada partida fue diferente, por lo que cambiar la columna por las frecuencias de cada partida tampoco aportará mucho al modelo.  
Una mejor manera sería cambiar las partidas por la longitud de los string de esa partida, así se sabría que tan larga fue la partida y probablemente esta tengo relación con los elos de los jugadores y la forma en que terminó la partida.  
El método que se usará, separando por espacios, no da reallente el número de jugadas, pero da una idea de qué tan larga fue la partida

In [53]:
# cambiar los valores de la columna "AN" a la cantidad de movimientos
df["AN"] = df["AN"].apply(lambda x: len(x.split()))
df.sample(10)


Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
4824511,Classical,77,121,1,0,1691,1612,17295,15218,Normal,27
912069,Blitz,167,304,0,14,1814,1863,8837,948246,Time forfeit,94
1594142,Blitz,75,149,1,22,1802,1580,4270,948246,Time forfeit,63
900906,Classical,17,64,1,13,1999,1484,1602,105090,Normal,31
5434322,Classical,30,155,0,22,1651,1610,1890,7168,Normal,184
3144411,Blitz,133,272,1,18,2050,1755,31118,948246,Normal,81
4837605,Classical tournament,284,89,0,2,1507,1692,24226,579928,Normal,70
4525839,Blitz,57,383,0,15,2024,1981,4986,948246,Normal,160
3118117,Classical,186,8,1,16,2180,1963,8355,43452,Normal,168
389236,Bullet tournament,199,4,0,21,1641,1610,4008,912414,Time forfeit,73


In [54]:
df_cat = df.select_dtypes(include = ['object'])
for col in df_cat.columns:
    print(f"{col} : {df_cat[col].nunique()}")

Event : 7
Termination : 4


In [55]:
#Se guarda el dataset limpio
df.to_csv(path + '/data/chess_games_clean2.csv', index=False)