# **Feature Engineering**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
path = "C:/Users/franc/Documents/Lic. IA/Semestre 4/Machine learning" # Cambiar por la ruta de los datos
df = pd.read_csv(path + '/data/chess_games_clean.csv')
df.head()

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
0,Classical,eisaaaa,HAMID449,1-0,2016.06.30,22:00:01,1901,1896,11,-11,D10,Slav Defense,300+5,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,go4jas,Sergei1973,0-1,2016.06.30,22:00:01,1641,1627,-11,12,C20,King's Pawn Opening: 2.b3,300+0,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,Evangelistaizac,kafune,1-0,2016.06.30,22:00:02,1647,1688,13,-13,B01,Scandinavian Defense: Mieses-Kotroc Variation,180+0,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,Jvayne,Wsjvayne,1-0,2016.06.30,22:00:02,1706,1317,27,-25,A00,Van't Kruijs Opening,-,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,kyoday,BrettDale,0-1,2016.06.30,22:00:02,1945,1900,-14,13,B90,"Sicilian Defense: Najdorf, Lipnitsky Attack",180+0,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Tratamiento columna Result

In [3]:
df["Result"].value_counts()

Result
1-0        3111715
0-1        2901038
1/2-1/2     238763
Name: count, dtype: int64

Se cambiarán los valores de la columna result por valores numéricos de la siguiente manera:  
|Antes | Después|
|------|--------|
|'1-0' | 1 |
|'0-1' | 0 |
|'1/2-1/2' | 2 |

In [4]:
# Mapear los resultados a valores numéricos
result_mapping = {'1-0': 1, '0-1': 0, '1/2-1/2': 2}
df['Result'] = df['Result'].map(result_mapping) 
df["Result"].head()

0    1
1    0
2    1
3    1
4    0
Name: Result, dtype: int64

## Tratamiento columna "UTCTime"

In [5]:
# Convertir la columna "UTCTime" a tipo datetime
df["UTCTime"] = pd.to_datetime(df["UTCTime"], format="%H:%M:%S")

# Crear columnas para la hora y el minuto
df["Hour"] = df["UTCTime"].dt.hour

# Eliminar la columna "UTCTime"
df = df.drop(columns=["UTCTime"])

# Reordenar las columnas
df = df[['Event', 'White', 'Black', 'Result', 'UTCDate', 'Hour','WhiteElo', 'BlackElo', 'WhiteRatingDiff', 'BlackRatingDiff', 'ECO', 'Opening', 'TimeControl', 'Termination', 'AN']]

df.head()

Unnamed: 0,Event,White,Black,Result,UTCDate,Hour,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
0,Classical,eisaaaa,HAMID449,1,2016.06.30,22,1901,1896,11,-11,D10,Slav Defense,300+5,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,go4jas,Sergei1973,0,2016.06.30,22,1641,1627,-11,12,C20,King's Pawn Opening: 2.b3,300+0,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,Evangelistaizac,kafune,1,2016.06.30,22,1647,1688,13,-13,B01,Scandinavian Defense: Mieses-Kotroc Variation,180+0,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,Jvayne,Wsjvayne,1,2016.06.30,22,1706,1317,27,-25,A00,Van't Kruijs Opening,-,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,kyoday,BrettDale,0,2016.06.30,22,1945,1900,-14,13,B90,"Sicilian Defense: Najdorf, Lipnitsky Attack",180+0,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Eliminando columna "UTCDate", "ECO", "WhiteRatingDiff" y "BlackRatingDiff"

Cómo el dataset se obtuvo sólo de las partidas jugadas en el mes de Junio, entonces no me es muy relevante el día en cuanto a que afectara a los resultados de las partidas así que se eliminará del dataset.  
También, las columnas "ECO" y "Opening" hablan ambas del tipo de apertura en la partida, pero "Opening" da más información, así que se eliminará la columna "ECO".  
Las columnas "WhiteRatingDiff" y "BlackRatingDiff" dan los puntos que se sumaron o restaron al elo de cada uno, por lo que sería un spoiler para el dataset al hacer la regresión, y cómo este ejercicio es sólo didáctico, no importará si se eliminan para entrenar el modelo,

In [6]:
df = df.drop(columns=["UTCDate", "ECO", "WhiteRatingDiff", "BlackRatingDiff"])
df.sample()

Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
2701800,Blitz,RM1976,jminkler,0,13,1889,1840,"Gruenfeld Defense: Three Knights Variation, Pe...",300+0,Normal,1. d4 Nf6 2. c4 g6 3. Nc3 d5 4. Nf3 Bg7 5. Bg5...


## Frequency Encoding para columnas con muchas categorías

In [7]:
columnas_cat = []
for col in df.columns:
    if df[col].dtype == object:
        if df[col].nunique() > 10:
            print(f"{col} : {df[col].nunique()}")
            columnas_cat.append(col)
print(columnas_cat)

White : 118502
Black : 115415
Opening : 2941
TimeControl : 841
AN : 6184814
['White', 'Black', 'Opening', 'TimeControl', 'AN']


In [8]:
columnas_cat.remove("AN")
print(columnas_cat)

['White', 'Black', 'Opening', 'TimeControl']


In [9]:
for column in columnas_cat:
    freq_encoding = df[column].value_counts().to_dict()
    df[column] = df[column].map(freq_encoding)
df.head()

Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
0,Classical,54,52,1,22,1901,1896,10695,105090,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,27,4,0,22,1641,1627,4157,1074584,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,18,133,1,22,1647,1688,112174,948246,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,10,10,1,22,1706,1317,133036,22211,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,31,175,0,22,1945,1900,3787,948246,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


## Tratamiento columna AN

La columna "AN" muestra las jugadas hechas en las partidas, pero estos datos como categóricos no aportan mucho al modelo, y viendo la frecuencia de las diferentes categorías de esta columna, prácticamente cada partida fue diferente, por lo que cambiar la columna por las frecuencias de cada partida tampoco aportará mucho al modelo.  
Una mejor manera sería cambiar las partidas por la longitud de los string de esa partida, así se sabría que tan larga fue la partida y probablemente esta tengo relación con los elos de los jugadores y la forma en que terminó la partida.  
El método que se usará, separando por espacios, no da reallente el número de jugadas, pero da una idea de qué tan larga fue la partida

In [10]:
#aplicar la función anterior a toda la columna AN
df["AN"] = df["AN"].apply(lambda x: " ".join(x.split(" ")[:-1]))
df["AN"].sample()

# si hay un espacio después de un punto, eliminarlo
df["AN"] = df["AN"].str.replace(". ", ".")

#Eliminar el contenido que este entre llaves {} de la columna AN
df["AN"] = df["AN"].str.replace(r"\{.*\}", "", regex=True)
df["AN"].sample(20)

351206     1.e4 e6 2.Nf3 c5 3.d4 cxd4 4.Nxd4 Nc6 5.Nc3 Qc...
1605787    1.e4 d6 2.d4 Nf6 3.Nc3 g6 4.Bg5 Bg7 5.h3 O-O 6...
3991549    1.Nf3 b6 2.Nc3 Bb7 3.e3 e6 4.d4 d5 5.Bb5+ Nd7 ...
4935347                                        1.e4  34.Qb2#
128368     1.d4 d5 2.Nf3 c5 3.dxc5 Nc6 4.Bf4 Bg4 5.e3 Bxf...
3024544    1.c4 e5 2.Nc3 Nc6 3.Nf3 d6 4.e4 Bg4 5.h3 Bxf3 ...
746029                                                 1.b3 
5778428    1.e4 e5 2.f4 exf4 3.Nf3 h6 4.Bc4 d6 5.O-O Bg4 ...
3711686    1.d4 d5 2.Nf3 Bg4 3.e3 e6 4.Be2 Bf5 5.O-O h6 6...
383679     1.d4 g6 2.c4 Bg7 3.Nc3 f6 4.Bf4 Nh6 5.e3 Nf7 6...
2854754    1.d4 c6 2.c4 d5 3.Nc3 Nf6 4.Nf3 Bg4 5.Bg5 e6 6...
453400     1.e4 e6 2.Nf3 c5 3.d4 d5 4.e5 c4 5.c3 b5 6.Be2...
2515700    1.e4 d6 2.d4 f5 3.c4 Nf6 4.Nc3 Nxe4 5.Nxe4 fxe...
1811216                                       1.e4  20.Qxe7#
5417104    1.d4 d5 2.c4 c6 3.Nc3 f5 4.Nf3 Nf6 5.Bg5 e6 6....
988726     1.d4 d5 2.Nf3 Nc6 3.c4 dxc4 4.Nc3 e6 5.e4 Nf6 ...
4557492    1.e4 d5 2.e5 

In [11]:
df['AN'] = df['AN'].fillna('')

In [12]:
print(df["Result"].value_counts()/len(df) * 100)
print(df["Result"].value_counts())

Result
1    49.775366
0    46.405352
2     3.819282
Name: count, dtype: float64
Result
1    3111715
0    2901038
2     238763
Name: count, dtype: int64


Como las clases están desbalanceadas y la columna "Result" será la variable a predecir en los modelos de clasificación, se guardará un dataset con clases balanceadas. Esto también para reducir la dimensión del dataset, ya que previamente se llevaron acabo pruebas con modelos y el dataset era demasiado grande, por lo que no se entrenaba o se detenía al no soportar la dimensión del dataset.  
Cabe aclarar que este es un proyecto puramente didáctico por lo que se puede hacer esto con el dataset, ya que el objetivo es aprender a usar lo diferentes modelos de la librería scikitlearn.  
La columna "AN" donde se guardan las partidas en formato texto, se tokenizarán para probar nuevas técnicas de clasificación.

In [27]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# Seleccionar solo un subconjunto de datos para el desbalance de clases
df1 = df[df["Result"] == 2]

#Tomar una muestra de 1000 datos
df2 = df[df["Result"] == 0].sample(len(df1))
df3 = df[df["Result"] == 1].sample(len(df1))
                                   
df4 = pd.concat([df1, df2, df3])

#reindexar el dataframe
df = df4.reset_index(drop=True)

# Tokenizar los movimientos
tokenizer = Tokenizer()
tokenizer.fit_on_texts(df['AN'])
sequences = tokenizer.texts_to_sequences(df['AN'])

# Padding de secuencias
max_sequence_length = max([len(seq) for seq in sequences])
padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length)

# Convertir las secuencias paddeadas a un DataFrame
padded_sequences_df = pd.DataFrame(padded_sequences, index=df.index)

# Combinar las secuencias paddeadas con las demás columnas del DataFrame original
df = pd.concat([df, padded_sequences_df], axis=1)

df.columns = df.columns.astype(str)

## Tratamiento columnas "Termination" y "Event"

Las columnas "Termination" y "Event" se convertirán de variables categóricas a numéricas.

In [25]:
# label encoding
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df["Termination"] = le.fit_transform(df["Termination"])
df["Event"] = le.fit_transform(df["Event"])
df.head()

Unnamed: 0,Event,White,Black,Result,Hour,WhiteElo,BlackElo,Opening,TimeControl,Termination,AN
0,4,54,52,1,22,1901,1896,10695,105090,3,1.d4 d5 2.c4 c6 3.e3 a6 4.Nf3 e5 5.cxd5 e4 6.N...
1,0,27,4,0,22,1641,1627,4157,1074584,1,1.e4 e5 2.b3 Nf6 3.Bb2 Nc6 4.Nf3 d6 5.d3 g6 6....
2,1,18,133,1,22,1647,1688,112174,948246,3,1.e4 d5 2.exd5 Qxd5 3.Nf3 Bg4 4.Be2 Nf6 5.Nc3 ...
3,6,10,10,1,22,1706,1317,133036,22211,1,1.e3 Nf6 2.Bc4 d6 3.e4 e6 4.Nf3 Nxe4 5.Nd4 Nxf...
4,1,31,175,0,22,1945,1900,3787,948246,3,1.e4 c5 2.Nf3 d6 3.d4 cxd4 4.Nxd4 Nf6 5.Nc3 a6...


In [28]:
# guardar el dataset limpio
df.to_csv(path + '/data/chess_games_clean2.csv', index=False)