# **Preprocesamiento de datos**

## Carga de datos y librerías

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


In [2]:
# Cargar datos
path = "C:/Users/franc/Documents/Lic. IA/Semestre 4/Machine learning" # Cambiar por la ruta de los datos
df = pd.read_csv(path + '/data/chess_games.csv')

## Exploración de datos

In [3]:
df.head()

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
0,Classical,eisaaaa,HAMID449,1-0,2016.06.30,22:00:01,1901,1896,11.0,-11.0,D10,Slav Defense,300+5,Time forfeit,1. d4 d5 2. c4 c6 3. e3 a6 4. Nf3 e5 5. cxd5 e...
1,Blitz,go4jas,Sergei1973,0-1,2016.06.30,22:00:01,1641,1627,-11.0,12.0,C20,King's Pawn Opening: 2.b3,300+0,Normal,1. e4 e5 2. b3 Nf6 3. Bb2 Nc6 4. Nf3 d6 5. d3 ...
2,Blitz tournament,Evangelistaizac,kafune,1-0,2016.06.30,22:00:02,1647,1688,13.0,-13.0,B01,Scandinavian Defense: Mieses-Kotroc Variation,180+0,Time forfeit,1. e4 d5 2. exd5 Qxd5 3. Nf3 Bg4 4. Be2 Nf6 5....
3,Correspondence,Jvayne,Wsjvayne,1-0,2016.06.30,22:00:02,1706,1317,27.0,-25.0,A00,Van't Kruijs Opening,-,Normal,1. e3 Nf6 2. Bc4 d6 3. e4 e6 4. Nf3 Nxe4 5. Nd...
4,Blitz tournament,kyoday,BrettDale,0-1,2016.06.30,22:00:02,1945,1900,-14.0,13.0,B90,"Sicilian Defense: Najdorf, Lipnitsky Attack",180+0,Time forfeit,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 Nf6 5. N...


In [4]:
# Mostrar información del dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6256184 entries, 0 to 6256183
Data columns (total 15 columns):
 #   Column           Dtype  
---  ------           -----  
 0   Event            object 
 1   White            object 
 2   Black            object 
 3   Result           object 
 4   UTCDate          object 
 5   UTCTime          object 
 6   WhiteElo         int64  
 7   BlackElo         int64  
 8   WhiteRatingDiff  float64
 9   BlackRatingDiff  float64
 10  ECO              object 
 11  Opening          object 
 12  TimeControl      object 
 13  Termination      object 
 14  AN               object 
dtypes: float64(2), int64(2), object(11)
memory usage: 716.0+ MB


In [5]:
#Valores únicos por cada columna
columnas = ['Event', 'White','Black', 'Result', 'UTCDate', 'UTCTime', 'WhiteElo', 'BlackElo', 'WhiteRatingDiff', 'BlackRatingDiff', 'ECO', 'Opening', 'TimeControl', 'Termination', 'AN']
for columna in df.columns:
    valu = len(df[columna].unique())
    print(f"Valores únicos en {columna}: {valu}")

Valores únicos en Event: 14
Valores únicos en White: 118945
Valores únicos en Black: 115946
Valores únicos en Result: 4
Valores únicos en UTCDate: 32
Valores únicos en UTCTime: 86400
Valores únicos en WhiteElo: 2174
Valores únicos en BlackElo: 2181
Valores únicos en WhiteRatingDiff: 1178
Valores únicos en BlackRatingDiff: 1164
Valores únicos en ECO: 493
Valores únicos en Opening: 2942
Valores únicos en TimeControl: 841
Valores únicos en Termination: 5
Valores únicos en AN: 6188849


# Limpieza de datos

## Tratamiento de datos faltantes

In [6]:
# datos faltantes
df.isnull().sum()

Event                 0
White                 0
Black                 0
Result                0
UTCDate               0
UTCTime               0
WhiteElo              0
BlackElo              0
WhiteRatingDiff    4668
BlackRatingDiff    4668
ECO                   0
Opening               0
TimeControl           0
Termination           0
AN                    0
dtype: int64

Al parecer las columnas WhiteRatingDiff y BlackRatingDiff tienen el mismo número de columnas con datos faltantes, así que probablemente sean en las mismas filas, así que comprobaremos esto.

In [7]:
# comprobamos si las mismas filas tienen valores faltantes en las columnas BlackRatingDiff y WhiteRatingDiff
df[df['BlackRatingDiff'].isnull()].equals(df[df['WhiteRatingDiff'].isnull()])

True

Efectivamente, las columnas BlackRatingDiff y WhiteRatingDiff tienen valores faltantes en las mismas columnas. Al ser un dataset bastante grande, no afectará en nada el perder estos datos, por lo que serán eliminados

In [8]:
#borrar columnas donde hay valores faltantes en BlackRatingDiff y WhiteRatingDiff
df = df.dropna(subset=['BlackRatingDiff', 'WhiteRatingDiff'])
df.isnull().sum()

Event              0
White              0
Black              0
Result             0
UTCDate            0
UTCTime            0
WhiteElo           0
BlackElo           0
WhiteRatingDiff    0
BlackRatingDiff    0
ECO                0
Opening            0
TimeControl        0
Termination        0
AN                 0
dtype: int64

## Transformación de datos

El tipo de dato de las columnas BlackRatingDiff y WhiteRatingDiff son de tipo float pero realmente podrían ser enteros ya que no tienen números decimales, por lo que transformarán en enteros.

In [9]:
# Se transformamos las columnas BlackRatingDiff y WhiteRatingDiff a tipo int64
df['BlackRatingDiff'] = df['BlackRatingDiff'].astype('int64')
df['WhiteRatingDiff'] = df['WhiteRatingDiff'].astype('int64')
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6251516 entries, 0 to 6256183
Data columns (total 15 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   Event            object
 1   White            object
 2   Black            object
 3   Result           object
 4   UTCDate          object
 5   UTCTime          object
 6   WhiteElo         int64 
 7   BlackElo         int64 
 8   WhiteRatingDiff  int64 
 9   BlackRatingDiff  int64 
 10  ECO              object
 11  Opening          object
 12  TimeControl      object
 13  Termination      object
 14  AN               object
dtypes: int64(4), object(11)
memory usage: 763.1+ MB


In [10]:
#Valores únicos de la columna "Result"
print(df["Result"].value_counts())

Result
1-0        3111715
0-1        2901035
1/2-1/2     238763
*                3
Name: count, dtype: int64


In [11]:
df[df["Result"] == "*"]

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN
850980,Blitz tournament,gvad202020,EireGoDeo,*,2016.07.05,06:32:15,1956,1800,-12,12,B54,Sicilian Defense #2,300+0,Abandoned,1. e4 c5 2. Nf3 d6 3. d4 cxd4 4. Nxd4 e5 5. Nb...
2413351,Bullet,LDago1,tvarhand,*,2016.07.13,00:14:57,2181,2143,-12,12,A41,Queen's Pawn,120+0,Abandoned,1. d4 d6 2. Nf3 g6 3. c3 Bg7 4. Bf4 Nc6 5. d5 ...
4876419,Bullet,karalyte,troterocom,*,2016.07.25,09:33:16,1586,1774,-6,7,A00,Creepy Crawly Formation: Classical Defense,60+0,Abandoned,1. a3 d5 2. h3 e5 3. Nf3 e4 4. Nd4 c5 5. Nb3 N...


Existen 3 valores con otro formato, probablemente por algún error al guardar el dato. Estos datos tienen en común que en BlackRatingDiff el valor es positivo mientras que en WhiteRatingDiff es negativo, y la partida terminó por abandono. Con los puntajes de WhiteRatingDiff y BlackRatingDiff se asume que ganaron las negras por lo que en Result, el valor debería de ser 0-1, así que se sustituirá este valor en estos registros.

In [12]:
#Cambiar los valores "*" por "0-1"
df.loc[df["Result"] == "*", "Result"] = "0-1"
df["Result"].value_counts()

Result
1-0        3111715
0-1        2901038
1/2-1/2     238763
Name: count, dtype: int64

In [13]:
# Valores únicos de la columna "Event"
df["Event"].value_counts()

Event
 Blitz                    2338356
 Classical                1509062
 Bullet                   1197648
 Bullet tournament         546616
 Blitz tournament          472068
 Classical tournament      165505
 Correspondence             22210
Blitz                          20
Classical                      13
Bullet                          8
Blitz tournament                4
Bullet tournament               3
Classical tournament            2
Correspondence                  1
Name: count, dtype: int64

In [14]:
df["Event"].unique()

array([' Classical ', ' Blitz ', ' Blitz tournament ', ' Correspondence ',
       ' Classical tournament ', ' Bullet tournament ', ' Bullet ',
       'Blitz tournament ', 'Bullet ', 'Classical ', 'Blitz ',
       'Bullet tournament ', 'Classical tournament ', 'Correspondence '],
      dtype=object)

Cada valor de Event se repite dos veces, una con espacios adelante y atras, y otras sin esos espacios. Se quitará dicho espacio de los valores que lo tengan.

In [15]:
# Eliminar espacios en blanco al inicio y al final de los valores de la columna "Event"
values_event = list(df["Event"].unique()) # Lista de valores únicos de la columna "Event"
for value in values_event: # Se itera sobre la lista de valores únicos
    df.loc[df["Event"] == value, "Event"] = value.strip() # en cada indice donde el valor sea igual al valor de la lista se elimina los espacios en blanco al inicio y al final
df["Event"].unique()

array(['Classical', 'Blitz', 'Blitz tournament', 'Correspondence',
       'Classical tournament', 'Bullet tournament', 'Bullet'],
      dtype=object)

## Homogeneidad de datos

In [16]:
#Todos los valores de la columna "UTCDate" que tengan una longitud mayor a 10
df[df["UTCDate"].str.len() > 10]

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN


In [17]:
#Todos los valores de la columna "UTCTime" que tengan una longitud mayor a 8
df[df["UTCTime"].str.len() > 8]

Unnamed: 0,Event,White,Black,Result,UTCDate,UTCTime,WhiteElo,BlackElo,WhiteRatingDiff,BlackRatingDiff,ECO,Opening,TimeControl,Termination,AN


Se corroboró que las valores de las columnas "UTCDate" y "UTCTime" tuvieran el mismo formato.

In [18]:
# Se guarda el dataset limpio
df.to_csv(path + '/data/chess_games_clean.csv', index=False)

Con esto se conluye la parte del preprocesamiento. Un análisis más profundo se realizará en el notebook EDA para comprender de mejor manera los patrones y tendencias del notebook.