# Kelvin Lehrback

# Conjunto de dados de jogo de xadrez, extraidos do Kaggle.

Disponível em: https://www.kaggle.com/datasets/datasnaek/chess/data\

## Primeiro, vamos extrair os dados e visualizar as colunas

In [2]:
import pandas as pd

dataframe = pd.read_csv("games.csv", sep=",")
print(dataframe.keys())

#Mostrando algumas linhas do dataframe
dataframe.head()




Index(['id', 'rated', 'created_at', 'last_move_at', 'turns', 'victory_status',
       'winner', 'increment_code', 'white_id', 'white_rating', 'black_id',
       'black_rating', 'moves', 'opening_eco', 'opening_name', 'opening_ply'],
      dtype='object')


Unnamed: 0,id,rated,created_at,last_move_at,turns,victory_status,winner,increment_code,white_id,white_rating,black_id,black_rating,moves,opening_eco,opening_name,opening_ply
0,TZJHLljE,False,1504210000000.0,1504210000000.0,13,outoftime,white,15+2,bourgris,1500,a-00,1191,d4 d5 c4 c6 cxd5 e6 dxe6 fxe6 Nf3 Bb4+ Nc3 Ba5...,D10,Slav Defense: Exchange Variation,5
1,l1NXvwaE,True,1504130000000.0,1504130000000.0,16,resign,black,5+10,a-00,1322,skinnerua,1261,d4 Nc6 e4 e5 f4 f6 dxe5 fxe5 fxe5 Nxe5 Qd4 Nc6...,B00,Nimzowitsch Defense: Kennedy Variation,4
2,mIICvQHh,True,1504130000000.0,1504130000000.0,61,mate,white,5+10,ischia,1496,a-00,1500,e4 e5 d3 d6 Be3 c6 Be2 b5 Nd2 a5 a4 c5 axb5 Nc...,C20,King's Pawn Game: Leonardis Variation,3
3,kWKvrqYL,True,1504110000000.0,1504110000000.0,61,mate,white,20+0,daniamurashov,1439,adivanov2009,1454,d4 d5 Nf3 Bf5 Nc3 Nf6 Bf4 Ng4 e3 Nc6 Be2 Qd7 O...,D02,Queen's Pawn Game: Zukertort Variation,3
4,9tXo1AUZ,True,1504030000000.0,1504030000000.0,95,mate,white,30+3,nik221107,1523,adivanov2009,1469,e4 e5 Nf3 d6 d4 Nc6 d5 Nb4 a3 Na6 Nc3 Be7 b4 N...,C41,Philidor Defense,5


## Temos as colunas de:
* id;
* rated;
* created_at;
* last_move_at;
* turns;
* victory_status;
* winner;
* increment_code;
* white_id;
* white_rating;
* black_id;
* black_rating;
* moves;
* opening_eco;
* opening_name;
* opening_ply;


## Traduzindo de forma livre:
* ID (Identificação do jogo);
* Ranqueada (V/F);
* Hora de início;
* Hora de fim;
* Número de turnos;
* Status do jogo;
* Ganhador;
* Incremento de tempo;
* ID do jogador branco;
* Classificação do jogador branco;
* ID do jogador preto;
* Classificação do Jogador preto;
* Movimentos (na notação padrão do xadrez);
* Abertura Eco (Código padronizado para qualquer abertura (https://www.365chess.com/eco.php));
* Nome da abertura;
* Jogada de abertura (Número de movimentos na fase de abertura)




## Descrevendo cada uma delas por suas categorias e explicações do que são:
### Qualitativa nominal:
* id: identificação do jogo.
* rated (True ou False): Informa se a partida influência ou não na classificação do jogador.
* victory_status (outoftime, resign, mate): São os três estados de término de uma partida de xadrez. O primeiro informa que o jogador esgotou seu tempo, o segundo que um jogador decidiu se retirar da partida antes da conclusão formal da mesmo e o último é o xeque-mate, quando o rei de um jogador está sobe ataque e não há movimento legal que possa retirá-lo da situação.
* winner (Black/White): Informa qual jogador ganhou com a respectiva cor (preto/branco).
* moves: Sequência de movimentos que aconteceram na partida.
* opening_eco: São os tipos de movimentos (aberturas) iniciais, compostos por uma letra (A até E) e dois números (Informando a posição no tabuleiro). Mais detalhes aqui: https://www.365chess.com/eco.php
* opening_name: Nome da abertura.
* white_id: Identificação do jogador das peças brancas
* black_id: Identificação do jogador das peças pretas
* increment_code(X + Y): Informa como funcionará a regra de tempo da partida. Sendo X o tempo inicial e Y o incremento de tempo que cada jogador terá após cada movimento.

### Qualitativa ordinal:
* white_rating (Inteiro): Informa qual a classificação do jogador das peças brancas.
* black_rating (Inteiro): Informa qual a classificação do jogador das peças pretas.


### Quantitative contínua:
* created_at (Timestamp): Informa o horário de inicio da partida.
* last_move_at (Timestamp): Informa o horário de témino da partida.


### Quantitativa discreta:
* turns (inteiro): Quantidade de turnos que a partida teve.
* opening_ply (inteiro): Quantidade de movimentos durante a fase de abertura de uma partida.



## Removendo dados desnecessários
No dataset há dados como "Game ID", "Black player ID" e "White player ID". Essas colunas são apenas identificação dos jogadores e não nos servem para análise nesse momento.

In [11]:
#O comando inplace=True informa que eu quero alterar o dataframe original
dataframe.drop(["id", "white_id", "black_id"], axis=1, inplace=True)

dataframe.head()

Unnamed: 0,rated,created_at,last_move_at,turns,victory_status,winner,increment_code,white_rating,black_rating,moves,opening_eco,opening_name,opening_ply
0,False,1504210000000.0,1504210000000.0,13,outoftime,white,15+2,1500,1191,d4 d5 c4 c6 cxd5 e6 dxe6 fxe6 Nf3 Bb4+ Nc3 Ba5...,D10,Slav Defense: Exchange Variation,5
1,True,1504130000000.0,1504130000000.0,16,resign,black,5+10,1322,1261,d4 Nc6 e4 e5 f4 f6 dxe5 fxe5 fxe5 Nxe5 Qd4 Nc6...,B00,Nimzowitsch Defense: Kennedy Variation,4
2,True,1504130000000.0,1504130000000.0,61,mate,white,5+10,1496,1500,e4 e5 d3 d6 Be3 c6 Be2 b5 Nd2 a5 a4 c5 axb5 Nc...,C20,King's Pawn Game: Leonardis Variation,3
3,True,1504110000000.0,1504110000000.0,61,mate,white,20+0,1439,1454,d4 d5 Nf3 Bf5 Nc3 Nf6 Bf4 Ng4 e3 Nc6 Be2 Qd7 O...,D02,Queen's Pawn Game: Zukertort Variation,3
4,True,1504030000000.0,1504030000000.0,95,mate,white,30+3,1523,1469,e4 e5 Nf3 d6 d4 Nc6 d5 Nb4 a3 Na6 Nc3 Be7 b4 N...,C41,Philidor Defense,5


## Após remoção
Temos apenas as seguintes variáveis:

* rated;
* created_at;
* last_move_at;
* turns;
* victory_status;
* winner;
* increment_code;
* white_rating;
* black_rating;
* moves;
* opening_eco;
* opening_name;
* opening_ply;

## Conversão das datas
O dataset nos fornece o horário no formato UNIX TIME, vamos tornar legível as datas, convertendo para um horário datetime. No próprio Kaggle havia uma discussão sobre isso, disponível em: https://www.kaggle.com/code/rafpast/converting-unix-time-values-to-datetime

In [12]:
df_times = dataframe[["created_at", "last_move_at"]].copy()

#Vamos criar duas novas colunas para o dataframe, informando as datas de forma legível
#Dividimos por 1000 para converter os milissegundos em segundos (formato esperado pelo to_datetime do pandas)
#unit='s' indica que o novo formato será em segundos
#origin="unix" indica que a contagem do tempo começa a partir do Unix Epoch, padrão de contagem a partir de 1 de Janeiro de 1970 UTC.
df_times["created_at_dt"] = pd.to_datetime(df_times["created_at"] / 1000, unit='s', origin="unix")
df_times["last_move_at_dt"] = pd.to_datetime(df_times["last_move_at"] / 1000, unit='s', origin="unix")

#apagando as colunas created_at e last_move_at
df_times.drop(["created_at", "last_move_at"], axis=1, inplace=True)

df_times.tail(6)

Unnamed: 0,created_at_dt,last_move_at_dt
20052,2017-07-11 22:24:07.779000044,2017-07-11 22:33:56.546000004
20053,2017-07-11 16:35:14.342000008,2017-07-11 16:40:36.075999975
20054,2017-07-10 14:48:09.759999990,2017-07-10 15:00:33.979000092
20055,2017-07-10 14:44:37.493000031,2017-07-10 14:47:30.326999903
20056,2017-07-10 14:15:27.019000053,2017-07-10 14:31:13.717999935
20057,2017-07-09 23:32:32.648999929,2017-07-09 23:44:49.348000050
