# **BILBIOTHEQUES**

In [6]:
import json

import pandas as pd
import numpy as np

import chess
import random

from Fct.fct_preprocess import *

from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Flatten, Dense, Dropout
from tensorflow.keras.optimizers import Adam

import warnings
warnings.filterwarnings("ignore")

---

# **1. EXTRACTION DES DONNEES BRUTES**

Extraction des données depuis le fichier JSONL d'origine qui contient 137 000 000 positions différentes, chacune avec plusieurs évaluations stockfish . Nous limitons alors la taille de notre base de donnée a **500 000 positions**.

In [7]:
file_path = 'data\lichess_db_eval.jsonl'
data_raw = extract_data(file_path, max_rows=10000)
data_raw.head(5)

Unnamed: 0,fen,knodes,depth,cp,mate,line
0,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,200973,39,58.0,,f7g7 e6e2 h8d8 e2d2 b7b5 c4e6 g7f6 e6b3 a6a5 a2a3
1,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,62.0,,f7g7 e6e2 b7b5 c4b3 h8d8 e2d2 a6a5 a2a3 g7f6 d1e1
2,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,151.0,,h8d8 d1e1 a6a5 a2a3 b7b5 c4a2 c6d7 e6e7 f7g6 e1f2
3,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,59730,31,64.0,,f7g7 e6e2 g7g6 d1c2 h8d8 e2d2 g6f6 a2a3 b7b5 c4a2
4,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,59730,31,134.0,,h8d8 d1e1 a6a5 a2a3 b7b5 c4b3 a5a4 b3a2 c6d7 e6h6


La base de donnée est composée de **2 330 098 évaluations différentes** et **5 variables** : 

| Variable            | Description                                                                                                        |
|-----------------|--------------------------------------------------------------------------------------------------------------------|
| **knodes**      | Nombre de milliers de nœuds analysés par stockfish pendant la recherche de la position.                   |
| **depth**       | Profondeur de la recherche, indiquant le nombre de coups (ou niveaux) explorés par le moteur.                     |
| **cp**          | Évaluation en centipions, représentant un avantage matériel en fonction du côté actif (positif pour Blancs, négatif pour Noirs). |
| **mate**        | Évaluation de mat. Si une valeur est donnée, elle indique le nombre de coups restants avant que le mat soit atteint. |
| **line**        | Ligne (parfois appelée variante) désigne une séquence de coups qui découle d'une position donnée. Elle représente une possible continuation du jeu |

---

# **2. NETTOYAGE DES DONNEES**

Stockfish utilie différents parametre dans son algorythme, notamment le **nombre de noeuf (knodes)** et le la **profondeur (depth)**. En fonction de ces différents parametres, stockfish calcul le **centipions (cp)** et **l'évaluation du mate (mate)**.  

Après ces évaluations, stockfish peut alors parfois prédire des coups différents pour une même position, on appelle cela des **variantes**. Ces coups sont différents mais ont un impacte similaire ou quasi-similaire sur l'avantage qu'il donne a celui qui le joue (en terme d'evaluation de la position). 

Certains joueurs vont être plus a l'aise dans une variante plûtot qu'une autre en fonction de leurs styles de jeu ou de leurs connaissances, mais pour une IA cela n'as pas d'importance ! Toutefois, notre source de donnée nous propose plusieurs analyse de stockfish pour chaques position, apportant son lot de variante.

Nous pouvons alors utiliser 2 méthodes pour garder la meilleur variante.

### **Méthode N°1 : Analyse des Parametres et de l'Evaluation**
   1. **Profondeur de recherche (depth)** : Plus la profondeur est grande, plus l'analyse est précise. Priorisations des évaluations avec la profondeur maximale.

   2. **Centipions (cp) ou mat (mate)** : Si une évaluation donne un **mate**, elle est prioritaire, car un mat forcé est absolu. En absence de **mate**, choix d'évaluation avec la valeur **cp** la plus élevée pour le joueur actif

   3. **Nombre de nœuds analysés (knodes)** : Si plusieurs évaluations ont la même profondeur, celle ayant exploré le plus grand nombre de nœuds est théoriquement plus fiable.

   4. **En cas d'égalité parfaite**: En cas d’égalité sur les autres critères, utilisez une évaluation arbitraire.

### **Méthode N°2 : Coup le Plus Populaire** 
blablablabla


- Création d'une variable `best_move_m1`, qui extrait le prochain coup a jouer, c'est a dire le premier coup de la ligne.

In [8]:
data_V1 = extract_next_move(data_raw)
data_V1.head(3)

Unnamed: 0,fen,knodes,depth,cp,mate,line,best_move_m1
0,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,200973,39,58.0,,f7g7 e6e2 h8d8 e2d2 b7b5 c4e6 g7f6 e6b3 a6a5 a2a3,f7g7
1,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,62.0,,f7g7 e6e2 b7b5 c4b3 h8d8 e2d2 a6a5 a2a3 g7f6 d1e1,f7g7
2,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,151.0,,h8d8 d1e1 a6a5 a2a3 b7b5 c4a2 c6d7 e6e7 f7g6 e1f2,h8d8


- Création d'une variable `best_move_m2` avec le coup le plus populaire par position en suivant la Méthode N°2

In [9]:
data_V2 = most_popular_predict_V1(data_V1)
data_V2.head(3)

Unnamed: 0,fen,knodes,depth,cp,mate,line,best_move_m1,best_move_m2
0,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,200973,39,58.0,,f7g7 e6e2 h8d8 e2d2 b7b5 c4e6 g7f6 e6b3 a6a5 a2a3,f7g7,f7g7
1,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,62.0,,f7g7 e6e2 b7b5 c4b3 h8d8 e2d2 a6a5 a2a3 g7f6 d1e1,f7g7,f7g7
2,7r/1p3k2/p1bPR3/5p2/2B2P1p/8/PP4P1/3K4 b - -,71927,32,151.0,,h8d8 d1e1 a6a5 a2a3 b7b5 c4a2 c6d7 e6e7 f7g6 e1f2,h8d8,f7g7


- Filtrage des lignes pour ne garder qu'une evaluation par position selon la méthode N°1.

In [10]:
data_V3 = filter_best_predict(data_V2)
data_V3.head(3)

Unnamed: 0,fen,knodes,depth,cp,mate,line,best_move_m1,best_move_m2
0,1B6/2pk1pp1/p6p/8/1P6/5P2/P1P3rP/1K6 w - -,44852,27,-643.0,,h2h4 g2h2 c2c3 h2h4 a2a4 h6h5 b4b5 d7c8 b8a7 a6b5,h2h4,h2h4
1,1B6/2pk1pp1/p6p/8/1P6/5P2/P1P4r/K7 w - -,54193,26,-739.0,,f3f4 d7c8 b8c7 c8c7 f4f5 h2c2 a1b1 c2e2 b1c1 e2e8,f3f4,f3f4
2,1B6/8/1NK5/k7/8/8/8/8 w - -,34280,75,,17.0,b6d5 a5a4 c6c5 a4b3 d5b4 b3b2 b8f4 b2c3 f4e3 c3b3,b6d5,b6d5


- Suppression des variables inutiles. Les variables `knodes`, `depth`, `cp`, `mate` et `line` ne sont plus utile pour la suite du projet

In [11]:
data_cleaned = drop_usuless_columns(data_V3)
data_cleaned.head(5)

Unnamed: 0,fen,best_move_m1,best_move_m2
0,1B6/2pk1pp1/p6p/8/1P6/5P2/P1P3rP/1K6 w - -,h2h4,h2h4
1,1B6/2pk1pp1/p6p/8/1P6/5P2/P1P4r/K7 w - -,f3f4,f3f4
2,1B6/8/1NK5/k7/8/8/8/8 w - -,b6d5,b6d5
3,1B6/8/2K5/3N4/k7/8/8/8 w - -,c6c5,c6c5
4,1Bk5/2p2pp1/p6p/8/1P3P2/8/P1P4r/K7 w - -,b8a7,b8a7


- Sauvegarde des données netoyées en CSV

In [12]:
data_cleaned.to_csv('data/data_cleaned.csv')

---

# **3. ENTRAINEMENT DES MODELES**

blablablabla

- Chargement des Données

In [13]:
data = pd.read_csv('data/data_cleaned.csv' )

X = data['fen']
y = data['best_move_m1']

- Traduction des données sous une forme interpretable par le reseau de neurone.
  - **Position (Fen)** -> Matrice Numpy
  - **Coup a joué (UCI)** -> Encodage de chaque coup distincts (sous forme d'entier)

In [14]:
X = X.apply(fen_to_matrix)
X = np.array(X.tolist())

y, move_to_int = encode_moves(y)
y = to_categorical(y, num_classes=len(move_to_int))

### **Modèle N°1** :


   - **`Conv2D(64, (3, 3), activation='relu', input_shape=(8, 8, 12))`** : 
      - C'est une couche de convolution 2D qui extrait des caractéristiques spatiales de l'échiquier. 
      - **64 filtres** sont utilisés pour capter des motifs complexes, avec une taille de filtre de **3x3**, idéale pour des images petites comme un échiquier **8x8**. 
      - La fonction d'activation **ReLU** accélère l'apprentissage en gérant les gradients de manière efficace.

- **`Conv2D(128, (3, 3), activation='relu')`** : 
   - Une deuxième couche de convolution avec **128 filtres** permet de capturer des motifs plus complexes et abstraits sur l'échiquier.
   - La taille des filtres reste de **3x3**, et **ReLU** est utilisé pour améliorer l'apprentissage.

- **`Flatten()`** : 
   - Cette couche aplatit les sorties **2D** des couches précédentes en un vecteur **1D**, ce qui est nécessaire pour connecter les couches de convolution aux couches entièrement connectées.

- **`Dense(256, activation='relu')`** : 
   - Une couche entièrement connectée avec **256 neurones** pour capturer des relations non-linéaires complexes entre les caractéristiques extraites par les convolutions.
   - La fonction **ReLU** est utilisée pour une meilleure gestion des non-linéarités.

- **`Dense(len(move_to_int), activation='softmax')`** : 
   - La couche de sortie a un nombre de neurones égal au nombre de **coups possibles**. La fonction **Softmax** est utilisée pour classer les coups possibles en leur attribuant une probabilité, ce qui permet de sélectionner le coup le plus probable.

- **Définition du modèle**

In [17]:
model_1 = Sequential([
    Conv2D(64, (3, 3), activation='relu', input_shape=(13, 8, 8)),
    Conv2D(128, (3, 3), activation='relu'),
    Flatten(),
    Dense(256, activation='relu'),
    Dense(len(move_to_int), activation='softmax')
])

model_1.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

model_1.summary()

- **Entrainement du modèle**

blablablalba

In [18]:
model_1.fit(X, y, epochs=25, validation_split=0.1, batch_size=64)

Epoch 1/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 15ms/step - accuracy: 0.0098 - loss: 6.9742 - val_accuracy: 0.0410 - val_loss: 4.9367
Epoch 2/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 13ms/step - accuracy: 0.0260 - loss: 6.2058 - val_accuracy: 0.0450 - val_loss: 4.4210
Epoch 3/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 14ms/step - accuracy: 0.0368 - loss: 5.7439 - val_accuracy: 0.0980 - val_loss: 4.2759
Epoch 4/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 30ms/step - accuracy: 0.0667 - loss: 5.2250 - val_accuracy: 0.0900 - val_loss: 4.1638
Epoch 5/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 21ms/step - accuracy: 0.1247 - loss: 4.5679 - val_accuracy: 0.1210 - val_loss: 4.1598
Epoch 6/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 27ms/step - accuracy: 0.1937 - loss: 3.7821 - val_accuracy: 0.1160 - val_loss: 4.2880
Epoch 7/25
[1m141/141

<keras.src.callbacks.history.History at 0x19f23b8c500>

- **Sauvegarde du Modèle**

In [19]:
model_1.save("Models/Modele_1_TF_25EPOCHS.keras")

### **Modèle N°2** :

Ajout de plus de couches de convolution permet de capturer des motifs encore plus complexes. Cependant, cela peut augmenter le risque de sur-apprentissage, donc il faudra ajuster les autres hyperparamètres (comme le taux d'apprentissage ou la régularisation).

- **Définition du modèle**

In [22]:
model_2 = Sequential([
    Conv2D(64, (3, 3), activation='relu', input_shape=(13, 8, 8)),
    Conv2D(128, (3, 3), activation='relu'),
    Conv2D(256, (3, 3), activation='relu'),  # Ajout d'une couche supplémentaire
    Flatten(),
    Dense(512, activation='relu'),  # Augmentation de la taille de la couche dense
    Dense(len(move_to_int), activation='softmax')
])

model_2.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

model_2.summary()

- **Entrainement du modèle**

In [23]:
model_2.fit(X, y, epochs=25, validation_split=0.1, batch_size=64)

Epoch 1/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 28ms/step - accuracy: 0.0091 - loss: 6.9579 - val_accuracy: 0.0160 - val_loss: 4.9129
Epoch 2/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 39ms/step - accuracy: 0.0243 - loss: 6.2549 - val_accuracy: 0.0770 - val_loss: 4.4433
Epoch 3/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 38ms/step - accuracy: 0.0290 - loss: 5.8038 - val_accuracy: 0.0740 - val_loss: 4.3501
Epoch 4/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 43ms/step - accuracy: 0.0500 - loss: 5.3645 - val_accuracy: 0.1160 - val_loss: 4.2339
Epoch 5/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m6s[0m 44ms/step - accuracy: 0.0824 - loss: 4.8405 - val_accuracy: 0.1190 - val_loss: 4.3054
Epoch 6/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m7s[0m 47ms/step - accuracy: 0.1494 - loss: 4.1353 - val_accuracy: 0.1230 - val_loss: 4.2991
Epoch 7/25
[1m141/141

<keras.src.callbacks.history.History at 0x19f23c0a9c0>

- **Sauvegarde du Modèle**

In [24]:
model_2.save("Models/Modele_2_TF_25EPOCHS.keras")

### **Modèle N°3** :

Moins de neurones dans la couche dense peut rendre le modèle plus rapide à entraîner et plus facile à régulariser, tout en conservant une bonne capacité de généralisation.

- Definition du Modèle

In [25]:
model_3 = Sequential([
    Conv2D(64, (3, 3), activation='relu', input_shape=(13, 8, 8)),
    Conv2D(128, (3, 3), activation='relu'),
    Flatten(),
    Dropout(0.5),  # Dropout avec un taux de 50%
    Dense(256, activation='relu'),
    Dense(len(move_to_int), activation='softmax')
])

model_3.compile(optimizer=Adam(), loss='categorical_crossentropy', metrics=['accuracy'])

model_3.summary()

- Entrainement du Modèle

In [26]:
model_3.fit(X, y, epochs=25, validation_split=0.1, batch_size=64)

Epoch 1/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 16ms/step - accuracy: 0.0070 - loss: 6.9705 - val_accuracy: 0.0550 - val_loss: 4.9903
Epoch 2/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 15ms/step - accuracy: 0.0251 - loss: 6.2771 - val_accuracy: 0.0480 - val_loss: 4.4623
Epoch 3/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 31ms/step - accuracy: 0.0356 - loss: 5.7790 - val_accuracy: 0.0850 - val_loss: 4.3075
Epoch 4/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 28ms/step - accuracy: 0.0614 - loss: 5.3763 - val_accuracy: 0.0910 - val_loss: 4.2171
Epoch 5/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 33ms/step - accuracy: 0.0917 - loss: 4.8828 - val_accuracy: 0.1170 - val_loss: 4.0918
Epoch 6/25
[1m141/141[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 31ms/step - accuracy: 0.1336 - loss: 4.3178 - val_accuracy: 0.1090 - val_loss: 4.1464
Epoch 7/25
[1m141/141

<keras.src.callbacks.history.History at 0x19f24622e40>

- Sauvegarde du modèle

In [27]:
model_3.save("Models/Modele_3_TF_25EPOCHS.keras")

# **4. EVALUATION DES MODELES**

Partie entre deux random players

In [None]:
Game_result = play_game(random_player, random_player, print_game=False)

N Parties entre deux random players

In [None]:
N_Game_result = play_n_games(random_player, random_player, 1000)