# Partie III - Application du machine learning pour la fonction d'évaluation

## Première modèle : KNN

In [79]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score

# Charger les fichiers CSV
gagnants = pd.read_csv("dataset_fanorona/fanorona_winning_positions_cleaned.csv", header=None)  # Remplace avec le bon chemin
perdants = pd.read_csv("dataset_fanorona/fanorona_losing_positions_cleaned.csv", header=None)

# Ajouter la colonne cible (1 pour gagnant, -1 pour perdant)
gagnants["score"] = 1
perdants["score"] = -1

# Fusionner les données
data = pd.concat([gagnants, perdants], ignore_index=True)

# Séparer les features et labels
X = data.iloc[:, :-1].values  # Les configurations de plateau
y = data["score"].values  # Les scores

# Diviser en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Séparer en 80% pour l'entraînement et 20% pour le test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Créer un modèle KNN
knn_model = KNeighborsRegressor(n_neighbors=3)

# Effectuer la validation croisée (par exemple, 4 folds)
mse_scores = cross_val_score(knn_model, X, y, cv=4, scoring='neg_mean_squared_error')

# Convertir les scores en valeurs positives pour MSE
mse_scores = -mse_scores
print("RESULTAT APRES CROSS VALIDATION")
print("Scores MSE pour chaque fold (valeurs négatives) :")
print(mse_scores)

# Calculer la moyenne et l'écart-type des scores MSE
mean_mse = np.mean(mse_scores)
std_mse = np.std(mse_scores)
print(f"\nMSE moyen : {mean_mse}")
print(f"Écart-type du MSE : {std_mse}")

# Calcul du RNMSE
y_range = np.max(y) - np.min(y)  # Plage des valeurs de y
rnmse = np.sqrt(mean_mse) / y_range
print(f"\nRNMSE : {rnmse}")

# Effectuer la validation croisée pour le R²
r2_scores = cross_val_score(knn_model, X, y, cv=4, scoring='r2')
print("\nScores R² pour chaque fold :")
print(r2_scores)

# Calculer la moyenne et l'écart-type des scores R²
mean_r2 = np.mean(r2_scores)
std_r2 = np.std(r2_scores)
print(f"\nR² moyen : {mean_r2}")
print(f"Écart-type du R² : {std_r2}")

# Maintenant, calculer l'accuracy (précision) via discrétisation des valeurs
error_threshold = 2  # Vous pouvez définir un seuil d'erreur, par exemple 5 unités
y_pred = knn_model.fit(X, y).predict(X)  # Entraîner et prédire sur X

# Discrétiser les valeurs réelles et prédites en fonction du seuil d'erreur
y_pred_discretized = np.abs(y_pred - y) <= error_threshold

# Calculer la précision (accuracy) : combien de prédictions étaient correctes selon le seuil
accuracy = accuracy_score(y, y_pred_discretized)
print(f"\nPrécision du modèle (accuracy) : {accuracy}")

     0  1  2  3  4  5  6  7  8  score
0   -1  1  1 -1  0  0 -1  0  1     -1
1   -1  1  1 -1  1  0 -1  0  0     -1
2   -1 -1 -1  0  1  0  1  0  1     -1
3   -1  1  0  1 -1  0  1  0 -1     -1
4   -1  0  0 -1  1  1 -1  1  0     -1
..  .. .. .. .. .. .. .. .. ..    ...
495  0  1  1  0  1  0 -1 -1 -1     -1
496  0  0  1 -1 -1 -1  1  0  1     -1
497 -1  1  0 -1  1  1 -1  0  0     -1
498  0  1 -1  1  0 -1  1  0 -1     -1
499 -1  0  1 -1  1  1 -1  0  0     -1

[500 rows x 10 columns]
     0  1  2  3  4  5  6  7  8  score
0    1  1  1  0  0 -1  0 -1 -1      1
1   -1  0 -1  1  1  1  0 -1  0      1
2    0  0  1 -1 -1  1  0 -1  1      1
3    1  0 -1 -1  1 -1  0  0  1      1
4    1  1  1  0 -1 -1  0 -1  0      1
..  .. .. .. .. .. .. .. .. ..    ...
495  0 -1  0 -1  0 -1  1  1  1      1
496  1 -1  0  1 -1  0  1  0 -1      1
497  0 -1 -1  1  1  1 -1  0  0      1
498  1  1  1 -1 -1  0 -1  0  0      1
499 -1  0  0  1  1  1 -1 -1  0      1

[500 rows x 10 columns]
     0  1  2  3  4  5  6  7  8  score


  duplicates = df[df_fusionne.duplicated()]
