# Machine Learning & Application 
## 2021-2022
# Projet Rubik's cube

Le projet porte sur un problème d'apprentissage supervisé. Le problème fait parti des données du [challenge des données](https://challengedata.ens.fr/challenges/20) ENS et s'intitule "Solve 2x2x2 Rubik's cube" et est présenté par la société LumenAI. Une [vidéo](https://www.college-de-france.fr/video/stephane-mallat/2019) décrivant le problème se trouve sur le site du collège de France. 

Les autres challenges sont aussi très intéressants, mais nécessitent plus de connaissances en machine learning (par exemple de l'apprentissage sur des séries temporelles, sur des images, des sons, du texte, etc...). D'où le choix de ce challenge dont les données sont très proches de problèmes sur lesquels on a travaillé.

La résolution d'un rubik's cube peut être vu comme un problème d'intelligence artificielle (par exemple en utilisant des techniques de recherches avec des heuristiques). On peut même étudier le graphe du jeu du point de vue de la théorie des graphes et découvrir qu'en fait il existe toujours un chemin relativement court à une solution.

ex dans la litérature:
 * "The Diameter of the Rubik's Cube Group Is Twenty", *T. Rokicki, H. Kociemba, M. Davidson, and J. Dethridge*, SIAM Review, 2014, Vol. 56, No. 4 : pp. 645-670.
 * "Solving Rubik’s Cube Using Graph Theory", Khemani C., Doshi J., Duseja J., Shah K., Udmale S., Sambhe V. (2019) in: Verma N., Ghosh A. (eds) Computational Intelligence: Theories, Applications and Future Directions - Volume I. Advances in Intelligent Systems and Computing, vol 798. Springer, Singapore. 
 
Ici, on a une base de données qui contient la description de rubik's cubes ainsi que le nombre minimal de coups pour les résoudre. On ne sait pas comment les problèmes ont été générés (est-ce que cela entraine un biais dans les problèmes, est-ce que plusieurs problèmes similaires sont présents dans la base? (Ici par similaire, on pourrait peut être avoir deux problèmes qui apparaissent dans la base, mais en permuttant certaines couleurs, on aurait peut-être exactement le même problème!)). Cependant, on vous demande de constuire un modèle pour nous aider à prédire le nombre de coups minimal pour un problème donné. Ensuite, vous pourriez utiliser ce modèle dans un algorithme de recherche étudié en cours d'IA.

On peut le voir comme un problème de regression où il faut deviner le nombre minimal de coups pour résoudre le rubik's cube, ou comme un problème de classification où la classe d'un état du rubik's cube est le nombre minimal de coups pour le résoudre (donc on pourrait avoir au plus 19 classes). Toutes les méthodes que l'on a vu en cours peuvent s'appliquer.

## Les données et le site du challenge

Le projet s'effectue en binôme. Vous devez ouvrir un compte pour le binôme sur le site du challenge, choisissez de participer seul (le binôme sera un seul participant au challenge), puis inscrivez-vous au challenge du cours *M1 MIAGE Dauphine - PSL - 2021-2022*.

Vous aurez accès à trois ensembles: 
 * `x_train` qui contient la description de 1.837.079 différents rubik's cubes. Chaque rubik's cube est représenté par 25 attributs (lisez la description sur le site du challenge).
 * `y_train` qui contient le nombre minimal de coups pour résoudre chacun des 1.837.079 différents rubik's cubes. 
 Ces données sont vos données d'entrainement.
 * enfin `x_test` qui contient la description de 1.837.080 nouveaux rubik's cubes. Vous ne connaissez pas le nombre minimal pour chacun de ces problèmes. 
 
Pour participer aux challenges, il vous faudra uploader sur le site votre prédiction sur les rubik's cubes du fichier `x_test` et le site du challenge vous donnera un score. Pour ce score, le site utilise l'erreur moyenne absolue: pour les n=1.837.080 exemples du fichier test, on fait la moyenne entre le vrai nombre minimal de coups $y_i$ et votre prédiction $z_i$: 
$$ \frac{\sum_{i=1}^n |y_i-z_i|}{n}$$

Malheureusement (pour vous), le site ne vous donnera pas plus d'information que votre score, vous ne pourrez pas savoir quelles sont vos bonnes prédictions et quelles sont vos erreurs. Pire, le site vous permettra d'uploader une prédiction que deux fois par jour!

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import pandas as pd
import numpy as np
import sklearn
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import time

'''from sklearn import neighbors
from sklearn.neighbors import KNeighborsClassifier'''


df = pd.read_csv("/content/drive/MyDrive/x_train.csv") # remplacer par le chemin local
X = df.to_numpy()
df = pd.read_csv("/content/drive/MyDrive/y_train.csv")
y = df.to_numpy()
print("taille des données:")
print("X:", X.shape)
print("Y:", y.shape)

df = pd.read_csv("/content/drive/MyDrive/x_test.csv")
Xtest = df.to_numpy()
print("test:", Xtest.shape)

# Début du modèle 

#Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.20)

Xtrain = X
ytrain = y


def take_first_col(data):
    data_col = []
    for i in range(len(data)):
        data_col.append(data[i][0])
    return data_col

Xtest_indice = take_first_col(Xtest)


print("Modèle RdmF")



def writeInCsvFile(Xtest_indice,ytestPrediction):
    import csv
    with open('prediction.csv', 'w', newline='') as prediction_file:
        writer = csv.writer(prediction_file)
        writer.writerow(["ID", "Prediction"])
        for i in range(len(Xtest)):
            writer.writerow([Xtest_indice[i], ytestPrediction[i]])


start = time.time()

#Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.20)

#Suppresion des colonnes inutiles

Xtest = np.delete(Xtest,0,axis=1)
Xtest = np.delete(Xtest,5,axis=1)
Xtest = np.delete(Xtest,12,axis=1)
Xtest = np.delete(Xtest,19,axis=1)
#ytest = np.delete(ytest,0,axis=1)
Xtrain = np.delete(Xtrain,0,axis=1)
Xtrain = np.delete(Xtrain,5,axis=1)
Xtrain = np.delete(Xtrain,12,axis=1)
Xtrain = np.delete(Xtrain,19,axis=1)

ytrain = np.delete(ytrain,0,axis=1)

ytrain = np.ravel(ytrain)

#dtree = DecisionTreeClassifier(criterion="entropy")

#ytest = np.ravel(ytest)

print("Début de la phase d'entrainement")




taille des données:
X: (1837079, 25)
Y: (1837079, 2)
test: (1837080, 25)
Modèle RdmF
Début de la phase d'entrainement


In [None]:
from sklearn.kernel_approximation import RBFSampler
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import SGDClassifier
from sklearn.kernel_approximation import Nystroem
from sklearn.model_selection import ParameterGrid
from sklearn.metrics import roc_auc_score, make_scorer,accuracy_score
!pip install xgboost
!pip install parfit
import xgboost as xgb
import parfit.parfit as pf


#X_train, X_val, y_train, y_val = train_test_split(Xtrain,ytrain, test_size=0.25)


'''rbf_feature = Nystroem(n_components=600)
Xtrain = rbf_feature.fit_transform(Xtrain)
Xtest = rbf_feature.fit_transform(Xtest)'''

#sgd = MLPClassifier(hidden_layer_sizes=200)

#Utilisation du SGDClassifier, qui est plus rapide que MLP dans notre cas
sgd = SGDClassifier(max_iter = 10000, alpha = 1, loss="log",penalty="elasticnet")

'''params = {
    "criterion" : ['gini', 'entropy'],
    "n_estimators" : [50, 100, 150],
    "max_features" : ['auto', 'sqrt', 'log2']
}'''

scorerr = make_scorer(roc_auc_score, multi_class="ovr")

'''params = ParameterGrid({
    'learning_rate' : ['constant', 'optimal', 'adaptive', 'invscaling'] 
 })'''

params = ParameterGrid({
         'learning_rate_init' : [0.001,0.01,0.1,0.5,1 ]
     })


'''best_model, best_score, all_models, all_scores = pf.bestFit(sgd, params, 
     X_train, y_train, X_val, y_val, 
     metric=accuracy_score, greater_is_better=True,scoreLabel='AUC')
'''
#print(best_model)



sgd.fit(Xtrain, ytrain)

print("Début de la phase de prédiction")

ytest_pred = sgd.predict(Xtest)

#print(accuracy_score(ytest, ytest_pred_dtree))

#error = 1 - sgd.score(Xtest, ytest)
#print('Erreur: %f' % error)

writeInCsvFile(Xtest_indice,ytest_pred)


print("The time used to execute this is given below")

#print(hlv.best_estimator_)

end = time.time()

print(end - start)

Début de la phase de prédiction
The time used to execute this is given below
2223.7775197029114
