# Machine Learning & Application 
## 2021-2022
# Projet Rubik's cube

Le projet porte sur un problème d'apprentissage supervisé. Le problème fait parti des données du [challenge des données](https://challengedata.ens.fr/challenges/20) ENS et s'intitule "Solve 2x2x2 Rubik's cube" et est présenté par la société LumenAI. Une [vidéo](https://www.college-de-france.fr/video/stephane-mallat/2019) décrivant le problème se trouve sur le site du collège de France. 

Les autres challenges sont aussi très intéressants, mais nécessitent plus de connaissances en machine learning (par exemple de l'apprentissage sur des séries temporelles, sur des images, des sons, du texte, etc...). D'où le choix de ce challenge dont les données sont très proches de problèmes sur lesquels on a travaillé.

La résolution d'un rubik's cube peut être vu comme un problème d'intelligence artificielle (par exemple en utilisant des techniques de recherches avec des heuristiques). On peut même étudier le graphe du jeu du point de vue de la théorie des graphes et découvrir qu'en fait il existe toujours un chemin relativement court à une solution.

ex dans la litérature:
 * "The Diameter of the Rubik's Cube Group Is Twenty", *T. Rokicki, H. Kociemba, M. Davidson, and J. Dethridge*, SIAM Review, 2014, Vol. 56, No. 4 : pp. 645-670.
 * "Solving Rubik’s Cube Using Graph Theory", Khemani C., Doshi J., Duseja J., Shah K., Udmale S., Sambhe V. (2019) in: Verma N., Ghosh A. (eds) Computational Intelligence: Theories, Applications and Future Directions - Volume I. Advances in Intelligent Systems and Computing, vol 798. Springer, Singapore. 
 
Ici, on a une base de données qui contient la description de rubik's cubes ainsi que le nombre minimal de coups pour les résoudre. On ne sait pas comment les problèmes ont été générés (est-ce que cela entraine un biais dans les problèmes, est-ce que plusieurs problèmes similaires sont présents dans la base? (Ici par similaire, on pourrait peut être avoir deux problèmes qui apparaissent dans la base, mais en permuttant certaines couleurs, on aurait peut-être exactement le même problème!)). Cependant, on vous demande de constuire un modèle pour nous aider à prédire le nombre de coups minimal pour un problème donné. Ensuite, vous pourriez utiliser ce modèle dans un algorithme de recherche étudié en cours d'IA.

On peut le voir comme un problème de regression où il faut deviner le nombre minimal de coups pour résoudre le rubik's cube, ou comme un problème de classification où la classe d'un état du rubik's cube est le nombre minimal de coups pour le résoudre (donc on pourrait avoir au plus 19 classes). Toutes les méthodes que l'on a vu en cours peuvent s'appliquer.

## Les données et le site du challenge

Le projet s'effectue en binôme. Vous devez ouvrir un compte pour le binôme sur le site du challenge, choisissez de participer seul (le binôme sera un seul participant au challenge), puis inscrivez-vous au challenge du cours *M1 MIAGE Dauphine - PSL - 2021-2022*.

Vous aurez accès à trois ensembles: 
 * `x_train` qui contient la description de 1.837.079 différents rubik's cubes. Chaque rubik's cube est représenté par 25 attributs (lisez la description sur le site du challenge).
 * `y_train` qui contient le nombre minimal de coups pour résoudre chacun des 1.837.079 différents rubik's cubes. 
 Ces données sont vos données d'entrainement.
 * enfin `x_test` qui contient la description de 1.837.080 nouveaux rubik's cubes. Vous ne connaissez pas le nombre minimal pour chacun de ces problèmes. 
 
Pour participer aux challenges, il vous faudra uploader sur le site votre prédiction sur les rubik's cubes du fichier `x_test` et le site du challenge vous donnera un score. Pour ce score, le site utilise l'erreur moyenne absolue: pour les n=1.837.080 exemples du fichier test, on fait la moyenne entre le vrai nombre minimal de coups $y_i$ et votre prédiction $z_i$: 
$$ \frac{\sum_{i=1}^n |y_i-z_i|}{n}$$

Malheureusement (pour vous), le site ne vous donnera pas plus d'information que votre score, vous ne pourrez pas savoir quelles sont vos bonnes prédictions et quelles sont vos erreurs. Pire, le site vous permettra d'uploader une prédiction que deux fois par jour!


## Soumission et rapport

Un des membres du binôme devra remplir le formulaire Forms de l'équipe Teams du cours (onglet General) pour enregistrer les membres du binôme et le login du binôme qui utilisé sur le site du challenge ENS. 
Avant le **jeudi 2 décembre à 12h** vous devez 1) avoir créé votre compte pour le binôme et inscrit le binôme sur le challenge du cours, et 2) rempli les informations sur le formulaire Forms.

Vous pouvez faire le projet seul, mais vous serez évalué comme un binôme. Si vous tenez absolument à former un trinôme, contactez moi par email, mais sachez que dès lors, les attentes seront plus élevées.

Le deadline pour le projet sera le **dimanche 20 décembre 23:59**
Vous devrez à ce moment là avoir fait trois choses:
* avoir rendu un rapport
* avoir rendu un notebook jupyter ou collab contenant le code pour générer votre solution
* avoir soumis une solution sur le site du challenge ENS.

Le notebook et le rapport seront à soumettre sous myCourse.

Le rapport est un document **pdf** et devra être un document structuré qui explique vos choix, explique votre solution et donne votre résultat. Ne présentez ni le cours, ni le contexte, seul votre travail est important. Le rapport est de **6** pages maximum au format A4 (sans utiliser une taille de police inférieure strictement à 12). Vous pouvez ajouter une annexe à ce rapport (au format pdf ou sous la forme d'un notebook jupyter), étant entendu que le lecteur n'est pas obligé de lire l'annexe. Votre mission est de proposer un modèle de prédiction pour ce problème, votre rapport doit justifier comment vous avez répondu (complètement ou pas) à cette mission (par exemple, vous pouvez décrire ce que vous avez essayé, ce qui a marché ou non, pourquoi vous avez essayé autre chose...). Une autre façon de décrire ce qu'on attend du rapport est la suivante: votre manageur a donné à plusieurs équipes la même tâche d'apprentissage supervisé. Vous devez lui présenter dans ce rapport des arguments qui justifient la qualité de votre approche et de vos résultats. Votre manageur connait le problème, mais n'est pas forcément un expert du domaine. A vous de le convaincre d'utiliser votre solution! (attention, si vous connaissez aussi les limitations de votre solution, il est bon de les exposer aussi!). 

L'évaluation portera sur la qualité de votre analyse, même si vos résultats sont peu concluant. Pour caricaturer, un modèle qui gagnerait la compétition sans pouvoir expliquer ce qu'il a fait n'aura pas une bonne note pour le projet du cours (mais bravo, il a gagné la compétition!). Autre caricature, un projet qui applique un seul algorithme et conclue que ça ne fonctionne pas bien n'aura pas non plus une bonne note.

Une soutenance sera organisée lors de la première semaine de cours (après les examens). Elle permettra de compléter l'évaluation et de vous donner un retour sur votre travail.
 Cette soutenance ne demande aucune préparation de votre part. Elle durera une douzaine/quinzaine de minutes par groupe. La soutenance consistera en un échange au sujet de vos résultats et votre rapport. Si la soutenance fait apparaître qu’un des membres n’a pas beaucoup contribué, sa note pourra être revue à la baisse. Egalement, on pourra vous demander de montrer le code et de fournir les résultats que vous avez obtenu lors des exercices d’implémentation des TDs.

Ce projet compte pour 40% de la note de l’UE. Il est donc souhaitable que la note corresponde au travail de votre groupe, et non aux conseils d’autres groupes, d’autres étudiants ou d’internet. Si vous utilisez des sources (articles de recherche, posts sur internet, etc...), vous devez mentionnez vos sources dans le rapport (sinon, cela s'appelle du plagiat, et cela peut être puni par un conseil de discipline).

Les quelques lignes de code ci-dessous lisent simplement les fichiers sources et affiche la taille des données.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import random


df_train_in = pd.read_csv("train_input.csv")
df_train_in = df_train_in.drop(columns=['ID'])
X_complet = df_train_in.to_numpy()
df_train_out = pd.read_csv("train_output.csv")
df_train_out = df_train_out.distance
y_complet = df_train_out.to_numpy()
print("taille des données:")
print("X:", X_complet.shape)
print("Y:", y_complet.shape)

df_test_in = pd.read_csv("test_input.csv")
df_test_in = df_test_in.drop(columns=['ID'])
Xtest = df_test_in.to_numpy()
print("test:", Xtest.shape)

taille des données:
X: (1837079, 24)
Y: (1837079,)
test: (1837080, 24)
[[4 1 1 ... 3 5 3]
 [6 5 2 ... 3 5 2]
 [5 3 3 ... 2 5 2]
 ...
 [3 3 3 ... 1 5 2]
 [5 3 5 ... 6 5 1]
 [3 1 4 ... 2 5 3]]


In [3]:
print("moyenne coups : " + str(df_train_out.distance.mean()))
print("mediane coups : " + str(df_train_out.distance.median()))
print("Nom des classes: ", df_train_out.distance.unique())
print("Nombre d'observations dans chacune des classes:\n", df_train_out.distance.value_counts().sort_index(ascending=True))

moyenne coups : 10.66639050362015
mediane coups : 11.0
Nom des classes:  [11  9 12 10  8  7 13  6  5  3  4  2 14  1]
Nombre d'observations dans chacune des classes:
 1          3
2         13
3         60
4        267
5       1128
6       4485
7      16529
8      57074
9     180254
10    465294
11    675426
12    391268
13     45140
14       138
Name: distance, dtype: int64


In [None]:
for idx, row in df_train_in.iterrows():
    for idx2, row2 in df_train_in.iterrows():
        if(idx2 < idx):
            pass
            #on a déjà comparé ces deux lignes entre elles
        else:
            tab = [0, 0, 0, 0, 0, 0]
            if(idx != idx2):
                i = 1
                while(i<25):
                    if(tab[row[i]-1] == 0):
                        tab[row[i]-1] = row2[i]
                    elif(tab[row[i]-1] != row2[i]):
                        i = 30
                    i += 1
                if(i < 30):
                    print(row)
                    print(y[idx][1])
                    print(row2)
                    print(y[idx2][1])

Notre première approche a été de tester le score que l'on aurait en faisant de l'aléatoire.
Comme les données d'entraînement et de test ont le même nombre (à 1 près) de données, on a repris les mêmes proportions des différentes distances dans les données d'entraînement (on les a affiché plus haut) et on les a remises aléatoirement sur les données de test
Cette première approche nous a permis d'obtenir un score de 1.2475036470921244 sur le site du challenge.

In [10]:
rdm_distance = df_train_out.distance.tolist()
rdm_distance.append(11) #dans le jeu de test il y a une ligne en plus, on a donc rajouté 11 comme distance car c'est la distance majoritaire
random.shuffle(rdm_distance)
df_test_out_rdm = pd.DataFrame(list(zip(df_test_in.ID.tolist(), rdm_distance)), columns=['ID', 'distance'])
df_test_out_rdm.to_csv('test_output_random.csv', index=False)

In [9]:
#sélection d'une partie des données
#sélection de 50% des données pour les classes les plus volumineuses

df_train_out_sep = [[]for i in range(7)]

for idx, valeur in df_train_out.iterrows():
    if(valeur.distance == 7):
        df_train_out_sep[0].append(idx)
    elif(valeur.distance == 8):
        df_train_out_sep[1].append(idx)
    elif(valeur.distance == 9):
        df_train_out_sep[2].append(idx)
    elif(valeur.distance == 10):
        df_train_out_sep[3].append(idx)
    elif(valeur.distance == 11):
        df_train_out_sep[4].append(idx)
    elif(valeur.distance == 12):
        df_train_out_sep[5].append(idx)
    elif(valeur.distance == 13):
        df_train_out_sep[6].append(idx)

for i in range(len(df_train_out_sep)):
    print(len(df_train_out_sep[i]))


16529
57074
180254
465294
675426
391268
45140


In [11]:
for i in range(len(df_train_out_sep)): #mélanger avant d'en garder seulement 50%
    random.shuffle(df_train_out_sep[i])

df_train_out_sep2 = []
for i in range(len(df_train_out_sep)):
    for j in range(round(len(df_train_out_sep[i])/2)): #on prend que 50% de la base de données
        df_train_out_sep2.append(df_train_out.loc[df_train_out_sep[i][j]])

In [12]:
for idx, valeur in df_train_out.iterrows():
    if(valeur.distance < 7 or valeur.distance == 14):
        df_train_out_sep2.append(valeur)

df_train_out_sep3 = pd.DataFrame(data=df_train_out_sep2,index=[i for i in range(len(df_train_out_sep2))], columns=['ID','distance'])
df_train_out_reduit = df_train_out_sep3.sample(frac=1).reset_index(drop=True) #melanger pour que ce ne soit pas trié par classe
df_train_out_reduit.to_csv('train_out_reduit.csv', index=False)

In [16]:
df_train_out_reduit = pd.read_csv("train_out_reduit.csv")
train_in_red = []
for idx, valeur in df_train_out_reduit.iterrows():
    train_in_red.append(df_train_in.loc[valeur.ID])

df_train_in_reduit = pd.DataFrame(data=train_in_red,index=[i for i in range(len(df_train_out_reduit))], columns=['ID','pos0','pos1','pos2','pos3','pos4','pos5','pos6','pos7','pos8','pos9','pos10','pos11','pos12','pos13','pos14','pos15','pos16','pos17','pos18','pos19','pos20','pos21','pos22','pos23'])
df_train_in_reduit.to_csv('train_in_reduit.csv', index=False)
print(df_train_in_reduit)

             ID  pos0  pos1  pos2  pos3  pos4  pos5  pos6  pos7  pos8  ...  \
0       1426607     4     3     2     6     1     6     6     6     1  ...   
1        293988     5     3     5     1     5     6     6     1     6  ...   
2        648371     3     4     1     3     2     2     6     3     4  ...   
3       1405346     1     3     2     6     5     5     6     4     4  ...   
4          2611     3     1     5     5     2     4     6     6     2  ...   
...         ...   ...   ...   ...   ...   ...   ...   ...   ...   ...  ...   
921581   373362     5     3     1     2     2     6     6     1     2  ...   
921582  1708502     3     2     6     4     2     3     6     5     1  ...   
921583   648328     3     1     1     4     5     2     6     6     1  ...   
921584  1622948     1     4     4     5     1     2     6     2     2  ...   
921585  1819791     1     6     4     6     4     1     6     5     2  ...   

        pos14  pos15  pos16  pos17  pos18  pos19  pos20  pos21 

In [5]:
#visualisation code précédent
import pandas as pd
import numpy as np
import random

test = [[]for i in range(2)]
test2 = np.array([[0,1], [1,1], [2,2], [3,3], [4,4], [5,3], [6,2], [7,1], [8,1]])
inp = np.array([[0,1,4], [1,1,5], [2,2,7], [3,3,3], [4,4,5], [5,3,7], [6,2,0], [7,1,2], [8,1,9]])
test3 = pd.DataFrame(data=test2,columns=['id','nom'])
inp2 = pd.DataFrame(data=inp,columns=['id','pos1', 'pos2'])

print(test3)
print(inp2)

for idx, valeur in test3.iterrows():
    if(valeur.nom == 1):
        test[0].append(idx)
    elif(valeur.nom == 2):
        test[1].append(idx)


for i in range(len(test)):
    random.shuffle(test[i])

test4 = []
for i in range(len(test)):
    for j in range(round(len(test[i])/2)): #on prend que 50% de la base de données
        test4.append(test3.loc[test[i][j]])

for idx, valeur in test3.iterrows():
    if(valeur.nom > 2):
        test4.append(valeur)
    
test5 = pd.DataFrame(data=test4,index=[i for i in range(len(test4))], columns=['id','nom'])
test5_shuffled=test5.sample(frac=1).reset_index(drop=True)
print(test5_shuffled)

inp3 = []
for idx, valeur in test5_shuffled.iterrows():
    inp3.append(inp2.loc[valeur.id])

inp4 = pd.DataFrame(data=inp3,index=[i for i in range(len(test5_shuffled))], columns=['id','pos1', 'pos2'])
print(inp4)


   id  nom
0   0    1
1   1    1
2   2    2
3   3    3
4   4    4
5   5    3
6   6    2
7   7    1
8   8    1
   id  pos1  pos2
0   0     1     4
1   1     1     5
2   2     2     7
3   3     3     3
4   4     4     5
5   5     3     7
6   6     2     0
7   7     1     2
8   8     1     9
   id  nom
0   3    3
1   2    2
2   4    4
3   1    1
4   0    1
5   5    3
   id  pos1  pos2
0   3     3     3
1   2     2     7
2   4     4     5
3   1     1     5
4   0     1     4
5   5     3     7


In [None]:
import pandas as pd
import numpy as np


df_train_in_reduit = pd.read_csv("train_in_reduit.csv")
X_reduit = df_train_in_reduit.to_numpy()
df_train_out_reduit = pd.read_csv("train_out_reduit.csv")
y_reduit = df_train_out_reduit.to_numpy()

df_test_in = pd.read_csv("test_input.csv")
Xtest = df_test_in.to_numpy()

In [6]:
from sklearn.neighbors import KNeighborsClassifier

kppv = KNeighborsClassifier(n_neighbors=5,  metric='euclidean')
kppv.fit(X_reduit, y_reduit)
out = kppv.predict(Xtest)
print(out)

df_test_out_reduit_kppv = pd.DataFrame(list(zip(df_test_in.ID.tolist(), out)), columns=['ID', 'distance'])
df_test_out_reduit_kppv.to_csv('test_out_reduit_kppv.csv', index=False)

NameError: name 'X_reduit' is not defined

In [10]:
from sklearn.neural_network import MLPClassifier

mlp = MLPClassifier(hidden_layer_sizes=(50,40,30,24), max_iter=1000)
mlp.fit(X_complet, y_complet)
out = mlp.predict(Xtest)
print(out)

[11 11 11 ... 11 11 11]


In [11]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.neural_network import MLPClassifier

pipe = make_pipeline(StandardScaler(), PCA(n_components=10), MLPClassifier(hidden_layer_sizes=(50,50,50), max_iter=1000))
pipe.fit(X_complet, y_complet)
out = pipe.predict(Xtest)
print(out)
#que des 11

KeyboardInterrupt: 

In [9]:
from sklearn.decomposition import PCA

print("X:", X_complet.shape)
pca = PCA(n_components='mle')
pca.fit_transform(X_complet)
print(pca.explained_variance_ratio_)
print(X_complet)
print("X:", X_complet.shape)
#out = pca.predict(Xtest)
#print(out)

X: (1837079, 24)
[0.05471462 0.05466935 0.05463578 0.05460393 0.054564   0.05453374
 0.05452152 0.05448935 0.05446838 0.0544395  0.05441882 0.05434077
 0.05433003 0.05430834 0.03956166 0.03952672 0.03951675 0.03948719
 0.03946538 0.03940416]
[[4 1 1 ... 3 5 3]
 [6 5 2 ... 3 5 2]
 [5 3 3 ... 2 5 2]
 ...
 [3 3 3 ... 1 5 2]
 [5 3 5 ... 6 5 1]
 [3 1 4 ... 2 5 3]]
X: (1837079, 24)


In [12]:
print("moyenne coups : " + str(out.mean()))
print("Nom des classes: ", np.unique(out))
print("Nombre d'observations dans chacune des classes:\n", np.bincount(out))

moyenne coups : 11.000090905132057
Nom des classes:  [11 12 13]
Nombre d'observations dans chacune des classes:
 [      0       0       0       0       0       0       0       0       0
       0       0 1836926     141      13]


In [13]:
df_test_in = pd.read_csv("test_input.csv")
df_test_out_neural = pd.DataFrame(list(zip(df_test_in.ID.tolist(), out)), columns=['ID', 'distance'])
df_test_out_neural.to_csv('test_output_neural_2.csv', index=False)