# PART 3 - Machine Learning models
#### Dans cette partie, nous allons diviser nos données, créer des features (OneHot, TF-IDF) et construire nos modèles (Baselines et modèles améliorés)

In [2]:
from preprocessing import Preprocess, split_data


In [3]:
parquet_data_path = "../data/"
preprocess = Preprocess()
df = preprocess.create_dataframe(parquet_data_path, preprocess=True)

part-00000-1b8fcd71-6348-4510-a9dc-bdd7dcf82f2d-c000.snappy.parquet
part-00001-1b8fcd71-6348-4510-a9dc-bdd7dcf82f2d-c000.snappy.parquet
part-00002-1b8fcd71-6348-4510-a9dc-bdd7dcf82f2d-c000.snappy.parquet
part-00003-1b8fcd71-6348-4510-a9dc-bdd7dcf82f2d-c000.snappy.parquet
part-00004-1b8fcd71-6348-4510-a9dc-bdd7dcf82f2d-c000.snappy.parquet


In [4]:
df

Unnamed: 0,target,day,sous_domaine,domaine,top_domaine,tokens_path,100,1000,1001,1002,...,990,991,992,993,994,995,996,997,998,999
0,"[1831, 1751, 1192, 745, 1703]",4,www,cdiscount,com,bricolag electricit batter plomb ah ova toplux...,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,"[847, 978, 582, 1381, 529]",4,www,mystalk,net,profil vitoriafcorr,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,"[20, 1077, 294]",4,www,lequipe,fr,ten ten fich joueur,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,"[381, 935, 1343, 622, 933]",4,m,jeuxvideo,com,forum guild fourm legionnair recrut,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,"[692, 1265, 725, 1264, 1266]",4,context,reverso,net,traduct espagnol franc ir,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67590,"[1276, 65, 1113]",1,www,jeu-concours,biz,gagn cafetier expresso,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
67591,"[608, 617, 1033, 220, 1021]",1,www,sto,cx,book,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
67592,"[381, 925, 622, 1494, 937]",16,www,jeu,info,solut imag mot niveau,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
67593,"[638, 253, 419, 558, 401]",1,grossesse,aufeminin,com,forum levr gonfle accouch fd,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


#### Trois approches peuvent etre prises pour la colonne sous_domaine:
- La prétraiter (enlever les www et les lettres, tokenizer...) et l'ajouter à la colonne path pour former une description
- L'enlever 
- La prétraiter afin de construire une feature catégorielle.

Pour l'instant nous allons l'enlever

## Construction des features à partir du path
Différentes approches peuvent etre utilisées sur la colonne path:
#### L'utilisation de TF-IDF 
- TF-IDF: refléte l'importance d'un mot pour un document dans une collection (corpus) mais ne prend pas en compte le sens sémantique des mots. TF signifie la probabilité d'occurrence d'un mot dans une phrase.
- TF-IDF donne plus d'importance aux mots qui apparaissent moins fréquemment dans l'ensemble du corpus et donne également de l'importance aux mots les plus fréquents qui apparaissent dans chaque donnée.

Nous testerons les featurizations suivantes:
- TF-IDF: unigrams, bigrams, trigrams et word n-grams.
- TF-IDF based character: unigrams, bigrams, trigrams. (considérer une séquence de caractères plutôt qu'une séquence de mots)


#### L'utilisation des Embeddings (word2vec)
- Word2vec est l'un des modèle de l'état de l'art pour les embeddings.  Il permet de convertir du texte en vecteurs numériques tout en préservantles relations sémantiques entre les mots.
- vecteur de 300 dimensions 

#### L'utilisation d'une combinaison de TF-IDF et moyenne des Embeddings:
Nombiner les n-grammes de caractères avec les vecteurs obtenus avec Word2Vec

In [5]:
X_train, X_test, y_train, y_test, target_train, target_test = split_data(df, test_size=0.25)

(50696, 6)
(16899, 6)
Index(['day', 'domaine', 'top_domaine', 'tokens_path'], dtype='object')
Index(['day', 'domaine', 'top_domaine', 'tokens_path'], dtype='object')


Unnamed: 0,100,1000,1001,1002,1003,1004,1005,1006,1007,1008,...,990,991,992,993,994,995,996,997,998,999
30148,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15704,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
52540,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
8398,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
36748,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
62728,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
38339,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
49071,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
59229,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


## Réduction de la dimension des labels
Nous avons 1903 labels pour notre target ce qui reprensente un nombre assez elevé pour de la classification multi-label.
Nous allons donc effectuer une réduction sur l'espace de dimension des labels.
Plusieurs algorithmes existent pour la réduction de l'espace des labels: compressed sensing (CS) et la  Principal Label Space Transformation (PLST) qui est l'équivalente du PCA sur les features. Egalement des techniques d'embeddings entre targets
Contrairement à ces techniques qui sont indépendentes de nos entrées, il en existe aussi d'autres qui le sont comme par exemple la CPLST ( Conditional Principal Label Space Transformation ) 

Un autre moyen serait d'essayer d'utiliser une approches par embedding sur les labels afin d'extraire les labels qui sont souvent ensemble.


Pour la classification multi-label, il existe une librarie nommée `scikit-multilearn` qui s'appuie sur la librarie scikit-learn. Elle contient aussi un wrapper autour de  MEKA qui propose une implémentation des méthodes d'apprentissage et d'évaluation multi-labels.