# Etude de cas CDiscount à l'aide de l'environnement python : pandas et scikit-learn

Ce notebook vous propose une trame de travail pour le cas CDiscount à l'aide de pandas et de scikit-learn. Il reprend les différentes étapes de l'énoncé.


## 0. Importation des premiers modules.

Nous nous baserons ici sur la bibliothèque `pandas` et `scikit-learn`. Votre premier travail consiste donc à les installer si ce n'est pas le cas avec la commande `pip` ou `conda` selon comment vous avez installé python sur votre ordinateur. Nous aurons aussi besoin de la bibliothèque `nltk` ([`spaCy`](https://spacy.io/) plus récente mais de plus en plus repandue pourrait aussi être utilisée pour cette partie) pour travailler sur les données qui sont des données textuelles ainsi que du module [`time`](https://docs.python.org/3.7/library/time.html) de python pour permettre de mesurer les performances en terme de temps de calcul des différentes étapes.

Vous pouvez vous référer à la documentation :
 + Pour pandas: [ici](https://pandas.pydata.org/pandas-docs/stable/install.html)
 + Pour scikit-learn : [ici](https://scikit-learn.org/stable/)
 + Pour nltk : [ici](https://www.nltk.org/install.html)


In [1]:
# coding: utf-8 
# TO DO : Importer les modules principaux nécéssaires à cette étude de cas


# PANDAS : e.g import pandas as pd
import pandas as pd
# NUMPY 
import numpy as np

# CSV pour le chargement des données

# TIME pour la mesure des performances
import time
# nltk pour le traitement des données textuelles
import nltk

## 1. Importation des données

Il s'agit ici de préparer votre répertoire de travail et de définir les différentes variables globales de votre projet.
Il faudra donc:
 + Télécharger les fichiers `Categorie_reduit.csv` et `lucene_stopwords.txt` disponibles [ici](https://drive.google.com/drive/folders/1lssbStcS1acUO4AFlWCKOwel4dLTSylo?usp=sharing).
 + Les placer dns le répertoire `.\Data` dans votre répertoire de travail afin de pouvoir y accèder facilement.
 + Définir la variable `HEADER_CDISCOUNT_DATA =['Categorie1','Categorie2','Categorie3','Description','Libelle','Marque']` pour pouvoir accèder plus facilement aux données.
 + Créer un dataframe pandas à partir du fichier csv et dont les champs sont ceux définis dans la variable `HEADER_CDISCOUNT_DATA`.
 + Si vous avez des problèmes d'encodage, fréquents avec les caractères accentués en Français, vous pouvez prendre le temps de lire ce [tutoriel](http://sametmax.com/lencoding-en-python-une-bonne-fois-pour-toute/) ou 
 + Completer les données manquantes par une chaine de caractères vide.
 + Afficher les 10 premières lignes du dataframe obtenu


In [2]:
# TO DO

HEADER_CDISCOUNT_DATA =['Categorie1','Categorie2','Categorie3','Description','Libelle','Marque']
# TO COMPLETE
df = pd.read_csv('./Data/Categorie_reduit.csv'
                 , sep = ';'
                 , names = HEADER_CDISCOUNT_DATA)
df.fillna(np.NaN, inplace = True)


In [3]:
df.head(10)


Unnamed: 0,Categorie1,Categorie2,Categorie3,Description,Libelle,Marque
0,1000014006,1000015308,1000015309,La chamade de Françoise Sagan - La chamade de...,La chamade de Françoise Sagan,AUCUNE
1,1000005258,1000005707,1000005986,Protections diverses - Derbi - 50 - Senda - Pr...,Protections diverses - Derbi - 50 - Senda,AUCUNE
2,1000008694,1000008920,1000008939,AUDI TT 1/40 GRISE RC - AUDI TT 1/40 GRISE RC…...,AUDI TT 1-40 GRISE RC,JAMARA
3,193,1449,194,La Sangre Llama - Personnel includes: Luis Var...,La Sangre Llama,AUCUNE
4,1000010560,1000010623,1000010653,Coque souple Bleue pour LG G3 motif Drapeau fi...,Coque souple Bleue pour LG G3 motif Drapeau fin…,MUZZANO
5,1000010096,1000010097,1000010110,Bracelet manchette turquoise pastel de grandes...,Bracelet manchette turquoise pastel de grandes...,AUCUNE
6,1000010220,1000010327,1000010334,Casquette ETNIES Catch 22 Artbl - Casquette ET...,Casquette ETNIES Catch 22 Artbl,Etnies
7,1000013441,1000013731,1000013776,Little John pour Flûte et Piano - Auteur: Mich...,Little John pour Flûte et Piano,AUCUNE
8,1000002677,1000002684,1000004580,"Lien nylon Ace - Dimensions 3,6 x 180 mm - Par...","Lien nylon Ace - Dimensions 3,6 x 180 mm - Par...",ACE
9,1000012160,1000012240,1000012243,ABATOUT - Laque insecticide spécialement conçu...,ABATOUT,ABATOUT


Combien avez-vous de produits dans le fichier ?

In [4]:
# TO DO : afficher les informations sur le nombre d'éléments dans le fichier.
print(df.shape[0], "fichiers")

1000000 fichiers


Le fichier a beaucoup de lignes. Dans un premier temps, nous allons travailler sur une sous-partie des données. Definissez une variable `nb_lines` permettra de tester sur un nombre restreint de lignes des données source. Vous pouvez par exemple vous limitez à 20000 lignes au début.

In [5]:
nb_lines = 20000
# TO COMPLETE
df_limited = df.iloc[:20000,:]
# TO COMPLETE


## 2. Séparation des données en un ensemble d'apprentissage et un ensemble de validation.

Nous allons ici séparer l'ensemble des données disponibles en 2 sous-ensembles, un ensemble pour apprendre le modèle de prédiction, i.e. l'ensemble d'apprentissage et un ensemble de validation. Pour cela nous allons utiliser la bibliothèque `scikit-learn`, qu'il faudra donc importer et sa fonction [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) du module [`model_selection`](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.model_selection). 

Il vous faudra ici pouvoir mesurer le temps mis pour réaliser cette opération avec le module `time` de python.

In [6]:
# TO DO
# Importer la fonction train_test_split de scikit_learn
from sklearn.model_selection import train_test_split

# TO COMPLETE : fonction split_dataset qui sépare un jeu de donnés initial en 2 sous ensembles en fonction de la valeur donnée dans taux_sep

def split_dataset(initial_data, taux_sep):
    # TO COMPLETE
    start_time = time.time()
    X_train, X_test = train_test_split(initial_data, train_size= taux_sep )
    end_time = time.time()
    print("elapsed time", end_time-start_time)
    return X_train, X_test

    
# TO COMPLETE = application sur le jeu de données    
taux_sep= 1-0.20
df_train_lm, df_test_lm = split_dataset(df_limited, taux_sep)
df_train, df_test = split_dataset(df, taux_sep)


elapsed time 0.022844791412353516




elapsed time 1.055466890335083


Afficher les 10 premieres lignes des données d'entrainement

In [7]:
# TO DO 
df_train.head(10)

Unnamed: 0,Categorie1,Categorie2,Categorie3,Description,Libelle,Marque
985267,1000010560,1000010623,1000010653,Samsung Galaxy S3 Mini I8190 coque dure case n...,Samsung Galaxy S3 Mini I8190 coque dure case n...,AUCUNE
964344,1000003924,1000011472,1000011473,MICROSCREEN MSC32026 ÉCRAN POUR ORDINATEUR POR...,MICROSCREEN MSC32026 ÉCRAN POUR ORDINATEUR PORT…,AUCUNE
586300,1000010560,1000010623,1000010653,Coque LG Optimus L7 Smartphone angleterre rig...,Coque LG Optimus L7 Smartphone angleterre rigi…,AUCUNE
536214,1000010560,1000010623,1000010653,Coque souple Violette pour LG G FLEX motif I L...,Coque souple Violette pour LG G FLEX motif I LO…,MUZZANO
650788,1000010560,1000010623,1000010653,Coque Kindle Fire HD 7 pouces (Version 2013) –...,Coque Kindle Fire HD 7 pouces (Version 2013) – …,SUTEO
922020,1000010560,1000010623,1000010667,Housse Pull Tab Taille S Apple iPod Touch 5Exc...,Housse Pull Tab Taille S Apple iPod Touch 5,AUCUNE
737860,1000010096,1000010097,1000010108,"Or blanc 375/1000 - Poids moyen de l'or : 0,83...",OR ECLAT Boucles d'Oreilles Or Blanc 375° Femme,OR ECLAT
64308,1000010560,1000010623,1000010647,CHARGEUR SECTEUR CLASSIC 2USB 1AMPÈRE POUR SMA...,CHARGEUR SECTEUR CLASSIC 2USB 1AMPÈRE POUR SMAR…,ENERGIZER
952019,1000014006,1000015308,1000015309,De Michel Ogrizek aux éditions APOGEE,ENVIRONNEMENT ET COMMUNICATION,
754339,1000002514,1000002590,1000002604,Support 130cm en bois et métal pour bois de ch...,Support 130cm en bois et métal pour bois de ch...,MASSIVUM


Afficher les 10 premières lignes du fichier de validation

In [8]:
# TO DO
df_test.head(10)

Unnamed: 0,Categorie1,Categorie2,Categorie3,Description,Libelle,Marque
324069,1000001700,1000012947,1000013019,AMADEUS Porte télécommandes - Porte télécomma...,AMADEUS Porte télécommandes,AMADEUS
410698,1000014006,1000014196,1000014197,En verve,Marcel Proust en verve,AUCUNE
659700,1000014006,1000015308,1000015309,"The Canterbury Tales - Chaucer, Geoffrey - The...","The Canterbury Tales - Chaucer, Geoffrey",AUCUNE
283218,1000003924,1000011422,1000011427,HP OfficeJet 6000 special Edition - Original H...,HP OfficeJet 6000 special Edition - Original HP…,HP
354908,1000010220,1000010327,1000010328,"Cache Oreilles enfant ""Coloriage"" noir - Goute...","Cache Oreilles enfant ""Coloriage"" noir",LES TRESORS DE LILY
812705,1000010560,1000010623,1000010653,Coque souple Grise pour SAMSUNG GALAXY TREND m...,Coque souple Grise pour SAMSUNG GALAXY TREND mo…,MUZZANO
534888,1000010560,1000010623,1000010653,COQUE CIGALE-2 POUR SAMSUNG GALAXY NOTE 2 COQ0...,COQUE CIGALE-2 POUR SAMSUNG GALAXY NOTE 2 COQ00…,AUCUNE
932863,1000002514,1000002515,1000002518,Console en bois Saul - Console en bois Saul. C...,Console en bois Saul,J. LINE
898460,1000005258,1000005707,1000005918,Kit Gros Freins K-Sport 6 Pistons VOLKSWAGEN C...,Kit Gros Freins K-Sport 6 Pistons VOLKSWAGEN CO…,AUDI
71410,1000010560,1000010623,1000010667,Housse Portfolio Moxie Venezia Rouge - Nokia L...,Housse Portfolio Moxie Venezia Rouge - Nokia Lu…,AUCUNE


## 3. Nettoyage des données

Nous devons traiter des données textuelles et il nous faudra donc construire une représentation numérique de ces données. Pour cela, il est d'abord nécessaire de nettoyer ces données. 

Dans cette étude de cas, nous représenterons les données à partir de la liste des mots les constituant et il faudra donc :
 + Construire un dictionnaire de mots. Ce dictionnaire de mot sera l'espace de représentation de vos données. Pour cela, il  vous faut : 
  + Découper le texte en mots.
   + Nettoyer le texte, le simplifier : suppression des ponctuations, des termes numériques, des caractéres mal codés, passage de tous les mots en minuscules.
   + Supprimer les mots non porteurs de sens (ou stop words) à l'aide de la liste `lucene_stopwords.txt`.
   + Lemmatiser ou Raciniser (transformer un mot en sa forme canonique) afin de reduire la taille du dictionnaire et donc l'espace de représentation des données.

Vous vous appuirez pour cela sur la bibliothèque `nltk`. Si vous ne l'avez jamais utilisé, prenez le temps de regarder ce petit tutoriel [ici](https://code.tutsplus.com/fr/tutorials/introducing-the-natural-language-toolkit-nltk--cms-28620).

### Création de la liste de stop words
Combiner la liste de stop-words de nltk (français) avec celle fournie dans le fichier `lucene_stopwords.txt`

In [9]:
## TO DO : listes de mots à supprimer dans la description des produits
from nltk.corpus import stopwords
#print(set(stopwords.words('French')))
## Depuis NLTK
  # TO COMPLETE
stopwords_1 = list(set(stopwords.words('French')))
## Depuis le fichier fourni
  # TO COMPLETE
with open("./Data/lucene_stopwords.txt", "r" ) as txt:
    stopwords_2 = txt.read().split(',')

    
## Union des deux fichiers de stopwords 
  # TO COMPLETE
stopwords = set(stopwords_1 + stopwords_2)
#print(stopwords)


## Fonction de stemming permettant la racinisation pour la language française (ntlk : SnowballStemmmer)
  # TO COMPLETE
from nltk.stem.snowball import SnowballStemmer
def stemmer(word, language):
    stemmer = SnowballStemmer(language)
    return stemmer.stem(word)

language = 'french'
word = 'Marchand'
stemmer(word, language)
    
    

'marchand'

### Fonction de nettoyage

Ecrire une fonction de nettoyage de texte qui prend en entrée un texte et applique les étapes suivantes:
 + Nettoyage des données HTML avec la bibliothèque [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)
 + Passage en minuscule
 + Encodage uniforme
 + Suppression des caractères non alpha numériques (ponctuations) : pensez aux expressions régulières (module `re` - voire la documentation ici)
 + Suppression des stop-words
 + Racinisation

In [10]:
import re
import unicodedata 
import string 

from nltk.tokenize import word_tokenize
from bs4 import BeautifulSoup 



def clean_txt(txt):
    txt = BeautifulSoup(txt,"html.parser",from_encoding='utf_8').get_text()
    ###  TO DO : lower case
    txt = txt.lower()

    ### special escaping character '...'
    txt = txt.replace(u'\u2026','.')
    txt = txt.replace(u'\u00a0',' ')
    ### remove accent btw
    
    #print(txt)
    txt = unicodedata.normalize('NFKD',txt).encode('ascii', 'ignore')
    txt = txt.decode('ascii')
    #print(txt)
    

    ### remove non alphanumeric char
    remove = string.punctuation + '.'+ '-' + '('+ ')'
    table = str.maketrans({key: None for key in remove})
    txt = txt.translate(table)
    #re.sub('[\W_]+', '', txt)    
    
    ### remove french stop words
    parsed_txt = word_tokenize(txt)
    parsed_txt = [x for x in parsed_txt if x not in stopwords]
    
    ### french stemming
    stem = [stemmer(x, 'french') for x in parsed_txt]
    return ' '.join(stem)

    ### tokens = stemmer.stemWords(tokens)


In [11]:
clean_txt(df.iloc[0,3])



'chamad francois sagan chamad francois sagan edit ren julliard 1971 broch voir present'

### Nettoyage de la marque

Il s'agit ici de nettoyer le champ marque en ne gardant que les caractères alpha-numériques (module `re`, documentation [ici](http://www.xavierdupre.fr/app/teachpyx/helpsphinx/c_regex/regex.html) ou [là](https://openclassrooms.com/fr/courses/235344-apprenez-a-programmer-en-python/233857-les-expressions-regulieres) et en passant en minuscules. 

In [12]:
# TO DO
def clean_marque(txt):
    remove = string.punctuation + '.'+ '-' + '('+ ')'
    table = str.maketrans({key: None for key in remove}) 
    try:
        return txt.translate(table)
    except Exception:
        pass
# TO DO : test sur une ligne     

### Nettoyage de l'ensemble des données

Il s'agit ici d'appliquer le nettoyage à l'ensemble des données présentes dans la dataframe. Ecrire une fonction `clean_dataframe` qui permet d'appliquer le nettoyage sur un dataframe. On mesurera ici aussi le temps mis par l'environnement à l'aide du module `time`

In [13]:
# fonction de nettoyage du fichier(stemming et liste de mots à supprimer)

def clean_dataframe(input_data, columns):
    # TO COMPLETE
    start_time = time.time()
    df = input_data.copy(deep = True)
    for c in columns:
        df.loc[:, c] = df.loc[:, c].apply(clean_txt)
    stop_time = time.time()
    print('elapsed time', stop_time - start_time)
    return df

Appliquer la fonction `clean_dataframe` sur votre ensemble réduit de données de validation et d'apprentissage.


In [14]:
# TO DO
df_train_lm = clean_dataframe(df_train_lm, ['Description'])
df_train_lm.head()

  ' Beautiful Soup.' % markup)


elapsed time 54.35039687156677


Unnamed: 0,Categorie1,Categorie2,Categorie3,Description,Libelle,Marque
17812,1000010560,1000010623,1000010653,coqu soupl noir sony xperi z motif drapeau cam...,Coque souple Noire pour SONY XPERIA Z motif Dra…,MUZZANO
9987,1000010096,1000010097,1000010136,sikh khand colli coeur or 18 carat plaqu colli...,Sikh Khanda Collier Coeur - or 18 carats plaqu...,AUCUNE
3421,1000014006,1000015308,1000015309,nicol barrier martin glomeron edit harmattan,Attention travail ! recueil de poèmes contempo...,
19499,1000008694,1000008920,1000008939,tamii 56512 radio command camion rou aluminium...,TAMIYA - 56512 - RADIO COMMANDE - CAMION - ROUE…,TAMIYA
8186,1000010560,1000010623,1000010641,cabl synchronis micro usb longueur cabl 20cm,Cable sync micro USB pour Huawei Ascend Y600,AUCUNE


In [15]:
df_test_lm = clean_dataframe(df_test_lm, ['Description'])
df_test_lm.head()

elapsed time 12.712611198425293


Unnamed: 0,Categorie1,Categorie2,Categorie3,Description,Libelle,Marque
4153,1000003924,1000003930,1000004079,aliment electr bloc secteur lg f1 aliment elec...,Alimentation électrique / Bloc secteur pour LG F1,POWERY
636,1000014006,1000014196,1000014202,folio,L'Erreur,AUCUNE
18571,1000010560,1000010623,1000010653,coqu stuff4 coqu htc one1 m7 galaxy vagu envel...,Coque de Stuff4 / Coque pour HTC One/1 M7 / Ga...,AUCUNE
17993,193,1449,194,sufro porqu quiero studio cdcec stereo cd trac...,Sufro Porque Te Quiero,AUCUNE
3303,1000010560,1000010623,1000010653,iphon 5 5 coqu houss protect cuir pu rayur mul...,Iphone 5 - 5S : Coque Housse de Protection Cuir…,AUCUNE


Appliquer la fonction `clean_dataframe` sur votre ensemble entier de données de validation et d'apprentissage. Attention cette opération peut être un peu longue. Assurez-vous de ne pas utiliser de fonction `print` de manière abusive.

In [None]:
# TO DO
df_test = clean_dataframe(df_test, ['Description'])
df_test.head()

In [None]:
df_train = clean_dataframe(df_train, ['Description'])
df_train.head()

## 3.  Représentation des données.

Pour représenter nos données (i.e. la description textuelle des produits), pluieurs principes seront utilisés et comparés :

 + L'approche de représentation d'un document textuel par un sac de mots de type `one_hot_encoding` avec scikit-learn comme expliqué [ici](scikit-learn)
 + L'approche de représentation d'un document textuel par un sac de mots et une pondération [tf-idf](https://fr.wikipedia.org/wiki/TF-IDF) vue dans les premiers cours. De nombreux modules sont disponibles dans scikit-learn, notamment [ici](https://scikit-learn.org/stable/modules/feature_extraction.html#the-bag-of-words-representation) pour son implémentation.
 + Une approche de hachage qui est une des techniques utilisées pour le traitement des données massives. Elle consiste à réduire fortement le volume de calculs à faire sur les données en réduisant l'ordre de complexité des calculs à faire par l'exploitation des caractéristiques de similarité des données. Ici aussi, vous pouvez tirer partie des modules existants dans scikit-learn décrits [ici](https://scikit-learn.org/stable/modules/feature_extraction.html#vectorizing-a-large-text-corpus-with-the-hashing-trick).
 + Une représentation de type word2vec avec la bibliothèque [gensim](https://radimrehurek.com/gensim/).
 

#### Sacs de mots (One-Hot-Encoding)

Ecrire la fonction ` data_one_hot_encoding_representation` qui construit la représentation `one-hot-encoding` de votre jeu de données de description et qui retourne cette représentation, le vocabulaire obtenu associé ainsi que le vectorizer et la fonction `apply_data_one_hot_encoding_representation` qui utilise le vectorizer pour la représentation du jeu de données de validation



In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# TO DO

def data_one_hot_encoding_representation(data_train):
    vectorizer = CountVectorizer()
    representation = vectorizer.fit_transform(data_train.loc[:,'Description'].tolist())
    return vectorizer, vectorizer.get_feature_names(), representation
    
# TO COMPLETE
def apply_data_one_hot_encoding_representation(data_valid,vec):
    representation = vec.fit_transform(data_valid.loc[:,'Description'].tolist())
    return representation
# TO COMPLETE


Appliquer cette fonction à votre jeu de données d'apprentissage et de validation.

In [None]:
# TO DO
vec, vocab, rpz_train = data_one_hot_encoding_representation(df_train)

rpz_test = apply_data_one_hot_encoding_representation(df_test, vec)

In [None]:
rpz_train.toarray()

#### Sacs de mots - TF IDF

Ecrire la fonction ` data_tf_idf_encoding_representation` qui construit la représentation `TF-IDF` d'un jeu de données et qui retourne cette représentation ainsi que le vocabulaire obtenu associé et le vectorizer et une fonction `apply_data_tf_idf_encoding_representation` qui permet d'appliquer le vectorizer sur le jeu de données de validation 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

def data_tf_idf_encoding_representation(data_train):
# TO COMPLETE

def apply_data_tf_idf_encoding_representation(data_valid,vec):
# TO COMPLETE

Appliquer cette fonction à votre jeu de données d'apprentissage et de validation.


In [None]:
# TO DO 


#### Hachage

Ecrire la fonction `data_hash_encoding_representation` qui construit la représentation par hachage de votre jeu de données de description et qui retourne cette représentation et le vectorizer et une fonction `apply_data_hash_encoding_representation` qui permet d'appliquer le vectorizer sur le jeu de données de validation 

In [None]:
from sklearn.feature_extraction import FeatureHasher
import collections

def data_hash_encoding_representation(data_train,nb_hash):
# TO COMPLETE


def apply_data_hash_encoding_representation(data_valid,vec):
# TO COMPLETE   

Appliquer cette fonction à votre jeu de données d'apprentissage 

In [None]:
# TO DO


#### (Optionel ) Word2Vec

Pour représenter les données avec une représentation distribuée, nous pouvons utiliser la bibliothèque `gensim`. La documentation est [ici](https://radimrehurek.com/gensim/models/word2vec.html).




In [None]:
# TO COMPLETE

import gensim

def data_word2vec_representation(data_train):
# TO COMPLETE


def apply_word2vec_representation(data_valid):
# TO COMPLETE   

### Construction de la représentation

Ecrire deux fonctions `vectorizer_train` and `apply_vectorizer` permettant de générer automatiquement différents dataframe d'apprentissage et de validation vectorisés avec les différentes approches précédentes. 

In [None]:
def vectorizer_train(df, columns=['Description'], nb_hash=None, nb_gram = 1, vectorizer = "tfidf" , binary = False):
    # TO COMPLETE


def apply_vectorizer(df, vec, feathash, columns =['Description']):
     # TO COMPLETE

## 4.  Apprentissage et performance

Différentes techniques de classification seront utilisées pour la catégorisation des produits et leur performance seront évaluées et comparées :

 + Regression Logistique, documentée [ici](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
 + Les arbres de décision avec la méthode CART, documentée [ici](https://scikit-learn.org/stable/modules/tree.html)
 + Les Random Forests, documentés [ici](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
 
Pour chacune des méthodes, il faudra mesurer le temps mis pour apprendre le modèle sur notre jeu de données.


### Regression Logistique 

In [None]:
# Regression Logistique 
## estimation
from sklearn.linear_model import LogisticRegression

# TO COMPLETE

In [None]:
## erreur en validation
# TO COMPLETE

### Arbres de décision

In [None]:
from sklearn import tree
# TO COMPLETE

In [None]:
## erreur en validation
# TO COMPLETE

### Random Forests


In [None]:
# Random forest
from sklearn.ensemble import RandomForestClassifier
# TO COMPLETE

In [None]:
## erreur en validation
# TO COMPLETE


Vous avez fini ici la mise en place de la chaine de traitements. Pour étudier la performance de cette chaîne dans le contexte de données massives, mesurez l'évolution du temps d'execution du nettoyage, de la représentation et de l'apprentissage en fonction de la taille de l'échantillon d'apprentissage. 

In [None]:
# TO DO
