# Chargement des données et séparation des features et target

Avant tout préprocessing, on établit la séparation des données de train et de test afin de limiter la possibilité de data leak entre les jeux de données de train et de test.

In [1]:
import pandas as pd
import numpy as np
from collections import Counter

from sklearn.model_selection import train_test_split

from imblearn.pipeline import Pipeline
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler

X = pd.read_csv("../data/X_train_update.csv", index_col = 0)
y = pd.read_csv("../data/Y_train_CVw08PX.csv", index_col = 0)

# Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

On sait que la classe 2583 (accessoires de piscines) est sur représentée dans le jeu de données. Nous avons décidé de :
- faire de l'undersampling aléatoire pour diminuer sa présence à 3% au lieu de 12%
- faire de l'oversampling aléatoire à 3% pour les classes minoritaires

Cela permet d'équilibrer les classes présentes et améliorer les performances de l'apprentissage.

In [2]:
print("Train avant over et undersampling :")
print(y_train['prdtypecode'].value_counts(normalize=True) * 100)

# Calcul des effectifs
counts = Counter(y_train['prdtypecode'])
n_total = len(y_train)
target_ratio = 0.06

# Construction d'une sampling_strategy d'over et undersampling
undersampling_strategy = {
    2583: int(n_total * target_ratio)
}
oversampling_strategy = {}
for cls, count in counts.items():
    current_ratio = count / n_total
    if current_ratio < target_ratio:
        oversampling_strategy[cls] = int(n_total * target_ratio)

# Application de l'over et undersampling avec un pipeline
pipeline = Pipeline(steps=[
    ('under', RandomUnderSampler(sampling_strategy=undersampling_strategy, random_state=42)),
    ('over', RandomOverSampler(sampling_strategy=oversampling_strategy, random_state=42))
])

X_train, y_train = pipeline.fit_resample(X_train, y_train)

print("\nTrain après over et undersampling :")
print(y_train['prdtypecode'].value_counts(normalize=True) * 100)

print("\nTest reste inchangé :")
print(y_test['prdtypecode'].value_counts(normalize=True) * 100)

Train avant over et undersampling :
2583    12.022316
1560     5.973621
1300     5.941235
2060     5.879409
2522     5.874993
1280     5.735147
2403     5.621798
2280     5.605606
1920     5.066832
1160     4.654655
1320     3.817052
10       3.669846
2705     3.251781
1140     3.145793
2582     3.048637
40       2.952953
2585     2.939704
1302     2.933816
1281     2.437732
50       1.979921
2462     1.673733
2905     1.027498
60       0.980392
2220     0.970088
1301     0.950951
1940     0.945063
1180     0.899429
Name: prdtypecode, dtype: float64

Train après over et undersampling :
1280    3.703704
2905    3.703704
1140    3.703704
50      3.703704
2220    3.703704
2280    3.703704
1320    3.703704
40      3.703704
2403    3.703704
2462    3.703704
1180    3.703704
2522    3.703704
1560    3.703704
2585    3.703704
1920    3.703704
2582    3.703704
1302    3.703704
2583    3.703704
1301    3.703704
1940    3.703704
1300    3.703704
2705    3.703704
2060    3.703704
10      3.703704



# Preprocessing des données

In [3]:
from scipy.sparse import hstack, csr_matrix

# Traitement des variables textuelles
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.snowball import FrenchStemmer

# Stopwords

html_stopwords = [
    'html', 'head', 'body', 'div', 'span', 'p', 'br', 'a', 'img', 'ul', 'li', 'ol', 'table',
    'tr', 'td', 'th', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'b', 'i', 'u', 'strong', 'em',
    'eacute', 'agrave'
]
punctuation_words = [",", ".", "``", "@", "*", "(", ")", "...", "!", "?", "-", 
                  "_", ">", "<", ":", "/", "=", "--", "©", "~", ";", "\\", "\\\\"]
final_stopwords = stopwords.words('english') + stopwords.words('french') + html_stopwords + punctuation_words


# Stemming and processing

stemmer = FrenchStemmer()

def stemming(mots) :
    sortie = []
    for string in mots :
        radical = stemmer.stem(string)
        if (radical not in sortie) : sortie.append(radical)
    return sortie


def preprocessing(text, with_stemming=False):
    text = text.lower()
    tokens = word_tokenize(text)
    result = [word for word in tokens if word not in final_stopwords]
    if with_stemming:
        result = stemming(result)
    return ' '.join(result)


[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/cramarokoto/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## Preprocessing des données textuelles

### Création de la variable `has_description` basée sur la présence de la variable `description`

Nous avons vu lors de l'exploration que la répartition de la présence de description n'est pas homogène parmi les catégories de produits. On peut en déduire que l'absence ou présence de description est une information à part entière qu'il peut être intéressant d'exploiter dans nos modèles.

Nous décidons de créer la variable `has_description` qui vaut :
- 1 si la description est présente
- 0 sinon

In [4]:
# Pour X_train
X_train['has_description'] = X_train['description'].notnull() & (X_train['description'].str.strip() != "")
X_train['has_description'] = X_train['has_description'].astype(int)

# Pour X_test
X_test['has_description'] = X_test['description'].notnull() & (X_test['description'].str.strip() != "")
X_test['has_description'] = X_test['has_description'].astype(int)

### Fusion des variables `designation` et `description` dans `full_description`

La `description` et la `designation` sont toutes les deux des valeurs textuelles libres. Bien que `designation` soit plus courte, elles apportent le même type d'information sur le produit c'est-à-dire sa description et son appellation commune. `description` pouvant être nulle, cela peut être gênant pour son intégration dans les modèles. 

Afin de faciliter le traitement de ces deux valeurs textuelles, nous décidons de les fusionner dans une variable nommée `full_description`

In [5]:
# Pour X_train
X_train['full_description'] = (
    X_train['designation'] + " " + X_train['description'].fillna('')
).str.strip()
# Nettoyage des colonnes inutiles
X_train = X_train.drop(columns=['designation', 'description'])

# Pour X_test
X_test['full_description'] = (
    X_test['designation'] + " " + X_test['description'].fillna('')
).str.strip()
# Nettoyage des colonnes inutiles
X_test = X_test.drop(columns=['designation', 'description'])

### Nettoyage, tokenisation et stemmatisation de la variable `full_description`

In [6]:
result = pd.DataFrame(columns=['preprocessed_full_description', 'full_description'])

for i in X_train.head(10).index:
    current_description = X_train.loc[i, 'full_description']
    result.loc[i, 'full_description'] = current_description
    result.loc[i, 'preprocessed_full_description'] = preprocessing(current_description, with_stemming=True)

display(result)

Unnamed: 0,preprocessed_full_description,full_description
0,ship focus record 31,Ships In Focus Record 31
1,convergent divergent alignment standardsassess...,Convergence Or Divergence: Alignment Of Standa...
2,lecon scienc cour superieur premier anne certi...,Lecons De Sciences - Cours Superieur - Premier...
3,gener women historian,Generations Of Women Historians
4,magnet encycloped spiritual trait spécial fait...,Magnétisme: Encyclopédie Magnétique Spirituali...
5,inglorious art peac exhibit canadian society n...,The Inglorious Arts Of Peace: Exhibitions In C...
6,sylvi souvient-il vi giacomo leopard,Sylvia Te Souvient-Il ? - Vie De Giacomo Leopardi
7,trachom malad pauvret,Le Trachome - Une Maladie De La Pauvreté
8,business associ 2006 statut rul,Business Associations: 2006 Statutes And Rules
9,luun tom 8 l'attrapeur rêv,Luuna Tome 8 - L'attrapeur De Rêves


On note avec l'extrait ci-dessus que la stemmatisation est trop violente sur le contenu de la variable d'une part et qu'il n'est pas adapté sur un contenu multilingue tel que nous avons ici (français, anglais mais aussi parfois allemand). Afin de limiter la perte en information, nous décidons de ne pas appliquer de lemmatisation ni de stemmatisation.

Il aurait aussi été possible de traduire les textes pour uniformiser la langue employée mais cela représente :
- un traitement coûteux
- un risque de perte d'information si la traduction n'est pas de bonne qualité

Comme le jeu de données est conséquent, on peut s'attendre à ce que les algorithme d'analyse textuel arrivent à extraire l'information utile malgré la présence de multiple langues.

On décide donc de limiter le prétraitement textuel aux éléments suivants :
- nettoyage des stopwords anglais et français
- nettoyage de la ponctuation
- tokenisation des chaînes de caractères

In [7]:
X_train['preprocessed_full_description'] = ""
X_test['preprocessed_full_description'] = ""

for i in X_train.index:
    X_train.loc[i, 'preprocessed_full_description'] = preprocessing(X_train.loc[i, 'full_description'])

for i in X_test.index:
    X_test.loc[i, 'preprocessed_full_description'] = preprocessing(X_test.loc[i, 'full_description'])

In [8]:
display(X_train[["full_description", "preprocessed_full_description"]].head(10))
display(X_test[["full_description", "preprocessed_full_description"]].head(10))

Unnamed: 0,full_description,preprocessed_full_description
0,Ships In Focus Record 31,ships focus record 31
1,Convergence Or Divergence: Alignment Of Standa...,convergence divergence alignment standardsasse...
2,Lecons De Sciences - Cours Superieur - Premier...,lecons sciences cours superieur premiere annee...
3,Generations Of Women Historians,generations women historians
4,Magnétisme: Encyclopédie Magnétique Spirituali...,magnétisme encyclopédie magnétique spiritualis...
5,The Inglorious Arts Of Peace: Exhibitions In C...,inglorious arts peace exhibitions canadian soc...
6,Sylvia Te Souvient-Il ? - Vie De Giacomo Leopardi,sylvia souvient-il vie giacomo leopardi
7,Le Trachome - Une Maladie De La Pauvreté,trachome maladie pauvreté
8,Business Associations: 2006 Statutes And Rules,business associations 2006 statutes rules
9,Luuna Tome 8 - L'attrapeur De Rêves,luuna tome 8 l'attrapeur rêves


Unnamed: 0,full_description,preprocessed_full_description
49891,Intex Flotteur gonflable pour piscine Flamingo...,intex flotteur gonflable piscine flamingo part...
250,Motif Géométrique Irrégulière Coussin Coussin ...,motif géométrique irrégulière coussin coussin ...
64385,HTH Alkanal poudre - 5 kg Alkanal augmente l'a...,hth alkanal poudre 5 kg alkanal augmente l'alc...
6657,Carnet De Notes Bloc-Notes Cahier L'amour De L...,carnet notes bloc-notes cahier l'amour paix se...
41121,Piscine Gonflable Ovale 262x160x46 Cm Intex - ...,piscine gonflable ovale 262x160x46 cm intex pi...
52922,1 Pièce/Boîte Portable Classique 1 Gb 2.7 Pouc...,1 pièce/boîte portable classique 1 gb 2.7 pouc...
57430,Simple Linen Creative Belle Oreiller Taie D'or...,simple linen creative belle oreiller taie d'or...
15288,Halloween Accueil Voiture Lit Lettre Décorativ...,halloween accueil voiture lit lettre décorativ...
77056,Console &amp; Jeux Wii,console & amp jeux wii
44137,Suspension 3 Lumieres Corinna Ce suspension tr...,suspension 3 lumieres corinna suspension trois...


### Application de TF-IDF à la variable `full_description`

En l'état, les chaînes de caractères dans full_description sont difficilement exploitables par des algorithmes de machine learning.

Il est nécessaire de les transformer en valeurs numériques interprétables. Nous avons décidé d'appliquer le TF-IDF pour une extraction de donnée rapide et efficace suite à notre analyse en wordcloud qui fait apparaître la répétition de mots clés pour chaque catégorie de produits.

In [9]:
# Initialisation du vecteur TF-IDF
tfidf = TfidfVectorizer(
    max_features=750,
    ngram_range=(1,1),
    min_df=5
)

# Apprentissage sur X_train et transformation
X_train_tfidf = tfidf.fit_transform(X_train['preprocessed_full_description'])
X_test_tfidf = tfidf.transform(X_test['preprocessed_full_description'])

# Suppression des colones temporaires
X_train = X_train.drop(columns=['preprocessed_full_description', 'full_description'])
X_test = X_test.drop(columns=['preprocessed_full_description', 'full_description'])

# Concaténation
X_train = hstack([X_train, X_train_tfidf])
X_test = hstack([X_test, X_test_tfidf])

### Sauvegarde des données textuelles suite à leur préprocessing

Afin de faciliter le travail sur plusieurs modèles et gagner du temps, on décide de sauvegarder les données prétraitées.

In [10]:
import joblib

# Sauvegarde des données prétraitées dans des fichiers PKL

joblib.dump(X_train, "../data/preprocessed/X_train_preprocessed.pkl")
joblib.dump(y_train, "../data/preprocessed/y_train_preprocessed.pkl")
joblib.dump(X_test, "../data/preprocessed/X_test_preprocessed.pkl")
joblib.dump(y_test, "../data/preprocessed/y_test_preprocessed.pkl")


['../data/preprocessed/y_test_preprocessed.pkl']

## Preprocessing des données graphiques