In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
 
X_train = pd.read_csv("X_train.csv", index_col=0)
Y_train = pd.read_csv("Y_train.csv", index_col=0)


In [3]:
# SUPPRESSION DES DOUBLONS EN COLONNE

# Avant de concaténer Designation et Description, on vérifie qu'il n'y a pas la même chose dans ces deux colonnes
nombre_lignes = (X_train["designation"] == X_train["description"]).sum()
print("Il y a",nombre_lignes,"lignes où designation et description contiennent les mêmes informations")

# On remplace alors la description par une chaine de caractère vide pour préparer la concaténation
X_train.loc[X_train["designation"] == X_train["description"], "description"] = ""


Il y a 179 lignes où designation et description contiennent les mêmes informations


In [5]:
# CONCATENATION DE LA COLONNE DESIGNATION ET DESCRIPTION

print("Nombre de NaN dans la colonne designation:", X_train["designation"].isna().sum())
print("Nombre de NaN dans la colonne description:", X_train["description"].isna().sum(),"\n")

X_train["description"] = X_train["description"].fillna("")     # On remplace les NaN par une chaine vide pour que la concaténation fonctionne

X_train["designation"] = X_train["designation"] + " - " + X_train["description"]     # On concatène tout dans "designation"
X_train = X_train.drop(columns = "description", axis =1)                             # On peut alors supprimer la colonne "description"

display(X_train.head(5))


Nombre de NaN dans la colonne designation: 0
Nombre de NaN dans la colonne description: 29800 



Unnamed: 0,designation,productid,imageid
0,Olivia: Personalisiertes Notizbuch / 150 Seite...,3804725264,1263597046
1,Journal Des Arts (Le) N° 133 Du 28/09/2001 - L...,436067568,1008141237
2,Grand Stylet Ergonomique Bleu Gamepad Nintendo...,201115110,938777978
3,Peluche Donald - Europe - Disneyland 2000 (Mar...,50418756,457047496
4,La Guerre Des Tuques - Luc a des id&eacute;es ...,278535884,1077757786


In [7]:
# SUPPRESSION DES DOUBLONS DE LIGNES

nb_lignes_avant = len(X_train)
X_train = X_train.drop_duplicates(subset=["designation"])                 # On supprime les doublons en ne gardant que la première occurance 

nb_lignes_apres = len(X_train)
print("Nombre de lignes supprimées :", nb_lignes_avant - nb_lignes_apres)
print("Il reste :",nb_lignes_apres,"lignes\n")



Nombre de lignes supprimées : 1414
Il reste : 83502 lignes



In [9]:
# NORMALISATION DU TEXTE

from unidecode import unidecode

def clean_text(text):
    if isinstance(text, str):            # Si le texte est une chaîne de caractères,
        text = unidecode(text)             # Remplace les accents par des lettres sans accent
        text = text.lower()                # Met le texte en minuscule
        text = ' '.join(text.split())      # Remplace les espaces inutiles
        return text
    return text

X_train["designation"] = X_train['designation'].apply(clean_text)
display(X_train.head(40))

Unnamed: 0,designation,productid,imageid
0,olivia: personalisiertes notizbuch / 150 seite...,3804725264,1263597046
1,journal des arts (le) ndeg 133 du 28/09/2001 -...,436067568,1008141237
2,grand stylet ergonomique bleu gamepad nintendo...,201115110,938777978
3,peluche donald - europe - disneyland 2000 (mar...,50418756,457047496
4,la guerre des tuques - luc a des id&eacute;es ...,278535884,1077757786
5,afrique contemporaine ndeg 212 hiver 2004 - do...,5862738,393356830
6,christof e: bildungsprozessen auf der spur -,91920807,907794536
7,conquerant sept cahier couverture polypro 240 ...,344240059,999581347
8,puzzle scooby-doo avec poster 2x35 pieces -,4239126071,1325918866
9,tente pliante v3s5-pro pvc blanc - 3 x 4m50 - ...,3793572222,1245644185


In [11]:
# NOUVEAU CONTRÔLE SUR LES DOUBLONS

nb_lignes_avant = len(X_train)
X_train = X_train.drop_duplicates(subset=["designation"])                 # On supprime les doublons en ne gardant que la première occurance 

nb_lignes_apres = len(X_train)
print("Nouveaux doublons supprimés :", nb_lignes_avant - nb_lignes_apres)
print("Il reste :",nb_lignes_apres,"lignes\n")

Nouveaux doublons supprimés : 39
Il reste : 83463 lignes



In [13]:
# TRAITEMENT DES BALISES HTML (type <b>, </p>, etc)

# Importation de la bibliothèque "Regular Expression"
import re     


# Fonction qui identifie tout ce qui est délimité par < >
def extraction_balises(texte):
    return re.findall(r"<[^>]+>", str(texte))     


# Création d'une liste d'éléments uniques
balises = set()                                   
X_train["designation"].apply(lambda x: balises.update(extraction_balises(x)))


# Création d'un dataframe et export Excel pour meilleur visibilité
df_balises = pd.DataFrame(list(balises), columns=["Balises"])
df_balises["Balises"].to_excel("fichier_balises.xlsx", index=False)

print("Nous avons identifier",len(df_balises),"balises uniques")


Nous avons identifier 984 balises uniques


En jettant consultant l'export Excel contenant tous les textes délimités par des balises,
on observe qu'il n'y a pas que des balises HTML.

Il y a également beaucoup de texte délimité par des doubles chevrons,
par exemple : << brouillard >>, <<banc des elfes>>, ou encore <<appoint electrique>>

Je pense que nous pouvons supprimer ces doubles chevrons, mais qu'il faut conserver le texte

In [15]:
# SUPPRESSION DES DOUBLES CHEVRONS

X_train["designation"] = X_train["designation"].str.replace("<<", "").str.replace(">>", "")

In [17]:
# On relance le traitement des balises HTML

balises = set()                                   
X_train["designation"].apply(lambda x: balises.update(extraction_balises(x)))

df_balises = pd.DataFrame(list(balises), columns=["Balises"])
df_balises["Balises"].to_excel("fichier_balises.xlsx", index=False)

print("Il ne reste plus que",len(df_balises),"balises uniques après suppression des doubles chevrons délimitants du texte")

Il ne reste plus que 317 balises uniques après suppression des doubles chevrons délimitants du texte


La très grande majorité des balises pourraient être simplement supprimées.

Cependant, une partie des balises identifiées contiennent des informations,
comme du texte (exemple ligne 14 : <img title="velours de spa luxe">)
ou encore des urls (exemple ligne 22 : src="https://www.youtube.com/embed/iahzt0bebhw")

Est-ce qu'il convient de supprimer les URLS ou existe-t-il un moyen d'exploiter cette information ?

In [21]:
# TRAITEMENT DES CARACTERES SPECIAUX HTML (type &amp, &quot, etc)

import html
X_train["designation"] = X_train["designation"].apply(html.unescape)

In [25]:
# Export en fichier Excel

X_train["designation"].to_excel("fichier_nettoye.xlsx", index=False)

L'export en fichier Excel me permet de jeter rapidement un oeil au résultat nettoyé.
Je m'aperçois que le nettoyage des caractères spéciaux HTML n'a pas fonctionné comme prévu.

En effet, il y a des caractères spéciaux mals encodés, par exemple "& amp;" ou "& nbsp;" avec un espace en trop et donc non reconnu.
Il y a également des caractères spéciaux HTML sans le ";", par exemple "& amp".

On ne peut pas se contenter de supprimer les espaces après le caractère & car il y a du texte tel que : "blake & mortimer".


In [95]:
# On va essayer d'identifier les cas les plus fréquents sous la forme "&" + "espace" + "un mot"

df_html = X_train["designation"].str.extract(r"(&\s\w+)")
df_html = df_html.dropna()
df_html.columns = ['caractere']

display(df_html.info())
print("\n")
display(df_html.head(10))
print("\n")
display(df_html.value_counts().head(30))

<class 'pandas.core.frame.DataFrame'>
Index: 3651 entries, 59 to 84907
Data columns (total 1 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   caractere  3651 non-null   object
dtypes: object(1)
memory usage: 57.0+ KB


None





Unnamed: 0,caractere
59,& amp
62,& creme
74,& 2
96,& son
121,& nbsp
140,& amp
187,& amp
196,& r2
199,& nbsp
237,& around






caractere   
& amp           936
& nbsp          451
& lt            100
& 2              93
& gt             82
& blanc          36
& dragons        34
& play           24
& 3              22
& the            21
& easy           17
& ntsc           17
& mavic          17
& bois           16
& modeles        16
& decker         16
& d              14
& jardin         14
& smart          12
& clear          11
& stratton       11
& triphase       11
& plug           11
& zoom           10
& revetement     10
& warner         10
& 1               9
& metal           9
& noir            9
& newton          9
Name: count, dtype: int64

En affichant les 30 plus fréquents, on identifie les caractères spéciaux suivants : 
&amp;
&nbsp;
&lt;
&gt;
&ntsc;

Il y a plus de 3650 données identifiées. Je pense qu'on peut se contenter des 5 identifiés ci-dessus. 
Il y a peut être d'autres caractères spéciaux mais leur occurence est inférieur à 9 à l'échelle de tout le dataset.


In [None]:
X_train["designation"] = X_train["designation"].str.replace("& amp ", "&amp;", regex=False)
X_train["designation"] = X_train["designation"].str.replace("& amp;", "&amp;", regex=False)

X_train["designation"] = X_train["designation"].str.replace("& nbsp ", "&nbsp;", regex=False)
X_train["designation"] = X_train["designation"].str.replace("& nbsp;", "&nbsp;", regex=False)

X_train["designation"] = X_train["designation"].str.replace("& lt ", "&lt;", regex=False)
X_train["designation"] = X_train["designation"].str.replace("& lt;", "&lt;", regex=False)

X_train["designation"] = X_train["designation"].str.replace("& gt ", "&gt;", regex=False)
X_train["designation"] = X_train["designation"].str.replace("& gt;", "&gt;", regex=False)

X_train["designation"] = X_train["designation"].str.replace("& ntsc ", "&ntsc;", regex=False)
X_train["designation"] = X_train["designation"].str.replace("& ntsc;", "&ntsc;", regex=False)

X_train["designation"] = X_train["designation"].apply(html.unescape)