In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import f1_score

from IPython.display import HTML

In [3]:
# importation des données brutes en utilisant les productid comme index

data_path = "../data/raw/"
df = pd.read_csv(data_path+"X_train_update.csv", index_col="productid").drop("Unnamed: 0", axis=1)
y = pd.read_csv(data_path+"Y_train_CVw08PX.csv")['prdtypecode']
y.index = df.index

In [4]:
# on créer une colonne avec le chemin de l'image correspondante

im_folder_path = data_path+"images/image_train/"
# les noms de fichier image sont de la forme image_imageid_product_productid.jpg
df['image'] = im_folder_path + 'image_' + df['imageid'].astype('str') + '_product_' + df.index.astype('str') +'.jpg'
# plus nécessaire de garder imageid qui est renseigné dans le chemin
df.drop('imageid', axis=1, inplace=True)

In [5]:
# fonction qui permet d'afficher les images du dataframe à partir du chemin des images
# et également les descriptions complètent
# attention de ne pas utiliser max_length trop grand sinon ça va être long à charger

def display_df(df, max_length = 100):
    formatters={
        "image": lambda path: f'<img src="{path}" width="400">',
    }
    display(HTML(df.head(max_length).to_html(escape=False, formatters=formatters)))

In [6]:
y.value_counts()[:5]

prdtypecode
2583    10209
1560     5073
1300     5045
2060     4993
2522     4989
Name: count, dtype: int64

In [9]:
# exemple; on affiche les 5 premières entrées de la catégorie 2583

cat = 1301
display_df(df[y == cat], 200)

Unnamed: 0_level_0,designation,description,image
productid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3898725495,Enfants bébé tout-petits garçons Bébés filles Cartoon Car Anti-Slip chaud Chaussettes unisexe-Auucne,"Enfants bébé Tout-petit bébé Garçons Filles Cartoon Car Anti-Slip chaud unisexe Chaussettes Caractéristiques: Il est fait de matériaux de haute qualité sentiment de main molle pas de mal à votre peau de bébé Belle et le design charmant disponible gardez votre bébé pieds doux et confortable faire votre bébé plus belle informations sur le produit: 100% tout neuf et de haute qualité des matériaux de chaussettes: préfet polyester pour un usage quotidien et facile à décoller ou à l'usure Âge recommandé: 0-3years Grand cadeau pour bébé Sexe: filles garçons contenu du coffret: 1 bébé Paire chaussettes S'il vous plaît noter que légère différence de couleur devrait être acceptable en raison de la lumière et de l'écran. Âge recommandé Taille de l'étiquette Durée 6-12 mois S 11CM 4.3""",
136255802,9 Balles de Baby Foot Bonzini Balles en Liège Jaunes-Bonzini,Diamètre de 35mm. Balles de baby foot en liège jaune. Poids environ 10gr.Vendu par 9.,
3898728616,Nouveau-né Bébé Garçons Filles Cartoon animaux Chaussettes sol Anti-Slip Chaussettes Step bébé-Auucne,"Nouveau-nés garçons Bébés filles Cartoon animal sol Chaussettes Anti-Slip bébé Step Chaussettes Caractéristiques: Il est fait de matériaux de haute qualité sentiment de main molle pas de mal à votre peau de bébé Belle et le design charmant disponible gardez votre bébé pieds doux et confortable faire votre bébé plus belle informations sur le produit: 100% tout neuf et de haute qualité des matériaux de chaussettes: préfet Cotonnade pour un usage quotidien et facile à enlever ou porter Grand cadeau pour bébé Sexe: filles garçons contenu du coffret: 1 bébé chaussettes paire Âge recommandé Taille de l'étiquette longueur 6-12Months S 13.5cm 5.3"" Âge recommandé: 6-12Months Etiquette Taille: S longueur: 135 cm 5.3""",
3578689082,Cavalier 3 PCS / Set 23g En Aluminium Arbres En Laiton Tonneaux Acier Astuce Fléchettes Professionnel Dur Aiguille Vols-Générique,Cavalier 3 PCS / Set 23g En Aluminium Arbres En Laiton Tonneaux Acier Astuce Fléchettes Professionnel Dur Aiguille Vols 1. Type de fléchette: dard droit 2. Longueur totale de la flèche (longueur de la pointe comprise): 165mm 3. Dart diamètre: 8.5mm 4. Matériel: laiton acier alliage d'aluminium PET 5. Dart baril Poids: 21g 6. Dart entier Poids: 23g Spécification:MatérielAluminium AcierTaille165mm (longueur totale)Poids23g,
149878775,Ailette Fléchette Marathon Urban-Harrows,Ailette Marathon pour fléchette. La conception 100 micron 33 % en plus dans la rigidité. Set de 3 ailettes.,
4144682755,MagiDeal 2pcs Accessoire De Table De Baby-Foot Foosball Entry Dishes Balle Serve Rampe Launceur,,
3898725476,Enfants bébé tout-petits garçons Bébés filles Cartoon Car Anti-Slip chaud Chaussettes unisexe-Auucne,"Enfants bébé Tout-petit bébé Garçons Filles Cartoon Car Anti-Slip chaud unisexe Chaussettes Caractéristiques: Il est fait de matériaux de haute qualité sentiment de main molle pas de mal à votre peau de bébé Belle et le design charmant disponible gardez votre bébé pieds doux et confortable faire votre bébé plus belle informations sur le produit: 100% tout neuf et de haute qualité des matériaux de chaussettes: préfet polyester pour un usage quotidien et facile à décoller ou à l'usure Âge recommandé: 0-3years Grand cadeau pour bébé Sexe: filles garçons contenu du coffret: 1 bébé Paire chaussettes S'il vous plaît noter que légère différence de couleur devrait être acceptable en raison de la lumière et de l'écran. Âge recommandé Taille de l'étiquette Durée 0-6 mois XS 9cm 3.5""",
3898719196,1 paires Bébés garçons filles tricot coton chaud pour nourrissons Enfants Enfants Chaussettes animaux-Auucne,"1 paires Bébés garçons filles tricot coton chaud bébé enfants chaussettes animaux Enfants Caractéristiques de l'objet Condition: 100% neuf et de haute qualité de matériaux: Cottonblend Sock Type: saison Convient Décontracté: Automne Hiver de votre bébé deviennent plus à la mode attrayant beau vos enfants aimeront beaucoup. Un grand cadeau pour votre bébé Forfait: 1 paires chaussettes Taille Détail 1"" = 254 cm 1.To Assurez-vous que vous obtenez la bonne taille s'il vous plaît vous référer à notre tableau des tailles avant d'acheter si vous n'êtes pas sûr de la taille veuillez nous envoyer votre la mesure exacte du corps afin que nous puissions vous donner quelques suggestions sur la façon de choisir la bonne taille merci pour votre compréhension mesure 2.Mansual peut exsit 1 ~ différence de 3cm taille asiatique: l longueur des pieds: 18-20cm 07.01 à 07.09"" pour l'âge : vieux 7-10 ans",
57724913,Table De Air Hockey Avec Accessoires,Dimension de la table: 183 x 92 x 81 cm Dimension de la surface de jeu : 175 x 83.5 cm Pieds anti-dérapants / Poids : 40 Kg Livré complet possibilité de jouer à 4 joueurs,
3898721977,Nouveau-né Bébés filles bowknot dentelle coton enfants bébé filles Chaussettes étage-Auucne,"Nouveau-né bébé Filles bowknot dentelle coton bébé enfants filles en bas âge Chaussettes Caractéristiques: Il est fait de matériaux de très haute qualité sentiment de main molle sans aucun mal à la peau de votre bébé Belle et le design charmant disponible gardez votre bébé pieds doux chaud et confortable rendre votre bébé plus belle information sur le produit: 100% tout neuf et de haute qualité des matériaux de chaussettes: préfet polyester pour un usage quotidien et facile à enlever ou porter Grand cadeau pour bébé Sexe: filles contenu du coffret: 1 chaussettes paire S'il vous plaît noter que la différence de couleur légère doit être acceptable en raison de la lumière et de l'écran. Taille Taille de l'étiquette Longueur 12T 19 19CM 7.5"" Taille: 12T Taille de l'étiquette: 19 Longueur: 19cm 7.5""",


### Tester l'impact de variable indicatrice sur la présence ou non de certains mots

In [8]:
def confusion_matrix(list_of_words, categorie, include_description=True, normalize=False):
    texts = df['designation']          # Series contenant les textes
    if include_description:
        texts += ' - '+df['description'].fillna('')
    contains_list_of_words = np.where(texts.str.lower().str.contains('|'.join(list_of_words)), 1, 0)
    is_in_cat = np.where(y==categorie, 1, 0)
    score = f1_score(is_in_cat, contains_list_of_words)
    cm1 = pd.crosstab(
        is_in_cat,
        contains_list_of_words, rownames=['categorie '+str(categorie)], colnames=['contient un des mots'], normalize=normalize
    )
    cmall = pd.crosstab(y, contains_list_of_words, rownames=['categorie'], colnames=['contient un des mots'], normalize=normalize)
    return cm1, cmall, score

In [10]:
# on voit sur les descriptions de la catégorie 2583 affichés plus haut qu'il y a des pompes, supresseurs, testeurs
# on peut test si il apparaissent dans beaucoup de description de la catégorie 2583 avec les matrice de confusion

cm1, cmall, score = confusion_matrix(["pompe", "supresseur", "testeur"], 2583)
display(cm1)
display(cmall)
print(f"f1 score : {score}")

contient un des mots,0,1
categorie 2583,Unnamed: 1_level_1,Unnamed: 2_level_1
0,74449,258
1,7782,2427


contient un des mots,0,1
categorie,Unnamed: 1_level_1,Unnamed: 2_level_1
10,3116,0
40,2506,2
50,1680,1
60,832,0
1140,2671,0
1160,3953,0
1180,764,0
1280,4869,1
1281,2062,8
1300,5038,7


f1 score : 0.37645416472778037
