In [None]:
from transformers import pipeline
from tensorflow import keras

# Importation de la bibliothèque pandas
import pandas as pd

# Lecture du fichier CSV et stockage des données dans un DataFrame
df = pd.read_csv('../dataset.csv')

# Sélection des colonnes 'description' et 'cat1' du DataFrame
df = df[['description', 'cat1']]

# Suppression des lignes où la colonne 'descrifrom tensorflow import kerasption' est vide
df = df.dropna(subset=['description'])

# Remplacement des retours à la ligne dans la colonne 'description' par des espaces
df['description'] = df['description'].str.replace('\n', ' ')

# Importation de la bibliothèque pour le rééquilibrage des classes
from imblearn.over_sampling import RandomOverSampler

# Initialisation de l'objet pour le rééquilibrage des classes
oversampler = RandomOverSampler(random_state=0)

# Séparation des données en caractéristiques (X) et cibles (y)
X = df['description']
y = df['cat1']

# Rééquilibrage des classes
X_resampled, y_resampled = oversampler.fit_resample(df, y)

# Création d'un nouveau DataFrame avec les données rééquilibrées
df = pd.DataFrame(X_resampled, columns=['description', 'cat1'])

# Importation des bibliothèques pour la visualisation des données
import matplotlib.pyplot as plt
import seaborn as sns

# Comptage du nombre de descriptions par catégorie
categories_count = df['cat1'].value_counts()

# Liste des catégories
categories = categories_count.index

# Création d'un graphique pour visualiser le nombre de descriptions par catégorie
fig = plt.figure(figsize=(12, 8))
ax = fig.add_subplot(111)
sns.barplot(x=categories_count, y=categories, ax=ax)
for a,p in enumerate(ax.patches):
    ax.annotate(f'{categories_count[a]}', (p.get_width(), a), fontsize=12)
plt.xlabel('Nombre de descriptions', fontsize=16)
plt.ylabel('Catégorie', fontsize=16)



# Création du pipeline de classification zero-shot
classifier = pipeline('zero-shot-classification')

# Supposons que vous ayez un DataFrame pandas df avec les colonnes 'description' et 'cat1'
descriptions = df['description'].tolist()
labels = df['cat1'].unique().tolist()  # Obtenez une liste unique de labels

# Utilisez le pipeline pour obtenir des prédictions
predictions = []
for description in descriptions:
    result = classifier(description, labels)
    predictions.append(result['labels'][0])  # Ajoutez le label le plus probable à la liste des prédictions

# Vous avez maintenant une liste de prédictions que vous pouvez comparer avec vos labels réels