# 0 - Mise en place de l'environnement

## > Import des modules

In [None]:
import spacy  # Pour le traitement du langage naturel
spacy.cli.download("en_core_web_trf") # Google Colab -> relancer la session après éxecution puis ignorer ce bloc

In [3]:
# 1. Traitement et analyse de données
import pandas as pd  # Manipulation de dataframes (tableaux de données)
import numpy as np   # Calculs numériques et manipulation de tableaux

# 2. Visualisation de données
import plotly.express as px   # Création de graphiques interactifs
import plotly.graph_objects as go  # Création de graphiques complexes et personnalisables
import matplotlib.pyplot as plt  # Création de graphiques classiques
import seaborn as sns  # Création de graphiques statistiques et esthétiques

# 3. Traitement du langage naturel (NLP)
from transformers import BertTokenizer, BertForSequenceClassification, BertModel  # Modèles de langage basés sur BERT
from transformers import AutoTokenizer, AutoModel  # Chargement automatique de modèles de langage
import spacy  # Bibliothèque de NLP pour le traitement de texte
import en_core_web_trf  # Modèle de langage Spacy pour l'anglais
import gensim.downloader as api  # Téléchargement de modèles pré-entraînés pour Gensim

# 4. Apprentissage automatique
## 4.1 Scikit-learn
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer  # Extraction de caractéristiques textuelles
from sklearn.decomposition import LatentDirichletAllocation, NMF  # Modèles de réduction de dimensionnalité pour les textes
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV, train_test_split, StratifiedKFold  # Sélection de modèles et validation croisée
from sklearn.svm import SVC  # Machine à vecteurs de support pour la classification
from sklearn.neighbors import KNeighborsClassifier  # Classifieur des k plus proches voisins
from sklearn.ensemble import GradientBoostingClassifier  # Algorithme de boosting de gradient pour la classification
from sklearn.preprocessing import StandardScaler, LabelEncoder  # Prétraitement des données
from sklearn.metrics import classification_report, accuracy_score, roc_curve, auc, confusion_matrix  # Évaluation des modèles de classification
from sklearn.cluster import KMeans  # Algorithme de clustering K-means
from sklearn.metrics.cluster import adjusted_rand_score  # Évaluation des modèles de clustering

## 4.2 Deep Learning
import torch  # Framework de deep learning
import tensorflow_hub as hub  # Modèles pré-entraînés pour TensorFlow
from keras import Model  # Construction de modèles de réseaux de neurones
from keras.applications.vgg16 import VGG16, decode_predictions  # Modèle pré-entraîné VGG16 pour la classification d'images
from keras.layers import Dense  # Couche de neurones entièrement connectée
from keras.preprocessing.image import load_img, img_to_array  # Chargement et prétraitement d'images
from keras.applications.vgg16 import preprocess_input  # Prétraitement spécifique pour VGG16

# 5. Statistiques et probabilités
from scipy.stats import randint, uniform, chi2_contingency  # Fonctions statistiques

# 6. Traitement d'images
import cv2  # Bibliothèque OpenCV pour le traitement d'images

# 7. Réduction de dimensionnalité et clustering
import umap.umap_ as umap  # Algorithme UMAP pour la réduction de dimensionnalité
from sklearn.decomposition import PCA  # Analyse en composantes principales (PCA)
import hdbscan  # Clustering basé sur la densité avec HDBSCAN
from sklearn.mixture import GaussianMixture  # Modèles de mélange gaussien pour le clustering

# 8. Utilitaires
import random  # Génération de nombres aléatoires
from tqdm import tqdm  # Barres de progression
import os  # Interaction avec le système de fichiers
from typing import Union  # Définition de types pour les fonctions
from spacy.tokens import Doc  # Objet Doc de Spacy pour représenter un texte

# Chargement des modèles
nlp = spacy.load('en_core_web_trf')  # Chargement du modèle Spacy pour l'anglais
wv = api.load('glove-wiki-gigaword-50')  # Chargement du modèle Word2Vec pré-entraîné sur Wikipédia

#numba pour rendre le code GPU-compatible

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

RuntimeError: module compiled against API version 0xf but this version of numpy is 0xe

ImportError: numpy.core.multiarray failed to import

In [None]:
doc = nlp("This is a sentence. What's up ?")

[token.text for token in doc]

In [None]:
print([(w.text, w.pos_) for w in doc])

In [None]:
[token.text for token in doc if not token.is_punct]

In [6]:
graine = 242

In [7]:
def case_when(*args):
    """
    Évalue plusieurs conditions et retourne des valeurs spécifiques pour chaque condition.

    Cette fonction mime le comportement de `CASE WHEN` en SQL et de `case_when` en dplyr (R).

    Parameters:
    *args: Une séquence de conditions et de valeurs.
           Les éléments d'index pair (0, 2, 4, ...) sont les conditions (expressions booléennes).
           Les éléments d'index impair (1, 3, 5, ...) sont les valeurs correspondantes à retourner si la condition est vraie.

    Returns:
    np.ndarray: Un tableau Numpy contenant les valeurs correspondantes aux conditions évaluées.
                Si aucune condition n'est vraie, retourne `pd.NA` par défaut.

    Raises:
    ValueError: Si le nombre d'arguments n'est pas pair.

    Example:
    >>> x = np.array([1, 2, 3, 4, 5])
    >>> result = case_when(
            x < 2, 'A',
            (x >= 2) & (x < 4), 'B',
            x >= 4, 'C'
        )
    >>> print(result)
    ['A' 'B' 'B' 'C' 'C']

    Example with DataFrame:
    >>> df = pd.DataFrame({'x': [1, 2, 3, 4, 5]})
    >>> df['category'] = case_when(
            df['x'] < 2, 'A',
            (df['x'] >= 2) & (df['x'] < 4), 'B',
            df['x'] >= 4, 'C'
        )
    >>> print(df)
       x category
    0  1        A
    1  2        B
    2  3        B
    3  4        C
    4  5        C
    """
    if len(args) % 2 != 0:
        raise ValueError("The number of arguments must be even (pairs of conditions and values).")

    condlist = [args[i] for i in range(0, len(args), 2)]
    choicelist = [args[i] for i in range(1, len(args), 2)]

    return np.select(condlist, choicelist, default=pd.NA)

## > Import des données

In [None]:
texte = pd.read_csv('./Data/flipkart_com-ecommerce_sample_1050.csv')
texte.sample(5, random_state = graine)

# A. Texte

## I - Tokenisation

In [9]:
# Créez un ensemble de stop words une seule fois
stop_words = set(nlp.Defaults.stop_words)

def tokenize_text(text: Union[str, Doc]) -> list[str]:
    """
    Cette fonction prend un texte ou un objet Doc spaCy en entrée et renvoie une liste de lemmes.
    Les lemmes sont les formes canoniques des mots, obtenues après traitement par Spacy.
    Les ponctuations et les stopwords sont supprimés.

    Parameters
    ----------
    text : Union[str, spacy.tokens.Doc]
        Le texte ou le document spaCy à tokenizer.

    Returns
    -------
    List[str]
        La liste de lemmes du texte en entrée.
    """
    if isinstance(text, str):
        doc = nlp(text)
    elif isinstance(text, Doc):
        doc = text
    else:
        raise TypeError("L'entrée doit être une chaîne de caractères ou un objet spacy.tokens.Doc")
    
    return [token.lemma_ for token in doc if not (token.is_punct or token.lemma_ in stop_words)]

def process_batch(texts: list[str]) -> list[list[str]]:
    docs = list(nlp.pipe(texts))  # Process texts in a batch
    return [tokenize_text(doc) for doc in tqdm(docs, desc="Processing texts")] 

def tokenize_corpus(dataframe: pd.DataFrame, colonne: str, batch_size: int = 1000) -> pd.DataFrame:
    """
    Cette fonction prend un DataFrame et le nom d'une colonne en entrée,
    et renvoie un nouveau DataFrame avec une colonne supplémentaire contenant les listes de lemmes.

    Parameters
    ----------
    dataframe : pd.DataFrame
        Le DataFrame à tokenizer.
    colonne : str
        Le nom de la colonne contenant les textes à tokenizer.
    batch_size : int, optional
        La taille des lots pour le traitement par lots (par défaut 1000).

    Returns
    -------
    pd.DataFrame
        Le DataFrame avec une colonne supplémentaire contenant les listes de lemmes.
        La nouvelle colonne a pour nom '{colonne} token'.
    """
    df = dataframe.copy()
    
    # Traitement par lots avec tqdm pour le suivi de progression
    tokens = []
    total_batches = (len(df) + batch_size - 1) // batch_size  # Calcul du nombre total de lots
    for i in tqdm(range(0, len(df), batch_size), total=total_batches, desc="Tokenizing batches"):
        batch = df[colonne].iloc[i:i+batch_size].tolist()
        tokens.extend(process_batch(batch))
    
    df[colonne+' token'] = tokens
    df[colonne+' token raw'] = df[colonne+' token'].apply(' '.join)
    
    return df

In [None]:
# Test de la fonction de tokenization sur un texte dummy. En particulier, présence de plusieurs variantes d'un même lemme ("like" et "liking")
tokenize_text("Hey, what's up ? I like pasta quite much actually, but I do prefer a nice bowl of rice ! Recently, I've taken a liking to surfing and playing basketball. I have two basketballs at home to play with my wife and kids. She took of last night with the children, they went to Paris.")

In [None]:
# Nombre de documents (descriptions) composants le corpus
len(texte)

In [None]:
# Visualisation de quelque documents du corpus
i = 1
for text in texte['description'].sample(10, random_state=graine):
    print('Extrait n°'+str(i))
    print(text + '\n')
    i += 1

In [None]:
# Tokenization du corpus
texte = tokenize_corpus(dataframe=texte, colonne='description')
# Temps d'exécution Google Colab ~12mn -> le temps de prendre un café

In [None]:
texte['description token'].sample(5, random_state=graine)

In [None]:
# Visualisation du corpus
texte.sample(2, random_state = graine)

### Bag of Word, TfIdf

In [16]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texte['description token raw'])
feature_names = vectorizer.get_feature_names_out()
bow_matrix = X.toarray()

In [None]:
bow_matrix.shape
# 1050 documents dans le corpus, vocabulaire de 5318 mots distincts

In [None]:
# Matrice bow
bow_matrix

In [None]:
bow_matrix.mean()
# Très creuse

In [20]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(texte['description token raw'])
feature_names = vectorizer.get_feature_names_out()
tfidf_matrix = X.toarray()

In [None]:
tfidf_matrix.shape
# Renvoie le nombre de document + la taille du vocabulaire du corpus tokenisé

In [None]:
tfidf_matrix

In [None]:
tfidf_matrix.mean()
# Également très creuse

In [None]:
# Aplatir la liste de jetons pour créer une liste python contenant tous les documents
# Mis bout à bout
vocabulaire = [jeton for sous_liste in texte['description token'] for jeton in sous_liste]

# Vectoriser les jetons
vectoriseur = CountVectorizer()
sac_de_mots = vectoriseur.fit_transform(vocabulaire)
sac_de_mots

In [None]:
len(vocabulaire)

In [26]:
def tracer_mots_les_plus_frequents(jetons_serie, n_mots_les_plus_frequents=10, desc=True):
    """
    Trace un graphique à barres des mots les plus fréquents dans une série de jetons.

    Paramètres
    ----------
    jetons_serie : pandas.Series
        Série de jetons (ou colonne de jetons dans un dataframe pandas).
    n_mots_les_plus_frequents : int, facultatif
        Nombre de mots les plus fréquents à tracer (par défaut : 10).

    Retours
    -------
    None

    Exemples
    --------
    >>> tracer_mots_les_plus_frequents(texte['description jeton'], n_mots_les_plus_frequents=10)
    """
    # Aplatir la liste de jetons
    vocabulaire = [jeton for sous_liste in jetons_serie for jeton in sous_liste]

    # Vectoriser les jetons
    vectoriseur = CountVectorizer()
    sac_de_mots = vectoriseur.fit_transform(vocabulaire)

    # Extraire les fréquences des mots
    freq_mots = sac_de_mots.sum(axis=0)

    # Trier les mots par fréquence
    vocabulaire_trie = sorted(vectoriseur.vocabulary_, key=lambda x: freq_mots[0, vectoriseur.vocabulary_[x]], reverse=desc)

    # Sélectionner les N mots les plus fréquents
    plus_frequents = vocabulaire_trie[:n_mots_les_plus_frequents]

    # Extraire les fréquences des N mots les plus fréquents
    freqs = [freq_mots[0, vectoriseur.vocabulary_[mot]] for mot in plus_frequents]

    # Tracer les mots les plus fréquents
    plt.figure(figsize=(10, 5))
    plt.bar(plus_frequents, freqs)
    plt.title('Top {} mots les plus fréquents'.format(n_mots_les_plus_frequents))
    plt.xlabel('Mots')
    plt.ylabel('Fréquence')
    plt.xticks(rotation=45)
    plt.show()

In [27]:
# Réduction taille de vocabulaire :
# Retirer mots très fréquents qui portent pas forcément bcp de sens et/ou ceux qui sont trop peu fréquents et font du bruit stat pour les modèles

In [None]:
tracer_mots_les_plus_frequents(texte['description token'], 30,desc=True)

In [29]:
def tracer_mots_les_plus_importants_tfidf(jetons_serie, n_mots_les_plus_importants=10):
    """
    Trace un graphique à barres des mots les plus importants en utilisant TF-IDF dans une série de jetons.

    Paramètres
    ----------
    jetons_serie : pandas.Series
        Série de jetons (ou colonne de jetons dans un dataframe pandas).
    n_mots_les_plus_importants : int, facultatif
        Nombre de mots les plus importants à tracer (par défaut : 10).

    Retours
    -------
    None

    Exemples
    --------
    >>> tracer_mots_les_plus_importants_tfidf(texte['description jeton'], n_mots_les_plus_importants=10)
    """
    # Joindre les listes de jetons en une seule chaîne de caractères par document
    vocabulaire = [' '.join(jetons) for jetons in jetons_serie]

    # Vectoriser les jetons en utilisant TF-IDF
    vectoriseur = TfidfVectorizer()
    tfidf_matrix = vectoriseur.fit_transform(vocabulaire)

    # Extraire les scores TF-IDF moyens pour chaque terme
    tfidf_scores = tfidf_matrix.mean(axis=0).A1

    # Créer un DataFrame avec les termes et leurs scores TF-IDF
    termes = vectoriseur.get_feature_names_out()
    tfidf_df = pd.DataFrame({'terme': termes, 'tfidf': tfidf_scores})

    # Trier les termes par score TF-IDF
    tfidf_df = tfidf_df.sort_values(by='tfidf', ascending=False)

    # Sélectionner les N termes les plus importants
    top_termes = tfidf_df.head(n_mots_les_plus_importants)

    # Tracer les termes les plus importants
    plt.figure(figsize=(10, 5))
    plt.bar(top_termes['terme'], top_termes['tfidf'])
    plt.title('Top {} termes les plus importants (TF-IDF)'.format(n_mots_les_plus_importants))
    plt.xlabel('Termes')
    plt.ylabel('Score TF-IDF')
    plt.xticks(rotation=45)
    plt.show()

In [None]:
tracer_mots_les_plus_importants_tfidf(texte['description token'], n_mots_les_plus_importants=30)

In [None]:
# Distribution du nombre de token dans le corpus

(texte['description token'].apply(len)).describe()

### Nettoyage de token superflus

In [32]:
def delete_token_str(dataframe: pd.DataFrame, colonne: str, token: str):
    df = dataframe.copy()
    df[colonne] = df[colonne].str.replace(token, '', case=False, regex=True)
    return df

def delete_list_token_str(dataframe:pd.DataFrame, colonne:str, list_token:list):
  df = dataframe.copy()
  for token in list_token:
    df = delete_token_str(df, colonne, token)
  return df

def delete_token_vect(dataframe:pd.DataFrame, colonne:str, token:str):
  df = dataframe.copy()
  df[colonne] = df[colonne].apply(lambda x: [jeton for jeton in x if jeton.lower() != token.lower()])
  return df

def delete_list_token_vect(dataframe:pd.DataFrame, colonne:str, list_token:list):
  df = dataframe.copy()
  for token in list_token:
    df = delete_token_vect(df, colonne, token)
  return df

def delete_list_token(dataframe:pd.DataFrame, colonne:str, list_token:list):
  df = dataframe.copy()
  df = delete_list_token_str(df, colonne+' token raw', list_token)
  df = delete_list_token_vect(df, colonne+' token', list_token)
  return df

In [None]:
df_test = pd.DataFrame({
    'text': [
        'Hello, how are you today?',
        'I am doing well, thank you.',
        'This is an example.',
        'Add more lines.',
        'As many as you want.',
        'Oops, I made a mistake.',
        'This is another line.',
        'Oops, I did it again!',
        'More and more lines.',
        'Keep adding them.',
        'Oops, I cannot stop!',
        'Almost there.',
        'Just a few more.',
        'Oops, this is fun!',
        'Finally, fifteen lines.'
    ]
})

df_test = tokenize_corpus(df_test, 'text')
df_test

In [None]:
delete_token_str(df_test, 'text', 'oops')

In [None]:
delete_token_vect(df_test, 'text token', 'Oops')

In [None]:
delete_list_token_str(df_test, 'text', ['Oops', 'I'])

In [None]:
delete_list_token(df_test, 'text', ['Oops'])

In [None]:
len(texte[texte['description token raw'].str.contains('key')])

In [None]:
texte.loc[texte['description token raw'].str.contains('key'),'description token raw'].sample(10, random_state=graine)

In [None]:
len(texte[texte['description token raw'].str.contains('com')])

In [None]:
for text in texte.loc[texte['description token raw'].str.contains('com'),'description token'].sample(10, random_state=graine):
  print(text,'\n')

#### Selection des banwords

In [42]:
corpus_ajuste = delete_list_token(texte, 'description', ['flipkart',
                                                         'com',
                                                         'flipkart.com',
                                                         'key',
                                                         'feature',
                                                         'buy',
                                                         'shipping',
                                                         'delivery',
                                                         'genuine',
                                                         '\r\n',
                                                         '\r\n\r\n',
                                                         '\t'])

In [None]:
corpus_ajuste

In [None]:
corpus_ajuste.loc[corpus_ajuste['description'].str.contains('flipkart'),'description']

In [None]:
def delete_list_token_str(dataframe:pd.DataFrame, colonne:str, list_token:list):
  df = dataframe.copy()
  for token in list_token:
    df[colonne] = df[colonne].apply(lambda x: ' '.join([mot for mot in x.split() if mot.lower() not in token]))
  return df

# Liste de mots à supprimer
mots_a_supprimer = ['flipkart', 'com', 'flipkart.com', 'key', 'feature', 'buy', 'shipping', 'delivery', 'genuine', '\r\n', '\r\n\r\n', '\t']

# Supprimer les mots de la colonne 'description'
corpus_ajuste = delete_list_token_str(corpus_ajuste, 'description', mots_a_supprimer)

# Afficher le corpus ajusté
corpus_ajuste


In [None]:
corpus_ajuste.loc[corpus_ajuste['description'].str.contains('flipkart'),'description']

### Nouveau tfidf

In [None]:
tracer_mots_les_plus_importants_tfidf(corpus_ajuste['description token'], n_mots_les_plus_importants=30)

In [48]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus_ajuste['description token raw'])
feature_names = vectorizer.get_feature_names_out()
tfidf_matrix = X.toarray()

In [None]:
feature_names

## Classification

In [50]:
corpus_ajuste['simple_product_category_tree'] = corpus_ajuste['product_category_tree'].apply(lambda x: x.split(' >> ')[0] if isinstance(x, str) else x)
# Use a regular expression to replace '[' and '"' characters
corpus_ajuste['simple_product_category_tree'] = corpus_ajuste['simple_product_category_tree'].str.replace(r'[\["]', '', regex=True)


In [None]:
corpus_ajuste['simple_product_category_tree'].value_counts()

In [None]:
corpus_ajuste['simple_product_category_tree'].nunique()

### LDA

In [None]:
# LDA pour la classification

n_cat = 7

lda = LatentDirichletAllocation(n_components=n_cat, random_state=graine)
lda.fit(tfidf_matrix)

In [None]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic {}:".format(topic_idx+1))
        print([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1] if i < len(feature_names)]) # Added a condition to check if the index is within the bounds of feature_names
        print(" ") # Added an empty print statement to add a space after each topic

no_top_words = 10
display_topics(lda, feature_names, no_top_words)

In [None]:
document_topics = lda.transform(tfidf_matrix)

corpus_ajuste['LDA_label'] = document_topics.argmax(axis=1)

corpus_ajuste

In [None]:
adjusted_rand_score(corpus_ajuste['LDA_label'], corpus_ajuste['simple_product_category_tree'])

In [57]:
 # gensim peut permettre d'enrichir les token par des ngrams pertinents
 # aussi regarder côté transformers huggingface

### NMF

In [None]:
#NMF

n_topics = 7 #Peut être essayer d'augmenter le nb de topics

nmf = NMF(n_components=n_topics, random_state=graine,l1_ratio=.5)
nmf.fit(tfidf_matrix)

In [None]:
display_topics(nmf, feature_names, no_top_words)

In [None]:
document_topics = nmf.transform(tfidf_matrix)

corpus_ajuste['NMF_label'] = document_topics.argmax(axis=1)

corpus_ajuste

In [None]:
adjusted_rand_score(corpus_ajuste['NMF_label'], corpus_ajuste['simple_product_category_tree'])

In [None]:
# Construire la table de contingence
contingency_table = pd.crosstab(corpus_ajuste['NMF_label'], corpus_ajuste['simple_product_category_tree'])

# Effectuer le test du chi2
chi2, p, dof, expected = chi2_contingency(contingency_table)

# Afficher les résultats
print("Chi2 statistique: ", chi2)
print("p-value: ", p)
print("Degrés de liberté: ", dof)
#print("Tableau des fréquences attendues: \n", expected)

# Interpréter les résultats
alpha = 0.05
if p < alpha:
    print(f"On rejette l'hypothèse nulle d'indépendance entre le label et la catégorie de produit à un risque {round(100*alpha)} %.")
else:
    print("On ne peut pas rejeter l'hypothèse nulle d'indépendance entre le label et la catégorie de produit.")


In [None]:
crosstab = pd.crosstab(corpus_ajuste['NMF_label'], corpus_ajuste['simple_product_category_tree'])
crosstab

In [None]:
crosstab['total'] = crosstab.sum(axis=1) # Calculates the sum of each row and adds it as a new column named 'total'
crosstab

In [None]:
corpus_ajuste['product_category_tree'].value_counts()

## II - Embedding

### Définitions des méthodes d'embedding de documents

In [None]:
def create_gloVe_embeddings(dataframe: pd.DataFrame, colonne: str, model) -> pd.DataFrame:
    """
    Crée une colonne supplémentaire contenant des embeddings gloVe pour chaque document dans un DataFrame.

    Args:
        dataframe: Le DataFrame contenant les documents.
        colonne: Le nom de la colonne contenant les listes de tokens.
        model: Le modèle gloVe pré-entraîné.

    Returns:
        Le DataFrame avec une nouvelle colonne contenant les embeddings gloVe.
    """

    df = dataframe.copy()
    embeddings = []
    for liste_tokens in df[colonne]: #On parcout la colonne de token, ligne par ligne
        document_embedding = np.zeros(model.vector_size)  #Initialisation du vecteur d'embedding
        for token in liste_tokens: #A chaque nouvelle ligne, on regarde les token individuellement
            if token in model: #Si le modèle a déjà rencontré le token, on l'ajoute à l'embedding
                document_embedding += model[token]
        embeddings.append(document_embedding)
    df['gloVe_embeddings'] = embeddings #On obtient notre colonne d'embedding : un vecteur qui résume le document
    return df

def create_BERT_embeddings(dataframe: pd.DataFrame, colonne_texte: str, nom_modele='bert-base-cased', utiliser_gpu=True) -> pd.DataFrame:
    """
    Crée deux colonnes supplémentaires contenant des embeddings BERT pour chaque document dans un DataFrame :
    - 'bert_embeddings_cls' : Embeddings du token [CLS].

    Args:
        dataframe: Le DataFrame contenant les documents.
        colonne_texte: Le nom de la colonne contenant les textes à encoder.
        nom_modele: Le nom du modèle BERT pré-entraîné à utiliser (par défaut : 'bert-base-cased').
        utiliser_gpu: Booléen indiquant si le calcul doit être effectué sur GPU (si disponible).

    Returns:
        Le DataFrame avec deux nouvelles colonnes contenant les embeddings BERT.
    """

    df_copie = dataframe.copy()
    tokenizer = AutoTokenizer.from_pretrained(nom_modele)
    modele = AutoModel.from_pretrained(nom_modele)

    if utiliser_gpu and torch.cuda.is_available():
        device = torch.device('cuda')
        modele.to(device)
    else:
        device = torch.device('cpu')

    liste_embeddings_cls = []

    for texte in df_copie[colonne_texte]:
        inputs = tokenizer(texte, return_tensors="pt", padding=True, truncation=True)
        # Padding pour atteindre la longueur attendue par le modele, truncation quand c'est trop long
        inputs.to(device)
        with torch.no_grad():
          outputs = modele(**inputs)

        # Extraction de l'embedding du token [CLS]
        embedding_cls = outputs.last_hidden_state[:, 0, :].cpu().squeeze().numpy()
        embedding_cls_normalise = embedding_cls / np.linalg.norm(embedding_cls)
        liste_embeddings_cls.append(embedding_cls_normalise)

    df_copie['bert_embeddings_cls'] = liste_embeddings_cls

    return df_copie

modele_use = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")

def create_USE_embeddings(dataframe: pd.DataFrame, colonne: str, model = modele_use) -> pd.DataFrame:
    """
    Crée une colonne supplémentaire contenant des embeddings USE (Universal Sentence Encoder)
    pour chaque document dans un DataFrame.

    Args:
        dataframe: Le DataFrame contenant les documents.
        colonne: Le nom de la colonne contenant les textes à encoder.

    Returns:
        Le DataFrame avec une nouvelle colonne contenant les embeddings USE.
    """

    df = dataframe.copy()

    # Générer les embeddings
    embeddings = model(df[colonne]).numpy()

    # Ajouter les embeddings au DataFrame
    df['use_embeddings'] = list(embeddings)

    return df

### gloVe

In [67]:
corpus_gloVe = create_gloVe_embeddings(corpus_ajuste, 'description token', model=wv)

In [None]:
corpus_gloVe.sample(2, random_state = graine)

In [None]:
corpus_gloVe['gloVe_embeddings'].sample(3, random_state=graine)

In [None]:
# Réduire la dimensionnalité des embeddings avec UMAP
reducer = umap.UMAP(n_neighbors=80, min_dist=0.4, metric='cosine', random_state=graine)
embedding_2d = reducer.fit_transform(list(corpus_gloVe['gloVe_embeddings']))

# Ajouter les embeddings 2D au DataFrame
corpus_gloVe['umap_embedding_x'] = embedding_2d[:, 0]
corpus_gloVe['umap_embedding_y'] = embedding_2d[:, 1]
# Ajouter une 3e dimension
# MatPlotLib3d pour faire des viz en 3D


# Visualiser les embeddings 2D avec Plotly
fig = px.scatter(corpus_gloVe, x='umap_embedding_x', y='umap_embedding_y',
                 color='simple_product_category_tree', hover_data=['NMF_label'],
                 title='UMAP Visualization of gloVe Embeddings')
fig.show()


In [71]:
# Kmeans + ARI pour comparer

In [None]:
reducer = umap.UMAP(n_neighbors=80,
                    n_components=3, # 3 dimensions au lieu de 2
                    min_dist=0.4,
                    metric='cosine',
                    random_state=graine)
embedding_3d = reducer.fit_transform(list(corpus_gloVe['gloVe_embeddings']))

corpus_gloVe['umap_embedding_x'] = embedding_3d[:, 0]
corpus_gloVe['umap_embedding_y'] = embedding_3d[:, 1]
corpus_gloVe['umap_embedding_z'] = embedding_3d[:, 2]

fig = px.scatter_3d(corpus_gloVe,
                    x='umap_embedding_x',
                    y='umap_embedding_y',
                    z='umap_embedding_z',
                    color='simple_product_category_tree',
                    hover_data=['NMF_label'],
                    title='UMAP 3D Visualization of gloVe Embeddings')
fig.show()

In [None]:
# Prendre toutes les dimensions (donc pas après umap)

kmeans = KMeans(n_clusters=7, random_state=graine, n_init='auto').fit(corpus_gloVe.loc[:,['umap_embedding_x','umap_embedding_y','umap_embedding_z']])
corpus_gloVe['classif_non_supervisee'] = kmeans.labels_

adjusted_rand_score(corpus_gloVe['simple_product_category_tree'], corpus_gloVe['classif_non_supervisee'])

### USE

In [74]:
corpus_USE = create_USE_embeddings(corpus_ajuste, 'description')

In [None]:
corpus_USE.sample(2, random_state = graine)

In [None]:
for embeddings in corpus_USE['use_embeddings'].sample(10, random_state=graine):
  print(len(embeddings))

In [None]:
# Réduire la dimensionnalité des embeddings avec UMAP
reducer = umap.UMAP(n_neighbors=80, min_dist=0.6, metric='cosine', random_state=graine)
embedding_2d = reducer.fit_transform(list(corpus_USE['use_embeddings']))

# Ajouter les embeddings 2D au DataFrame
corpus_USE['umap_embedding_x'] = embedding_2d[:, 0]
corpus_USE['umap_embedding_y'] = embedding_2d[:, 1]
# Ajouter une 3e dimension
# MatPlotLib3d pour faire des viz en 3D


# Visualiser les embeddings 2D avec Plotly
fig = px.scatter(corpus_USE, x='umap_embedding_x', y='umap_embedding_y',
                 color='simple_product_category_tree', hover_data=['NMF_label'],
                 title='UMAP Visualization of gloVe Embeddings')
fig.show()


In [None]:
reducer = umap.UMAP(n_neighbors=80,
                    n_components=3, # 3 dimensions au lieu de 2
                    min_dist=0.6,
                    metric='cosine',
                    random_state=graine)
embedding_3d = reducer.fit_transform(list(corpus_USE['use_embeddings']))

corpus_USE['umap_embedding_x'] = embedding_3d[:, 0]
corpus_USE['umap_embedding_y'] = embedding_3d[:, 1]
corpus_USE['umap_embedding_z'] = embedding_3d[:, 2]

fig = px.scatter_3d(corpus_USE,
                    x='umap_embedding_x',
                    y='umap_embedding_y',
                    z='umap_embedding_z',
                    color='simple_product_category_tree',
                    hover_data=['NMF_label'],
                    title='UMAP 3D Visualization of gloVe Embeddings')
fig.show()

In [None]:
# Définir l'espace de recherche des paramètres
param_dist = {
    'n_neighbors': randint(10, 120),  # Distribution uniforme d'entiers entre 10 et 200
    'min_dist': uniform(0.0, 1.0),       # Distribution uniforme continue entre 0 et 1
}

# Créer le modèle UMAP
reducer = umap.UMAP(metric='cosine', random_state=graine, n_components=3)

# Définir la métrique de validation
def trustworthiness(X, X_embedded, n_neighbors=5):
    return umap.trustworthiness(X, X_embedded, n_neighbors=n_neighbors)

# Créer l'objet RandomizedSearchCV
random_search = RandomizedSearchCV(
    reducer,
    param_distributions=param_dist,
    n_iter=30,   # Nombre d'itérations de recherche aléatoire
    scoring=trustworthiness,  # Métrique à optimiser
    cv=3,        # Nombre de folds pour la validation croisée (si applicable)
    random_state=graine,
    n_jobs=-1    # Utiliser tous les cœurs disponibles pour le calcul parallèle
)

# Lancer la recherche aléatoire
random_search.fit(list(corpus_USE['use_embeddings']))

# Afficher les meilleurs paramètres
print("Meilleurs paramètres trouvés : ", random_search.best_params_)

# Obtenir le meilleur embedding UMAP
best_umap_USE = random_search.best_estimator_.fit_transform(list(corpus_USE['use_embeddings']))

# Ajouter les embeddings 3D au DataFrame
corpus_USE['umap_embedding_x'] = best_umap_USE[:, 0]
corpus_USE['umap_embedding_y'] = best_umap_USE[:, 1]
corpus_USE['umap_embedding_z'] = best_umap_USE[:, 2]

# Visualiser les embeddings 2D avec Plotly
fig = px.scatter(corpus_USE, x='umap_embedding_x', y='umap_embedding_y',
                 color='simple_product_category_tree', hover_data=['NMF_label'],
                 title='UMAP Visualization of USE Embeddings')
fig.show()

In [None]:
fig = px.scatter_3d(corpus_USE,
                    x='umap_embedding_x',
                    y='umap_embedding_y',
                    z='umap_embedding_z',
                    color='simple_product_category_tree',
                    hover_data=['NMF_label'],
                    title='UMAP 3D Visualization of USE Embeddings')
fig.show()

In [None]:
kmeans = KMeans(n_clusters=7, random_state=graine, n_init='auto').fit(corpus_USE.loc[:,['umap_embedding_x','umap_embedding_y','umap_embedding_z']])
corpus_USE['classif_non_supervisee'] = kmeans.labels_

adjusted_rand_score(corpus_USE['simple_product_category_tree'], corpus_USE['classif_non_supervisee'])

### BERT

In [None]:
corpus_BERT = create_BERT_embeddings(corpus_ajuste, 'description', utiliser_gpu=True)
# 8 mn

In [None]:
corpus_BERT.sample(2, random_state = graine)

In [None]:
for embeddings in corpus_BERT['bert_embeddings_cls'].sample(10, random_state=graine):
  print(len(embeddings))

In [None]:
# Réduire la dimensionnalité des embeddings avec UMAP
reducer = umap.UMAP(n_neighbors=100, min_dist=0.6, metric='cosine', random_state=graine)
embedding_2d = reducer.fit_transform(list(corpus_BERT['bert_embeddings_cls']))

# Ajouter les embeddings 2D au DataFrame
corpus_BERT['umap_embedding_x'] = embedding_2d[:, 0]
corpus_BERT['umap_embedding_y'] = embedding_2d[:, 1]
# Ajouter une 3e dimension
# MatPlotLib3d pour faire des viz en 3D


# Visualiser les embeddings 2D avec Plotly
fig = px.scatter(corpus_BERT, x='umap_embedding_x', y='umap_embedding_y',
                 color='simple_product_category_tree', hover_data=['NMF_label'],
                 title='UMAP Visualization of BERT Embeddings')
fig.show()


In [None]:
# Réduire la dimensionnalité des embeddings avec UMAP
reducer = umap.UMAP(n_neighbors=100, min_dist=0.6, metric='cosine', n_components=3, random_state=graine)
embedding_3d = reducer.fit_transform(list(corpus_BERT['bert_embeddings_cls']))

# Ajouter les embeddings 3D au DataFrame
corpus_BERT['umap_embedding_x'] = embedding_3d[:, 0]
corpus_BERT['umap_embedding_y'] = embedding_3d[:, 1]
corpus_BERT['umap_embedding_z'] = embedding_3d[:, 2]

# Visualiser les embeddings 3D avec Plotly

fig = px.scatter_3d(corpus_USE,
                    x='umap_embedding_x',
                    y='umap_embedding_y',
                    z='umap_embedding_z',
                    color='simple_product_category_tree',
                    hover_data=['NMF_label'],
                    title='UMAP 3D Visualization of BERT Embeddings')
fig.show()

# Regarder avec les embeddings complet à quel point les catégories se chevauchent (distance max par exemple)

In [None]:
# Définir l'espace de recherche des paramètres
param_dist = {
    'n_neighbors': randint(10, 120),  # Distribution uniforme d'entiers entre 10 et 200
    'min_dist': uniform(0.0, 1.0),       # Distribution uniforme continue entre 0 et 1
}

# Créer le modèle UMAP
reducer = umap.UMAP(metric='cosine', random_state=graine, n_components=3)

# Définir la métrique de validation
def trustworthiness(X, X_embedded, n_neighbors=5):
    return umap.trustworthiness(X, X_embedded, n_neighbors=n_neighbors)

# Créer l'objet RandomizedSearchCV
random_search = RandomizedSearchCV(
    reducer,
    param_distributions=param_dist,
    n_iter=30,   # Nombre d'itérations de recherche aléatoire
    scoring=trustworthiness,  # Métrique à optimiser
    cv=3,        # Nombre de folds pour la validation croisée (si applicable)
    random_state=graine,
    n_jobs=-1    # Utiliser tous les cœurs disponibles pour le calcul parallèle
)

# Lancer la recherche aléatoire
random_search.fit(list(corpus_BERT['bert_embeddings_cls']))

# Afficher les meilleurs paramètres
print("Meilleurs paramètres trouvés : ", random_search.best_params_)

# Obtenir le meilleur embedding UMAP
best_UMAP_BERT = random_search.best_estimator_.fit_transform(list(corpus_BERT['bert_embeddings_cls']))

# Ajouter les embeddings 2D au DataFrame
corpus_BERT['umap_embedding_x'] = best_UMAP_BERT[:, 0]
corpus_BERT['umap_embedding_y'] = best_UMAP_BERT[:, 1]
corpus_BERT['umap_embedding_z'] = best_UMAP_BERT[:, 2]

# Visualiser les embeddings 2D avec Plotly
fig = px.scatter(corpus_BERT, x='umap_embedding_x', y='umap_embedding_y',
                 color='simple_product_category_tree', hover_data=['NMF_label'],
                 title='UMAP Visualization of BERT Embeddings')
fig.show()

In [None]:
fig = px.scatter_3d(corpus_BERT,
                    x='umap_embedding_x',
                    y='umap_embedding_y',
                    z='umap_embedding_z',
                    color='simple_product_category_tree',
                    hover_data=['NMF_label'],
                    title='UMAP 3D Visualization of BERT Embeddings')
fig.show()

In [None]:
kmeans = KMeans(n_clusters=7, random_state=graine, n_init='auto').fit(corpus_BERT.loc[:,['umap_embedding_x','umap_embedding_y','umap_embedding_z']])
corpus_BERT['classif_non_supervisee'] = kmeans.labels_

adjusted_rand_score(corpus_BERT['simple_product_category_tree'], corpus_BERT['classif_non_supervisee'])

# B. Image

In [90]:
#keras image data sift

## SIFT

In [91]:
def sift_analysis(image_path):
    images = []
    image = cv2.imread(image_path)

    # Resizer les images si trop grandes
    if image.shape[0] > 240 or image.shape[1] > 240:
        # Le facteur de redimensionnement à partir de la dimension qui pose problème
        facteur_redimensionnement = min(240 / image.shape[0], 240 / image.shape[1])

        # Downscale
        largeur = int(image.shape[1] * facteur_redimensionnement)
        hauteur = int(image.shape[0] * facteur_redimensionnement)
        image = cv2.resize(image, (largeur, hauteur))

    # Conversion en échelle de NB
    gray = cv2.cvtColor(image, cv2.IMREAD_GRAYSCALE)

    # Détecteur avec 50 features max par image pour économiser de la puissance de calcul
    sift = cv2.SIFT_create(nfeatures = 50)

    # Calcul des descripteurs SIFT des keypoints
    keypoints, descriptors = sift.detectAndCompute(gray, None)

    return descriptors

In [None]:
image_directory = "./Data/Images/"

# Récuperer les noms d'images dans le dossier spécifié
image_files = [f for f in os.listdir(image_directory) if f.endswith(('.jpg', '.png', '.jpeg'))]

# Initialisation des objets de stockage des descripteurs, et des Labels pour faire la jointure
descriptors_list = []
labels_list = []

# SIFT pour tout le monde
for image_file in tqdm(image_files,desc="Extraction des descripteurs"):
    image_path = os.path.join(image_directory, image_file)
    label = os.path.splitext(image_file)[0]
    descriptors = pd.DataFrame(sift_analysis(image_path))
    descriptors['Label'] = label
    descriptors_list.append(descriptors)

In [None]:
len(descriptors_list)

In [94]:
# Création d'un dataframe pour ranger les descripteurs non vides
tous_descripteurs = pd.concat([descriptor for descriptor in descriptors_list if descriptor is not None])

In [None]:
# 50k + descripteurs sur l'ensemble du jeu de données. 128 dimensions + 1 pour les labels
tous_descripteurs.shape

In [None]:
tous_descripteurs

In [None]:
tous_descripteurs.loc[:,~tous_descripteurs.columns.isin(['Label'])]

In [None]:
# Créer le modèle GMM avec le nombre de clusters souhaité
gmm = GaussianMixture(n_components=30, random_state=graine, reg_covar=1e-6)

# Ajuster le modèle GMM avec l'échantillon
gmm.fit(tous_descripteurs.loc[:, ~tous_descripteurs.columns.isin(['Label'])])

In [99]:
# Prédire les probabilités d'appartenance pour l'ensemble des données
probas = gmm.predict_proba(tous_descripteurs.loc[:, ~tous_descripteurs.columns.isin(['Label'])])

# Convertir les probabilités en DataFrame et ajouter les noms de colonnes pour les clusters
probas_df = pd.DataFrame(probas, columns=[f'Cluster_{i}' for i in range(probas.shape[1])])

In [None]:
tous_descripteurs.shape

In [None]:
probas_df.shape

In [102]:
# Réinitialiser les indices des DataFrames
tous_descripteurs = tous_descripteurs.reset_index(drop=True)
probas_df = probas_df.reset_index(drop=True)

# Ajouter les probabilités au DataFrame original
probas_df = pd.concat([tous_descripteurs['Label'], probas_df], axis=1)

In [None]:
probas_df

In [104]:
def compute_sum_pooling(df):
    # Regroupe les données par 'Label' et somme les probabilités pour chaque cluster
    histogrammes = df.groupby('Label').mean().reset_index()
    return histogrammes

# Calcul des histogrammes
probas_df = compute_sum_pooling(probas_df)

In [None]:
probas_df

In [106]:
probas_df = pd.merge(
    left=probas_df,
    right=corpus_ajuste.loc[:,['uniq_id','simple_product_category_tree']],
    left_on='Label',
    right_on='uniq_id',
    how='left'
)

In [107]:
probas_df.drop(columns='uniq_id',inplace=True)

In [None]:
# 1. Préparation des données
label_encoder = LabelEncoder()
probas_ML = probas_df.drop(columns='Label', inplace=False)
probas_ML['simple_product_category_tree'] = label_encoder.fit_transform(probas_ML['simple_product_category_tree'])

X = probas_ML.drop('simple_product_category_tree', axis=1)
y = probas_ML['simple_product_category_tree']

# 2. Division des données en ensembles d'entraînement et de test
X_train_ns, X_test_ns, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=graine, stratify=y)

# # Normaliser les caractéristiques
# scaler = StandardScaler()
# X_train = scaler.fit_transform(X_train_ns)
# X_test = scaler.transform(X_test_ns)

# 3. Définir les paramètres à tester
param_grid = {
    'n_neighbors': [7, 9, 11, 13, 15],  # Liste des nombres de voisins à tester
    'weights': ['uniform', 'distance'],  # Poids pour les voisins
    'p': [1, 2]  # Paramètre de la distance de Minkowski (1 pour la distance de Manhattan, 2 pour la distance Euclidienne)
}

# 4. Créer l'objet GridSearchCV
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5, n_jobs=-1, verbose=2)

# 5. Entraîner GridSearchCV
grid_search.fit(X_train_ns, y_train)

# 6. Meilleurs paramètres et score
print("Meilleurs paramètres trouvés : ", grid_search.best_params_)
print("Meilleur score de validation croisée : ", grid_search.best_score_)

# 7. Évaluation du modèle avec les meilleurs paramètres
best_knn = grid_search.best_estimator_
y_pred = best_knn.predict(X_test_ns)

# Afficher les résultats
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred, target_names=label_encoder.classes_))

In [None]:
print("Accuracy:", accuracy_score(y_train, best_knn.predict(X_train)))
print("Classification Report:\n", classification_report(y_train, best_knn.predict(X_train), target_names=label_encoder.classes_))

In [None]:
# # 1. Préparation des données
# label_encoder = LabelEncoder()
# probas_ML = probas_df.drop(columns='Label', inplace=False)
# probas_ML['simple_product_category_tree'] = label_encoder.fit_transform(probas_ML['simple_product_category_tree'])

# X = probas_ML.drop('simple_product_category_tree', axis=1)
# y = probas_ML['simple_product_category_tree']

# # 2. Division des données en ensembles d'entraînement et de test
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=graine, stratify=y)

# 3. Définir les paramètres à tester
param_dist = {
    'C': uniform(loc=0.1, scale=100),
    'gamma': uniform(loc=0.001, scale=10),
    'kernel': ['linear', 'rbf', 'poly', 'sigmoid'],
    'degree': randint(2, 6)
}

# 4. Créer l'objet StratifiedKFold
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=graine)

# 5. Créer l'objet RandomizedSearchCV avec StratifiedKFold
random_search = RandomizedSearchCV(
    SVC(),
    param_distributions=param_dist,
    n_iter=50,
    cv=cv,
    n_jobs=-1,
    verbose=2,
    random_state=graine,
    scoring='accuracy'
)

# 6. Entraîner RandomizedSearchCV
random_search.fit(X_train, y_train)

# 7. Meilleurs paramètres et score
print("Meilleurs paramètres trouvés : ", random_search.best_params_)
print("Meilleur score de validation croisée : ", random_search.best_score_)

# 8. Évaluation du modèle avec les meilleurs paramètres
best_svc = random_search.best_estimator_
y_pred = best_svc.predict(X_test)

# Afficher les résultats
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred, target_names=label_encoder.classes_))

In [None]:
# Supposons que best_svc est votre meilleur modèle SVM entraîné

# Prédictions de probabilité
y_pred_proba = best_svc.decision_function(X_test)

# Binariser les étiquettes pour le calcul ROC
n_classes = len(np.unique(y))
y_test_bin = label_binarize(y_test, classes=range(n_classes))

# Calculer ROC curve et ROC area pour chaque classe
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test_bin[:, i], y_pred_proba[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

# Tracer la courbe ROC
plt.figure(figsize=(10, 8))
for i in range(n_classes):
    plt.plot(fpr[i], tpr[i], lw=2,
             label='ROC curve of class {0} (area = {1:0.2f})'
             ''.format(i, roc_auc[i]))

plt.plot([0, 1], [0, 1], 'k--', lw=2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()

# Calculer et afficher l'AUC moyenne
print(f"AUC moyenne: {np.mean(list(roc_auc.values())):.2f}")

# Calculer et afficher la matrice de confusion
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(10, 8))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matrice de Confusion')
plt.ylabel('Vraie classe')
plt.xlabel('Classe prédite')
plt.show()

# Afficher le rapport de classification et l'accuracy comme précédemment
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred, target_names=label_encoder.classes_))

In [None]:
# Overfit !!!
print("Accuracy:", accuracy_score(y_train, best_svc.predict(X_train)))
print("Classification Report:\n", classification_report(y_train, best_svc.predict(X_train), target_names=label_encoder.classes_))

## Transfer Learning

### VGG16

In [189]:
# Transfer Learning : https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/image/ImageDataGenerator
# Transfer Learning : Rajouter rotation flip etc.

In [113]:
model = VGG16() # Création du modèle VGG-16 implementé par Keras

In [114]:
img = load_img('./Data/Images/0a8a1e9c6659361c0c2b247f8a6471d0.jpg', target_size=(224, 224))  # Charger l'image
img = img_to_array(img)  # Convertir en tableau numpy
img = img.reshape((1, img.shape[0], img.shape[1], img.shape[2]))  # Créer la collection d'images (un seul échantillon)
img = preprocess_input(img)  # Prétraiter l'image comme le veut VGG-16

In [None]:
y = model.predict(img)  # Prédir la classe de l'image (parmi les 1000 classes d'ImageNet)

In [None]:
# Afficher les 3 classes les plus probables
print('Top 3 :', decode_predictions(y, top=3)[0])

#### Réentrainement nouveau modèle

In [None]:
# Charger VGG-16 pré-entraîné sur ImageNet et sans les couches fully-connected
model = VGG16(weights="imagenet", include_top=False, input_shape=(224, 224, 3))

# Récupérer la sortie de ce réseau
x = model.output

# Ajouter la nouvelle couche fully-connected pour la classification à 7 classes
predictions = Dense(7, activation='softmax')(x)

# Définir le nouveau modèle
new_model = Model(inputs=model.input, outputs=predictions)

In [118]:
# Ne pas entraîner les 5 premières couches (les plus basses) 
for layer in model.layers[:5]:
   layer.trainable = False

In [None]:


# Compiler le modèle 
new_model.compile(loss="categorical_crossentropy", optimizer=optimizers.SGD(lr=0.0001, momentum=0.9), metrics=["accuracy"])

# Entraîner sur les données d'entraînement (X_train, y_train)
model_info = new_model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, verbose=2)