In [11]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

#tracking mlflow
import mlflow
mlflow.set_tracking_uri("http://127.0.0.1:5000")
from mlflow.tracking import MlflowClient

import mlflow.sklearn
from time import time
from sklearn.metrics import (accuracy_score, precision_score, recall_score, f1_score,hamming_loss, jaccard_score, confusion_matrix, roc_curve, auc)
import matplotlib.pyplot as plt

from sklearn.preprocessing import MultiLabelBinarizer

#Extraction de features
#Bag of words
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation, NMF

#sauvegarde les modeles
import joblib

#pour slugifier une string
import re
import unicodedata

#analyse des topics
import pyLDAvis

#empecher les messages d'erreur
import warnings
warnings.filterwarnings('ignore')
import logging
logging.disable(logging.WARNING) # disable WARNING, INFO and DEBUG logging everywhere

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Formatage taille cellule pour s'adapter aux graphiques
from IPython.display import display, HTML
display(HTML("<style>.output_scroll { height: auto !important; }</style>"))


df = pd.read_csv("./filtered_questions_clean.csv",sep=',', encoding='utf-8')  
df.head(5)

Unnamed: 0.1,Unnamed: 0,title,body,link,view_count,score,answer_count,tags,creation_date,clean_title,clean_body,word_count_title,word_count_clean_title,word_count_body,word_count_clean_body
0,0,Manifest v3 background scripts/service worker ...,<p>I'm trying to migrate my browser extension ...,https://stackoverflow.com/questions/75043889/m...,17070,48,3,"['google-chrome', 'firefox', 'cross-browser', ...",2023-01-07 21:27:38,manifest v background script service worker fi...,trying migrate browser extension expect work c...,7,7,493,263
1,1,Settings Menu missing Ubuntu 22.04,<p>So I was trying to get back the menu settin...,https://stackoverflow.com/questions/74985183/s...,42944,33,4,"['ubuntu', 'menu', 'settings', 'new-operator',...",2023-01-02 17:06:35,setting menu missing ubuntu,trying get back menu setting dissapear ubutu m...,5,4,166,150
2,2,Does &#39;use client&#39; in Next.js 13 root l...,<p>I was trying Nextjs 13 with Next-auth and A...,https://stackoverflow.com/questions/74992326/d...,32460,27,2,"['javascript', 'reactjs', 'next.js', 'server-s...",2023-01-03 10:49:12,use client next j root layout make whole route...,trying nextjs next auth apollo client wrap roo...,13,11,86,41
3,3,How can I stop Clang from overexpanding nested...,<p>Consider this code:</p>\r\n<pre><code>#incl...,https://stackoverflow.com/questions/74979866/h...,1385,21,3,"['c++', 'clang', 'compiler-optimization', 'tem...",2023-01-02 07:28:00,stop clang overexpanding nested loop via template,consider code include iostream typedef long xi...,11,7,124,70
4,4,Why dialog tag does not spread to the whole sc...,<p>In the middle of writing my project code I ...,https://stackoverflow.com/questions/75024007/w...,7395,20,1,"['html', 'css', 'dialog', 'height', 'width']",2023-01-05 20:28:25,dialog tag spread whole screen even though set...,middle writing project code decided change pop...,19,10,1399,2418


## Fonction pour slugifier une string

In [4]:
def slugify(value):
    # Normaliser la chaîne pour enlever les accents
    value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore').decode('ascii')
    
    # Remplacer les caractères non-alphanumériques par des tirets
    value = re.sub(r'[^a-zA-Z0-9]+', '-', value)
    
    # Enlever les tirets en début et fin de chaîne
    value = value.strip('-')
    
    # Convertir en minuscules
    return value.lower()

## Préparation des données

In [6]:
# Binariser les tags
mlb = MultiLabelBinarizer()
df_tags = mlb.fit_transform(df['tags'])

# Séparer les données en jeux d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(df[['clean_title', 'clean_body']], df_tags, test_size=0.2, random_state=42)

## Extraction de Features

### Définir les fonctions de vectorisation (Bag of words + LDA/NMF)

In [9]:
# Fonction pour vectorisation avec CountVectorizer + LDA sur "Title" + "Body"
def vectorize_count_lda_title_body(X_train, n_components=10):
    count_vect = CountVectorizer()
    X_train_count = count_vect.fit_transform(X_train['clean_title'] + " " + X_train['clean_body'])
    
    lda = LatentDirichletAllocation(n_components=n_components, random_state=0)
    X_train_lda = lda.fit_transform(X_train_count)
    
    return X_train_lda, lda, count_vect

# Fonction pour vectorisation avec CountVectorizer + LDA
def vectorize_count_lda_fit_title_transform_title_body(X_train, X_test=None, n_components=10):
    count_vect = CountVectorizer()
    # Fit sur le titre uniquement
    count_vect.fit(X_train['clean_title'])
    
    # Transform sur la combinaison "Title" + "Body"
    X_train_count = count_vect.transform(X_train['clean_title'] + " " + X_train['clean_body'])
    
    lda = LatentDirichletAllocation(n_components=n_components, random_state=0)
    X_train_lda = lda.fit_transform(X_train_count)
    
    return X_train_lda, lda, count_vect

In [10]:
# Fonction pour vectorisation avec TfidfVectorizer + NMF sur "Title" + "Body"
def vectorize_tfidf_nmf_title_body(X_train, n_components=10):
    # Handle missing values
    X_train = X_train.fillna("")
    
    tfidf_vect = TfidfVectorizer()
    X_train_tfidf = tfidf_vect.fit_transform(X_train['clean_title'] + " " + X_train['clean_body'])

    nmf = NMF(n_components=n_components, random_state=0)
    X_train_nmf = nmf.fit_transform(X_train_tfidf)
    
    return X_train_nmf, nmf, tfidf_vect

# Fonction pour vectorisation avec TfidfVectorizer + NMF
def vectorize_tfidf_nmf_fit_title_transform_title_body(X_train, X_test=None, n_components=10):
    # Handle missing values
    X_train = X_train.fillna("")
    
    tfidf_vect = TfidfVectorizer()
    # Fit sur le titre uniquement
    tfidf_vect.fit(X_train['clean_title'])
    
    # Transform sur la combinaison "Title" + "Body"
    X_train_tfidf = tfidf_vect.transform(X_train['clean_title'] + " " + X_train['clean_body'])
    
    nmf = NMF(n_components=n_components, random_state=0)
    X_train_nmf = nmf.fit_transform(X_train_tfidf)
    
    return X_train_nmf, nmf, tfidf_vect

 ## Fonction pour Cacluler le taux de couverture des mots des questions

In [12]:
# Fonction pour calculer le taux de couverture des mots
def calculate_word_coverage(X_test, vectorizer):
    """
    Calcule le taux de couverture des mots dans le jeu de test par rapport au vocabulaire du vectorizer.
    
    Parameters:
        X_test: Jeu de test (DataFrame avec des colonnes 'clean_title' et 'clean_body')
        vectorizer: Vectoriseur déjà entraîné sur le jeu d'entraînement
    
    Returns:
        coverage_rate: Le pourcentage de mots du jeu de test couverts par le vocabulaire du vectorizer
    """
    # Remplir les valeurs manquantes avec des chaînes vides
    X_test = X_test.fillna("")
    
    # Nombre total de mots uniques dans le vocabulaire (déjà appris lors du fit sur X_train)
    total_vocab = len(vectorizer.get_feature_names_out())
    
    # Transformer les questions de test pour obtenir les mots utilisés dans X_test
    X_test_transformed = vectorizer.transform(X_test['clean_title'] + " " + X_test['clean_body'])
    
    # Compter le nombre de mots uniques utilisés dans le jeu de test
    word_usage = (X_test_transformed > 0).sum(axis=0)
    covered_words = (word_usage > 0).sum()
    
    # Calculer le taux de couverture par rapport au vocabulaire total
    coverage_rate = covered_words / total_vocab
    return coverage_rate

## Fonction pour enregistrer les informations dans mlflow

In [14]:
def log_experiment_to_mlflow(model, vectorizer, X_train, X_test, params, method_name, train_quest_words_csv_path, test_quest_words_csv_path):
    # Initialiser le client MLflow
    client = MlflowClient()
    
    # Calculer le taux de couverture des mots sur le jeu de test
    word_coverage = calculate_word_coverage(X_test, vectorizer)  # Utiliser X_test
    
    # Démarrer un enregistrement MLflow avec un nom personnalisé pour le run
    with mlflow.start_run(run_name=method_name) as run:
        # Enregistrer les paramètres, y compris n_components
        mlflow.log_params(params)
        mlflow.log_param("n_components", model.n_components if hasattr(model, 'n_components') else "N/A")
        
        # Loguer les sujets ou thèmes extraits
        for idx, topic in enumerate(model.components_):
            topic_words = [vectorizer.get_feature_names_out()[i] for i in topic.argsort()[:-10 - 1:-1]]
            mlflow.log_text("\n".join(topic_words), f"topic_{idx}_{method_name}.txt")
        
        # Loguer le modèle LDA ou NMF en tant qu'artifact
        model_uri = f"runs:/{run.info.run_id}/{method_name}_model"
        mlflow.sklearn.log_model(model, f"{method_name}_model")

        # Enregistrer le modèle dans le registre des modèles
        registered_model_name = f"{method_name}_registered_model"
        mlflow.register_model(model_uri=model_uri, name=registered_model_name)

        # Vérifier si le modèle est une instance de LatentDirichletAllocation
        if isinstance(model, LatentDirichletAllocation):
            # Créer la visualisation pyLDAvis
            X_train_transformed = vectorizer.transform(X_train['clean_title'] + " " + X_train['clean_body'])
            panel = pyLDAvis.prepare(
                topic_term_dists=model.components_,
                doc_topic_dists=model.transform(X_train_transformed),
                doc_lengths=X_train_transformed.sum(axis=1).A1,
                vocab=vectorizer.get_feature_names_out(),
                term_frequency=X_train_transformed.sum(axis=0).A1
            )
            
            # Sauvegarder la visualisation en tant que fichier HTML
            vis_html_path = f"{method_name}_lda_visualization.html"
            pyLDAvis.save_html(panel, vis_html_path)
            
            # Loguer le fichier HTML comme artefact dans MLflow
            mlflow.log_artifact(vis_html_path)

        try:
            # Loguer les artefacts
            client.log_artifact(run.info.run_id, train_quest_words_csv_path)
            client.log_artifact(run.info.run_id, test_quest_words_csv_path)
        except Exception as e:
            print(f"Erreur lors de l'enregistrement des artefacts : {e}")
            print("Les fichiers ont été enregistrés localement. Téléchargez-les manuellement via l'interface MLflow.")
        
        # Enregistrer le taux de couverture des mots dans MLflow
        mlflow.log_metric("word_coverage", word_coverage)  # Loguer la couverture sur le jeu de test
        
        print(f"Taux de couverture des mots : {word_coverage:.2f}\n")

### Définir la fonction pour exécuter l'expérience

In [16]:
def run_unsupervised_experiment(vectorization_method, X_train, X_test, params, method_name):
    X_train = X_train.fillna("")
    X_test = X_test.fillna("")
    
    # Vectoriser X_train en utilisant la méthode de vectorisation fournie
    X_train_vect, model, vectorizer = vectorization_method(X_train, n_components=params['n_components'])
    params['vectorization'] = method_name

    # Créer la matrice Mtopics-words
    Mtopics_words = model.components_

    # Transformer les données d'entraînement avec le même vectoriseur que celui utilisé pour l'entraînement
    X_train_transformed = vectorizer.transform(X_train['clean_title'] + " " + X_train['clean_body'])
    M_train_quest_topics = model.transform(X_train_transformed)

    # Calculer la matrice M(train)quest-words
    M_train_quest_words = np.dot(M_train_quest_topics, Mtopics_words)

    # Convertir la matrice M(train)quest-words en DataFrame
    df_Mtrain_quest_words = pd.DataFrame(M_train_quest_words, columns=vectorizer.get_feature_names_out())
    
    # Sauvegarder la matrice M(train)quest-words en tant que fichier CSV
    train_quest_words_csv_path = f"Mtrain_quest_words_{method_name}.csv"
    df_Mtrain_quest_words.to_csv(train_quest_words_csv_path, index=False)
    
    # Transformer les données de test avec le même vectoriseur
    X_test_transformed = vectorizer.transform(X_test['clean_title'] + " " + X_test['clean_body'])
    M_test_quest_topics = model.transform(X_test_transformed)

    # Calculer la matrice M(test)quest-words
    M_test_quest_words = np.dot(M_test_quest_topics, Mtopics_words)

    # Convertir la matrice M(test)quest-words en DataFrame
    df_Mtest_quest_words = pd.DataFrame(M_test_quest_words, columns=vectorizer.get_feature_names_out())
    
    # Sauvegarder la matrice M(test)quest-words en tant que fichier CSV
    test_quest_words_csv_path = f"Mtest_quest_words_{method_name}.csv"
    df_Mtest_quest_words.to_csv(test_quest_words_csv_path, index=False)
    
    # Sauvegarder le modèle et le vectoriseur
    model_name = slugify(method_name)
    joblib.dump(model, model_name + "_model.pkl")
    joblib.dump(vectorizer, model_name + "_vectorizer.pkl")
    
    # Appeler la fonction pour enregistrer les résultats dans MLflow, passer X_test pour calculer la couverture des mots
    log_experiment_to_mlflow(model, vectorizer, X_train, X_test, params, method_name, train_quest_words_csv_path, test_quest_words_csv_path)

    # Afficher les thèmes
    print(f"\n\033[1m{method_name} Topics/Themes:\033[0m")
    for idx, topic in enumerate(model.components_):
        print(f"\nTopic/Theme {idx}:")
        print([vectorizer.get_feature_names_out()[i] for i in topic.argsort()[:-10 - 1:-1]])
    
    print("\n")

## echantilloner pour réduire les ressources necessaires

In [18]:
X_train = X_train.sample(frac=0.1, random_state=42)  # Utilisez seulement 10% des données

### Executer les 2 experiences

In [20]:
# Définir les paramètres communs
params = {
    "n_components": 10
}

# Exécuter l'expérience pour CountVectorizer + LDA avec fit et transfom sur "Title" + "Body"
run_unsupervised_experiment(
    vectorization_method=vectorize_count_lda_title_body,
    X_train=X_train,
    X_test=X_test,
    params=params,
    method_name="CountVectorizer + LDA fit on Title and Body"
)


# Exécuter l'expérience pour CountVectorizer + LDA avec fit sur "Title" et transform sur "Title" + "Body"
run_unsupervised_experiment(
    vectorization_method=vectorize_count_lda_fit_title_transform_title_body,
    X_train=X_train,
    X_test=X_test,
    params=params,
    method_name="CountVectorizer + LDA fit on Title and transform on Title + Body"
)

# Exécuter l'expérience pour TfidfVectorizer + NMF avec fit et transfom sur "Title" + "Body"
run_unsupervised_experiment(
    vectorization_method=vectorize_tfidf_nmf_title_body,
    X_train=X_train,
    X_test=X_test,
    params=params,
    method_name="TfidfVectorizer + NMF fit on Title and Body"
)

# Exécuter l'expérience pour TfidfVectorizer + NMF avec fit sur "Title" et transform sur "Title" + "Body"
run_unsupervised_experiment(
    vectorization_method=vectorize_tfidf_nmf_fit_title_transform_title_body,
    X_train=X_train,
    X_test=X_test,
    params=params,
    method_name="TfidfVectorizer + NMF fit on Title and transform on Title + Body"
)

Successfully registered model 'CountVectorizer + LDA fit on Title and Body_registered_model'.
Created version '1' of model 'CountVectorizer + LDA fit on Title and Body_registered_model'.


Erreur lors de l'enregistrement des artefacts : API request to http://127.0.0.1:5000/api/2.0/mlflow-artifacts/artifacts/0/4747cae7a73d4581b9f463bbef6a3995/artifacts/Mtrain_quest_words_CountVectorizer + LDA fit on Title and Body.csv failed with exception HTTPConnectionPool(host='127.0.0.1', port=5000): Max retries exceeded with url: /api/2.0/mlflow-artifacts/artifacts/0/4747cae7a73d4581b9f463bbef6a3995/artifacts/Mtrain_quest_words_CountVectorizer%20+%20LDA%20fit%20on%20Title%20and%20Body.csv (Caused by ProtocolError('Connection aborted.', ConnectionResetError(10054, 'Une connexion existante a dû être fermée par l’hôte distant', None, 10054, None)))
Les fichiers ont été enregistrés localement. Téléchargez-les manuellement via l'interface MLflow.
Taux de couverture des mots : 0.48


[1mCountVectorizer + LDA fit on Title and Body Topics/Themes:[0m

Topic/Theme 0:
['data', 'class', 'value', 'type', 'form', 'id', 'name', 'const', 'user', 'string']

Topic/Theme 1:
['div', 'color', 'text', '

Successfully registered model 'CountVectorizer + LDA fit on Title and transform on Title + Body_registered_model'.
Created version '1' of model 'CountVectorizer + LDA fit on Title and transform on Title + Body_registered_model'.


Taux de couverture des mots : 0.87


[1mCountVectorizer + LDA fit on Title and transform on Title + Body Topics/Themes:[0m

Topic/Theme 0:
['value', 'int', 'std', 'node', 'const', 'return', 'array', 'expo', 'list', 'char']

Topic/Theme 1:
['div', 'class', 'button', 'id', 'page', 'html', 'text', 'style', 'script', 'li']

Topic/Theme 2:
['app', 'error', 'server', 'http', 'using', 'client', 'service', 'api', 'use', 'run']

Topic/Theme 3:
['user', 'model', 'name', 'form', 'image', 'class', 'import', 'request', 'data', 'post']

Topic/Theme 4:
['file', 'lib', 'package', 'python', 'line', 'error', 'py', 'module', 'project', 'build']

Topic/Theme 5:
['file', 'write', 'function', 'code', 'wait', 'operation', 'ctrl', 'stat', 'name', 'document']

Topic/Theme 6:
['string', 'id', 'data', 'public', 'return', 'new', 'get', 'type', 'value', 'null']

Topic/Theme 7:
['android', 'const', 'import', 'color', 'react', 'text', 'component', 'app', 'self', 'layout']

Topic/Theme 8:
['data', 'df', 'column', '

Successfully registered model 'TfidfVectorizer + NMF fit on Title and Body_registered_model'.
Created version '1' of model 'TfidfVectorizer + NMF fit on Title and Body_registered_model'.


Erreur lors de l'enregistrement des artefacts : API request to http://127.0.0.1:5000/api/2.0/mlflow-artifacts/artifacts/0/cdb492c199db4131903b715bd6eed3cb/artifacts/Mtrain_quest_words_TfidfVectorizer + NMF fit on Title and Body.csv failed with exception HTTPConnectionPool(host='127.0.0.1', port=5000): Max retries exceeded with url: /api/2.0/mlflow-artifacts/artifacts/0/cdb492c199db4131903b715bd6eed3cb/artifacts/Mtrain_quest_words_TfidfVectorizer%20+%20NMF%20fit%20on%20Title%20and%20Body.csv (Caused by ProtocolError('Connection aborted.', ConnectionResetError(10054, 'Une connexion existante a dû être fermée par l’hôte distant', None, 10054, None)))
Les fichiers ont été enregistrés localement. Téléchargez-les manuellement via l'interface MLflow.
Taux de couverture des mots : 0.48


[1mTfidfVectorizer + NMF fit on Title and Body Topics/Themes:[0m

Topic/Theme 0:
['string', 'public', 'int', 'array', 'list', 'char', 'value', 'return', 'class', 'std']

Topic/Theme 1:
['df', 'column', 'tabl

Successfully registered model 'TfidfVectorizer + NMF fit on Title and transform on Title + Body_registered_model'.
Created version '1' of model 'TfidfVectorizer + NMF fit on Title and transform on Title + Body_registered_model'.


Erreur lors de l'enregistrement des artefacts : API request to http://127.0.0.1:5000/api/2.0/mlflow-artifacts/artifacts/0/03f861eb24e0498285714775f2020507/artifacts/Mtest_quest_words_TfidfVectorizer + NMF fit on Title and transform on Title + Body.csv failed with exception HTTPConnectionPool(host='127.0.0.1', port=5000): Max retries exceeded with url: /api/2.0/mlflow-artifacts/artifacts/0/03f861eb24e0498285714775f2020507/artifacts/Mtest_quest_words_TfidfVectorizer%20+%20NMF%20fit%20on%20Title%20and%20transform%20on%20Title%20+%20Body.csv (Caused by ProtocolError('Connection aborted.', ConnectionResetError(10054, 'Une connexion existante a dû être fermée par l’hôte distant', None, 10054, None)))
Les fichiers ont été enregistrés localement. Téléchargez-les manuellement via l'interface MLflow.
Taux de couverture des mots : 0.87


[1mTfidfVectorizer + NMF fit on Title and transform on Title + Body Topics/Themes:[0m

Topic/Theme 0:
['file', 'app', 'http', 'tried', 'user', 'error', 'com', 

In [17]:
def load_model_and_vectorizer(model_path, vectorizer_path):
    """
    Charge le modèle et le vectoriseur sauvegardés avec joblib.
    
    Parameters:
        model_path (str): Chemin du fichier de modèle.
        vectorizer_path (str): Chemin du fichier du vectoriseur.
    
    Returns:
        model, vectorizer: Le modèle et le vectoriseur chargés.
    """
    model = joblib.load(model_path)
    vectorizer = joblib.load(vectorizer_path)
    return model, vectorizer

## Test de visu pour LDA + Countvectorizer

In [19]:
def predict_topic_for_question(question, model, vectorizer, n_words=10):
    """
    Prédit les groupes de mots pour une question en utilisant un modèle LDA ou NMF.
    
    Parameters:
        question (str): Question à prédire.
        model: Modèle LDA ou NMF déjà entraîné.
        vectorizer: Vectoriseur CountVectorizer ou TfidfVectorizer utilisé avec le modèle.
        n_words (int): Nombre de mots pertinents à afficher pour chaque thème.
    
    Returns:
        None. Affiche les thèmes prédits et leurs mots pertinents.
    """
    # Vectoriser la question
    question_vect = vectorizer.transform([question])
    
    # Obtenir les distributions de thèmes pour la question
    topic_distribution = model.transform(question_vect)
    
    # Afficher les thèmes et leurs mots les plus pertinents
    print("\n\033[1mPredicted Topics for the Question:\033[0m")
    for idx, topic_prob in enumerate(topic_distribution[0]):
        if topic_prob > 0.1:  # Seuil pour afficher les thèmes les plus pertinents
            topic_words = [vectorizer.get_feature_names_out()[i] for i in model.components_[idx].argsort()[:-n_words - 1:-1]]
            print(f"Topic {idx} (probabilité: {topic_prob:.2f}):\nMots: {', '.join(topic_words)}\n")

In [28]:
# Exemple d'utilisation avec le modèle et le vectoriseur sauvegardés
model_path = "countvectorizer-lda-fit-on-title-and-transform-on-title-body_model.pkl"  # Chemin vers votre modèle
vectorizer_path = "countvectorizer-lda-fit-on-title-and-transform-on-title-body_vectorizer.pkl"  # Chemin vers votre vectoriseur
model, vectorizer = load_model_and_vectorizer(model_path, vectorizer_path)

In [30]:
# Utilisez une question en dur
question = "How to integrate my css file into my project ?"
predict_topic_for_question(question, model, vectorizer, n_words=10)


[1mPredicted Topics for the Question:[0m
Topic 2 (probabilité: 0.26):
Mots: app, error, server, http, using, client, service, api, use, run

Topic 4 (probabilité: 0.54):
Mots: file, lib, package, python, line, error, py, module, project, build



## Test de visu pour NMF + TF-IDF

In [25]:
def predict_topic_for_question_nmf(question, model, vectorizer, n_words=10):
    question_vect = vectorizer.transform([question])
    topic_distribution = model.transform(question_vect)

    # Normaliser les poids pour les interpréter comme des probabilités (si nécessaire)
    topic_distribution = topic_distribution / topic_distribution.sum()
    
    print("\n\033[1mPredicted Topics for the Question:\033[0m")
    for idx, topic_prob in enumerate(topic_distribution[0]):
        if topic_prob > 0.05:  # Abaisser le seuil
            topic_words = [vectorizer.get_feature_names_out()[i] for i in model.components_[idx].argsort()[:-n_words - 1:-1]]
            print(f"Topic {idx} (probabilité: {topic_prob:.2f}):\nMots: {', '.join(topic_words)}\n")

In [27]:
# Exemple d'utilisation avec le modèle et le vectoriseur sauvegardés
model_path = "tfidfvectorizer-nmf-fit-on-title-and-transform-on-title-body_model.pkl"  # Chemin vers votre modèle
vectorizer_path = "tfidfvectorizer-nmf-fit-on-title-and-transform-on-title-body_vectorizer.pkl"  # Chemin vers votre vectoriseur
model, vectorizer = load_model_and_vectorizer(model_path, vectorizer_path)

In [29]:
# Utilisez une question en dur
question = "How to integrate my css file into my project ?"
predict_topic_for_question_nmf(question, model, vectorizer, n_words=10)


[1mPredicted Topics for the Question:[0m
Topic 0 (probabilité: 1.00):
Mots: file, app, http, tried, user, error, com, run, code, work

