In [None]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import MultiLabelBinarizer
import mlflow
import mlflow.keras 
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from gensim.models import Word2Vec
import numpy as np
import tensorflow_hub as hub
import mlflow.pyfunc
import os
import tensorflow as tf
import pickle


In [None]:

mlflow.set_experiment("Text_Processing_Experiment")




In [None]:
pd.set_option('display.max_rows', 50)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

In [None]:
df = pd.read_csv('db/questions_db.csv')
print(df.head())
# pour réduire l'échantillon si nécessaire
df = df.sample(frac=0.1, random_state=42) 


In [None]:
mlflow.start_run(run_name="Full Pipeline")

# Logue les paramètres globaux
mlflow.log_param("data_sample_fraction", 0.1)
mlflow.log_param("num_samples", len(df))
mlflow.log_param("num_features", df.shape[1])


In [None]:

# transforme les tags sous forme de chaîne de caractères en liste
def process_tags(tags):
    if isinstance(tags, str):
        
        # Enlève les symboles '<>' entourant les tags et les divise en une liste
        return tags.strip('<>').split('><')
    else:
        return []
    

# Applique le traitement des tags à la colonne 'Tags' du DataFrame
df['Tags'] = df['Tags'].apply(process_tags)

In [None]:

# Vérifie les valeurs manquantes
def check_missing_values(df):
    missing_values = df.isnull().sum()
    print("Nombre de valeurs manquantes par colonne:")
    print(missing_values)
    if missing_values.any():
        print("\nColonnes avec valeurs manquantes:")
        print(missing_values[missing_values > 0])
    else:
        print("Aucune valeur manquante trouvée.")


check_missing_values(df)

In [None]:
# Une liste des tags présents dans le DataFrame
all_tags = [tag for tags in df['Tags'] for tag in tags]

if all_tags:
    # Si oui, affiche le nombre total de tags extraits
    print(f"Nombre total de tags extraits: {len(all_tags)}")
else:
    print("Erreur : Aucun tag n'a été extrait")

# Compte la fréquence de chaque tag et sélectionne les 50 tags les plus fréquents
tag_counts = pd.Series(all_tags).value_counts().head(50)

# Les convertie en une liste
top_tags = list(tag_counts.index)

# Filtre les questions pour ne conserver que celles avec les top 50 tags
df['Filtered_Tags'] = df['Tags'].apply(lambda tags: [tag for tag in tags if tag in top_tags])

# Supprime les questions sans tags dans le top 50
df = df[df['Filtered_Tags'].apply(lambda x: len(x) > 0)]

print(top_tags)
plt.figure(figsize=(12, 18))
sns.barplot(x=tag_counts.values, y=tag_counts.index)
plt.title('Top 50 des Tags les plus fréquents')
plt.xlabel('Fréquence')
plt.ylabel('Tags')
plt.show()


In [None]:
# vérifie la présence de balises HTML et de caractères spéciaux dans un texte
def check_html_special_chars(text):
    if isinstance(text, str):
        # Trouve toutes les balises HTML dans le texte
        html_tags = re.findall(r'<.*?>', text)
        # Trouve tous les caractères spéciaux (non alphanumériques et non espaces) 
        special_chars = re.findall(r'[^a-zA-Z0-9\s]', text)
        # Retourne le nombre total de balises HTML et de caractères spéciaux trouvés
        return len(html_tags) + len(special_chars)
    return 0


# Applique check_html_special_chars à la colonne 'Title'
df['Title_html_special'] = df['Title'].apply(check_html_special_chars)
# Applique check_html_special_chars à la colonne 'Body'

df['Body_html_special'] = df['Body'].apply(check_html_special_chars)

print("Occurrences de caractères HTML ou spéciaux restants dans les titres")
print(df['Title_html_special'].value_counts())
print("Occurrences de caractères HTML ou spéciaux restants dans les corps")
print(df['Body_html_special'].value_counts())

# Vérification des tags
print("Vérification des tags")
print(df['Tags'].head(10))

# Affiche le tableau complet sans limite
print(df)

In [None]:
def add_features(df):
    # Longueur du titre
    df['Title_length'] = df['Title'].apply(
        lambda x: len(x.split()) if isinstance(x, str) else 0)
    # Nombre de mots dans le corps
    df['Body_word_count'] = df['Body'].apply(
        lambda x: len(x.split()) if isinstance(x, str) else 0)
    # Nombre de tags
    df['Tag_count'] = df['Tags'].apply(
        lambda x: len(x) if isinstance(x, list) else 0)
    return df


# Ajoute les features supplémentaires
df = add_features(df)
print(df.head(10))

In [None]:
df.info()

In [None]:
df = df.drop(columns=['FavoriteCount'])

## Analyse multivariée


In [None]:
cols_to_analyze = ['Score', 'ViewCount', 'AnswerCount',
                   'Title_length', 'Body_word_count', 'Tag_count']
score_col = 'Score'
view_col = 'ViewCount'
favorite_col = 'FavoriteCount'

In [None]:
def analyse_univariee_multivariee(df, cols):
    print("Analyse Univariée")
    for column in cols:
        if column in df.columns:
            plt.figure(figsize=(10, 6))
            sns.histplot(df[column], kde=True)
            plt.title(f'Distribution de {column}')
            plt.xlabel(column)
            plt.ylabel('Fréquence')
            plt.show()

    print("Analyse Multivariée")
    sns.pairplot(df[cols].select_dtypes(include=['int64', 'float64']))
    plt.show()


analyse_univariee_multivariee(df, cols_to_analyze)

In [None]:
print(df.describe())

In [None]:
def distribution_scores_vues_favoris(df, score_col, view_col, favorite_col):
    if score_col in df.columns:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[score_col], bins=30, kde=True)
        plt.title(f'Distribution de {score_col}')
        plt.xlabel(score_col)
        plt.ylabel('Fréquence')
        plt.show()

    if view_col in df.columns:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[view_col], bins=30, kde=True)
        plt.title(f'Distribution de {view_col}')
        plt.xlabel(view_col)
        plt.ylabel('Fréquence')
        plt.show()

    if favorite_col in df.columns and df[favorite_col].notnull().sum() > 0:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[favorite_col], bins=30, kde=True)
        plt.title(f'Distribution de {favorite_col}')
        plt.xlabel(favorite_col)
        plt.ylabel('Fréquence')
        plt.show()
    else:
        print(f"La colonne {favorite_col} est vide ou n'existe pas.")

In [None]:
def correlation_variables(df, cols):
    corr_matrix = df[cols].corr()
    plt.figure(figsize=(12, 8))
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
    plt.title('Matrice de Corrélation')
    return corr_matrix

# Utilisation avec suivi MLflow
with mlflow.start_run(run_name="Correlation Analysis", nested=True):
    # Paramètres logués
    mlflow.log_param("analyzed_columns", cols_to_analyze)

    # Calcul et visualisation de la matrice de corrélation
    corr_matrix = correlation_variables(df, cols_to_analyze)

    # Sauvegarde et log du graphique de la matrice de corrélation
    corr_matrix_plot_path = "correlation_matrix.png"
    plt.savefig(corr_matrix_plot_path)
    mlflow.log_artifact(corr_matrix_plot_path)

    # Calcul et log de la métrique de corrélation moyenne
    mean_corr = corr_matrix.mean().mean()
    mlflow.log_metric("mean_correlation", mean_corr)

mlflow.end_run()


### Tokenization + stopwords + lemmatization

In [None]:
def treatments_text(text, remove_stopwords=True, lemmatize=True):
    # Tokenization
    tokens = word_tokenize(text)

    if remove_stopwords:
        # Suppression des stop words
        stop_words = set(stopwords.words('english'))
        tokens = [word for word in tokens if word.lower() not in stop_words]

    if lemmatize:
        # Lemmatization
        lemmatizer = WordNetLemmatizer()
        tokens = [lemmatizer.lemmatize(word) for word in tokens]

    return ' '.join(tokens)

# Nettoyage du DataFrame
def clean_dataframe(df, remove_stopwords=True, lemmatize=True):
    df['Cleaned_Title'] = df['Title'].apply(lambda x: treatments_text(x, remove_stopwords, lemmatize))
    df['Cleaned_Body'] = df['Body'].apply(lambda x: treatments_text(x, remove_stopwords, lemmatize))
    return df

# Suivi MLflow
with mlflow.start_run(run_name="Text Cleaning", nested=True):
    # Paramètres de nettoyage
    remove_stopwords = True
    lemmatize = True
    
    # Log des paramètres
    mlflow.log_param("remove_stopwords", remove_stopwords)
    mlflow.log_param("lemmatize", lemmatize)

    # Nettoyage du DataFrame
    df = clean_dataframe(df, remove_stopwords=remove_stopwords, lemmatize=lemmatize)

    # Log d'un échantillon des données nettoyées
    sample_cleaned = df[['Title', 'Cleaned_Title', 'Body', 'Cleaned_Body']].head(10)
    sample_cleaned_path = "cleaned_data_sample.csv"
    sample_cleaned.to_csv(sample_cleaned_path, index=False)
    mlflow.log_artifact(sample_cleaned_path)

print(df[['Title', 'Cleaned_Title', 'Body', 'Cleaned_Body']].head())

mlflow.end_run()


### Différentes méthodes pour traiter les mots

In [None]:
def transform_text_to_bow(df, max_df=0.95, min_df=2, n_components=100):
    if 'Cleaned_Body' not in df.columns:
        raise ValueError("La colonne 'Cleaned_Body' est manquante dans le DataFrame")
    
    # Bag of Words : compte les mots et les représente en format numérique reflétant leur nombre
    vectorizer = CountVectorizer(max_df=max_df, min_df=min_df)
    X = vectorizer.fit_transform(df['Cleaned_Body'])

    # Réduction de dimension avec TruncatedSVD : réduit la dimensionnalité des vecteurs BoW
    svd = TruncatedSVD(n_components=n_components)
    X_reduced = svd.fit_transform(X)

    # Transformation des tags : convertit les tags en une forme utilisable pour l'apprentissage supervisé
    mlb = MultiLabelBinarizer(classes=top_tags)
    y = mlb.fit_transform(df['Filtered_Tags'])

    return X_reduced, y, vectorizer, svd, mlb

# Utilisation de la fonction avec suivi MLflow
with mlflow.start_run(run_name="BoW Transformation", nested=True):
    # Paramètres de transformation
    max_df = 0.95
    min_df = 2
    n_components = 100
    
    # Log des paramètres
    mlflow.log_param("max_df", max_df)
    mlflow.log_param("min_df", min_df)
    mlflow.log_param("n_components", n_components)

    # Transformation du texte
    X_reduced, y, vectorizer, svd, mlb = transform_text_to_bow(df, max_df=max_df, min_df=min_df, n_components=n_components)
    
    # Log des métriques
    explained_variance = svd.explained_variance_ratio_.sum()
    mlflow.log_metric("explained_variance", explained_variance)
    mlflow.log_metric("X_reduced_num_rows", X_reduced.shape[0])  # Nombre de lignes
    mlflow.log_metric("X_reduced_num_columns", X_reduced.shape[1])  # Nombre de colonnes
    mlflow.log_metric("y_num_rows", y.shape[0])  # Nombre de lignes
    mlflow.log_metric("y_num_columns", y.shape[1])  # Nombre de colonnes

    # Enregistrement des objets comme artefacts
    vectorizer_path = "model/vectorizer.pkl"
    svd_path = "model/svd.pkl"
    mlb_path = "model/mlb.pkl"
    
    with open(vectorizer_path, 'wb') as f:
        pickle.dump(vectorizer, f)
    with open(svd_path, 'wb') as f:
        pickle.dump(svd, f)
    with open(mlb_path, 'wb') as f:
        pickle.dump(mlb, f)
    
    mlflow.log_artifact(vectorizer_path)
    mlflow.log_artifact(svd_path)
    mlflow.log_artifact(mlb_path)

mlflow.end_run()


In [None]:
def train_word2vec(df, column='Cleaned_Body', vector_size=50, window=5, min_count=3, workers=4):
    sentences = df[column].apply(word_tokenize).tolist()
    word2vec_model = Word2Vec(sentences, vector_size=vector_size, window=window, min_count=min_count, workers=workers)
    
    def document_vector(doc):
        doc = [word for word in doc if word in word2vec_model.wv.index_to_key]
        return np.mean(word2vec_model.wv[doc], axis=0) if doc else np.zeros(vector_size)
    
    df['word2vec_vector'] = df[column].apply(lambda x: document_vector(word_tokenize(x)))
    
    X_word2vec = np.vstack(df['word2vec_vector'].values)
    model_path = 'model/word2vec'
    word2vec_model.save(model_path)
    return X_word2vec, model_path

with mlflow.start_run(run_name="Word2Vec Training", nested=True):
    # Paramètres pour l'entraînement Word2Vec
    vector_size = 50
    window = 5
    min_count = 3
    workers = 4
    
    # Log des paramètres
    mlflow.log_param("vector_size", vector_size)
    mlflow.log_param("window", window)
    mlflow.log_param("min_count", min_count)
    mlflow.log_param("workers", workers)

    # Entraînement Word2Vec
    X_word2vec, model_path = train_word2vec(df, column='Cleaned_Body', vector_size=vector_size, window=window, min_count=min_count, workers=workers)
    
    # Log de la forme des vecteurs
    mlflow.log_metric("word2vec_num_rows", X_word2vec.shape[0])  # Nombre de lignes
    mlflow.log_metric("word2vec_num_columns", X_word2vec.shape[1])  # Nombre de colonnes

    # Calcul et log de la moyenne des longueurs des vecteurs
    vector_lengths = np.linalg.norm(X_word2vec, axis=1)
    mean_vector_length = np.mean(vector_lengths)
    mlflow.log_metric("mean_vector_length", mean_vector_length)
    
    # Sauvegarde du modèle Word2Vec avec MLflow
    mlflow.log_artifact(model_path, artifact_path="models/word2vec")

mlflow.end_run()


In [None]:
import tensorflow_hub as hub
import tensorflow as tf

# Charger le modèle USE directement
model_url = "https://tfhub.dev/google/universal-sentence-encoder/4"
use_layer = hub.KerasLayer(model_url, dtype=tf.string, trainable=False)

# Fonction pour encapsuler l'appel à la couche USE
def embed_texts(texts):
    return use_layer(texts)

# Test de la fonction sur des données d'exemple
texts = ["Sample text for embedding", "Another sample text"]
embeddings = embed_texts(texts)

print(embeddings)  # Affiche les embeddings générés

# Sauvegarde du modèle en format SavedModel
saved_model_path = "saved_models/use_model"
tf.saved_model.save(use_layer, saved_model_path)

# Log du chemin du modèle sauvegardé avec MLflow
import mlflow
import mlflow.pyfunc

mlflow.log_param("model_url", model_url)
mlflow.log_artifact(saved_model_path, artifact_path="saved_models/use_model")

# Classe qui encapsule le modèle pour compatibilité avec mlflow.pyfunc
class USEModelWrapper(mlflow.pyfunc.PythonModel):

    def load_context(self, context):
        # Charger le modèle enregistré en SavedModel
        self.model = tf.saved_model.load(context.artifacts["use_model"])

    def predict(self, context, model_input):
        # Effectue une prédiction avec le modèle
        return self.model([model_input]).numpy().flatten()

# Enregistrement du modèle avec mlflow.pyfunc.log_model
with mlflow.start_run(run_name="USE Model Training", nested=True):
    mlflow.pyfunc.log_model(
        artifact_path="models/use_model",
        python_model=USEModelWrapper(),
        artifacts={"use_model": saved_model_path},
        registered_model_name="UniversalSentenceEncoder"
    )

mlflow.end_run()


In [None]:
import pandas as pd
import re
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import MultiLabelBinarizer
import mlflow
import mlflow.keras 
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from gensim.models import Word2Vec
import numpy as np
import tensorflow_hub as hub
import mlflow.pyfunc
import os
import tensorflow as tf
import pickle


In [None]:

mlflow.set_experiment("Text_Processing_Experiment")




In [None]:
pd.set_option('display.max_rows', 50)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

In [None]:
df = pd.read_csv('db/questions_db.csv')
print(df.head())
# pour réduire l'échantillon si nécessaire
df = df.sample(frac=0.1, random_state=42) 


In [None]:
mlflow.start_run(run_name="Full Pipeline")

# Logue les paramètres globaux
mlflow.log_param("data_sample_fraction", 0.1)
mlflow.log_param("num_samples", len(df))
mlflow.log_param("num_features", df.shape[1])


In [None]:

# transforme les tags sous forme de chaîne de caractères en liste
def process_tags(tags):
    if isinstance(tags, str):
        
        # Enlève les symboles '<>' entourant les tags et les divise en une liste
        return tags.strip('<>').split('><')
    else:
        return []
    

# Applique le traitement des tags à la colonne 'Tags' du DataFrame
df['Tags'] = df['Tags'].apply(process_tags)

In [None]:

# Vérifie les valeurs manquantes
def check_missing_values(df):
    missing_values = df.isnull().sum()
    print("Nombre de valeurs manquantes par colonne:")
    print(missing_values)
    if missing_values.any():
        print("\nColonnes avec valeurs manquantes:")
        print(missing_values[missing_values > 0])
    else:
        print("Aucune valeur manquante trouvée.")


check_missing_values(df)

In [None]:
# Crée une liste des tags présents dans le DataFrame
all_tags = [tag for tags in df['Tags'] for tag in tags]

if all_tags:
    # Si oui, affiche le nombre total de tags extraits
    print(f"Nombre total de tags extraits: {len(all_tags)}")
else:
    print("Erreur : Aucun tag n'a été extrait")

# Compte la fréquence de chaque tag et sélectionne les 50 tags les plus fréquents
tag_counts = pd.Series(all_tags).value_counts().head(50)

# Les convertie en une liste
top_tags = list(tag_counts.index)

# Filtre les questions pour ne conserver que celles avec les top 50 tags
df['Filtered_Tags'] = df['Tags'].apply(lambda tags: [tag for tag in tags if tag in top_tags])

# Supprime les questions sans tags dans le top 50
df = df[df['Filtered_Tags'].apply(lambda x: len(x) > 0)]

print(top_tags)
plt.figure(figsize=(12, 18))
sns.barplot(x=tag_counts.values, y=tag_counts.index)
plt.title('Top 50 des Tags les plus fréquents')
plt.xlabel('Fréquence')
plt.ylabel('Tags')
plt.show()


In [None]:
# vérifie la présence de balises HTML et de caractères spéciaux dans un texte
def check_html_special_chars(text):
    if isinstance(text, str):
        # Trouve toutes les balises HTML dans le texte
        html_tags = re.findall(r'<.*?>', text)
        # Trouve tous les caractères spéciaux (non alphanumériques et non espaces) 
        special_chars = re.findall(r'[^a-zA-Z0-9\s]', text)
        # Retourne le nombre total de balises HTML et de caractères spéciaux trouvés
        return len(html_tags) + len(special_chars)
    return 0


# Applique check_html_special_chars à la colonne 'Title'
df['Title_html_special'] = df['Title'].apply(check_html_special_chars)
# Applique check_html_special_chars à la colonne 'Body'

df['Body_html_special'] = df['Body'].apply(check_html_special_chars)

print("Occurrences de caractères HTML ou spéciaux restants dans les titres")
print(df['Title_html_special'].value_counts())
print("Occurrences de caractères HTML ou spéciaux restants dans les corps")
print(df['Body_html_special'].value_counts())

# Vérification des tags
print("Vérification des tags")
print(df['Tags'].head(10))

# Affiche le tableau complet sans limite
print(df)

In [None]:
def add_features(df):
    # Longueur du titre
    df['Title_length'] = df['Title'].apply(
        lambda x: len(x.split()) if isinstance(x, str) else 0)
    # Nombre de mots dans le corps
    df['Body_word_count'] = df['Body'].apply(
        lambda x: len(x.split()) if isinstance(x, str) else 0)
    # Nombre de tags
    df['Tag_count'] = df['Tags'].apply(
        lambda x: len(x) if isinstance(x, list) else 0)
    return df


# Ajoute les features supplémentaires
df = add_features(df)
print(df.head(10))

In [None]:
df.info()

In [None]:
df = df.drop(columns=['FavoriteCount'])

## Analyse multivariée


In [None]:
cols_to_analyze = ['Score', 'ViewCount', 'AnswerCount',
                   'Title_length', 'Body_word_count', 'Tag_count']
score_col = 'Score'
view_col = 'ViewCount'
favorite_col = 'FavoriteCount'

In [None]:
def analyse_univariee_multivariee(df, cols):
    print("Analyse Univariée")
    for column in cols:
        if column in df.columns:
            plt.figure(figsize=(10, 6))
            sns.histplot(df[column], kde=True)
            plt.title(f'Distribution de {column}')
            plt.xlabel(column)
            plt.ylabel('Fréquence')
            plt.show()

    print("Analyse Multivariée")
    sns.pairplot(df[cols].select_dtypes(include=['int64', 'float64']))
    plt.show()


analyse_univariee_multivariee(df, cols_to_analyze)

In [None]:
print(df.describe())

In [None]:
def distribution_scores_vues_favoris(df, score_col, view_col, favorite_col):
    if score_col in df.columns:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[score_col], bins=30, kde=True)
        plt.title(f'Distribution de {score_col}')
        plt.xlabel(score_col)
        plt.ylabel('Fréquence')
        plt.show()

    if view_col in df.columns:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[view_col], bins=30, kde=True)
        plt.title(f'Distribution de {view_col}')
        plt.xlabel(view_col)
        plt.ylabel('Fréquence')
        plt.show()

    if favorite_col in df.columns and df[favorite_col].notnull().sum() > 0:
        plt.figure(figsize=(10, 6))
        sns.histplot(df[favorite_col], bins=30, kde=True)
        plt.title(f'Distribution de {favorite_col}')
        plt.xlabel(favorite_col)
        plt.ylabel('Fréquence')
        plt.show()
    else:
        print(f"La colonne {favorite_col} est vide ou n'existe pas.")

In [None]:
def correlation_variables(df, cols):
    corr_matrix = df[cols].corr()
    plt.figure(figsize=(12, 8))
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
    plt.title('Matrice de Corrélation')
    return corr_matrix

# Utilisation avec suivi MLflow
with mlflow.start_run(run_name="Correlation Analysis", nested=True):
    # Paramètres logués
    mlflow.log_param("analyzed_columns", cols_to_analyze)

    # Calcul et visualisation de la matrice de corrélation
    corr_matrix = correlation_variables(df, cols_to_analyze)

    # Sauvegarde et log du graphique de la matrice de corrélation
    corr_matrix_plot_path = "correlation_matrix.png"
    plt.savefig(corr_matrix_plot_path)
    mlflow.log_artifact(corr_matrix_plot_path)

    # Calcul et log de la métrique de corrélation moyenne
    mean_corr = corr_matrix.mean().mean()
    mlflow.log_metric("mean_correlation", mean_corr)

mlflow.end_run()


### Tokenization + stopwords + lemmatization

In [None]:
# Nettoie le texte


with mlflow.start_run(run_name="Text Cleaning", nested=True):
    # Paramètres de nettoyage
    remove_stopwords = True
    lemmatize = True
    
    # Log des paramètres
    mlflow.log_param("remove_stopwords", remove_stopwords)
    mlflow.log_param("lemmatize", lemmatize)

    # Nettoyage du DataFrame
    df = clean_dataframe(df, remove_stopwords=remove_stopwords, lemmatize=lemmatize)

    # Log d'un échantillon des données nettoyées
    sample_cleaned = df[['Title', 'Cleaned_Title', 'Body', 'Cleaned_Body']].head(10)
    sample_cleaned_path = "cleaned_data_sample.csv"
    sample_cleaned.to_csv(sample_cleaned_path, index=False)
    mlflow.log_artifact(sample_cleaned_path)

    # Calcul et log du nombre moyen de mots par document après nettoyage
    avg_words_per_doc = df['Cleaned_Body'].apply(lambda x: len(x.split())).mean()
    mlflow.log_metric("avg_words_per_doc", avg_words_per_doc)

    # Calcul et log de la proportion de documents vides après nettoyage
    num_empty_docs = df['Cleaned_Body'].apply(lambda x: len(x.strip()) == 0).sum()
    proportion_empty_docs = num_empty_docs / len(df)
    mlflow.log_metric("proportion_empty_docs", proportion_empty_docs)

mlflow.end_run()


print(df.head())

In [None]:
def treatments_text(text, remove_stopwords=True, lemmatize=True):
    # Tokenization
    tokens = word_tokenize(text)

    if remove_stopwords:
        # Suppression des stop words
        stop_words = set(stopwords.words('english'))
        tokens = [word for word in tokens if word.lower() not in stop_words]

    if lemmatize:
        # Lemmatization
        lemmatizer = WordNetLemmatizer()
        tokens = [lemmatizer.lemmatize(word) for word in tokens]

    return ' '.join(tokens)

# Nettoyage du DataFrame
def clean_dataframe(df, remove_stopwords=True, lemmatize=True):
    df['Cleaned_Title'] = df['Title'].apply(lambda x: treatments_text(x, remove_stopwords, lemmatize))
    df['Cleaned_Body'] = df['Body'].apply(lambda x: treatments_text(x, remove_stopwords, lemmatize))
    return df

# Suivi MLflow
with mlflow.start_run(run_name="Text Cleaning", nested=True):
    # Paramètres de nettoyage
    remove_stopwords = True
    lemmatize = True
    
    # Log des paramètres
    mlflow.log_param("remove_stopwords", remove_stopwords)
    mlflow.log_param("lemmatize", lemmatize)

    # Nettoyage du DataFrame
    df = clean_dataframe(df, remove_stopwords=remove_stopwords, lemmatize=lemmatize)

    # Log d'un échantillon des données nettoyées
    sample_cleaned = df[['Title', 'Cleaned_Title', 'Body', 'Cleaned_Body']].head(10)
    sample_cleaned_path = "cleaned_data_sample.csv"
    sample_cleaned.to_csv(sample_cleaned_path, index=False)
    mlflow.log_artifact(sample_cleaned_path)

print(df[['Title', 'Cleaned_Title', 'Body', 'Cleaned_Body']].head())

mlflow.end_run()


### Différentes méthodes pour traiter les mots

In [None]:
def transform_text_to_bow(df, max_df=0.95, min_df=2, n_components=100):
    if 'Cleaned_Body' not in df.columns:
        raise ValueError("La colonne 'Cleaned_Body' est manquante dans le DataFrame")
    
    # Bag of Words : compte les mots et les représente en format numérique
    vectorizer = CountVectorizer(max_df=max_df, min_df=min_df)
    X = vectorizer.fit_transform(df['Cleaned_Body'])

    # Réduction de dimension avec TruncatedSVD : réduit la dimensionnalité des vecteurs BoW
    svd = TruncatedSVD(n_components=n_components)
    X_reduced = svd.fit_transform(X)

    # Transformation des tags : convertit les tags en une forme utilisable pour l'apprentissage supervisé
    mlb = MultiLabelBinarizer(classes=top_tags)
    y = mlb.fit_transform(df['Filtered_Tags'])

    return X_reduced, y, vectorizer, svd, mlb

# Utilisation de la fonction avec suivi MLflow
with mlflow.start_run(run_name="BoW Transformation", nested=True):
    # Paramètres de transformation
    max_df = 0.95
    min_df = 2
    n_components = 100
    
    # Log des paramètres
    mlflow.log_param("max_df", max_df)
    mlflow.log_param("min_df", min_df)
    mlflow.log_param("n_components", n_components)

    # Transformation du texte
    X_reduced, y, vectorizer, svd, mlb = transform_text_to_bow(df, max_df=max_df, min_df=min_df, n_components=n_components)
    
    # Log des métriques
    explained_variance = svd.explained_variance_ratio_.sum()
    mlflow.log_metric("explained_variance", explained_variance)
    mlflow.log_metric("X_reduced_num_rows", X_reduced.shape[0])  # Nombre de lignes
    mlflow.log_metric("X_reduced_num_columns", X_reduced.shape[1])  # Nombre de colonnes
    mlflow.log_metric("y_num_rows", y.shape[0])  # Nombre de lignes
    mlflow.log_metric("y_num_columns", y.shape[1])  # Nombre de colonnes

    # Enregistrement des objets comme artefacts
    vectorizer_path = "model/vectorizer.pkl"
    svd_path = "model/svd.pkl"
    mlb_path = "model/mlb.pkl"
    
    with open(vectorizer_path, 'wb') as f:
        pickle.dump(vectorizer, f)
    with open(svd_path, 'wb') as f:
        pickle.dump(svd, f)
    with open(mlb_path, 'wb') as f:
        pickle.dump(mlb, f)
    
    mlflow.log_artifact(vectorizer_path)
    mlflow.log_artifact(svd_path)
    mlflow.log_artifact(mlb_path)

mlflow.end_run()


In [None]:
def train_word2vec(df, column='Cleaned_Body', vector_size=50, window=5, min_count=3, workers=4):
    sentences = df[column].apply(word_tokenize).tolist()
    word2vec_model = Word2Vec(sentences, vector_size=vector_size, window=window, min_count=min_count, workers=workers)
    
    def document_vector(doc):
        doc = [word for word in doc if word in word2vec_model.wv.index_to_key]
        return np.mean(word2vec_model.wv[doc], axis=0) if doc else np.zeros(vector_size)
    
    df['word2vec_vector'] = df[column].apply(lambda x: document_vector(word_tokenize(x)))
    
    X_word2vec = np.vstack(df['word2vec_vector'].values)
    model_path = 'model/word2vec'
    word2vec_model.save(model_path)
    return X_word2vec, model_path

with mlflow.start_run(run_name="Word2Vec Training", nested=True):
    # Paramètres pour l'entraînement Word2Vec
    vector_size = 50
    window = 5
    min_count = 3
    workers = 4
    
    # Log des paramètres
    mlflow.log_param("vector_size", vector_size)
    mlflow.log_param("window", window)
    mlflow.log_param("min_count", min_count)
    mlflow.log_param("workers", workers)

    # Entraînement Word2Vec
    X_word2vec, model_path = train_word2vec(df, column='Cleaned_Body', vector_size=vector_size, window=window, min_count=min_count, workers=workers)
    
    # Log de la forme des vecteurs
    mlflow.log_metric("word2vec_num_rows", X_word2vec.shape[0])  # Nombre de lignes
    mlflow.log_metric("word2vec_num_columns", X_word2vec.shape[1])  # Nombre de colonnes

    # Calcul et log de la moyenne des longueurs des vecteurs
    vector_lengths = np.linalg.norm(X_word2vec, axis=1)
    mean_vector_length = np.mean(vector_lengths)
    mlflow.log_metric("mean_vector_length", mean_vector_length)
    
    # Sauvegarde du modèle Word2Vec avec MLflow
    mlflow.log_artifact(model_path, artifact_path="models/word2vec")

mlflow.end_run()


In [None]:
import tensorflow as tf
import tensorflow_hub as hub
from sklearn.model_selection import train_test_split
import numpy as np
import pickle
import matplotlib.pyplot as plt

# Charger les données nettoyées (Cleaned_Body)
df_cleaned_bodies = df['Cleaned_Body'].tolist()

# Charge le modèle USE depuis TensorFlow Hub
model_url = "https://tfhub.dev/google/universal-sentence-encoder/4"
use_layer = hub.KerasLayer(model_url, trainable=False)

# Applique le modèle USE pour obtenir les embeddings
X_use = use_layer(df_cleaned_bodies)

# Converti les tensors en NumPy
X_use_np = np.array(X_use)

# Split des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X_use_np, y, test_size=0.2, random_state=42)

# Définir le modèle USE
model_use = tf.keras.Sequential([
    tf.keras.layers.Dense(128, activation='relu', input_shape=(X_use_np.shape[1],)),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dropout(0.5),
    tf.keras.layers.Dense(y.shape[1], activation='sigmoid')
])

# Compiler le modèle
model_use.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Définir un callback pour éviter le surajustement
early_stopping = tf.keras.callbacks.EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True)

# Entraîner le modèle et sauvegarder l'historique
history_use = model_use.fit(X_train, y_train,
                            validation_data=(X_test, y_test),
                            epochs=10,
                            batch_size=32,
                            callbacks=[early_stopping])


In [None]:
X_reduced, y, vectorizer, svd, mlb = transform_text_to_bow(df)

# Vérification que X_reduced et y ne sont pas None
print("Shape of X_reduced:", X_reduced.shape if X_reduced is not None else "X_reduced is None")
print("Shape of y:", y.shape if y is not None else "y is None")


In [None]:
import pickle
import tensorflow as tf




# Sauvegarde des objets pour BoW + SVD
with open('model/X_reduced.pkl', 'wb') as f:
    pickle.dump(X_reduced, f)

with open('model/y.pkl', 'wb') as f:
    pickle.dump(y, f)

with open('model/vectorizer.pkl', 'wb') as f:
    pickle.dump(vectorizer, f)

with open('model/svd.pkl', 'wb') as f:
    pickle.dump(svd, f)

with open('model/top_tags.pkl', 'wb') as f:
    pickle.dump(top_tags, f)

# Sauvegarde des objets pour Word2Vec
X_word2vec, _ = train_word2vec(df, column='Cleaned_Body')
with open('model/X_word2vec.pkl', 'wb') as f:
    pickle.dump(X_word2vec, f)

# Sauvegarde des embeddings USE dans un fichier pickle
with open('model/X_use_embeddings.pkl', 'wb') as f:
    pickle.dump(X_use_np, f)

print("Embeddings USE sauvegardés avec succès dans 'model/X_use_embeddings.pkl'")


with open('model/X_use_embeddings.pkl', 'wb') as f:
    pickle.dump(X_use_np, f)

with open('model/y.pkl', 'wb') as f:
    pickle.dump(y, f)

with open('model/history_use.pkl', 'wb') as f:
    pickle.dump(history_use.history, f)


# Sauvegarde du modèle USE en format SavedModel
saved_model_path = "saved_models/use_model"
model_use.save('saved_models/use_model.keras')

print("Entraînement terminé et objets sauvegardés.")


