# Notebook Exploration

## Functions

In [25]:
import mlflow
import mlflow.sklearn
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import spacy

# Exemple de tâche d'apprentissage machine
def train_and_evaluate(data):
    # Chargez les données
    X = data.drop('tags', axis=1)
    y = data['tags']

    # Divisez les données en ensemble d'entraînement et ensemble de test
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Initialisation de MLflow
    mlflow.start_run()

    # Paramètres
    param_max_depth = 10
    param_n_estimators = 100

    # Enregistrez les paramètres
    mlflow.log_param("max_depth", param_max_depth)
    mlflow.log_param("n_estimators", param_n_estimators)

    # Créez et entraînez le modèle
    model = RandomForestClassifier(max_depth=param_max_depth, n_estimators=param_n_estimators)
    model.fit(X_train, y_train)

    # Faites des prédictions sur l'ensemble de test
    y_pred = model.predict(X_test)

    # Calculez et enregistrez la métrique
    accuracy = accuracy_score(y_test, y_pred)
    mlflow.log_metric("accuracy", accuracy)

    # Enregistrez le modèle
    mlflow.sklearn.log_model(model, "model")

    # Enregistrez un fichier artefact (par exemple, un fichier texte)
    with open("artifact.txt", "w") as artifact_file:
        artifact_file.write("Contenu de l'artefact")

    mlflow.log_artifact("artifact.txt")

    # Fin de l'expérience MLflow
    mlflow.end_run()


## Split dataset

In [26]:
from sklearn.model_selection import train_test_split

data = pd.read_csv("dataset.csv")
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

## Lemmatisation Title et Body

In [27]:
# Charger le modèle de langue spaCy
nlp = spacy.load("en_core_web_sm")

# Lemmatisation pour le champ "title" dans l'ensemble d'entraînement
train_data['title_lemmatized'] = train_data['title'].apply(lambda text: ' '.join([token.lemma_ for token in nlp(text)]))

# Lemmatisation pour le champ "body" dans l'ensemble d'entraînement
train_data['body_lemmatized'] = train_data['body'].apply(lambda text: ' '.join([token.lemma_ for token in nlp(text)]))

# Lemmatisation pour le champ "title" dans l'ensemble de test
test_data['title_lemmatized'] = test_data['title'].apply(lambda text: ' '.join([token.lemma_ for token in nlp(text)]))

# Lemmatisation pour le champ "body" dans l'ensemble de test
test_data['body_lemmatized'] = test_data['body'].apply(lambda text: ' '.join([token.lemma_ for token in nlp(text)]))


## CountVectorizer

In [28]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer_title = CountVectorizer()
X_title_train = vectorizer_title.fit_transform(train_data['title_lemmatized'])
X_title_test = vectorizer_title.transform(test_data['title_lemmatized'])

vectorizer_body = CountVectorizer()
X_body_train = vectorizer_body.fit_transform(train_data['body_lemmatized'])
X_body_test = vectorizer_body.transform(test_data['body_lemmatized'])

# Afficher les caractéristiques (mots) apprises par le vectorizer pour le titre
feature_names_title = vectorizer_title.get_feature_names_out()

## Tf-idf

import spacy
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

nlp = spacy.load("en_core_web_sm")

tfidf_vectorizer_title = TfidfVectorizer()
X_title_train_tfidf = tfidf_vectorizer_title.fit_transform(train_data['title_lemmatized'])

X_title_test_tfidf = tfidf_vectorizer_title.transform(test_data['title_lemmatized'])

tfidf_vectorizer_body = TfidfVectorizer()
X_body_train_tfidf = tfidf_vectorizer_body.fit_transform(train_data['body_lemmatized'])

X_body_test_tfidf = tfidf_vectorizer_body.transform(test_data['body_lemmatized'])

feature_names_title = tfidf_vectorizer_title.get_feature_names_out()
print("Caractéristiques (mots) apprises par le vectorizer pour 'title':")
print(feature_names_title)

print("Matrice TF-IDF pour 'title' dans l'ensemble d'entraînement:")
print(X_title_train_tfidf.toarray())

print("Matrice TF-IDF pour 'title' dans l'ensemble de test:")
print(X_title_test_tfidf.toarray())

feature_names_body = tfidf_vectorizer_body.get_feature_names_out()
print("Caractéristiques (mots) apprises par le vectorizer pour 'body':")
print(feature_names_body)

print("Matrice TF-IDF pour 'body' dans l'ensemble d'entraînement:")
print(X_body_train_tfidf.toarray())

print("Matrice TF-IDF pour 'body' dans l'ensemble de test:")
print(X_body_test_tfidf.toarray())


In [29]:
# Exécutez la tâche d'apprentissage machine avec le chemin de votre jeu de données
# train_and_evaluate(data)