# Importation des Bibliothèques

In [5]:
import mlflow
import mlflow.sklearn
import pandas as pd
import re
import nltk
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from nltk.stem import WordNetLemmatizer, PorterStemmer

# Assurez-vous que les ressources NLTK nécessaires sont téléchargées
nltk.download('punkt')
nltk.download('wordnet')

# Initialisation de la lemmatisation et du stemming
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\trist\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\trist\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## Fonction de Prétraitement du Texte

Nous définissons deux versions de la fonction de prétraitement : l'une utilisant la lemmatisation, l'autre utilisant le stemming.

In [7]:
# Fonction de prétraitement avec lemmatisation
def preprocess_text_lemmatize(text):
    # Convertir en minuscules
    text = text.lower()
    # Supprimer les caractères spéciaux
    text = re.sub(r'\W', ' ', text)
    text = re.sub(r'\s+', ' ', text)
    # Lemmatisation
    words = nltk.word_tokenize(text)
    text = ' '.join([lemmatizer.lemmatize(word) for word in words])
    return text

# Fonction de prétraitement avec stemming
def preprocess_text_stem(text):
    # Convertir en minuscules
    text = text.lower()
    # Supprimer les caractères spéciaux
    text = re.sub(r'\W', ' ', text)
    text = re.sub(r'\s+', ' ', text)
    # Stemming
    words = nltk.word_tokenize(text)
    text = ' '.join([stemmer.stem(word) for word in words])
    return text


# Chargement et Prétraitement des Données

Nous allons maintenant charger les données et appliquer les deux méthodes de prétraitement séparément, en stockant les résultats dans deux colonnes distinctes.

In [9]:
# Charger les données
data = pd.read_csv('../data/database_p7_rework.csv')

# Appliquer la lemmatisation
data['text_lemmatized'] = data['text'].apply(preprocess_text_lemmatize)

# Appliquer le stemming
data['text_stemmed'] = data['text'].apply(preprocess_text_stem)
