Import des bibliothèque necessaires

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.stem.snowball import SnowballStemmer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.decomposition import TruncatedSVD, NMF
from itertools import product
from sklearn.model_selection import GridSearchCV

# nltk.download('wordnet')

Class Data pour tous les pré-traitement, vectorisation et réduction de la matrice.

In [2]:
class Data:
    def __init__(self, limit=5000,language=None,ignore_stopwords=None,mode=None,overwrite=None,):
        self.data_brut = pd.read_json("train.jsonl", lines=True)[["texte_annonce", "cal_réponse_signalement"]]
        self.data = self.data_brut.iloc[:limit]

    def get_data(self):
        return self.data

    def rien(self, x):
        pass

    def racinisation(self, text_column):
        stemmer = SnowballStemmer("french")
        self.data.loc[:, text_column] = self.data[text_column].apply(lambda x: ' '.join([stemmer.stem(word) for word in str(x).split()]))

    def lemmatisation(self, text_column):
        lemmatizer = WordNetLemmatizer()
        self.data.loc[:, text_column] = self.data[text_column].apply(lambda x: ' '.join([lemmatizer.lemmatize(word) for word in str(x).split()]))

    def vectorisation_simple(self, text_column):
        vectorizer = CountVectorizer()
        vect_data = vectorizer.fit_transform(self.data[text_column])
        vect_df = pd.DataFrame(vect_data.toarray(), columns=vectorizer.get_feature_names_out())
        self.data = pd.concat([vect_df, self.data.iloc[:, -1]], axis=1)

    def vectorisation_ponderee(self, text_column):
        vectorizer = TfidfVectorizer()
        vect_data = vectorizer.fit_transform(self.data[text_column])
        vect_df = pd.DataFrame(vect_data.toarray(), columns=vectorizer.get_feature_names_out())
        self.data = pd.concat([vect_df, self.data.iloc[:, -1]], axis=1)

    def reduction_svd(self, n_components=100):
        svd = TruncatedSVD(n_components=n_components)
        svd_result = svd.fit_transform(self.data.iloc[:, :-1])
        self.data = pd.concat([pd.DataFrame(svd_result), self.data.iloc[:, -1]], axis=1)

    def reduction_nmf(self, n_components=100):
        nmf = NMF(n_components=n_components)
        nmf_result = nmf.fit_transform(self.data.iloc[:, :-1])
        self.data = pd.concat([pd.DataFrame(nmf_result), self.data.iloc[:, -1]], axis=1)

    def process_and_export(self, text_column="texte_annonce", n_components=100):
        # Définir toutes les combinaisons possibles
        preprocessing_methods = [self.rien, self.racinisation, self.lemmatisation]
        vectorisation_methods = [self.vectorisation_simple, self.vectorisation_ponderee]
        reduction_methods = [self.reduction_svd, self.reduction_nmf]

        combinations = product(preprocessing_methods, vectorisation_methods, reduction_methods)

        # Boucler sur toutes les combinaisons
        for i, (preprocess, vectorize, reduce) in enumerate(combinations):
            # Réinitialiser les données à l'état brut
            self.data = self.data_brut.copy()

            # Appliquer les méthodes
            preprocess(text_column)
            vectorize(text_column)
            reduce(n_components)

            # Exporter le résultat
            output_file = f"output_combination_{i+1}.jsonl"
            self.data.to_json(output_file, orient="records", lines=True)
            print(f"Exporté : {output_file}")


Class global des classifieurs permettant de faire de l'héritage

In [13]:
class Classifieur:
    def __init__(self, data):
        # Chargement et découpage des données
        self.chargement(data)
        self.decoupage()

    def chargement(self, data):
        # Chargement des données et séparation X, y
        self.data = data
        self.X = data.iloc[:, :-1]  # Toutes les colonnes sauf la dernière (X)
        self.y = data.iloc[:, -1]   # Dernière colonne (y)

    def decoupage(self):
        # Découpage en jeu d'entrainement et test
        self.X_train, self.X_test, self.Y_train, self.Y_test = train_test_split(self.X, self.y, test_size=0.6, random_state=0)

    def entrainement(self):
        pass

    def rien(self):
        pass

    def taux_reussite(self):
        # Calcul du taux de réussite
        y_pred = self.classifier.predict(self.X_test)
        accuracy = accuracy_score(self.Y_test, y_pred)
        return f"{accuracy:.3f}"

    def f1_score(self):
        # Calcul du F1-score
        from sklearn.metrics import f1_score
        y_pred = self.classifier.predict(self.X_test)
        f1 = f1_score(self.Y_test, y_pred, average='weighted')
        return f"{f1:.3f}"

    def recherche_hyperparametres(self,param_grid):
          # Recherche des meilleurs hyperparamètres avec GridSearchCV
          grid_search = GridSearchCV(
              self.classifier,
              param_grid,
              cv=5,  # Validation croisée 5-fold
              scoring='f1',
          )
          grid_search.fit(self.X_train, self.Y_train)
          self.classifier = grid_search.best_estimator_
          print("Meilleurs hyperparamètres :", grid_search.best_params_)
          return grid_search.best_params_


In [4]:
from sklearn.naive_bayes import MultinomialNB


class Multinomial(Classifieur):
    def __init__(self, data, alpha = None, fit_prior = None):
        super().__init__(data)
        self.classifier = MultinomialNB()
        if alpha : self.classifier.alpha = alpha
        if fit_prior : self.classifier.fit_prior = fit_prior

    def entrainement(self):
        # Entraînement du modèle avec les données
        self.classifier.fit(self.X_train, self.Y_train)


In [5]:
from sklearn.naive_bayes import BernoulliNB


class Bernoulli(Classifieur):
    def __init__(self, data, alpha = None, fit_prior = None, binarize = None):
        super().__init__(data)

        self.classifier = BernoulliNB()
        if alpha : self.classifier.alpha = alpha
        if fit_prior : self.classifier.fit_prior = fit_prior
        if binarize : self.classifier.binarize = binarize


    def entrainement(self):
        # Entraînement du modèle avec les données
        self.classifier.fit(self.X_train, self.Y_train)

In [6]:
from sklearn.naive_bayes import GaussianNB


class Gaussian(Classifieur):
    def __init__(self, data, var_smoothing = None):
        super().__init__(data)
        self.classifier = GaussianNB()
        if var_smoothing : self.classifier.var_smoothing = var_smoothing

    def entrainement(self):
        # Entraînement du modèle avec les données
        self.classifier.fit(self.X_train, self.Y_train)

In [7]:
from sklearn.linear_model import LogisticRegression

class RegressionLogistique(Classifieur):
    def __init__(self, data, penalty = None, C = None, solver = None, max_iter = None, l1_ratio = None, random_state = None):
        super().__init__(data)
        self.classifier = LogisticRegression()
        if penalty : self.classifier.penalty = penalty
        if C : self.classifier.C = C
        if solver : self.classifier.solver = solver
        if max_iter : self.classifier.max_iter = max_iter
        if l1_ratio : self.classifier.l1_ratio
        if random_state : self.classifier.random_state = random_state

    def entrainement(self):
        self.classifier.fit(self.X_train, self.Y_train)


In [33]:
from sklearn.neighbors import KNeighborsClassifier

class KPlusProchesVoisins(Classifieur):
    def __init__(self, data, n_neighbors = 3, weights = None, algorithm = None, p = None):
        super().__init__(data)

        self.classifier = KNeighborsClassifier()
        if n_neighbors : self.classifier.n_neighbors = n_neighbors
        if weights : self.classifier.weights = weights
        if algorithm : self.classifier.algorithm = algorithm
        if p : self.classifier.p = p

    def entrainement(self):
        self.classifier.fit(self.X_train, self.Y_train)


In [26]:
from sklearn.tree import DecisionTreeClassifier

class ArbreDeDecision(Classifieur):
    def __init__(self, data, criterion = None, max_depth = None, min_samples_split = None, min_samples_leaf = None, max_features = None, ccp_alpha = None, random_state = None):
        super().__init__(data)
        self.classifier = DecisionTreeClassifier()
        if criterion : self.classifier.criterion = criterion
        if max_depth : self.classifier.max_depth = max_depth
        if min_samples_split : self.classifier.min_samples_split = min_samples_split
        if min_samples_leaf : self.classifier.min_samples_leaf = min_samples_leaf
        if max_features : self.classifier.max_features = max_features
        if ccp_alpha : self.classifier.ccp_alpha = ccp_alpha
        if random_state : self.classifier.random_state = random_state

    def entrainement(self):
        self.classifier.fit(self.X_train, self.Y_train)


In [27]:
from sklearn.ensemble import RandomForestClassifier

class ForetAleatoire(Classifieur):
    def __init__(self, data, n_estimators = 100, criterion = None, max_depth = None, min_samples_split = None, min_samples_leaf = None, max_features = None, bootstrap = None, ccp_alpha = None, random_state = 0 ):
        super().__init__(data)
        self.classifier = RandomForestClassifier()
        if n_estimators : self.classifier.n_estimators = n_estimators
        if criterion : self.classifier.criterion = criterion
        if max_depth : self.classifier.max_depth = max_depth
        if min_samples_split : self.classifier.min_samples_split = min_samples_split
        if min_samples_leaf : self.classifier.min_samples_leaf = min_samples_leaf
        if max_features : self.classifier.max_features = max_features
        if bootstrap : self.classifier.bootstrap = bootstrap
        if ccp_alpha : self.classifier.ccp_alpha = ccp_alpha
        if random_state : self.classifier.random_state = random_state

    def entrainement(self, n_estimators=100):
        self.classifier.fit(self.X_train, self.Y_train)


Fonction ultra débile qui teste tous les classifieurs, pré traitements, vectorisation et réduction afin d'avoir le meilleurs taux de réussite.

In [35]:
def possibilite():
    results = []  # Liste pour stocker les résultats

    for x in ["lemmatisation", "racinisation","rien"]:
        for y in ["vectorisation_simple", "vectorisation_ponderee"]:
            data = Data()
            getattr(data, x)("texte_annonce")
            getattr(data, y)("texte_annonce")

            if y == "vectorisation_ponderee":
                data.reduction_nmf()
                z = "nmf"
            else:
                data.reduction_svd()
                z = "svd"

            # Parcours des classifieurs
            for i in [ KPlusProchesVoisins, ArbreDeDecision, ForetAleatoire]:
                classifieur = i(data.get_data())
                classifieur.entrainement()
                f1_score = classifieur.f1_score()
                print((x, y, z, i.__name__,f1_score))

                # Ajout des résultats à la liste sous forme de tuple
                results.append((x, y, z, i.__name__,f1_score))

    # Tri des résultats par taux de réussite (du plus élevé au plus faible)
    results_sorted = sorted(results, key=lambda x: x[4], reverse=True)

    # Affichage des résultats triés
    for res in results_sorted:
        print(f"{res[0]} - {res[1]} - {res[2]} - {res[3]} : {res[4]}")

possibilite()

('lemmatisation', 'vectorisation_simple', 'svd', 'KPlusProchesVoisins', '0.631')
('lemmatisation', 'vectorisation_simple', 'svd', 'ArbreDeDecision', '0.621')
('lemmatisation', 'vectorisation_simple', 'svd', 'ForetAleatoire', '0.626')




('lemmatisation', 'vectorisation_ponderee', 'nmf', 'KPlusProchesVoisins', '0.651')
('lemmatisation', 'vectorisation_ponderee', 'nmf', 'ArbreDeDecision', '0.643')
('lemmatisation', 'vectorisation_ponderee', 'nmf', 'ForetAleatoire', '0.662')
('racinisation', 'vectorisation_simple', 'svd', 'KPlusProchesVoisins', '0.635')
('racinisation', 'vectorisation_simple', 'svd', 'ArbreDeDecision', '0.607')
('racinisation', 'vectorisation_simple', 'svd', 'ForetAleatoire', '0.624')




('racinisation', 'vectorisation_ponderee', 'nmf', 'KPlusProchesVoisins', '0.645')
('racinisation', 'vectorisation_ponderee', 'nmf', 'ArbreDeDecision', '0.631')
('racinisation', 'vectorisation_ponderee', 'nmf', 'ForetAleatoire', '0.652')
('rien', 'vectorisation_simple', 'svd', 'KPlusProchesVoisins', '0.630')
('rien', 'vectorisation_simple', 'svd', 'ArbreDeDecision', '0.603')
('rien', 'vectorisation_simple', 'svd', 'ForetAleatoire', '0.630')




('rien', 'vectorisation_ponderee', 'nmf', 'KPlusProchesVoisins', '0.650')
('rien', 'vectorisation_ponderee', 'nmf', 'ArbreDeDecision', '0.646')
('rien', 'vectorisation_ponderee', 'nmf', 'ForetAleatoire', '0.650')
lemmatisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.662
racinisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.652
lemmatisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.651
rien - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.650
rien - vectorisation_ponderee - nmf - ForetAleatoire : 0.650
rien - vectorisation_ponderee - nmf - ArbreDeDecision : 0.646
racinisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.645
lemmatisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.643
racinisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.635
lemmatisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.631
racinisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.631
rien - vectorisation_sim

Résultat lancé en amont (tps: 16 min)

- lemmatisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.741
- racinisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.738
- rien - vectorisation_ponderee - nmf - ForetAleatoire : 0.737
- lemmatisation - vectorisation_ponderee - nmf - RegressionLogistique : 0.734
- racinisation - vectorisation_simple - svd - ForetAleatoire : 0.734
- racinisation - vectorisation_ponderee - nmf - RegressionLogistique : 0.734
- rien - vectorisation_ponderee - nmf - RegressionLogistique : 0.734
- lemmatisation - vectorisation_simple - svd - ForetAleatoire : 0.733
- rien - vectorisation_simple - svd - ForetAleatoire : 0.732
- lemmatisation - vectorisation_simple - svd - RegressionLogistique : 0.725
- racinisation - vectorisation_simple - svd - RegressionLogistique : 0.723
- rien - vectorisation_simple - svd - RegressionLogistique : 0.723
- rien - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.667
- lemmatisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.658
- racinisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.657
- racinisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.651
- lemmatisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.648
- rien - vectorisation_simple - svd - KPlusProchesVoisins : 0.644
- lemmatisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.643
- racinisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.640
- rien - vectorisation_ponderee - nmf - ArbreDeDecision : 0.637
- lemmatisation - vectorisation_simple - svd - ArbreDeDecision : 0.623
- rien - vectorisation_simple - svd - ArbreDeDecision : 0.617
- racinisation - vectorisation_simple - svd - ArbreDeDecision : 0.586
- rien - vectorisation_ponderee - nmf - BayesienNaif : 0.494
- lemmatisation - vectorisation_ponderee - nmf - BayesienNaif : 0.491
- racinisation - vectorisation_ponderee - nmf - BayesienNaif : 0.483
- lemmatisation - vectorisation_simple - svd - BayesienNaif : 0.329
- rien - vectorisation_simple - svd - BayesienNaif : 0.328
- racinisation - vectorisation_simple - svd - BayesienNaif : 0.326


lemmatisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.657
rien - vectorisation_ponderee - nmf - ForetAleatoire : 0.656
rien - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.655
racinisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.649
rien - vectorisation_simple - svd - RegressionLogistique : 0.649
lemmatisation - vectorisation_simple - svd - RegressionLogistique : 0.648
lemmatisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.647
racinisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.647
racinisation - vectorisation_simple - svd - RegressionLogistique : 0.644
racinisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.639
lemmatisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.638
rien - vectorisation_ponderee - nmf - ArbreDeDecision : 0.638
racinisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.637
lemmatisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.631
rien - vectorisation_simple - svd - KPlusProchesVoisins : 0.630
racinisation - vectorisation_simple - svd - ForetAleatoire : 0.627
rien - vectorisation_simple - svd - ForetAleatoire : 0.626
lemmatisation - vectorisation_simple - svd - ForetAleatoire : 0.624
lemmatisation - vectorisation_ponderee - nmf - RegressionLogistique : 0.621
racinisation - vectorisation_ponderee - nmf - RegressionLogistique : 0.621
rien - vectorisation_ponderee - nmf - RegressionLogistique : 0.621
rien - vectorisation_simple - svd - ArbreDeDecision : 0.612
racinisation - vectorisation_simple - svd - ArbreDeDecision : 0.610
lemmatisation - vectorisation_simple - svd - ArbreDeDecision : 0.594

lemmatisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.662
racinisation - vectorisation_ponderee - nmf - ForetAleatoire : 0.652
lemmatisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.651
rien - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.650
rien - vectorisation_ponderee - nmf - ForetAleatoire : 0.650
rien - vectorisation_ponderee - nmf - ArbreDeDecision : 0.646
racinisation - vectorisation_ponderee - nmf - KPlusProchesVoisins : 0.645
lemmatisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.643
racinisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.635
lemmatisation - vectorisation_simple - svd - KPlusProchesVoisins : 0.631
racinisation - vectorisation_ponderee - nmf - ArbreDeDecision : 0.631
rien - vectorisation_simple - svd - KPlusProchesVoisins : 0.630
rien - vectorisation_simple - svd - ForetAleatoire : 0.630
lemmatisation - vectorisation_simple - svd - ForetAleatoire : 0.626
racinisation - vectorisation_simple - svd - ForetAleatoire : 0.624
lemmatisation - vectorisation_simple - svd - ArbreDeDecision : 0.621
racinisation - vectorisation_simple - svd - ArbreDeDecision : 0.607
rien - vectorisation_simple - svd - ArbreDeDecision : 0.603

In [19]:
results=[]

def boucler_classeur(data, grid):
    for i in [Multinomial, Gaussian, Bernoulli,  RegressionLogistique, KPlusProchesVoisins, ArbreDeDecision, ForetAleatoire]:
        classifieur = i(data)
        classifieur= i(data,classifieur.recherche_hyperparametres(grid))
        f1_score = classifieur.f1_score()

        results.append((i.__name__, f1_score))
    return results


SyntaxError: invalid syntax (4089700616.py, line 9)

In [40]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import string

# Téléchargements nécessaires pour NLTK
#nltk.download('punkt')
#nltk.download('stopwords')
#nltk.download('wordnet')

# Exemple de texte
texte = "Les articles comme 'le', 'la', 'les' sont fréquents fréquents mais inutiles pour notre analyse de une."

# 1. Nettoyage de base
def nettoyer_texte(texte):
    # Convertir en minuscules
    texte = texte.lower()
    # Supprimer la ponctuation
    texte = texte.translate(str.maketrans('', '', string.punctuation))
    # Supprimer les chiffres
    texte = ''.join([char for char in texte if not char.isdigit()])
    return texte

# 2. Suppression des mots vides
stop_words = set(stopwords.words('french'))
def supprimer_stopwords(texte):
    tokens = word_tokenize(texte)
    return [mot for mot in tokens if mot not in stop_words]

# 3. Lemmatisation
lemmatizer = WordNetLemmatizer()
def lemmatiser_tokens(tokens):
    return [lemmatizer.lemmatize(token) for token in tokens]

# Pipeline complet
texte_nettoye = nettoyer_texte(texte)
tokens_sans_stopwords = supprimer_stopwords(texte_nettoye)
tokens_lemmatise = lemmatiser_tokens(tokens_sans_stopwords)

print("Texte nettoyé :", texte_nettoye)
print("Tokens après suppression des mots vides :", tokens_sans_stopwords)
print("Tokens après lemmatisation :", tokens_lemmatise)


Texte nettoyé : les articles comme le la les sont fréquents fréquents mais inutiles pour notre analyse de une
Tokens après suppression des mots vides : ['articles', 'comme', 'fréquents', 'fréquents', 'inutiles', 'analyse']
Tokens après lemmatisation : ['article', 'comme', 'fréquents', 'fréquents', 'inutiles', 'analyse']


In [22]:
grid = pd.read_json("hyperpamètres.jsonl")
print(grid)

                          MultinomialNB                    GaussianNB  \
alpha              [0.1, 0.5, 1.0, 2.0]                           NaN   
fit_prior                 [True, False]                           NaN   
var_smoothing                       NaN  [1e-09, 1e-08, 1e-07, 1e-06]   
binarize                            NaN                           NaN   
penalty                             NaN                           NaN   
C                                   NaN                           NaN   
solver                              NaN                           NaN   
max_iter                            NaN                           NaN   
l1_ratio                            NaN                           NaN   
n_neighbors                         NaN                           NaN   
weights                             NaN                           NaN   
algorithm                           NaN                           NaN   
leaf_size                           NaN            

Exemple d'utilisation en temps normal pour l'optimisation

In [None]:
data = Data()
data.lemmatisation("texte_annonce")
data.vectorisation_ponderee("texte_annonce")
data.reduction_nmf()
data = data.get_data()

foret = ForetAleatoire(data)
foret.entrainement()
print(foret.taux_reussite())
print(foret.f1_score())



0.739


Optimisation de la foret

In [14]:
#Donne les meilleurs hyperparametre de la foret
param_grid = {
    'n_estimators': [100, 200, 500],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 5],
    'max_features': ['sqrt', 'log2', None]
}

data = Data(limit = 100)
print("etape 1")
data.lemmatisation("texte_annonce")
print("etape 2")
data.vectorisation_ponderee("texte_annonce")
print("etape 3")
data.reduction_nmf()
print("etape 4")
data = data.get_data()
print("etape 5")

foret = ForetAleatoire(data)
print("etape 6")
foret.recherche_hyperparametres(param_grid)

etape 1
etape 2
etape 3
etape 4
etape 5
etape 6
Meilleurs hyperparamètres : {'max_depth': 20, 'max_features': None, 'min_samples_leaf': 5, 'min_samples_split': 5, 'n_estimators': 200}


In [18]:
#Prédiction avec les meilleurs hyperparametre
data = Data()
data.lemmatisation("texte_annonce")
data.vectorisation_ponderee("texte_annonce")
data.reduction_nmf()
data = data.get_data()

foret = ForetAleatoire(data, max_depth = 20, max_features= None, min_samples_leaf= 5, min_samples_split= 5, n_estimators= 200)
foret.entrainement()
print("Taux de réussite :", foret.taux_reussite())
print("F1 score :", foret.f1_score())





Taux de réussite : 0.735
F1 score : 0.630
