In [1]:
import pandas as pd
import spacy
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn import set_config
from sklearn.base import BaseEstimator, TransformerMixin

# Activer l'affichage visuel
set_config(display='diagram')

# Exemple de corpus utilisateur
texts = [
    "Emmanuel Macron est le président de la République Française, il est né à Amiens.",
    "Marine Le Pen est une femme politique française membre du Rassemblement national.",
    "Jean-Luc Mélenchon est le fondateur de La France Insoumise.",
    "Éric Zemmour a fondé le parti Reconquête."
]

# Charger SpaCy
nlp = spacy.load("fr_core_news_sm")

# Transformer spaCy → Liste de lemmes propres
class SpacyPreprocessor(BaseEstimator, TransformerMixin):
    def __init__(self, allowed_pos=["NOUN", "PROPN", "ADJ"]):
        self.allowed_pos = allowed_pos

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        docs = list(nlp.pipe(X))
        lemmatized_docs = []
        for doc in docs:
            tokens = [
                token.lemma_.lower()
                for token in doc
                if token.pos_ in self.allowed_pos and not token.is_stop and token.is_alpha
            ]
            lemmatized_docs.append(" ".join(tokens))
        return lemmatized_docs

# Pipeline complet
topic_pipeline = Pipeline([
    ("spacy_preprocessing", SpacyPreprocessor()),
    ("vectorizer", CountVectorizer(max_df=0.95, min_df=2)),
    ("lda", LatentDirichletAllocation(n_components=2, random_state=42))
])

# Visualisation graphique du pipeline
topic_pipeline

ModuleNotFoundError: No module named 'spacy'