In [1]:
# chargeons le modèle spaCy pour le français
# avons quelques documents sur lesquels nous allons travailler
# effectuons un strip des documents pour enlever les espaces en début et fin
# nettoyons les caractères de ponctuation et autres
# utilisons les STOP_WORDS fournis par spaCy pour enlever les mots vides
# tokenisons et lemmatisons chaque document
# utilisons TfidfVectorizer pour convertir les documents en une matrice TF-IDF
# définissons des étiquettes fictives y pour chaque document
# divisons les données en ensembles d'entraînement et de test
# utilisons un RandomForestClassifier pour entraîner un modèle
# prédisons les étiquettes sur l'ensemble de test
# calculons le score d'exactitude du modèle

import spacy
import string
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Charger le modèle de la langue française
nlp = spacy.load("fr_core_news_sm")

# Texte de quelques phrases
documents = [
    "Les chiens courent rapidement sur les routes.",
    "Le chat dort paisiblement sur le canapé.",
    "Les oiseaux chantent joyeusement dans les arbres."
]

# Strip des documents
documents_stripped = [doc.strip() for doc in documents]

# Nettoyage des caractères de ponctuation et autres
documents_cleaned = []
for doc in documents_stripped:
    doc_cleaned = doc.translate(str.maketrans('', '', string.punctuation))
    documents_cleaned.append(doc_cleaned)

# Utilisation des STOP_WORDS
stop_words = spacy.lang.fr.stop_words.STOP_WORDS

# Tokenisation et lemmatisation
tokenized_docs = []
for doc in documents_cleaned:
    doc_tokens = []
    doc = nlp(doc)
    for token in doc:
        if token.text.lower() not in stop_words:
            doc_tokens.append(token.lemma_)
    tokenized_docs.append(" ".join(doc_tokens))

# Utilisation de TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(tokenized_docs)

# Définition de y (étiquettes) - à titre d'exemple, disons qu'elles sont toutes de la même classe
y = [0, 0, 0]  # Classe 0 pour chaque document

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Utilisation d'un RandomForestClassifier
classifier = RandomForestClassifier()
classifier.fit(X_train, y_train)

# Prédiction sur l'ensemble de test
y_pred = classifier.predict(X_test)

# Calcul du score d'exactitude
score = accuracy_score(y_test, y_pred)
print("Score:", score)


Score: 1.0
