In [1]:
import spacy
# python -m spacy download en_core_web_sm
from collections import Counter

# Load Spacy model
nlp = spacy.load("en_core_web_sm")

In [2]:
    """_summary_
          
        Ce que contient un objet doc :
            Un objet doc n’est pas juste une liste de mots ; c’est un conteneur complexe qui comprend de nombreuses informations sur chaque mot. Voici quelques éléments que doc peut contenir :

            Tokens : Chaque mot du texte est transformé en un token que spaCy peut manipuler. Par exemple, si le texte est "I love programming", l'objet doc contiendra trois tokens : "I", "love" et "programming".
            Part-of-Speech (POS) Tags : Chaque token est étiqueté avec sa catégorie grammaticale, comme verbe, nom, adjectif, etc.
            Entités nommées (NER) : spaCy identifie des entités comme des personnes, des lieux, des dates, des organisations, etc.
            Dépendances syntaxiques : spaCy analyse la structure grammaticale du texte et montre comment les mots sont reliés entre eux (par exemple, quel mot est le sujet, quel mot est le verbe, etc.).
            Lemmes : Chaque token a aussi une forme de base (lemme). Par exemple, "running" devient "run".
    """


'_summary_\n      \n    Ce que contient un objet doc :\n        Un objet doc n’est pas juste une liste de mots ; c’est un conteneur complexe qui comprend de nombreuses informations sur chaque mot. Voici quelques éléments que doc peut contenir :\n\n        Tokens : Chaque mot du texte est transformé en un token que spaCy peut manipuler. Par exemple, si le texte est "I love programming", l\'objet doc contiendra trois tokens : "I", "love" et "programming".\n        Part-of-Speech (POS) Tags : Chaque token est étiqueté avec sa catégorie grammaticale, comme verbe, nom, adjectif, etc.\n        Entités nommées (NER) : spaCy identifie des entités comme des personnes, des lieux, des dates, des organisations, etc.\n        Dépendances syntaxiques : spaCy analyse la structure grammaticale du texte et montre comment les mots sont reliés entre eux (par exemple, quel mot est le sujet, quel mot est le verbe, etc.).\n        Lemmes : Chaque token a aussi une forme de base (lemme). Par exemple, "runnin

In [3]:
def preprocess_text(text):
    # Cette partie convertit tout le texte en minuscules pour uniformiser la casse et éviter les différences entre, par exemple, "Apple" et "apple".
    doc = nlp(text.lower())
    
    # Initialize an empty list to hold the preprocessed tokens
    preprocessed_tokens = []

    # Cette ligne utilise la liste des stopwords (mots très communs comme "and", "the", "in", etc.) de spaCy en anglais. Ces mots seront filtrés car ils n’apportent généralement pas d’information utile.
    stopwords = spacy.lang.en.stop_words.STOP_WORDS
    
    # calculate the token frequency in the text
    token_counts = Counter([token.text for token in doc if token.is_alpha])

    # Preprocessing
    for token in doc: #for each token check 
        if (token.is_alpha and # to remove non-alphabetic caracters (punctuations),
            token.text not in stopwords and # to remove stopwords,
            token_counts[token.text] > 0 and # to remove rare words,
            token_counts[token.text] < 10):  #  Élimine les mots trop fréquents (qui apparaissent plus de 10 fois), car ces mots sont souvent peu informatifs et peuvent être des répétitions ou des termes courants.
            
            # réduit le mot à sa forme de base
            preprocessed_tokens.append(token.lemma_)
    
    return " ".join(preprocessed_tokens)

In [None]:
# conda install -c conda-forge nltk

import nltk
try :
    from nltk.corpus import reuters #import reuters' documents from the nltk library
except Exception as e :
    print(f'une erreur se produit {e}')

fileids = reuters.fileids() #Get the documents ids


text = reuters.raw(fileids[0]) # Get the text of the first document
print(text[:830]) # Take only the first 830 caractére


In [None]:
result = preprocess_text(text) #Apply the preprocessing
print(result)