# Stop Words
Les "stop words" en traitement automatique du langage naturel (NLP) sont des mots très courants qui sont souvent filtrés ou ignorés lors de l'analyse textuelle car ils ne portent généralement pas beaucoup de sens propre. En français, les "stop words" incluent des mots comme "le", "la", "de", "du", "et", "à", "un", "une", "des", etc. Ces mots sont souvent supprimés des textes afin de réduire la dimensionnalité du jeu de données et de se concentrer sur les mots qui sont plus informatifs pour la tâche spécifique en cours.

In [1]:
# Effectuer des importations standards :
import spacy
nlp = spacy.load('en_core_web_sm')

In [None]:
import nltk
nltk.download('stopwords')

In [None]:
# Imprimez l'ensemble des mots vides par défaut de spaCy (rappelez-vous que les ensembles ne sont pas ordonnés) :
print(nlp.Defaults.stop_words)

In [None]:
from nltk.corpus import stopwords 
stopwords.words('english') # tous les mots vides en anglais

In [None]:
len(nlp.Defaults.stop_words)

### **Vérifiez si un mot est un mot vide ou non (utilisez la méthode "vocab")**

In [None]:
# Nous pouvons vérifier un mot qui est un mot vide ou non en utilisant la méthode du vocabulaire
nlp.vocab['myself'].is_stop # vérifiez que "moi-même" est un mot vide ou non

In [None]:
nlp.vocab['mystery'].is_stop

### **Faire un mot comme mot vide**

In [None]:
# étape 1 : Ajoutez le mot à l'ensemble des mots vides. Utilisez des minuscules !
nlp.Defaults.stop_words.add('mystery')

In [None]:
# étape 2 : Définir la balise stop_word sur le lexème
nlp.vocab['mystery'].is_stop = True

In [None]:
len(nlp.Defaults.stop_words)

In [None]:
nlp.vocab['mystery'].is_stop

### **Pour supprimer un mot vide**
Alternativement, vous pouvez décider que `'beyond'` ne doit pas être considéré comme un mot vide.

In [None]:
# étape 1 : Supprimez le mot de l'ensemble des mots vides
nlp.Defaults.stop_words.remove('and')

# étape 2 : Supprimez la balise stop_word du lexème
nlp.vocab['and'].is_stop = False

In [None]:
len(nlp.Defaults.stop_words)

In [None]:
nlp.vocab['and'].is_stop

### **Imprimer tous les mots vides d'une ligne**

In [None]:
import string
import re
import nltk
nltk.download('punkt')
from nltk import word_tokenize,sent_tokenize
from nltk.corpus import stopwords
# charger des données


In [None]:
text = 'The Quick brown fox jump over the lazy dog!'

In [None]:
# divisé en mots
tokens = word_tokenize(text)
print(tokens)

In [None]:
# convertir en minuscule
tokens = [w.lower() for w in tokens]
print(tokens)

In [None]:
# préparer l'expression régulière pour le filtrage des caractères
re_punc = re.compile('[%s]' % re.escape(string.punctuation))
print(re_punc)

In [None]:
# supprimer la ponctuation de chaque mot
stripped = [re_punc.sub('', w) for w in tokens]
print(stripped)

In [None]:
# supprimer les jetons restants qui ne sont pas alphabétiques
words = [word for word in stripped if word.isalpha()]
print(words)

In [None]:
# filtrer les mots non-stop
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]
print(words)

In [None]:
# Vérifiez que les jetons restants sont des mots vides ou non
nlp.vocab['dog'].is_stop