# Stop Words
Des mots comme "a" et "the" apparaissent si fréquemment qu'ils ne nécessitent pas un balisage aussi complet que les noms, les verbes et les modificateurs. Nous les appelons *stop words*, et ils peuvent être filtrés du texte à traiter. spaCy contient une liste intégrée de quelque 305 stop words anglais.

In [1]:
# Perform standard imports:
import spacy
nlp = spacy.load('en_core_web_sm')

In [2]:
# Print the set of spaCy's default stop words (remember that sets are unordered):
print(nlp.Defaults.stop_words)

{'name', 'above', 'last', 'up', 'hundred', 'throughout', 'whither', 'whereby', 'himself', 'meanwhile', 'seemed', 'mine', 'whose', 'had', 'why', 'two', 'nothing', 'namely', 'those', 'forty', 'back', 'can', 'how', 'of', 'several', 'among', 'she', 'empty', 'fifty', 'onto', 'whereafter', 'alone', 'amongst', 'one', 'thereafter', 'more', 'down', 'four', 'hers', 'when', 'fifteen', 'used', 'every', 'everywhere', 'doing', 'enough', 'move', 'ours', 'due', 'their', 'them', 'other', 'he', 'whom', 'off', 'something', 'my', 'besides', 'still', 'rather', 'about', 're', 'somehow', 'twelve', 'during', 'less', 'moreover', 'herein', 'over', 'third', 'everyone', 'quite', 'all', 'a', 'in', 'indeed', 'three', 'ourselves', 'another', 'under', 'ever', 'using', 'either', 'never', 'this', 'thus', 'you', 'each', 'around', 'part', 'through', 'nobody', 'thereupon', 'eleven', 'into', 'only', 'full', 'do', 'further', 'hereby', 'least', 'take', 'themselves', 'please', 'serious', 'at', 'sixty', 'somewhere', 'therefore

In [3]:
len(nlp.Defaults.stop_words)

305

## Voir si un mot est un stop word

In [4]:
nlp.vocab['myself'].is_stop

True

In [5]:
nlp.vocab['mystery'].is_stop

False

## To add a stop word
Il peut arriver que vous souhaitiez ajouter un stop word à l'ensemble par défaut. Vous pouvez par exemple décider que `'btw'` (abréviation courante de "by the way") doit être considéré comme un stop word.

In [6]:
# Add the word to the set of stop words. Use lowercase!
nlp.Defaults.stop_words.add('btw')

# Set the stop_word tag on the lexeme
nlp.vocab['btw'].is_stop = True

In [7]:
len(nlp.Defaults.stop_words)

306

In [8]:
nlp.vocab['btw'].is_stop

True

<font color=green>Lorsque vous ajoutez des mots vides, utilisez toujours des minuscules. Les lexèmes sont convertis en minuscules avant d'être ajoutés à **vocab**.</font>

## Pour supprimer un stop word
Vous pouvez également décider que `'beyond'` ne doit pas être considéré comme un mot d'arrêt.

In [9]:
# Remove the word from the set of stop words
nlp.Defaults.stop_words.remove('beyond')

# Remove the stop_word tag from the lexeme
nlp.vocab['beyond'].is_stop = False

In [10]:
len(nlp.Defaults.stop_words)

305

In [11]:
nlp.vocab['beyond'].is_stop

False

C'est très bien ! Vous devriez maintenant être en mesure d'accéder à l'ensemble des mots-arrêts par défaut de spaCy, et d'ajouter ou de supprimer des mots-arrêts si nécessaire.
## Suivant : Vocabulary and Matching