# *spaCy* : une bibliothèque pour le traitement du langage naturel

Considérée comme une alternative moderne à la bibliothèque NTLK (*Natural Language ToolKit*), *spaCy* intègre de très nombreux outils état de l’art pour l’analyse de données textuelles, mobilisables simplement, au prix d’une perte des possibilités de personnalisation.

Une fois installée, la bibliothèque se charge avec l’espace de noms `spacy` :

In [None]:
import spacy

## Comparaison pour la segmentation d’un texte français en mots

Soit la phrase suivante :

In [1]:
sent = "Elvire, m’as-tu fait un rapport bien sincère ?"

En permettant de paramétrer un outil pour la segmentation en mots basée sur les expressions rationnelles, NLTK offre beaucoup de souplesse et n’effectue aucune hypothèse quant à la langue du texte :

In [2]:
import nltk
from nltk.tokenize import RegexpTokenizer

# a custom tokenizer
tokenizer = RegexpTokenizer(r"\w+")

# tokenization
tokens = tokenizer.tokenize(sent)

# iterate over tokens
for token in tokens:
    print(token, end=" ")

Elvire m as tu fait un rapport bien sincère 

Avec *spaCy*, il est nécessaire de charger un outil polyvalent, entraîné pour le français :

In [3]:
import spacy

# create a blank object customized for French
nlp = spacy.blank("fr")

# process the document
doc = nlp(sent)

# iterate over tokens
for token in doc:
    if not token.is_punct:
        print(token.text, end=" ")

Elvire m’ as tu fait un rapport bien sincère 

## Charger un pipeline pré-entraîné

L’un des avantages indéniables de *spaCy* réside dans la possibilité de charger des pipelines pré-entraînés sur de larges corpus étiquetés pour effectuer des prédictions en contexte. Un pipeline peut se concevoir comme un modèle de langue configuré à l’aide de plusieurs transformateurs (tokenisation, lemmatisation, vectorisation…). Pour le français, il en existe quatre :

- *fr_core_news_sm* : données textuelles issues de la presse avec un vocabulaire, une analyse syntaxique et la reconnaissance des entités nommées (15 MB) ;
- *fr_core_news_md* : + vectorisation (20 000 vecteurs uniques de 300 dimensions) (43 MB) ;
- *fr_core_news_lg* : vectorisation plus complète (500 000 vecteurs uniques) (545 MB) ;
- *fr_dep_news_trf* : transformateur basé sur camemBERT.

La méthode `.load()` charge le pipeline demandé :

In [15]:
nlp = spacy.load("fr_core_news_sm")

Pour appliquer l’ensemble des transformateurs à un texte, il suffit d’utiliser la fonction `nlp()` :

In [74]:
text = """C'était à Mégara, faubourg de Carthage, dans les jardins d'Hamilcar.
Les soldats qu’il avait commandés en Sicile se donnaient un grand festin pour célébrer le jour anniversaire de la bataille d’Eryx, et comme le maître était absent et qu’ils se trouvaient nombreux, ils mangeaient et ils buvaient en pleine liberté.
Les capitaines, portant des cothurnes de bronze, s’étaient placés dans le chemin du milieu, sous un voile de pourpre à franges d’or, qui s’étendait depuis le mur des écuries jusqu’à la première terrasse du palais ; le commun des soldats était répandu sous les arbres, où l’on distinguait quantité de bâtiments à toit plat, pressoirs, celliers, magasins, boulangeries et arsenaux, avec une cour pour les éléphants, des fosses pour les bêtes féroces, une prison pour les esclaves.
"""
doc = nlp(text)

L’objet `doc` (un assemblage de *tokens*) embarque désormais des structures, accessibles depuis des attributs (p. ex. `.sents` pour les phrases), en fonction des transformateurs utilisés.

### Segmentation en tokens

Par défaut, l’objet obtenu est un assemblage de *tokens* avec différents attributs dont `.text` pour leur représentation en chaîne de caractères :

In [75]:
for token in doc:
    print(token.text, end=" ")

C' était à Mégara , faubourg de Carthage , dans les jardins d' Hamilcar . 
 Les soldats qu’ il avait commandés en Sicile se donnaient un grand festin pour célébrer le jour anniversaire de la bataille d’ Eryx , et comme le maître était absent et qu’ ils se trouvaient nombreux , ils mangeaient et ils buvaient en pleine liberté . 
 Les capitaines , portant des cothurnes de bronze , s’ étaient placés dans le chemin du milieu , sous un voile de pourpre à franges d’ or , qui s’ étendait depuis le mur des écuries jusqu’ à la première terrasse du palais ; le commun des soldats était répandu sous les arbres , où l’ on distinguait quantité de bâtiments à toit plat , pressoirs , celliers , magasins , boulangeries et arsenaux , avec une cour pour les éléphants , des fosses pour les bêtes féroces , une prison pour les esclaves . 
 

### Segmentation en phrases

Les phrases sont accessibles via l’attribut `.sents` qui héberge un générateur :

In [76]:
for sent in doc.sents:
    print(sent)

C'était à Mégara, faubourg de Carthage, dans les jardins d'Hamilcar.

Les soldats qu’il avait commandés en Sicile se donnaient un grand festin pour célébrer le jour anniversaire de la bataille d’Eryx, et comme le maître était absent et qu’ils se trouvaient nombreux, ils mangeaient et ils buvaient en pleine liberté.

Les capitaines, portant des cothurnes de bronze, s’étaient placés dans le chemin du milieu, sous un voile de pourpre à franges d’or, qui s’étendait depuis le mur des écuries jusqu’à la première terrasse du palais ;
le commun des soldats était répandu sous les arbres, où l’on distinguait quantité de bâtiments à toit plat, pressoirs, celliers, magasins, boulangeries et arsenaux, avec une cour pour les éléphants, des fosses pour les bêtes féroces, une prison pour les esclaves.

