# Tokenization
La première étape de la création d'un objet `Doc` consiste à décomposer le texte entrant en éléments constitutifs ou "tokens".

In [2]:
# Import spaCy and load the language library
import spacy
nlp = spacy.load('en_core_web_sm')

In [2]:
# Create a string that includes opening and closing quotation marks
mystring = '"We\'re moving to L.A.!"'
print(mystring)

"We're moving to L.A.!"


In [3]:
# Create a Doc object and explore tokens
doc = nlp(mystring)

for token in doc:
    print(token.text, end=' | ')

" | We | 're | moving | to | L.A. | ! | " | 

-  **Prefix**:	Character(s) at the beginning &#9656; `$ ( “ ¿`
-  **Suffix**:	Character(s) at the end &#9656; `km ) , . ! ”`
-  **Infix**:	Character(s) in between &#9656; `- -- / ...`
-  **Exception**: Special-case rule to split a string into several tokens or prevent a token from being split when punctuation rules are applied &#9656; `St. U.S.`

<img src="../tokenization.png" width="600">

Notez que les tokens sont des morceaux du texte original. En d'autres termes, nous ne voyons pas de conversion en stems de mots ou en lemmas (formes de base des mots) et nous n'avons rien vu sur les organisations/lieux/monnaies, etc. Les tokens sont les éléments de base d'un objet Doc - tout ce qui nous aide à comprendre le sens du texte est dérivé des tokens et de leur relation les uns avec les autres.

## Préfixes, suffixes et infixes
spaCy isolera la ponctuation qui ne fait pas partie intégrante d'un mot. Les guillemets, les virgules et la ponctuation en fin de phrase se verront attribuer leur propre token. Toutefois, la ponctuation qui fait partie d'une adresse électronique, d'un site web ou d'une valeur numérique sera conservée comme partie intégrante du token.

In [7]:
doc2 = nlp(u"We're here to help! Send snail-mail, email support@oursite.com or visit us at http://www.oursite.com!")

for t in doc2:
    print(t)

We
're
here
to
help
!
Send
snail
-
mail
,
email
support@oursite.com
or
visit
us
at
http://www.oursite.com
!


<font color=green>Notez que les points d'exclamation, la virgule et le trait d'union dans "snail-mail" se voient attribuer leurs propres tokens, mais que l'adresse électronique et le site web sont conservés..</font>

In [8]:
doc3 = nlp(u'A 5km NYC cab ride costs $10.30')

for t in doc3:
    print(t)

A
5
km
NYC
cab
ride
costs
$
10.30


<font color=green>Ici, l'unité de distance et le signe du dollar se voient attribuer leurs propres token, mais le montant en dollars est conservé.</font>

## Exceptions
La ponctuation qui fait partie d'une abréviation connue sera conservée en tant que partie du token.

In [9]:
doc4 = nlp(u"Let's visit St. Louis in the U.S. next year.")

for t in doc4:
    print(t)

Let
's
visit
St.
Louis
in
the
U.S.
next
year
.


<font color=green>Ici, les abréviations pour "Saint" et "United States" sont toutes deux conservées.</font>

## Compter les tokens
Les objets `Doc` ont un nombre défini de tokens :

In [16]:
len(doc)

8

## Compter les entrées du Vocabulaire
Les objets `Vocab` contiennent une bibliothèque complète d'éléments !

In [19]:
len(doc.vocab)

57852

In [17]:
list(doc.vocab.strings)

['""',
 '#',
 '$',
 "''",
 ',',
 '-LRB-',
 '-RRB-',
 '.',
 ':',
 'ADD',
 'AFX',
 'BES',
 'CC',
 'CD',
 'DT',
 'EX',
 'FW',
 'GW',
 'HVS',
 'HYPH',
 'IN',
 'JJ',
 'JJR',
 'JJS',
 'LS',
 'MD',
 'NFP',
 'NIL',
 'NN',
 'NNP',
 'NNPS',
 'NNS',
 'PDT',
 'PRP',
 'PRP$',
 'RB',
 'RBR',
 'RBS',
 'RP',
 'SP',
 'TO',
 'UH',
 'VB',
 'VBD',
 'VBG',
 'VBN',
 'VBP',
 'VBZ',
 'WDT',
 'WP',
 'WP$',
 'WRB',
 'XX',
 '_SP',
 '``',
 '-PRON-',
 'be',
 '\t',
 'en',
 '\n',
 ' ',
 '")',
 '"',
 "'",
 "'Cause",
 'because',
 "'cause",
 'use',
 "'Xxxxx",
 "'Cos",
 "'cos",
 'Cos',
 "'Xxx",
 "'Coz",
 "'coz",
 'Coz',
 "'Cuz",
 "'cuz",
 'Cuz',
 "'S",
 "'s",
 "'X",
 "'bout",
 'about',
 'out',
 "'xxxx",
 'cos',
 "'xxx",
 'coz',
 'cuz',
 "'d",
 "'x",
 "'em",
 'them',
 "'xx",
 "'ll",
 'will',
 "'nuff",
 'enough',
 'uff',
 "'re",
 'are',
 '(*_*)',
 '(',
 '_*)',
 '(-8',
 '(-d',
 '(-:',
 '(-;',
 '(-_-)',
 '_-)',
 '(._.)',
 '_.)',
 '(:',
 '(;',
 '(=',
 '(>_<)',
 '_<)',
 '(^_^)',
 '_^)',
 '(o:',
 '(x:',
 '(¬_¬)',
 '_¬)',
 '(ಠ_

<font color=green>NOTE : Ce nombre change en fonction de la bibliothèque de langue chargée au départ, et de tout nouveau lexème introduit dans le `vocab` lors de la création du `Doc`.</font>

## Les tokens peuvent être récupérés par position d'index et par slice.
Les objets `Doc` peuvent être considérés comme des listes d'objets `token`. En tant que tels, les tokens individuels peuvent être récupérés par la position de l'index, et les étendues de tokens peuvent être récupérées par le découpage en tranches :

In [10]:
doc5 = nlp(u'It is better to give than to receive.')

# Retrieve the third token:
doc5[2]

better

In [11]:
# Retrieve three tokens from the middle:
doc5[2:5]

better to give

In [12]:
# Retrieve the last four tokens:
doc5[-4:]

than to receive.

## Les tokens ne peuvent pas être réaffectés
Bien que les objets `Doc` puissent être considérés comme des listes de tokens, ils ne supportent pas la réaffectation d'éléments :

In [13]:
doc6 = nlp(u'My dinner was horrible.')
doc7 = nlp(u'Your dinner was delicious.')

In [14]:
# Try to change "My dinner was horrible" to "My dinner was delicious"
doc6[3] = doc7[3]

TypeError: 'spacy.tokens.doc.Doc' object does not support item assignment

# Entités nommées ou Named Entities
Au-delà des tokens, les *entités nommées* ajoutent une autre couche de contexte. Le modèle de langage reconnaît que certains mots sont des noms d'organisations, d'autres des lieux, et d'autres combinaisons encore se rapportent à l'argent, aux dates, etc. Les entités nommées sont accessibles via la propriété `ents` d'un objet `Doc`.

In [15]:
doc8 = nlp(u'Apple to build a Hong Kong factory for $6 million')

for token in doc8:
    print(token.text, end=' | ')

print('\n----')

for ent in doc8.ents:
    print(ent.text+' - '+ent.label_+' - '+str(spacy.explain(ent.label_)))

Apple | to | build | a | Hong | Kong | factory | for | $ | 6 | million | 
----
Apple - ORG - Companies, agencies, institutions, etc.
Hong Kong - GPE - Countries, cities, states
$6 million - MONEY - Monetary values, including unit


<font color=green>Notez que deux jetons se combinent pour former l'entité `Hong Kong`, et que trois tokens se combinent pour former l'entité monétaire : `$6 million`</font>

In [16]:
len(doc8.ents)

3

La reconnaissance des entités nommées (NER) est un outil important d'apprentissage automatique appliqué au traitement du langage naturel. Pour plus d'informations sur les **entités nommées**, consultez le site https://spacy.io/usage/linguistic-features#named-entities.

# Chunks de noms
Similaire à `Doc.ents`, `Doc.noun_chunks` est une autre propriété d'objet. *Les "noun chunks" sont des "phrases de base" - des phrases plates qui ont un nom comme tête. Par exemple, dans la [chanson de Sheb Wooley de 1958] (https://en.wikipedia.org/wiki/The_Purple_People_Eater), un *"mangeur d'hommes borgne, unicorne, volant et violet "* serait un long morceau de nom.

In [17]:
doc9 = nlp(u"Autonomous cars shift insurance liability toward manufacturers.")

for chunk in doc9.noun_chunks:
    print(chunk.text)

Autonomous cars
insurance liability
manufacturers


In [18]:
doc10 = nlp(u"Red cars do not carry higher insurance rates.")

for chunk in doc10.noun_chunks:
    print(chunk.text)

Red cars
higher insurance rates


In [19]:
doc11 = nlp(u"He was a one-eyed, one-horned, flying, purple people-eater.")

for chunk in doc11.noun_chunks:
    print(chunk.text)

He
a one-eyed, one-horned, flying, purple people-eater


Nous examinerons d'autres composants de noun_chunks en plus de `.text` dans une prochaine section.<br>Pour plus d'informations sur **noun_chunks** visitez https://spacy.io/usage/linguistic-features#noun-chunks

___
# Visualiseurs intégrés

spaCy inclut un outil de visualisation intégré appelé **displaCy**. displaCy est capable de détecter si vous travaillez dans un notebook Jupyter, et retournera des balises qui peuvent être rendues dans une cellule immédiatement. Lorsque vous exportez votre notebook, les visualisations seront incluses en HTML.

Pour plus d'informations, visitez le site https://spacy.io/usage/visualizers

## Visualisation de l'analyse des dépendances
Exécutez la cellule ci-dessous pour importer displacy et afficher le graphique de dépendance

In [5]:
from spacy import displacy

doc = nlp(u'Apple is going to build a U.K. factory for $6 million.')
displacy.render(doc, style='dep', jupyter=True, options={'distance': 110})

L'argument optionnel `'distance'` définit la distance entre les mots. Si la distance est trop faible, le texte qui apparaît sous les flèches courtes peut être trop compressé pour être lu.

## Visualisation de l'outil de reconnaissance des entités

In [6]:
doc = nlp(u'Over the last quarter Apple sold nearly 20 thousand iPods for a profit of $6 million.')
displacy.render(doc, style='ent', jupyter=True)

## Créer des visualisations en dehors de Jupyter
Si vous utilisez un autre IDE Python ou si vous écrivez un script, vous pouvez choisir de faire en sorte que spaCy serve le html séparément :

In [7]:
doc = nlp(u'This is a sentence.')
displacy.serve(doc, style='dep')




Using the 'dep' visualizer
Serving on http://0.0.0.0:5000 ...



127.0.0.1 - - [18/Jan/2024 11:05:25] "GET / HTTP/1.1" 200 3395
127.0.0.1 - - [18/Jan/2024 11:05:26] "GET /favicon.ico HTTP/1.1" 200 3395


Shutting down server on port 5000.


<font color=blue>**Après avoir exécuté la cellule ci-dessus, cliquez sur le lien ci-dessous pour voir l'analyse de la dépendance** :</font>

http://127.0.0.1:5000
<br><br>
<font color=red>**Pour arrêter le serveur et revenir à jupyter**, interrompez le noyau soit par le menu **Kernel** ci-dessus, soit en frappant le carré noir sur la barre d'outils, soit en tapant le raccourci clavier `Esc`, `I`, `I`</font>

C'est très bien ! Vous devriez maintenant comprendre comment la tokenisation divise le texte en éléments individuels, comment les entités nommées fournissent un contexte et comment certains outils aident à visualiser les règles de grammaire et les étiquettes d'entités.
## À suivre : Stemming