Ce notebook accompagne le post : "Handson de quelques tâches courantes en NLP" (ou sa version anglaise "Simple NLP tasks tutorial").

## Téléchargement des modèles SpaCy via le notebook

In [1]:
!python -m spacy download en # modèle anglais
!python -m spacy download fr # modèle français


    Downloading en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz

Collecting https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-1.2.0/en_core_web_sm-1.2.0.tar.gz (52.2MB)
[K    100% |████████████████████████████████| 52.2MB 12.0MB/s ta 0:00:01   18% |█████▉                          | 9.5MB 10.9MB/s eta 0:00:04    20% |██████▋                         | 10.7MB 10.9MB/s eta 0:00:04    41% |█████████████▍                  | 21.8MB 12.3MB/s eta 0:00:03    45% |██████████████▌                 | 23.6MB 12.3MB/s eta 0:00:03    65% |████████████████████▉           | 34.0MB 12.2MB/s eta 0:00:02    68% |██████████████████████          | 35.9MB 10.7MB/s eta 0:00:02    74% |████████████████████████        | 39.0MB 12.3MB/s eta 0:00:02    85% |███████████████████████████▎    | 44.5MB 12.2MB/s eta 0:00:01    88% |████████████████████████████▍   | 46.4MB 

[K    22% |███████▏                        | 317.2MB 1.5MB/s eta 0:12:430 0% |                                | 1.3MB 11.5MB/s eta 0:02:04    0% |                                | 3.4MB 12.2MB/s eta 0:01:57    0% |▎                               | 10.0MB 12.2MB/s eta 0:01:56    0% |▎                               | 13.5MB 21.6MB/s eta 0:01:06    1% |▍                               | 17.6MB 12.1MB/s eta 0:01:57    1% |▌                               | 22.1MB 10.7MB/s eta 0:02:11    1% |▌                               | 24.5MB 10.7MB/s eta 0:02:11    2% |▉                               | 34.9MB 10.9MB/s eta 0:02:08    2% |▉                               | 37.4MB 10.9MB/s eta 0:02:07    2% |█                               | 41.1MB 10.9MB/s eta 0:02:08    3% |█                               | 43.6MB 10.9MB/s eta 0:02:08    3% |█                               | 49.1MB 12.3MB/s eta 0:01:52    3% |█▎                              | 54.6MB 10.9MB/s eta 0:02:06    3% |█▎                        


[93m    Linking successful[0m

    /home/pauline/anaconda3/envs/nltk_spacy_test_env/lib/python3.5/site-packages/fr_depvec_web_lg/fr_depvec_web_lg-1.0.0
    -->
    /home/pauline/anaconda3/envs/nltk_spacy_test_env/lib/python3.5/site-packages/spacy/data/fr

    You can now load the model via spacy.load('fr').



## Importation des librairies SpaCy et NLTK et création des "language processing pipelines"

In [2]:
import spacy
import nltk

In [3]:
nlp_fr = spacy.load("fr")
nlp_en = spacy.load("en")

## Transformation de texte

### Segmentation de texte en phrases

Il s'agit de repérer le début et la fin de chaque phrase d'un texte pour pouvoir la segmenter.

In [4]:
# Création du texte à segmenter
text_fr = "Ceci est 1 première phrase. Puis j'en écris une seconde. pour finir en voilà une troisième sans mettre de majuscule"

**Avec SpaCy**

In [5]:
# Passage du texte par le pipeline
doc_fr = nlp_fr(text_fr)

In [6]:
# Segmentation du texte et affichage du résulat
for sent in doc_fr.sents:
    print(sent)

Ceci est 1 première phrase. Puis j'en
écris une seconde.
pour finir en voilà une troisième sans mettre de majuscule


**Avec NLTK**

In [7]:
# Importation de la fonction permettant la segmentation en phrases
from nltk.tokenize import sent_tokenize

In [8]:
# Segmentation du texte et affichage du résultat
sentences = sent_tokenize(text_fr, language = 'french')
for sent in sentences:
    print(sent)

Ceci est 1 première phrase.
Puis j'en écris une seconde.
pour finir en voilà une troisième sans mettre de majuscule


### Segmentation de texte en tokens

La segmentation peut-être plus fine qu'une segmentation en phrases. Elle peut se faire en tokens. Un token peut correspondre à un mot, un chiffre, une ponctuation ou un symbole. Il est aussi possible de segmenter en n tokens successifs (on parle de n-grammes).

In [9]:
# Création de la phrase à tokeniser
text_fr = "Les tokens peuvent être des symboles $ ++, des chiffres 7 99, de la ponctuation !? des mots."

**SpaCy**

In [10]:
# Passage du texte par le pipeline
doc_fr = nlp_fr(text_fr)

In [11]:
# Tokenisation de la phrase et affichage du résultat
words = [w.text for w in doc_fr]
print(words)

['Les', 'tokens', 'peuvent', 'être', 'des', 'symboles', '$', '+', '+', ',', 'des', 'chiffres', '7', '99', ',', 'de', 'la', 'ponctuation', '!', '?', 'des', 'mots', '.']


**Avec NLTK**

In [12]:
# Importation de la fonction de tokenisation
from nltk.tokenize import word_tokenize

In [13]:
# Tokenisation de la phrase et affichage du résultat
words = word_tokenize(text_fr, language = 'french')
print(words)

['Les', 'tokens', 'peuvent', 'être', 'des', 'symboles', '$', '++', ',', 'des', 'chiffres', '7', '99', ',', 'de', 'la', 'ponctuation', '!', '?', 'des', 'mots', '.']


**Génération de n-grammes avec NLTK**

In [14]:
# Importation de la fonction permettant de générer les n-grammes
from nltk.util import ngrams

In [15]:
# Tokenisation d'une phrase test
words = word_tokenize("Le NLP avec NLTK, c'est génial!")

In [16]:
# Génération et affichage de bi-grammes à partir de notre phrase test tokenisée 
bigrams=ngrams(words,2)
print(list(bigrams))

[('Le', 'NLP'), ('NLP', 'avec'), ('avec', 'NLTK'), ('NLTK', ','), (',', "c'est"), ("c'est", 'génial'), ('génial', '!')]


In [17]:
# Génération et affichage de tri-grammes à partir de notre phrase test tokenisée 
trigrams=ngrams(words,3)
print(list(trigrams))

[('Le', 'NLP', 'avec'), ('NLP', 'avec', 'NLTK'), ('avec', 'NLTK', ','), ('NLTK', ',', "c'est"), (',', "c'est", 'génial'), ("c'est", 'génial', '!')]


## Extraction d'informations

### Part-Of-Speech Tagging

Cette tâche consiste à associer un mot à sa classe morphosyntaxique (nom, verbe, adjectif,...).

In [18]:
# Création de phrases test, une en français et une en anglais
text_fr = "Je vais au parc avec mon chien"
text_en = "I go to the park with my dog"

**Avec SpaCy**

In [19]:
# Passage des phrases par leur pipeline respectif
doc_fr = nlp_fr(text_fr)
doc_en = nlp_en(text_en)

In [20]:
# Affichage de chaque token de la phase française suivi de son tag 
for token in doc_fr:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

Word : Je, , Tag : PRON
Word : vais, , Tag : AUX
Word : au, , Tag : PRON
Word : parc, , Tag : NOUN
Word : avec, , Tag : ADP
Word : mon, , Tag : DET
Word : chien, , Tag : NOUN


In [21]:
# Affichage de chaque token de la phase anglaise suivi de son tag 
for token in doc_en:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

Word : I, , Tag : PRP
Word : go, , Tag : VBP
Word : to, , Tag : IN
Word : the, , Tag : DT
Word : park, , Tag : NN
Word : with, , Tag : IN
Word : my, , Tag : PRP$
Word : dog, , Tag : NN


**Avec NLTK**

In [22]:
# Importation de la fonction de taggage
from nltk import pos_tag

In [23]:
# Tokenisation de la phrase anglaise
tokens_en = word_tokenize(text_en)

In [24]:
# Taggage des tokens et affichage du résultat
tags_en = pos_tag(tokens_en)
print (tags_en)

[('I', 'PRP'), ('go', 'VBP'), ('to', 'TO'), ('the', 'DT'), ('park', 'NN'), ('with', 'IN'), ('my', 'PRP$'), ('dog', 'NN')]


### Reconnaissance d'entités nommées (NER)

Cela consiste à reconnaître les mots d’un texte qui correspondent à des concepts catégorisables (noms de personnes, lieux, organisations,...).

In [25]:
# Création d'une phrase test
text_en = "Mark Elliot Zuckerberg (born May 14, 1984) is a co-founder of Facebook."

**Avec SpaCy**

In [26]:
# Passage de la phrase test par le pipeline
doc_en = nlp_en(text_en)

In [27]:
# Affichage de chaque token et du type d'entité si une entité a été reconnue
for token in doc_en:
    print('Word : {0}, , Entity : {1}' .format(token.text, token.ent_type_))

Word : Mark, , Entity : PERSON
Word : Elliot, , Entity : PERSON
Word : Zuckerberg, , Entity : PERSON
Word : (, , Entity : 
Word : born, , Entity : 
Word : May, , Entity : DATE
Word : 14, , Entity : DATE
Word : ,, , Entity : DATE
Word : 1984, , Entity : DATE
Word : ), , Entity : 
Word : is, , Entity : 
Word : a, , Entity : 
Word : co, , Entity : 
Word : -, , Entity : 
Word : founder, , Entity : 
Word : of, , Entity : 
Word : Facebook, , Entity : ORG
Word : ., , Entity : 


**Avec NLTK**

In [28]:
# Importation de la fonction de NER
from nltk import ne_chunk 

In [29]:
# Tokenisation de la phrase test
tokens_en = word_tokenize(text_en)

In [30]:
# Taggage de la phrase tokenisée
tags_en = pos_tag(tokens_en)

In [31]:
# Application de la fonction de NER sur les tokens taggés et affichage du résultat
ner_en = ne_chunk(tags_en)
print (ner_en)

(S
  (PERSON Mark/NNP)
  (PERSON Elliot/NNP Zuckerberg/NNP)
  (/(
  born/VBN
  May/NNP
  14/CD
  ,/,
  1984/CD
  )/)
  is/VBZ
  a/DT
  co-founder/NN
  of/IN
  (GPE Facebook/NNP)
  ./.)
