Ce notebook accompagne le post : "Handson de quelques tâches courantes en NLP" (ou sa version anglaise "Simple NLP tasks tutorial").

## Téléchargement des modèles SpaCy via le notebook

In [None]:
!python -m spacy download en # modèle anglais
!python -m spacy download fr # modèle français

## Importation des librairies SpaCy et NLTK et création des "language processing pipelines"

In [None]:
import spacy
import nltk

In [None]:
nlp_fr = spacy.load("fr")
nlp_en = spacy.load("en")

## Transformation de texte

### Segmentation de texte en phrases

Il s'agit de repérer le début et la fin de chaque phrase d'un texte pour pouvoir la segmenter.

In [None]:
# Création du texte à segmenter
text_fr = "Ceci est 1 première phrase. Puis j'en écris une seconde. pour finir en voilà une troisième sans mettre de majuscule"

**Avec SpaCy**

In [None]:
# Passage du texte par le pipeline
doc_fr = nlp_fr(text_fr)

In [None]:
# Segmentation du texte et affichage du résulat
for sent in doc_fr.sents:
    print(sent)

**Avec NLTK**

In [None]:
# Importation de la fonction permettant la segmentation en phrases
from nltk.tokenize import sent_tokenize

In [None]:
# Segmentation du texte et affichage du résultat
sentences = sent_tokenize(text_fr, language = 'french')
for sent in sentences:
    print(sent)

### Segmentation de texte en tokens

La segmentation peut-être plus fine qu'une segmentation en phrases. Elle peut se faire en tokens. Un token peut correspondre à un mot, un chiffre, une ponctuation ou un symbole. Il est aussi possible de segmenter en n tokens successifs (on parle de n-grammes).

In [None]:
# Création de la phrase à tokeniser
text_fr = "Les tokens peuvent être des symboles $ ++, des chiffres 7 99, de la ponctuation !? des mots."

**SpaCy**

In [None]:
# Passage du texte par le pipeline
doc_fr = nlp_fr(text_fr)

In [None]:
# Tokenisation de la phrase et affichage du résultat
words = [w.text for w in doc_fr]
print(words)

**Avec NLTK**

In [None]:
# Importation de la fonction de tokenisation
from nltk.tokenize import word_tokenize

In [None]:
# Tokenisation de la phrase et affichage du résultat
words = word_tokenize(text_fr, language = 'french')
print(words)

**Génération de n-grammes avec NLTK**

In [None]:
# Importation de la fonction permettant de générer les n-grammes
from nltk.util import ngrams

In [None]:
# Tokenisation d'une phrase test
words = word_tokenize("Le NLP avec NLTK, c'est génial!")

In [None]:
# Génération et affichage de bi-grammes à partir de notre phrase test tokenisée 
bigrams=ngrams(words,2)
print(list(bigrams))

In [None]:
# Génération et affichage de tri-grammes à partir de notre phrase test tokenisée 
trigrams=ngrams(words,3)
print(list(trigrams))

## Extraction d'informations

### Part-Of-Speech Tagging

Cette tâche consiste à associer un mot à sa classe morphosyntaxique (nom, verbe, adjectif,...).

In [None]:
# Création de phrases test, une en français et une en anglais
text_fr = "Je vais au parc avec mon chien"
text_en = "I go to the park with my dog"

**Avec SpaCy**

In [None]:
# Passage des phrases par leur pipeline respectif
doc_fr = nlp_fr(text_fr)
doc_en = nlp_en(text_en)

In [None]:
# Affichage de chaque token de la phase française suivi de son tag 
for token in doc_fr:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

In [None]:
# Affichage de chaque token de la phase anglaise suivi de son tag 
for token in doc_en:
    print('Word : {0}, , Tag : {1}' .format(token.text, token.tag_))

**Avec NLTK**

In [None]:
# Importation de la fonction de taggage
from nltk import pos_tag

In [None]:
# Tokenisation de la phrase anglaise
tokens_en = word_tokenize(text_en)

In [None]:
# Taggage des tokens et affichage du résultat
tags_en = pos_tag(tokens_en)
print (tags_en)

### Reconnaissance d'entités nommées (NER)

Cela consiste à reconnaître les mots d’un texte qui correspondent à des concepts catégorisables (noms de personnes, lieux, organisations,...).

In [None]:
# Création d'une phrase test
text_en = "Mark Elliot Zuckerberg (born May 14, 1984) is a co-founder of Facebook."

**Avec SpaCy**

In [None]:
# Passage de la phrase test par le pipeline
doc_en = nlp_en(text_en)

In [None]:
# Affichage de chaque token et du type d'entité si une entité a été reconnue
for token in doc_en:
    print('Word : {0}, , Entity : {1}' .format(token.text, token.ent_type_))

**Avec NLTK**

In [None]:
# Importation de la fonction de NER
from nltk import ne_chunk 

In [None]:
# Tokenisation de la phrase test
tokens_en = word_tokenize(text_en)

In [None]:
# Taggage de la phrase tokenisée
tags_en = pos_tag(tokens_en)

In [None]:
# Application de la fonction de NER sur les tokens taggés et affichage du résultat
ner_en = ne_chunk(tags_en)
print (ner_en)