# Présentation du POS tagging et chunking
---
_Démonstration simple en français avec la librairie spacy_

---

  1. POS tagging
  2. Chunking
---

### 1. POS tagging
- importation des libraries nécessaires

In [1]:
import spacy

_Chargement des règles de découpage et de taggage à partir du mode fr_core_news (https://spacy.io/models/fr)_

In [2]:
nlp = spacy.load("fr_core_news_sm")

_Application des tags à un exemple_

In [3]:
phrase = "Bonjour comment allez vous ?"
nlp_sentence = nlp(phrase)

In [4]:
for e in nlp_sentence:
    print(f"mot: {e} tag: {e.tag_}") 

mot: Bonjour tag: PROPN
mot: comment tag: ADV
mot: allez tag: VERB
mot: vous tag: PRON
mot: ? tag: PUNCT


---

### 2. Chunking
 _- découpe du texte en phrases_

In [5]:
exemple = nlp("Voila mes parents. Ils sont très heureux d'être ici.")
for phrase in exemple.sents:
    print(phrase)

Voila mes parents.
Ils sont très heureux d'être ici.


_- Extraction des composantes nominales des phrases du texte:_

In [6]:
for chunk in exemple.noun_chunks:
    print(chunk.text, " - ", chunk.label_)

Voila  -  NP
mes parents  -  NP
Ils  -  NP


_- Extractions des composantes verbales qui nécessite plus de configuration_

_Il sera fait appelle à la librairie textacy qui effectue des tâche de NLP comme du nettoyage en amont et aprés l'usage de Spacy_

In [7]:
import textacy

_Il est nécessaire de décrire les patterns qui nous interesse dans ce cas la:_

In [8]:
pattern = [{"POS": "ADV"}, {"POS": "VERB"}]

In [15]:
verb_phrases1 = textacy.extract.token_matches(exemple, patterns=pattern)
verb_phrases2 = textacy.extract.token_matches(nlp_sentence, patterns=pattern)

In [17]:
for verb_p in verb_phrases1:
    print(f"verb_phrase1: {verb_p}")
for verb_p in verb_phrases2:
    print(f"verb_phrase2: {verb_p}")

verb_phrase2: comment allez


_Toutes les formes de phrases ne correspondant pas au patterns décrit seront alors ignoré_

---