# Syntaxe et Analyse Syntaxique (Parsing)

Ce module explore comment les machines comprennent la structure grammaticale des phrases. Nous allons passer de l'identification des mots individuels (PoS) à l'analyse des relations complexes entre eux (Parsing).

**Objectifs :**

1. **PoS Tagging** : Identifier la nature des mots (Nom, Verbe, etc.).

2. **Chunking** : Grouper les mots en syntagmes (Groupe Nominal).

3. **Dependency Parsing** : Comprendre les relations (Sujet, Objet).

4. **NER** : Identifier les entités réelles (Lieux, Organisations).

## 1. Part of Speech (PoS) Tagging

Le PoS est le processus d'attribution d'une catégorie grammaticale à chaque mot.

* **Tokenisation** : Division du texte en unités (tokens).

* **Tagging** : Attribution de l'étiquette (ex: `NN` pour Nom, `VB` pour Verbe).

Nous allons comparer deux bibliothèques populaires : **NLTK** et **SpaCy**.

In [1]:
# avec nltk
from nltk.tokenize import word_tokenize
from nltk import pos_tag

text = "Every part of our speech can be decomposed by tokens"
words = word_tokenize(text)

pos_tags = pos_tag(words)

print("\nresultat PoS tagging avec nltk:")
for word, pos_tag in pos_tags:
    print(f"{word}: {pos_tag}")



resultat PoS tagging avec nltk:
Every: DT
part: NN
of: IN
our: PRP$
speech: NN
can: MD
be: VB
decomposed: VBN
by: IN
tokens: NNS


In [2]:
#avec spacy
import spacy
nlp = spacy.load("en_core_web_sm")

doc = nlp(text)

print("resultat PoS tagging avec spacy:")
for token in doc:
    print(f"{token.text}: {token.pos_}")

resultat PoS tagging avec spacy:
Every: DET
part: NOUN
of: ADP
our: PRON
speech: NOUN
can: AUX
be: AUX
decomposed: VERB
by: ADP
tokens: NOUN


*Source code : `pos_tag.py`*

## 2. Chunking (Analyse de surface)

Une fois les mots étiquetés, nous pouvons les regrouper en **syntagmes** (chunks). Cela permet d'identifier des blocs de sens, comme un "Groupe Nominal" (NP).

Dans l'exemple ci-dessous, nous définissons une grammaire pour capturer un déterminant, suivi d'adjectifs, suivi d'un nom.

In [3]:
from nltk.tokenize import word_tokenize
from nltk import pos_tag, RegexpParser

text = "If the party was over and our time on Earth was through"

tokens = word_tokenize(text)
tags = pos_tag(tokens)

print(f"Tags initiaux : {tags}\n")

grammar = "NP: {<DT>?<JJ>*<NN>}"

chunk_parser = RegexpParser(grammar)

tree = chunk_parser.parse(tags)

print("Résultat du Chunking (Arbre sous forme texte) :")
print(tree)

Tags initiaux : [('If', 'IN'), ('the', 'DT'), ('party', 'NN'), ('was', 'VBD'), ('over', 'RB'), ('and', 'CC'), ('our', 'PRP$'), ('time', 'NN'), ('on', 'IN'), ('Earth', 'NN'), ('was', 'VBD'), ('through', 'IN')]

Résultat du Chunking (Arbre sous forme texte) :
(S
  If/IN
  (NP the/DT party/NN)
  was/VBD
  over/RB
  and/CC
  our/PRP$
  (NP time/NN)
  on/IN
  (NP Earth/NN)
  was/VBD
  through/IN)


*Source code : `chunking.py`*

## 3. Analyse de Dépendance (Dependency Parsing)

Contrairement au Chunking qui groupe les mots, l'analyse de dépendance relie les mots entre eux pour comprendre "qui fait quoi".

* **Head** : Le mot principal (ex: le verbe).

* **Child** : Le mot qui en dépend (ex: le sujet).

In [4]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "Autonomous cars shift insurance liability toward manufacturers"
doc = nlp(text)

print(f"{'MOT':<15} {'RELATION':<12} {'TÊTE (HEAD)':<15}")
print("-" * 45)

for token in doc:
    print(f"{token.text:<15} {token.dep_:<12} {token.head.text:<15}")


MOT             RELATION     TÊTE (HEAD)    
---------------------------------------------
Autonomous      amod         cars           
cars            nsubj        shift          
shift           ROOT         shift          
insurance       compound     liability      
liability       dobj         shift          
toward          prep         shift          
manufacturers   pobj         toward         


*Source code : `dependency_parsing.py`*

## 4. Reconnaissance d'Entités Nommées (NER)

Le NER dépasse la grammaire pour toucher au sens. Il identifie et classe des objets du monde réel (Entreprises, Pays, Dates, Montants).

In [5]:
import spacy

nlp = spacy.load("en_core_web_sm")

text = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp(text)

print(f"{'ENTITÉ':<20} {'LABEL':<10} {'EXPLICATION'}")
print("-" * 50)

for ent in doc.ents:
    print(f"{ent.text:<20} {ent.label_:<10} {spacy.explain(ent.label_)}")

ENTITÉ               LABEL      EXPLICATION
--------------------------------------------------
Apple                ORG        Companies, agencies, institutions, etc.
U.K.                 GPE        Countries, cities, states
$1 billion           MONEY      Monetary values, including unit


*Source code : `ner.py`*