# (Pré-)-Traitement Automatique des Langues

Suivant le contexte, le terme de *Traitement Automatique des Langues* désigne les traitements de préparation (ou pré-traitements) que l'on applique au texte pour le rendre traitable par une application de "plus haut niveau" (e.g. découper en phrases un texte, pour déterminer les phrases les plus saillantes à faire apparaître dans un résumé). Le terme englobe aussi la désignation de ces applications de plus haut niveau ou avec utilisateur humain.

### Objectif  
* analyser et interpréter les sorties et la qualité d'analyseurs linguistiques 
* découvrir les caractéristiques (en particulier linguistiques) d'une donnée langagière qui peuvent influer sur les traitements automatiques et la qualité de ceux-ci 



### Thèmes abordés

* (Pré-)traitements linguistiques
  * Tokenization, Sentence segmentation 
  * POS tagging, Morphology, Lemmatization, Dependency parsing, 
  * Named Entities Recognition (NER)
  * (Language Detection) 
* Mise en application 
  * Langue : Français 
  * Types de texte : Dépèches journalistiques, Tweets, romans et textes juridiques


### Consignes de travail

Réponse aux questions dans la section "votre réponse". Des réponses brèves et simples sont attendues. 

Vous avez le droit de modifier le code pour vous permettre de plus facilement répondre aux questions.




---
# Installation de l'environnement : chargement des modèles et des données




Executer le code suivant

In [None]:
# installation de spacy
%pip install spacy

In [None]:
# Téléchargement d'un modèle pour le traitement du français

!python -m spacy download fr_core_news_sm


In [1]:
# Importation de la bibliothèque spaCy 
import spacy

# Chargement du modèle pour le français
nlp = spacy.load("fr_core_news_sm")

# Importation d'une liste d'exemple de phrases en français
from spacy.lang.fr.examples import sentences 

# Analyses linguistiques du français 

Par la suite nous utiliserons principalement la bibliothèque spaCy et sa méthode `nlp` que l'on applique à du texte brut `doc`. Avec cette méthode, spaCy réalise un certain nombre de traitements par défaut disponible dans le modèle chargé tel que la segmentation d'un texte en phrases, la tokenization, l'analyse grammaticale et morphologique des mots (dont lemmatisation), l'analyse en constituants syntaxiques, l'analyse en dépendance syntaxique, la reconnaissance des entités nommées. On désignera par `spacy_doc` l'objet qui correspond au résultat d'analyse (méthode `nlp`) de spaCy sur le texte `doc`.

Parcourir l'objet spacy_doc comme une liste python fournira les informations rattachées à chaque token du texte. `spacy_doc.noun_chunks` donnera des informations sur les constituants syntaxiques. `spacy_doc.ents` donnera des informations sur les entités nommées détectées dans le texte.



## Tokénisation

Un **token** est une instance d'une séquence de caractères dans un document donné qui constitue une unité pour une quelconque raison (e.g. délimitée par des espaces). Les tokens qui ont une réalité grammaticale (e.g. Nom, Verbe, Adjectif...) peuvent être considérés comme des instances de **mots**. Le mot a une réalité linguistique (ses caractères sont des lettres de l'alphabet plus l'espace et le tiret). 



### QUESTION

Le code suivant calcule le nombre de phrases et de tokens obtenus. 

* Faire afficher pour chaque phrase les tokens obtenus. 


In [None]:
# import spaCy and define a method to tokenize via spacy
# en fait, la méthode récupère seulement la tokenization, mais la méthode 'nlp' 
# produit plusieurs analyses (on le verra plus tard)
# machine learning based model
import spacy
spacy_tokenize = lambda text: [token.text for token in nlp(text)]



# compte le nombre de phrases exemples et le nombre de tokens total obtenu 


spacy_tokens = list()
for i in range (0, len(sentences)):
 
  spacy_tokens.extend(spacy_tokenize(sentences[i]))
print('len_sentences=',len(sentences),' ; len_spacy_tokens=', len(spacy_tokens))
print()

#TODO affichage des tokens de chaque phrase




## Analyse lexicale


### Token vs Mot vs Formes morphologiques vs Lemme

Le **mot** peut avoir plusieurs **formes (morphologiques)** lesquelles renseignent sur le genre, le nombre, le mode/temps; par exemples "feuille" et "feuilles" ou "blanchir" et "blanchiront". Ces variations sont propres à chaque **classe grammaticale** (e.g. nom, verbe, adjectif). On appelle **lemme** la forme référente d'un mot. "feuille" et "blanchir" sont des formes référentes.

On appelle ces variations morphologiques des **flexions** (morphologie flexionnelle). Il existe d'autres formes de variations à base d'**affixe** (préfixe et suffixe). Ainsi "feuillage" et "feuille" sont liées par une relation de **dérivation** (morphologie dérivationnelle) et de même pour "blanc", "blanchiment" et "blanchir". 

Une **unité lexicale** est une unité de sens dans une langue. Ces unités peuvent être composés d'un ou plusieurs mots. Ainsi "pomme de terre" est aussi une **unité lexicale**. 


### Propriétés associées à un token mot dans Spacy

Les modèles de Spacy produisent de base une analyse grammaticale, morphologique et syntaxique des mots pour plusieurs langues.
Les propriétés suivantes informent de différents attributs (en particulier linguistiques associées) à chaque token.
* `text`: The original word text
* `lemma_`: The base form of the word.
* `pos_`: The simple UPOS part-of-speech tag.
* `tag_`: The detailed part-of-speech tag with morphological information.
* `dep_`: Syntactic dependency, i.e. the relation between tokens.
* `shape_`: The word shape – capitalization, punctuation, digits.
* `is_alpha`: Is the token an alpha character?
* `is_stop`: Is the token part of a stop list, i.e. the most common words of the language?

Au sujet de la propriété `is_stop`, en français on parle de _mot outil_ ou de _mot vide_, vide de sens, qui ne permettent pas d'analyser le contenu "thématique" de la phrase. Ces mots sont en général des listes fermées et comptent les déterminants, les prépositions, et quelques adverbes. Statistiquement ils sont plus fréquents que d'autres (cf. la loi de zipf dans un prochain cours). Selon les usages, les mots vides peuvent être utiles. Par exemple, en analyse d'opinion, les adverbes de négation ou d'emphases jouent un rôle important. 



### QUESTIONS 
Le code suivant permet d'appliquer un modèle Spacy offrant des traitements TAL à un document (ici une phrase) donné.
* Ajouter les propriétés permettant d'observer les résultats de la lemmatisation, de l'étiquetage grammatical, de l'analyse morphologique et de l'analyse en dépendance syntaxique. 
* Consulter l'analyse des 5 premières phrases exemples de spacy (0 à 4). Donnez un exemple d'erreur de lemmatisation, d'erreur d'étiquetage grammatical, d'erreur d'analyse morphologique (idéalement dans des phrases différentes).

In [None]:
# Ici le document est la 1ère phrase (sentence 0) des exemples de Spacy 
# de phrases écrites en français
doc = sentences[2]

# exécution des traitements en une seule commande
spacy_doc = nlp(doc)

# affichage de la phrase
print(spacy_doc.text)

# affichage de quelques résultats d'analyse 
# et ce, dans une pandas dataframe pour améliorer le visuel
# importation de la bibliothèque pandas
import pandas as pd
# spécifie qu'au niveau de l'affichage il n'y a pas de limites, cad affiche toutes les colonnes et toutes les lignes
pd.set_option("display.max_rows", None, "display.max_columns", None)
# pandas travaillant avec des listes python, on transforme le résultat d'analyse de spacy en liste
spacy_tokens_as_list = [(token.text, token.is_stop) for token in spacy_doc]
pd.DataFrame(spacy_tokens_as_list, columns=['Token', 'is_stop'])

### VOTRE RÉPONSE

**TODO**


In [None]:
#...

## Analyse syntaxique

Si l'analyse lexicale vise à décrire le mot, la syntaxe a pour objet de décrire les groupes de mots et les relations entre les mots ou groupes de mots.

En syntaxe, il existe deux modèles d'analyse de la structure syntaxique:
- L'**analyse en constituants** qui met en avant des groupes de mots correspondants à des catégories d'objets syntaxiques : groupe nominal, groupe verbal, groupe prépositionnel... La catégorie vient de la nature grammaticale d'un mot directeur dans le groupe de mots. Ces groupes ont une structure récursive (e.g. un groupe nominal peut contenir un groupe prépositionnel... "L'histoire de ma vie" contient "de ma vie"...). Suivant les écoles, on parle d'**analyse syntagmatique** (qui produit des  **syntagmes**) (et en anglais on parle de _chunking_ qui produit des _chunks_).
- L'**analyse en dépendances**  (_dependency parsing_ en anglais) qui met en avant les fonctions jouées par des têtes lexicales (e.g. sujet, objet, modifieur...) vis-à-vis d'autres mots avec lesquels ils entretiennent des relations directes. Les relations entre les mots dessinent un arbre orienté. Le verbe de la proposition principale joue le rôle de la racine. Par exemple, dans la phrase "L'histoire de ma vie se résume simplement". La racine est le verbe "résume" à partir duquel au moins deux relations directes pourront partir : l'une vers la tête du sujet à savoir le nom "histoire" et l'autre vers la tête du complément de manière "simplement". 

Les constituants peuvent jouer le rôle de termes candidats pour indexer de l'information. 

L'arbre syntaxique peut être exploitée en simplification de phrases (les mots les plus proches de la racine sont les plus importants) ou bien dans des systèmes de question-réponse pour apparier un verbe d'une question avec des arguments possibles dans des phrases contenant une réponse possible.

Pour en savoir plus sur l'analyse syntaxique, vous pouvez consulter les chapitres 12 "Constituency Grammars", 13 "Constituency Parsing" et 14 "Dependency Parsing" de [Speech and Language Processing par Dan Jurafsky and James H. Martin](https://web.stanford.edu/~jurafsky/slp3). 

### QUESTIONS : Analyse en constituants
Le code suivant permet d'observer les 5 premières phrases exemples. 

* A la main, identifier pour chacune des phrases les syntagmes nominaux maximums qui les composent. Le terme 'nominal' dans 'syntagme nominal' signifie que la tête sémantique (le mot le plus important du syntagme) est un nom. 'Maximum' signifie qu'il n'existe pas de constituants nominaux qui les englobent.




In [None]:
# Observation des 5 premières phrases exemples
for i in range(0,5):
  spacy_doc = nlp(sentences[i])
  print(i, spacy_doc.text)

* Le code suivant réalise l'identification automatique des syntagmes nominaux. Quels types d'erreurs rencontrez-vous ? Les syntagmes nominaux sont-ils raccords avec l'analyse grammaticale produite sur les tokens mots ?

In [None]:
#spacy_noun_chunks_as_list = [(chunk.text,  chunk.root.text, chunk.root.dep_,
#            chunk.root.head.text) for chunk in spacy_doc.noun_chunks]
#pd.DataFrame(spacy_noun_chunks_as_list, columns=['text', 'root', 'dep', 'head'])
for i in range(0,5):
  spacy_doc = nlp(sentences[i])
  print('sentence',i, spacy_doc.text)
  for chunk in spacy_doc.noun_chunks:
    print('chunk:', chunk.text) #, chunk.root.text, chunk.root.dep_, chunk.root.head.text)   
  print()

### VOTRE RÉPONSE

**TODO**



### QUESTIONS : Analyse en dépendance


* Avant d'exécuter le code ci-dessous, identifiez à la main les 3 mots que vous estimez le plus important dans les  5 premières phrases exemples de spacy (0 à 4). Vous pouvez appliquer la stratégie de rechercher les têtes lexicales en priorisant d'abord le verbe, puis le sujet, puis l'objet, puis les compléments.

* Le code suivant permet de visualiser la structure syntaxique en dépendance pour chacune des 5 premières phrases exemples. Les analyses vous semblent-elles correctes ? Donnez deux exemples d'erreurs distinctes. Malgré les erreurs, retrouvez-vous vos mots dans les 3 premiers niveaux de l'arbre (le 1er niveau est la racine) ?  

In [None]:

# import d'une bibliothèque qui permet de visualiser les résultats de spaCy
# ici les liens de dépendances entre les mots
from spacy import displacy

for i in range(0,5):
  spacy_doc = nlp(sentences[i])
  displacy.render(spacy_doc, style='dep', jupyter=True)

### VOTRE RÉPONSE

**TODO**

## Reconnaissance d'entités nommées

Les entités nommées sont des expressions qui désignent des noms de lieux (label `LOC`), de personnes (label `PERS`), d'organisation (label `ORG`), ou d'évènement (label `MISC`). Selon les systèmes, les dates/heures et les mesures peuvent aussi être considérées comme des entités nommées.



D'un point de vue applicatif, le besoin est parfois d'identifier quelles entités sont en présence. D'autres fois, il peut importer de déterminer les positions/offsets (début/fin en termes de numéro de caractère) de l'entité nommée dans un texte.

### QUESTIONS

Le code suivant permet de visualiser entités nommées présentes dans le document analysé.
* Listez les types d'entités (_labels_) présentes dans les exemples
* Consultez l'analyse des 10 premières phrases exemples de spacy (0 à 9). Trouvez-vous des erreurs de délimitation d'entités nommées ? Dans l'étiquetage du type des entités ? Eventuellement, donner quelques exemples.
* Jetez un oeil sur les performances (section *accuracy evaluation*) des modèles pour le français https://spacy.io/models/fr pour avoir une idée de la performance supposée de ceux-ci. Il ne vous est pas demandé de calculer les performances sur les données exemples !

In [None]:
# le code suivant permet de visualiser entités nommées présentes dans le document analysé
# les offsets et le type d'entité sont aussi fournis 
for i in range(0,9):
  spacy_doc = nlp(sentences[i])

  # pour chaque entité nommé détectée dans la phrase courante
  for ent in spacy_doc.ents:

    # affiche le texte de l'entité nommée, ses offsets, et son "type"
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

  # finalement affiche la phrase en marquant visuellement les zones de textes 
  # où une entité nommée a été repérée
  displacy.render(spacy_doc, style='ent', jupyter=True)

### VOS RÉPONSES

**TODO**


## Expérience personnelle vs performances attestées

L'étiquetage grammaticale consiste à donner une étiquette à chacun des mots. Tous les mots auront une étiquette. La performance correspondra alors à combien d'étiquettes de mots sont correctement trouvés sur le nombre total de mots. On parlera de mesure d'**exactitude** (_accuracy_ en anglais, souvent abrégé en _acc_) dans ce cas.

La reconnaissance des entités nommées est une tâche un peu différente. A l'instar de l'étiquetage grammatical, elle peut être vue comme mettre une étiquette "entité nommée" à certains des mots. Mais à la différence de l'étiquetage grammatical, il s'agit de déterminer les mots qui doivent recevoir une étiquette "entité nommée". Dans cette tâche, on évalue d'une part la capacité à retrouver TOUS LES MOTS qui portent une étiquette "entité nommée" ; on parlera de mesure de **rappel** (_recall_). Et d'autre part, on évalue la qualité de la prédiction (sur les mots que l'on dit porter une étiquette "entité nommée", combien sont correctes) ; on parlera de mesure de **précision** (_precision_) qui est similaire à la notion d'exactitude. 

Comme c'est souvent plus simple d'avoir un seul score plutôt que deux, on utilise la mesure de **F-score** qui correspond à une moyenne (harmonique) des scores de précision et de rappel.

Si ce n'est pas clair... https://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel

### QUESTIONS
* Jeter un oeil sur les performances (section *accuracy evaluation*) du modèle utilisé pour le français https://spacy.io/models/fr pour avoir une idée de la performance supposée de celui-ci sur les tâches d'analyse linguistique (tokenization, étiquetage grammatique, lemmatisation, analyse morphologique, analyse en dépendance et reconnaissance d'entités nommées). Est-ce raccord avec ce que vous avez observé ?


### VOTRE RÉPONSE

**TODO**



---
# Analyse de textes de genres différents

Le code suivant télécharge dans un répertoire `data` un corpus de phrases issus de 4 genres différents : textes parlementaires européens (_legal europarl_), dépèches journalistiques (_news_wikinews_), littératique romanesque (_roman verne_), et des tweets de twitter (_tweets twitter_).

Exécuter le.


In [None]:
!mkdir data
!wget -nc https://raw.githubusercontent.com/nicolashernandez/teaching_nlp/main/data/fr_raw_25000sentences_4genres.zip -P data
!unzip data/fr_raw_25000sentences_4genres.zip -d data


## QUESTIONS

Le code suivant charge tour à tour chacun des corpus et traite les 5 premières phrases de chaque corpus. Deux résultats de traitement sont observés : la tokenization et la reconnaissance d'entités nommées à l'aide de spaCy et du modèle pour le français précédemment utilisé.

* Quels problèmes de tokenization relevez-vous suivant les genres de texte ? Y-a-t'il des genres pour lesquels la tokenization fonctionne mieux que d'autres ?
* Mêmes questions pour la reconnaissance des entités nommées.
* Quels corpus (et donc quels genres de texte) ont servi de données d'entraînement pour construire le modèle français utilisé ici avec spaCy (cf. https://spacy.io/models/fr) ? Est-ce que cela peut expliquer les performances observées ?  


In [1]:
pd.set_option("display.max_rows", None, "display.max_columns", None)
filenames = ['legal_europarl', 'news_wikinews', 'roman_verne', 'tweets_twitter']
for filename in filenames:
  with open("data/"+filename+".txt", 'r', encoding='UTF-8') as file:
    i = 0
    print('-->', filename.upper())
    print()
    for line in file:
        doc = line.rstrip()
        spacy_doc = nlp(doc)
        print('Sentence',i,':', doc)
        print ('spacy_tokenize:', [token.text for token in spacy_doc])
        if spacy_doc.ents: displacy.render(spacy_doc, style='ent', jupyter=True)
        #spacy_doc_as_list = [(token.text, token.lemma_, token.pos_) for token in spacy_doc]
#            , token.tag_,token.shape_, token.is_alpha, token.is_stop) for token in doc]
        #print (pd.DataFrame(spacy_doc_as_list, columns=['Token', 'Lemma', 'POS']))
        print ()
        i += 1
        if i==5: break
    print ('------------------------------------------------------------------')

NameError: name 'pd' is not defined


## VOTRE RÉPONSE

**TODO**
