# TP : Annotations en parties du discours avec SpaCy

## Partie 1 : Installation

SpaCy est une bibliothèque Python qui permet de réaliser de l'analyse grammaticale et syntaxique.

**Exercices**:
1. Installez SpaCy grâce à `pip` et téléchargez le modèle français `fr_core_news_sm` (voir ci-dessous pour la marche à suivre).
2. Importez SpaCy et chargez le modèle français.

In [33]:
!python -m spacy download fr_core_news_lg

Collecting fr-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_lg-3.8.0/fr_core_news_lg-3.8.0-py3-none-any.whl (571.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m571.8/571.8 MB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:03[0m
[?25hInstalling collected packages: fr-core-news-lg
Successfully installed fr-core-news-lg-3.8.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_lg')


In [22]:
import spacy

print("Commandes d'installation à exécuter dans le terminal pour obtenir un modèle donné:")
print("!python -m spacy download fr_core_news_sm")
print("")

# Chargement d'un modèle donné
nlp = spacy.load("fr_core_news_md")

Commandes d'installation à exécuter dans le terminal pour obtenir un modèle donné:
!python -m spacy download fr_core_news_sm



# Partie 2: Analyse d'une phrase

Spacy permet grâce à son objet `nlp` d'appliquer une pipeline de traitement à un texte, et qui permet d'extraire ainsi son lemme, son analyse morphologique, et son POS.

On s'en sert ainsi:

In [23]:
phrase = "Le chat noir dort paisiblement sur le vieux canapé."

doc = nlp(phrase)

print("Analyse détaillée de la phrase:")
print("-" * 60)
for token in doc:
    print(f"Texte: {token.text:10} Lemme: {token.lemma_:10} POS: {token.pos_:8} DEP: {token.dep_:12}")

Analyse détaillée de la phrase:
------------------------------------------------------------
Texte: Le         Lemme: le         POS: DET      DEP: det         
Texte: chat       Lemme: chat       POS: NOUN     DEP: nsubj       
Texte: noir       Lemme: noir       POS: ADJ      DEP: amod        
Texte: dort       Lemme: dormir     POS: VERB     DEP: ROOT        
Texte: paisiblement Lemme: paisiblement POS: ADV      DEP: advmod      
Texte: sur        Lemme: sur        POS: ADP      DEP: case        
Texte: le         Lemme: le         POS: DET      DEP: det         
Texte: vieux      Lemme: vieux      POS: ADJ      DEP: amod        
Texte: canapé     Lemme: canapé     POS: NOUN     DEP: obl:arg     
Texte: .          Lemme: .          POS: PUNCT    DEP: punct       


**Exercices**:

1. Soit la phrase "Le chien dort dehors et le chat le regarde".
2. Comptez le nombre de `NOUN` dans la phrase grâce à Spacy, et calculez manuellement l'accuracy.
3. Créez une fonction `count_pos_freq` qui étant donné un texte : 
{"NOUN": n1, "VERB": n2}... qui compte la fréquence du nombre d'occurences de chaque POS dans la phrase.
4. **Bonus**: Créez une fonction `liste_lemme` qui étant donné un texte fait une liste des lemmes présents dans la phrase.

In [32]:
### Question 1

phrase = "Le chien dort dehors et le chat le regarde"

doc = nlp(phrase)

for token in doc:
    print(f"Texte: {token.text:10} Lemme: {token.lemma_:10} POS: {token.pos_:8} DEP: {token.dep_:12}")


Texte: Le         Lemme: le         POS: DET      DEP: det         
Texte: chien      Lemme: chien      POS: NOUN     DEP: nsubj       
Texte: dort       Lemme: dormir     POS: VERB     DEP: ROOT        
Texte: dehors     Lemme: dehors     POS: ADP      DEP: advmod      
Texte: et         Lemme: et         POS: CCONJ    DEP: cc          
Texte: le         Lemme: le         POS: DET      DEP: det         
Texte: chat       Lemme: chat       POS: NOUN     DEP: conj        
Texte: le         Lemme: le         POS: DET      DEP: obj         
Texte: regarde    Lemme: regarde    POS: NOUN     DEP: xcomp       


In [None]:
### Question 2
number_noun = 0
for token in doc:
    if token.pos_ == "NOUN":
        number_noun += 1

print(f"Number of nouns: {number_noun}")



Number of nouns: 1


In [26]:
### Question 3 ###
phrase = "Le chien dort dehors et le chat le regarde"

doc = nlp(phrase)

def count_pos_freq(phrase: str) -> dict[str, int]:
    """Given a sentence, compute the number
    of ocurences of all the encountered POS.

    Args:
        phrase (str): The sentence to analyze.

    Returns:
        dict[str, int]: The number per POS.
    """
    doc = nlp(phrase)
    nbr_word = len(phrase.split())

    freq_dict = {}

    for token in doc:
        if token.pos_ in freq_dict:
            freq_dict[token.pos_] += 1/nbr_word
        else:
            freq_dict[token.pos_] = 1/nbr_word

    return freq_dict

count_pos_freq(phrase="Le chien mange bien et dort")

{'DET': 0.16666666666666666,
 'NOUN': 0.16666666666666666,
 'VERB': 0.3333333333333333,
 'ADV': 0.16666666666666666,
 'CCONJ': 0.16666666666666666}

## Partie 3 : Application pour l'étude d'un texte

**Exercices**:
1. Chargez l'extrait de Victor Hugo fourni dans le fichier `data/notre_dame.txt`.
2. Combien de phrases contient-il ? Combien de tokens (on utilisera pour définir tokens = mots et phrases=séparées par une ponctuation.)?
3. Proposez une pipeline de text-cleaning adéquate après avoir visualisé les données.
4. Appliquez la fonction `count_pos_freq` sur le texte (ou une partie du texte, calibrez en fonction des performances de votre machine).
5. Chargez maintenant l'extrait `data/trois_mousquetaires.txt` d'Alexandre Dumas et appliquez la même méthode de nettoyage de données que pour le texte de Victor Hugo.
6. Appliquez `count_pos_freq` et comparez la différence de style entre les deux ouvrages.

In [68]:
import string
#### Question 1 ####
 
with open("data/notre_dame.txt") as f:
    notre_dame = f.read()

# Quick text cleaning
notre_dame = notre_dame.replace("\n", " ")

#### Question 2 ####
# On considère une phrase comme étant séparée par une ponctuation
# On découpe les phrases selon chacun des signes
PUNCTUATION = [".","!","?",";"]

nombre_phrases = 1

for letter in notre_dame:
    if letter in PUNCTUATION:
        nombre_phrases += 1

for punct in PUNCTUATION:
    notre_dame = notre_dame.replace(punct, " ")

print(f"Nombre de phrases: {nombre_phrases}")
print(f"Nombre de token: {len(notre_dame.split())}")

### Question 3 ###
CLEANING = ["--", "_"]
notre_dame = notre_dame.lower()

for symbol in CLEANING:
    notre_dame = notre_dame.replace(symbol, "")


Nombre de phrases: 339
Nombre de token: 4822


In [69]:
#### Question 4 ####

freq_notre_dame = count_pos_freq(notre_dame)

In [67]:
# On réalise le même traitement pour les trois mousquetaires

# On met dans une fonction toutes les étapes de nettoyage que l'on a réalisé

def clean_text(input_path: str, symbols_to_clean: list[str] = ["--", "_", "\n"]) -> str:
    """Given an input file, load the file and performs its cleaning.

    Args:
        input_path (str): The path to the data file.
        symbols_to_clean (list[str]): The list of symbols to remove from
            the string.

    Returns:
        str: The cleaned up file.
    """
    with open(input_path) as f:
        text = f.read()

    for symbol in symbols_to_clean:
        text = text.replace(symbol, " ")
    
    return text.lower()

trois_mousquetaires = clean_text("data/trois_mousquetaires.txt")

freq_mousquetaire = count_pos_freq(trois_mousquetaires)

In [74]:
### Comparaison entre les 2 ouvrages: on va créer un nouveau dictionnaire comparaison qui va calculer la différence relative entre les trois mousquetaires et Victor Hugo 
comparison = {}
for key, value in freq_notre_dame.items():
    comparison[key] = (value - freq_mousquetaire[key])/value*100


for key, value in comparison.items():
    print("----")
    print("----")
    print(f"'Le Bossu de Notre Dame' présente {round(value, 1)}% de {key} que 'Les trois mousquetaires'")


----
----
'Le Bossu de Notre Dame' présente 16.9% de NOUN que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente 29.0% de ADJ que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente 64.8% de SPACE que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente 5.4% de DET que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente -37.5% de PRON que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente -31.8% de VERB que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente -69.2% de ADV que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente 25.1% de NUM que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente -16.1% de CCONJ que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente -92.3% de SCONJ que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre Dame' présente 11.6% de ADP que 'Les trois mousquetaires'
----
----
'Le Bossu de Notre D