# TP : Implémentation de l'algorithme de Viterbi pour le POS Tagging


## Introduction

Dans ce TP, nous allons implémenter pas à pas l'algorithme de Viterbi pour l'étiquetage morphosyntaxique (POS Tagging). L'objectif est de comprendre comment trouver la séquence d'étiquettes grammaticales la plus probable pour une phrase.

**Vu la difficulté de l'algorithme, les fonctions ont été pré-réalisées.**

## Partie 1 : Préparation des données

### Exercice 1.1 : Corpus d'entraînement

Soit le corpus dans la variable `training_data`.

In [None]:
# Corpus d'entraînement
training_data = [
    [("Le", "DET"), ("chat", "NOUN"), ("mange", "VERB"), ("la", "DET"), ("souris", "NOUN")],
    [("La", "DET"), ("souris", "NOUN"), ("mange", "VERB"), ("le", "DET"), ("fromage", "NOUN")],
    [("Le", "DET"), ("chien", "NOUN"), ("court", "VERB"), ("vite", "ADV")],
    [("Un", "DET"), ("oiseau", "NOUN"), ("chante", "VERB"), ("bien", "ADV")],
    [("La", "DET"), ("fille", "NOUN"), ("lit", "VERB"), ("un", "DET"), ("livre", "NOUN")]
]

**Questions**:
1. Lister toutes les étiquettes différentes
2. Compter le nombre total de phrases
3. Identifier le mot le plus fréquent

## Partie 2 : Calcul des probabilités

### Exercice 2.1 : Calcul du vecteur des distributions initiales

**Question** : 
1. Que mesure le vecteur des probabilités intiales $\pi$ dans le contexte de l'algorithme de Viterbi? Comment peut-on le calculer?
2. Compléter la fonction `compute_initial_probabilities` qui prend en entrée le training data et qui output un dictionaire qui contient pour chaque POS la probabilité d'une phrase de commencer par ce POS.


In [None]:
def compute_initial_probabilities(training_data):
    """
    Calcule P(tag|START) - la probabilité qu'une phrase commence par une étiquette donnée.
    """
    initial_counts = {}
    total_sentences = len(training_data)
    
    for sentence in training_data:
        if sentence:  # si la phrase n'est pas vide
            first_tag = sentence[0][1]  # étiquette du premier mot
            # À compléter : compter les occurrences de first_tag
    
    # Calcul des probabilités
    initial_probs = {}
    for tag, count in initial_counts.items():
        # À compléter : calculer la probabilité
        pass
    
    return initial_probs

# Test
initial_probs = compute_initial_probabilities(training_data)
print("Probabilités initiales:", initial_probs)

### Exercice 2.2 : Probabilités de transition

**Question** : 
1. Rappelez comment est calculé la matrice des probabilités de transition.
2. Complétez la fonction `compute_transition_probabilities` qui permet de retourner la matrice de transition au format:
```
    {
        "tag_current": {
            "tag_next2": proba,
            "tag_next1": proba
        }
    }
```

In [None]:
def compute_transition_probabilities(training_data):
    """
    Calcule P(tag2|tag1) - la probabilité de passer de tag1 à tag2.
    """
    transition_counts = {}
    tag_counts = {}
    
    for sentence in training_data:
        for i in range(len(sentence) - 1):
            current_tag = sentence[i][1]
            next_tag = sentence[i+1][1]
            
            # À compléter : 
            # 1. Compter les transitions current_tag → next_tag
            # 2. Compter combien de fois chaque tag apparaît comme current_tag
    
    # Calcul des probabilités
    transition_probs = {}
    for current_tag, next_tags in transition_counts.items():
        transition_probs[current_tag] = {}
        total_transitions = tag_counts[current_tag]
        
        for next_tag, count in next_tags.items():
            # À compléter : calculer P(next_tag|current_tag)
            pass
    
    return transition_probs

# Test
transition_probs = compute_transition_probabilities(training_data)
print("Probabilités de transition:", transition_probs)

### Exercice 2.3 : Probabilités d'émission

**Question** : 
1. Rappelez comment est calculé la matrice des probabilités d'émission.
2. Complétez la fonction `compute_emission_probabilities` qui calcule pour chaque mot la probabilité que celui-ci soit émis par son étiquette, avec le format:
```
{
    "tag1": {
        "word1": prob1,
        "word2": prob2,
        ...
    },
    "tag2": {
        "word1": prob1,
        "word2": prob2
    }
}
```
3. Retournez cette matrice sur le corpus d'entraînement.

In [None]:
def compute_emission_probabilities(training_data):
    """
    Calcule P(word|tag) - la probabilité qu'un mot soit émis par une étiquette.
    """
    emission_counts = {}
    tag_word_counts = {}
    
    for sentence in training_data:
        for word, tag in sentence:
            # À compléter :
            # 1. Compter combien de fois un mot apparaît avec une étiquette
            # 2. Compter combien de mots sont émis par chaque étiquette
            pass
    # Calcul des probabilités
    emission_probs = {}
    for tag, words in emission_counts.items():
        emission_probs[tag] = {}
        total_words = tag_word_counts[tag]
        
        for word, count in words.items():
            # À compléter : calculer P(word|tag)
            pass
    
    return emission_probs

# Test
emission_probs = compute_emission_probabilities(training_data)


## Partie 3 : L'algorithme de Viterbi

### Exercice 3.2 : Étape d'initialisation

**Question**:
1. Quelle est la phase d'initialisation de l'algorithme?
2. Quelles sont les tables à maintenir pour réussir à calculer/reconstruire le trajet de l'algorithme?
3. 

In [None]:
def viterbi_initialize(first_word,
                       initial_probs,
                       emission_probs,
                       all_tags):
    """
    Initialise les tables Viterbi pour le premier mot de la phrase.
    """
    viterbi_table = {}
    backpointer = {}
    
    for tag in all_tags:
        # À compléter :
        # 1. Calculer la probabilité : P(tag|START) * P(first_word|tag)
        # 2. Initialiser viterbi_table[tag] avec cette probabilité
        # 3. backpointer[tag] = None (pas d'étiquette précédente)
        pass
    
    return viterbi_table, backpointer

# Test
first_word = "Le"
viterbi_table, backpointer = viterbi_initialize(first_word, initial_probs, emission_probs, unique_tags)
print("Table Viterbi après initialisation:", viterbi_table)

### Exercice 3.3 : Étape de récursion

**Questions**:

1. Expliquez comment est calculé un pas de l'algorithme de viterbi.
2. Complétez la fonction `viterbi_step` qui permet de passer d'une étape à une autre, en retournant pour chacun des tags possibles la probabilité et le chemin qui a permis de mener à cette valeur.

In [None]:
def viterbi_step(word, prev_viterbi, transition_probs, emission_probs, all_tags):
    """
    Calcule un pas de l'algorithme de Viterbi.
    """
    current_viterbi = {}
    current_backpointer = {}
    
    for current_tag in all_tags:
        max_prob = -float('inf')
        best_prev_tag = None
        
        for prev_tag in all_tags:
            if prev_tag in prev_viterbi:
                # À compléter :
                # 1. Calculer la probabilité transition : prev_viterbi[prev_tag] * P(current_tag|prev_tag)
                # 2. Garder la probabilité maximale et le best_prev_tag
                pass
        
        # Ajouter la probabilité d'émission
        if word in emission_probs[current_tag]:
            # À compléter : multiplier par P(word|current_tag)
            pass
        
        current_viterbi[current_tag] = max_prob
        current_backpointer[current_tag] = best_prev_tag
    
    return current_viterbi, current_backpointer

### Exercice 3.4 : Reconstruction du chemin

**Question**
1. Étant donné l'ensemble du chemin qui est stocké dans le dictionnaire `current_backpointer` et la dernière itération de l'algorithme, reconstruisez l'ensemble du chemin optimal.

In [None]:
def backtrack(backpointers, final_viterbi):
    """
    Reconstruit la séquence d'étiquettes optimale à partir des backpointers.
    """
    best_path = []
    
    # Trouver la meilleure étiquette finale
    best_final_tag = None
    max_prob = -float('inf')
    
    for tag, prob in final_viterbi.items():
        # À compléter : trouver l'étiquette avec la probabilité maximale
        pass
    
    # Reconstruction à rebours
    current_tag = best_final_tag
    for t in range(len(backpointers)-1, -1, -1):
        # À compléter : ajouter l'étiquette courante et remonter au précédent
        pass
    
    # À compléter : inverser la liste pour avoir l'ordre correct
    return best_path

## Partie 4 : Assemblage complet

### Exercice 4.1 : Fonction Viterbi complète

**Question**:
1. Étant donné l'ensemble des fonctions préparées précédemment, créez la fonction `viterbi` qui retourne pour une phrase donnée et pour une configuration d'HMM donnée la séquence de POS la plus probable.
2. Appliquez la fonction à la phrase "Le chat mange la souris".

In [None]:
def viterbi(sentence,
            initial_probs,
            transition_probs,
            emission_probs,
            all_tags):
    """
    Implémentation complète de l'algorithme de Viterbi.
    """
    n = len(sentence)
    if n == 0:
        return []
    
    # Initialisation
    viterbi_tables = [{}] * n
    backpointers = [{}] * n
    
    # À compléter : 
    # 1. Appeler viterbi_initialize pour le premier mot
    # 2. Pour chaque mot suivant, appeler viterbi_step
    # 3. Reconstruire le chemin avec backtrack
    
    return best_path


### Exercice 4.2 : Évaluation

**Question** :
1. Rappelez la formule de l'accuracy
2. Complétez la fonction `evaluate_tagger` qui permet de retourner l'accuracy étant donné une phrase, une ground truth, et la description d'un HMM. 

In [None]:
def evaluate_tagger(test_sentences, true_tags, initial_probs, transition_probs, emission_probs, all_tags):
    """
    Évalue la performance du tagger.
    """
    correct = 0
    total = 0
    
    for i, sentence in enumerate(test_sentences):
        predicted = viterbi(sentence, initial_probs, transition_probs, emission_probs, all_tags)
        true = true_tags[i]
        
        print(f"Phrase: {' '.join(sentence)}")
        print(f"Vrai: {true}")
        print(f"Prédit: {predicted}")
        
        # À compléter : calculer le nombre d'étiquettes correctes
        for j in range(len(sentence)):
            total += 1
            if predicted[j] == true[j]:
                correct += 1
        
        accuracy = correct / total
        print(f"Accuracy: {accuracy:.2%}")
        print("-" * 40)
    
    return accuracy

# Données de test
test_sentences = [
    ["Le", "chien", "mange"],
    ["La", "fille", "lit"]
]
true_tags = [
    ["DET", "NOUN", "VERB"],
    ["DET", "NOUN", "VERB"]
]

accuracy = evaluate_tagger(test_sentences, true_tags, initial_probs, transition_probs, emission_probs, unique_tags)
print(f"Précision finale: {accuracy:.2%}")

## Partie 5 : Gestion des mots inconnus

**Question** : 
1. Essayez d'utiliser votre tagger sur un corpus contenant un mot que vous n'avez pas encore vu.
2. Quelle solution pouvez-vous proposer?
2. Adaptez votre tagger pour qu'il puisse gérer les mots inconnus.
