# TD étiquetage morphosyntaxique Markov


L'idée est ici de voir une version simplifiée du TD9 où on va simplement tester deux analyses et voir leurs probabilités respectives.

On commence par reprendre les probabilités de l'exemple "La belle porte le voile" où "belle" est à la fois un adjectif et un nom commun, "porte" à la fois un nom commun et le verbe "porter", "voile" à la fois un nom commun et le verbe "voiler" à l'indicatif du présent :

In [9]:
initiales = {"DET": 1.0}

transitions = {
    "ADJ": {"NOUN": 1.0},
    "CLO": {"VERB": 1.0},
    "DET": {"NOUN": 0.8, "ADJ": 0.2},
    "NOUN": {"CLO": 0.5, "VERB": 0.5},
    "VERB": {"DET": 1.0}
}

emissions = {
    "ADJ" : {"belle": 1.0},
    "CLO" : {"le": 1.0},
    "DET" : {"le": 0.6, "la": 0.4},
    "NOUN": {"belle": 0.1, "porte": 0.8, "voile": 0.1},
    "VERB": {"porte": 0.6, "voile": 0.4}
}

# Calculer la probabilité d'une analyse

Pour calculer la probabilité d'une analyse, on procède en deux étapes :
- pour le premier mot, on multiplie la probabilité initiale par la probabilité d'émission
- pour le reste des mots, on multiplie la probabilité de transition par la probabilité d'émission

In [10]:
def afficher_probas(phrase, initiales, transitions, emissions):
    """Pour chaque token de phrase, affiche:
        - le mot
        - son étiquette
        - la probabilité d'avoir cette étiquette à cet instant de la phrase.

    La probabilité d'une analyse est la probabilité pour le dernier mot.

    Pour calculer ces probabilités, on procède en deux étapes :
    1. pour le premier mot, on multiplie la probabilité initiale par la probabilité d'émission
    2. pour le reste des mots, on multiplie la probabilité de transition par la probabilité d'émission.
    3. à chaque étape, on garde la probabilité calculée pour le token précédent,
        car il faut la multiplier avec la probabilité pour le token courant.
    
    Phrase est une liste de couples mot/étiquette.
    exemple:
    >>> phrase = [["la", "DET"], ["belle", "ADJ"]]
    les calculs :
    proba = initiales["DET"] * emission["DET"]["la"]
    proba = proba * transition["DET"]["ADJ"] * emission["ADJ"]["belle"]
    """
    mot, tag = phrase[0]
    proba = initiales[tag] * emissions[tag][mot]
    tag_precedent = tag
    print(mot, tag, proba)
    for mot, tag in phrase[1:]:
        proba *= transitions[tag_precedent][tag] * emissions[tag][mot]
        tag_precedent = tag
        print(mot, tag, proba)


# Analyse 1

La première analyse que l'on va faire est :

`la/DET belle/ADJ porte/NOUN le/CLO voile/VERB`

In [11]:
phrase1 = [["la", "DET"], ["belle", "ADJ"], ["porte", "NOUN"], ["le", "CLO"], ["voile", "VERB"]]

afficher_probas(phrase1, initiales, transitions, emissions) #fonction définie dans le def ci-dessus
#expliquez les résultats obtenus en sortie ci-dessous (utilisez une calculette, reparcourez le tout étape par étape)

la DET 0.4
belle ADJ 0.08000000000000002
porte NOUN 0.06400000000000002
le CLO 0.03200000000000001
voile VERB 0.012800000000000004


# Analyse 2

La seconde analyse que l'on va faire est :

`la/DET belle/NC porte/VERB le/DET voile/NC`

In [12]:
phrase2 = [["la", "DET"], ["belle", "NOUN"], ["porte", "VERB"], ["le", "DET"], ["voile", "NOUN"]]

afficher_probas(phrase2, initiales, transitions, emissions)

la DET 0.4
belle NOUN 0.03200000000000001
porte VERB 0.009600000000000003
le DET 0.005760000000000001
voile NOUN 0.0004608000000000002


In [13]:
#question1 : pourquoi cela s'affiche ?
phrase3 = [["la", "DET"], ["porte", "NOUN"], ["belle", "VERB"], ["la", "DET"], ["porte", "NOUN"]]
afficher_probas(phrase3, initiales, transitions, emissions)

la DET 0.4
porte NOUN 0.25600000000000006


KeyError: 'belle'

In [14]:
#question1 : pourquoi cela s'affiche ?
phrase3 = [["la", "CLO"], ["porte", "NOUN"], ["belle", "VERB"], ["la", "DET"], ["porte", "NOUN"]]
afficher_probas(phrase3, initiales, transitions, emissions)

KeyError: 'CLO'