# Quelle part du lexique français a des POS ambigües ?

Les meilleurs taggeurs pour le français affichent des scores de 95 à 97.5% de précision.  
Ce sont des scores très élevés mais il faut les rapporter à la difficulté de la tâche considérée. Pour cela il faut comparer les résultats des taggeurs à un score de référence, une *baseline*. Si l'on exclut la segmentation en partant d'un texte segmenté, la *baseline* pourra être obtenue en utilisant bêtement un lexique catégorisé à large couverture.

Dans cet esprit nous allons essayer de compter, dans l'ensemble des formes fléchies, combien d'unités lexicales peuvent avoir des POS différentes, c-a-d combien il y a d'homographes. Puis nous donnerons la part que représente ces homographes dans le lexique.

Pour cet exercice nous utiliserons le Lefff (Sagot, 2010), téléchargeable depuis le lien suivant : https://gforge.inria.fr/frs/download.php/file/34602/lefff-3.4.elex.tgz


Sagot (2010). The Lefff, a freely available and large-coverage morphological and syntactic lexicon for French. In Proceedings of the 7th international conference on Language Resources and Evaluation (LREC 2010), Istanbul, Turkey

In [None]:
## Homographes du lefff ayant des @cat différentes
## on complique exprès en ne prenant pas en compte la colonne n

import collections
import re

words = collections.defaultdict(set)
pat = re.compile("cat=([a-z]+)")

file = "lefff-3.4.elex"

n_line = 0
with open(file, 'r', encoding="ISO-8859-1") as f:
    n_line += 1
    for line in f:
        line = line.strip()
        if not line:
            continue
        row = line.split('\t')
        form = row[0]
        m = pat.search(row[3])
        if m:
            cat = m.group(1)
            words[form].add(cat)
            #ou
            #cats = words.get(form, set())
            #cats.add(cat)
            #words[form] = cats
        else:
            words.setdefault(form, set())

ambigus = [word for word in words.keys() if len(words[word]) > 1]
print(len(words.keys()))
print(len(ambigus))

# Exercices

1. Combien de mots dans le Lefff...
    1. contiennent plus qu'une majuscule ?
    2. contiennent des lettres et des chiffres ?
2. Dans [sem_Ef9POe.conll](sem_Ef9POe.conll), quelles sont les ponctuations qui n'ont pas le POS `PONCT`...
    1. En utilisant le module `re` pour reconnaître les mots qui sont des ponctuations ?
    2. En utilisant `words` pour reconnaître les mots qui sont des ponctuations ?