# Etiquetado de Secuencias

## Estadísticas de Etiquetas

Hagamos estadísticas sobre un corpus etiquetado de juguete:

In [2]:
tagged_sents = [
    [('el', 'D'), ('gato', 'N'), ('come', 'V'), ('pescado', 'N'), ('.', 'P')],
    [('la', 'D'), ('gata', 'N'), ('come', 'V'), ('salmón', 'N'), ('.', 'P')],
]

Calculemos, para cada POS tag posible, la frecuencia de cada palabra. **El resultado debería ser el siguiente diccionario de diccionarios:**

In [4]:
tag_word_dict = {
    'D': {'el': 1, 'la': 1},
    'N': {'salmón': 1, 'gata': 1, 'gato': 1, 'pescado': 1},
    'V': {'come': 2},
    'P': {'.': 2},
}

Esto se puede resolver así usando el tipo básico de diccionario:

In [8]:
tag_word_dict = {}

for sent in tagged_sents:
    for word, tag in sent:
        if tag not in tag_word_dict:
            # primera vez que veo este tag. crear nueva entrada en el diccionario.
            tag_word_dict[tag] = {}
        if word not in tag_word_dict[tag]:
            # primera vez que aparece esta word con este tag. crear nueva entrada en el subdiccionario.
            tag_word_dict[tag][word] = 0
        # contar la palabra:
        tag_word_dict[tag][word] += 1

print(tag_word_dict)

{'D': {'el': 1, 'la': 1}, 'P': {'.': 2}, 'V': {'come': 2}, 'N': {'gato': 1, 'gata': 1, 'pescado': 1, 'salmón': 1}}


El código es un poco feo por los casos en los que hay que agregar nuevas entradas en los diccionarios.
Usando defaultdicts esto sale mucho más lindo:

In [14]:
from collections import defaultdict
tag_word_dict = defaultdict(lambda: defaultdict(int))

for sent in tagged_sents:
    for word, tag in sent:
        # contar la palabra:
        tag_word_dict[tag][word] += 1

tag_word_dict = dict(tag_word_dict)  # convertir de vuelta a diccionario
print(tag_word_dict)

{'D': defaultdict(<class 'int'>, {'el': 1, 'la': 1}), 'N': defaultdict(<class 'int'>, {'gato': 1, 'gata': 1, 'pescado': 1, 'salmón': 1}), 'V': defaultdict(<class 'int'>, {'come': 2}), 'P': defaultdict(<class 'int'>, {'.': 2})}


Nota: los diccionarios de adentro quedaron todos de tipo defaultdict pero eso no es problema.

### Estadísticas de Palabras y Niveles de Ambigüedad

También nos interesa calcular un diccionario que me diga cuántos tags posibles tiene cada palabra.
Para eso usemos un corpus de juguete que tenga ambigüedades:

In [3]:
tagged_sents = [
    [('una', 'Num'), ('llama', 'Nom'), ('detenida', 'Adj')],
    [('la', 'Det'), ('detenida', 'Nom'), ('escapó', 'Verb')],
    [('fue', 'Verb'), ('detenida', 'Verb'), ('ayer', 'Adv')],
    [('llama', 'Verb'), ('la', 'Det'), ('atención', 'Nom')],
]

**El resultado debería ser el siguiente diccionario de conjuntos:**

In [4]:
word_tags = {
    'la': {'Det'},
    'una': {'Num'},
    'detenida': {'Nom', 'Verb', 'Adj'},
    'fue': {'Verb'},
    'llama': {'Nom', 'Verb'},
    'atención': {'Nom'},
    'ayer': {'Adv'},
    'escapó': {'Verb'}
}

Usando diccionarios básicos:

In [5]:
word_tags = {}

for sent in tagged_sents:
    for word, tag in sent:
        if word not in word_tags:
            # primera vez que veo esta word. crear nueva entrada en el diccionario.
            word_tags[word] = set()
        word_tags[word].add(tag)

print(word_tags)

{'ayer': {'Adv'}, 'detenida': {'Nom', 'Verb', 'Adj'}, 'una': {'Num'}, 'la': {'Det'}, 'escapó': {'Verb'}, 'llama': {'Nom', 'Verb'}, 'atención': {'Nom'}, 'fue': {'Verb'}}


También sale más corto con defaultdicts. Esta vez, defaultdict de conjuntos:

In [6]:
from collections import defaultdict

word_tags = defaultdict(set)

for sent in tagged_sents:
    for word, tag in sent:
        word_tags[word].add(tag)

word_tags = dict(word_tags)  # convertir de vuelta a diccionario
print(word_tags)

{'detenida': {'Nom', 'Verb', 'Adj'}, 'una': {'Num'}, 'la': {'Det'}, 'escapó': {'Verb'}, 'ayer': {'Adv'}, 'llama': {'Nom', 'Verb'}, 'atención': {'Nom'}, 'fue': {'Verb'}}


A partir de este diccionario es fácil calcular los niveles de ambigüedad. Por ejemplo, para el nivel 3:

In [9]:
level = 3

words = set()

for word, tags in word_tags.items():
    if len(tags) == level:
        words.add(word)

print('Nivel {}:'.format(level), words)

Nivel 3: {'detenida'}
