# Python para Lingüistas

Notebook 8: POS Tagging

Alejandro Ariza

Universitat de Barcelona 2022

En este notebook veremos como realizar etiquetado POS usando NLTK.

Usaremos diferentes etiquetadores y veremos la importancia de seleccionar un buen corpus de entrenamiento.

También aprenderemos más acerca de funciones y métodos.

In [None]:
# Importar nltk
import nltk

In [None]:
# Descargar los paquetes importantes para hoy
nltk.download("brown")

In [None]:
# Importar todos los recursos necesarios para hoy
from nltk import bigrams, trigrams

# Importar numpy
import numpy as np

# Importar codecs
import codecs

# Importar etiquetadores
from nltk import DefaultTagger, AffixTagger, UnigramTagger, BigramTagger, TrigramTagger
from nltk import ClassifierBasedPOSTagger

# Importar el corpus brown
from nltk.corpus import brown

In [None]:
# Funciones avanzadas

# Antes de continuar con el etiquetado POS, observermos el comportamiento de una función muy simple

var_1 = "Boo"
var_2 = "Hoo"
var_3 = "DooDoo"

def my_simple_function(atr_1, atr_2, atr_3="ignórame"):
    
    print("Mi atr_1 es:" + str(atr_1))
    print("Mi atr_2 es:" + str(atr_2))
    print("Mi atr_3 es:" + str(atr_3))



In [None]:
# Veamos lo que hace
my_simple_function(var_1, var_2, var_3)

In [None]:
# ¿Qué pasa si cambiamos el orden?
# Como podéis ver, la función asigna valores a las variables de entrada basándose en su posición
my_simple_function(var_3, var_1, var_2)

In [None]:
# ¿Qué pasa si no añadimos valor para el tercer argumento de entrada?
my_simple_function(var_1, var_2)

In [None]:
# ¿Qué pasa si no añadimos valor para el segundo argumento?
my_simple_function(var_1)

In [None]:
# ¿Qué pasa si le decimos explícitamente qué es cada cosa?
my_simple_function(atr_3=var_1, atr_1=var_2, atr_2=var_3)

### Etiquetado POS en Python

En esta clase, veremos diferentes formas de etiquetar automáticamente un corpus con su POS

Nos centraremos en los etiquetadores basados en n-gramas

In [None]:
# Obtened una lista de categorías del corpus brown
brown.categories()

In [None]:
# Conseguid la versión tokenizada y etiquetada de la categoría "news"
brown_twords = brown.tagged_words(categories='news')

# Conseguid la versión que, además, tiene la segmentación de las frases
brown_tsents = brown.tagged_sents(categories='news')

In [None]:
# Imprimid las 5 primeras palabras
print("\nLas primeras 5 palabras en la versión tokenizada y etiquetada son:")
print(brown_twords[:5])

In [None]:
# Imprimid las dos primeras frases
print("\nLas primeras 2 frases en la versión con frases segmentadas son:")
print(brown_tsents[:2])

In [None]:
# Conseguid el conjunto de todas las etiquetas que aparecen en el corpus brown
brown_tags = set([tag for (token,tag) in brown_twords])
print("\nEl conjunto de etiquetas en el corpus brown es:")
print(brown_tags)

In [None]:
# Conseguid el conjunto de todas las etiquetas que existen en la versión "universal"
brown_utwords = brown.tagged_words(categories='news',tagset='universal')
universal_tags = set([tag for (token,tag) in brown_utwords])
print("\nEl conjunto de etiquetas universales es:")
print(universal_tags)

Entrenaremos y evaluaremos diferentes etiquetadores:

- default
- affix
- unigram
- bigram
- trigram

In [None]:
# Etiquetador por defecto

# Obtened la versión segmentada y tokenizada de "news"
# Esta es la versión no etiquetada que vamos a etiquetar
brown_sents = brown.sents(categories='news')

# Obtened una lista de todas las etiquetas en el corpus
tags = [tag for (word, tag) in brown.tagged_words(categories='news')]

# Obtened la etiqueta más frecuente en el corpus
most_frequent_tag = nltk.FreqDist(tags).max()

# Imprimid la etiqueta más frecuente:
print(most_frequent_tag)

In [None]:
# Configurad un etiquetador por defecto
# El etiquetador por defecto asigna la misma etiqueta por defecto a todos los tokens en el corpus
# Lo configuraremos para que anote la etiqueta más frecuente
default_tagger = nltk.DefaultTagger(most_frequent_tag)

my_sent = "the quick brown fox jumped over the lazy dog".split()
print("La frase etiquetada con el etiquetador por defecto:")
print(default_tagger.tag(my_sent))

In [None]:
# Evaluad el etiquetador por defecto en el corpus:
print("La precisión del etiquetador por defecto en el corpus brown es:")
print(round(default_tagger.evaluate(brown_tsents),2))


In [None]:
# Para el resto de etiquetadores, dividiremos el corpus en train y test:
test_corpus = brown_tsents[:1000]
train_corpus = brown_tsents[1000:]


In [None]:
# Entrena el etiquetador affix
affix_tagger = AffixTagger(train_corpus)

# Etiqueta el corpus
affix_sents = affix_tagger.tag_sents(brown_sents)

# Imprime la primera frase y la precisión
print("\nLa primera frase etiquetada con el etiquetador affix es:")
print(affix_sents[0])
print("\nLa precisión del etiquetador affix en el corpus es:")
print(round(affix_tagger.evaluate(test_corpus),2))

In [None]:
# Entrenamiento
unigram_tagger = UnigramTagger(train_corpus) 

# Etiquetado
uni_sents = unigram_tagger.tag_sents(brown_sents)

# Visualización de resultados
print("\nLa primera frase etiquetada con el etiquetador basado en unigramas es:")
print(uni_sents[0])
print("\nLa precisión del etiquetador basado en unigramas en el corpus es:")
print(round(unigram_tagger.evaluate(test_corpus),2))

In [None]:
# Entrenamiento
bigram_tagger = BigramTagger(train_corpus)

# Etiquetado
bi_sents = bigram_tagger.tag_sents(brown_sents)

# Visualización de resultados
print("\nLa primera frase etiquetada con el etiquetador basado en bigramas es:")
print(bi_sents[0])
print("\nLa precisión del etiquetador basado en bigramas en el corpus es:")
print(round(bigram_tagger.evaluate(test_corpus),2))

In [None]:
# Entrenamiento
trigram_tagger = TrigramTagger(train_corpus)

# Etiquetado
tri_sents = trigram_tagger.tag_sents(brown_sents)

tri_sents = trigram_tagger.tag_sents(brown_sents)

# Visualización de resultados
print("\nLa primera frase etiquetada con el etiquetador basado en trigramas es:")
print(tri_sents[0])
print("\nLa precisión del etiquetador basado en trigramas en el corpus es:")
print(round(trigram_tagger.evaluate(test_corpus),2))

In [None]:
# Entrenamiento
bigram_tagger_backoff = BigramTagger(train_corpus,backoff=unigram_tagger)

# Etiquetado
bi_sents_bo = bigram_tagger_backoff.tag_sents(brown_sents)


# Visualización de resultados
print("\nLa primera frase etiquetada con el etiquetador basado en bigramas con backoff es:")
print(bi_sents_bo[0])
print("\nLa precisión del etiquetador basado en bigramas con backoff en el corpus es:")
print(round(bigram_tagger_backoff.evaluate(test_corpus),2))

In [None]:
# Tarea 1
# Entrenar y evaluar en el mismo corpus en vez de usar particiones separadas
# ¿Cuál es el resultado?



In [None]:
# Tarea 2
# Crear una secuencia de etiquetadores a modo backoff:
# trigram -> bigram -> unigram -> affix -> default
# Evaluar el etiquetador resultante

In [None]:
# Tarea 3
# Intentar cross-domain tagging:
# Entrenar usando el corpus "news" y evaluar en "science_fiction"
# Comparar los resultados con un corpus entrenado y evaluado en el mismo dominio (science_fiction)

In [None]:
# Tarea 4
# Importante del conjunto de etiquetas
# Re-ejecutar las tareas 2 y 3 usando el etiquetado universal del corpus
# Comparar las diferencias entre el etiquetado "universal" y el etiquetado completo