In [1]:
# install the requirements
!pip install nltk
!python -m nltk.downloader cess_esp

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Unzipping corpora/cess_esp.zip.


# PoS tagging en Español

En este ejercicio vamos a jugar con uno de los corpus en español que está disponible desde NLTK: CESS_ESP, un *treebank* anotado a partir de una colección de noticias en español.

Si no has utilizado antes el corpus, necesitarás instarlo:

In [2]:
import nltk

nltk.download("cess_esp")

[nltk_data] Downloading package cess_esp to /root/nltk_data...
[nltk_data]   Package cess_esp is already up-to-date!


True

Este corpus está actualmente incluído en un recurso más amplio, el corpus [AnCora](http://clic.ub.edu/corpus/es) que desarrollan en la Universitat de Barcelona. Para más información, podéis leer el artículo de M. Taulé, M. A. Martí y M. Recasens "[AnCora: Multilevel Annotated Corpora for Catalan and Spanish](http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf)". *Proceedings of 6th International Conference on Language Resources and Evaluation (LREC 2008)*. 2008. Marrakesh (Morocco).

Antes de nada, ejecuta la siguiente celda para acceder al corpus y a otras herramientas que vamos a usar en este ejercicio.

In [16]:
import nltk
from nltk.corpus import cess_esp

cess_esp = cess_esp.tagged_words()
print(cess_esp[:50])

[('El', 'da0ms0'), ('grupo', 'ncms000'), ('estatal', 'aq0cs0'), ('Electricité_de_France', 'np00000'), ('-Fpa-', 'Fpa'), ('EDF', 'np00000'), ('-Fpt-', 'Fpt'), ('anunció', 'vmis3s0'), ('hoy', 'rg'), (',', 'Fc'), ('jueves', 'W'), (',', 'Fc'), ('la', 'da0fs0'), ('compra', 'ncfs000'), ('del', 'spcms'), ('51_por_ciento', 'Zp'), ('de', 'sps00'), ('la', 'da0fs0'), ('empresa', 'ncfs000'), ('mexicana', 'aq0fs0'), ('Electricidad_Águila_de_Altamira', 'np00000'), ('-Fpa-', 'Fpa'), ('EAA', 'np00000'), ('-Fpt-', 'Fpt'), (',', 'Fc'), ('creada', 'aq0fsp'), ('por', 'sps00'), ('el', 'da0ms0'), ('japonés', 'aq0ms0'), ('Mitsubishi_Corporation', 'np00000'), ('para', 'sps00'), ('poner_en_marcha', 'vmn0000'), ('una', 'di0fs0'), ('central', 'ncfs000'), ('de', 'sps00'), ('gas', 'ncms000'), ('de', 'sps00'), ('495', 'Z'), ('megavatios', 'ncmp000'), ('.', 'Fp'), ('Una', 'di0fs0'), ('portavoz', 'nccs000'), ('de', 'sps00'), ('EDF', 'np00000'), ('explicó', 'vmis3s0'), ('a', 'sps00'), ('EFE', 'np00000'), ('que', 'cs')

Fíjate que las etiquetas que se usan en el treebank español son diferentes a las etiquetas que habíamos visto en inglés. Para empezar, el español es una lengua con una morfología más rica: si queremos reflejar el género y el número de los adjetivos, por ejemplo, no nos vale con etiquetar los adjetivos con una simple `JJ`.


Echa un vistazo a las etiquetas morfológicas y trata de interpretar su significado. En estas primeras 50 palabras encontramos:

- `da0ms0`: determinante artículo masculino singular
- `ncms000`: nombre común masculino singular
- `aq0cs0`: adjetivo calificativo de género común singular
- `np00000`: nombre propio 
- `sps00`: preposición
- `vmis3s0`: verbo principal indicativo pasado 3ª persona del singular


Aquí tienes el [la explicación de las etiquetas](https://talp-upc.gitbooks.io/freeling-user-manual/content/tagsets.html) y [el catálogo completo de rasgos para el etiquetado en español](https://talp-upc.gitbooks.io/freeling-user-manual/content/tagsets/tagset-es.html) usadas en este corpus. A partir de lo que aprendas en el enlace anterior:

- Imprime por pantalla solo las palabras etiquetadas como **formas verbales en 3ª persona del plural del pretérito perfecto simple de indicativo**.
- Calcula qué porcentaje del total representan las palabras del corpus CEES_ESP etiquetadas como formas verbales en 3ª persona del plural del pretérito perfecto simple de indicativo.

In [27]:
from nltk.corpus import cess_esp

cess_esp = cess_esp.tagged_words()
len(cess_esp)

192685

In [31]:
from nltk.corpus import cess_esp

verbos = []
count_verbos = 0
cess_esp = cess_esp.tagged_words()
count_total = len(cess_esp)

for palabra, etiqueta in cess_esp:
  if etiqueta == 'vmip3p0':
    count_verbos += 1
    verbos.append(palabra)

print(verbos)
print("\n", "-" * 75, "\n")
print('El número total de verbos en 3ª persona del plural del pretérito perfecto simple de indicativo son %d' % (count_verbos))
print("\n", "-" * 75, "\n")
print('El porcentaje total de palabras etiquetadas como formas verbales en 3ª persona del plural del pretérito perfecto simple de indicativo es %f' % (count_verbos * 100 / count_total))


['tienen', 'adquieren', 'adquieren', 'ofrecen', 'estiman', 'adaptan', 'aseguran', 'suponen', 'forman_parte', 'siguen', 'creen', 'pueden', 'ofrecen', 'pueden', 'permanecen', 'impiden', 'existen', 'están', 'cuentan', 'critican', 'navegan', 'participan', 'están', 'niegan', 'prefieren', 'oponen', 'admiten', 'mantienen', 'están', 'enfrentan', 'aceptan', 'comprometen', 'pueden', 'tienen', 'deben', 'están', 'están', 'quieren', 'integran', 'quieren', 'vienen', 'basan', 'afectan', 'centran', 'producen', 'deben', 'preparan', 'siguen', 'toman', 'siguen', 'están', 'investigan', 'indican', 'calculan', 'valoran', 'proyectan', 'usan', 'aseguran', 'abren', 'amenazan', 'quieren', 'amenazan', 'protestan', 'preparan', 'cobran', 'facilitan', 'pueden', 'tienen', 'comprometen', 'representan', 'tienen', 'tienen', 'deben', 'interesan', 'encuentran', 'componen', 'representan', 'están', 'están', 'mantienen', 'producen', 'operan', 'obligan', 'ocultan', 'producen', 'encuentran', 'están', 'coinciden', 'afirman', '

Las etiquetas morfológicas que hemos visto son bastante complejas, ya que incorporan los rasgos de la flexión del español. Afortunadamente, NLTK permite cargar los corpus etiquetados con un [conjunto de etiquetas universal y simplificado](http://universaldependencies.org/u/pos/) (todos los detalles en el [paper](http://arxiv.org/abs/1104.2086)) utilizando la opcion `tagset='universal'`. Para ello, asegúrate de que has almacenado dentro de tu directorio de recursos de `nltk` el mapeo de etiquetas originales del corpus con su versión simplificada. Este fichero se llama `universal_tagset-ES.map` y lo tienes en la carpeta `data` del respositorio. Es recomendable renombrarlo, por ejemplo:

In [32]:
# desde Colab, el comando equivalente sería
!git clone https://github.com/vitojph/kschool-nlp-19.git
!ls -l kschool-nlp-19/data

Cloning into 'kschool-nlp-19'...
remote: Enumerating objects: 80, done.[K
remote: Counting objects: 100% (80/80), done.[K
remote: Compressing objects: 100% (60/60), done.[K
remote: Total 80 (delta 25), reused 73 (delta 18), pack-reused 0[K
Unpacking objects: 100% (80/80), done.
total 3476
-rw-r--r-- 1 root root  622721 Aug  7 12:04 2017-twitter-messages.tsv.gz
-rw-r--r-- 1 root root 1184237 Aug  7 12:04 2018-twitter-messages.tsv.gz
-rw-r--r-- 1 root root   61872 Aug  7 12:04 alicia.txt.gz
-rw-r--r-- 1 root root    3706 Aug  7 12:04 es-ancora.map
-rw-r--r-- 1 root root  923456 Aug  7 12:04 fortunatayjacinta.txt.gz
-rw-r--r-- 1 root root  748310 Aug  7 12:04 sherlockholmes.txt.gz


In [38]:
nltk.download('universal_tagset')

[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.


True

In [45]:
!cp /content/kschool-nlp-19/data/es-ancora.map ~/nltk_data/taggers/universal_tagset/

Después, ejecuta la siguiente celda y fíjate cómo hemos cargado una lista de oraciones etiquetadas con esta nueva versión de las etiquetas.

In [52]:
from nltk.corpus import cess_esp

cess_esp._tagset = "es-ancora"
oraciones = cess_esp.tagged_sents(tagset="universal")
print(oraciones[0])

[('El', 'DET'), ('grupo', 'NOUN'), ('estatal', 'ADJ'), ('Electricité_de_France', 'NOUN'), ('-Fpa-', '.'), ('EDF', 'NOUN'), ('-Fpt-', '.'), ('anunció', 'VERB'), ('hoy', 'ADV'), (',', '.'), ('jueves', 'X'), (',', '.'), ('la', 'DET'), ('compra', 'NOUN'), ('del', 'ADP'), ('51_por_ciento', 'NUM'), ('de', 'ADP'), ('la', 'DET'), ('empresa', 'NOUN'), ('mexicana', 'ADJ'), ('Electricidad_Águila_de_Altamira', 'NOUN'), ('-Fpa-', '.'), ('EAA', 'NOUN'), ('-Fpt-', '.'), (',', '.'), ('creada', 'ADJ'), ('por', 'ADP'), ('el', 'DET'), ('japonés', 'ADJ'), ('Mitsubishi_Corporation', 'NOUN'), ('para', 'ADP'), ('poner_en_marcha', 'VERB'), ('una', 'DET'), ('central', 'NOUN'), ('de', 'ADP'), ('gas', 'NOUN'), ('de', 'ADP'), ('495', 'X'), ('megavatios', 'NOUN'), ('.', '.')]


Estas etiquetas son más sencillas, ¿verdad? Básicamente tenemos `DET` para determinante, `NOUN` para nombre, `VERB` para verbo, `ADJ` para adjetivo, `ADP` para preposición, etc.


Vamos a utilizar este corpus para entrenar varios etiquetadores basados en ngramas, tal y como hicimos en clase y se explica en la presentación `nltk-pos`. 

Construye de manera incremental cuatro etiquetadores.

1. un etiquetador que por defecto que asuma que una palabra desconocida es un nombre común en masculino singular y asigne la etiqueta correspondiente a todas las palabras.
2. un etiquetador basado en unigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.
3. un etiquetador basado en bigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.
4. un etiquetador basado en trigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.

In [55]:
# 1. Etiquetador por defecto. Todas las palabras a 'NOUN'

patrones = [(r"(\w*)", "NOUN")]

regexTagger = nltk.RegexpTagger(patrones)

regexTagger.evaluate(oraciones)

0.22694553286451982

In [59]:
# 2. Etiquetador de unigramas con el anterior como respaldo

from nltk.corpus import cess_esp

cess_esp._tagset = "es-ancora"
oraciones = cess_esp.tagged_sents(tagset="universal")

# split entre training y size
size = int(len(oraciones) * 0.9)
training_corpus = oraciones[:size]
test_corpus = oraciones[size:]

# etiquetador
unigramTagger = nltk.UnigramTagger(training_corpus, backoff = regexTagger)

# resultados
print(unigramTagger.evaluate(test_corpus))

0.8808672009158558


In [62]:
# 3. Etiquetador de bigramas con los anteriores como respaldo

from nltk.corpus import cess_esp

cess_esp._tagset = "es-ancora"
oraciones = cess_esp.tagged_sents(tagset="universal")

# split entre training y size
size = int(len(oraciones) * 0.9)
training_corpus = oraciones[:size]
test_corpus = oraciones[size:]

# etiquetador
unigramTagger = nltk.UnigramTagger(training_corpus, backoff = regexTagger)
bigramTagger = nltk.BigramTagger(training_corpus, backoff = unigramTagger)


# resultados
print(bigramTagger.evaluate(test_corpus))

0.8934602175157412


In [63]:
# 4. Etiquetador de trigramas con los anteriores como respaldo

from nltk.corpus import cess_esp

cess_esp._tagset = "es-ancora"
oraciones = cess_esp.tagged_sents(tagset="universal")

# split entre training y size
size = int(len(oraciones) * 0.9)
training_corpus = oraciones[:size]
test_corpus = oraciones[size:]

# etiquetador
unigramTagger = nltk.UnigramTagger(training_corpus, backoff = regexTagger)
bigramTagger = nltk.BigramTagger(training_corpus, backoff = unigramTagger)
trigramTagger = nltk.TrigramTagger(training_corpus, backoff = bigramTagger)

# resultados
print(trigramTagger.evaluate(test_corpus))

0.8943188322839153


In [65]:
# ¿qué precisión tienen?
print(unigramTagger.evaluate(test_corpus))
print(bigramTagger.evaluate(test_corpus))
print(trigramTagger.evaluate(test_corpus))

0.8808672009158558
0.8934602175157412
0.8943188322839153


In [66]:
# prueba tu etiquetador basado en trigramas con las siguientes oraciones que,
# con toda seguridad, no aparecen en el corpus
print(
    trigramTagger.tag(
        "Este banco está ocupado por un padre y por un hijo. El padre se llama Juan y el hijo ya te lo he dicho".split()
    )
)
print(
    trigramTagger.tag(
        """El presidente del gobierno por fin ha dado la cara para anunciar aumentos de presupuesto en Educación y Sanidad a costa de dejar de subvencionar las empresas de los amigotes.""".split()
    )
)
print(
    trigramTagger.tag(
        "El cacique corrupto y la tonadillera se comerán el turrón en prisión .".split()
    )
)

[('Este', 'DET'), ('banco', 'NOUN'), ('está', 'VERB'), ('ocupado', 'VERB'), ('por', 'ADP'), ('un', 'DET'), ('padre', 'NOUN'), ('y', 'CONJ'), ('por', 'ADP'), ('un', 'DET'), ('hijo.', 'NOUN'), ('El', 'DET'), ('padre', 'NOUN'), ('se', 'PRON'), ('llama', 'VERB'), ('Juan', 'NOUN'), ('y', 'CONJ'), ('el', 'DET'), ('hijo', 'NOUN'), ('ya', 'ADV'), ('te', 'PRON'), ('lo', 'PRON'), ('he', 'VERB'), ('dicho', 'VERB')]
[('El', 'DET'), ('presidente', 'NOUN'), ('del', 'ADP'), ('gobierno', 'NOUN'), ('por', 'ADP'), ('fin', 'NOUN'), ('ha', 'VERB'), ('dado', 'VERB'), ('la', 'DET'), ('cara', 'NOUN'), ('para', 'ADP'), ('anunciar', 'VERB'), ('aumentos', 'NOUN'), ('de', 'ADP'), ('presupuesto', 'NOUN'), ('en', 'ADP'), ('Educación', 'NOUN'), ('y', 'CONJ'), ('Sanidad', 'NOUN'), ('a', 'ADP'), ('costa', 'NOUN'), ('de', 'ADP'), ('dejar', 'VERB'), ('de', 'ADP'), ('subvencionar', 'NOUN'), ('las', 'DET'), ('empresas', 'NOUN'), ('de', 'ADP'), ('los', 'DET'), ('amigotes.', 'NOUN')]
[('El', 'DET'), ('cacique', 'NOUN'), ('