# Práctica 7

## Introducción

En este primer ejercicio vamos a jugar con uno de los corpus en español que está disponible desde NLTK: CESS_ESP, un *treebank* anotado a partir de una colección de noticias en español. 

Este corpus está actualmente incluído en un recurso más amplio, el corpus [AnCora](http://clic.ub.edu/corpus/es) que desarrollan en la Universitat de Barcelona. Para más información, podéis leer el artículo de M. Taulé, M. A. Martí y M. Recasens "[AnCora: Multilevel Annotated Corpora for Catalan and Spanish](http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf)". *Proceedings of 6th International Conference on Language Resources and Evaluation (LREC 2008)*. 2008. Marrakesh (Morocco).

Antes de nada, ejecuta la siguiente celda para acceder al corpus y a otras herramientas que vamos a usar en este ejercicio.

In [1]:
import nltk
from nltk.corpus import cess_esp

## Ejercicio 1

Carga en una variable llamada `palabras` las palabras del corpus `cess_esp` etiquetas morfológicamente. Imprime por pantalla:

- las 50 primeras palabras del corpus.
- el número de palabras que contiene este corpus.

In [None]:
# escribe tu código aquí


Fíjate que las etiquetas que se usan en el treebank español son diferentes a las etiquetas que habíamos visto en inglés. Para empezar, el español es una lengua con una morfología más rica: si queremos reflejar el género y el número de los adjetivos, por ejemplo, no nos vale con etiquetar los adjetivos con una simple `JJ`.


Echa un vistazo a las etiquetas morfológicas y trata de interpretar su significado. En estas primera 50 palabras encontramos:

- `da0ms0`: determinante artículo masculino singular
- `ncms000`: nombre común masculino singular
- `aq0cs0`: adjetivo calificativo de género común singular
- `np00000`: nombre propio 
- `sps00`: preposición
- `vmis3s0`: verbo principal indicativo pasado 3ª persona del singular


## Ejercicio 2

Aquí tienes el [la explicación y el catálogo completo de etiquetas](http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html) usadas en este corpus. A partir de lo que aprendas en el enlace anterior:

- Imprime por pantalla solo las palabras etiquetadas como **formas verbales en 3ª persona del plural del pretérito perfecto simple de indicativo**.
- Calcula qué porcentaje del total representan las palabras del corpus CEES_ESP etiquetadas como formas verbales en 3ª persona del plural del pretérito perfecto simple de indicativo.

In [None]:
# escribe tu código aquí


## Ejercicio 3

Las etiquetas morfológicas que hemos visto son bastante complejas, ya que incorporan los rasgos de la flexión del español. Afortunadamente, NLTK permite cargar los corpus etiquetados con [un conjunto de etiquetas universal y simplificado](http://arxiv.org/abs/1104.2086) utilizando la opcion `tagset='universal'`. Para ello, ejecuta la siguiente celda y fíjate cómo hemos cargado una lista de oraciones etiquetadas con esta nueva versión de las etiquetas.

In [3]:
cess_esp._tagset = 'es-ancora'
oraciones = cess_esp.tagged_sents(tagset='universal')
print(oraciones[:2])

[[('El', 'DET'), ('grupo', 'NOUN'), ('estatal', 'ADJ'), ('Electricité_de_France', 'NOUN'), ('-Fpa-', '.'), ('EDF', 'NOUN'), ('-Fpt-', '.'), ('anunció', 'VERB'), ('hoy', 'ADV'), (',', '.'), ('jueves', 'X'), (',', '.'), ('la', 'DET'), ('compra', 'NOUN'), ('del', 'ADP'), ('51_por_ciento', 'NUM'), ('de', 'ADP'), ('la', 'DET'), ('empresa', 'NOUN'), ('mexicana', 'ADJ'), ('Electricidad_Águila_de_Altamira', 'NOUN'), ('-Fpa-', '.'), ('EAA', 'NOUN'), ('-Fpt-', '.'), (',', '.'), ('creada', 'ADJ'), ('por', 'ADP'), ('el', 'DET'), ('japonés', 'ADJ'), ('Mitsubishi_Corporation', 'NOUN'), ('para', 'ADP'), ('poner_en_marcha', 'VERB'), ('una', 'DET'), ('central', 'NOUN'), ('de', 'ADP'), ('gas', 'NOUN'), ('de', 'ADP'), ('495', 'X'), ('megavatios', 'NOUN'), ('.', '.')], [('Una', 'DET'), ('portavoz', 'NOUN'), ('de', 'ADP'), ('EDF', 'NOUN'), ('explicó', 'VERB'), ('a', 'ADP'), ('EFE', 'NOUN'), ('que', 'CONJ'), ('el', 'DET'), ('proyecto', 'NOUN'), ('para', 'ADP'), ('la', 'DET'), ('construcción', 'NOUN'), ('de'

Estas etiquetas son más sencillas, ¿verdad? Básicamente tenemos `DET` para determinante, `NOUN` para nombre, `VERB` para verbo, `ADJ` para adjetivo, `ADP` para preposición, etc.


Vamos a utilizar este corpus para entrenar varios etiquetadores basados en ngramas, tal y como hicimos en clase y se explica en la presentación `nltk-pos`. 

Construye de manera incremental cuatro etiquetadores.

1. un etiquetador que por defecto que asuma que una palabra desconocida es un nombre común en masculino singular y asigne la etiqueta correspondiente a todas las palabras.
2. un etiquetador basado en unigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.
3. un etiquetador basado en bigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.
4. un etiquetador basado en trigramas que aprenda a partir de la lista `oraciones` y utilice en etiquetador anterior como respaldo.

In [None]:
# escribe tu código aquí
oraciones[0]

In [None]:
# prueba tu etiquetador basado en trigramas con las siguientes oraciones que, con toda seguridad, no aparecen en el corpus
print(trigramTagger.tag("Este banco está ocupado por un padre y por un hijo. El padre se llama Juan y el hijo ya te lo he dicho".split()))
print(trigramTagger.tag("""El presidente del gobierno por fin ha dado la cara para anunciar aumentos de presupuesto en Educación y Sanidad a costa de dejar de subvencionar las empresas de los amigotes.""".split()))
print(trigramTagger.tag("El cacique corrupto y la tonadillera se comerán el turrón en prisión.".split()))