# <center>Clase 8: POS Tagging</center>

#### ¿Qué es taguear? ¿Para qué nos sirve?

● Asignarle a cada palabra su clase gramatical (‘part of speech’).  
● Convertir un objeto sentence (lista de palabras) en una lista de tuplas
(word, tag).  
● Paso previo necesario antes casi cualquier otra tarea de más alto nivel:
lemmatizing, chunking, parsing, word sense disambiguation.  


Para esto vamos a utilizar un corpus, a fin de evaluar los taggers que vayamos desarrollando y, en algunos casos, también para entrenarlos.

En principio podemos decir que hay dos clases de corpus:
1. Corpus ‘crudos’: cualquier texto en formato digital, como los cuentos que usaron en clases anteriores.
2. Corpus anotados: contienen algún tipo de anotación lingüística (clase de palabra, sintaxis, entidades, valoración, etc.)

Para esta clase vamos a usar corpus con anotación de clase de palabra (part of speech, POS). En NLTK tenemos dos corpus con anotación de clase de palabra en español:

● CoNLL2002 (Conference on Computational Natural Language Learning)  
● CessEsp (corpus multilingüe de español y catalán)

En este encuentro vamos a trabajar con el CoNLL2002.


El formato del CoNLL2002 es bastante simple, cada archivo del corpus tiene una palabra por línea, junto con su POStag y su namedEntity tag. Las líneas vacías señalan límites entre oraciones, y las líneas que dicen '-DOCSTART-' marcan límites entre artículos (el corpus se compone de artículos periodísticos).  

Palabra POSTag namedEntityTag
    
Según SP O  
los DA O  
datos NC O  
difundidos AQ O  
hoy RG O  
por SP O  
Telefónica AQ B-ORG  
, Fc O  
la DA O  
empresa NC O  
ha VAI O  
impuesto VMP O  
en SP O  
Sao NC B-LOC  
Paulo VMI I-LOC  
una DI O  
marca NC O  
mundial AQ O  
en SP O  
la DA O  
expansión NC O  
de SP O  
redes NC O  
de SP O  
telefonía NC O  
fija AQ O  

#### ¿Cómo cargo un corpus en NLTK?

In [3]:
import sys
sys.path.append("/home/dipa/proyectos/2019_cursoNLP/lib/python3.6/site-packages")
import nltk
nltk.download('conll2002')
from nltk.tokenize import word_tokenize
from nltk.corpus import cess_esp
from nltk.corpus import conll2002

[nltk_data] Downloading package conll2002 to /home/dipa/nltk_data...
[nltk_data]   Package conll2002 is already up-to-date!


In [4]:
print(conll2002.readme())

These files contain the train and test data for for the three parts of 
the CoNLL-2002 shared task:

   esp.testa: Spanish test data for the development stage
   esp.testb: Spanish test data
   esp.train: Spanish train data
   ned.testa: Dutch test data for the development stage
   ned.testb: Dutch test data
   ned.train: Dutch train data

All data files contain a single word per line with it associated 
named entity tag in the IOB2 format (Tjong Kim Sang and Veenstra,
EACL 1999). Sentence breaks are encoded by empty lines. Additionally
the Dutch data contains non-checked part-of-speech tags generated
by the MBT tagger (Daelemans et.al., WVLC 1996). In the Dutch data
article boundaries have been marked by a special tag (-DOCSTART-).

Associated url: http://lcg-www.uia.ac.be/conll2002/ner/


NOTES

* Files in these directories may only be used for research
  applications in the context of the CoNLL-2002 shared task.
  No permission is given for usage other applications especially
  not 

In [5]:
corpus_words = conll2002.words('esp.train')
corpus_tagged_words = conll2002.tagged_words('esp.train')
corpus_sents = conll2002.sents('esp.train')

Cuando cargamos un corpus utilizando nltk.corpus() disponemos de ciertos métodos propios de estos objetos:
   
● corpus.fileids()<br> 
● corpus.raw()  <br>
● corpus.words()  <br>
● corpus.sents()  <br>
● corpus.tagged_sents()<br> 


In [6]:
#print(type(corpus_words))
#print(corpus_words[:10])
print(corpus_sents[5])

['Por', 'su', 'parte', ',', 'el', 'Abogado', 'General', 'de', 'Victoria', ',', 'Rob', 'Hulls', ',', 'indicó', 'que', 'no', 'hay', 'nadie', 'que', 'controle', 'que', 'las', 'informaciones', 'contenidas', 'en', 'CrimeNet', 'son', 'veraces', '.']


#### Vamos a inspeccionar un poco el corpus

In [6]:
def corpus_info():
    print('Palabras: ' + str(len(corpus_words)))
    print('Oraciones: ' + str(len(corpus_sents)))
    print('Lexico: ' + str(len(set(corpus_words)))) #palabras unicas

corpus_info()

def tagset_info():
    tags = [str(tag) for (word, tag) in corpus_tagged_words]
    tagset = set(tags)
    print("Tagset", tagset)
    print("Cantidad de elementos en el tagset", len(tagset))

tagset_info()

Palabras: 264715
Oraciones: 8323
Lexico: 26099
Tagset {'VAN', 'Fd', 'PD', 'VMP', 'VSM', 'DP', 'CC', 'VSN', 'Fit', 'PP', 'RN', 'PI', 'CS', 'NC', 'PX', 'PN', 'Faa', 'VAP', 'NP', 'VSS', 'Fp', 'Fs', 'Y', 'Fe', 'DN', 'Fx', 'SP', 'AO', 'Z', 'PR', 'VAI', 'Fia', 'VAS', 'RG', 'Fat', 'P0', 'Ft', 'VSP', 'VAM', 'Fc', 'Fpt', 'Fpa', 'VMM', 'Fg', 'Fz', 'AQ', 'I', 'VMS', 'DI', 'VSI', 'PT', 'VSG', 'DD', 'DA', 'VMG', 'DT', 'VMI', 'VMN', 'Fh'}
Cantidad de elementos en el tagset 59


#### Frecuencia y frecuencia acumulada de las etiquetas

![alt text](tagset_dist.jpg "Frecuencia acumulada de tags")

![alt text](tagsettable.jpg "Frecuencia acumulada de tags")


# Taggers: modelos entrenables y no entrenables  

A partir de acá, vamos a empezar a introducir, modelar y evaluar una serie de taggers. <br>

Con 'taggers' nos referimos a algoritmos que toman como input un objeto sentence (una lista de palabras) y devuelven una lista de tuplas (palabra, tag). <br>

Cualquiera de estos taggers no toma como input un texto 'crudo' (por ejemplo una string, o un archivo en formato .txt) sino un texto ya tokenizado.

        -> Proceso: transformar una lista de palabras a una lista de tuplas (word, tag)  
        -> Preproceso: tokenizar la oración 
        
El módulo tokenize de nltk nos permite usar una función 'word_tokenize', que es un tokenizador genérico para cualquier idioma.

In [7]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')

sentence = u'Arriba las manos! Llegó el estado.'
dummy_tokenized = sentence.split(' ')
print(dummy_tokenized)
tokenized = word_tokenize(sentence)
print(tokenized)

['Arriba', 'las', 'manos!', 'Llegó', 'el', 'estado.']
['Arriba', 'las', 'manos', '!', 'Llegó', 'el', 'estado', '.']


[nltk_data] Downloading package punkt to /home/dipa/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Al igual que los corpus, todos los taggers generados en NLTK tienen algunos métodos en común:   
        ● tag()  
        ● tag_sents()  
        ● untag()  
        ● evaluate() 


Para trabajar con taggers entrenables es necesario dividir nuestros datos (en nuestro caso, el corpus con oraciones postaggeadas) en dos subconjuntos, uno de entrenamiento y otro de testeo. Lo que vamos hacer cuando trabajemos con taggers entrenables es generar un modelo a partir del conjunto de entrenamiento y evaluarlo posteriormente a partir del conjunto de test.

![alt text](traintest.png "Train and test sets")

In [9]:
train_tagged_sents = conll2002.tagged_sents('esp.train')
test_tagged_sents = conll2002.tagged_sents('esp.testa')

#print(train_tagged_sents[5])
print(test_tagged_sents)

[[('Sao', 'NC'), ('Paulo', 'VMI'), ('(', 'Fpa'), ('Brasil', 'NC'), (')', 'Fpt'), (',', 'Fc'), ('23', 'Z'), ('may', 'NC'), ('(', 'Fpa'), ('EFECOM', 'NP'), (')', 'Fpt'), ('.', 'Fp')], [('-', 'Fg')], ...]


¿Qué sucedería si emplearamos los mismos datos para entrenar y para evaluar el modelo?

## 1. DEFAULT TAGGER

In [10]:
nltk.download('punkt')
from nltk.tag import DefaultTagger

[nltk_data] Downloading package punkt to /home/dipa/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [11]:
# Definimos cuál es el tag mas probable
tags = [tag for (word, tag) in corpus_tagged_words]
default_tag = nltk.FreqDist(tags).max()

# Asignamos ese tag a cualquier token
default_tagger = DefaultTagger(default_tag)

print(default_tag)
print("Test", default_tagger.tag(['Hola', 'Mundo']))
print("Default", default_tagger.evaluate(test_tagged_sents))


NC
Test [('Hola', 'NC'), ('Mundo', 'NC')]
Default 0.24178523515295808


Aunque parezca trivial e innecesario, lo que acabamos de hacer nos va a ser útil en dos sentidos:  

● Establecer un baseline a partir del cual juzgar la performance del resto de los taggers  
● Como vamos a ver más adelante, si otro tagger no puede asignarle ningún tag a cierto token, es posible utilizar este default_tagger para que asigne el tag más probable del corpus.

# 2. REGEX TAGGER

La clase RegexpTagger() toma como argumento una lista de tuplas, en la que el primer elemento de cada
tupla es una expresión regular y el segundo elemento es el tag que se le va a asignar a las palabras que matchéen con ese pattern.  


In [12]:
from nltk.tag import RegexpTagger

patterns = [
 (r'.*ing$', 'VBG'),                # gerunds
 (r'.*ed$', 'VBD'),                 # simple past
 (r'.*es$', 'VBZ'),                 # 3rd singular present
 (r'.*ould$', 'MD'),                # modals
 (r'.*\'s$', 'NN$'),                # possessive nouns
 (r'.*s$', 'NNS'),                  # plural nouns
 (r'^-?[0-9]+(.[0-9]+)?$', 'CD'),   # cardinal numbers
 (r'.*', 'NC')                      # nouns (default)
 ]

'''
patterns = [
 (ur'.*ción$', 'NC')
]
'''

regexp_tagger = nltk.RegexpTagger(patterns)

In [13]:
print(regexp_tagger.tag(corpus_sents[3]))
print("Regex tagger", regexp_tagger.evaluate(test_tagged_sents))

[('La', 'NC'), ('petición', 'NC'), ('del', 'NC'), ('Abogado', 'NC'), ('General', 'NC'), ('tiene', 'NC'), ('lugar', 'NC'), ('después', 'NNS'), ('de', 'NC'), ('que', 'NC'), ('un', 'NC'), ('juez', 'NC'), ('del', 'NC'), ('Tribunal', 'NC'), ('Supremo', 'NC'), ('del', 'NC'), ('estado', 'NC'), ('de', 'NC'), ('Victoria', 'NC'), ('(', 'NC'), ('Australia', 'NC'), (')', 'NC'), ('se', 'NC'), ('viera', 'NC'), ('forzado', 'NC'), ('a', 'NC'), ('disolver', 'NC'), ('un', 'NC'), ('jurado', 'NC'), ('popular', 'NC'), ('y', 'NC'), ('suspender', 'NC'), ('el', 'NC'), ('proceso', 'NC'), ('ante', 'NC'), ('el', 'NC'), ('argumento', 'NC'), ('de', 'NC'), ('la', 'NC'), ('defensa', 'NC'), ('de', 'NC'), ('que', 'NC'), ('las', 'NNS'), ('personas', 'NNS'), ('que', 'NC'), ('lo', 'NC'), ('componían', 'NC'), ('podían', 'NC'), ('haber', 'NC'), ('obtenido', 'NC'), ('información', 'NC'), ('sobre', 'NC'), ('el', 'NC'), ('acusado', 'NC'), ('a', 'NC'), ('través', 'NNS'), ('de', 'NC'), ('la', 'NC'), ('página', 'NC'), ('CrimeNet

# 3. AFFIX TAGGER

El Affix tagger va a funcionar de manera similar al regexpTagger, solo que en vez de definir nosotros un conjunto de patterns, el tagger los va a aprender automáticamente basándose en afijos de una medida fija (uno, dos, tres, n caracteres), tanto al comienzo como al final de la palabra.  


In [14]:
from nltk.tag import AffixTagger

tagger = AffixTagger(train_tagged_sents)
print("Affix tagger", tagger.evaluate(test_tagged_sents))


Affix tagger 0.2871719290289666


Parameters:  
● affix_length – The length of the affixes that should be considered during training and tagging. Use negative numbers
for suffixes. (default = -3)  
● min_stem_length – Any words whose length is less than min_stem_length+abs(affix_length) will be assigned a tag of
None by this tagger. (default = 2)  


In [15]:
suffix_tagger = AffixTagger(train_tagged_sents, affix_length=-2)
print("Affix tagger II", suffix_tagger.evaluate(test_tagged_sents))

Affix tagger II 0.2951646732044669


# 4. LOOKUP TAGGER

In [25]:
fd = nltk.FreqDist(corpus_words)
cfd = nltk.ConditionalFreqDist(corpus_tagged_words)

most_freq_words = [word for word, tag in fd.most_common(500)]

print(cfd['de'].max())
print(most_freq_words[:30])

DA
SP
['de', ',', 'la', 'que', '.', 'el', 'en', '"', 'y', 'a', 'del', 'los', 'se', 'por', 'las', ')', '(', 'con', 'un', 'para', 'una', '-', 'su', 'al', 'El', 'no', 'ha', 'EFE', 'La', 'hoy']


Almacena el tag más usual para las n palabras más usuales.


In [26]:
likely_tags = dict((word, cfd[word].max()) for word in most_freq_words)
lookup_tagger = nltk.UnigramTagger(model=likely_tags)
print("Look up", lookup_tagger.evaluate(test_tagged_sents))

Look up 0.6125314135631011


# 5. BACKOFF

In [27]:
backoff_tagger = nltk.UnigramTagger(model=likely_tags, backoff=regexp_tagger)

#sent = corpus_sents[3]
#sent = nltk.tokenize.word_tokenize(u'Nunca seré policía')
sent = ['Nunca', 'seré', 'policía']
print(backoff_tagger.tag(sent))
print("Look up", backoff_tagger.evaluate(test_tagged_sents))

[('Nunca', 'NC'), ('seré', 'NC'), ('policía', 'NC')]
Look up 0.7401507851028853


# Evaluación de los modelos

### ¿Qué palabras tagueamos mal?

In [18]:
def bad_tagged_words(tagger):
    bad_tagged = []
    test_tags = [(word, tag) for sent in corpus_sents for (word, tag) in tagger.tag(sent)]
    gold_tags = [(word, tag) for sent in train_tagged_sents for (word, tag) in sent]
    for i, item in enumerate(test_tags):
        if item!=gold_tags[i]:
            # palabra, predicted tag, expected tag
            bad_tagged.append((item[0], item[1], gold_tags[i][1]))
    return bad_tagged

bad = bad_tagged_words(backoff_tagger)
print(bad[:10])

[('Melbourne', 'NC', 'NP'), ('Australia', 'NC', 'NP'), ('General', 'NC', 'AQ'), ('Daryl', 'NC', 'VMI'), ('Williams', 'NNS', 'NC'), ('subrayó', 'NC', 'VMI'), ('tomar', 'NC', 'VMN'), ('proteger', 'NC', 'VMN'), ('judicial', 'NC', 'AQ'), ('australiano', 'NC', 'AQ')]


### ¿Qué palabras tagueamos mal con más frecuencia?

In [19]:
from collections import Counter
bad_tagged_words = [i[0] for i in bad]
counter = Counter(bad_tagged_words)
sorted_counter = sorted(counter.items(), key=lambda kv: kv[1], reverse=True)
print(sorted_counter[:20])

[('que', 2910), ('lo', 141), ('José', 85), ('Madrid', 70), ('otros', 51), ('pasado', 49), ('tarde', 46), ('todo', 45), ('Carlos', 45), ('propio', 43), ('algunas', 43), ('/', 43), ('autoridades', 43), ('Central', 43), ('18', 43), ('asuntos', 42), ('todavía', 42), ('ellas', 42), ('cuya', 42), ('hecho', 42)]


### Matriz de confusión

In [20]:
#import seaborn as sn
#import pandas as pd
#import matplotlib.pyplot as plt
#import sklearn as skl

selectedTags = [i for i,j in nltk.FreqDist(tags).most_common(15)]
def confusion_matrix(tagger):
    test_tags = [tag for sent in corpus_sents for (word, tag) in tagger.tag(sent)]
    gold_tags = [tag for (word, tag) in corpus_tagged_words]
    labels = set(gold_tags)
    cm = skl.metrics.confusion_matrix(gold_tags, test_tags, 
                                     labels=selectedTags)
    cm = cm / cm.astype(np.float).sum(axis=1)
    return cm

#cm = confusion_matrix(backoff_tagger)
#df_cm = pd.DataFrame(cm, index = selectedTags, columns = selectedTags)
#plt.figure(figsize = (7,7))
#sn.heatmap(df_cm, annot=False, cmap=plt.cm.Blues)
#plt.show()

![alt text](heatmap.png)

¿Cuál es el límite teórico de un look-up tagger, considerando un corpus que contenga todas las posibles ocurrencias de un
lenguaje?  

a. En el juego de la vida vos podés triunfar.  
b. Juego al futbol todos los martes.  
c. Como agua para chocolate.  
d. Me como una pizza entera.  

In [21]:
from nltk.text import Text
my_text = Text(corpus_words)
concordance = my_text.concordance('juego')
print(concordance)

Displaying 25 of 36 matches:
n unánimes los juicios favorables al juego desarrollado por el equipo ganador ,
 fue " soberbio " por la calidad del juego y un estadio divido entre las dos af
l que dicen los diarios no mostró se juego brillante que hizo contra el Barcelo
dondo y McManaman . Tras destacar el juego de Raul , " La Gazzetta dello Sport 
te torneo para pulir sus esquemas de juego y analizar la situación de sus jugad
 , Azócar pegó un cuadrangular en el juego que perdió Oaxaca por 14-9 ante Pueb
identa del comité organizador de los juego olímpicos de Atenas 2004 , Miki Tzav
ión en el lenguaje , pero también un juego divertido " y para la quebequesa Dor
ka " es sencilla " : " jugar nuestro juego e intentar ganar y si yo marco o no 
midos y no han podido desarrollar el juego que llevan dentro . Además , quiero 
 va a dejar la piel en el terreno de juego defendiendo los colores . El que no 
recalcó la importancia del trofeo en juego . " Ganar la Copa no es una disculpa
a a nuestra

# Performance del look-up tagger con diferentes tamaños de diccionario

In [22]:
def performance(cfd, wordlist):
    lt = dict((word, cfd[word].max()) for word in wordlist)
    baseline_tagger = nltk.UnigramTagger(model=lt, backoff=nltk.DefaultTagger('NN'))
    return backoff_tagger.evaluate(train_tagged_sents)

def display():
    import pylab
    #Distribución de frecuencias de las palabras
    freq_dist = nltk.FreqDist(corpus_words)
    #Muestra la distribución de tags para cada palabra
    cfd = nltk.ConditionalFreqDist(corpus_tagged_words)
    sizes = 2 ** pylab.arange(16)
    perfs = [performance(cfd, [x[0] for x in freq_dist.most_common(size)]) for size in sizes]
    pylab.plot(sizes, perfs, '-bo')
    pylab.title('Performance del Look-up tagger')
    pylab.xlabel('Size')
    pylab.ylabel('Performance')
    pylab.show()

#display()

![alt text](lookup.jpg)

# N-gramas

Un n-grama es un subsecuencia de n items. En ese sentido, la clase de NLTK BigramTagger va a mirar dos items (la palabra que queremos taguear y la anterior), mientras que la clase TrigrammTagger va a decidir qué tag asignar teniendo en cuenta tres items. Estos dos tagger van a ser buenos lidiando con una de las características que tiene el lenguaje, el hecho de que el postag de una palabra depende del contexto en que esa palabra se encuentre.

Muchas palabras tienen diferentes postags de acuerdo a cómo sean usadas, como en el ejemplo que vimos más arriba de 'juego' que puede ser utilizada tanto como nombre común (su acepción más usual en nuestro corpus) y como verbo presente en primera persona del singular.

La idea detrás de los taggers de n-gramas es que mirando las palabras previas a la palabra target podemos inferir con mayor precisión cuál es el tag adecuado que debemos asignar.

# 6. UNIGRAM TAGGER

In [33]:
from nltk.tag import UnigramTagger

unitagger = UnigramTagger(train_tagged_sents)
print(unitagger.tag(word_tokenize(u'El perro me mordió fiero')))
print("Unigram", unitagger.evaluate(test_tagged_sents))

# WITH BACKOFF
unitagger = UnigramTagger(train_tagged_sents, backoff=default_tagger)
print(unitagger.tag(word_tokenize(u'El perro me mordió fiero')))
print("Unigram con backoff", unitagger.evaluate(test_tagged_sents))

[('El', 'DA'), ('perro', None), ('me', 'PP'), ('mordió', None), ('fiero', None)]
Unigram 0.8718326625474746
[('El', 'DA'), ('perro', 'NC'), ('me', 'PP'), ('mordió', 'NC'), ('fiero', 'NC')]
Unigram con backoff 0.9028021843055004


# 7. BIGRAM & TRIGRAM TAGGERS

In [30]:
from nltk.tag import BigramTagger, TrigramTagger

bitagger = BigramTagger(train_tagged_sents)
print("Bigram", bitagger.evaluate(test_tagged_sents))

tritagger = TrigramTagger(train_tagged_sents)
print("Trigram", tritagger.evaluate(test_tagged_sents))

Bigram 0.22523288551291498
Trigram 0.16943483929482456


Sparse data problem  
● ¿Por qué baja la accuracy?  
● ¿Qué pasa cuando no puede taguear una palabra nueva?  


In [31]:
sentence = nltk.tokenize.word_tokenize(u'Fue a la guerra')
sentence2 = nltk.tokenize.word_tokenize(u'Superman fue a la guerra')

print(bitagger.tag(sentence))
print(bitagger.tag(sentence2))

[('Fue', 'VSI'), ('a', 'SP'), ('la', 'DA'), ('guerra', 'NC')]
[('Superman', None), ('fue', None), ('a', None), ('la', None), ('guerra', None)]


# MORE BACKOFF

In [34]:
def more_backoff(train_tagged_sents, tagger_classes, backoff=None):
    for cls in tagger_classes:
        print(backoff)
        backoff = cls(train_tagged_sents, backoff=backoff)
        print(backoff)
    return backoff

backoff_tagger = more_backoff(train_tagged_sents, [UnigramTagger, BigramTagger, TrigramTagger], backoff=default_tagger)
print("More backoff", backoff_tagger.evaluate(test_tagged_sents))

<DefaultTagger: tag=NC>
<UnigramTagger: size=16893>
<UnigramTagger: size=16893>
<BigramTagger: size=4033>
<BigramTagger: size=4033>
<TrigramTagger: size=1778>
More backoff 0.9183908697541712


# Todos somos héroes anónimos

In [35]:
def anonimize_NP(corpus):
    ANONYMOUS = "anonymous"
    new = []
    for s in corpus:
        for i, (w, tag) in enumerate(s):
            if tag == u"NP":  # NP = proper noun in Parole tagset.
                s[i] = (ANONYMOUS, u"NP")
        new.append(s)
    return new

anon_train_tagged_sents = anonimize_NP(train_tagged_sents)
anon_test_tagged_sents = anonimize_NP(test_tagged_sents)

#anon_tagger = more_backoff(anon_train_tagged_sents, [UnigramTagger, BigramTagger, TrigramTagger], backoff=default_tagger)
anon_tagger = more_backoff(anon_train_tagged_sents, [UnigramTagger], backoff=default_tagger)
print("Anon tagger", anon_tagger.evaluate(anon_test_tagged_sents))

<DefaultTagger: tag=NC>
<UnigramTagger: size=16549>
Anon tagger 0.9093966706346956


# Escritura automática a partir de bigramas

In [38]:
from nltk.corpus import PlaintextCorpusReader
from random import choice
import os


def max_model(cfdist, word, num=15):
    autotext = ""
    for i in range(num):
        autotext += word + " "
        word = cfdist[word].max()
    return autotext


def choice_model(cfdist, word, num=15):
    autotext = ""
    for i in range(num):
        autotext += word + " "
        wordlist = list(cfdist[word])
        #print(wordlist)
        word = choice(wordlist)
    return autotext


def poem(text, cfd, model, lines=10, num=10):
    poem = ''
    for i in range(lines):
        word = choice(text)
        autotext = model(cfd, word, num)
        poem += autotext + '\n'
    return poem

corpus = PlaintextCorpusReader(os.getcwd(), "[a-zA-Z0-9]*.txt")
text = corpus.words('martinfierro.txt')
bigrams = nltk.bigrams(text)
cfd = nltk.ConditionalFreqDist(bigrams)
autotext1 = max_model(cfd, 'Cuando')
autotext2 = choice_model(cfd,"Cuando")

print(autotext1)
print('\n')
print(poem(text, cfd, max_model))
print('\n')
print(poem(text, cfd, choice_model))


Cuando yo me he visto y me he visto y me he visto y me 


con el gaucho que el gaucho que el gaucho que 
va quedando poco andar con el gaucho que el gaucho 
; y me he visto y me he visto y 
del mesmo que el gaucho que el gaucho que el 
esto me he visto y me he visto y me 
jogón a la gente , y me he visto y 
hasta que el gaucho que el gaucho que el gaucho 
como el gaucho que el gaucho que el gaucho que 
cuidaría de la gente , y me he visto y 
estao escondidos aguaitando atrás ; y me he visto y 



era más es solo muero . Era la cucha - 
loba . V - A qué servicio ; busco agua 
estribo esté de alma llena ; nunca le dueblen las 
aquel pago ya escuché sin tardanza , ¿ para esconder 
ni galopiar ; no parese con rigor : quinientos juntos 
! salieron como cosa se hallan bichos de aquella mezcolanza 
hallan bichos de ñandú ; yerba y luego sus vicios 
estaquiaron , dentrándole a disparar . Había sido medio frasco 
, vive uno , era todito mi pensamiento ; que 
, vamos juntos al finao ni con que c

# Pickles

<img src="rick.png" alt="Drawing" style="width: 200px;"/>

Pickles es un módulo de python que nos permite serializar objetos, es decir, guardar en un archivo cualquier objeto que hayamos instanciado en python.

Los tagger que vienen a continuación requieren un entrenamiento, por lo que van a tardar bastante en generar el tagger. Por eso, una vez entrenados resulta conveniente almacenarlos en un archivos usando pickle, para poder reutilizarlos posteriormente sin necesidad de re-entrenarlos.

Tiene dos métodos básicos: dump() y load()

In [37]:
import pickle

dummyVariable = "Nunca seré policía, de provincia ni de capital"
# Serializo el objeto dummyVariable
pickle.dump(dummyVariable, open("fuck.p", "wb"))

# Lo cargo en una nueva variable
loadVariable = pickle.load(open("fuck.p", "rb"))
print(loadVariable)

Nunca seré policía, de provincia ni de capital


# 8. BRILL TAGGER

El Brill tagger es un método inductivo para taggear. Fue desarrollado en 1993 por Eric Brill en su tesis de doctorado(https://dl.acm.org/citation.cfm?doid=974499.974526). <br>

Puede ser descripto como un tagger transformacional basado en minimizar la cantidad de errores. Vendría a ser una forma de aprendizaje supervisado que intenta minimizar el error, sumado a un proceso transformacional, en el sentido de que cada tag es asignado a cada palabra y luego es revisado (y potencialmente cambiado) a partir de un set de reglas predefinidas que fueron inferidas del corpus. Aplicando iterativamente estas reglas, modificando los tags incorrectos, logra aumentar la precisión de cualquiera de los tags que vimos anteriormente. Las reglas que genera automáticamente permiten inferir información valiosa, como son las reglas morfosintácticas de combinación de las palabras, que luego son utilizadas en el proceso de tagueo.

Es decir que, una vez que a cada palabra se le ha asignado un tag provisional, una serie de reglas contextuales son aplicadas iterativamente, con el objetivo de "corregir" tags erroneos, a partir del exámen de pequeñas cantidades de contexto.

tag1 → tag2 IF Condition
1. Utiliza otro tagger para asignarle tags provisorios a cada palabra.  
2. Aplica iterativamente reglas basadas en el contexto.  
3. A cada regla se le asigna un puntaje (errores que corrige - errores que produce).  
4. Se queda con las reglas que maximizan la performance del tagger.
5. Las aplica a todo el análisis.  

Utiliza dos argumentos:  
● Tagger  
● Lista de templates



In [38]:
from nltk.tag import brill, brill_trainer

def train_brill_tagger(initial_tagger, train_sents, **kwargs):
    templates = [
        brill.Template(brill.Pos([-1])),
        brill.Template(brill.Pos([1])),
        brill.Template(brill.Pos([-2])),
        brill.Template(brill.Pos([2])),
        brill.Template(brill.Pos([-2, -1])),
        brill.Template(brill.Pos([1, 2])),
        brill.Template(brill.Pos([-3, -2, -1])),
        brill.Template(brill.Pos([1, 2, 3])),
        brill.Template(brill.Pos([-1]), brill.Pos([1])),
        brill.Template(brill.Word([-1])),
        brill.Template(brill.Word([1])),
        brill.Template(brill.Word([-2])),
        brill.Template(brill.Word([2])),
        brill.Template(brill.Word([-2, -1])),
        brill.Template(brill.Word([1, 2])),
        brill.Template(brill.Word([-3, -2, -1])),
        brill.Template(brill.Word([1, 2, 3])),
        brill.Template(brill.Word([-1]), brill.Word([1])),
    ]
    trainer = brill_trainer.BrillTaggerTrainer(initial_tagger, templates, deterministic=True, trace=True)

    return trainer.train(train_sents, max_rules=20, **kwargs)

initial_tagger = more_backoff(train_tagged_sents, [UnigramTagger, BigramTagger, TrigramTagger], backoff=default_tagger)
#BrillTagger = train_brill_tagger(initial_tagger, train_tagged_sents)
#pickle.dump(BrillTagger, open("BrillTagger.p", "wb"))
BrillTagger = pickle.load(open("BrillTagger.p", "rb"))

print("\n\n")
for rule in BrillTagger.rules(): print(str(rule.format('verbose')).encode('utf-8'))
print("\n\n")
print(BrillTagger.train_stats())
print("\n\n")
print("Brill tagger", BrillTagger.evaluate(test_tagged_sents))

<DefaultTagger: tag=NC>
<UnigramTagger: size=16893>
<UnigramTagger: size=16893>
<BigramTagger: size=4033>
<BigramTagger: size=4033>
<TrigramTagger: size=1778>



b'PR -> CS if the Pos of words i-2...i-1 is "VMI"'
b'PR -> CS if the Pos of the following word is "SP"'
b'PR -> CS if the Pos of the following word is "Fe"'
b'AQ -> VMP if the Pos of the preceding word is "VAI"'
b'DA -> PP if the Pos of the following word is "VMI"'
b'PR -> CS if the Pos of the preceding word is "SP", and the Pos of the following word is "DA"'
b'DI -> PI if the Pos of the following word is "SP"'
b'PR -> CS if the Pos of the preceding word is "CS"'
b'PR -> CS if the Pos of the preceding word is "RG"'
b'NP -> NC if the Pos of words i-2...i-1 is "SP"'
b'AQ -> NC if the Pos of the preceding word is "SP", and the Pos of the following word is "AQ"'
b'DN -> PN if the Pos of the following word is "SP"'
b'PR -> CS if the Pos of the following word is "VMN"'
b'PR -> CS if the Pos of the preceding word is "VMN"'
b'DI -> PI

# Taggers basados en clasificadores automáticos

El postagging puede ser entendido como un problema de clasificación, en el que debemos clasificar ciertos inputs (tokens) entre una lista de categorías posibles (tags). Para automatizar esta clasificación podemos valernos de modelos estadísticos. Estos van a predecir las probabilidades de cada tag para cada uno de los inputs a partir de un conjunto de variables independientes que nosotros definamos.

2 componentes:  
● Feature extractor  
● Machine learning algorithm  

Clasificación supervisada:  
● Asigna una etiqueta para determinado input  
● Basándose en un corpora de entrenamiento que contiene las etiquetas correctas. 

![alt text](1.jpg)


In [41]:
# Este es el source code de NLTK, vamos a intentar leer la función de feature_detector que utiliza:

from nltk.tag.sequential import ClassifierBasedTagger

class ClassifierBasedPOSTagger(ClassifierBasedTagger):
    """
    A classifier based part of speech tagger.
    """

    def feature_detector(self, tokens, index, history):
        word = tokens[index]
        if index == 0:
            prevword = prevprevword = None
            prevtag = prevprevtag = None
        elif index == 1:
            prevword = tokens[index-1].lower()
            prevprevword = None
            prevtag = history[index-1]
            prevprevtag = None
        else:
            prevword = tokens[index-1].lower()
            prevprevword = tokens[index-2].lower()
            prevtag = history[index-1]
            prevprevtag = history[index-2]

        if re.match('[0-9]+(\.[0-9]*)?|[0-9]*\.[0-9]+$', word):
            shape = 'number'
        elif re.match('\W+$', word):
            shape = 'punct'
        elif re.match('[A-Z][a-z]+$', word):
            shape = 'upcase'
        elif re.match('[a-z]+$', word):
            shape = 'downcase'
        elif re.match('\w+$', word):
            shape = 'mixedcase'
        else:
            shape = 'other'

        features = {
            'prevtag': prevtag,
            'prevprevtag': prevprevtag,
            'word': word,
            'word.lower': word.lower(),
            'suffix3': word.lower()[-3:],
            'suffix2': word.lower()[-2:],
            'suffix1': word.lower()[-1:],
            'prevprevword': prevprevword,
            'prevword': prevword,
            'prevtag+word': '%s+%s' % (prevtag, word.lower()),
            'prevprevtag+word': '%s+%s' % (prevprevtag, word.lower()),
            'prevword+word': '%s+%s' % (prevword, word.lower()),
            'shape': shape,
            }
        return features

# 9. Naive Bayes Classiffier

Este clasificador 'ingenuo' se basa en el teorema de Bayes:

![alt text](bayes.jpeg)

1. Calcula la probabilidad previa de cada tag, chequeando la etiqueta de cada uno en el corpus de entrenamiento.  
2. Cada rasgo contribuye “votando en contra” de aquellas etiquetas que no co-ocurren con él.  

<center>P(features, label) = P(label) × P(features|label)</center>

![alt text](5.jpg)


In [40]:
from nltk.tag.sequential import ClassifierBasedPOSTagger

#NaiveBayesTagger = ClassifierBasedPOSTagger(train=train_tagged_sents)
#pickle.dump(NaiveBayesTagger, open("NaiveBayesTagger.p", "wb"))
NaiveBayesTagger = pickle.load(open("NaiveBayesTagger.p", "rb"))
print("Bayes Classifier", NaiveBayesTagger.evaluate(test_tagged_sents))

Bayes Classifier 0.9238705288815827


## Conclusión:  

●Los taggers basados en clasificadores automáticos son los que tienen mejor performance, pero también son los más lentos.  
●Si necesitamos un modulo rápido, lo mejor es usar un Bril Tagger precedido por una cadena de taggers basados en n-gramas.  

--> Brill tagger es un modelo más robusto y económico.


El desarrollo de taggers tuvo un rol central en el crecimiento de los enfoques estadísticos en el procesamiento del lenguaje natural.  
En los comienzos de la década de los 90' la performance de los taggers estadísticos brindó una prueba certera de que se podía resolver al menos una pequeña porción del entendimiento linguistico sin necesidad de acceder a un conocimiento más profundo de la estructura gramatical como es la sintaxis.


# Lematización

Lematizar es asignarle a cada palabra su forma de diccionario. Al igual que sucede con los algoritmos de stemming, es un proceso sumamente util para reducir la dimensionalidad de los datos y así mejorar tanto la eficiencia y como la eficacia de cualquier algoritmo de más alto nivel (un clasificador, por ejemplo).

Una vez que tenemos la clase de palabra de cada forma léxica, si contamos con un diccionario de formas y lemmas posibles (como el que provee freeling) lematizar se convierte en algo bastante trivial.

En el archivo dicc.src tenemos el diccionario de Freeling. Está organizado de esta manera:

promedio promediar VMIP1S0 promedio NCMS000
que que CS que PR0CN000
no no NCMS000 no RN
noble noble AQ0CS0 noble NCCS000

El primer ítem es una forma léxica. A partir de ahí puede haber cualquier cantidad de pares lemma/tag, tantos como posibles tags tenga la palabra.

[Acá](/edit/lematizador.py) está el código de un lematizador bastante trivial que armé. Lo que hace es taguear el texto que querramos lematizar y luego buscar en el diccionario de freeling a qué lemma de esa forma léxica le corresponde ese tag. Para que la búsqueda sea más rápida, convertí el archivo de texto en un diccionario de python y lo guardé en el archivo freeling_dicc.p

In [87]:
from lematizador import Lemmatizer

myLemmatizer = Lemmatizer(NaiveBayesTagger, debug=True)

In [88]:
sample = u"Nunca te creí. Las calles de Buenos Aires tienen esas casas azules."
myLemmatizer.process(sample)

[[('nunca', 'nunca'), ('te', 'te'), ('creí', 'creí'), ('.', '.')],
 [('las', 'las'),
  ('calles', 'calles'),
  ('de', 'de'),
  ('buenos', 'buenos'),
  ('aires', 'aires'),
  ('tienen', 'tienen'),
  ('esas', 'esas'),
  ('casas', 'casas'),
  ('azules', 'azules'),
  ('.', '.')]]