![agents](images/header.jpg)
# Etiquetado gramatical
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/nlp/blob/master/10.%20Etiquetado.ipynb)

## Definición

El **etiquetado gramatical** es el proceso de asignar a cada una de las palabras de un texto una etiqueta que describe su categoría gramatical. Se suele denominar como **POS tagging** o **POST** (por las siglas en inglés *part-of-speech tagging*). 

El etiquetado gramatical es una actividad muy costosa que actualmente se realiza con buen nivel de éxito (97% en inglés, aproximadamente) utilizando métodos de aprendizaje automático. Por otra parte, esta identificación de palabras permite hacer un análisis más profundo del texto. Consideremos, por ejemplo, el siguiente modelo de lexicón:

![](images/lexicon.png)

Aquí, representamos un registro léxico $Lx$ como:

$$Lx = <l,c,A>$$	

donde $l$ es el lexema/token que estamos registrando, $c$ es la *clase semántica* a la que pertenece $l$ y $A = (a, e, g)$ es una tercia que define las actitudes (polaridad) asociadas al lexema: ($a$) es la actitud del actor que expresa la opinión, ($e$) es la opinión, posiblemente nula, del escritor que publica o comenta la opinión del actor y ($g$) la actitud general de la comunidad hacia la opinión. $a$,$e$ y $g$ toman los siguientes posibles valores en escala de Likert:

$$a,e,g ∈〈neg-,neg,neutral,pos,pos+〉$$

y éstas, a su vez, pueden expresarse de manera difusa:

![](images\fuzzy_opinion5.png)

Esta estructura permite hacer un análisis de polaridad desde puntos de vista semántico y pragmático, pero requiere identificar el tipo de palabra utilizada.

Existen diferentes algoritmos para realizar el etiquetado gramatical de un corpus. Algunos de estos métodos se basan en el uso de lexicones formados por palabras ya documentadas, siendo el más famoso el **[Corpus Penn Treebank](https://web.archive.org/web/19970614160127/http://www.cis.upenn.edu:80/~treebank/)**, desarrollado por la Universidad de Pensilvania. Otros métodos utilizan reglas gramaticales para identificar el tipo de palabra, dependiendo de su posición en el texto. En cualquier caso, se suele utilizar el estándar de etiquetado utilizado en el corpus Penn Treebank. Este estándar se basa en una colección de conceptos gramaticales no bien ordenados, como se muestra a continuación.

### Categorías gramaticales

Las categorías gramaticales permiten clasificar las palabras en tanto componentes de una oración. En español se reconocen nueve partes de la oración:

1. Sustantivo (o nombre): es una clase de palabra cuyos referentes son clases de entidades fijas: personas, seres vivos, cosas o conceptos abstractos.
2. Adjetivo: es una clase de palabra que actúa como modificador de un sustantivo o como atributo.
3. Artículo: es una clase de palabra utilizada para actualizar o precisar la referencia de un sustantivo, transformándolo de desconocido y abstracto a conocido y concreto ("*un libro*" vs. "*el libro*"). 
4. Pronombre:  es una clase de palabra que sustituye a un sustantivo y realiza sus mismas funciones.
5. Verbo: El Verbo es una clase de palabra que funciona como núcleo del predicado de una oración. Expresa acción, movimiento, existencia, consecución, condición o estado del sujeto. 
6. Adverbio: es una clase de palabra que tiene la función de modificar verbos (ven **aquí**), adverbios (**demasiado** tarde) o adjetivos (**muy** inteligente). Expresan circunstancias, como pueden ser modo, lugar, tiempo, cantidad, afirmación, duda, etc.
7. Interjección: es una clase de palabra que equivale a una oración completa que expresa un sentimiento vivo (¡*ay*!), una llamada enérgica (¡*hey*!) o que describen, elementalmente, una acción (¡*zas*!, ¡*pum*!).
8. Preposición: es una clase de palabra que une palabras o sintagmas dentro de una oración: *a, ante, bajo, cabe, con, contra, de, desde, entre, hacia*, etc.
9. Conjunción: es una clase de palabra que funciona como enlace entre palabras (José **y** María), sintagmas (Mi perro **y** el tuyo) u oraciones (luchar **para** ganar).

En la lingüística moderna, esta clasificación se considera obsoleta y se ha reemplazado por una clasificación funcional, basada en conceptos como:

1. Sintagma nominal: es un grupo de palabras cuyo núcleo es un sustantivo, un pronombre o una palabra sustantivada (el **azul** del mar).
2. Sintagma determinante: es un tipo de sintagma en el que el núcleo sintáctico es un determinante. El complemento de un sintagma determinante es un sintagma nominal: `Sintagma determinante` $\to$ (`Determinante`) + `Sintagma nominal`.
3. Sintagma verbal: es un sintagma cuyo núcleo es un verbo.
4. Complemento sintáctico: es un sintagma que completa, precisa, aclara, extiende o incrementa el significado del núcleo de otro sintagma.
5. Determinante: es un tipo de palabra que identifica al sustantivo y precisa su significado (**aquel** gato negro).
6. Construcción preposicional: es un sintagma constituido por una preposición (u otro tipo de adposición) que funciona como núcleo sintáctico y asigna caso al sintagma (típicamente nominal o determinante) que le sigue, como en "libro **de física**" o en "viento **del norte**".



### Etiquetas utilizadas en el proyecto *Penn Treebank*

El corpus *Penn Treebank* utiliza una combinación de conceptos para derivar una nomenclatura de etiquetas en forma de árbol, siendo las principales etiquetas las que se meustran a continuación:

1.	**CC** - Conjunciones coordinantes
2.	**CD** - Número cardinal
3.	**DT** - Determinante
4.	**EX** - Existencial (haber)
5.	**FW** - Palabra extranjera
6.	**IN** - Preposiciones o conjunciones subordinantes 
7.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> **JJ** - Adjetivo</span>
8.	**JJR** - Adjetivo comparativo
9.	**JJS** - Adjetivo superlativo
10.	**LS** - Marcador de elemento de lista
11.	**MD** - Elemento auxiliar Modal
12.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> **NN** - Sustantivo singular o colectivo</span>
13.	**NNS** - Sustantivo plural
14.	**NNP** - Nombre propio, singular
15.	**NNPS** - Nombre propio, plural
16.	**PDT** - Pre Determinante
17.	**POS** - Marcador de genitivo posesivo
18.	**PRP** - Pronombre personal
19.	**PRP\$** - Pronombre posesivo
20.	**RB** - Adverbio
21.	**RBR** - Adverbio comparativo
22.	**RBS** - Adverbio superlativo
23.	**RP** - Participio
24.	**SYM** - Símbolo
25.	**TO** - La palabra "*to*", como preposición o como marcador del infinitivo
26.	**UH** - Interjección
27.	<span style="background-color:blue; color:white; width:100%; padding: 0 10px 0 10px;"> 
**VB** - Verbo, forma base </span>
28.	**VBD** - Verbo, pretérito
29.	**VBG** - Verbo, gerundio
30.	**VBN** - Verbo, pasado participio
31.	**VBP** - Verbo, singular presente, no 3a persona
32.	**VBZ** - Verbo, 3a persona singular presente
33.	**WDT** - Determinante Wh, palabra usada como determinante
34.	**WP** - Pronombre Wh 
35.	**WP\$** - Pronombre Wh  posesivo
36.	**WRB** - Adverbio Wh


### Etiquetado utilizando *NLTK*
A continuación, emplearemos un etiquetador gramatical pre entrenado incluido en el paquete **NLTK** de Python para etiquetar las palabras contenidas en la colección de revisiones de películas. 

In [1]:
import numpy as np
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords 
from bs4 import BeautifulSoup

from IPython.display import display

In [2]:
movies_reviews = pd.read_csv("Data sets/Movies Reviews/labeledTrainData.tsv", sep='\t')
movies_reviews.review = list(map(lambda row: re.sub("[^a-zA-Z]", " ", 
                                BeautifulSoup(row, "lxml").get_text().lower()), 
                                 movies_reviews.review))
stops = set(stopwords.words("english"))                  
movies_reviews["words"] = list(map(lambda row: [w for w in row.split() if not w in stops], 
                                   movies_reviews.review))
display(movies_reviews.head())

Unnamed: 0,id,sentiment,review,words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ..."


A continuación, realizamos el etiquetado a partir del texto completo, para mantener la posición de las palabras, pero reservamos solamente las palabras que aparecen en nuestro lexicón (que, en este caso, es muy simple, pero que tratándose del lexicón de Comics, aprovecharíamos el trabajo de limpieza ya realizado). Además, eliminamos duplicados *palabra-etiqueta*.

In [3]:
movies_reviews["tagged_words"] = list(map(lambda row, words: list(set([w for w in 
                                                       nltk.pos_tag(nltk.word_tokenize(row))
                                                       if w[0] in words])), 
                                   movies_reviews.review, movies_reviews.words))
display(movies_reviews.head())

Unnamed: 0,id,sentiment,review,words,tagged_words
0,5814_8,1,with all this stuff going down at the moment w...,"[stuff, going, moment, mj, started, listening,...","[(powerful, JJ), (think, VBP), (messages, NNS)..."
1,2381_9,1,the classic war of the worlds by timothy hi...,"[classic, war, worlds, timothy, hines, enterta...","[(critics, NNS), (every, DT), (succeeds, VBZ),..."
2,7759_3,0,the film starts with a manager nicholas bell ...,"[film, starts, manager, nicholas, bell, giving...","[(slow, JJ), (fence, NN), (opened, VBN), (spec..."
3,3630_4,0,it must be assumed that those who praised this...,"[must, assumed, praised, film, greatest, filme...","[(appear, VB), (andrews, NNS), (slow, JJ), (de..."
4,9495_8,1,superbly trashy and wondrously unpretentious ...,"[superbly, trashy, wondrously, unpretentious, ...","[(love, NN), (makes, VBZ), (wondrously, RB), (..."


Las palabras ya etiquetadas, para una de las revisiones, son:

In [4]:
print(movies_reviews["tagged_words"][0])

[('powerful', 'JJ'), ('think', 'VBP'), ('messages', 'NNS'), ('usually', 'RB'), ('guy', 'NN'), ('make', 'VB'), ('impressive', 'JJ'), ('car', 'NN'), ('ranted', 'VBD'), ('like', 'IN'), ('planet', 'NN'), ('press', 'NN'), ('closed', 'JJ'), ('one', 'CD'), ('boring', 'VBG'), ('guilty', 'JJ'), ('turning', 'VBG'), ('things', 'NNS'), ('latter', 'NN'), ('call', 'VB'), ('wants', 'VBZ'), ('odd', 'JJ'), ('away', 'RB'), ('hope', 'VBP'), ('well', 'RB'), ('like', 'JJ'), ('egotist', 'NN'), ('bit', 'NN'), ('complex', 'JJ'), ('girl', 'NN'), ('performing', 'VBG'), ('mj', 'VB'), ('smooth', 'JJ'), ('course', 'NN'), ('drug', 'NN'), ('speed', 'NN'), ('stupid', 'JJ'), ('really', 'RB'), ('thought', 'VBN'), ('made', 'VBD'), ('originally', 'RB'), ('bad', 'JJ'), ('either', 'CC'), ('liars', 'NNS'), ('documentary', 'NN'), ('find', 'VB'), ('visually', 'RB'), ('watched', 'VBD'), ('mind', 'NN'), ('behind', 'IN'), ('hates', 'VBZ'), ('kiddy', 'NN'), ('jackson', 'NN'), ('supplying', 'VBG'), ('watching', 'VBG'), ('insight',

El significado de cada etiqueta puede obtenerse mediante el método `nltk.help.upenn_tagset`:

In [5]:
nltk.help.upenn_tagset('NN')
nn = []
for word in movies_reviews["tagged_words"][0]: 
    if 'NN' in word[1]: 
        nn.append(word[0])
print(nn, "\n")

nltk.help.upenn_tagset('VB')
vbg = []
for word in movies_reviews["tagged_words"][0]: 
    if 'VB' in word[1]: 
        vbg.append(word[0])
print(vbg, "\n")

nltk.help.upenn_tagset('JJ')
jj = []
for word in movies_reviews["tagged_words"][0]: 
    if 'JJ' in word[1]: 
        jj.append(word[0])
print(jj, "\n")

nltk.help.upenn_tagset('RB')
rb = []
for word in movies_reviews["tagged_words"][0]: 
    if 'RB' in word[1]: 
        rb.append(word[0])
print(rb, "\n")


NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...
['messages', 'guy', 'car', 'planet', 'press', 'things', 'latter', 'egotist', 'bit', 'girl', 'course', 'drug', 'speed', 'liars', 'documentary', 'mind', 'kiddy', 'jackson', 'insight', 'saint', 'attention', 'wiz', 'patience', 'line', 'movie', 'dunno', 'sequence', 'michael', 'part', 'stuff', 'directors', 'doors', 'bunch', 'dance', 'fact', 'drugs', 'music', 'feature', 'kay', 'minutes', 'joe', 'robot', 'fans', 'eighties', 'scene', 'moonwalker', 'biography', 'lord', 'character', 'level', 'cinema', 'demon', 'moment', 'kid', 'mj', 'subject', 'michael', 'plans', 'buddy', 'making', 'pesci', 'message', 'film', 'feeling', 'people', 'director', 'lots'] 

VB: verb, base form
    ask assemble assess assign assume atone attention avoid bake balkanize
    bank begin behold believe bend benefit bevel beware b

Puede observarse la estructura de árbol (no bien documentada :-|) del corpus *Penn Treebank*, por ejemplo en el caso de los nombres, donde la etiqueta `NN`integra las etiquetas `NNS`, `NNP` y `NNPS`:

In [6]:
nltk.help.upenn_tagset('NN')
nn = []
for word in movies_reviews["tagged_words"][0]: 
    if 'NN' in word[1]: 
        nn.append(word[0])
print(nn, "\n")

nltk.help.upenn_tagset('NNS')
nns = []
for word in movies_reviews["tagged_words"][0]: 
    if 'NNS' in word[1]: 
        nns.append(word[0])
print(nns, "\n")

nltk.help.upenn_tagset('NNP')
nnp = []
for word in movies_reviews["tagged_words"][0]: 
    if 'NNP' in word[1]: 
        nnp.append(word[0])
print(nnp, "\n")

nltk.help.upenn_tagset('NNPS')
nnps = []
for word in movies_reviews["tagged_words"][716]: 
    if 'NNPS' in word[1]: 
        nnps.append(word[0])
print(nnps, "\n")


NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...
['messages', 'guy', 'car', 'planet', 'press', 'things', 'latter', 'egotist', 'bit', 'girl', 'course', 'drug', 'speed', 'liars', 'documentary', 'mind', 'kiddy', 'jackson', 'insight', 'saint', 'attention', 'wiz', 'patience', 'line', 'movie', 'dunno', 'sequence', 'michael', 'part', 'stuff', 'directors', 'doors', 'bunch', 'dance', 'fact', 'drugs', 'music', 'feature', 'kay', 'minutes', 'joe', 'robot', 'fans', 'eighties', 'scene', 'moonwalker', 'biography', 'lord', 'character', 'level', 'cinema', 'demon', 'moment', 'kid', 'mj', 'subject', 'michael', 'plans', 'buddy', 'making', 'pesci', 'message', 'film', 'feeling', 'people', 'director', 'lots'] 

NNS: noun, common, plural
    undergraduates scotches bric-a-brac products bodyguards facets coasts
    divestitures storehouses designs clubs fragrance

Los errores que arroja un etiquetador genérico pre entrenado, como el que hemos usado en esta prueba, son evidentes al observar las palabras que, por ejemplo, son etiquetadas aquí como `adjetivos`:

In [7]:
jj_movies = []
for row in movies_reviews["tagged_words"]:
    for word in row: 
        if 'JJ' in word[1]: 
            jj_movies.append(word[0])
jj_movies = list(set(jj_movies))

print(len(jj_movies), "\n")
print(jj_movies[:250], "\n")

24174 

['hirsute', 'farraginous', 'embellish', 'nymphomania', 'oedpius', 'aerobic', 'geeeeeetttttttt', 'unbelief', 'underestimated', 'insult', 'brighter', 'studentpolitical', 'whorrible', 'starsky', 'puke', 'clift', 'pam', 'faux', 'jive', 'gavriil', 'inversed', 'olde', 'teal', 'specky', 'slut', 'slipknot', 'furtive', 'thinnest', 'precious', 'warned', 'forgiveable', 'unauthorized', 'unmoved', 'korea', 'danzel', 'troublesome', 'kuala', 'impecunious', 'unexplored', 'sock', 'dunwich', 'scummy', 'sensual', 'anticipated', 'playing', 'verveen', 'stucco', 'nightlife', 'injured', 'cont', 'deconstructed', 'necessity', 'unverified', 'cringeworthy', 'aetherial', 'werewolve', 'meena', 'wyllie', 'nerdier', 'purvis', 'devon', 'seperate', 'portrays', 'kinetic', 'alexandra', 'droned', 'cinematographical', 'inane', 'blackadder', 'twosome', 'bristol', 'arrogant', 'yicky', 'matter', 'philippe', 'tangier', 'hinglish', 'chelsea', 'brady', 'preoccupied', 'thepsychic', 'upbeat', 'beneficial', 'annonymous', '

Algo similar ocurre con las demás categorías, como la identificación de verbos

In [8]:
vb_movies = []
for row in movies_reviews["tagged_words"]:
    for word in row: 
        if 'VB' in word[1]: 
            vb_movies.append(word[0])
vb_movies = list(set(vb_movies))

print(len(vb_movies), "\n")
print(vb_movies[:250], "\n")

28187 

['embellish', 'filmaking', 'meyers', 'revamp', 'zebras', 'underestimated', 'insult', 'brighter', 'moneyed', 'glimmering', 'duccio', 'starsky', 'shift', 'puke', 'pam', 'jive', 'inversed', 'purveying', 'slut', 'mishaps', 'sculpts', 'thinnest', 'breads', 'blues', 'contemplate', 'warned', 'forays', 'vilify', 'korea', 'unmoved', 'enunciating', 'troublesome', 'experiments', 'apposed', 'unexplored', 'recordings', 'dipped', 'sock', 'caalling', 'scummy', 'coughing', 'supervillain', 'playing', 'wrangle', 'anticipated', 'katz', 'categorized', 'redlight', 'injured', 'retreated', 'wisconsin', 'corrodes', 'disinfecting', 'fund', 'kulik', 'deconstructed', 'manned', 'caters', 'bono', 'reiterated', 'meena', 'clarify', 'purvis', 'kinkle', 'devon', 'portrays', 'alexandra', 'bands', 'droned', 'incongruously', 'inane', 'blackadder', 'oppenheimer', 'overtime', 'disslikes', 'arrogant', 'matter', 'transpired', 'bullying', 'philippe', 'kleinfeld', 'tangier', 'spool', 'tojo', 'kensett', 'clutching', 'br

Y, aunque menos evidente, debido en parte a la cantidad de términos, también se presenta con los sustantivos:

In [9]:
nn_movies = []
for row in movies_reviews["tagged_words"]:
    for word in row: 
        if 'NN' in word[1]: 
            nn_movies.append(word[0])
nn_movies = list(set(nn_movies))

print(len(nn_movies), "\n")
print(nn_movies[500:750], "\n")

52842 

['stabs', 'thety', 'ludwig', 'bless', 'hazel', 'kabuki', 'ahab', 'motley', 'mattresses', 'trainings', 'vance', 'spandex', 'milinkovic', 'joanne', 'fanfilm', 'hamaari', 'dickerson', 'boots', 'gauche', 'byington', 'kooks', 'watcha', 'mcneil', 'lift', 'gloriously', 'bhajpai', 'rawer', 'recitals', 'slaughter', 'helter', 'gunther', 'soapbox', 'winkleman', 'luana', 'blinders', 'cowhands', 'miikes', 'sunset', 'travestite', 'posing', 'surround', 'repertoire', 'celi', 'cummings', 'cardella', 'budjet', 'gita', 'sakal', 'evangelical', 'massacessi', 'daisenso', 'infanticide', 'falafel', 'supremacy', 'karate', 'require', 'tickles', 'soup', 'range', 'supermarket', 'howell', 'dinosaurus', 'menari', 'cabo', 'yori', 'farewell', 'tip', 'claustrophobic', 'interruption', 'addison', 'confronting', 'comedus', 'vanilla', 'complain', 'taint', 'elevates', 'parlour', 'precipice', 'dunny', 'reminiscences', 'econovan', 'gatherers', 'ghetto', 'cocky', 'plywood', 'outputs', 'johnnie', 'battleships', 'tyre',

### Entrenamiento de un etiquetador propio

Entrenar un etiquetador propio es un proceso costoso y largo, ya que hay que etiquetar manualmente un lexicón. Intentemos con nuestro lexicón de Comics. 

In [10]:
import json

file = 'Data Sets/Comics/clean_lexicon_comics.json'
with open(file) as comics_file:
    dict_comics = json.load(comics_file)
comicsDf = pd.DataFrame.from_dict(dict_comics)

comicsDf = comicsDf.reindex_axis(['title',"description", "new_description", "full_description"], axis=1)

A continuación, reconstruimos la columna description para mantener la separación por frases:

In [11]:
import xml.etree.ElementTree as ET
APOSTROFOS = {"aren't" : "are not", "can't" : "cannot", "couldn't" : "could not", 
              "didn't" : "did not", "doesn't" : "does not", "don't" : "do not", 
              "hadn't" : "had not", "hasn't" : "has not", "haven't" : "have not", 
              "he's" : "he is", "I'll" : "I will", "I'm" : "I am", "I've" : "I have", 
              "isn't" : "is not", "it's" : "it is", "let's" : "let us", "you've" : "you have",
              "mustn't" : "must not", "shan't" : "shall not", "she'll" : "she will", 
              "she's" : "she is", "shouldn't" : "should not", "that's" : "that is", 
              "there's" : "there is", "they're" : "they are", "they've" : "they have", 
              "we're" : "we are", "we've" : "we have", "weren't" : "were not", 
              "what're" : "what are", "what's" : "what is", "what've" : "what have", 
              "where's" : "where is", "who're" : "who are", "who's" : "who is", 
              "who've" : "who have", "won't" : "will not", "wouldn't" : "would not", 
              "you're" : "you are"} 

tree = ET.parse("Data Sets/Comics/all_characters.xml")
root = tree.getroot()
index = 0
for child in root:
    if(child.tag.find("page") >=0 ):
        for grandchild in child:
            if(grandchild.tag.find("title") >= 0):
                  title = grandchild.text
            if(grandchild.tag.find("revision") >= 0): 
                for grand2child in grandchild:
                    if(grand2child.tag.find("text") >= 0):
                        #Obtener el texto del nodo
                        text = grand2child.text.lower()
                        #Eliminar las cadenas que inician en {{ seguidas de 
                        #cualquier cosa excepto }} y terminadas con }}
                        text = re.sub('{{[^}}]*}}', '', text)
                        #Misma idea, pero con el caracter especial \[ \] y Category:
                        text = re.sub('\[\[Category:[^\]\]]*\]\]', '', text)
                        #... y entre === ===
                        text = re.sub('={3}[\w]+={3}', '', text)
                        #... y entre == ==
                        text = re.sub('={2}[\w]+={2}', '', text)
                        #Extrae el texto de entre el código html... casi
                        text = BeautifulSoup(text, "lxml").get_text() 
                        text = re.sub("<img([\w\W]+?)/?>", "", text)
                        #Eliminar direcciones http
                        text = re.sub('\w+:\/{2}[\d\w-]+(\.[\d\w-]+)*(?:(?:\/[^\s/]*))*', ' ', text) 
                        #... y direcciones de correo
                        text = re.sub('[\w\.-]+@[\w\.-]+', " ", text)
                        #... y direcciones wikt*
                        text = re.sub('\[\[wikt[^|]*|', '', text)
                        #Eliminar puntos decorativos como en S.H.I.E.L.D.
                        #text = text.replace(".","")

                        words = text.split()
                        #Reenplazar el usos de apostrofos
                        texto = [APOSTROFOS[word] if word in APOSTROFOS else word for word in words]
                        texto = " ".join(texto)
                        #Eliminar otros caracteres no alfabéticos
                        texto = re.sub("[^\w*\. +]", " ", texto)
                        texto = re.sub("[\d]", " ", texto)
                        texto = re.sub(" *\.", ".", texto)
                        texto = re.sub("(\w)\.(\w)\. ", r'\1\2 ', texto)
                        #Eliminar palabras repetidas consecutivas
                        words = re.sub(r'\b(\w+)(\s+\1\b)+', r'\1', texto).split()
                        texto = " ".join(words) 
                        
        comicsDf.loc[index, "full_description"] = texto
        index = index + 1

display(comicsDf.head())

Unnamed: 0,title,description,new_description,full_description
0,'Mazing Man,mazing man is the title character of a comic b...,mazing_man man title_character comic_book_seri...,mazing man is the title character of a comic b...
1,711 (Quality Comics),is a fictional superhero from the golden age o...,711_quality_comics fictional superhero golden_...,is a fictional superhero from the golden age o...
2,Abigail Brand,special agent special agent abigail brand is a...,abigail_brand special agent special agent abig...,special agent special agent abigail brand is a...
3,Abin Sur,abin sur is a fictional character and a superh...,abin_sur abin sur fictional_character superher...,abin sur is a fictional character and a superh...
4,Abner Jenkins,abner ronald jenkins formerly known as the bee...,abner_jenkins abner ronald jenkins formerly_kn...,abner ronald jenkins formerly known as the bee...


In [12]:
display(comicsDf.loc[0].full_description)

'mazing man is the title character of a comic book series created by bob rozakis and stephen destefano and published by dc comics. the series ran for twelve issues in with additional special issues in and. in addition mazing man had an origin story in secret origins and an original one page story that appeared in an ad in comics buyer s guide. series overview the mazing man series depicts the misadventures of sigfried horatio hunch iii a benignly deranged little man in queens new york queens new york city new york state new york who dresses in a homemade costume and performs deeds like unclogging drains and watching out for local children. viewed as a harmless kook by his neighbors he saves a child from being hit by a truck in the first issue earning him some respect and notoriety not to mention a steady stream of appreciation and food from the mother in subsequent issues. maze tends to sing simon and garfunkel songs when struck on the head. his best friend is denton fixx a writer for 

Seleccionamos los primeros 50 registros, para facilitar el análisis:

In [13]:
train_comicsDf = comicsDf[:50].copy()
train_comicsDf["tagged_words"] = list(map(lambda row, words: list(set(
    [w for w in nltk.pos_tag(nltk.word_tokenize(row)) if w[0] in words.split()])),
                        train_comicsDf.full_description, train_comicsDf.new_description))

display(train_comicsDf.head())

Unnamed: 0,title,description,new_description,full_description,tagged_words
0,'Mazing Man,mazing man is the title character of a comic b...,mazing_man man title_character comic_book_seri...,mazing man is the title character of a comic b...,"[(promoted, VBN), (receives, VBZ), (remember, ..."
1,711 (Quality Comics),is a fictional superhero from the golden age o...,711_quality_comics fictional superhero golden_...,is a fictional superhero from the golden age o...,"[(jail, NN), (uses, VBZ), (early, JJ), (friend..."
2,Abigail Brand,special agent special agent abigail brand is a...,abigail_brand special agent special agent abig...,special agent special agent abigail brand is a...,"[(potent, JJ), (features, VBZ), (mutant, NN), ..."
3,Abin Sur,abin sur is a fictional character and a superh...,abin_sur abin sur fictional_character superher...,abin sur is a fictional character and a superh...,"[(uncle, VB), (injuries, NNS), (fear, NN), (ar..."
4,Abner Jenkins,abner ronald jenkins formerly known as the bee...,abner_jenkins abner ronald jenkins formerly_kn...,abner ronald jenkins formerly known as the bee...,"[(ultimately, RB), (pack, NN), (romanova, JJ),..."


Nuevamente, hemos hecho el etiquetado a partir del texto completo y lo restringimos a las palabras del lexicón. Los tokens compuestos requieren un tratamiento adicional. El etiquetado de un documento ejemplo es:

In [14]:
print(train_comicsDf["tagged_words"][0])

[('promoted', 'VBN'), ('receives', 'VBZ'), ('remember', 'VB'), ('special', 'JJ'), ('shirt', 'NN'), ('batman', 'VBD'), ('written', 'VBN'), ('felt', 'VBD'), ('ideas', 'NNS'), ('enough', 'JJ'), ('three', 'CD'), ('manager', 'NN'), ('use', 'NN'), ('usually', 'RB'), ('although', 'IN'), ('spends', 'VBZ'), ('winner', 'NN'), ('agency', 'NN'), ('like', 'IN'), ('head', 'NN'), ('appeared', 'VBD'), ('issue', 'NN'), ('success', 'NN'), ('depicts', 'VBZ'), ('positive', 'JJ'), ('millionaire', 'NN'), ('disapproval', 'NN'), ('handful', 'NN'), ('one', 'CD'), ('rising', 'VBG'), ('popular', 'JJ'), ('energy', 'NN'), ('block', 'NN'), ('jock', 'NN'), ('whose', 'WP$'), ('team', 'NN'), ('costume', 'NN'), ('children', 'NNS'), ('created', 'VBD'), ('glove', 'NN'), ('articles', 'NNS'), ('miller', 'NN'), ('none', 'NN'), ('row', 'NN'), ('magazines', 'NNS'), ('violence', 'NN'), ('bit', 'NN'), ('fred', 'JJ'), ('richmond', 'NN'), ('job', 'NN'), ('baby', 'NN'), ('brenda', 'NN'), ('adventures', 'NNS'), ('man', 'NN'), ('con

Como puede observarse, aparecen también palabras mal clasificadas. Por ejemplo, para el caso de los adjetivos (el principal tipo de palabra para evaluar polaridad), obtenemos lo siguiente, para el conjunto completo de 50 registros:

In [15]:
jj_comics = []
for row in train_comicsDf["tagged_words"]:
    for word in row: 
        if 'JJ' in word[1]: 
            jj_comics.append(word[0])
jj_comics = list(set(jj_comics))

print(len(jj_comics), "\n")
print(jj_comics[:250], "\n")

1476 

['ian', 'ordinary', 'sam', 'instrumental', 'earths', 'amongst', 'mild', 'rid', 'context', 'consciousness', 'ultimo', 'inevitable', 'toei', 'comet', 'sympathetic', 'extrasensory', 'infant', 'anonymous', 'noir', 'angel', 'visited', 'non', 'bobbi', 'antagonistic', 'earlier', 'starhawk', 'queens', 'worthy', 'breakworld', 'lead', 'kitty', 'swan', 'futurist', 'dave', 'precise', 'potential', 'chinese', 'supervillain', 'contemporary', 'altered', 'large', 'injured', 'electromagnetic', 'geist', 'xorn', 'violent', 'cold', 'upcoming', 'nicieza', 'military', 'alchemax', 'deviant', 'homosexual', 'avenger', 'liz', 'breyfogle', 'aggressive', 'indian', 'arrow', 'kinetic', 'moral', 'deadpool', 'hard', 'mikaboshi', 'storyline', 'nihilo', 'quick', 'explained', 'odin', 'bug', 'kirk', 'tyrant', 'likely', 'stereotypical', 'sole', 'unofficial', 'mach', 'near', 'temporary', 'airborne', 'metropolis', 'liberty', 'unpublished', 'survive', 'tangent', 'future', 'extensive', 'unpredictable', 'lobo', 'corrupt'

Realizamos el mismo análisis utilizando `review` y `new_review` como base:

In [17]:
train_comicsDf["tagged_words2"] = list(map(lambda row, words: list(set(
    [w for w in nltk.pos_tag(nltk.word_tokenize(row)) if w[0] in words.split()])),
                        train_comicsDf.description, train_comicsDf.new_description))

In [21]:
jj_comics2 = []
for row in train_comicsDf["tagged_words2"]:
    for word in row: 
        if 'JJ' in word[1]: 
            jj_comics2.append(word[0])
print("Diferencias con 'description'\n:", set(jj_comics)-set(jj_comics2))

print("\nAl revés:\n", set(jj_comics2)-set(jj_comics))

Diferencias con 'description'
: {'heist', 'abigail', 'reintroduced', 'meanwhile', 'corporeal', 'cover', 'helen', 'eddie', 'hate', 'benjamin', 'missed', 'devastated', 'june', 'forever', 'ann', 'spidey', 'margali', 'regardless', 'eager', 'lucas', 'carol', 'birthday', 'chemical', 'consciousness', 'rom', 'running', 'ben', 'alias', 'magik', 'spectacular', 'nevertheless', 'weakened', 'cyborg', 'hair', 'pixie', 'weapon', 'police', 'ups', 'resulting', 'kill', 'damon', 'pistol', 'stamina', 'thea', 'beast', 'retrieved', 'mutated', 'thorn', 'dan', 'born', 'infected'}

Al revés:
 {'katie', 'upon', 'darren', 'leslie', 'mask', 'cassaday', 'readership', 'july', 'arctic', 'publication', 'strongbow', 'starlin', 'shanna', 'nov', 'rogue', 'hobgoblin', 'newsaramacom', 'survival', 'dec', 'sword', 'appear', 'website', 'degree', 'forehead', 'dr', 'austin', 'malebolgia', 'slingshot', 'harris', 'thomas', 'hive', 'develops', 'faithful', 'sep', 'octavius', 'braddock', 'collar', 'apollo', 'helmet', 'guide', 'trio

Un análisis detallado arroja las siguientes palabras etiquetadas como adjetivos, siendo nombres (y, de paso, algunas palabras inútiles):

In [22]:
wrong_jjs = ['nose', 'august', 'pistols', 'larry', 'brian', 'episode', 'earth', 'xorn', 
            'toei', 'gamma', 'ogord', 'underworld', 'thunderbolts', 'wolverine', 'dave',
            'morlun', 'text', 'amon', 'sam', 'vol', 'manhattan', 'tom', 'starman', 'cho', 
            'anderson', 'ray', 'hourman', 'collar', 'amy', 'francine', 'john', 'sid', 
            'beak', 'stephen', 'armstrong', 'bucky', 'edward', 'obsidian', 'superman',
            'thomas', 'mexico', 'deadpool', 'roderick', 'csa', 'newsarama', 'sabretooth', 
            'terry', 'texas', 'fabian', 'blackthorn', 'chicago', 'thor', 'friday', 'oct', 
            'mary', 'virginia', 'september', 'november', 'austin', 'pen', 'july', 'liz',  
            'andrea', 'david', 'braddock', 'lexcorp', 'magus', 'flatman', 'werewolf', 
            'lana', 'entropy', 'steve', 'thanagar', 'starheart', 'website', 'sebastian', 
            'jean', 'fujikawa', 'cameron', 'lobo', 'corps', 'sorceress', 'abe', 'feb', 
            'spyder', 'leslie', 'romanova', 'bobbi', 'january', 'manga', 'erik', 'equal',
            'ollie', 'sep', 'zar', 'surtur', 'hobgoblin', 'marcus', 'comet', 'blacklight', 
            'nighthawk', 'marvel', 'spaceship', 'chest', 'gaiman', 'west', 'malebolgia', 
            'breyfogle', 'athena', 'corazon', 'cosmo', 'anya', 'superboy', 'archive',  
            'america', 'workshop', 'fox', 'gun', 'nyx', 'object', 'pratt', 'germany', 
            'parallax', 'arin', 'mephisto', 'millennium', 'agent', 'bug', 'lionel', 
             'nihilo', 'stargirl', 'onslaught', 'madelyne', 'clark', 'stark', 'venom',
            'hercules', 'legs', 'giganta', 'americop', 'heven', 'february', 'mikaboshi', 
            'batman', 'gary', 'saga', 'trask', 'ajax', 'gog', 'katie', 'sinestro',  
            'quasar', 'emma', 'gyrich', 'universe', 'nazi', 'frank', 'ian', 'quicksilver', 
            'scott', 'alex', 'kaine', 'gamora', 'miss', 'gilbert', 'sword', 'jeffrey',  
            'ernie', 'beatty', 'donna', 'girl', 'neil', 'lieutenant', 'assassin', 'dec',
            'jake', 'watson', 'simon', 'retcon', 'december', 'azazel', 'lee', 'nicieza', 
            'jessica', 'atlantis', 'centaur', 'nicholas', 'storyline', 'aug', 'hal',  
            'damian', 'dc', 'alchemax', 'demon', 'arizona', 'excalibur', 'rodriguez',  
            'dr', 'odin', 'andromeda', 'greg', 'lake', 'toy', 'steven', 'hive', 'thanos', 
            'gwen', 'helmet', 'xandarian', 'ganthet', 'alanna', 'wooden', 'atalanta',  
            'smallville', 'morituri', 'daredevil', 'cat', 'bros', 'queens', 'dragon',  
            'usa', 'amanda', 'johnny', 'schwartz', 'galactus', 'bio', 'nintendo', 'sandi',
            'tamaran', 'blob', 'duncan', 'roger', 'exile', 'liaison', 'hit', 'dcu',
            'arnold', 'god', 'sophie', 'angels', 'norman', 'teammate', 'fred', 'geist', 
            'nov', 'superwoman', 'magneto', 'lady', 'thanagarian', 'kirk', 'jordan', 
            'web', 'lonnie', 'gemworld', 'bruce', 'boy', 'ultraverse', 'april', 'angela', 
            'omac', 'kirby', 'abin', 'file', 'illyana', 'uatu', 'asgard', 'alfred',  
            'azrael', 'wade', 'francis', 'urich', 'scorpio', 'octavius', 'ursa', 'wilson', 
            'loki', 'hawkeye', 'osborn', 'darhk', 'elseworlds', 'verse', 'terrible', 
            'christopher', 'spider', 'bullseye', 'arrow', 'earths', 'alexander', 'lex', 
            'sega', 'shaw', 'sunpyre', 'witch', 'imperiex', 'ezekiel', 'titus', 'luther', 
            'owlman', 'michael', 'banshee', 'aminedi', 'galaxy', 'lantern', 'everett', 
            'library', 'wyatt', 'tony', 'xavier', 'pyreus', 'darren', 'nightcrawler',  
            'apollo', 'clash', 'detroit', 'lyle', 'wizard', 'namor', 'task', 'adam',  
            'doug', 'fantasy', 'florida', 'non', 'bubble', 'detective', 'angel',  
            'amadeus', 'eclipso', 'bob', 'eric', 'natalia', 'friedrich', 'ous', 'pet',  
            'writer', 'cloud', 'outlaws', 'abyss', 'insect', 'krypto', 'ghaur', 'alpha',  
            'hawkman', 'grant', 'robin', 'starhawk', 'delphyne', 'archaeology', 'allan', 
            'armageddon', 'andy', 'doomsday', 'pattern', 'chief', 'maddy', 'pavitr',  
            'fixx', 'pandora', 'team', 'robert', 'seth', 'daniel', 'queen', 'actor',  
            'metal', 'mahmud', 'wall', 'showcase', 'dick', 'gil', 'luis', 'science', 
            'costume', 'batwoman', 'reader', 'matthew', 'latter', 'susan', 'fatigue', 
            'kevlar', 'sean', 'omega', 'metropolis', 'sandman', 'lisa', 'mordru', 'swan',
            'gina', 'harold', 'huntress', 'multiverse', 'kyle', 'dale', 'korvac', 'bride', 
            'alan', 'sister', 'shanna', 'jeremy', 'hydra', 'denton', 'peter', 'telepathy', 
            'nick', 'rebirth', 'apocalypse', 'sur', 'skaar', 'pretty', 'develops', 'ivan', 
            'denny', 'mangaverse', 'longtime', 'nanobot', 'october', 'ultron', 'kitty',
            'atom', 'terrorist', 'flesh', 'albert', 'sepulchre', 'stewart', 'gotham', 
            'mother', 'mantle', 'ellen', 'harris', 'ambush', 'citizen', 'hulk', 'ritchie',  
            'injustice', 'stakar', 'tim', 'orb', 'category', 'saturday', 'nephew', 'dog',
            'mine', 'nextwave', 'planet', 'ann', 'magik', 'margali', 'amaya', 'dan', 
            'enclave', 'portal', 'warlock', 'keown', 'thea', 'oberoi', 'pistol', 'rom',  
            'lucas', 'knight', 'hall', 'cyborg']
print("Palabras mal etiquetadas como Adjetivo:", len(wrong_jjs))

useless_words = ['newsaramacom', 'iii', 'unbeknownst', 'hepzibah', 'copyright', 'toonopedia', 'jpg',  
                  'alt', 'jsa', 'jla', 'pip', 'isbn', 'nypd']

Palabras mal etiquetadas como Adjetivo: 461


Reemplazamos estas etiquetas en nuestra base de datos (el *dataframe* `train_comicsDf`):

In [23]:
new_nn = []
for i, row in zip(range(len(train_comicsDf)), train_comicsDf.tagged_words):
    for j, word in zip(range(len(row)), row): 
        if word[0] in useless_words: 
            row.pop(j)
        elif word[0] in wrong_jjs and 'JJ' in word[1]:
            row.pop(j)
            new_nn.append((word[0], 'NN')) 
            
    train_comicsDf.loc[i, "tagged_words"] = row + new_nn

jj_comics = []
for row in train_comicsDf["tagged_words"]:
    for word in row: 
        if 'JJ' in word[1]: 
            jj_comics.append(word[0])
jj_comics = list(set(jj_comics))

print(len(jj_comics), "\n")
print(jj_comics[:250], "\n")

1071 

['christian', 'gotham', 'ordinary', 'familiar', 'fastest', 'undone', 'aleta', 'green', 'amongst', 'mild', 'villainous', 'perspective', 'instrumental', 'evil', 'additional', 'larger', 'standard', 'america', 'disillusioned', 'visual', 'malicious', 'captive', 'intellectual', 'costumed', 'rid', 'alternative', 'context', 'self', 'consciousness', 'ultimo', 'internal', 'last', 'specific', 'inevitable', 'super', 'higher', 'possess', 'sympathetic', 'extrasensory', 'futuristic', 'brutal', 'shot', 'botched', 'pixie', 'functioning', 'fictional', 'infant', 'android', 'diplomatic', 'anonymous', 'reminiscent', 'difficult', 'noir', 'connected', 'korean', 'mohawk', 'sixteen', 'angel', 'second', 'giant', 'next', 'invulnerable', 'rebellious', 'born', 'driving', 'visited', 'current', 'endless', 'wounded', 'firelord', 'uncredited', 'strongest', 'federal', 'antagonistic', 'uninhabited', 'satisfied', 'darkest', 'prey', 'unfortunate', 'hyper', 'formidable', 'earlier', 'radical', 'primary', 'less', 'spi