![agents](images/header.jpg)
# Análisis semántico
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/nlp/blob/master/6.%20Análisis%20semántico.ipynb)

![ ](images/blank.png)
## Definición

La semántica es, de acuerdo con el [DRAE](http://dle.rae.es/?id=XVRDns5), la...

> Disciplina que estudia el significado de las unidades lingüísticas y de sus combinaciones.

El análisis semántico consiste en analizar el significado de un conjunto de palabras, símbolos y frases, en un contexto específico, con el fin de determinar el mensaje contenido en el texto. 

![](images/nlp02e.png)

En el caso del procesamiento de lenguaje natural, la etapa de análisis semántico toma el flujo de tokens provenientes del análisis léxico, posiblemente categorizadas en los pasos previos, para generar una interpretación del texto.

Sin embargo, tratar de interpretar un mensaje de texto, escrito con muchas libertades, es un problema sumamente complejo aun cuando el texto se encuentre construido de forma correcta. Considérese, por ejemplo, el siguiente monólogo clásico de *Groucho Marx* (*Animal Crackers*, 1930):

> *One morning I shot an elephant in my pajamas. <br>
> How he got in my pajamas, I don't know.* ![](images/groucho.jpg)

Aunque la situación es utilizada como broma, particularmente al ser forzada por Groucho Marx, la estructura es sintácticamente correcta. La interpretación "lógica" se obtiene integrando diversos elementos no disponibles en el texto, particularmente los siguientes: 1) Un elefante no cabe en unas piyamas humanas, y 2) El autor está bromeando.

El alcance del análisis semántico automatizado de lenguajes naturales se limita a tareas específicas, destacándose las siguientes:

* Sistemas de traducción
* Sistemas preguntadores/respondedores
* Sistemas resumidores
* Sistemas de correción ortográfica
* Identificación temática
* Análisis de sentimientos

Siendo las dos últimas las más activas actualmente.

## Modelado de tópicos

El modelado de tópicos es una tarea cuyo objetivo es identificar tópicos a partir de una colección de documentos (un corpus). Los modelos resultantes suelen definirse mediante funciones de distribución de probabilidades sobre un subconjunto de las palabras utilizadas en el corpus. 

Existen diferentes aproximaciones para realizar el modelado de tópicos, siendo las más sobresalientes las técnicas **PLSI** (*probabilistic latent semantic indexing* - indexado probabilístico de semántica latente), **NMF** (*non-negative matrix factorization* -  factorización de matrices no negativas) y **LDA** (*Latent Dirichlet Allocation* - Asignación latente de Dirichlet).


### Identificación de los tópicos 

La identificación de los tópicos presentes en una colección de documentos es un problema de reconocimiento de patrones. 

Las técnicas de reconocimiento de patrones se clasifican en dos tipos principales, de acuerdo al grado de conocimiento disponible:

1. **Aprendizaje no supervisado**. Estos métodos se utilizan cuando no se tiene una definición clara de las clases ni se tienen ejemplos de los objetos pertenecientes a la clase. El punto de partida suele ser un conjunto de observaciones y el resultado suele ser una propuesta de clases, típicamente sin etiquetar. Una de las aproximaciones más comunes es el "*clustering*", en el que los datos se agrupan dependiendo de la semejanza entre ellos.
2. **Aprendizaje supervisado**. En estos métodos, se tienen definidas las etiquetas de las clases, aunque posiblemente no se tenga el modelo que las define. Adicionalmente, se tiene un conjunto de ejemplos ya clasificados a partir de los cuales es posible ajustar los modelos de las clases.

En el caso de la identificación de tópicos es común contar tan sólo con un corpus como información de entrada y, posiblemente, el número de clases/tópicos que se quieren identificar. Por ello, para realizar la identificación de los tópicos lo usual es utilizar técnicas especializadas de *[clustering](http://localhost:8888/notebooks/Dropbox/Notebooks/pattern-recognition/Clustering%20I.ipynb)*. 

El clustering consiste en agrupar objetos en grupos de tal manera que los objetos pertenecientes a un grupo (o "*cluster*") son más semejantes entre sí que a otros objetos no pertenecientes al grupo, de acuerdo a sus características.

![](images/heroes.png)

### Vectores de características 

Un **atributo** es una propiedad simbólica o numérica de una *propiedad* de un objeto, que puede ser útil para clasificarlo en una determinada clase. Los diferentes objetos en un problema son descritos mediante diferentes *conjuntos de atributos*: En una clasificación de documentos, por ejemplo, la descripción de un poema incluye atributos como el tipo de rima o la longitud del verso, atributos que no tiene sentido para para un artículo científico, por ejemplo. 

Una manera de sistematizar y homogenizar la descripción de elementos en un problema es utilizando el mismo conjunto de propiedades para todos ellos, sean útiles o no para la clasificación de un objeto en particular, organizadas en lo que se denomina **vector de características**.

![](images/vector_caracteristicas.png)

Cada 'caso' representado mediante un vector de características en el conjunto de datos se denomina **instancia** (o *ejemplo*, particularmente en el contexto de entrenamiento supervisado). En el caso del análisis de textos, existen pocos rasgos que puedan ser suficientemente discriminantes, por lo tanto, la estrategia más común es utilizar como descripción de un documento una "**bolsa de palabras**".

Una bolsa de palabras (o de tokens) es una colección de los términos considerados  como "significativos" para describir los documentos en un corpus. La opción más simple y muy común es tomar el conjunto total de palabras utilizadas en el corpus, quizás eliminando solamente las palabras de paro. En este caso, el vector de características contabiliza, típicamente, la ocurrencia de palabras/tokens de la bolsa de palabras.

![ ](images/bag-of-words.png)

El resultado típico de un método de *clustering* es un conjunto de vectores "**prototipo**" que sintetizan el modelo de cada una de las clases. 

![](images/prototype.png)

La forma específica del vector prototipo depende de la técnica utilizada.

## Asignación latente de Dirichlet

La asignación latente de Dirichlet (**LDA**) es un método generativo para modelado de tópicos. El método asume que los documentos en un corpus se generan a partir de un conjunto de tópicos. Cada tópico, por otra parte, se representa como una distribución de frecuencias sobre un conjunto de términos/tokens. De esta manera, los documentos constituyen colecciones de palabras cuyas frecuencias *evidencian* la presencia latente de una mezcla de tópicos; es decir, no se requiere especificar una etiqueta del tópico. Por ejemplo, consideremos el siguiente texto:

> Héctor Espino González, conocido como "el supermán de Chihuahua" (o de "la Dale", según el Waissman), es considerado el mejor bateador mexicano de todos los tiempos. Fue campeón bateador en 1964, 1966, 1967, 1968 y 1973 en verano; se coronó en cuatro temporadas como el mejor jonronero; remolcó 1,573 carreras; con 2,752 imparables, 453 de ellos cuadrangulares; acumulando un porcentaje de por vida de .335.  

Es "*obvio*" que este texto habla de béisbol, concretamente de la vida de un beisbolista... aunque también pudiera tratar de comics, aunque con menor probabilidad. De esta manera, la identificación de los tópicos tratados en un texto se puede reducir a verificar qué tanto se  ajusta la colección de palabras a una determinada distribución de probabilidades.

### Distribución de probabilidad de Dirichlet

Una forma común de describir rasgos estadísticos de la ocurrencia de términos en un texto es mediante una función de **[distribución multinomial](http://www.statisticshowto.com/multinomial-distribution/)**. 

Una distribución multinomial es una distribución de probabilidades discreta en la que se tienen $n$ eventos independientes, cada una de ellas con una probabilidad $p_i$ de ocurrencia. Un vector de características $\mathbf{x} = (x_{1},\dots, x_{n})$, en este caso, es un histograma, en el que $x_{i}$ es el número de veces que el evento $i$ ocurre en una instancia específica. 
![ ](images/multinomialDistribution.png)<br>

Si $\mathcal{C} = \{C_1\ldots, C_k\}$ es el conjunto de clases (los tópicos presentes en el corpus, en este caso) y $\mathbf{X_j} = (x_{j1},\dots, x_{jn})$ el vector de características para la instancia $j$, con $n$ el número de caracteristicas (el tamaño de la bolsa de palabras, en este caso), entonces, el prototipo de la clase $c \in \mathcal{C}$, usando la distribución multinomial, puede expresarse mediante la *función de masa de probabilidad*:
$$\boldsymbol{\theta_c} = (\theta_{c_1},\ldots,\theta_{c_n})$$

Aquí $\theta_{c_i} = P(x_i \mid c)$ es la probabilidad de que la característica $i$ se presente en una muestra perteneciente a la clase $c$. Una forma típica de estimar $\theta_{c_i}$ es mediante el método de máxima verosimilitud: <br><br>
$$
\hat{\theta}_{c_i} = \frac{N_{c_i}}{N_c}
$$<br>

En esta ecuación, 
$$N_{c_i} = \sum_{\mathbf{X}\ \in\ c} x_{i}$$
es el número total de veces que aparece el atributo $i$ en las muestras pertenecientes a la clase $c$ (obsérvese que este dato no lo conocemos)

$$N_{c} = \sum_{i=1}^n N_{c_i}$$
es el total de palabras que aparecen en las instancias de la clase $c$.

Este estimador asigna una probabilidad de cero a los eventos que no han ocurrido en los datos de observados. Sin embargo, esta estimación deriva de un procedimiento de observación/muestreo y su interpretación estadística y no necesariamente del comportamiento real del sistema. En el caso de procesamiento de lenguaje natural esto es muy común, dado que un corpus puede tener millones de palabras, mientras que la longitud de un documento puede ser de apenas decenas de palabras. Incluso documentos como las páginas de Wikipedia la relación de palabras usadas en un documento contra la longitud de la bolsa de palabras es muy pequeña. Una técnica utilizada ampliamente en modelado de lenguajes es el "**suavizamiento de probabilidades**", asignando probabilidades diferentes de cero a eventos no observados. Existen [diversas formas](http://www.stat.uchicago.edu/~lafferty/pdf/smooth-tois.pdf) de realizar esta operación. Una de estas formas consiste en utilizar la **[distribución multinomial de Dirichlet](https://en.wikipedia.org/wiki/Dirichlet_distribution)**.

La función de distribución de Dirichlet se define como

$$
f\left(\boldsymbol{\theta};\boldsymbol{\alpha}\right)={\frac {\Gamma \left(\sum_{i=1}^n \alpha_i\right)}{\prod_{i=1}^n\Gamma (\alpha_i)}}
\prod_{i=1}^n \theta_i^{\alpha_i-1} 
\qquad \boldsymbol{\alpha} = (\alpha_1,\cdots, \alpha_n)
$$

donde $\boldsymbol{\theta} = (\theta_1,\cdots, \theta_n), \sum_i \theta_i = 1$ es una distribución multinominal y $\boldsymbol{\alpha} = (\alpha_1,\cdots, \alpha_n)$ es un vector de ajuste que pondera la importancia de los términos en el modelo. Por su parte, $\Gamma(\cdot)$ es la función gamma que extiende el concepto de factorial a los números complejos (y reales, en particular). La función gamma se define como:

$$
\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}\,dt
$$

y cumple con las siguientes propiedades:

$$
\Gamma(1) = 1 \\
\Gamma(1/2) = \sqrt{\pi} \\
\Gamma(x+1) = x \Gamma(x) \\
\Gamma(x) \Gamma(1-x) = \frac{\pi}{sen\pi x} \\
$$



La distribución de Dirichlet es una distribución sobre distribuciones de probabilidad discretas. Mientras que la distribución multinomial describe las proporciones en que aparece cada término en un documento, la distribución de Dirichlet modela la forma en que varían esas proporciones.

### Identificación de tópicos mediante LDA



Consideremos, como ejemplo, el corpus limpio sobre Comics generado en la fase de análisis léxico. Utilizaremos la descripción proporcionada en "*new_description*" que está basada en el lexicón final.

In [1]:
from IPython.display import display
import pandas as pd
import numpy as np 
pd.options.display.max_colwidth = 150 

import nltk
import re
import json

from sklearn import decomposition
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
file = 'Data Sets/Comics/prueba.json'
with open(file) as comics_file:
    dict_comics = json.load(comics_file)
comicsDf = pd.DataFrame.from_dict(dict_comics)

display(comicsDf.head(5))

Unnamed: 0,all_collocations,clean_bigrams,description,main_words,new_description,title
0,"[title character, comic book, book series, series created, bob rozakis, dc comics, series ran, twelve issues, additional special, special issues, ...","[[title, character], [comic, book], [book, series], [series, created], [bob, rozakis], [dc, comics], [series, ran], [twelve, issues], [additional,...",mazing man is the title character of a comic book series created by bob rozakis and stephen destefano and published by dc comics the series ran fo...,"[man, title_character, comic_book_series, created, bob_rozakis, stephen, published, dc_comics, series, ran, twelve_issues, additional, special, is...",mazing_man man title_character comic_book_series created bob_rozakis stephen published dc_comics series ran twelve_issues additional special issue...,'Mazing Man
1,"[fictional superhero, golden age, quality comics, comics first, first appeared, police comics, comics august, killed fictional, fictional characte...","[[fictional, superhero], [golden, age], [quality, comics], [comics, first], [first, appeared], [police, comics], [comics, august], [killed, fictio...",is a fictional superhero from the golden age of comics he was created by george brenner and published by quality comics first appeared in police c...,"[fictional, superhero, golden_age, comics_created, george, published, lasted, january, killed, fictional_character_biography, daniel, district_att...",711_quality_comics fictional superhero golden_age comics_created george published quality_comics_first_appeared police_comics_august lasted januar...,711 (Quality Comics)
2,"[special agent, agent special, special agent, agent abigail, abigail brand, fictional character, character appearing, american comic, comic book, ...","[[special, agent], [agent, special], [special, agent], [agent, abigail], [abigail, brand], [fictional, character], [character, appearing], [americ...",special agent special agent abigail brand is a fictional character appearing in american comic book s published by marvel comics publication histo...,"[abigail_brand, special, agent, special, agent, abigail_brand, fictional_character, appearing, american_comic, book_published, marvel_comics, publ...",abigail_brand special agent special agent abigail_brand fictional_character appearing american_comic book_published marvel_comics publication hist...,Abigail Brand
3,"[abin sur, fictional character, dc comics, comics dc, dc universe, green lantern, lantern corps, best known, green lantern, lantern hal, hal jorda...","[[abin, sur], [fictional, character], [dc, comics], [comics, dc], [dc, universe], [green, lantern], [lantern, corps], [best, known], [green, lante...",abin sur is a fictional character and a superhero from the dc comics dc universe he was a member of the green lantern corps and is best known as t...,"[abin_sur, abin, sur, fictional_character, superhero, dc_comics, dc_universe, member, green_lantern, corps, best_known, predecessor, green_lantern...",abin_sur abin sur fictional_character superhero dc_comics dc_universe member green_lantern corps best_known predecessor green_lantern hal_jordan a...,Abin Sur
4,"[abner ronald, ronald jenkins, jenkins formerly, formerly known, beetle comics, comics beetle, beetle mach, mach vii, currently known, mach x, fic...","[[abner, ronald], [ronald, jenkins], [jenkins, formerly], [formerly, known], [beetle, comics], [comics, beetle], [beetle, mach], [mach, vii], [cur...",abner ronald jenkins formerly known as the beetle comics beetle mach iv mach v mach vii and currently known as mach x and is a fictional character...,"[abner_jenkins, ronald, jenkins, formerly_known, mach, mach, mach, vii, currently, known, mach, x, fictional_character, appearing, american_comic,...",abner_jenkins abner ronald jenkins formerly_known beetle_comics_beetle mach mach mach vii currently known mach x fictional_character appearing ame...,Abner Jenkins


Un objeto **[CountVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)** convierte una colección de documentos en una matriz de conteo de tokens. Esta clase contiene métodos para limpiar los datos, generar bigramas y otras funciones útiles que ya realizamos en la fase de análisis léxico. El resultado es el siguiente:

In [3]:
# Crear el contador
vectorizer = CountVectorizer()
# Construir la matriz documentos-términos
X = vectorizer.fit_transform(comicsDf.new_description)
X_array = X.toarray()
X_vocab = np.array(vectorizer.get_feature_names())

print("""Se generó una matriz de tamaño {}\n
Forma de los vectores (un fragmento): \n{}"""
      .format(X.shape, X_array[2, 0:100], X_vocab[0:100]))

Se generó una matriz de tamaño (1867, 27953)

Forma de los vectores (un fragmento): 
[ 0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  6 14  2  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  2  0  0  4  0  0  0
  3  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0]


In [4]:
tokens = []
for i, x in zip(range(len(X_vocab)), X_array[2]):
    if x >5 :
        tokens.append([i, X_vocab[i], x])

df = pd.DataFrame(tokens, columns = ["Índice", "Token", "Frecuencia"])
print("Muestra del vocabulario utilizado")
display(df)

Muestra del vocabulario utilizado


Unnamed: 0,Índice,Token,Frecuencia
0,19,abigail,6
1,20,abigail_brand,14
2,1325,appears,7
3,1736,astonishing_x_men,8
4,2412,beast,10
5,3222,brand,46
6,3253,breakworld,12
7,4793,comics,6
8,7693,earth,14
9,13462,kree,6


El módulo **<code>[sklearn.decomposition](http://scikit-learn.org/stable/modules/classes.html#module-sklearn.decomposition)</code>** proporciona diversos métodos de descomposición de matrices, entre ellos los métodos **LatentDirichletAllocation** y **NMF**. Generamos un objeto que realice la transformación de la matriz de documentos-terminos, siendo **<code>n_topics</code>** el número de nuevos atributos ($k$), en este caso, el número de tópicos que queremos identificar. 

In [5]:
num_topics = 8
# Creación del operador. En la versión 0.19, el argumento n_topics cambia a n_components
lda = decomposition.LatentDirichletAllocation(n_topics=num_topics,
                                              learning_method='online')
# Factorización de la matriz documentos-términos
lda_topics = lda.fit_transform(X)

print("Tamaño de la matriz original (V):", X.shape)
print("Tamaño de la matriz de coeficientes (W):", lda_topics.shape)
print("Tamaño de la matriz diccionario (H):", lda.components_.shape)

Tamaño de la matriz original (V): (1867, 27953)
Tamaño de la matriz de coeficientes (W): (1867, 8)
Tamaño de la matriz diccionario (H): (8, 27953)


In [6]:
# Atributos originales a mostrar en cada vector de características, 
# ordenados por importancia       
num_top_words = 100
lda_topic_words = []
for topic in lda.components_:
    word_idx = np.argsort(topic)[::-1][0:num_top_words]
    lda_topic_words.append([X_vocab[i] for i in word_idx])

for row in lda_topic_words:
    print(row, "\n")

['x_men', 'comics', 'powers', 'legion', 'team', 'time', 'magneto', 'marvel_comics', 'mutant', 'uncanny_x_men', 'also', 'one', 'member', 'later', 'wolverine', 'apocalypse', 'body', 'earth', 'rogue', 'however', 'cyclops', 'mutants', 'power', 'ability', 'vol', 'battle', 'death', 'able', 'x_factor', 'new', 'would', 'revealed', 'x_force', 'xavier', 'created', 'could', 'storm', 'alpha_flight', 'help', 'series', 'used', 'back', 'super_heroes', 'control', 'two', 'use', 'abilities', 'part', 'left', 'mystique', 'even', 'killed', 'along', 'character', 'though', 'appears', 'using', 'mind', 'phoenix', 'beast', 'eventually', 'cable', 'first', 'age', 'future', 'well', 'energy', 'attack', 'life', 'father', 'jean_grey', 'group', 'form', 'world', 'known', 'kill', 'like', 'still', 'psylocke', 'due', 'made', 'shi', 'order', 'jean', 'fight', 'became', 'although', 'angel', 'gambit', 'people', 'return', 'seen', 'end', 'members', 'name', 'become', 'reality', 'professor_x', 'returned', 'marvel'] 

['spawn', 'n

In [7]:
# Normalizar la matriz de coeficientes
lda_topics_norm = lda_topics / np.sum(lda_topics, axis=1, keepdims=True) 

# Obtener los títulos de los documentos
page_titles = np.asarray(list(comicsDf.title))

num_groups = len(set(page_titles))
lda_topics_grouped = np.zeros((num_groups, num_topics))
for i, name in enumerate(sorted(set(page_titles))):
    # Promedios, útiles cuando hay documentos con títulos repetidos
    lda_topics_grouped[i, :] = np.mean(lda_topics_norm[page_titles == name, :], axis=0)

lda_pages = pd.DataFrame(data=lda_topics_grouped, index=page_titles, 
                   columns=["T" + str(i) for i in range(num_topics)])

display(lda_pages[0:20])
display(lda_pages[500:520])
display(lda_pages[1000:1020])

Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
'Mazing Man,0.000337,0.000336,0.000336,0.000336,0.000337,0.000337,0.104393,0.893589
711 (Quality Comics),0.000851,0.000851,0.000851,0.000851,0.000851,0.000852,0.000851,0.994042
Abigail Brand,0.412655,0.156199,0.000109,0.000109,0.393968,0.000109,0.036743,0.000109
Abin Sur,0.031838,6.5e-05,0.734513,6.5e-05,6.5e-05,0.090155,6.5e-05,0.143236
Abner Jenkins,0.009264,8.5e-05,8.5e-05,8.5e-05,0.708183,8.5e-05,0.28213,8.5e-05
Abyss (comics),0.754364,0.000177,0.000177,0.000177,0.241072,0.000177,0.000177,0.003678
Ace the Bat-Hound,0.000133,0.000133,0.000133,0.000133,0.000133,0.000133,0.000133,0.999071
Acrata,0.00045,0.00045,0.00045,0.00045,0.00045,0.153528,0.00045,0.843771
Adam Strange,0.015151,7.7e-05,0.415187,7.7e-05,7.7e-05,0.230723,0.010497,0.32821
Adam Warlock,6.1e-05,6.1e-05,6.1e-05,6.1e-05,0.976303,6.1e-05,6.1e-05,0.02333


Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
Fang (comics),0.893013,0.0004,0.0004,0.000399,0.104589,0.0004,0.0004,0.0004
Fantomex,0.991856,7.3e-05,7.2e-05,7.2e-05,7.3e-05,7.3e-05,0.007709,7.3e-05
Fastback (comics),0.382399,0.000387,0.000387,0.000387,0.000388,0.163143,0.000387,0.452521
Fate (comics),0.009622,0.009628,0.009621,0.316401,0.00962,0.625861,0.009618,0.00963
Felicity Hardy,0.000467,0.000467,0.000467,0.000467,0.000467,0.000467,0.996731,0.000467
Feral (comics),0.851702,0.00014,0.00014,0.00014,0.00014,0.00014,0.147458,0.00014
Feron,0.997837,0.000309,0.000309,0.000309,0.000309,0.000309,0.000309,0.000309
Ferro Lad,0.79608,0.000212,0.02178,0.000212,0.000212,0.000212,0.000212,0.18108
Fever (DC Comics),0.000888,0.000887,0.000887,0.000887,0.000888,0.993787,0.000888,0.000888
Fightin' 5,0.263057,0.000715,0.000715,0.000715,0.000716,0.134607,0.000716,0.598759


Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
Mayhem (comics),0.051175,0.000328,0.616887,0.000328,0.000329,0.330295,0.000328,0.000329
Medphyll,0.085925,4.7e-05,4.7e-05,4.6e-05,0.887194,4.7e-05,0.026648,4.7e-05
Medusa (comics),0.027852,0.000153,0.000153,0.000153,0.058981,0.164914,0.000154,0.747639
Megaton Man,0.944234,0.006338,8.7e-05,8.7e-05,0.038219,8.7e-05,0.010861,8.7e-05
Meggan,0.008338,0.720451,0.008335,0.008337,0.229522,0.008338,0.00834,0.008338
Melee (comics),0.998482,0.000217,0.000217,0.000217,0.000217,0.000217,0.000217,0.000217
Menagerie (Image Comics),0.008687,0.000263,0.000263,0.000263,0.000263,0.989736,0.000263,0.000263
Mento (comics),0.996395,0.000515,0.000515,0.000515,0.000516,0.000515,0.000515,0.000515
Mentor (Imperial Guard),6.4e-05,6.4e-05,0.042434,6.4e-05,6.4e-05,0.955903,0.001342,6.4e-05
Mera (comics),0.371249,0.613055,0.000104,0.000104,0.015177,0.000104,0.000104,0.000104


## Factorización de matrices no negativas (NNMF o NMF)

Una forma muy común de representar una colección de documentos es mediante una **matriz documentos-términos**. En una matriz documentos-términos los renglones representan documentos y las columnas corresponden a los términos/tokens utilizados en el corpus. Las celdas suelen contener medidas de importancia de cada término en un documento dado, por ejemplo, mediante valores de tf-idf. Una dificultad al utilizar estas matrices para representar la colección de documentos es la cantidad, típicamente grande, de atributos utilizados.

El objetivo de la técnica NMF es obtener una factorización de la matriz documentos-términos original $\mathbf{V}$ en dos matrices de menor dimensión $\mathbf{W}$ y $\mathbf{H}$. Dado que el problema no tiene solución exacta, para el caso general, lo usual es obtener una solución aproximada:

![](images/nmf.png)

Aquí, $\mathbf{V}, \mathbf{W}$ y $\mathbf{H}$ son matrices con todas las entradas no negativas; $\mathbf{V}$ es una matriz de tamaño $m\times n$, $\mathbf{W}$ es una matriz de tamaño $m\times k$ y $\mathbf{H}$ una matriz de tamaño $k\times n$. Por otra parte, el valor de $k$ se selecciona en el rango $[1, \min {(m,n)}]$, de manera que las dimensiones de las matrices factor pueden ser considerablemente menores que las dimensiones de la matriz original.

Observemos que $\mathbf{V}$ está formada por $m$ renglones (cada uno representando un documento) y $n$ columnas (cada una representando un token). Ahora, $\mathbf{W}$ contiene $m$ renglones, nuevamente uno por documento, y $k$ columnas que contienen los descriptores de los documentos; estos descriptores son un conjunto (reducido) de rasgos nuevos. Por otra parte,  $\mathbf{H}$ contiene $k$ renglones (uno por cada nuevo rasgo) y $n$ columnas (que representan los tokens). Así, $\mathbf{W}$ relaciona los documentos con el nuevo conjunto de rasgos y $\mathbf{H}$ relaciona los nuevos rasgos con los tokens. 

In [8]:
num_topics = 8
# Creación del operador
nmf = decomposition.NMF(n_components=num_topics)
# Factorización de la matriz documentos-términos
nmf_topics = nmf.fit_transform(X)

print("Tamaño de la matriz original (V):", X.shape)
print("Tamaño de la matriz de coeficientes (W):", nmf_topics.shape)
print("Tamaño de la matriz diccionario (H):", nmf.components_.shape)

Tamaño de la matriz original (V): (1867, 27953)
Tamaño de la matriz de coeficientes (W): (1867, 8)
Tamaño de la matriz diccionario (H): (8, 27953)


A continuación mostramos como se estructuraron los tópicos (la forma en que cada nuevo rasgo se relaciona con los atributos originales):

In [9]:
# Atributos originales a mostrar en cada vector de características, 
# ordenados por importancia       
num_top_words = 100
nmf_topic_words = []
for topic in nmf.components_:
    word_idx = np.argsort(topic)[::-1][0:num_top_words]
    nmf_topic_words.append([X_vocab[i] for i in word_idx])

for row in nmf_topic_words:
    print(row, "\n")

['avengers', 'hulk', 'captain_america', 'iron_man', 'marvel_comics', 'comics', 'fantastic_four', 'marvel', 'thor', 'character', 'stark', 'one', 'series', 'earth', 'team', 'time', 'later', 'black_panther', 'appears', 'armor', 'also', 'battle', 'new', 'shield', 'death', 'vision', 'hercules', 'hawkeye', 'voiced', 'heroes', 'member', 'powers', 'first', 'storyline', 'vol', 'part', 'rhodes', 'namor', 'version', 'would', 'issue', 'silver_surfer', 'created', 'sentry', 'revealed', 'head', 'however', 'power', 'help', 'civil_war', 'fight', 'playable_character', 'two', 'body', 'black_widow', 'used', 'group', 'back', 'deadpool', 'appeared', 'story', 'war_machine', 'killed', 'use', 'well', 'although', 'world', 'made', 'film', 'due', 'black_bolt', 'ultron', 'able', 'ghost_rider', 'title', 'man', 'using', 'ultimate', 'life', 'new_avengers', 'characters', 'tony_stark', 'ability', 'became', 'eventually', 'daredevil', 'reed', 'inhumans', 'name', 'new_york', 'moon_knight', 'tv_series', 'may', 'original', 

Por otra parte, cada documento queda representado por $k$ coeficientes que describen la "*pertenencia*" del documento a cada tópico:

In [10]:
# Normalizar la matriz de coeficientes
nmf_topic_norm = nmf_topics / np.sum(nmf_topics, axis=1, keepdims=True) 

# Obtener los títulos de los documentos
page_titles = np.asarray(list(comicsDf.title))

num_groups = len(set(page_titles))
nmf_topic_grouped = np.zeros((num_groups, num_topics))
for i, name in enumerate(sorted(set(page_titles))):
    # Promedios, útiles cuando hay documentos con títulos repetidos
    nmf_topic_grouped[i, :] = np.mean(nmf_topic_norm[page_titles == name, :], axis=0)

nmf_pages = pd.DataFrame(data=nmf_topic_grouped, index=page_titles, 
                   columns=["T" + str(i) for i in range(num_topics)])

display(nmf_pages[0:20])
display(nmf_pages[500:520])
display(nmf_pages[1000:1020])

  from ipykernel import kernelapp as app


Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
'Mazing Man,0.196678,0.018877,0.077517,0.168268,0.0,0.025107,0.010458,0.503096
711 (Quality Comics),0.047172,0.0,0.039723,0.086657,0.0,0.025769,0.0,0.800679
Abigail Brand,0.216616,0.360927,0.072651,0.0,0.054953,0.0,0.061162,0.233691
Abin Sur,0.033212,0.005576,0.002216,0.0,0.785348,0.021524,0.0,0.152124
Abner Jenkins,0.384852,0.0,0.443726,0.0,0.013121,0.001086,0.0,0.157214
Abyss (comics),0.231136,0.367382,0.058356,0.0,0.000269,0.000482,0.035633,0.306742
Ace the Bat-Hound,0.0,0.0,0.0,0.974351,0.013025,0.012624,0.0,0.0
Acrata,0.0,0.0,0.0,0.187726,0.0,0.124308,0.0,0.687966
Adam Strange,0.064177,0.0,0.004968,0.035663,0.13488,0.021308,0.0,0.739004
Adam Warlock,0.525534,0.014266,0.044644,0.001384,0.104697,0.000317,0.012672,0.296487


Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
Fang (comics),0.045442,0.29321,0.0,0.0,0.062733,0.0,0.346823,0.251791
Fantomex,0.089477,0.294841,0.03509,0.044348,0.00488,0.006924,0.294238,0.230203
Fastback (comics),0.004229,0.005855,0.002244,0.0,0.003446,0.002518,0.0,0.981707
Fate (comics),0.0,0.0,0.0,0.0,0.0,0.002254,0.0,0.997746
Felicity Hardy,0.0138,0.021867,0.704701,0.006845,0.0,0.0,0.0,0.252787
Feral (comics),0.065779,0.285626,0.00982,0.0,0.0,0.0,0.419455,0.21932
Feron,0.164858,0.350787,0.022497,0.0,0.044212,0.0,0.0,0.417645
Ferro Lad,0.096531,0.071937,0.021068,0.0,0.083274,0.114284,0.0,0.612906
Fever (DC Comics),0.027396,0.0,0.0,0.00505,0.0,0.0,0.0,0.967553
Fightin' 5,0.25923,0.075135,0.0,0.0,0.0,0.0,0.0,0.665635


Unnamed: 0,T0,T1,T2,T3,T4,T5,T6,T7
Mayhem (comics),0.016422,0.001973,0.0,0.014191,0.645806,0.0,0.0,0.321608
Medphyll,0.751327,0.095637,0.118797,0.0,0.034239,0.0,0.0,0.0
Medusa (comics),0.15394,0.073565,0.066898,0.008773,0.0,0.008631,0.003304,0.684888
Megaton Man,0.261707,0.234739,0.048833,0.0,0.011359,0.001563,0.013539,0.42826
Meggan,0.519039,0.0,0.0,0.0,0.0,0.0,0.0,0.480961
Melee (comics),0.134018,0.119831,0.048644,0.013794,0.011394,0.00217,0.0,0.670149
Menagerie (Image Comics),0.044252,0.034541,0.002737,0.11442,0.0,0.0,0.0,0.804051
Mento (comics),0.141007,0.585538,0.0,0.0,0.016602,0.010207,0.0,0.246646
Mentor (Imperial Guard),0.0,0.0,0.0,0.0,0.046033,0.0,0.004551,0.949416
Mera (comics),0.108247,0.450721,0.029595,0.004859,0.003415,0.0,0.18072,0.222444
