## Examen Gestión de la Información no estructurada (TEXT MINING) 

### Manuel del Pino Guerrero

Cargamos librerías necesarias para realizar el examen

In [1]:
import textacy
import nltk

In [2]:
from nltk.stem import WordNetLemmatizer

### Realice un pre-procesamiento del siguiente texto:

In [3]:
texto = '''María Zambrano (1904, Vélez Málaga-1991, Madrid) figura en la cima de la filosofía del pensamiento español. 
Desde 1909 a 1924 vivió en Segovia, donde conoció a Antonio Machado. Discípula predilecta de Ortega y Gasset, asistió también 
a clases de García Morente, Manuel Bartolomé Cossío y Xavier Zubiri. Empezó a publicar artículos en 1928 y su primer libro, 
Horizonte del liberalimo data de 1930. Ya en la República, participó en las Misiones Pedagógicas. Su exilio la llevó por Chile, 
México, Cuba, Puerto Rico, Roma, París y Suiza.'''

In [4]:
print('El idioma del texto es:', textacy.text_utils.detect_language(texto))

El idioma del texto es: es


1) En la anterior celda podemos comprobar como a través del comando "textacy.text_utils.detect_language()", hemos obtenido un print en la terminal que nos indica que efectivamente el idioma del texto seleccionado es español "es"

2) A continuación vamos a crear el tokenizador necesario para separar el texto en frases, sacando también dichas frases por separado para comprobar que funciona correctamente.

In [5]:
tokenizador = nltk.data.load('tokenizers/punkt/spanish.pickle')
frases = tokenizador.tokenize(texto)
frases

['María Zambrano (1904, Vélez Málaga-1991, Madrid) figura en la cima de la filosofía del pensamiento español.',
 'Desde 1909 a 1924 vivió en Segovia, donde conoció a Antonio Machado.',
 'Discípula predilecta de Ortega y Gasset, asistió también \na clases de García Morente, Manuel Bartolomé Cossío y Xavier Zubiri.',
 'Empezó a publicar artículos en 1928 y su primer libro, \nHorizonte del liberalimo data de 1930.',
 'Ya en la República, participó en las Misiones Pedagógicas.',
 'Su exilio la llevó por Chile, \nMéxico, Cuba, Puerto Rico, Roma, París y Suiza.']

3) Ahora vamos a dividir el documento en 20 tokens por ejemplo, e imprimirlos utilizando "nltk.word_tokenize()"

In [6]:
tokens_español = nltk.word_tokenize(texto)
tokens_español[:20]

['María',
 'Zambrano',
 '(',
 '1904',
 ',',
 'Vélez',
 'Málaga-1991',
 ',',
 'Madrid',
 ')',
 'figura',
 'en',
 'la',
 'cima',
 'de',
 'la',
 'filosofía',
 'del',
 'pensamiento',
 'español']

### 2. Extraiga y escriba por pantalla las formas normales y la categoría gramatical de cada una de las palabras del texto anterior. 

A continuación vamos a obtener las formas normales (lemas) de los anteriores.

In [7]:
lematizador = WordNetLemmatizer()
for palabra in tokens_español:
    print(lematizador.lemmatize(palabra))

María
Zambrano
(
1904
,
Vélez
Málaga-1991
,
Madrid
)
figura
en
la
cima
de
la
filosofía
del
pensamiento
español
.
Desde
1909
a
1924
vivió
en
Segovia
,
donde
conoció
a
Antonio
Machado
.
Discípula
predilecta
de
Ortega
y
Gasset
,
asistió
también
a
clases
de
García
Morente
,
Manuel
Bartolomé
Cossío
y
Xavier
Zubiri
.
Empezó
a
publicar
artículos
en
1928
y
su
primer
libro
,
Horizonte
del
liberalimo
data
de
1930
.
Ya
en
la
República
,
participó
en
la
Misiones
Pedagógicas
.
Su
exilio
la
llevó
por
Chile
,
México
,
Cuba
,
Puerto
Rico
,
Roma
,
París
y
Suiza
.


### 3. Realice una extracción de entidades del texto anterior. Deben aparecer al menos entidades de tipo persona, localización y organización. Comente los resultados obtenidos. 
 

In [8]:
import nltk, re, pprint

from nltk.corpus import PlaintextCorpusReader

In [9]:
import spacy #Cargo esta librería para dar mejor soporte de extracción de entidades en textos en español

In [10]:
from spacy.lang.es.examples import sentences

In [11]:
frases_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [12]:
frases = nltk.sent_tokenize(texto)
frases

['María Zambrano (1904, Vélez Málaga-1991, Madrid) figura en la cima de la filosofía del pensamiento español.',
 'Desde 1909 a 1924 vivió en Segovia, donde conoció a Antonio Machado.',
 'Discípula predilecta de Ortega y Gasset, asistió también \na clases de García Morente, Manuel Bartolomé Cossío y Xavier Zubiri.',
 'Empezó a publicar artículos en 1928 y su primer libro, \nHorizonte del liberalimo data de 1930.',
 'Ya en la República, participó en las Misiones Pedagógicas.',
 'Su exilio la llevó por Chile, \nMéxico, Cuba, Puerto Rico, Roma, París y Suiza.']

#### Comienzo la extracción de entidades del texto proporcionado

In [13]:
frases_token = [nltk.word_tokenize(frase) for frase in frases] 

frases_tagged = [nltk.pos_tag(frase) for frase in frases_token]

for fras in frases_tagged:
    print(nltk.ne_chunk(fras))

(S
  (PERSON María/NNP)
  (ORGANIZATION Zambrano/NNP)
  (/(
  1904/CD
  ,/,
  (PERSON Vélez/NNP Málaga-1991/NNP)
  ,/,
  (GPE Madrid/NNP)
  )/)
  figura/NN
  en/IN
  la/FW
  cima/FW
  de/FW
  la/FW
  filosofía/FW
  del/FW
  pensamiento/NN
  español/NN
  ./.)
(S
  Desde/NNP
  1909/CD
  a/DT
  1924/CD
  vivió/NN
  en/FW
  (GPE Segovia/NNP)
  ,/,
  donde/NN
  conoció/NN
  a/DT
  (ORGANIZATION Antonio/NNP Machado/NNP)
  ./.)
(S
  (GPE Discípula/NNP)
  predilecta/NN
  de/FW
  (GPE Ortega/NNP)
  y/NN
  (PERSON Gasset/NNP)
  ,/,
  asistió/VBZ
  también/VBP
  a/DT
  clases/NNS
  de/IN
  (PERSON García/NNP Morente/NNP)
  ,/,
  (PERSON Manuel/NNP Bartolomé/NNP Cossío/NNP)
  y/NNP
  Xavier/NNP
  Zubiri/NNP
  ./.)
(S
  Empezó/VB
  a/DT
  publicar/NN
  artículos/NN
  en/IN
  1928/CD
  y/NN
  su/NN
  primer/NN
  libro/NN
  ,/,
  (PERSON Horizonte/NNP)
  del/FW
  liberalimo/NN
  data/NNS
  de/IN
  1930/CD
  ./.)
(S
  Ya/NNP
  en/CC
  la/NN
  (ORGANIZATION República/NNP)
  ,/,
  participó/NN
  en/FW
 

Tal y como podemos observar trás realizar la extracción de entidades previa, se puede ver que al tratarse de un texto español utilizamos la librería previamente cargada spaCy, ya que la librería NLTK está muy preparada para desarrollar y analizar corpus de documentos en idioma Inglés, por lo que siguiendo diferentes recomendaciones vamos a usar la librería spaCy para a continuación llevar a cabo nuestro análisis de un txt en idioma español.

Las confusiones y errores son mayores ya que identifica verbos como personas y viceversa, por lo que diría que el grado de acierto semántico es mucho menor en el caso español. Otor ejemplo es que identifica la palabra "Puerto" como PERSONA en vez de lugar.

In [14]:
nlp = spacy.load('es_core_news_md') 

In [16]:
doc = nlp(sentences[0])

In [17]:
doc = nlp(sentences[0])

In [18]:
print (doc.text)

Apple está buscando comprar una startup del Reino Unido por mil millones de dólares


In [19]:
for token in doc:
    print (token.text, token.pos_, token.dep_)

Apple PROPN nsubj
está AUX aux
buscando VERB ROOT
comprar VERB xcomp
una DET det
startup NOUN obj
del ADP case
Reino PROPN nmod
Unido PROPN flat
por ADP case
mil NUM nummod
millones NOUN nmod
de ADP case
dólares NOUN nmod


Ahora una vez comporbamos que la librería spaCy funciona correctamente, vamos a tratar de extraer entidades de nuestro texto en español con ella.

In [20]:
doc_spanish = nlp(texto)

In [21]:
print("Noun phrases:", [chunk.text for chunk in doc_spanish.noun_chunks])

Noun phrases: ['María Zambrano', '1904', 'Vélez Málaga-1991', 'Madrid', 'la cima', 'la filosofía', 'pensamiento', '1909', '1924', 'Segovia', 'donde', 'Antonio Machado', 'predilecta', 'Ortega', 'Gasset', 'clases', 'García Morente', 'Manuel Bartolomé Cossío', 'Xavier Zubiri', 'artículos', '1928', 'su primer libro', 'Horizonte del liberalimo', '1930', 'la República', 'las Misiones Pedagógicas', 'Su exilio', 'la', 'Chile', 'México', 'Cuba', 'Puerto Rico', 'Roma', 'París', 'Suiza']


In [22]:
print("Verbs:", [token.lemma_ for token in doc_spanish if token.pos_ == "VERB"])

Verbs: ['figurar', 'vivir', 'conocer', 'asistir', 'publicar', 'datar', 'participar', 'llevar']


Para encontrar entidades, frases y otros conceptos hacemos lo siguiente:

In [23]:
for entity in doc_spanish.ents:
    print(entity.text, entity.label_)

María Zambrano PER
Vélez Málaga-1991 PER
Madrid ORG

 ORG
Segovia LOC
Antonio Machado PER
Ortega y Gasset PER

 PER
García Morente PER
Manuel Bartolomé Cossío PER
Xavier Zubiri PER

Horizonte MISC
Ya en la República MISC
Misiones Pedagógicas LOC
Chile LOC

México ORG
Cuba LOC
Puerto Rico LOC
Roma LOC
París LOC
Suiza LOC


Tal y como podemos comprobar con estas últimas acciones y siguiendo las instrucciones del profesor Francisco Izquierdo, la librería spaCy ajusta mucho mejor semánticamente la extracción de entidades de nuestro Corpus en cuestión dando lugar a pocas confusiones.

### 4. Extraiga los ficheros que se encuentran en el archivo docus.zip en un directorio. Léalos desde su notebook y realice las tareas de pre-procesamiento que considere necesarias para abordar una extracción de tópicos. Genere 3 tópicos y saque por pantalla la lista con los 5 términos más frecuentes de cada tópico. 

Procedo a cargar los paquetes y librerías necesarias

In [24]:
from __future__ import print_function

import numpy as np

from nltk.corpus import brown

from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

In [25]:
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import PlaintextCorpusReader
#from stopwords import get_stop_words
from nltk.stem.porter import PorterStemmer
from gensim import corpora, models
import gensim
import pyLDAvis.gensim
import nltk, re, pprint, spacy

paramiko missing, opening SSH/SCP/SFTP paths will be disabled.  `pip install paramiko` to suppress


In [26]:
# Cargo library stopwords
from nltk.corpus import stopwords

# De esta manera importo de manera más eficiente la librería stopwords que cargaré luego.
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Knowhow\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [28]:
# Construímos el Corpus dándole formato encoding utf-8 a cada uno de los 15 textos seleccionados. ya que de lo contrario no sería posible
# continuar con el análisis LDA.


docs_dir = "C:/Users/Knowhow/Desktop/CUNEF/GESTION DE LA INFORMACIÓN NO ESTRUCTURADA/EXAMEN 2019 manuel_delpino/docus"
documentos = PlaintextCorpusReader(docs_dir, '.*txt') 
corpus = [] # Preparo el conjunto de documentos (Corpus con los 15 txt de noticias que he escogido) para realizar un análisis de tipo LDA.

for fileid in documentos.fileids():
    documento = documentos.raw(fileids=fileid)
    corpus.append(documento)

In [30]:
doc_list=[]
docs_dir = "C:/Users/Knowhow/Desktop/CUNEF/GESTION DE LA INFORMACIÓN NO ESTRUCTURADA/EXAMEN 2019 manuel_delpino/docus"
documentos = PlaintextCorpusReader(docs_dir, '.*txt')

for fileid in documentos.fileids():
    doc_list.append(documentos.raw(fileids=fileid))

print(doc_list[:15]) #Aquí estoy imprimiendo los 15 primeros documentos del CORPUS total de 15 txt con diferentes tópicos.

['Terminadas las semifinales de la liga ACB de baloncesto, los play-off arrancarán el próximo sábado en Madrid,', 'Una canasta en los últimos momentos dio un resultado inesperado en las finales de la temporada de baloncesto en Estados Unidos', 'La ACB se reunirá para estudiar la conveniencia de aplicar en las canchas de baloncesto las reglas de la NBA, entre ellas alejar a mayor distancia de la canasta la línea de triple. ', 'El mercado de fichajes en las canchas de baloncesto para la próxima temporada ya está en auge. Los diferentes equipos se intentan reforzar para una temporada que presentará cambios en el número de partidos.', 'Polémica en la liga de baloncesto griega. Los dos principales equipos, Panathinaikos y Olympiacos han tenido una temporada con duros enfrentamientos, hasta el punto de que Olympiacos se ha negado a jugar el derbi, y el Panathinaikos gana por 0-20.', 'Vargas Llosa anuncia un libro sobre el golpe militar auspiciado por la CIA en Guatemala en 1954', 'El escrito

### 5.Obtenga el resultado gráfico del análisis mediante la librería pyLDAvis. Comente los resultados obtenidos.

In [31]:
# 1. Vectorizamos el corpus
# 2. LatentDirichletAllocation actúa sobre una matriz términos - documentos
# 3. CountVectorizer precismente transforma un conjunto de documentos (corpus) en una matriz 
    
cv = CountVectorizer(strip_accents='unicode', analyzer='word')
Xc = cv.fit_transform(corpus)

In [32]:
# Ejecutamos LDA

lda = LatentDirichletAllocation(n_components=3, learning_method='online', max_iter=25)
Xl = lda.fit_transform(Xc)

In [33]:
# Mostramos las 5 palabras por tópico
Mwts_lda = np.argsort(lda.components_, axis=1)[::-1]

for t in range(3):
    print('\nTopic ' + str(t))
    for i in range(5):
        print(cv.get_feature_names()[Mwts_lda[t, i]])

# Test the model with new document
print('Document 0:')
print(corpus[0])
print(Xl[0])

print('Document 7:')
print(corpus[7])
print(Xl[7])

test_doc = corpus[0] + ' ' + corpus[7]
y_test = lda.transform(cv.transform([test_doc]))
print(y_test)


Topic 0
griega
aplicar
costumbres
gana
estudiar

Topic 1
ti
empresariales
sus
atacar
preocupaciones

Topic 2
spectre
gana
jugar
una
dos
Document 0:
Terminadas las semifinales de la liga ACB de baloncesto, los play-off arrancarán el próximo sábado en Madrid,
[0.01800615 0.96358267 0.01841118]
Document 7:
Los libros que José Luis Garcías compró en su visita privada a la Feria del Libro de Madrid
[0.01886556 0.35189911 0.62923533]
[[0.00954105 0.73577327 0.25468568]]


Ahora voy a cargar la lista de palabras vacías en español con 'stopwords'

In [34]:
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

In [35]:
stopWords = set(stopwords.words('spanish'))

In [36]:
print(len(stopWords))
print(stopWords)

313
{'hubiesen', 'ella', 'sí', 'seréis', 'sería', 'nosotras', 'teníais', 'estén', 'hay', 'estés', 'estados', 'se', 'pero', 'estado', 'sois', 'ellos', 'soy', 'tendrían', 'estuvisteis', 'hubo', 'suyo', 'tengáis', 'las', 'más', 'tuve', 'tenidas', 'tenía', 'algunos', 'tenemos', 'mis', 'mía', 'estábamos', 'tuyas', 'estamos', 'serán', 'tu', 'estarías', 'estaría', 'o', 'todos', 'erais', 'fueron', 'teníamos', 'estarán', 'tendría', 'estuviesen', 'tuvierais', 'estarían', 'una', 'estaba', 'estuviésemos', 'serías', 'tuyos', 'tuvimos', 'estuviste', 'tendríais', 'hayan', 'fuera', 'poco', 'serás', 'algo', 'era', 'tengan', 'porque', 'he', 'hubiera', 'esa', 'antes', 'ya', 'suyos', 'hubiésemos', 'los', 'seamos', 'tuviste', 'cual', 'estáis', 'están', 'tengamos', 'estadas', 'ni', 'me', 'estando', 'sentid', 'estas', 'estad', 'habidas', 'desde', 'tienen', 'tendremos', 'les', 'hubiéramos', 'seríais', 'esté', 'hubieseis', 'tendrás', 'estuvimos', 'habíamos', 'tuviéramos', 'estuviera', 'estará', 'fui', 'eres', 

In [37]:
# Cargamos el modelo en español para dividir el texto y obtener formas normales (stemms)

nlp = spacy.load('es_core_news_sm')

# Y cargamos una lista de palabras vacías en español

es_stop = stopWords

  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)
  return _unpackb(packed, **kwargs)


A partir de los documentos en formato lista de strings, vamos a obtener el corpus en el formato que neecesitamos. Vamos a crear el corpus como una lista. Dentro de esa lista, cada documento será una lista de strings. Cada string será un término del documento. Para que los términos no nos distorsionen el análisis LDA, vamos a poner todos los términos en minúsculas, pasamos a formas normales y eliminamos palabras vacías

In [38]:
# Lista que incorporará el corpus completo

textos = []
palabras = []

# Y ahora un bucle que pasa por cada documento
for doc in doc_list:
    
    # Pasamos el documento a minusculas
    doc_min = doc.lower()
    
    # Dividimos en palabras y sacamos formas normales con spaCy
    doc = nlp(doc_min)
    
    # Y ahora añadimos la palabra, pero en su forma normal. Sólo añadimos la palabra si no es una palabra vacía.
    # Además, si la palabra sólo tiene 1 caracter, no la añado. Probablemente sea un signo de puntuación o una palabra vacía
    
    for token in doc:
        if (not token.lemma_ in es_stop) and (len(token.lemma_)>1):
            palabras.append(token.lemma_)
    
    # Y por último añadimos a los textos el documento ya tratado (formas normales, no palabras vacías...)
    
    textos.append(palabras)
    palabras = []

In [39]:
print(doc_list)

['Terminadas las semifinales de la liga ACB de baloncesto, los play-off arrancarán el próximo sábado en Madrid,', 'Una canasta en los últimos momentos dio un resultado inesperado en las finales de la temporada de baloncesto en Estados Unidos', 'La ACB se reunirá para estudiar la conveniencia de aplicar en las canchas de baloncesto las reglas de la NBA, entre ellas alejar a mayor distancia de la canasta la línea de triple. ', 'El mercado de fichajes en las canchas de baloncesto para la próxima temporada ya está en auge. Los diferentes equipos se intentan reforzar para una temporada que presentará cambios en el número de partidos.', 'Polémica en la liga de baloncesto griega. Los dos principales equipos, Panathinaikos y Olympiacos han tenido una temporada con duros enfrentamientos, hasta el punto de que Olympiacos se ha negado a jugar el derbi, y el Panathinaikos gana por 0-20.', 'Vargas Llosa anuncia un libro sobre el golpe militar auspiciado por la CIA en Guatemala en 1954', 'El escrito

In [40]:
print(textos)

[['terminar', 'semifinal', 'ligar', 'acb', 'baloncesto', 'play', 'off', 'arrancar', 'próximo', 'sábado', 'madrid'], ['canasta', 'último', 'momento', 'dar', 'resultar', 'inesperado', 'final', 'temporada', 'baloncesto', 'unir'], ['acb', 'reunir', 'parir', 'estudiar', 'conveniencia', 'aplicar', 'cancha', 'baloncesto', 'reglar', 'nba', 'entrar', 'alejar', 'mayor', 'distanciar', 'canasta', 'líneo', 'triple'], ['mercar', 'fichaje', 'cancha', 'baloncesto', 'parir', 'próximo', 'temporada', 'auge', 'diferente', 'equipo', 'intentar', 'reforzar', 'parir', 'temporada', 'presentar', 'cambio', 'número', 'partir'], ['polémico', 'ligar', 'baloncesto', 'griego', 'do', 'principal', 'equipo', 'panathinaikos', 'olympiacos', 'haber', 'tener', 'temporada', 'duro', 'enfrentamiento', 'punto', 'olympiacos', 'haber', 'negar', 'jugar', 'derbi', 'panathinaikos', 'ganar', '20'], ['varga', 'llosa', 'anunciar', 'librar', 'sobrar', 'golpe', 'militar', 'auspiciar', 'cia', 'guatemala', '1954'], ['escritor', 'peruano', 

#### De cara a realizar el análisis LDA, obtenemos el diccionario de los términos de los documentos, así como la matriz de términos documentos.  

In [41]:
# Construímos el diccionario, que es una lista de las palabras que aparecen en el corpus textos

dictionary = corpora.Dictionary(textos)
    
# Ahora generamos la matriz términos documentos que nos hace falta para llamar a la función que genera el modelo LDA
corpus = [dictionary.doc2bow(texto) for texto in textos]

# Y por último generamos el modelo LDA
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=7, id2word = dictionary, passes=50)

####  Generamos el modelo LDA y realizamos el análisis. Librería gensim 

Y ahora vamos a imprimir los resultados.

In [42]:
print(ldamodel.print_topics(num_topics=7, num_words=10))

[(0, '0.037*"ordenador" + 0.020*"libro" + 0.020*"feriar" + 0.020*"santiago" + 0.020*"firmar" + 0.020*"encontrar" + 0.020*"ejemplar" + 0.020*"dudar" + 0.020*"vender" + 0.020*"posteguillo"'), (1, '0.046*"parir" + 0.046*"baloncesto" + 0.031*"temporada" + 0.031*"cancha" + 0.031*"próximo" + 0.031*"acb" + 0.017*"canasta" + 0.017*"presentar" + 0.017*"cambio" + 0.017*"auge"'), (2, '0.047*"portugal" + 0.025*"librar" + 0.025*"parir" + 0.025*"hacer" + 0.025*"escritor" + 0.025*"xix" + 0.025*"siglo" + 0.025*"recopilación" + 0.025*"agustina" + 0.025*"xx"'), (3, '0.033*"olympiacos" + 0.033*"panathinaikos" + 0.033*"haber" + 0.018*"ligar" + 0.018*"anunciar" + 0.018*"equipo" + 0.018*"griego" + 0.018*"enfrentamiento" + 0.018*"jugar" + 0.018*"teresa"'), (4, '0.033*"último" + 0.033*"ordenador" + 0.033*"entrar" + 0.033*"portátil" + 0.033*"principal" + 0.033*"do" + 0.033*"tablet" + 0.033*"acercar" + 0.033*"analizar" + 0.033*"mundo"'), (5, '0.035*"nuevo" + 0.035*"ordenador" + 0.035*"principal" + 0.035*"modelo

## Librería de visualización pyLDAvis

pyLDAvis nos permite obtener los datos obtenidos en el ançalisis LDA de forma gráfica. Una vez realizado el análisis, habilitamos que los resultados se puedan visualizar en el propio notebook con pyLDAvis.enable_notebook(), y preparamos los datos. Los atributos de la función prepare son el resultado del análisis (ldamodel), el corpus y el diccionario.
Por último, los datos preparados se pueden visualizar de forma gráfica con la función display. Es una visualización interactiva, cada vez que se pulsa uno de los tópicos, se representan las palabras que lo componen.

In [43]:
pyLDAvis.enable_notebook() #Para visualizar los datos obtenidos en la práctica

data = pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  return pd.concat([default_term_info] + list(topic_dfs))


In [44]:
pyLDAvis.display(data)

Con esta visualización en pyLDAvis se puede observar que tenemos un conjunto de documentos, y hemos fijado un número K de tópicos que queremos descubrir. LDA debe crear el modelo y asignar cada documento a uno de los tópicos.

Adicionalmente podemos ver queremos las palabras de cada documento asociadas con cada tópico (en este caso son 7 tópicos lo que muestra LDA ya que así se lo marcamos.

Por cada palabra w el documento d, asumimos que la asignación de documentos a tópicos es correcta para todo el resto de palabras. Es decir eliminamos que la palabra w indica el tópico t en el documento d.
Asignamos la palabra w en el documento d al tópico más habitual de la palabra w, Volvemos a iterar.
Se ha comprobado que el sistema se estabiliza al cabo de unas cuantas iteraciones.