###  <span style="color:orange"> MODELADO DEL TEMA CON LDA </span>
___
El modelado de tema es otra de las técnicas más comunes dentro de los análisis del PLN. Se trata de un recurso que detecta automáticamente abstracciones de temas en una colección de documentos mediante comparaciones estadísticas. 
Existen diferentes técnicas a la hora de llevar a cabo esta tarea, siempre basadas en el aprendizaje no supervisado, como son las técnicas Correlated Topic Model o el Biterm Topic Model. En nuestro caso, escogeremos el algoritmo *Latent Dirichlet Allocation* (LDA), ya que ha sido específicamente formulado para tipos de datos textuales y es, actualmente, la técnica más explorada dentro de los análisis de Procesamiento de Lenguaje Natural.

Para trabajar con el algoritmo, recurrimos al modelo LDA de la librería **gensim**. Este paquete se inicia a partir de una bolsa de palabras (en nuestro caso, de la matriz). Los pasos que seguiremos son:
-	Creación de una matriz dispersa a partir de la nuestra
-	Generación de un corpus gensim propio con esa matriz
-	Recolección de los identificadores de las palabras presentes en nuestro contador de vectores
-	Llamada a las funciones del modelo especificando algunos parámetros
-	Observación de la relación que automáticamente se genera entre temas valorados y nuestros corpus cargados, y valoración de su adecuación
-	Repetición de los últimos dos pasos hasta concluir con un resultado significativo. Por último, poner nombre a estos temas “descubiertos” y observar qué tema destaca más en cada periódico. 


In [None]:
#Previamente deberemos haber instalado gensim en nuestro sistema
from gensim import matutils, models
import scipy.sparse

In [None]:
# Leemos la matriz de términos
import pandas as pd

matriz = pd.read_pickle('df_matriz.pkl')

In [None]:
'''De nuevo, trasladamos la matriz original de forma que cada columna corresponda a un periódico'''
matriz = matriz.transpose()

In [None]:
# Vamos a hacer una matriz dispersa con nuestra matriz, para después crear el corpus gensim

cuenta_dispersas = scipy.sparse.csr_matrix(matriz)
corpus = matutils.Sparse2Corpus(cuenta_dispersas)

In [None]:
#Para la LDA también necesitaremos el objeto CountVectorizer definido en la etapa 3.Creación del corpus y la matriz 

cv = pickle.load(open("cv.pkl", "rb"))
id2word = dict((v, k) for k, v in cv.vocabulary_.items())

In [None]:
#Lo ponemos en marcha

'''Debemos especificar el número de topics que creemos puede haber y el número de veces que recorrerá el texto.
Estos dos valores podemos variarlos hasta obtener un resultado relevante'''
lda = models.LdaModel(corpus=corpus, id2word=id2word, num_topics=4, passes=100)
lda.print_topics()

In [None]:
#Observamos qué abtracción de tema destaca más en cada corpus

corpus_transformado = lda[corpus]
list(zip([a for [(a, b)] in corpus_transformado], matriz.index))