#  Algoritmo de modelación de tópicos de documentos digitales

### Autores

#### Luis Roberto Polo Bautista
#### Karen Vanessa Martínez Acevedo 

#### El objetivo del algoritmo es asignar áreas temáticasa de documentos digitales en PDF, que sirva como herramienta de apoyo al análisis temático dentro de la organización de la información,  con el fin de ser implementado en el desarrollo de vocabularios controlados, como: taxonomías, tesauros, ontologías, etc.

### Conversióndel texto completo de documentos

#### En esta parte se utilizó el módulo PyMuPDF de Python, que entre otras funciones permite la identificación y conversión del texto de diferentes tipos de documentos a archivos editables. Es importante señalar que, el funcionamiento de este algoritmo toma como base documentos en  formato  PDF,  con  el  módulo PyMuPDF se  hace  uso  del  Reconocimiento  Óptico  de Caracteres,  que  permita  generar  archivos de texto  simple  (archivos  con  extensión  txt)  que contengan el texto completo de los documentos.

In [1]:
# importar los módulos necesario
import fitz

In [2]:
# Importar el documentoen formato PDF
documento_pdf="c:/"#<<<<<<<<-----Escribe la ruta donde se encuentra el documento PDF----->>>>>>>>
# Leer el documento mediante el módulo PyMuPDF
documento=fitz.open(documento_pdf)
# Mostrar el número de páginas y los datos bibliográficos
print ("Número de páginas del documento: ",documento.pageCount)
print ("Datos bibligráficos: ",documento.metadata)

Número de páginas del documento:  311
Datos bibligráficos:  {'format': 'PDF 1.4', 'title': None, 'author': None, 'subject': None, 'keywords': None, 'creator': 'Adobe InDesign 15.0 (Windows)', 'producer': 'Acrobat Distiller 10.1.16 (Windows)', 'creationDate': "D:20200805195910+05'30'", 'modDate': "D:20200806191404+05'30'", 'encryption': None}


In [3]:
# Declarar un variable que contenga el nombre del nuevo archivo en formato txt
documento_txt=open(documento_pdf + ".txt", "wb")
 
for paginas in documento: # Para todas las páginas del documento  hacer: 
    texto=paginas.getText().encode("utf8") # Conversión del texto en formato UTF-8
    documento_txt.write(texto) # Escribir el texto en un archivo con la extensión definida
    documento_txt.write(b"\n-----\n")# Definir dentro del archivo las divisiones de cada página
documento_txt.close() #Cerrar el documento

### Identificación de temas relevantes y modelación visual

#### En  la  sección  de  identificación  de  temas se  utilizaron  los  módulos Numpy  y Scikit-Learn para el cálculo de frecuencia y vectores de palabrasy el modelo de Asignación Latente de Dirichlet (ALD) para la identificación de los temas relevantes. Para la visualización dinámica de los temaspor medio de HTML se utilizóel módulo pyLDAvis.

In [4]:
# Importar los módulos necesarios
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np
import warnings
warnings.simplefilter("ignore", DeprecationWarning)
from sklearn.decomposition import LatentDirichletAllocation as LDA
import os
from pyLDAvis import sklearn as sklearn_lda
import pickle 
import pyLDAvis
import nltk
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize
import string
from nltk.stem import WordNetLemmatizer 

os.chdir('..')

In [5]:
# Importar el archivo de texto simple con el preprocesamiento realizado 
with open ('c:/Users/Luis/Desktop/book2.pdf.txt', 'r', encoding="utf-8") as archivo: #<<<<<<<<-----Escribe la ruta donde se encuentra el documento txt----->>>>>>>>
    texto= archivo.read()

  and should_run_async(code)


In [6]:
# Eliminar los artículos, pronombres, preposiciones, etc., del texto 
agregar = ['No', 'text', 'returned', 'unable', 'to', 'reach', 'website.', 'one', 'new', '--', 'us'] #<<<<<<<<-----Escribe las palabras que no quiere que sean consideradas a parte de las palabras vacías----->>>>>>>>
stop_words= (stopwords.words('spanish')) # <<<<<<<<-----para un texto en inglés, reemplazar 'spanish' por 'english' ----->>>>>>>>
stop_words.extend (agregar)
word_tokens= word_tokenize(texto.lower())
word_tokens= list(filter(lambda token: token not in string.punctuation, word_tokens))

  and should_run_async(code)


In [7]:
filtro=[]
for palabra in word_tokens: 
    if palabra not in stop_words:
        filtro.append(palabra)

  and should_run_async(code)


In [8]:
# normalizar todas las formas de una misma palabra 
lemmatizer = WordNetLemmatizer()
lemmatized_output = [lemmatizer.lemmatize(w) for w in filtro]

  and should_run_async(code)


In [9]:
# Calcular los vectores de las palabras individuales que conforman cada frase 
vectores_palabras = CountVectorizer()
transformar_vectores = vectores_palabras.fit_transform(lemmatized_output)

  and should_run_async(code)


In [10]:
# Crear una función que extraiga los vectores de las palabras y los guarde en una variable
def mostrar_tópicos(model, vectores_palabras, n_top_words):
    palabras = vectores_palabras.get_feature_names()
    for topic_idx, topic in enumerate(model.components_):
        print("\nTopic #%d:" % topic_idx)
        print(" ".join([palabras[i]
                        for i in topic.argsort()[:-n_top_words - 1:- 1]]))

  and should_run_async(code)


In [11]:
# Declarar en una variable el número de temas a procesas
número_tópicos = 4
# Declarar en una variable el número de palabras relacionadas a los temas
número_palabras = 30

  and should_run_async(code)


In [12]:
# Procesar los datos ingresados con base a modulo ALD
lda = LDA(n_components=número_tópicos, n_jobs=-1)
lda.fit(transformar_vectores)

  and should_run_async(code)


LatentDirichletAllocation(n_components=4, n_jobs=-1)

In [13]:
# Mostrar los datos procesados con base al vector asignado a cada palabra, así como el número de palabras relacionados a los tópicos 
print("Tópicos encontrados mediante LDA:")
mostrar_tópicos(lda, vectores_palabras, número_palabras)

Tópicos encontrados mediante LDA:

Topic #0:
http learning work programme resource 2018 development year building stress strategy journal 2017 different 2019 beltman educational 2013 2012 day use skill response developing health beginning chap identity resilient framework

Topic #1:
education 10 org doi brite relationship support early educator also personal time chapter program career challenge individual participant impact emotional focus level demand important classroom life outcome australian 1080 principal

Topic #2:
resilience et teaching practice wellbeing positive self mansﬁeld study job training social process need may australia theory approach within colleague profession ed opportunity child review activity example two understanding efﬁcacy

Topic #3:
teacher al school module professional student research context well experience mindfulness pst 2016 service university pre factor way being emotion based 2014 psychology role quality 2011 common 2015 develop management


  and should_run_async(code)


In [14]:
# Declarar en una variable el nombre del archivo que mostrara los temas de forma dinámica 
LDAvis_data_filepath = os.path.join('./tópic_'+str(número_tópicos))#<---- Escribe el nombre del archivo
# Procesar los datos para que se puedan mostrar de forma dinámica
if 1 == 1:LDAvis_prepared = sklearn_lda.prepare(lda, transformar_vectores, vectores_palabras)

  and should_run_async(code)


In [15]:
# Preparar el archivo con los datos a mostrar
with open(LDAvis_data_filepath, 'wb') as f:
    pickle.dump(LDAvis_prepared, f)
        
with open(LDAvis_data_filepath, 'rb',) as f:
    LDAvis_prepared = pickle.load(f)

  and should_run_async(code)


In [16]:
# Guardar el archivo en una ruta determinada con extensión HTML

pyLDAvis.save_html(LDAvis_prepared, 'c:/Users/Luis/Desktop/'+ str(LDAvis_data_filepath) +'.html')#<<<<<<<<-----Escribe la ruta donde se quiere guardar el archivo HTML---->>>>>>>>

  and should_run_async(code)
