### doc_topics
ESTABELECE RELAÇÕES ENTRE DOCUMENTOS E TÓPICOS NA BASE DE DADOS NO MYSQL. TRABALHAMOS COM O ACERVO **ANTONIO AZEREDO DA SILVEIRA, MINISTÉRIO DAS RELAÇÕES EXTERIORES**.

### Observações

#### Sobre como cria tabela CSV com limite documentos por tópico

In [37]:
import nltk
import os
import codecs
import string
import matplotlib.pyplot as plt
import matplotlib as mpl
from gensim import corpora, models, similarities #Latent Dirichlet Allocation implementation with Gensim
import pyLDAvis
import pyLDAvis.gensim
from IPython.display import clear_output

import getpass
from sshtunnel import SSHTunnelForwarder
import pymysql

import pickle

In [38]:
outputs = "../outputs/"

In [39]:
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
Verifica qual sistema operacional está sendo usado. Renato = Linux ; Marcelo = nt (Windows)
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
if os.name == 'nt':
    encoding_type = 'utf-8'
    ssh_priv_key = 'C:/Users/marcelo.ribeiro/Dropbox/A-Marcelo/Educação-Trabalho/2016-CPDOC/Remoto/marcelo_priv_rsa'
    ssh_user='marcelobribeiro'
    sql_user='marcelobribeiro'
else:
    encoding_type = 'ISO-8859-1'
    ssh_priv_key = '/home/rsouza/.ssh/id_rsa'
    ssh_user='rsouza'
    sql_user='rsouza'

#### Carrega o treinamento

In [40]:
#filename = 'C:/Users/marcelo.ribeiro/Dropbox/A-Marcelo/Educação-Trabalho/2016-CPDOC/Azeredo Papers/Processamento/text-learning-tools/outputs/trainedLDA.sav'
file_corpus = '../outputs/LDAcorpus.pkl'
file_dictionary = '../outputs/LDAdictionary.pkl'
corpus = pickle.load(open(file_corpus, 'rb'))
dictionary = pickle.load(open(file_dictionary, 'rb'))

In [41]:
len(corpus)

200

In [42]:
%time lda = models.LdaModel(corpus, num_topics=20, id2word=dictionary, passes=10)

Wall time: 9.59 s


In [43]:
topics_list = lda.print_topics(-1, num_words=10)
topics_list_file = '../outputs/topics_list.pkl'
file_dictionary = '../outputs/LDAdictionary-test.pkl'
pickle.dump(topics_list, open(topics_list_file, 'wb'))
#load_test = pickle.load(open(topics_list_file, 'rb'))

In [44]:
#lda.show_topics(num_topics=-1)

In [45]:
topics_matrix = lda.show_topics(formatted=False, num_words=20, num_topics=-1)
topics_matrix[14]

(14,
 [('silveira', 0.010859238264488541),
  ('embaixador', 0.0097449805801555246),
  ('antonio', 0.005465982275474934),
  ('minuta', 0.004378371087874278),
  ('telegrama', 0.0043721641467850212),
  ('paulo', 0.0043455903834368368),
  ('novo', 0.003396915106125289),
  ('palavras', 0.0033555325854904097),
  ('azeredo', 0.0033259052988623586),
  ('nome', 0.0033078569674308829),
  ('carta', 0.0033045458329930073),
  ('brasilia', 0.0032811025717487288),
  ('excelência', 0.0032806483009904398),
  ('bem', 0.0032793389136955954),
  ('gratissimo', 0.003278938851351327),
  ('autorizo', 0.0032759180114932253),
  ('sinceras', 0.0032720084848344051),
  ('data', 0.0032712375289883893),
  ('cairo', 0.0032706426481891311),
  ('social', 0.0032701648686879097)])

#### Visualiza os tópicos com o PyLDAvis

In [46]:
# https://cran.r-project.org/web/packages/LDAvis/vignettes/details.pdf
pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(lda, corpus, dictionary)

In [47]:
data_ldavis = pyLDAvis.gensim.prepare(lda, corpus, dictionary)
pyLDAvis.save_html(data_ldavis, os.path.join(outputs,'pyldavis_output.html'))

#### Gera a distribuição de tópicos para um novo documento
Alimenta a base mysql com dados de score (relação) entre tópicos e documentos, gerando a distribuição de tópicos para um novo documento.

Notas:
* Os documentos são selecionados da base SQL com alguns filtros: idioma português e legibilidade acima de 40%.
* 'pt' = língua portuguesa. 
* No caso de documentos que não conseguimos identificar a legibilidade, por serem curtos (menos de 10 frases totais), foram classificados com a numeração '-1'.

In [53]:
count = 0
pass_sshkey = getpass.getpass()
pass_mysql = getpass.getpass()
with SSHTunnelForwarder(('200.20.164.147', 22),
                        ssh_private_key = ssh_priv_key,
                        ssh_private_key_password = pass_sshkey,
                        ssh_username=ssh_user,
                        remote_bind_address=('127.0.0.1', 3306)) as server:
    
    conn = pymysql.connect(host='localhost', 
                           port=server.local_bind_port, 
                           user=sql_user,
                           passwd=pass_mysql,
                           db='CPDOC_AS',
                           use_unicode=True, 
                           charset="utf8")
    cur = conn.cursor()
    '''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
    insere dados na base mysql
    captura documentos da tabela docs, transfere para a tabela topic-doc e insere dados de tópicos
    '''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
    
    cur.execute("DROP TABLE IF EXISTS topic_doc")
    cur.execute('''CREATE TABLE IF NOT EXISTS topic_doc
               (doc_id VARCHAR(31), topic_id smallint(6), topic_score FLOAT
               DEFAULT NULL)
               ENGINE=MyISAM DEFAULT CHARSET='utf8';''')

    cur.execute("SELECT * FROM CPDOC_AS.docs WHERE main_language = 'pt' AND (readability > 0.4 OR readability = -1) ")  
    data = cur.fetchall()
    numrows = cur.rowcount
    percentil = numrows/100
    
    for row in data:
        count += 1
        if row is None: break
        
        ### mede percentual de conclusão da tarefa ###
        if count % percentil == 0: 
            clear_output()
            print(int(count/percentil),'% done')
        
        text =  row[4]
        text = text.split()
        text_bow = dictionary.doc2bow(text)
        score_list = lda[text_bow]
        doc_id = row[0]
        for score in score_list:
            topic_id = str(score[0])
            topic_score = str(score[1])
            query = "INSERT INTO topic_doc VALUES (%s, %s, %s)"
            cur.execute(query, (doc_id, topic_id, topic_score))
        #print(doc_id, topic_id, topic_score)   
        cur.execute("ALTER TABLE CPDOC_AS.topic_doc ORDER BY topic_id ASC, topic_score DESC")
        


········
········
