In [1]:
import pandas as pd 
import numpy as np
import collections

import unidecode
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import PortugueseStemmer
nltk.download('punkt')
pd.options.mode.chained_assignment = None
import dialogflow_v2 as dialogflow

import os
import pickle

import MySQLdb



[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\juaumpc\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# Class

In [2]:

class Index:
    """ Inverted index datastructure """
 
    def __init__(self, tokenizer, stopwords=None):
        """
        tokenizer   -- NLTK compatible tokenizer function
        stemmer     -- NLTK compatible stemmer 
        stopwords   -- list of ignored words
        """
        self.tokenizer = tokenizer
        self.index = collections.defaultdict(list)
        self.documents = {}
        self.__unique_id = 0
        
        if not stopwords:
            self.stopwords = set()
        else:
            self.stopwords = set(stopwords)
 
    def lookup(self, word):
        """
        Lookup a word in the index
        """
        word = word.lower()
        word = unidecode.unidecode(word)
        return [self.documents.get(id, None) for id in self.index.get(word)]
 
    def add(self, document, document_url):
        """
        Add a document string to the index
        """
        for token in [t.lower() for t in nltk.word_tokenize(document)]:
            if token in self.stopwords:
                continue
 
            if self.__unique_id not in self.index[token]:
                self.index[token].append(self.__unique_id)
 
        self.documents[self.__unique_id] = document_url
        self.__unique_id += 1           
 

 

# Functions

In [25]:
import unicodedata
# Função para limpar noticia
def clean_new(tweet):
    '''
    Função para limpar texto de tweets, removendo links e caracteres especiais.
    '''
    if isinstance(tweet, list):
        out = []

        for i in tweet:
            out.append(' '.join(
                re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z])|(\w+:\/\/\S+)", " ",
                       i).split()))
        return out

    return ' '.join(
        re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z])|(\w+:\/\/\S+)", " ",
               tweet).split())


def create_entity_type(project_id, display_name, kind):
    """Create an entity type with the given display name."""
    entity_types_client = dialogflow.EntityTypesClient()

    parent = entity_types_client.project_agent_path(project_id)
    entity_type = dialogflow.types.EntityType(
        display_name=display_name, kind=kind)

    response = entity_types_client.create_entity_type(parent, entity_type)

    print('Entity type created: \n{}'.format(response))

# Lendo o dataframe que contém as notícias

In [3]:
credential = open('credential.txt', 'r')
credential = credential.read().split('\n')

db = MySQLdb.connect('localhost', credential[0],credential[1], 'doug_db')
con = db.cursor().connection

df = pd.read_sql('SELECT * from doug_server_app_noticia', con)
df.drop(['boletim_fk_id', 'user_id'], axis=1, inplace= True)

In [4]:
df.dropna(inplace=True)
df.reset_index(inplace= True, drop= True)

# Realiza o tratamento de texto

In [5]:
df

Unnamed: 0,id,data_upload,disponivel_em,corpo,titulo
0,1,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,"""Entre ofensivas e resistências: a diversidade...",Aula inaugural de Psicologia aborda gênero e s...
1,2,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,O Serviço de Psicologia Aplicada (SPA) da UFSJ...,PSICOLOGIA NA ESCOLA PÚBLICA
2,3,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Pró-Reitoria de Assuntos Estudantis (Proae) ...,Processo de Avaliação Socioeconômica: inscriçõ...
3,4,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Assessoria de Comunicação e o Setor de Apoio...,As mulheres na extensão da UFSJ: Cibele Aparec...
4,5,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,"Artistas, escritores, jornalistas, atletas e o...",Universidades Federais: patrimônio dos brasile...
5,6,2019-03-28,https://www.ufsj.edu.br/noticias_ler.php?codig...,O desenvolvimento de novas estruturas de conve...,Estudo desenvolvido pela UFSJ busca facilitar ...
6,7,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Central de Empresas Juniores da UFSJ (Cenje)...,Evento da Central de Empresas Juniores da UFSJ...
7,8,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,A Assessoria para Assuntos Internacionais da U...,Abertas inscrições para mobilidade acadêmica n...
8,9,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,O reitor da Universidade Federal de São João d...,Reitor da UFSJ participa de debate sobre comun...
9,10,2019-03-26,https://www.ufsj.edu.br/noticias_ler.php?codig...,A solenidade de Lançamento de Livros do 31º ...,"""Lançamento de Livros"" do Inverno Cultural ter..."


In [23]:
df['corpo'][301]

'A Comissão Permanente de Vestibular da UFSJ (Copeve) publicou a lista de candidatos selecionados na primeira chamada do Sisu 2018/2. Convocados devem ficar atentos à data de matrícula. Já os candidatos que não estão na primeira chamada devem consultar o cronograma e os procedimentos para manifestação de interesse em participar da Lista de Espera e das outras chamadas. O cronograma está disponível aqui.\r\nTambém já está disponível para consulta a relação candidato vaga do processo Sisu 2018/2 na UFSJ - veja aqui.\r\nA UFSJ extinguiu o vestibular tradicional e, desde então, o Sistema de Seleção Unificada (Sisu) é a única forma de entrada para a maioria das graduações da instituição. Para o segundo semestre de 2018, foram oferecidas 910 vagas divididas entre 22 cursos, nas quatro cidades da instituição: São João del-Rei (9), Divinópolis (4), Ouro Branco (5) e Sete Lagoas (4).\r\n                                                    Publicada em 19/06/2018Fonte: ASCOM'

In [26]:
# Transforma todos os tweets e replies para minusculo
df['corpo'] = df['corpo'].apply(lambda x: str(x).lower())

# Remocao de acentos
df['corpo'] = df['corpo'].apply(unidecode.unidecode)

# Remocao de links, caracteres especiais, etc...
df['corpo'] = df['corpo'].apply(clean_new)
df['corpo'] = df['corpo'].apply(clean_new)


In [28]:
df['corpo'][301]

'a comissao permanente de vestibular da ufsj copeve publicou a lista de candidatos selecionados na primeira chamada do sisu 2018 2 convocados devem ficar atentos a data de matricula ja os candidatos que nao estao na primeira chamada devem consultar o cronograma e os procedimentos para manifestacao de interesse em participar da lista de espera e das outras chamadas o cronograma esta disponivel aqui tambem ja esta disponivel para consulta a relacao candidato vaga do processo sisu 2018 2 na ufsj veja aqui a ufsj extinguiu o vestibular tradicional e desde entao o sistema de selecao unificada sisu e a unica forma de entrada para a maioria das graduacoes da instituicao para o segundo semestre de 2018 foram oferecidas 910 vagas divididas entre 22 cursos nas quatro cidades da instituicao sao joao del rei 9 divinopolis 4 ouro branco 5 e sete lagoas 4 publicada em 19 06 2018fonte ascom'

In [8]:
df.sort_values(by= ['data_upload'], ascending= False)

Unnamed: 0,id,data_upload,disponivel_em,corpo,titulo
0,1,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,entre ofensivas e resistencias a diversidade d...,Aula inaugural de Psicologia aborda gênero e s...
1,2,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,o servico de psicologia aplicada spa da ufsj o...,PSICOLOGIA NA ESCOLA PÚBLICA
2,3,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,a pro reitoria de assuntos estudantis proae pu...,Processo de Avaliação Socioeconômica: inscriçõ...
4,5,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,artistas escritores jornalistas atletas e outr...,Universidades Federais: patrimônio dos brasile...
3,4,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,a assessoria de comunicacao e o setor de apoio...,As mulheres na extensão da UFSJ: Cibele Aparec...
5,6,2019-03-28,https://www.ufsj.edu.br/noticias_ler.php?codig...,o desenvolvimento de novas estruturas de conve...,Estudo desenvolvido pela UFSJ busca facilitar ...
7,8,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,a assessoria para assuntos internacionais da u...,Abertas inscrições para mobilidade acadêmica n...
8,9,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,o reitor da universidade federal de sao joao d...,Reitor da UFSJ participa de debate sobre comun...
6,7,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,a central de empresas juniores da ufsj cenje p...,Evento da Central de Empresas Juniores da UFSJ...
9,10,2019-03-26,https://www.ufsj.edu.br/noticias_ler.php?codig...,a solenidade de lancamento de livros do 31o in...,"""Lançamento de Livros"" do Inverno Cultural ter..."


In [15]:
df

Unnamed: 0,id,data_upload,disponivel_em,corpo,titulo
0,1,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,entre ofensivas e resistencias a diversidade d...,Aula inaugural de Psicologia aborda gênero e s...
1,2,2019-04-01,https://www.ufsj.edu.br/noticias_ler.php?codig...,o servico de psicologia aplicada spa da ufsj o...,PSICOLOGIA NA ESCOLA PÚBLICA
2,3,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,a pro reitoria de assuntos estudantis proae pu...,Processo de Avaliação Socioeconômica: inscriçõ...
3,4,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,a assessoria de comunicacao e o setor de apoio...,As mulheres na extensão da UFSJ: Cibele Aparec...
4,5,2019-03-29,https://www.ufsj.edu.br/noticias_ler.php?codig...,artistas escritores jornalistas atletas e outr...,Universidades Federais: patrimônio dos brasile...
5,6,2019-03-28,https://www.ufsj.edu.br/noticias_ler.php?codig...,o desenvolvimento de novas estruturas de conve...,Estudo desenvolvido pela UFSJ busca facilitar ...
6,7,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,a central de empresas juniores da ufsj cenje p...,Evento da Central de Empresas Juniores da UFSJ...
7,8,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,a assessoria para assuntos internacionais da u...,Abertas inscrições para mobilidade acadêmica n...
8,9,2019-03-27,https://www.ufsj.edu.br/noticias_ler.php?codig...,o reitor da universidade federal de sao joao d...,Reitor da UFSJ participa de debate sobre comun...
9,10,2019-03-26,https://www.ufsj.edu.br/noticias_ler.php?codig...,a solenidade de lancamento de livros do 31o in...,"""Lançamento de Livros"" do Inverno Cultural ter..."


In [9]:
inverted_index = Index(nltk.word_tokenize, 
              nltk.corpus.stopwords.words('portuguese'))

    
    

In [10]:
for index, new in enumerate(df['corpo']):
    inverted_index.add(new, df['disponivel_em'][index])

In [11]:
key_words = list(inverted_index.index.keys())

In [12]:
with open('key_words.csv', 'w') as f:
    for word in key_words:
        f.write('"{}","{}"\r\n'.format(word,word))

In [13]:
with open('inverted_index', 'wb') as file:
    pickle.dump(inverted_index, file)


In [52]:
inverted_index.lookup('ciclovia')

TypeError: 'NoneType' object is not iterable

In [48]:
urls.sort(reverse=True)

In [51]:
urls

['https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7372',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7350',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7345',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7333',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7327',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7315',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7235',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7234',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7204',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7200',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7175',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7151',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7121',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7077',
 'https://www.ufsj.edu.br/noticias_ler.php?codigo_noticia=7068',
 'https://www.ufsj.edu.br