## Dataset notícias IF Barbacena

In [2]:
import json

noticias = json.load(open('noticias_if.json'))

print(len(noticias))

n1 = noticias[0]

print(n1['conteudo'])

1000


	O Campus Barbacena divulgou o Resultado Provisório do VIII Simpósio de Pesquisa e Inovação.

	Os estudantes devem ficar atentos as observações que constam no final do documento.

Leia o documento



## Normalização do texto

- Remoção de acentos
- Remoção de quebras de linha e tabulação
- Conversão para minúsculas
- Remoção de espaços duplicados

In [7]:
import re
from unicodedata import normalize

def normaliza(txt):  
    txt = normalize('NFKD', txt).encode('ASCII','ignore').decode('ASCII')
    
    txt = re.sub(r'\t|\n|\r', ' ', txt)
    
    txt = txt.lower()
    
    txt = re.sub(r' +', ' ', txt).strip()
    
    return txt

n1 = normaliza(noticias[0]['conteudo'])

print(n1)

o campus barbacena divulgou o resultado provisorio do viii simposio de pesquisa e inovacao. os estudantes devem ficar atentos as observacoes que constam no final do documento. leia o documento


## Tokenização

In [8]:
from nltk import word_tokenize
from string import punctuation 

# Tokeniza
tokens = word_tokenize(n1)

# Remove pontuação
tokens_sem_pontuacao = [t for t in tokens if t not in punctuation]
print(tokens_sem_pontuacao)

['o', 'campus', 'barbacena', 'divulgou', 'o', 'resultado', 'provisorio', 'do', 'viii', 'simposio', 'de', 'pesquisa', 'e', 'inovacao', 'os', 'estudantes', 'devem', 'ficar', 'atentos', 'as', 'observacoes', 'que', 'constam', 'no', 'final', 'do', 'documento', 'leia', 'o', 'documento']


## Remoção de stop words

In [9]:
import nltk

stopwords = nltk.corpus.stopwords.words('portuguese')

print('15 stopwords pt:', stopwords[:15], '\n')

tokens = [t for t in tokens_sem_pontuacao if t not in stopwords]

print(tokens)

15 stopwords pt: ['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no'] 

['campus', 'barbacena', 'divulgou', 'resultado', 'provisorio', 'viii', 'simposio', 'pesquisa', 'inovacao', 'estudantes', 'devem', 'ficar', 'atentos', 'observacoes', 'constam', 'final', 'documento', 'leia', 'documento']


## Stemming

In [10]:
stemmer = nltk.stem.RSLPStemmer()

print(stemmer.stem('programar'))
print(stemmer.stem('programava'))
print(stemmer.stem('programaremos'))

tokens = [stemmer.stem(t) for t in tokens]
print('----------')
print(tokens[:100])

program
program
program
----------
['campu', 'barbacen', 'divulg', 'result', 'provisori', 'vii', 'simposi', 'pesquis', 'inovaca', 'estud', 'dev', 'fic', 'atent', 'observaco', 'const', 'final', 'document', 'lei', 'document']


## Vectorization (TF-IDF)

In [11]:
from sklearn.feature_extraction.text import TfidfVectorizer

lista_noticias = [n['conteudo'] for n in noticias]

lista_noticias_preproc = []

# Preprocessa as notícias
for i, noticia in enumerate(lista_noticias):
    norm = normaliza(noticia)
    tokens = [t for t in word_tokenize(norm) if (t not in punctuation and t not in stopwords)]
    noticia_preproc = ' '.join(tokens)
    
    # Adiciona o id da notícia (índice)
    lista_noticias_preproc.append(str(i) + '\n' + noticia_preproc)

tfidf_vectorizer = TfidfVectorizer(analyzer='word')

tfidf_matrix = tfidf_vectorizer.fit_transform(lista_noticias_preproc)

print(tfidf_matrix.shape)
print(tfidf_vectorizer.get_feature_names()[5000:5050])

(1000, 11575)
['entenda', 'entende', 'entendem', 'entendendo', 'entender', 'entendimento', 'enterro', 'entidades', 'entomologia', 'entorno', 'entrada', 'entram', 'entrando', 'entrar', 'entraram', 'entraremos', 'entrega', 'entregando', 'entregar', 'entregou', 'entregue', 'entregues', 'entretanto', 'entretenimento', 'entrevista', 'entrevistados', 'entrevistas', 'entrou', 'entusiasmados', 'entusiasmo', 'envergadura', 'envia', 'enviada', 'enviadas', 'enviado', 'enviados', 'enviando', 'enviar', 'enviara', 'enviaria', 'envie', 'envio', 'environmental', 'envolve', 'envolvem', 'envolvendo', 'envolver', 'envolveram', 'envolveu', 'envolviam']


## Similaridade textual

In [12]:
%%time

from sklearn.metrics.pairwise import cosine_similarity

'''
    Distância cosine_similarity
    Valor 1 -> documentos iguais
    
    Similaridade:
    Valor 0 -> documentos iguais
'''

# Precomputa todas as distâncias
dist = 1 - cosine_similarity(tfidf_matrix)

print(dist.shape, '\n')

(1000, 1000) 

CPU times: user 32 ms, sys: 8 ms, total: 40 ms
Wall time: 38.8 ms


In [13]:
print(dist.shape, '\n')

print(dist[0][:10], '\n')

print(dist[0][500], '\n')

(1000, 1000) 

[ -2.22044605e-16   8.73339844e-01   1.00000000e+00   1.00000000e+00
   9.37683359e-01   9.57493308e-01   9.60413006e-01   9.55252975e-01
   7.72281511e-01   9.70043880e-01] 

0.995450947468 



In [14]:
print('D1:', noticias[847]['titulo'], '\n')
print('D2:', noticias[326]['titulo'], '\n')
print('D3:', noticias[338]['titulo'], '\n')

print('D1 -> D3', dist[847][338])
print('D2 -> D3', dist[326][338])

D1: Estão abertas as inscrições para Festival de Dança do IF Sudeste de Minas Gerais - Campus Barbacena “Volta ao Mundo” 

D2: Abertura de ciclo de palestras sobre conservação da natureza é um sucesso 

D3: Campus Barbacena divulga edital do Festival de Dança “Hollywood Ifest” 

D1 -> D3 0.282603948493
D2 -> D3 0.96451245341


## Clusterização de documentos textuais

In [27]:
from sklearn.cluster import KMeans

clusters = 50
model = KMeans(n_clusters=clusters, init='k-means++', max_iter=100, n_init=1)
model.fit(tfidf_matrix)

# Vetor com o identificador do cluster dos 100 primeiros documentos
model.labels_[:100]

array([44, 46, 42, 31, 38, 41, 34, 24, 48, 35, 34, 42, 37, 33, 31, 17, 17,
        1, 33, 10, 39, 16,  1,  8, 42, 33, 33, 33, 44, 48, 23, 24, 27, 37,
        5,  5,  5, 21,  5, 37,  5,  0,  7, 13, 23, 13,  5, 37,  5, 21,  5,
       37,  5,  1,  5,  5,  5, 37, 11, 45, 39, 11, 12,  1, 14, 16,  1, 39,
       34, 10, 45,  7,  1, 49, 16, 44, 29, 45, 34, 24,  1, 10,  1, 29, 49,
        2, 28, 39, 24, 24, 17, 45, 46, 39, 36,  4, 46, 16, 39, 16], dtype=int32)

## Topic modeling

In [29]:
from sklearn.decomposition import NMF

tfidf_feature_names = tfidf_vectorizer.get_feature_names()

# Número de tópicos
num_topics = 25

# Fatoração da Matriz Não-Negativa (NMF)
nmf_model = NMF(
    n_components=num_topics,
    random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd'
).fit(tfidf_matrix)

# Matriz de tópicos x documentos (W)
nmf_W = nmf_model.transform(tfidf_matrix)

# Matriz de paralvras x tópicos (H)
nmf_H = nmf_model.components_

# Dimensão das matrizes resultantes
print('Matriz W:', nmf_W.shape)
print('Matriz H:', nmf_H.shape, '\n')

Matriz W: (1000, 25)
Matriz H: (25, 11575) 



In [111]:
# Função para exibir os tópicos
def exibe_topicos(H, W, feature_names, documents, num_top_words, num_top_documents):
    for topic_idx, topic in enumerate(H):
        print('\nTópico %d' % (topic_idx + 1))

        print('   Principais termos: ' + ', '.join([feature_names[i] + ' (%s)' % round(H[topic_idx][i], 2) 
                            for i in topic.argsort()[:-num_top_words - 1:-1]]))       

        # Top documentos relacionados
        print('   Principais notícias relacionadas ao tópico:')

        top_doc_indices = np.argsort( W[:,topic_idx] )[::-1][0:num_top_documents]
        for doc_index in top_doc_indices:
            # Id do documento
            id_doc = int(documents[doc_index].split('\n')[0])
            
            # Texto
            texto = noticias[id_doc]['titulo']
            print('\t-', texto, ' (%s)' % round(W[doc_index][topic_idx], 2))


# Número de palavras mais relacionadas que serão exibidas para cada tópico
num_top_words = 5

# Número de documentos por tópico
num_top_documents = 5

exibe_topicos(nmf_H, nmf_W, tfidf_feature_names, documents, num_top_words, num_top_documents)


Tópico 1
   Principais termos: barbacena (0.66), campus (0.63), curso (0.38), alunos (0.37), dia (0.35)
   Principais notícias relacionadas ao tópico:
	- Campus Barbacena monta Fazendinha Pedagógica na 49ª Exposição de Barbacena   (0.15)
	- Campus Barbacena é destaque na 49ª Exposição Agropecuária de Barbacena   (0.15)
	- Prorrogadas as inscrições para o Curso de  Esgrima  (0.14)
	- Mensagem do Diretor-geral  (0.14)
	- Atenção Estudantes do Curso de Licenciatura em Educação Física: Estão abertas as inscrições para o Curso de Conhecimentos Básicos de Esgrima (Florete, Sábre e Espada)  (0.14)

Tópico 2
   Principais termos: resultado (1.97), veja (0.83), divulgado (0.81), final (0.48), provisorio (0.37)
   Principais notícias relacionadas ao tópico:
	- Divulgado o resultado dos Projetos de Extensão 2017  (0.25)
	- Divulgado o Resultado provisório da seleção de projetos de monitoria - Edital Nº 02/2017  (0.24)
	- Divulgado o Resultado Final do Edital PIBID 01 - 2016  (0.23)
	- Edital de 

### Sistema de recomendação

In [120]:
print('-', noticias[15]['titulo'])

# Utiliza a matriz de distâncias precomputadas
dist[15].sort()

# 5 documentos mais "próximos" do documento 0
sugestoes = dist[15][:5]

for s in sugestoes



- Jogos dos Institutos Federais movimentam comunidade acadêmica


array([  2.22044605e-16,   5.52969170e-01,   7.07878718e-01,
         7.09074804e-01,   7.31358349e-01])

## Bônus

## Lemmatization

Menos "agressivo" que o stemming

In [122]:
from nltk.stem.wordnet import WordNetLemmatizer

lmtzr = WordNetLemmatizer()

print(lmtzr.lemmatize('cars'))
print(lmtzr.lemmatize('boxes'))
print(lmtzr.lemmatize('spies'))
print(lmtzr.lemmatize('children'))

car
box
spy
child


## Part-of-Speech Tagging (POS Tagging)

In [123]:
import nltk

'''
    DT: Determiner
    NN: Noun, singular or mass 
    VBZ: Verb, 3rd person singular present
    IN: Preposition or subordinating conjunction
'''

nltk.pos_tag(['The', 'book', 'is', 'on', 'the', 'table'])

[('The', 'DT'),
 ('book', 'NN'),
 ('is', 'VBZ'),
 ('on', 'IN'),
 ('the', 'DT'),
 ('table', 'NN')]

## Análise de sentimentos

VADER (Valence Aware Dictionary and sEntiment Reasoner)

In [124]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

analyzer = SentimentIntensityAnalyzer()

print(analyzer.polarity_scores('Machine learning is fun :)'))

{'compound': 0.743, 'neg': 0.0, 'pos': 0.677, 'neu': 0.323}
