## Instituto Federal do Sudeste de Minas Gerais, Campus Barbacena
### Projeto Laboratório de Redes de Conhecimento

## Curso de Mineração de Dados Aplicada

Prof. Rafael José de Alencar Almeida
<rafael.alencar@ifsudestemg.edu.br>

<br>

## Aula 4:  Processamento de Linguagem Natural

#### "Estima-se que 80% de todo conteúdo mundial online são textos"
_Chen, H. Knowledge management systems: a text mining perspective. Arizona: Knowledge
Computing Corporation. 2001._

#### "No geral, 80% das informações criadas e utilizadas por uma empresa são dados não estruturados, o que torna a manipulação e interpretação mais complexa".
_André Pannunzio, PricewaterhouseCoopers (PwC) Brasil._

<br>

<img src="https://www.celebros.com/media/k2/items/cache/e0a70f72bdae9885bfc32d7cd19a26a1_L.jpg">

<strong>Linguagem Natural:</strong> meio de comunicação utilizado pelos humanos para se comunicarem (idiomas e línguas de sinais).

<strong>Processamento de linguagem natural (PLN):</strong> subárea da ciência da computação, inteligência artificial e da linguística que estuda os problemas da geração e compreensão automática de línguas humanas naturais.

### Dataset: notícias IF



In [15]:
import pandas as pd

df = pd.read_csv('df_noticias_if.csv')
df.head()

Unnamed: 0,data,titulo,conteudo
0,14/09/2017,Campus Barbacena divulga Resultado Provisório ...,\n\n\tO Campus Barbacena divulgou o Resultado ...
1,14/09/2017,Divulgado o Edital de convocação de assembleia...,\n\n\tDivulgado o Edital de convocação de asse...
2,14/09/2017,Pesquisador da Bélgica realiza palestra no Cam...,"\n\n\tO pesquisador da Bélgica, Luc Vankrunkel..."
3,14/09/2017,Divulgada a homologação das inscrições à candi...,\n\n\tDivulgada a homologação das inscrições à...
4,14/09/2017,"Aprovado Regulamento de Eventos, Cerimonial e ...","\n\n\tO Regulamento, aprovado no dia 05 de set..."


In [16]:
df.iloc[0]

data                                               14/09/2017
titulo      Campus Barbacena divulga Resultado Provisório ...
conteudo    \n\n\tO Campus Barbacena divulgou o Resultado ...
Name: 0, dtype: object

In [18]:
print(df.iloc[0]['conteudo'])



	O Campus Barbacena divulgou o Resultado Provisório do VIII Simpósio de Pesquisa e Inovação.

	Os estudantes devem ficar atentos as observações que constam no final do documento.

Leia o documento



### Pré-processamento

Consiste em processar os textos antes de realizar sua conversão para um formato numérico.

In [25]:
# Conversão para minúsculas
df.iloc[0]['conteudo'].lower()

'\n\n\to campus barbacena divulgou o resultado provisório do viii simpósio de pesquisa e inovação.\n\n\tos estudantes devem ficar atentos as observações que constam no final do documento.\n\nleia o documento\n'

In [26]:
# Remoção de pontuação
from string import punctuation

punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [29]:
''.join([l for l in df.iloc[0]['conteudo'] if l not in punctuation])

'\n\n\tO Campus Barbacena divulgou o Resultado Provisório do VIII Simpósio de Pesquisa e Inovação\n\n\tOs estudantes devem ficar atentos as observações que constam no final do documento\n\nLeia o documento\n'

In [30]:
# Substituição de caracteres
df.iloc[0]['conteudo'].replace('\n', '').replace('\t', '')

'O Campus Barbacena divulgou o Resultado Provisório do VIII Simpósio de Pesquisa e Inovação.Os estudantes devem ficar atentos as observações que constam no final do documento.Leia o documento'

In [32]:
# Substituição de caracteres com re
import re

re.sub(r'\n|\t', '', df.iloc[0]['conteudo'])

'O Campus Barbacena divulgou o Resultado Provisório do VIII Simpósio de Pesquisa e Inovação.Os estudantes devem ficar atentos as observações que constam no final do documento.Leia o documento'

In [20]:
# Tokenização com split
print(df.iloc[0]['conteudo'].split(' '))

['\n\n\tO', 'Campus', 'Barbacena', 'divulgou', 'o', 'Resultado', 'Provisório', 'do', 'VIII', 'Simpósio', 'de', 'Pesquisa', 'e', 'Inovação.\n\n\tOs', 'estudantes', 'devem', 'ficar', 'atentos', 'as', 'observações', 'que', 'constam', 'no', 'final', 'do', 'documento.\n\nLeia', 'o', 'documento\n']


In [24]:
# Tokenização com nltk
from nltk import word_tokenize

print(word_tokenize(df.iloc[0]['conteudo']))

['O', 'Campus', 'Barbacena', 'divulgou', 'o', 'Resultado', 'Provisório', 'do', 'VIII', 'Simpósio', 'de', 'Pesquisa', 'e', 'Inovação', '.', 'Os', 'estudantes', 'devem', 'ficar', 'atentos', 'as', 'observações', 'que', 'constam', 'no', 'final', 'do', 'documento', '.', 'Leia', 'o', 'documento']


In [33]:
# Remoção de acentos
from unicodedata import normalize

normalize('NFKD', df.iloc[0]['conteudo']).encode('ASCII', 'ignore')

b'\n\n\tO Campus Barbacena divulgou o Resultado Provisorio do VIII Simposio de Pesquisa e Inovacao.\n\n\tOs estudantes devem ficar atentos as observacoes que constam no final do documento.\n\nLeia o documento\n'

In [37]:
# Remoção de stopwords
# Palavras frequentes mas com pouco significado semântico
import nltk

stopwords = nltk.corpus.stopwords.words('portuguese')
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

In [42]:
print([w for w in word_tokenize(df.iloc[0]['conteudo'].lower()) if (w not in stopwords) and (w not in punctuation)])

['campus', 'barbacena', 'divulgou', 'resultado', 'provisório', 'viii', 'simpósio', 'pesquisa', 'inovação', 'estudantes', 'devem', 'ficar', 'atentos', 'observações', 'constam', 'final', 'documento', 'leia', 'documento']


In [45]:
# Stemming
# Redução do termo a seu radical

stemmer = nltk.stem.RSLPStemmer()

stemmer.stem('programar'), stemmer.stem('programava'), stemmer.stem('programaremos')

('program', 'program', 'program')

In [51]:
# Lemmatization (EN)
# Menos "agressivo" que o stemming
from nltk.stem.wordnet import WordNetLemmatizer

lmtzr = WordNetLemmatizer()

lmtzr.lemmatize('cars'), lmtzr.lemmatize('boxes'), lmtzr.lemmatize('spies'), lmtzr.lemmatize('children')

('car', 'box', 'spy', 'child')

In [52]:
# Parts of Speech Tagging (EN)
nltk.pos_tag('the book is on the table'.split())

[('the', 'DT'),
 ('book', 'NN'),
 ('is', 'VBZ'),
 ('on', 'IN'),
 ('the', 'DT'),
 ('table', 'NN')]

In [89]:
# Gerando uma coluna de texto pré-processado (título + conteúdo)
def processa(row):
    txt = row['titulo'] + ' ' + row['conteudo']
    
    return ' '.join([t for t in word_tokenize(txt.lower()) if (t not in stopwords) and (t not in punctuation)])

df['doc'] = df.apply(processa, axis=1)

df['doc'].head()

0    campus barbacena divulga resultado provisório ...
1    divulgado edital convocação assembleia centro ...
2    pesquisador bélgica realiza palestra campus ba...
3    divulgada homologação inscrições candidatura c...
4    aprovado regulamento eventos cerimonial protoc...
Name: doc, dtype: object

### Vetorização

Conversão dos textos para uma representação numérica. 

Forma básica: TF (Term Frequency)

<img src="./img/tf.png">

In [68]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(
    analyzer='word',
    ngram_range=(1, 1),
    max_features=None,
    binary=False,
    use_idf=True
)
tfidf_matrix = vectorizer.fit_transform(df['doc'])

tfidf_matrix

<1000x10987 sparse matrix of type '<class 'numpy.float64'>'
	with 67457 stored elements in Compressed Sparse Row format>

In [91]:
# Labels das colunas
print(vectorizer.get_feature_names()[:200])

# Precisamos melhorar o pré-processamento, vieram números e partes de links!

['00', '000', '000957', '001', '002', '002084', '002086', '003', '003360', '008', '009', '01', '012', '018', '02', '020', '021', '022', '03', '031', '032', '036', '039', '03dez2015', '04', '05', '050617', '052', '056', '05_final', '06', '06h30', '07', '072016', '07h', '07h00', '07h30', '08', '08h', '08h00min', '08h30', '08h30min', '09', '09h', '09h00min', '09h30', '09h30min', '10', '100', '1000', '10024', '106', '107', '109', '10h', '10h00min', '10h30', '10h30m', '10h30min', '10h45mim', '10h45min', '10ª', '10º', '11', '110', '115', '116257', '11h', '11h00', '11h00min', '11h10min', '11h30', '11h30min', '11h40', '11ª', '11º', '12', '120', '121', '125', '1256', '128', '1283', '129', '12h', '12h00min', '12h30', '13', '136', '13h', '13h00', '13h00min', '13h10min', '13h30', '13h30min', '13ª', '14', '140', '141', '143', '145', '146', '149', '14h', '14h00min', '14h30', '14hlocal', '14qualidadedevidaedoambiente', '15', '150', '15h', '15h30', '15h30min', '16', '160', '164', '166', '16h', '16h00m

In [86]:
# Visualização da matriz na forma densa (DataFrame)
pd.DataFrame(tfidf_matrix.todense(), columns=vectorizer.get_feature_names()).head()

Unnamed: 0,00,000,000957,001,002,002084,002086,003,003360,008,...,último,últimos,única,únicas,único,únicos,úteis,útero,útil,útimo
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.201094,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


### Similaridade textual

Utiliza o espaço vetorial para calcular a distância entre cada texto.

<img src="http://3.bp.blogspot.com/_tOOi3R89e74/TUeyueig7ZI/AAAAAAAAAJQ/QHL-VLEWook/s1600/vector_space.png">
<strong>Fonte: </strong> http://bitsearch.blogspot.com/2011/01/vector-space-model-for-scoring.html

In [121]:
from sklearn.metrics.pairwise import cosine_similarity

# Calcula todas as similaridades de cada linha
sim = cosine_similarity(tfidf_matrix)

sim.shape

(1000, 1000)

In [127]:
# Similaridade entre o primeiro e o segundo texto
sim[0][1]

0.04840608582716853

In [128]:
# Similaridade entre o primeiro e o centésimo texto
sim[0][100]

0.0

In [99]:
df.iloc[0].doc

'campus barbacena divulga resultado provisório viii simpósio pesquisa inovação campus barbacena divulgou resultado provisório viii simpósio pesquisa inovação estudantes devem ficar atentos observações constam final documento leia documento'

In [100]:
df.iloc[1].doc

'divulgado edital convocação assembleia centro acadêmico nutrição divulgado edital convocação assembleia centro acadêmico nutrição leia documento'

In [112]:
df.iloc[100].doc

'centro memória diaulas abreu reaberto dia 07 agosto centro memória diaulas abreu reaberto visitação novo horário funcionamento 08h 12h 13h 17h agendamentos visitas podem ser realizados contato 32 9 84868411 32 9 82247002 foto rachel santos'

In [145]:
# Similaridade via fuzzywuzzy
from Levenshtein import distance

distance(
    df.iloc[0].doc,
    df.iloc[0].doc
)

3

### LeIA (Léxico para Inferência Adaptada)

LeIA (Léxico para Inferência Adaptada) é um fork do léxico e ferramenta para análise de sentimentos VADER (Valence Aware Dictionary and sEntiment Reasoner) adaptado para textos em português, com suporte para emojis e foco na análise de sentimentos de textos expressos em mídias sociais - mas funcional para textos de outros domínios.

https://github.com/rafjaa/LeIA

A biblioteca preserva a API do VADER, e o texto de entrada não precisa ser pré-processado:

In [138]:
from leia import SentimentIntensityAnalyzer 

s = SentimentIntensityAnalyzer()

In [135]:
# Análise de texto simples
s.polarity_scores('Eu estou feliz')

{'compound': 0.6249, 'neg': 0.0, 'neu': 0.328, 'pos': 0.672}

In [136]:
# Análise de texto com emoji :)
s.polarity_scores('Eu estou feliz :)')

{'compound': 0.7964, 'neg': 0.0, 'neu': 0.22, 'pos': 0.78}

In [137]:
# Análise de texto com negação
s.polarity_scores('Eu não estou feliz')

{'compound': 0.4404, 'neg': 0.265, 'neu': 0.241, 'pos': 0.494}

A saída da análise de sentimentos é um dicionário com os seguintes campos:

- <code>pos</code>: porcentagem positiva do texto
- <code>neg</code>: porcentagem negativa do texto
- <code>neu</code>: porcentagem neutra do texto
- <code>compound</code>: valor de sentimento geral normalizado, variando de -1 (extremamente negativo) a +1 (extremamente positivo)

O valor <code>compound</code> pode ser utilizado para descrever o sentimento predominante no texto, por meio dos limites de valores:

- Sentimento positivo: <code>compound >= 0.05</code>
- Sentimento negativo: <code>compound <= -0.05</code>
- Sentimento neutro: <code>(compound > -0.05) and (compound < 0.05)</code>

## Atividade para sala

Realizar análise de sentimentos dos dados de um site ou API.

<strong>Exemplo:</strong> programa que coleta as notícias do Barbacena Online, analisa seus sentimentos, e exibe o título das notícias, da mais positiva para a mais negativa.

## Atividade para casa


Implementar um sistema de recomendação de notícias para o site do campus: dado o título e o conteúdo de uma nova notícia, indicar as 5 mais semelhantes.