## Mineração de Textos (Text Mining)
- Obter informações a partir de um texto utilizando o Processamento de Linguagem Natural (NLP) que converte a linguagem humana para um formato que o computador possa ler.

- Logo, obtemos padrões de textos que podem ser usados para análises, buscar informações, extrair, traduzir, sumarizar.

- No Python, usaremos a bib NLTK - Natural Language Toolkit, que contém algoritmos para análise de sentimentos, extração de tópicos. Outra biblioteca que também será usada é ainda a sklearn que contém algoritmos de pré-processamento para TF-IDF e Bag of Words, entre outros.

### Expressões regulares (regex)

- manipulações como encontrar palavras em docs, remover caracteres

In [2]:
# Importa a biblioteca de expressão regular ou regular expression (re)
import re

# Encontra a palavra ab no texto abcdef
print(re.match('ab', 'abcde'))

# Procura pela palavra zz no texto abcde mas nao encontra nada
print(re.match('zz', 'abcde'))

<re.Match object; span=(0, 2), match='ab'>
None


### Quais são os métodos mais comuns?

re.match(): encontra equivalência se ela ocorrer no início da string. Uso: re.match(padrão, string)

re.search(): similar a match() mas não nos restringe a encontrar equivalência apenas no começo da string. O método search() consegue encontrar um padrão em qualquer posição da string mas que **somente retorna a primeira ocorrência do padrão de busca**. Uso: re.search(padrão, string)

re.findall(): obter uma lista de todos os padrões encontrados. Não há restrições em buscar do começo ou do fim. Funciona como ambas re.search() e re.match(). Uso: re.findall(padrão, string)

re.split(): dividir a string pela ocorrências do padrão dado. Uso: re.split(padrão, string)

re.sub(): Às vezes é útil buscar um padrão de string e substituí-lo por uma nova sub-string. Se o padrão não for encontrado, a string é retornada sem mudanças. Uso: re.sub(padrão, replace, string)

### Operadores mais comuns usados para especificar os padrões

In [3]:
# Extrair cada palavra usando “*”
print(re.findall('\w*','IPEA - Instituto de Pesquisa Economica Aplicada'))

['IPEA', '', '', '', 'Instituto', '', 'de', '', 'Pesquisa', '', 'Economica', '', 'Aplicada', '']


In [4]:
# Extrair cada palavra usando “*”. Agora vamos remover os espaços com “+”.
print(re.findall(r'\w+','IPEA - Instituto de Pesquisa Economica Aplicada'))

['IPEA', 'Instituto', 'de', 'Pesquisa', 'Economica', 'Aplicada']


In [5]:
print(re.findall('\w+','IPEA Instituto'))

['IPEA', 'Instituto']


In [6]:
# Extrai a última palavra
print(re.findall(r'\w+$','IPEA - Instituto de Pesquisa Economica Aplicada'))

['Aplicada']


In [7]:
# Extrai a data de uma string. Usamos o \d para extrair os dígitos.
result=re.findall(r'\d{2}-\d{2}-\d{4}','Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009')
print(result)

['12-05-2007', '11-11-2011', '12-01-2009']


In [8]:
# Insere uma nova linha a cada . ? ou !
texto = 'IPEA. Instituto de Pesquisa Aplicada! Brasília-DF.'
re.split("[.]", texto)

['IPEA', ' Instituto de Pesquisa Aplicada! Brasília-DF', '']

In [10]:
# 1. Crie um texto com o seguinte conteúdo: "A explosão aconteceu em 2005, porém só em 2012 foram desvendadas as causas do acidente."
texto = 'A explosão aconteceu em 2005, porém só em 2012 foram desvendadas as causas do acidente.'
# 2. Encontre e imprima apenas os números do texto criado para capturarmos os anos citados no texto.
print(re.findall('\d+',texto))
# 3. Substitua todas as vírgulas por . e atribua a variavel de nome igual a texto2. Imprima texto2
texto2 = re.sub(',','.',texto)
# 4. Divida o texto2 onde tiver . e imprima o resultado
print(re.split('\.',texto2))

['2005', '2012']
['A explosão aconteceu em 2005', ' porém só em 2012 foram desvendadas as causas do acidente', '']


### Pré-Processamento de Dados aplicado à textos

Algumas técnicas aplicadas no pré-processamento com o foco em limpeza transformação, padronização do texto antes de minerar.

- Transformação de letras para maiúsculas/minúsculas
- Tokenização
- Remoção de números, caracteres especiais e pontuação
- Remoção de Stopwords
- Stemming
- Lemmatization

In [13]:
dicionario = '''Significado de Economia
substantivo feminino
Ciência que analisa e estuda os mecanismos referentes à obtenção, à produção, ao consumo e à utilização dos bens materiais necessários à sobrevivência e ao bem-estar.
Poupança; contenção ou diminuição das despesas e dos gastos.
Organização de uma casa financeira e materialmente: economia doméstica.
[Figurado] Moderação no consumo; controle de excessos: economia de forças.
Organização; maneira através da qual vários elementos se organizam num todo.
Reunião das disciplinas que se baseiam nessa ciência; designação do curso superior que forma economistas.'''

dicionario

'Significado de Economia\nsubstantivo feminino\nCiência que analisa e estuda os mecanismos referentes à obtenção, à produção, ao consumo e à utilização dos bens materiais necessários à sobrevivência e ao bem-estar.\nPoupança; contenção ou diminuição das despesas e dos gastos.\nOrganização de uma casa financeira e materialmente: economia doméstica.\n[Figurado] Moderação no consumo; controle de excessos: economia de forças.\nOrganização; maneira através da qual vários elementos se organizam num todo.\nReunião das disciplinas que se baseiam nessa ciência; designação do curso superior que forma economistas.'

In [None]:
# Transformação de letras para minusculas
dicionario = dicionario.lower()

Tokenization - usada para extrair os tokens de um texto, como palavras e setenças de um texto. Mas também, pode extrair trechos de texto a partir de regras definidas em regex.

- word_tokenize: faz a tokenização do texto em palavras
- sent_tokenize: faz em sentenças
- regexp_tokenize: faz de acordo com o padrão da expressão regular

In [17]:
import nltk
nltk.download('punkt')

frase = "Um frase muda o fim do filme. Mas é interno o maior labirinto. "

from nltk.tokenize import word_tokenize
word_tokenize(frase)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


['Um',
 'frase',
 'muda',
 'o',
 'fim',
 'do',
 'filme',
 '.',
 'Mas',
 'é',
 'interno',
 'o',
 'maior',
 'labirinto',
 '.']

In [18]:
# sequência de tokens únicos
tokens = set(word_tokenize(frase))
tokens

{'.',
 'Mas',
 'Um',
 'do',
 'filme',
 'fim',
 'frase',
 'interno',
 'labirinto',
 'maior',
 'muda',
 'o',
 'é'}

In [19]:
# tokenização de sentenças
from nltk.tokenize import sent_tokenize
frases = sent_tokenize(frase)
frases

['Um frase muda o fim do filme.', 'Mas é interno o maior labirinto.']

In [35]:
from nltk.tokenize import word_tokenize, sent_tokenize
dicp = word_tokenize(dicionario)
dics = sent_tokenize(dicionario)

In [20]:
from nltk.tokenize import regexp_tokenize
regexp_tokenize(frase, '\w+')

['Um',
 'frase',
 'muda',
 'o',
 'fim',
 'do',
 'filme',
 'Mas',
 'é',
 'interno',
 'o',
 'maior',
 'labirinto']

In [22]:
# Remove a pontuação. Padrão: tudo que é diferente de palavras \w e espaços \s substitui por nda
import re
frase_limpa = re.sub(r'[^\w\s]','', frase) # para uma sentença
frase_limpa.capitalize()

'Um frase muda o fim do filme mas é interno o maior labirinto '

In [23]:
# Remove caracteres especiais, pontuação e dígitos para uma lista
texto = [re.sub("(\\d|\\W)+", " ", e) for e in frases]
texto

['Um frase muda o fim do filme ', 'Mas é interno o maior labirinto ']

Stopwords - palavras vazias ou muito frequentes que não agregam na análise. Elas são removidas para simplificar a análise do texto.

In [None]:
stopwords = ['objeto','contratação']

In [24]:
# Download das stopwords. OBS: lembre de habilitr o uso da Internet em Settings.
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

# Define as stopwords
stopwords = stopwords.words('portuguese')

# Qtd de stopwords
print(len(stopwords))

# Exemplo de stopwords
stopwords[0:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


207


['a',
 'à',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as']

Stemming diminui para o radical da palavra.

Lemmatization diminui, porém é mais conservador e mantém o sentido da palavra.

In [25]:
# Stemming
from nltk.stem import PorterStemmer
st = PorterStemmer()
word_list = ["friend", "friendship", "friends", "friendships"]
for word in word_list: print(st.stem(word))

friend
friendship
friend
friendship


In [26]:
# Stemming
from nltk.stem import LancasterStemmer
lancaster=LancasterStemmer()
word_list = ["friend", "friendship", "friends", "friendships"]
for word in word_list: print(lancaster.stem(word))

friend
friend
friend
friend


In [28]:
# Stemming em Portugues
from nltk.stem.snowball import SnowballStemmer
stemmer = SnowballStemmer("portuguese")
for sentence in frase: print(stemmer.stem(sentence))

u
m
 
f
r
a
s
e
 
m
u
d
a
 
o
 
f
i
m
 
d
o
 
f
i
l
m
e
.
 
m
a
s
 
é
 
i
n
t
e
r
n
o
 
o
 
m
a
i
o
r
 
l
a
b
i
r
i
n
t
o
.
 


In [31]:
# Lemmatization
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
lem = WordNetLemmatizer()
sentence = "He was running and eating at same time. He has bad habit of swimming after playing long hours in the Sun."
sentence_words = nltk.word_tokenize(sentence)
for sentence in sentence_words: print(lem.lemmatize(sentence))

[nltk_data] Downloading package wordnet to /root/nltk_data...


He
wa
running
and
eating
at
same
time
.
He
ha
bad
habit
of
swimming
after
playing
long
hour
in
the
Sun
.


### Bag of Words

Para encontrar os termos de um texto, iniciamos com o pré-processamento que envolve a limpeza. Depois, fazemos a tokenização. A partir da tokenização, criamos o vocabulário. Por fim, fazemos a vetorização que irá gerar uma matriz do vocabulário com a quantidade de vezes que cada termo aparece no corpus.

 O bag of words (BOW) é uma técnica usada para identificar tópicos num texto com base na frequencia que eles aparecem. Antes de usar Bag of Words, é preciso usar a tokenização para extrair as palavras ou sentenças de interesse. Depois, contamos a quantidade de vezes que o token aparece. Quanto mais frequente a palavra, mais importante pode ser. É uma forma de encontrar as palavras mais significantes do texto.

Limitações: A bag of words não considera o significado da palavra no documento, ignora o contexto em que é usado. Para documentos grandes, o tamanho do vetor pode ser enorme e resultar em muito tempo de processamento.

In [32]:
# Contagem de tokens de palavra
from collections import Counter
contagempalavras = Counter(word_tokenize(frase))
contagempalavras

Counter({'Um': 1,
         'frase': 1,
         'muda': 1,
         'o': 2,
         'fim': 1,
         'do': 1,
         'filme': 1,
         '.': 2,
         'Mas': 1,
         'é': 1,
         'interno': 1,
         'maior': 1,
         'labirinto': 1})

In [33]:
# Imprime as palavras mais comuns
print(contagempalavras.most_common(10))

[('o', 2), ('.', 2), ('Um', 1), ('frase', 1), ('muda', 1), ('fim', 1), ('do', 1), ('filme', 1), ('Mas', 1), ('é', 1)]


In [None]:
# Contagem de sentenças
from collections import Counter
contagemsentencas = Counter(sent_tokenize(frase))
contagemsentencas

In [36]:
# Bag of Words
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()

# Cria a matriz de baf of words
X = vectorizer.fit_transform(dics)
X.toarray()

# Outra forma de imprimimr o mesmo resultado da matriz (X) de bag of words
print(vectorizer.fit_transform(dics).todense())

[[1 2 0 0 1 1 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 1 1 0 1 0 0 0 0 0 0 1
  0 1 0 1 0 0 0 1 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 0 1 0]
 [0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0
  0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0
  1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
 [0 0 0 0 0 0 0 0 1 0 1 0 0 0 2 0 0 0 0 0 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 0
  0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0
  0 0 0 0 0 0 1 0 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 1]
 [0 0 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0
  0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 2 0 1 1 0 0 0 1 0 0 0 0]]


In [37]:
# Vocabulario.
print(vectorizer.vocabulary_)

# Quantidade de palavras no vocabulário
len(vectorizer.vocabulary_)

{'significado': 55, 'de': 14, 'economia': 22, 'substantivo': 57, 'feminino': 28, 'ciência': 7, 'que': 51, 'analisa': 0, 'estuda': 26, 'os': 46, 'mecanismos': 37, 'referentes': 52, 'obtenção': 43, 'produção': 49, 'ao': 1, 'consumo': 8, 'utilização': 61, 'dos': 21, 'bens': 5, 'materiais': 35, 'necessários': 39, 'sobrevivência': 56, 'bem': 4, 'estar': 25, 'poupança': 48, 'contenção': 9, 'ou': 47, 'diminuição': 17, 'das': 13, 'despesas': 16, 'gastos': 33, 'organização': 45, 'uma': 60, 'casa': 6, 'financeira': 30, 'materialmente': 36, 'doméstica': 20, 'figurado': 29, 'moderação': 38, 'no': 41, 'controle': 10, 'excessos': 27, 'forças': 32, 'maneira': 34, 'através': 2, 'da': 12, 'qual': 50, 'vários': 62, 'elementos': 24, 'se': 54, 'organizam': 44, 'num': 42, 'todo': 59, 'reunião': 53, 'disciplinas': 18, 'baseiam': 3, 'nessa': 40, 'designação': 15, 'do': 19, 'curso': 11, 'superior': 58, 'forma': 31, 'economistas': 23}


63

In [40]:
# Atividade com fake news

noticias = '''Funcionaria do Ibope e Datafolha denuncia manipulação das pesquisas eleitorais.
Pesquisa do Ipea traz informação errada sobre estupro e roupas curtas.
Datafolha está fazendo uma pesquisa eleitoral no Whatsapp.
Dilma tem contrato para Ibope manipular pesquisas.
Dilma gastou 73 milhões em um salão de beleza quando era presidente.
Uber vai comprar a Avianca e oferecer passagens com 50% de desconto.
Idosos têm direito a 50% de desconto em passagens aéreas.
Idoso ganhou viagem em jato da força aérea e foi ejetado sem querer.
Sérgio Moro anuncia fim do IPVA e diz que cobrança é ilegal.
Brasília terá parque da Disney.
'''
noticias = word_tokenize(noticias)
vectorizer = CountVectorizer()
vectorizer.fit_transform(noticias).todense()
len(vectorizer.vocabulary_)

77

In [None]:
# 1. Crie uma variavel com o texto de notícias falsas
# 2. Faça a tokenização das noticias
# 3. Crie o Bag of Words
# 4. Imprima o vocabulário
# 5. Qual a Quantidade de palavras no vocabulário?