# O que o twitter está pensando?

# Extraindo informações em redes sociais utilizando Python

`> por: `[@profadolfoguimaraes](http://www.twitter.com/profadolfoguimaraes)

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. O conteúdo está dividio em dois repositórios: (1) [d2l-minicursotwitter-notebook](http://github.com/adolfoguimaraes/d2l-minicursotwitter-notebook) que possui estes notebooks e (2) [d2l-minicursotwitter-web](http://github.com/adolfoguimaraes/d2l-minicursotwitter-web) que possui a página web desenvolvida.

O material completo do minicurso pode ser encontrado em: http://www.data2learning.com/cursos.

## 03 - Pré-processamento de texto utilizando NLTK

Nesta etapa vamos aprender algumas técnicas para tratar os textos que foram coletados do twitter. Incialmente vamos trabalhar com a parte de tokenização, remoção de palavras que não serão úteis, aplicação de métodos de *steamming* e retirada automática de links, hashtags do texto e outras informações relevantes que vão ser detalhadas mais a frente.

O NLTK (http://www.nltk.org) não é uma ferramenta de pré-processamento, ele é um kit completo para tratar problemas relacionados ao processamento de Linguagem Natural. No entanto, ele possui alguns métodos para nos ajudar nestas tarefas iniciais. Citanto o site oficial: *NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.*

O material desenvolvido aqui é baseado, principalmente, no livro **Python 3 Text Processing with NLTK 3 Cookbook**: https://www.amazon.com.br/dp/B00N2RWMJU/.

Vamos começar :) 

### Instalação do NLTK

Para instalar utilize o comando **pip install nltk** na linha de comando. Se já instalou a partir do arquivo `requirements.txt` não precisa executar esse comando. 

Esse comando garante a instalação básica da ferramenta. No entanto, o NLTK é composto por uma série de bases, corporas e modelos que podem ser baixados a medida que forem sendo utilizandos. Detalhes de como instalar os dados podem ser encontrados em: http://nltk.org/data.html. A medida que a gente for precisando destes dados, iremos instalar.

### Tokenização

A primeira etapa do pré-processamento do texto coletado é separá-lo em *tokens*. Tokenizar consiste em quebrar um texto em pedaços, sejam palavras ou sentenças. Para utilizar os métodos desta etapa será necessário instalar alguns itens adicionais do NLTK.

Para isso, digite na linha de comando:


$ python


No shell do Python digite os comandos a seguir:

```python
>>> import ntlk
>>> nltk.download()
NLTK Downloader                                                                                                                                       
---------------------------------------------------------------------------                                                                           
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit                                                                                
---------------------------------------------------------------------------                                                                           
Downloader> 
```

Nessa tela, se digitar **l** será listado todos os pacotes que podem ser instalados. Para o nosso propósito de tokenização vamos instalar o pacote **punkt** que possui os modelos necessários para que a gente faça os diversos tipos de tokenização.

```python
Downloader> d punkt                                                                                                                                   
    Downloading package punkt to /home/d2l/nltk_data...                                                               
        Unzipping tokenizers/punkt.zip. 
```

O processo de instalação de itens adicionais do NLKT pode ser feito diretamente aqui no Jupyter notebook digitando o seguinte código na célula: 
    
```python
import nltk
nltk.download()
```

Vai aparecer uma caixa onde deve ser digitado o que deve ser baixado como mostrado no exemplo anterior. 

O código a seguir utiliza um modelo simples de tokenização baseado nas palavras. Observe que ele considera as potuações como uma palavra.

In [1]:
from nltk.tokenize import word_tokenize
words = word_tokenize("O que o twitter esta pensando.")
print(words)

['O', 'que', 'o', 'twitter', 'esta', 'pensando', '.']


Vamos utilizar o mesmo método em outra frase. 

In [2]:
words = word_tokenize("Para mais informações sobre o minicurso, acesse: http://www.data2learning.com/cursos")
print(words)

['Para', 'mais', 'informações', 'sobre', 'o', 'minicurso', ',', 'acesse', ':', 'http', ':', '//www.data2learning.com/cursos']


Ou ainda:

In [4]:
words = word_tokenize("Siga meu perfil @profadolfoguimaraes no instagram para ;) #minicursotwitterludiico")
print(words)

['Siga', 'meu', 'perfil', '@', 'profadolfoguimaraes', 'no', 'instagram', 'para', ';', ')', '#', 'minicursotwitterludiico']


O NLTK possui uma série de métodos de tokenização: *PunktWordTokenizer*, *RegexpTokenizer*, *TreebankWordTokenizer* e *TweetTokenizer* Cada um destes métodos utilizam abordagens diferentes para separar os tokens. Devemos escolher o método mais adequado a depender do objtivo que queremos alcançar. A lista completa de métodos de tokenização, pode ser encontrada na documentação do NLTK: http://www.nltk.org/api/nltk.tokenize.html.

No nosso caso, observe que objetivo foi em parte atingido. Algumas partes da tokenização não foram bem sucedidas. Termos como links, hashtags e nomes de usuários não deviam ser separados dos 'http', '@' ou '#' correspondentes. 

O NLTK possui um tokenizador próprio para tweets: `TweetTokenizer`. Veja no exemplo a seguir que ele agrupa como uma única palavra nomes de usuários, hashtags, links e *emotions*. Esse resultado é muito mais próximo do que queremos aqui. 

In [8]:
from nltk.tokenize import TweetTokenizer

tweettk = TweetTokenizer()
words = tweettk.tokenize("Siga meu perfil @profadolfoguimaraes no instagram para ;) #minicursotwitterludiico \
                         http://www.instagram.com/profadolfoguimaraes.")
print(words)

['Siga', 'meu', 'perfil', '@profadolfoguimaraes', 'no', 'instagram', 'para', ';)', '#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes', '.']


Uma forma mais genérica de resolvermos esse problema, é utilizando uma tokenização baseada em expressão regular. Para este tipo, escrevemos uma expressão regular que permita reconhecer os padrões que queremos separar. 

O NLTK possui o *RegexpTokenizer* para fazer tal tarefa. Esse método faz o que a função básica do python *re.findall()* do pacote *re* faz. No entanto, alguns métodos do NLTK exigem que seja definido um expressão regular para reconhecer determinados padrões de texto. Ter uma forma própria de implementar as expressões regulares facilita na definição destes métodos.

O código a seguir quebra uma frase a partir da expressão regular **[\w]+**. A expressão diz que o padrão reconhecido deve ser formado por uma ou mais letras. 

In [9]:
from nltk.tokenize import regexp_tokenize

expression = "[\w]+"
text = "O que o twitter esta pensando."
patterns = regexp_tokenize(text, expression)

print(patterns)

['O', 'que', 'o', 'twitter', 'esta', 'pensando']


Veja que o ponto não foi selecionado nesse tipo de tokenização já que ele não casa com o padrão desejado. Se utilizarmos esse mesmo padrão nos textos que possuem links, hashtags ou nome de usuários ainda não vamos obter o desejado.

In [12]:
text = "Siga meu perfil @profadolfoguimaraes no instagram para ;) #minicursotwitterludiico \
                         http://www.instagram.com/profadolfoguimaraes"
patterns = regexp_tokenize(text, expression)

print(patterns)

['Siga', 'meu', 'perfil', 'profadolfoguimaraes', 'no', 'instagram', 'para', 'minicursotwitterludiico', 'http', 'www', 'instagram', 'com', 'profadolfoguimaraes']


Podemos elaborar um padrão mais completo. Cada "casamento" do padrão será reconhecido como um token. 

In [13]:
#Mudando o padrão

pattern = r'(https://[^"\' ]+|www.[^"\' ]+|http://[^"\' ]+|\w+|\@\w+|\#\w+)'

patterns = regexp_tokenize(text, pattern)

print(patterns)

['Siga', 'meu', 'perfil', '@profadolfoguimaraes', 'no', 'instagram', 'para', '#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes']


A documentação para formar expressões regulares pode ser encontrada na biblioteca **re** do Python: 

* https://docs.python.org/2/library/re.html (Python 2.7+)
* https://docs.python.org/3/library/re.html (Python 3+)

### Stopwords

Uma outra etapa de pré-processamento é a de eliminação das stopwords. **Stopwords** são palavras comuns que de forma geral não contribuem para o entendimento da senteça. Vale reforçar que isso vai depender do propósito da sua aplicação. Para o nosso caso, podemos eliminar sem problemas.

O NLTK vem com uma lista de stopwords para diversas linguagens. Para poder utilizar esse pacote devemos instalar também utilizando **nltk.download()** exemplificado anteriormente.

```python
>>> import nltk                                                                                                                                       
>>> nltk.download()                                                                                                                                   
NLTK Downloader                                                                                                                                       
---------------------------------------------------------------------------                                                                           
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit                                                                                
---------------------------------------------------------------------------                                                                           
Downloader> d stopwords                                                                                                                               
    Downloading package stopwords to /home/d2l/nltk_data...                                                                                           
      Unzipping corpora/stopwords.zip.    
```

Vamos visualizar algumas listas de palavras. Linguagens disponíveis:

In [14]:
from nltk.corpus import stopwords

print(stopwords.fileids())

['danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'kazakh', 'norwegian', 'portuguese', 'russian', 'spanish', 'swedish', 'turkish']


Vamos exibir algumas palavras (para simplificar, iremos exibir apenas 10 de cada conjunto):

In [15]:
english_stops = stopwords.words(['english'])
portuguese_stops = stopwords.words(['portuguese'])
spanish_stops = stopwords.words(['spanish'])
print(english_stops[:10])
print(portuguese_stops[:10])
print(spanish_stops[:10])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your']
['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para']
['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se']


Com isso podemos eliminar as stopwords do nosso texto:

In [16]:
text = "Siga meu perfil @profadolfoguimaraes no instagram para ;) #minicursotwitterludiico \
                         http://www.instagram.com/profadolfoguimaraes"

patterns = regexp_tokenize(text, pattern)

print(patterns)

words = [word for word in patterns if word not in portuguese_stops]

print(words)

['Siga', 'meu', 'perfil', '@profadolfoguimaraes', 'no', 'instagram', 'para', '#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes']
['Siga', 'perfil', '@profadolfoguimaraes', 'instagram', '#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes']


### Fazendo correções

Um problema muito comum quando trabalhamos com textos de redes sociais são os frequntes problemas com a escrita das palavras. Dentre vários problemas que podemos identificar, um que acontece com certa frequência é a inclusão de caracteres repetidos em uma palavra para enfatizar alguma coisa. Por exemplo, "gostei muuuuiiitoooo desse filme". O computador não sabe diferenciar "muito" de "muuuuiiitoooo". Para o processamento de texto seria importante que a gente corrigisse tais casos. A classe a seguir usa a biblioteca **re** do python para elimiar esse tipo de erro. 

Mais uma vez vale ressaltar que tais correções depende da aplicação. 

In [17]:
import re

class RepeatReplacer(object):
    
    def __init__(self):
        self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
        self.repl = r'\1\2\3'
        
    def replace(self, word):
        repl_word = self.repeat_regexp.sub(self.repl, word)

        if repl_word != word:
            return self.replace(repl_word)
        else:
            return repl_word

Vamos utilizar a classe definida para corrigir algumas palavras:

In [18]:
replacer = RepeatReplacer()

word = replacer.replace('muuuuiiitoooo')

print(word)

word = replacer.replace('voceeeee')

print(word)

muito
voce


#### **AVISO:** Um outro tipo de correção é fazer a correção ortográfica. Inicialmente, havia utilizado a biblioteca **pyenchant**, mas ela foi descontinuada pelos seus desenvolvedores. Resolvi retirar desse material. Caso encontre outras alternativas irei atualiza-lo com essa parte. 

### Termos mais frequentes

Todos os processos feitos até aqui tem como finalidade ajustar as palavras para que a gente possa extrair de forma correta os termos mais frequentes. Selecionar os termos frequentes permite ter uma visão dos principais termos que estão presentes em um texto. O NLTK possui um método que retorna a frequencia de cada palavrada, dado um conjunto de palavras.

As tarefas feitas anteriomente faz com que **voce** e **voceeeee** sejam tratadas como a mesma palavra. O que de fato é (para o escopo que estamos trabalhando). A mesma coisa acontece para palavras escritas de forma errada.

Uma outra coisa que é importante fazer antes de determinar a frequencia das palavras é a retirada de acentos e normalizar todas as palavras com letra minúscula. 

O código a seguir faz estas tarefas e calcula a frequência dos termos.

In [20]:
# Importar pacote para normalizar o text
import nltk
from unicodedata import normalize

# Textos a serem tratados
text1 = "Siga meu perfil @profadolfoguimaraes no instagram para ;) #minicursotwitterludiico \
                         http://www.instagram.com/profadolfoguimaraes"
text2 = "Quero participar de todos os minicursos. Como faz? #ludiico"
text3 = "Em breve, mais iniciativas do grupo de pesquisa #ludiico. Siga meu perfil que irei divulga-las."

# Concatenação dos textos
text = text1 + "\n" + text2 + "\n" + text3

# Retirada dos acentos
text = normalize('NFKD', text)

# Colaca todas as palavras em minúscula
text = text.lower()

# Processo de tokenização
patterns = regexp_tokenize(text, pattern)

# Cálculo dos termos mais frequentes
frequence_terms = nltk.FreqDist(patterns)
    
#Podemos ordenar os termos de acordo com a frequência    
print(frequence_terms.most_common())

[('siga', 2), ('meu', 2), ('perfil', 2), ('de', 2), ('#ludiico', 2), ('@profadolfoguimaraes', 1), ('no', 1), ('instagram', 1), ('para', 1), ('#minicursotwitterludiico', 1), ('http://www.instagram.com/profadolfoguimaraes\nquero', 1), ('participar', 1), ('todos', 1), ('os', 1), ('minicursos', 1), ('como', 1), ('faz', 1), ('em', 1), ('breve', 1), ('mais', 1), ('iniciativas', 1), ('do', 1), ('grupo', 1), ('pesquisa', 1), ('que', 1), ('irei', 1), ('divulga', 1), ('las', 1)]


### n-grams

Quando trabalhamos com texto algumas palavras tendem a aparecer juntas. Por exemplo, *United States*, *Barak Obama*, *Hermes Fontes*, *Augusto Franco* e assim por diante. Identificar esses termos é importante dentro do processamento de linguagem natural. Por exemplo, *Hermes Fontes* é um nome de avenida. Desta forma, estas palavras quando aparecem juntas trazem muito mais informação do que as palavras soltas: hermes, fontes. O nome geral para isto é *n-gram*, onde *n* é o número de palavras que vão aparecer juntas. Os mais utilizados são n = 2 ou n = 3. Estes casos recebem o nome de `bigram` e `trigram`, respectivamente.

Vamos trabalhar com as frases vistas anteriomente.

In [21]:
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

bcf = BigramCollocationFinder.from_words(patterns)

result = bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

print(result)

[('meu', 'perfil'), ('siga', 'meu'), ('#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes\nquero'), ('@profadolfoguimaraes', 'no')]


Da mesma forma podemos implementar para o trigram.

In [22]:
from nltk.collocations import TrigramCollocationFinder
from nltk.metrics import TrigramAssocMeasures

bcf = TrigramCollocationFinder.from_words(patterns)

result = bcf.nbest(TrigramAssocMeasures.likelihood_ratio, 5)

print(result)

[('siga', 'meu', 'perfil'), ('meu', 'perfil', '@profadolfoguimaraes'), ('meu', 'perfil', 'que'), ('#ludiico', 'siga', 'meu'), ('#minicursotwitterludiico', 'http://www.instagram.com/profadolfoguimaraes\nquero', 'participar')]


A importância em selecionar estes padrões pode ser enxergado melhor com uma base muito maior de dados.

Com isso encerramos nossa etapa de pré-processamento. Existe muito mais coisas que podem ser feitas como *steamming*, *identificação de sinônimos*, entre outros. Um guia completo destas tarefas podem ser encontradas no livo do NLTK.