# Minicurso: O que o twitter está pensando?

Estes tutoriais apresentam os principais scritps desenvolvidos no minicurso: **O que o twitter está pensando? Extraindo informações em redes sociais utilizando Python**. Os arquivos completos dos scritps e códigos gerados podem ser encontrados nas pastas **scritps** e **web** na raiz do repositório.

A apresentação referente a este minicurso está disponível no site: http://www.data2learning.com/cursos.

## 03 - Pré-processamento de texto utilizando NLTK

Nesta etapa vamos aprender algumas técnicas para tratar o texto que foi coletado no twitter. Incialmente vamos trabalhar com a parte de tokenização, remoção de palavras que não serão úteis, aplicação de métodos de *steammig* e retirada automática de links, hashtags do texto e outras informaçÕes relevantes que vão ser detalhadas mais a frente.

O NLTK (http://www.nltk.org) não é uma ferramenta de pré-processamento, ele é um kit completo para tratar problemas relacionados ao processamento de Linguagem Natural. No entanto, ele possui alguns métodos para nos ajudar nestas tarefas iniciais. Citanto o site oficial: *NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.*.

O material desenvolvido aqui é baseado, principalmente, no livro **Python 3 Text Processing with NLTK 3 Cookbook**: https://www.amazon.com.br/dp/B00N2RWMJU/.

Vamos começar :) 

### Instalação do NLTK

Para instalar utilize o comando **pip install nltk** na linha de comando. Esse comando garante a instalação básica da ferramenta. No entanto, o NLTK é composto por uma série de bases, corporas e modelos que podem ser baixados a medida que for sendo utilizando. Detalhes de como instalar os dados podem ser encontrados em: http://nltk.org/data.html. A medida que a gente for precisando destes dados, iremos instalar.

### Tokenização

A primeira etapa do pré-processamento do texto coletado é separá-lo em *tokens*. Tokenizar consiste em quebrar um texto em pedaços, sejam palavras ou sentenças. Para utilizar os métodos desta etapa será necessário instalar alguns itens adicionais do NLTK.

Para isso, digite na linha de comando:


$ python


No shell do Python digite os comandos a seguir:

```python
>>> import ntlk
>>> nltk.download()
NLTK Downloader                                                                                                                                       
---------------------------------------------------------------------------                                                                           
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit                                                                                
---------------------------------------------------------------------------                                                                           
Downloader> 
```

Nessa tela, se digitar **l** será listado todos os pacotes que podem ser instalados. Para o nosso propósito de tokenização vamos instalar o pacote **punkt** que possui os modelos necessários para que a gente faça os diversos tipos de tokenização.

```python
Downloader> d punkt                                                                                                                                   
    Downloading package punkt to /home/d2l/nltk_data...                                                               
        Unzipping tokenizers/punkt.zip. 
```

O código a seguir utiliza um modelo simples de tokenização baseado nas palavras. Observer que ele considera as potuações como uma palavra.

In [1]:
from nltk.tokenize import word_tokenize
words = word_tokenize("O que o twitter esta pensando.")
print(words)

['O', 'que', 'o', 'twitter', 'esta', 'pensando', '.']


Vamos utilizar o mesmo método em outra frase. 

In [2]:
words = word_tokenize("Para mais informacoes, acesse: http://www.unit.br/seminfo")
print(words)

['Para', 'mais', 'informacoes', ',', 'acesse', ':', 'http', ':', '//www.unit.br/seminfo']


Ou ainda:

In [3]:
words = word_tokenize("Siga nosso perfil @data2learning. Estamos monitorando as redes sociais, use: #seminfo, #seminfoUNIT.")
print(words)

['Siga', 'nosso', 'perfil', '@', 'data2learning', '.', 'Estamos', 'monitorando', 'as', 'redes', 'sociais', ',', 'use', ':', '#', 'seminfo', ',', '#', 'seminfoUNIT', '.']


O NLTK possui uma série de métodos de tokenização: *PunktWordTokenizer*, *RegexpTokenizer*, *TreebankWordTokenizer*. Cada um destes métodos utilizam abordagens diferentes para separar os tokens. Devemos escolher o método mais adequado a depender do objtivo que queremos alcançar.

No nosso caso, observe que objetivo foi em parte atingido. Algumas partes da tokenização não foram bem sucedidas. Termos como links, hashtags e nomes de usuários não deviam ser separados dos 'http', '@' ou '#' correspondentes. Para resolver esse problema, podemos utilizar uma tokenização baseada em expressão regular. Para este tipo, escrevemos uma expressão regular que permita reconhecer os padrões que queremos separar. 

O NLTK possui o *RegexpTokenizer* para fazer tal tarefa. Esse método faz o que a função básica do python *re.findall()* faz. No entanto, alguns métodos do NLTK exigem que seja definido um expressão regular para reconhecer determinados padrões de texto. Ter uma forma própria de implementar as expressões regulares facilita na definição destes métodos.

O código a seguir quebra uma frase a partir da expressão regular **[\w]+**. A expressão diz que o padrão reconhecido deve ser formado por uma ou mais letras. 

In [4]:
from nltk.tokenize import regexp_tokenize

expression = "[\w]+"
text = "O que o twitter esta pensando."
patterns = regexp_tokenize(text, expression)

print(patterns)

['O', 'que', 'o', 'twitter', 'esta', 'pensando']


Veja que o ponto não foi selecionado nesse tipo de tokenização já que ele não casa com o padrão desejado. Se utilizarmos esse mesmo padrão nos textos que possuem links, hashtags ou nome de usuários ainda não vamos obter o desejado.

In [5]:
text = "Siga nosso perfil @data2learning. Estamos monitorando as redes sociais, use: #seminfo, #seminfoUNIT."
patterns = regexp_tokenize(text, expression)

print(patterns)

['Siga', 'nosso', 'perfil', 'data2learning', 'Estamos', 'monitorando', 'as', 'redes', 'sociais', 'use', 'seminfo', 'seminfoUNIT']


Podemos elaborar um padrão mais completo. Cada "casamento" do padrão será reconhecido como um token. 

In [6]:
#Mudando o padrão

pattern = r'(https://[^"\' ]+|www.[^"\' ]+|http://[^"\' ]+|\w+|\@\w+|\#\w+)'

patterns = regexp_tokenize(text, pattern)

print(patterns)

['Siga', 'nosso', 'perfil', '@data2learning', 'Estamos', 'monitorando', 'as', 'redes', 'sociais', 'use', '#seminfo', '#seminfoUNIT']


A documentação para formar expressões regulares pode ser encontrada na biblioteca **re** do Python: 

* https://docs.python.org/2/library/re.html (Python 2.7+)
* https://docs.python.org/3/library/re.html (Python 3+)

### Stopwords

Uma outra etapa de pré-processamento é a de eliminação das stopwords. **Stopwords** são palavras comuns que de alguma forma não contribuem para o entendimento da senteça. Vale reforçar que isso vai depender do propósito da sua aplicação. Para o nosso caso, podemos eliminar sem problemas.

O NLTK vem com uma lista de stopwords para diversas linguagens. Para poder utilizar esse pacote devemos instalar também utilizando **nltk.download()** exemplificado anteriormente.

```python
>>> import nltk                                                                                                                                       
>>> nltk.download()                                                                                                                                   
NLTK Downloader                                                                                                                                       
---------------------------------------------------------------------------                                                                           
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit                                                                                
---------------------------------------------------------------------------                                                                           
Downloader> d stopwords                                                                                                                               
    Downloading package stopwords to /home/d2l/nltk_data...                                                                                           
      Unzipping corpora/stopwords.zip.    
```

Vamos visualizar algumas listas de palavras. Linguagens disponíveis:

In [7]:
from nltk.corpus import stopwords

print(stopwords.fileids())

[u'danish', u'dutch', u'english', u'finnish', u'french', u'german', u'hungarian', u'italian', u'kazakh', u'norwegian', u'portuguese', u'russian', u'spanish', u'swedish', u'turkish']


Vamos exibir algumas palavras (para simplificar, iremos exibir apenas 10 de cada conjunto):

In [8]:
english_stops = stopwords.words(['english'])
portuguese_stops = stopwords.words(['portuguese'])
spanish_stops = stopwords.words(['spanish'])
print(english_stops[:10])
print(portuguese_stops[:10])
print(spanish_stops[:10])

[u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', u'you', u'your']
[u'de', u'a', u'o', u'que', u'e', u'do', u'da', u'em', u'um', u'para']
[u'de', u'la', u'que', u'el', u'en', u'y', u'a', u'los', u'del', u'se']


Com isso podemos eleminar as stopwords do nosso texto:

In [9]:
text = "Siga nosso perfil @data2learning. Estamos monitorando as redes sociais, use: #seminfo, #seminfoUNIT."

patterns = regexp_tokenize(text, pattern)

print(patterns)

words = [word for word in patterns if word not in portuguese_stops]

print(words)

['Siga', 'nosso', 'perfil', '@data2learning', 'Estamos', 'monitorando', 'as', 'redes', 'sociais', 'use', '#seminfo', '#seminfoUNIT']
['Siga', 'perfil', '@data2learning', 'Estamos', 'monitorando', 'redes', 'sociais', 'use', '#seminfo', '#seminfoUNIT']


### Fazendo correções

Um problema muito comum quando trabalhamos com textos de redes sociais são os frequntes problemas com a escrita das palavras. Dentre vários problemas que podemos identificar, um que acontece com certa frequência é a inclusão de caracteres repetidos em uma palavra para enfatizar alguma coisa. Por exemplo, "gostei muuuuiiitoooo desse filme". O computador não sabe diferenciar "muito" de "muuuuiiitoooo". Para o processamento de texto seria importante que a gente corrigisse tais casos. A classe a seguir usa a biblioteca **re** do python para elimiar tais casos. 

In [10]:
import re

class RepeatReplacer(object):
    
    def __init__(self):
        self.repeat_regexp = re.compile(r'(\w*)(\w)\2(\w*)')
        self.repl = r'\1\2\3'
        
    def replace(self, word):
        repl_word = self.repeat_regexp.sub(self.repl, word)

        if repl_word != word:
            return self.replace(repl_word)
        else:
            return repl_word

Vamos utilizar a classe definida para corrigir algumas palavras:

In [11]:
replacer = RepeatReplacer()

word = replacer.replace('muuuuiiitoooo')

print(word)

word = replacer.replace('voceeeee')

print(word)

muito
voce


Um outro problema é o fato das pessoas escreverem palavras erradas. Podemos consertar alguns problemas utilizando uma ferramenta de correção de textos. Vamos utilizar uma biblioteca *Enchant* através da biblioteca para python **PyEnchant** (http://pythonhosted.org/pyenchant/). 

Por padrão, a biblioteca não vem com o dicionário para as linguagens: ['de_DE', 'en_AU', 'en_GB', 'en_US', 'fr_FR']. É necessário instalar o dicionário em Português.

Baxei o pacote .deb o MySpell no link:

http://packages.ubuntu.com/precise/all/myspell-pt-br/download

Para extrair os arquivos internos usamos:


$ ar vx mypackage.deb

Após isso, foi nessário extrair o conteúdo do arquivo **data.tar**

Os arquivos referentes ao dicionário estão na pasta: 

*data/usr/share/hunspell*

Os arquivos pt_BR.aff e pt_BR.dic devem ser copiados na pasta do pacote pyenchant no Python.

Vamos criar uma nova classe chamada de SpellingReplacer para corrigir o texto.

** Toda essa configuração foi feita para que pudesse funcionar no Mac já que ele não achou os dicionários no sistema. Acredito que no Linux ele funcione automaticamente. Sugiro que antes fazer essa configuração, instale apenas o PyEnchant e veja se funciona. **

In [12]:
import enchant
from nltk.metrics import edit_distance

class SpellingReplacer(object):
    
    def __init__(self, dict_name='pt_BR',max_dist=2):
        self.spell_dict = enchant.Dict(dict_name)
        self.max_dist = max_dist
        
    def replace(self, word):
        
        if self.spell_dict.check(word):
            return word
        
        suggestions = self.spell_dict.suggest(word)
        
        if suggestions and edit_distance(word, suggestions[0]) <= self.max_dist:
            return suggestions[0]
        else:
            return word
        
        

In [13]:
replacer = SpellingReplacer()
new_word = replacer.replace('caicha')

print(new_word)

new_word = replacer.replace('voce')

print(new_word)



caixa
você


### Termos mais frequentes

Todos os processos feitos até aqui tem como finalidade ajustar as palavras para que a gente possa extrair de forma correta os termos mais frequentes. Selecionar os termos frequentes permitem a gente ter uma visão dos principais termos que estão presentes em um texto. O NLTK possui um método que retorna para a gente a frequencia de cada palavrada, dado um conjunto de palavras.

As tarefas feitas anteriomente faz com que **voce** e **voceeeee** sejam tratadas como a mesma palavra. O que de fato é (para o escopo que estamos trabalhando). A mesma coisa acontece para palavras escritas de forma errada.

Uma outra coisa que é importante fazer antes de determinar a frequencia das palavras é a retirada de acentos e a normalizar todas as palavras com letra minúscula. 

O código a seguir faz estas tarefas e calcula a frequência dos termos.

In [14]:
# Importar pacote para normalizar o text
import nltk
from unicodedata import normalize

# Textos a serem tratados
text1 = "Siga nosso perfil @data2learning. Estamos monitorando as redes sociais, use: #seminfo, #seminfoUNIT."
text2 = "Quero participar de todos os minicursos. Como faz? #seminfo"
text3 = "Vamos lá pessoal, as palestras começam daqui a pouco na #seminfo."

# Concatenação dos textos
text = text1 + "\n" + text2 + "\n" + text3

# Retirada dos acentos
text = normalize('NFKD', text.decode('utf-8')).encode('ASCII','ignore')

# Colaca todas as palavras em minúscula
text = text.lower()

# Processo de tokenização
patterns = regexp_tokenize(text, pattern)

# Cálculo dos termos mais frequentes
frequence_terms = nltk.FreqDist(patterns)
    
#Podemos ordenar os termos de acordo com a frequência    
print(frequence_terms.most_common())

[('#seminfo', 3), ('as', 2), ('siga', 1), ('faz', 1), ('@data2learning', 1), ('quero', 1), ('pessoal', 1), ('estamos', 1), ('participar', 1), ('use', 1), ('monitorando', 1), ('minicursos', 1), ('la', 1), ('sociais', 1), ('na', 1), ('perfil', 1), ('palestras', 1), ('nosso', 1), ('todos', 1), ('vamos', 1), ('redes', 1), ('daqui', 1), ('comecam', 1), ('de', 1), ('como', 1), ('pouco', 1), ('a', 1), ('os', 1), ('#seminfounit', 1)]


### n-grams

Quando trabalhamos com texto algumas palavras tendem a aparecer juntas. Por exemplo, *United States*, *Barak Obama*, *Hermes Fontes*, *Augusto Franco* e assim por diante. Identificar esses termos é importante dentro do processamento de linguagem natural. Por exemplo, *Hermes Fontes* é um nome de avenida. Desta forma, estas palavras quando aparecem juntas trazer muito mais informação do que as palavras soltas: hermes, fontes. O nome geral para isto é *n-gram*, onde *n* é o número de palavras que vão aparecer juntas. Os mais utilizados são com n = 2 ou n = 3. Estes casos recebem o nome de bigram e trigram, respectivamente.

Vamos trabalhar com as frases vistas anteriomente.

In [15]:
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures

bcf = BigramCollocationFinder.from_words(patterns)

result = bcf.nbest(BigramAssocMeasures.likelihood_ratio, 4)

print(result)

[('#seminfounit', 'quero'), ('@data2learning', 'estamos'), ('a', 'pouco'), ('comecam', 'daqui')]


Da mesma forma podemos implementar para o trigram.

In [16]:
from nltk.collocations import TrigramCollocationFinder
from nltk.metrics import TrigramAssocMeasures

bcf = TrigramCollocationFinder.from_words(patterns)

result = bcf.nbest(TrigramAssocMeasures.likelihood_ratio, 5)

print(result)

[('#seminfounit', 'quero', 'participar'), ('@data2learning', 'estamos', 'monitorando'), ('a', 'pouco', 'na'), ('comecam', 'daqui', 'a'), ('daqui', 'a', 'pouco')]


A importância em selecionar estes padrões pode ser enxergado melhor com uma base muito maior de dados.

Com isso encerramos nossa etapa de pré-processamento. Existe muito mais coisas que podem ser feitas como *steamming*, *identificação de sinônimos*, entre outros. Um guia completo destas tarefas podem ser encontradas no livo do NLTK.