<a href="https://colab.research.google.com/github/saulomaia/datascience/blob/master/nlp_nltk/nltk_tweets.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **NLTK - Base de Dados em Português**

<p align="center"><img src="https://raw.githubusercontent.com/saulomaia/datascience/master/images/image_post.png" height="450px"></p>

## **Aplicando NLTK em uma base de dados em português com dados do Twitter**

Este projeto, envolve processamento de linguagem natural (*natural language processing - NLP*) e a ferramenta ***NLTK***.

### **Mineração de Textos**

Mineração de textos é uma técnica usada para tirar valiosas informações de bases de dados de textos.

Também chamamos de *Natural Language Processing* que significa **Processamento de Lingugagem Natural** ou NLP.

A grande crescente dessa área é devido a enorme quantidade de dados que temos hoje. Atualmente existe um grande número de dados sendo gerados a todo minuto, e muito desses tipos de dados, são dados de texto. E existem tarefas que podem resolver problemas importantes ou podem gerar bastante valor.

**Por que aprender mineração de textos ?**

*   Automatização da comunicação entre pessoas ou serviços
*   Extração de conhecimento em base de dados de texto


Dentre os recursos disponíveis para se trabalhar com mineração de textos temos algumas funções nativas do Python, temos a biblioteca NLTK, bibliotecas para NLP, dicionários léxicos, *machine learning* e até mesmo *deep learning*.

**Algumas ferramentas:**


1.   **Wordnet**

      Famoso dicionário léxico de substantivos, verbos, adjetivos, advérbios que são agrupados por conceitos. Essa ferramenta está disponível gratuitamente.

2.   ***Part os Speech***

      Técnica que consiste em classificar uma palavra por sua função gramatical.Técnica muito utilizada no processamento de textos, mas a função gramatical de uma certa palavra altera conforme o emprego da mesma na frase, e principalmente no idioma português, essa é uma técnica complexa.

3.   **Reconhecimento de Entidades** 

      A partir de dados no texto, um modelo é utilizado para reconhecimento de padrões definidos pelo usuário.  Esta técnica pode utilizar *machine learning* ou não. Para o reconhecimento de entidades, a técnica *part os speech* pode ter uma função especial.

4.   **Análise de Sentimentos** 

      A tarefa de análise de sentimentos é uma tarefa muito demandada quando se trabalha com textos. Pode se utilizar diversos métodos como léxicos ou *machine learning*. E essa tarefa também pode ser base para outras aplicações. Exemplo: *reviews* de filmes, de produtos, marcas, serviços, reputação de pessoas públicas...





###**Projeto - Parte 1**

O objetivo desse projeto é mostrar como fazer algumas análises e explorar uma base de dados em português utilizando NLTK, visto que trabalhar com as técnicas de NLP atuais em textos e português tem se mostrado um grande desafio.

Neste projeto utilizaremos uma **base de dados de tweets** reais relacionados ao governo de **Minas Gerais**. A base de dados é composta por **8199 linhas** classificadas como positivo, negativo e neutro.

O Twitter é um serviço muito utilizado por empresas para análises, principalmente análise de sentimentos. A análise de sentimentos é uma técnica que tem o objetivo de extrair informações de textos em linguagem natural. Deseja-se então obter, de forma automática, a polaridade de um texto ou sentença. Por exemplo, dado um texto, o computador classificar como positivo ou negativo tal conteúdo.

Trabalhar com o idioma português ainda é um desafio quando se deseja aplicar processamento de linguagem natural, então a escolha dessa base de dados nos dará condições de explorar e fazer algumas análises usando NLTK.

###**Importando a base de dados**

Como vamos tratar com dados reais que foram coletados de forma automatizada, nossa base de dados se assemelha muito de bases comumente usadas em projetos de *data science*. Ou seja, bastante "suja", com caracteres faltantes e/ou dados coletados errôneamente.

####**OBS: a coluna "Text" é o tweet propriamente dito.**

In [1]:
# Setup
!pip install -q wordcloud
import wordcloud

import nltk
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger') 

import pandas as pd

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [2]:
tweets = pd.read_csv('Tweets_Mg.csv')

In [3]:
tweets.head()

Unnamed: 0.1,Unnamed: 0,Created At,Text,Geo Coordinates.latitude,Geo Coordinates.longitude,User Location,Username,User Screen Name,Retweet Count,Classificacao,Observação,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24
0,0,Sun Jan 08 01:22:05 +0000 2017,���⛪ @ Catedral de Santo Antônio - Governador ...,,,Brasil,Leonardo C Schneider,LeoCSchneider,0,Neutro,,,,,,,,,,,,,,,,
1,1,Sun Jan 08 01:49:01 +0000 2017,"� @ Governador Valadares, Minas Gerais https:/...",-41.9333,-18.85,,Wândell,klefnews,0,Neutro,,,,,,,,,,,,,,,,
2,2,Sun Jan 08 01:01:46 +0000 2017,"�� @ Governador Valadares, Minas Gerais https:...",-41.9333,-18.85,,Wândell,klefnews,0,Neutro,,,,,,,,,,,,,,,,
3,3,Wed Jan 04 21:43:51 +0000 2017,��� https://t.co/BnDsO34qK0,,,,Ana estudando,estudandoconcur,0,Neutro,,,,,,,,,,,,,,,,
4,4,Mon Jan 09 15:08:21 +0000 2017,��� PSOL vai questionar aumento de vereadores ...,,,,Emily,Milly777,0,Negativo,,,,,,,,,,,,,,,,


Exibindo, por exemplo, as **10 primeiras linhas da coluna "Text"**, podemos ver que há *tweets* relacionados à **segurança, educação, infraestrutura do Estado**, ou seja, uma série de termos que que foram usadados na coleta e que serão analisados.

In [4]:
tweets.Text.head(10)

0    ���⛪ @ Catedral de Santo Antônio - Governador ...
1    � @ Governador Valadares, Minas Gerais https:/...
2    �� @ Governador Valadares, Minas Gerais https:...
3                          ��� https://t.co/BnDsO34qK0
4    ��� PSOL vai questionar aumento de vereadores ...
5    " bom é bandido morto"\nDeputado Cabo Júlio é ...
6    "..E 25% dos mineiros dizem não torcer para ti...
7    "A gigantesca barba do mal" em destaque no cad...
8    "BB e governo de Minas travam disputa sobre de...
9    "com vcs bh fica pequena!" Belo Horizonte (pro...
Name: Text, dtype: object

Utilizando o **método "count()"**, conseguimos ter uma noção da dimensão da nossa base de dados, ou seja, vemos que a mesma é composta por **8199 *tweets* relacionados ao governo de MG.**

In [5]:
tweets.count()

Unnamed: 0                   8199
Created At                   8199
Text                         8199
Geo Coordinates.latitude      104
Geo Coordinates.longitude     104
User Location                5489
Username                     8199
User Screen Name             8199
Retweet Count                8199
Classificacao                8199
Observação                      1
Unnamed: 10                     0
Unnamed: 11                     0
Unnamed: 12                     0
Unnamed: 13                     0
Unnamed: 14                     0
Unnamed: 15                     0
Unnamed: 16                     0
Unnamed: 17                     0
Unnamed: 18                     0
Unnamed: 19                     0
Unnamed: 20                     0
Unnamed: 21                     0
Unnamed: 22                     0
Unnamed: 23                     0
Unnamed: 24                     0
dtype: int64

###**Tokenization dos tweets**

*Tokenização* é a capacidade de **reconhecer palavras e sentenças** em uma frase ou texto. Ou seja, no contexto de uma frase, a tokenização é reconhecer cada palavra daquela frase. Aplicando-a em um texto, por exemplo, o processo se dá em reconhecer sentenças (frases, quebras de linhas...).

Existem **diversos tipos de tokenizadores**, porém para cada idioma, para cada contexto do problema o qual você está trabalhando, há um certo desafio/peculiaridades ao se aplicar o processo de *tokenização*.

A própria NLTK possue alguns *tokenizadores* que deve ser usado **dependendo de qual domínio você esteja trabalhando**. Como estamos trabalhando com dados do Twiter, usaremos o "**TweetTokenizer**", mas mostrarei a diferença desse tipo de *tokenizador*.

Mostrando, primeramente, o resultado do tokenizador "**word_tokenize**" que é um dos mais simples e comum para identificação de palavras em uma frase.

In [6]:
from nltk.tokenize import word_tokenize
word_tokenize("RT @saulo10 I like very Loooooot this movieee!!, thanks ;) :) :-)")

['RT',
 '@',
 'saulo10',
 'I',
 'like',
 'very',
 'Loooooot',
 'this',
 'movieee',
 '!',
 '!',
 ',',
 'thanks',
 ';',
 ')',
 ':',
 ')',
 ':',
 '-',
 ')']

A aplicação do "**word_tokenizer**" resulta no reconhecimento de várias instâncias nessa frase de exemplo.

Mas talvez para uma base de dados do Twiter, não faça tanto sentido reconhecer o caractere **":"**(dois pontos) individualmente. Nós sabemos que o usuário quis usar o conjunto **:)** (emoji de carinha sorrindo), assim como os outros emojis, sendo assim uma limitação do tokenizador para esse tipo de dado.

Aplicando então o "**TweetTokenizer**"...

In [7]:
from nltk.tokenize import TweetTokenizer
tweet_tokenize = TweetTokenizer()
tweet_tokenize.tokenize("RT @saulo10 I like very Loooooot this movieee!!, thanks ;) :) :-)")

['RT',
 '@saulo10',
 'I',
 'like',
 'very',
 'Loooooot',
 'this',
 'movieee',
 '!',
 '!',
 ',',
 'thanks',
 ';)',
 ':)',
 ':-)']

Vemos então, que utilizando um tokenizador próprio para uma base de dados do Twiter, treinado com esse tipo de dados, os emojis, por exemplo, são reconhecidos como uma instância única, como um token único.

Isso mostra a **capacidade de tokenizador em identificar esse tipo de caracteres** e figuras de linguagens que são típicos e muito utlizados no Twiter.

Vale ressaltar então, que **a escolha do tokenizador é um ponto importante** que pode fazer muita diferença nas análises seguintes.

###Visualizando o resultado do TweetTokenizer

*   **Tweet**: Texto original escrito pelo usuário
*   **Token**: Resultado do processo de tokenização ao aplicar o TweetTokenizer


In [8]:
tweet_tokenize = TweetTokenizer()
for t in tweets.Text.head(10).items():
    print ("Tweet:", t[1])
    print ("Tokens:", tweet_tokenize.tokenize(t[1]))

Tweet: ���⛪ @ Catedral de Santo Antônio - Governador Valadares/MG https://t.co/JSbKamIqUJ
Tokens: ['�', '�', '�', '⛪', '@', 'Catedral', 'de', 'Santo', 'Antônio', '-', 'Governador', 'Valadares', '/', 'MG', 'https://t.co/JSbKamIqUJ']
Tweet: � @ Governador Valadares, Minas Gerais https://t.co/B3ThIDJCSf
Tokens: ['�', '@', 'Governador', 'Valadares', ',', 'Minas', 'Gerais', 'https://t.co/B3ThIDJCSf']
Tweet: �� @ Governador Valadares, Minas Gerais https://t.co/dPkgzVR2Qw
Tokens: ['�', '�', '@', 'Governador', 'Valadares', ',', 'Minas', 'Gerais', 'https://t.co/dPkgzVR2Qw']
Tweet: ��� https://t.co/BnDsO34qK0
Tokens: ['�', '�', '�', 'https://t.co/BnDsO34qK0']
Tweet: ��� PSOL vai questionar aumento de vereadores e prefeito de BH na Justiça - Politica - Estado de Minas https://t.co/DMg7BGsek5
Tokens: ['�', '�', '�', 'PSOL', 'vai', 'questionar', 'aumento', 'de', 'vereadores', 'e', 'prefeito', 'de', 'BH', 'na', 'Justiça', '-', 'Politica', '-', 'Estado', 'de', 'Minas', 'https://t.co/DMg7BGsek5']
Twee

Já antecipando processamentos futuros a serem realizados com a NLTK, precisamos gerar uma lista de palavras a partir dos tokens ou termos da nossa base de dados.

In [9]:
from functools import reduce
import operator

list_palavras = []

for t in tweets.Text.items():
    list_palavras.append(t[1].split())

# Reduz a lista de listas em apenas uma lista única de elementos.
list_palavras = reduce(operator.concat, list_palavras)
list_palavras[:10]

['���⛪',
 '@',
 'Catedral',
 'de',
 'Santo',
 'Antônio',
 '-',
 'Governador',
 'Valadares/MG',
 'https://t.co/JSbKamIqUJ']

In [10]:
len(list_palavras)

132341

###**Gerando um objeto do tipo *nltk*.Text a partir da lista de palavras**

Esse método me permite agora trabalhar com vários outros métodos como colocações, concordância, visualização e até vocabulário.

In [11]:
tweets_text_nltk = nltk.Text(list_palavras)

###**Encontrando a frequência do token "Minas" e "Pimentel"**

In [12]:
tweets_text_nltk.count("Minas")

2626

In [13]:
tweets_text_nltk.count("Pimentel")

418

In [14]:
# FUNÇÃO PARA CÁLCULO DO PERCENTUAL REPRESENTADO POR UMA PALAVRA SOBRE A BASE DE DADOS

def palavra_percentual(freq, dataset):
    total = len(dataset)
    return 100 * freq / total

In [15]:
palavra_percentual(list_palavras.count('Minas'), list_palavras)

1.9842679139495696

In [16]:
palavra_percentual(list_palavras.count('Pimentel'), list_palavras)

0.3158507189759787

###**Similaridade de palavras por contexto**

O método ".similar()" me permite buscar na base de dados, palavras similares a uma outra determinada palavra e/ou que aparecem no mesmo contexto, e exibe, por padrão, as 20 primeiras.

In [17]:
tweets_text_nltk.similar("Minas")

mg rt drogas roubo estado o fora bh pimentel anos que governo sp
manaus um calamidade casos segurança temer presídio


In [18]:
tweets_text_nltk.similar("Gerais")

rt que politica e para economia governador é não do no mantém melhor
deste de com governo tem q o


In [19]:
tweets_text_nltk.similar("Pimentel")

minas rt governador estado mg o que fora drogas e anos mas calamidade
né resolver ensino gerais é com em


###**Conjunto de palavras empregadas similarmente**

O método ".collocations()" me permite saber quais palavras ou conjunto de palavras são mais usadas agrupadas. Isso dá ao desenvolvedor a possibilidade de aprender com o dado e ter vários insights.

In [20]:
tweets_text_nltk.collocations()

dois helicópteros; febre amarela; Minas Gerais; calamidade
financeira,; compra mais; helicópteros!!A cara; @AnaPaulaVolei: Mais;
estado. htt…; avisa Justiça; calamidade financeira; canalhice ainda;
mais dois; são maiores; tem recursos; três anos,; Com três; conta
judicial; anos, presídio; presídio privado; 21,8 milhões:


In [21]:
# Obtem a frequencia de cada palavra
fdist = nltk.FreqDist(p.lower() for p in list_palavras)

In [22]:
#EXIBINDO OS 20 TERMOS QUE MAIS APARECEM NA BASE DE DADOS E SUA RESPECTIVA FREQUÊNCIA

fdist.most_common(20)

[('de', 8624),
 ('em', 4478),
 ('rt', 3080),
 ('minas', 2945),
 ('e', 2269),
 ('estado', 2120),
 ('mg', 2004),
 ('-', 1937),
 ('a', 1889),
 ('governo', 1775),
 ('o', 1737),
 ('do', 1477),
 ('é', 1289),
 ('que', 1230),
 ('mais', 1157),
 ('gerais', 980),
 ('drogas', 917),
 ('com', 913),
 ('compra', 886),
 ('calamidade', 882)]

###**Removendo StopWords**

Na lista acima, reparamos que há vários tokens que não tem nenhuma relevância, como por exemplo "de", "em", "e", "-" etc.

A melhor forma de remover essas palavras, é utilizando o método **"StopWords"**.

StopWords são palavras reservadas do idioma usadas para uma boa articulação da ortografia, mas são palavras que quando estamos analisando um texto, mais prejudicam do que ajudam.

A NLTK fornece um dicionário de "stopwords" para o idioma português.

In [23]:
# Define a lista de StopWords

stopwords = set(nltk.corpus.stopwords.words("portuguese"))

In [24]:
stopwords

{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houveríamos',
 'houvesse',


###**Removendo as StopWords da lista de palavras**

In [25]:
list_palavras = [i.lower() for i in list_palavras if not i.lower() in stopwords]

print (list_palavras[:20])

['���⛪', '@', 'catedral', 'santo', 'antônio', '-', 'governador', 'valadares/mg', 'https://t.co/jsbkamiquj', '�', '@', 'governador', 'valadares,', 'minas', 'gerais', 'https://t.co/b3thidjcsf', '��', '@', 'governador', 'valadares,']


In [26]:
len(list_palavras)

97023

**Resultado**: muitas palavras da nossa lista de palavras, da nossa base de dados, foram removidas por serem classificadas como stopwords, ou seja, não tem relevância.

In [27]:
# Obtem a frequencia de cada palavra
fdist = nltk.FreqDist(p.lower() for p in list_palavras)

In [28]:
fdist.most_common(20)

[('rt', 3080),
 ('minas', 2945),
 ('estado', 2120),
 ('mg', 2004),
 ('-', 1937),
 ('governo', 1775),
 ('gerais', 980),
 ('drogas', 917),
 ('compra', 886),
 ('calamidade', 882),
 ('dois', 879),
 ('helicópteros', 804),
 ('q', 672),
 ('governador', 651),
 ('presídio', 568),
 ('febre', 549),
 ('r$', 519),
 ('amarela', 506),
 ('pimentel', 465),
 ('ainda', 461)]

Aqui já temos um resultado mais limpo, mais íntegro, com palavras que fazem muito mais sentido, tem muito mais relevância em relação ao que obtivemos anteriormente. Ou seja, termos os quais conseguimos explorar/trabalhar para identificar e gerar conhecimento para o nosso projeto.


**CONTINUA...**