# NLTK - Text Mining

* Exploraremos recursos da nltk
* Recursos para trabalhar com NLP
* Abordaremos as features da biblioteca com corpus da própria nltk.
* Aplicaremos a NLTK em uma base de dados real

**Importe a Biblioteca NLTK**

In [None]:
import nltk

**Faça download da base de corpus da nltk**

In [None]:
# nltk.download()

In [None]:
from IPython.display import Image
Image('nltk-downloader.jpg')

** Importe o corpus brown e imprime suas categorias**

* Corpus com milhares de palavras de várias categorias

In [None]:
from nltk.corpus import brown

In [None]:
brown.categories()

In [None]:
len(brown.words())

In [None]:
len(brown.words(categories='news'))

** Visualizando sentenças da categoria romance**

In [None]:
brown.sents(categories=['romance'])

** Quantidade de sentenças da categoria**

In [None]:
len(brown.sents(categories=['romance']))

**Obtem as palavras do corpus**

In [None]:
brown.words()

In [None]:
# obtem as palavras do corpus romance
palavras = brown.words(categories=['romance'])

In [None]:
len(palavras)

** Obter a frequencia de palavras**

In [None]:
# Obtem a frequencia de cada palavra
fdist = nltk.FreqDist(p.lower() for p in palavras)

In [None]:
fdist

In [None]:
fdist.most_common(20)

**Palavras ordenadas por ordem alfabética**

In [None]:
# Imprime as 50 primeiras palavras
sorted(set(palavras))[:50]

**Obtem a frequencia de uma palavra no corpus**

In [None]:
palavras.count("love")

In [None]:
palavras.count("hate")

** Descobrindo a frequencia em percentual de uma palavra no texto**

In [None]:
def palavra_percentual(freq, dataset):
    total = len(dataset)
    return 100 * freq / total

In [None]:
palavra_percentual(palavras.count('love'), palavras)

** Transforma palavras em objeto texto **
* Para isso deve-se passar uma lista de palavras para essa classe

In [None]:
palavras = nltk.Text(palavras)

In [None]:
type(palavras)

** Imprime palavras similares**

In [None]:
# Imprime as palavras mais similares por contexto.

In [None]:
palavras.similar('love', num=30)

** Conjuntos de Palavras empregadas similarmente**

In [None]:
palavras.collocations()

** Concordancia das palavras**

In [None]:
# Contexto na qual a palavra aparece

In [None]:
palavras.concordance('love')

** Empregabilidade comuns das palavras **

In [None]:
palavras.common_contexts(['love','hate'])

** Disperção Léxica de palavras no dataset**

In [None]:
%matplotlib notebook
palavras.dispersion_plot(["love", "hate","man"])

# Aplicando NLTK em uma base de dados real

* Usaremos uma base de dados real de tweets sobre o governo de Minas Gerais
* O twitter é um serviço muito utilizado por empresas para análises
* Trabalhar com o idioma portugues ainda é um desafio

In [None]:
from IPython.display import Image
Image('twitter_5.png',width=600, height=400)

**Ler a base de dados**

In [None]:
import pandas as pd

In [None]:
tweets = pd.read_csv('Tweets_Mg.csv')

In [None]:
tweets.head()

In [None]:
tweets.Text.head(20)

In [None]:
tweets.count()

**Tokenization dos tweets**

* Tokenização é a capacidade de reconhecer palavras e sentenças em uma frase ou texto.
* Existem diversos tipos de tokenizadores.
* Conheça o domínio na qual voce está trabalhando.

In [None]:
from nltk.tokenize import word_tokenize
word_tokenize("RT @rodrigofs10 I like very Loooooot this movieee!!, thanks ;) :) :-)")

In [None]:
from nltk.tokenize import TweetTokenizer

In [None]:
tweet_tokenize = TweetTokenizer()

In [None]:
tweet_tokenize.tokenize("RT @rodrigofs10 I like very Loooooot this movieee!!, thanks ;) :) :-)")

In [None]:
tweet_tokenize = TweetTokenizer()
for t in tweets.Text.head(50).items():
    print ("Tweet:", t[1])
    print ("Tokens:", tweet_tokenize.tokenize(t[1]))

* Gera uma lista de palavras a partir dos tokens ou termos da base de dados.

In [None]:
from functools import reduce
import operator

list_palavras = []

for t in tweets.Text.items():
    list_palavras.append(t[1].split())

# Reduz a lista de listas em apenas uma lista única de elementos.
list_palavras = reduce(operator.concat, list_palavras)
list_palavras[:50]

In [None]:
len(list_palavras)

**Gera um objeto do tipo *nltk.Text* a partir da lista de palavras.**

In [None]:
import nltk

In [None]:
tweets_text_nltk = nltk.Text(list_palavras)

**Imprime tokens**

In [None]:
tweets_text_nltk.tokens

In [None]:
len(list_palavras)

**Encontrando a frequencia do token 'Minas' e 'Pimental'**

In [None]:
tweets_text_nltk.count('Minas')

In [None]:
tweets_text_nltk.count('Pimentel')

In [None]:
palavra_percentual(list_palavras.count('Minas'), list_palavras)

In [None]:
palavra_percentual(list_palavras.count('Pimentel'), list_palavras)

** Similaridade de palavras por contextos**

In [None]:
tweets_text_nltk.similar('Minas')

In [None]:
tweets_text_nltk.similar('Gerais')

In [None]:
tweets_text_nltk.similar('Pimentel')

In [None]:
tweets.Text.values[0]

** Conjuntos de Palavras empregadas similarmente**

In [None]:
tweets_text_nltk.collocations()

In [None]:
# Obtem a frequencia de cada palavra
fdist = nltk.FreqDist(p.lower() for p in list_palavras)

In [None]:
fdist.most_common(20)

** Removendo Stopwords**

In [None]:
# Define a lista de Stopwords
stopwords = set(nltk.corpus.stopwords.words('portuguese'))

In [None]:
# lista de stopwords
stopwords

** Remove stopwords da lista de palavras**

In [None]:
list_palavras = [i.lower() for i in list_palavras if not i.lower() in stopwords]

print (list_palavras[:50])

In [None]:
len(list_palavras)

In [None]:
# Obtem a frequencia de cada palavra
fdist = nltk.FreqDist(p.lower() for p in list_palavras)

In [None]:
fdist.most_common(20)

# **Trabalhando com Bigrams e Trigrams**

* **n-grams** é uma sequencia continua de n itens para uma amostra de texto ou fala.
* **Unigram** palavras únicas

* **Bigrams** são pares de palavras.
* **Trigrams** são trio de palavras.
* **Palavas** juntas são também conhecidas como **Colocações**

* Unigramns normalmente **não contém** muita informação quando se comparado com bigramns e trigrams.
* Quanto mais palavras mais **contexto** sobre a estrutura da linguagem.
* Você deve avaliar o uso de n-gramns levando isso em consideração no seu projeto.

In [None]:
import nltk
from nltk import bigrams, trigrams

**Visualizando trigramns**

In [None]:
list(bigrams(['O rato', 'roeu', 'roupa', 'do rei', 'de roma']))

**Visualizando trigramns**

In [None]:
list(trigrams(['O rato', 'roeu', 'roupa', 'do rei', 'de roma']))

** Imprimindo bigramns com a base de tweets**

In [None]:
print (list(nltk.bigrams(list_palavras)))

** Imprimindo trigramns com a base de tweets**

In [None]:
print (list(nltk.trigrams(list_palavras[:100])))