# NLTK - Text Mining

* Exploraremos recursos da nltk
* Recursos para trabalhar com NLP
* Abordaremos as features da biblioteca com corpus da própria nltk.
* Aplicaremos a NLTK em uma base de dados real

**Importe a Biblioteca NLTK**

In [1]:
import nltk

**Faça download da base de corpus da nltk**

In [None]:
# nltk.download()

In [None]:
from IPython.display import Image
Image('nltk-downloader.jpg')

** Importe o corpus brown e imprime suas categorias**

* Corpus com milhares de palavras de várias categorias

In [2]:
from nltk.corpus import brown

In [3]:
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

In [4]:
len(brown.words())

1161192

In [5]:
len(brown.words(categories='news'))

100554

** Visualizando sentenças da categoria romance**

In [6]:
brown.sents(categories=['romance'])

[['They', 'neither', 'liked', 'nor', 'disliked', 'the', 'Old', 'Man', '.'], ['To', 'them', 'he', 'could', 'have', 'been', 'the', 'broken', 'bell', 'in', 'the', 'church', 'tower', 'which', 'rang', 'before', 'and', 'after', 'Mass', ',', 'and', 'at', 'noon', ',', 'and', 'at', 'six', 'each', 'evening', '--', 'its', 'tone', ',', 'repetitive', ',', 'monotonous', ',', 'never', 'breaking', 'the', 'boredom', 'of', 'the', 'streets', '.'], ...]

** Quantidade de sentenças da categoria**

In [7]:
len(brown.sents(categories=['romance']))

4431

**Obtem as palavras do corpus**

In [8]:
brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

In [9]:
#obtem as palavras do corpus romance
palavras=brown.words(categories=['romance'])

In [10]:
palavras

['They', 'neither', 'liked', 'nor', 'disliked', 'the', ...]

In [11]:
len(palavras)

70022

** Obter a frequencia de palavras**

In [12]:
#obter a frequencia de cada palavra
fdist=nltk.FreqDist(p.lower() for p in palavras)

In [13]:
fdist

FreqDist({',': 3899, '.': 3736, 'the': 2988, 'and': 1905, 'to': 1517, 'a': 1383, 'of': 1202, 'he': 1068, '``': 1045, "''": 1044, ...})

In [14]:
fdist.most_common(20)

[(',', 3899),
 ('.', 3736),
 ('the', 2988),
 ('and', 1905),
 ('to', 1517),
 ('a', 1383),
 ('of', 1202),
 ('he', 1068),
 ('``', 1045),
 ("''", 1044),
 ('was', 999),
 ('i', 951),
 ('in', 930),
 ('she', 728),
 ('it', 717),
 ('had', 695),
 ('?', 690),
 ('her', 680),
 ('that', 612),
 ('his', 603)]

**Palavras ordenadas por ordem alfabética**

In [16]:
sorted(set(palavras))[:50]

['!',
 '&',
 "'",
 "''",
 "'ello",
 "'em",
 "'most",
 '(',
 ')',
 ',',
 '--',
 '.',
 '10',
 '141',
 '160',
 '1935',
 '1936',
 '1938',
 '1940',
 '1944',
 '230',
 '3',
 '4000-plus',
 "6'",
 ':',
 ';',
 '?',
 'A',
 "A's",
 'A-Z',
 "A-Z's",
 'A.M.',
 'A40-AjK',
 'AA',
 'Abernathy',
 'Abernathys',
 'About',
 'Above',
 'Abruptly',
 'Absolution',
 'Acala',
 'Across',
 'Acting',
 'Actually',
 'Adam',
 'Adams',
 'Adele',
 'Adelia',
 'Adrien',
 'African']

**Obtem a frequencia de uma palavra no corpus**

In [17]:
palavras.count('love')

32

In [18]:
palavras.count('hate')

9

** Descobrindo a frequencia em percentual de uma palavra no texto**

In [16]:
def palavra_percentual(freq, dataset):
    total=len(dataset)
    return 100*freq/total

In [20]:
palavra_percentual(palavras.count('love'), palavras)

0.04569992288138014

** Transforma palavras em objeto texto **
* Para isso deve-se passar uma lista de palavras para essa classe

In [21]:
palavras=nltk.Text(palavras)

In [22]:
type(palavras)

nltk.text.Text

** Imprime palavras similares**

In [None]:
# Imprime as palavras mais similares por contexto.

In [24]:
palavras.similar('love',num=30)

see that it place know tell want help understand telling hate man he
there him above name one but her way said thought herself get be
remember did through though


** Conjuntos de Palavras empregadas similarmente**

In [27]:
print(';'.join(palavras.collocation_list()))

New York;Old Man;Mike Deegan;Cousin Elec;Lucille Warren;old man;Poor John;Cousin Emma;Gratt Shafer;I've got;Mrs. Kirby;could see;Eddie Lee;Hanford College;young men;Miss Jen;Mr. Willis;Early Spring;Mrs. Salter;Gertrude Parker


** Concordancia das palavras**

In [None]:
# Contexto na qual a palavra aparece

In [29]:
palavras.concordance('love')

Displaying 25 of 36 matches:
yards in which no one knew privacy . Love and hatred and fear were one here , 
l leave you '' . `` Sounds like real love '' , Owen said . `` It sort of bring
 to satisfy any egotist . It was for love that he had served the Navy . To hav
rved the Navy . To have someday that love returned was what he had lived for .
is not having the only man you could love , whether he drives a bread truck or
 you can stay alive and hate him and love him and want him even if it means yo
e him , not even with God . If it is love , you don't . And I'll take you with
her woman , the one that never could love him the way you do , the one who got
ts women under stress indulge in . I love you , I hate you , I feel like killi
 myself , and in the same sequence I love you I think you're the most wonderfu
t , I can understand that by now and love them still , because everyone must j
 of women in towns , dispossessed of love , hanging on to makeshifts , and alt
d like the tails of sag

** Empregabilidade comuns das palavras **

In [32]:
palavras.common_contexts(['love','hate'])

and_him i_you


** Disperção Léxica de palavras no dataset**

In [33]:
%matplotlib notebook
palavras.dispersion_plot(['love','hate','man'])

<IPython.core.display.Javascript object>

# Aplicando NLTK em uma base de dados real

* Usaremos uma base de dados real de tweets sobre o governo de Minas Gerais
* O twitter é um serviço muito utilizado por empresas para análises
* Trabalhar com o idioma portugues ainda é um desafio

In [None]:
from IPython.display import Image
Image('twitter_5.png',width=600, height=400)

**Ler a base de dados**

In [1]:
import pandas as pd

In [2]:
tweets=pd.read_csv(r'C:\Users\Daniel\NaiveBayes-Materiais-de-Apoio\NaiveBayes-Materiais-de-Apoio\Tweets_Mg.csv')

In [3]:
tweets.head()

Unnamed: 0.1,Unnamed: 0,Created At,Text,Geo Coordinates.latitude,Geo Coordinates.longitude,User Location,Username,User Screen Name,Retweet Count,Classificacao,...,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24
0,0,Sun Jan 08 01:22:05 +0000 2017,���⛪ @ Catedral de Santo Antônio - Governador ...,,,Brasil,Leonardo C Schneider,LeoCSchneider,0,Neutro,...,,,,,,,,,,
1,1,Sun Jan 08 01:49:01 +0000 2017,"� @ Governador Valadares, Minas Gerais https:/...",-41.9333,-18.85,,Wândell,klefnews,0,Neutro,...,,,,,,,,,,
2,2,Sun Jan 08 01:01:46 +0000 2017,"�� @ Governador Valadares, Minas Gerais https:...",-41.9333,-18.85,,Wândell,klefnews,0,Neutro,...,,,,,,,,,,
3,3,Wed Jan 04 21:43:51 +0000 2017,��� https://t.co/BnDsO34qK0,,,,Ana estudando,estudandoconcur,0,Neutro,...,,,,,,,,,,
4,4,Mon Jan 09 15:08:21 +0000 2017,��� PSOL vai questionar aumento de vereadores ...,,,,Emily,Milly777,0,Negativo,...,,,,,,,,,,


In [4]:
tweets.Text.head(20)

0     ���⛪ @ Catedral de Santo Antônio - Governador ...
1     � @ Governador Valadares, Minas Gerais https:/...
2     �� @ Governador Valadares, Minas Gerais https:...
3                           ��� https://t.co/BnDsO34qK0
4     ��� PSOL vai questionar aumento de vereadores ...
5     " bom é bandido morto"\nDeputado Cabo Júlio é ...
6     "..E 25% dos mineiros dizem não torcer para ti...
7     "A gigantesca barba do mal" em destaque no cad...
8     "BB e governo de Minas travam disputa sobre de...
9     "com vcs bh fica pequena!" Belo Horizonte (pro...
10    "Daí a gente visita governador valadares"\n"Qu...
11    "É bonita e é bonita..." \n#latergram #ibituru...
12    "erro desconhecido" é mato! Aliás, é da secret...
13    "La La Land: Cantando Estações" arrasa no Glob...
14    "La La Land: Cantando Estações" arrasa no Glob...
15    "Los abusos, aun en el estado más sólido, son ...
16    "Mesmo sem muito dinheiro no caixa o governo d...
17    "Modelo de segurança será o nosso legado",

In [5]:
tweets.count()

Unnamed: 0                   8199
Created At                   8199
Text                         8199
Geo Coordinates.latitude      104
Geo Coordinates.longitude     104
User Location                5489
Username                     8199
User Screen Name             8199
Retweet Count                8199
Classificacao                8199
Observação                      1
Unnamed: 10                     0
Unnamed: 11                     0
Unnamed: 12                     0
Unnamed: 13                     0
Unnamed: 14                     0
Unnamed: 15                     0
Unnamed: 16                     0
Unnamed: 17                     0
Unnamed: 18                     0
Unnamed: 19                     0
Unnamed: 20                     0
Unnamed: 21                     0
Unnamed: 22                     0
Unnamed: 23                     0
Unnamed: 24                     0
dtype: int64

**Tokenization dos tweets**

* Tokenização é a capacidade de reconhecer palavras e sentenças em uma frase ou texto.
* Existem diversos tipos de tokenizadores.
* Conheça o domínio na qual voce está trabalhando.

In [8]:
import nltk
from nltk.tokenize import word_tokenize

In [9]:
from nltk.tokenize import TweetTokenizer

* Gera uma lista de palavras a partir dos tokens ou termos da base de dados.

In [10]:
from functools import reduce
import operator

list_palavras=[]
for t in tweets.Text.items():
    list_palavras.append(t[1].split())
    
#Reduz a lista de listas em apenas uma lista única de elementos
list_palavras=reduce(operator.concat, list_palavras)
list_palavras[:50]    

['���⛪',
 '@',
 'Catedral',
 'de',
 'Santo',
 'Antônio',
 '-',
 'Governador',
 'Valadares/MG',
 'https://t.co/JSbKamIqUJ',
 '�',
 '@',
 'Governador',
 'Valadares,',
 'Minas',
 'Gerais',
 'https://t.co/B3ThIDJCSf',
 '��',
 '@',
 'Governador',
 'Valadares,',
 'Minas',
 'Gerais',
 'https://t.co/dPkgzVR2Qw',
 '���',
 'https://t.co/BnDsO34qK0',
 '���',
 'PSOL',
 'vai',
 'questionar',
 'aumento',
 'de',
 'vereadores',
 'e',
 'prefeito',
 'de',
 'BH',
 'na',
 'Justiça',
 '-',
 'Politica',
 '-',
 'Estado',
 'de',
 'Minas',
 'https://t.co/DMg7BGsek5',
 '"',
 'bom',
 'é',
 'bandido']

In [11]:
len(list_palavras)

132341

**Gera um objeto do tipo *nltk.Text* a partir da lista de palavras.**

In [12]:
tweets_text_nltk=nltk.Text(list_palavras)

**Imprime tokens**

In [13]:
tweets_text_nltk.tokens

['���⛪',
 '@',
 'Catedral',
 'de',
 'Santo',
 'Antônio',
 '-',
 'Governador',
 'Valadares/MG',
 'https://t.co/JSbKamIqUJ',
 '�',
 '@',
 'Governador',
 'Valadares,',
 'Minas',
 'Gerais',
 'https://t.co/B3ThIDJCSf',
 '��',
 '@',
 'Governador',
 'Valadares,',
 'Minas',
 'Gerais',
 'https://t.co/dPkgzVR2Qw',
 '���',
 'https://t.co/BnDsO34qK0',
 '���',
 'PSOL',
 'vai',
 'questionar',
 'aumento',
 'de',
 'vereadores',
 'e',
 'prefeito',
 'de',
 'BH',
 'na',
 'Justiça',
 '-',
 'Politica',
 '-',
 'Estado',
 'de',
 'Minas',
 'https://t.co/DMg7BGsek5',
 '"',
 'bom',
 'é',
 'bandido',
 'morto"',
 'Deputado',
 'Cabo',
 'Júlio',
 'é',
 'condenado',
 'e',
 'fica',
 'inelegível',
 'por',
 '10',
 'anos',
 '-',
 'Politica',
 '-',
 'Estado',
 'de',
 'Minas',
 'https://t.co/3GfAqvrFHS',
 '"..E',
 '25%',
 'dos',
 'mineiros',
 'dizem',
 'não',
 'torcer',
 'para',
 'time',
 'nenhum,mesmo',
 'dentro',
 'de',
 'um',
 'estado',
 'com',
 'Atlético-MG',
 'e',
 'Cruzeiro.',
 'Pq?.."',
 'https://t.co/fN5evlLQsR',


**Encontrando a frequencia do token 'Minas' e 'Pimental'**

In [14]:
tweets_text_nltk.count('Minas')

2626

In [15]:
tweets_text_nltk.count('Pimentel')

418

In [17]:
palavra_percentual(tweets_text_nltk.count('Minas'), list_palavras)

1.9842679139495696

In [18]:
palavra_percentual(tweets_text_nltk.count('Pimentel'), list_palavras)

0.3158507189759787

** Similaridade de palavras por contextos**

In [19]:
tweets_text_nltk.similar('Minas')

mg rt drogas roubo estado o fora bh pimentel anos que governo sp
manaus um calamidade casos segurança temer presídio


In [20]:
tweets_text_nltk.similar('Gerais')

rt que politica e para economia governador é não do no mantém melhor
deste de com governo tem q o


In [21]:
tweets_text_nltk.similar('Pimentel')

minas rt governador estado mg o que fora drogas e anos mas calamidade
né resolver ensino gerais é com em


** Conjuntos de Palavras empregadas similarmente**

In [23]:
print(';'.join(tweets_text_nltk.collocation_list()))

dois helicópteros;febre amarela;Minas Gerais;calamidade financeira,;compra mais;helicópteros!!A cara;@AnaPaulaVolei: Mais;estado. htt…;avisa Justiça;calamidade financeira;canalhice ainda;mais dois;são maiores;tem recursos;três anos,;Com três;conta judicial;anos, presídio;presídio privado;21,8 milhões:


In [25]:
#obtem a frequencia de cada palavra
fdist=nltk.FreqDist(p.lower()for p in list_palavras)

In [26]:
fdist.most_common(20)

[('de', 8624),
 ('em', 4478),
 ('rt', 3080),
 ('minas', 2945),
 ('e', 2269),
 ('estado', 2120),
 ('mg', 2004),
 ('-', 1937),
 ('a', 1889),
 ('governo', 1775),
 ('o', 1737),
 ('do', 1477),
 ('é', 1289),
 ('que', 1230),
 ('mais', 1157),
 ('gerais', 980),
 ('drogas', 917),
 ('com', 913),
 ('compra', 886),
 ('calamidade', 882)]

** Removendo Stopwords**

In [27]:
stopwords=set(nltk.corpus.stopwords.words('portuguese'))

In [28]:
stopwords

{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houveríamos',
 'houvesse',


** Remove stopwords da lista de palavras**

In [31]:
list_palavras=[i.lower() for i in list_palavras if not i.lower() in stopwords]
print(list_palavras[:50])   

['���⛪', '@', 'catedral', 'santo', 'antônio', '-', 'governador', 'valadares/mg', 'https://t.co/jsbkamiquj', '�', '@', 'governador', 'valadares,', 'minas', 'gerais', 'https://t.co/b3thidjcsf', '��', '@', 'governador', 'valadares,', 'minas', 'gerais', 'https://t.co/dpkgzvr2qw', '���', 'https://t.co/bndso34qk0', '���', 'psol', 'vai', 'questionar', 'aumento', 'vereadores', 'prefeito', 'bh', 'justiça', '-', 'politica', '-', 'estado', 'minas', 'https://t.co/dmg7bgsek5', '"', 'bom', 'bandido', 'morto"', 'deputado', 'cabo', 'júlio', 'condenado', 'fica', 'inelegível']


In [32]:
len(list_palavras)

97023

In [34]:
#obtem a frequencia de cada palavra
fdist=nltk.FreqDist(p.lower() for p in list_palavras)

In [35]:
fdist.most_common(20)

[('rt', 3080),
 ('minas', 2945),
 ('estado', 2120),
 ('mg', 2004),
 ('-', 1937),
 ('governo', 1775),
 ('gerais', 980),
 ('drogas', 917),
 ('compra', 886),
 ('calamidade', 882),
 ('dois', 879),
 ('helicópteros', 804),
 ('q', 672),
 ('governador', 651),
 ('presídio', 568),
 ('febre', 549),
 ('r$', 519),
 ('amarela', 506),
 ('pimentel', 465),
 ('ainda', 461)]

# **Trabalhando com Bigrams e Trigrams**

* **n-grams** é uma sequencia continua de n itens para uma amostra de texto ou fala.
* **Unigram** palavras únicas

* **Bigrams** são pares de palavras.
* **Trigrams** são trio de palavras.
* **Palavas** juntas são também conhecidas como **Colocações**

* Unigramns normalmente **não contém** muita informação quando se comparado com bigramns e trigrams.
* Quanto mais palavras mais **contexto** sobre a estrutura da linguagem.
* Você deve avaliar o uso de n-gramns levando isso em consideração no seu projeto.

In [43]:
from nltk import bigrams, trigrams

**Visualizando trigramns**

In [39]:
list(bigrams(['O rato','roeu','roupa','do rei','de roma']))

[('O rato', 'roeu'),
 ('roeu', 'roupa'),
 ('roupa', 'do rei'),
 ('do rei', 'de roma')]

**Visualizando trigramns**

In [45]:
list(trigrams(['O rato','roeu','roupa','do rei','de roma']))

[('O rato', 'roeu', 'roupa'),
 ('roeu', 'roupa', 'do rei'),
 ('roupa', 'do rei', 'de roma')]

** Imprimindo bigramns com a base de tweets**

In [46]:
print(list(nltk.bigrams(list_palavras)))

[('���⛪', '@'), ('@', 'catedral'), ('catedral', 'santo'), ('santo', 'antônio'), ('antônio', '-'), ('-', 'governador'), ('governador', 'valadares/mg'), ('valadares/mg', 'https://t.co/jsbkamiquj'), ('https://t.co/jsbkamiquj', '�'), ('�', '@'), ('@', 'governador'), ('governador', 'valadares,'), ('valadares,', 'minas'), ('minas', 'gerais'), ('gerais', 'https://t.co/b3thidjcsf'), ('https://t.co/b3thidjcsf', '��'), ('��', '@'), ('@', 'governador'), ('governador', 'valadares,'), ('valadares,', 'minas'), ('minas', 'gerais'), ('gerais', 'https://t.co/dpkgzvr2qw'), ('https://t.co/dpkgzvr2qw', '���'), ('���', 'https://t.co/bndso34qk0'), ('https://t.co/bndso34qk0', '���'), ('���', 'psol'), ('psol', 'vai'), ('vai', 'questionar'), ('questionar', 'aumento'), ('aumento', 'vereadores'), ('vereadores', 'prefeito'), ('prefeito', 'bh'), ('bh', 'justiça'), ('justiça', '-'), ('-', 'politica'), ('politica', '-'), ('-', 'estado'), ('estado', 'minas'), ('minas', 'https://t.co/dmg7bgsek5'), ('https://t.co/dmg7b

** Imprimindo trigramns com a base de tweets**

In [48]:
print(list(nltk.trigrams(list_palavras[:100])))

[('���⛪', '@', 'catedral'), ('@', 'catedral', 'santo'), ('catedral', 'santo', 'antônio'), ('santo', 'antônio', '-'), ('antônio', '-', 'governador'), ('-', 'governador', 'valadares/mg'), ('governador', 'valadares/mg', 'https://t.co/jsbkamiquj'), ('valadares/mg', 'https://t.co/jsbkamiquj', '�'), ('https://t.co/jsbkamiquj', '�', '@'), ('�', '@', 'governador'), ('@', 'governador', 'valadares,'), ('governador', 'valadares,', 'minas'), ('valadares,', 'minas', 'gerais'), ('minas', 'gerais', 'https://t.co/b3thidjcsf'), ('gerais', 'https://t.co/b3thidjcsf', '��'), ('https://t.co/b3thidjcsf', '��', '@'), ('��', '@', 'governador'), ('@', 'governador', 'valadares,'), ('governador', 'valadares,', 'minas'), ('valadares,', 'minas', 'gerais'), ('minas', 'gerais', 'https://t.co/dpkgzvr2qw'), ('gerais', 'https://t.co/dpkgzvr2qw', '���'), ('https://t.co/dpkgzvr2qw', '���', 'https://t.co/bndso34qk0'), ('���', 'https://t.co/bndso34qk0', '���'), ('https://t.co/bndso34qk0', '���', 'psol'), ('���', 'psol', 'v