# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 12 - Processamento de Linguagem Natural</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.7.6


## Introdução ao Processamento de Linguagem Natural

Tudo o que expressamos (verbalmente ou por escrito) carrega enormes quantidades de informação. 

O tópico que escolhemos, nosso tom, nossa seleção de palavras, tudo acrescenta algum tipo de informação que pode ser interpretada e com o valor extraído dela. Em teoria, podemos entender e até prever o comportamento humano usando essas informações.

Mas há um problema: uma pessoa pode gerar centenas ou milhares de palavras em uma declaração, cada sentença com sua complexidade correspondente. Se você deseja dimensionar e analisar várias centenas, milhares ou milhões de pessoas ou declarações em uma determinada região, a situação é incontrolável.

Dados gerados a partir de conversas, declarações ou até tweets são exemplos de dados não estruturados. Os dados não estruturados não se encaixam perfeitamente na estrutura tradicional de linhas e colunas de bancos de dados relacionais e representam a grande maioria dos dados disponíveis no mundo real. É confuso e difícil de manipular. 

No entanto, graças aos avanços em disciplinas como aprendizado de máquina, uma grande revolução está acontecendo em relação a esse tópico. Atualmente, não se trata mais de tentar interpretar um texto ou discurso com base em suas palavras-chave (a maneira mecânica antiquada), mas de entender o significado por trás dessas palavras (a maneira cognitiva). Dessa forma, é possível detectar figuras de linguagem como ironia, ou mesmo realizar análises de sentimentos.

### O Que é Processamento de Linguagem Natural?

O Processamento de Linguagem Natural, geralmente abreviado como PLN, é um ramo da Inteligência Artificial que lida com a interação entre computadores e seres humanos usando a linguagem natural.

O objetivo final em PLN é ler, decifrar, entender e prever as linguagens humanas de uma maneira valiosa. A maioria das técnicas de PLN depende do aprendizado de máquina para derivar significado das linguagens humanas.

### Casos de Uso

Em termos simples, PLN representa o tratamento automático da linguagem humana natural, como fala ou texto, e, embora o conceito em si seja fascinante, o valor real por trás dessa tecnologia vem dos casos de uso.

PLN pode ajudá-lo com muitas tarefas e os campos de aplicação parecem aumentar diariamente. Vamos mencionar alguns exemplos:

- PLN permite o reconhecimento e a previsão de doenças com base em registros eletrônicos de saúde e na fala do próprio paciente. Essa capacidade está sendo explorada em condições de saúde que vão de doenças cardiovasculares a depressão e até esquizofrenia. Por exemplo, o Amazon Comprehend Medical é um serviço que usa PLN para extrair condições de doenças, medicamentos e resultados de tratamento de anotações de pacientes, relatórios de ensaios clínicos e outros registros eletrônicos de saúde.


- As organizações podem determinar o que os clientes estão dizendo sobre um serviço ou produto, identificando e extraindo informações em fontes como mídia social. Essa análise de sentimentos pode fornecer muitas informações sobre as escolhas dos clientes e seus motivadores de decisão.


- Um inventor da IBM desenvolveu um assistente cognitivo que funciona como um mecanismo de pesquisa personalizado, aprendendo tudo sobre você e depois lembrando um nome, uma música ou qualquer coisa que você não consegue lembrar no momento em que precisa.


- Empresas como Yahoo e Google filtram e classificam seus e-mails com PLN, analisando o texto nos e-mails que fluem através de seus servidores e interrompendo o spam antes mesmo de entrarem na sua caixa de entrada.


- Para ajudar a identificar notícias falsas, o Grupo NLP do MIT desenvolveu um novo sistema para determinar se uma fonte é precisa ou politicamente tendenciosa, detectando se uma fonte de notícias pode ser confiável ou não.


- O Alexa da Amazon e o Siri da Apple são exemplos de interfaces inteligentes orientadas por voz que usam PLN para responder às solicitações vocais e fazem de tudo, como encontrar uma loja em particular, informar a previsão do tempo, sugerir o melhor caminho para o escritório ou acender as luzes em casa.


- Ter uma ideia do que está acontecendo e do que as pessoas estão falando pode ser muito valioso para os operadores financeiros. PLN está sendo usada para rastrear notícias, relatórios, comentários sobre possíveis fusões entre empresas; tudo pode ser incorporado a um algoritmo de negociação para gerar lucros maciços. Lembre-se: compre o boato, venda as notícias.


- PLN também está sendo usado nas fases de busca e seleção do recrutamento de talentos, identificando as habilidades de possíveis contratados e também identificando perspectivas antes que elas se tornem ativas no mercado de trabalho.

- Desenvolvido pela tecnologia IBM Watson NLP, o LegalMation desenvolveu uma plataforma para automatizar tarefas rotineiras de litígio e ajudar as equipes jurídicas a economizar tempo, reduzir custos e mudar o foco estratégico.

E os exemplos não param. PLN é um campo ativo e cada vez mais presente em nossas vidas.


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

## Instalação do pacote NLTK
http://www.nltk.org/index.html

http://www.nltk.org/book/

In [3]:
# Instalação do módulo NLTK
!pip install -q nltk

In [4]:
# Imports
import re
import nltk
import spacy
import string
import numpy as np
import pandas as pd

In [5]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

numpy  1.18.2
spacy  2.2.4
re     2.2.1
pandas 1.0.3
nltk   3.5
Data Science Academy


In [6]:
# Instalando os arquivos de dados e dicionários do NLTK
nltk.download('all')

[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /Users/dmpm/nltk_data...
[nltk_data]    |   Package abc is already up-to-date!
[nltk_data]    | Downloading package alpino to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package alpino is already up-to-date!
[nltk_data]    | Downloading package biocreative_ppi to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package biocreative_ppi is already up-to-date!
[nltk_data]    | Downloading package brown to /Users/dmpm/nltk_data...
[nltk_data]    |   Package brown is already up-to-date!
[nltk_data]    | Downloading package brown_tei to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package brown_tei is already up-to-date!
[nltk_data]    | Downloading package cess_cat to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package cess_cat is already up-to-date!
[nltk_data]    | Downloading package cess_esp to
[nltk_data]   

[nltk_data]    |   Package sentence_polarity is already up-to-date!
[nltk_data]    | Downloading package shakespeare to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package shakespeare is already up-to-date!
[nltk_data]    | Downloading package sinica_treebank to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package sinica_treebank is already up-to-date!
[nltk_data]    | Downloading package smultron to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package smultron is already up-to-date!
[nltk_data]    | Downloading package state_union to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package state_union is already up-to-date!
[nltk_data]    | Downloading package stopwords to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package stopwords is already up-to-date!
[nltk_data]    | Downloading package subjectivity to
[nltk_data]    |     /Users/dmpm/nltk_data...
[nltk_data]    |   Package subjecti

True

## Tokenization

Processo de dividir uma string em listas de pedaços ou "tokens". Um token é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

### Dividindo um Parágrafo em Frases

In [7]:
from nltk.tokenize import sent_tokenize

In [8]:
paragrafo = "Seja Bem-vindo a Data Science Academy. Bom saber que você está aprendendo PLN. Obrigado por estar conosco."

In [9]:
?sent_tokenize

In [10]:
# Dividindo o parágrafo em frases
sent_tokenize(paragrafo)

['Seja Bem-vindo a Data Science Academy.',
 'Bom saber que você está aprendendo PLN.',
 'Obrigado por estar conosco.']

In [11]:
# Utilizando dicionário do pacote NLTK
tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

In [12]:
tokenizer.tokenize(paragrafo)

['Seja Bem-vindo a Data Science Academy.',
 'Bom saber que você está aprendendo PLN.',
 'Obrigado por estar conosco.']

In [13]:
# Dicionário em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [14]:
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

['Hola amigo.', 'Estoy bien.']

### Dividindo uma Frase em Palavras

In [15]:
from nltk.tokenize import word_tokenize

In [16]:
word_tokenize('Data Science Academy')

['Data', 'Science', 'Academy']

In [17]:
from nltk.tokenize import TreebankWordTokenizer

In [18]:
tokenizer = TreebankWordTokenizer()

In [19]:
tokenizer.tokenize('Inteligência Artificial')

['Inteligência', 'Artificial']

In [20]:
word_tokenize("can't") # cannot

['ca', "n't"]

In [21]:
from nltk.tokenize import WordPunctTokenizer

In [22]:
tokenizer = WordPunctTokenizer()

In [23]:
tokenizer.tokenize("Can't is a contraction.")

['Can', "'", 't', 'is', 'a', 'contraction', '.']

In [24]:
from nltk.tokenize import RegexpTokenizer

In [25]:
?RegexpTokenizer

In [26]:
tokenizer = RegexpTokenizer("[\w']+")

In [27]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction']

In [28]:
from nltk.tokenize import regexp_tokenize

In [29]:
?regexp_tokenize

In [30]:
regexp_tokenize("Can't is a contraction.", "[\w']+")

["Can't", 'is', 'a', 'contraction']

In [31]:
tokenizer = RegexpTokenizer('\s+', gaps = True)

In [32]:
tokenizer.tokenize("Can't is a contraction.")

["Can't", 'is', 'a', 'contraction.']

In [33]:
# Uma operação única com List Comprehension

# Texto a ser tokenizado
texto = "Seja Bem-vindo a Data Science Academy. Bom saber que você está aprendendo PLN. Obrigado por estar conosco."

# List Comprehension
print([word_tokenize(frase) for frase in sent_tokenize(texto)])

[['Seja', 'Bem-vindo', 'a', 'Data', 'Science', 'Academy', '.'], ['Bom', 'saber', 'que', 'você', 'está', 'aprendendo', 'PLN', '.'], ['Obrigado', 'por', 'estar', 'conosco', '.']]


## Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [34]:
from nltk.corpus import stopwords

In [35]:
english_stops = set(stopwords.words('english'))

In [36]:
english_stops

{'a',
 'about',
 'above',
 'after',
 'again',
 'against',
 'ain',
 'all',
 'am',
 'an',
 'and',
 'any',
 'are',
 'aren',
 "aren't",
 'as',
 'at',
 'be',
 'because',
 'been',
 'before',
 'being',
 'below',
 'between',
 'both',
 'but',
 'by',
 'can',
 'couldn',
 "couldn't",
 'd',
 'did',
 'didn',
 "didn't",
 'do',
 'does',
 'doesn',
 "doesn't",
 'doing',
 'don',
 "don't",
 'down',
 'during',
 'each',
 'few',
 'for',
 'from',
 'further',
 'had',
 'hadn',
 "hadn't",
 'has',
 'hasn',
 "hasn't",
 'have',
 'haven',
 "haven't",
 'having',
 'he',
 'her',
 'here',
 'hers',
 'herself',
 'him',
 'himself',
 'his',
 'how',
 'i',
 'if',
 'in',
 'into',
 'is',
 'isn',
 "isn't",
 'it',
 "it's",
 'its',
 'itself',
 'just',
 'll',
 'm',
 'ma',
 'me',
 'mightn',
 "mightn't",
 'more',
 'most',
 'mustn',
 "mustn't",
 'my',
 'myself',
 'needn',
 "needn't",
 'no',
 'nor',
 'not',
 'now',
 'o',
 'of',
 'off',
 'on',
 'once',
 'only',
 'or',
 'other',
 'our',
 'ours',
 'ourselves',
 'out',
 'over',
 'own',
 'r

In [37]:
palavras = ["Can't", 'is', 'a', 'contraction']

In [38]:
[palavra for palavra in palavras if palavra not in english_stops]

["Can't", 'contraction']

In [39]:
portuguese_stops = set(stopwords.words('portuguese'))

In [40]:
palavras = ["Aquilo", 'é', 'uma', 'ferrari']

In [41]:
[palavra for palavra in palavras if palavra not in portuguese_stops]

['Aquilo', 'ferrari']

In [42]:
stopwords.fileids()

['arabic',
 'azerbaijani',
 'danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'greek',
 'hungarian',
 'indonesian',
 'italian',
 'kazakh',
 'nepali',
 'norwegian',
 'portuguese',
 'romanian',
 'russian',
 'slovene',
 'spanish',
 'swedish',
 'tajik',
 'turkish']

In [43]:
stopwords.words('portuguese')

['de',
 'a',
 'o',
 'que',
 'e',
 'é',
 'do',
 'da',
 'em',
 'um',
 'para',
 'com',
 'não',
 'uma',
 'os',
 'no',
 'se',
 'na',
 'por',
 'mais',
 'as',
 'dos',
 'como',
 'mas',
 'ao',
 'ele',
 'das',
 'à',
 'seu',
 'sua',
 'ou',
 'quando',
 'muito',
 'nos',
 'já',
 'eu',
 'também',
 'só',
 'pelo',
 'pela',
 'até',
 'isso',
 'ela',
 'entre',
 'depois',
 'sem',
 'mesmo',
 'aos',
 'seus',
 'quem',
 'nas',
 'me',
 'esse',
 'eles',
 'você',
 'essa',
 'num',
 'nem',
 'suas',
 'meu',
 'às',
 'minha',
 'numa',
 'pelos',
 'elas',
 'qual',
 'nós',
 'lhe',
 'deles',
 'essas',
 'esses',
 'pelas',
 'este',
 'dele',
 'tu',
 'te',
 'vocês',
 'vos',
 'lhes',
 'meus',
 'minhas',
 'teu',
 'tua',
 'teus',
 'tuas',
 'nosso',
 'nossa',
 'nossos',
 'nossas',
 'dela',
 'delas',
 'esta',
 'estes',
 'estas',
 'aquele',
 'aquela',
 'aqueles',
 'aquelas',
 'isto',
 'aquilo',
 'estou',
 'está',
 'estamos',
 'estão',
 'estive',
 'esteve',
 'estivemos',
 'estiveram',
 'estava',
 'estávamos',
 'estavam',
 'estivera'

### Wordnet

WordNet é um banco de dados léxico (em Inglês). É uma espécie de dicionário criado especificamente para processamento de linguagem natural.

In [44]:
from nltk.corpus import wordnet

In [45]:
?wordnet

In [46]:
syn = wordnet.synsets('cookbook')[0]

In [47]:
syn.name()

'cookbook.n.01'

In [48]:
syn.definition()

'a book of recipes and cooking directions'

In [49]:
wordnet.synsets('cooking')[0].examples()

['cooking can be a great art',
 'people are needed who have experience in cookery',
 'he left the preparation of meals to his wife']

## Stemming e Lemmatization

Por razões gramaticais, os documentos usarão diferentes formas de uma palavra, como por exemplo: 

organizar, organizado e organizando. 

Além disso, existem famílias de palavras derivadamente relacionadas com significados semelhantes, como democracia, democrático e democratização. Em muitas situações, pode ser útil procurar uma dessas palavras para retornar documentos que contenham outra palavra no conjunto.

O objetivo da Derivação (Stemming) e da Lematização (Lemmatization) é reduzir as formas flexionadas e, às vezes, derivadas de uma palavra para uma base comum.

### Stemming

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavra, um mecamismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

In [50]:
from nltk.stem import PorterStemmer

In [51]:
?PorterStemmer

In [52]:
porter_stemmer = PorterStemmer()

In [53]:
porter_stemmer.stem('cooking')

'cook'

In [54]:
porter_stemmer.stem('cookery')

'cookeri'

In [55]:
from nltk.stem import LancasterStemmer

In [56]:
lanc_stemmer = LancasterStemmer()

In [57]:
lanc_stemmer.stem('cooking')

'cook'

In [58]:
lanc_stemmer.stem('cookery')

'cookery'

In [59]:
from nltk.stem import RegexpStemmer

In [60]:
regexp_stemmer = RegexpStemmer('ing')

In [61]:
regexp_stemmer.stem('cooking')

'cook'

In [62]:
lista_palavras = ["cat", "cats", "know", "knowing", "time", "timing", "football", "footballers"]

In [63]:
porter_stemmer = PorterStemmer()

In [64]:
for palavra in lista_palavras:
    print(palavra + ' -> ' + porter_stemmer.stem(palavra))

cat -> cat
cats -> cat
know -> know
knowing -> know
time -> time
timing -> time
football -> footbal
footballers -> footbal


In [65]:
def SentenceStemmer(sentence):
    tokens = word_tokenize(sentence)
    stems = [porter_stemmer.stem(token) for token in tokens]
    return " ".join(stems)

In [66]:
SentenceStemmer('The cats and dogs are running')

'the cat and dog are run'

### Lemmatization

Lemmatization leva em consideração a análise morfológica das palavras. Para fazer isso, é necessário ter dicionários detalhados nos quais o algoritmo possa procurar para vincular o formulário ao seu lema. Veja um exemplo:

- Forma flexionada: organizando
- Lema: organiza

- Forma flexionada: organizado
- Lema: organiza

Com Lemmatization as duas formas flexionadas organizando e organizado seria representadas somente pelo lema organiza.

In [67]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

[nltk_data] Downloading package wordnet to /Users/dmpm/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [68]:
wordnet_lemmatizer = WordNetLemmatizer()

In [69]:
print(wordnet_lemmatizer.lemmatize('mice'))
print(wordnet_lemmatizer.lemmatize('cacti'))  # plural da palavra cactus - cactuses (inglês) ou cacti (latin)
print(wordnet_lemmatizer.lemmatize('horses'))
print(wordnet_lemmatizer.lemmatize('wolves'))

mouse
cactus
horse
wolf


In [70]:
print(wordnet_lemmatizer.lemmatize('madeupwords'))
print(porter_stemmer.stem('madeupwords'))

madeupwords
madeupword


In [71]:
from nltk import pos_tag

Part-of-Speech Tag (PoS-Tag)

http://www.nltk.org/book/ch05.html

In [72]:
def return_word_pos_tuples(sentence):
    return pos_tag(word_tokenize(sentence))

In [73]:
sentence = 'The cats and dogs are running'

In [74]:
return_word_pos_tuples(sentence)

[('The', 'DT'),
 ('cats', 'NNS'),
 ('and', 'CC'),
 ('dogs', 'NNS'),
 ('are', 'VBP'),
 ('running', 'VBG')]

In [75]:
def get_pos_wordnet(pos_tag):
    pos_dict = {"N": wordnet.NOUN,
                "V": wordnet.VERB,
                "J": wordnet.ADJ,
                "R": wordnet.ADV}

    return pos_dict.get(pos_tag[0].upper(), wordnet.NOUN)

In [76]:
get_pos_wordnet('VBG')

'v'

In [77]:
def lemmatize_with_pos(sentence):
    new_sentence = []
    tuples = return_word_pos_tuples(sentence)
    for tup in tuples:
        pos = get_pos_wordnet(tup[1])
        lemma = wordnet_lemmatizer.lemmatize(tup[0], pos = pos)
        new_sentence.append(lemma)
    return new_sentence

In [78]:
print(lemmatize_with_pos(sentence))

['The', 'cat', 'and', 'dog', 'be', 'run']


### Corpus

Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você terá que criar seu próprio Corpus e treiná-lo.

In [79]:
import os
from nltk.corpus.reader.plaintext import PlaintextCorpusReader

In [80]:
corpusdir = 'corpus/' 

In [81]:
newcorpus = PlaintextCorpusReader(corpusdir, '.*')

In [82]:
newcorpus.fileids()

['palavras1.txt', 'palavras2.txt', 'palavras3.txt']

In [83]:
# Acessando cada arquivo no Corpus com loop for
for infile in sorted(newcorpus.fileids()):
    print(infile) 

palavras1.txt
palavras2.txt
palavras3.txt


In [84]:
# Acessando cada arquivo no Corpus com list comprehension
[arquivo for arquivo in sorted(newcorpus.fileids())]

['palavras1.txt', 'palavras2.txt', 'palavras3.txt']

In [85]:
# Conteúdo do Corpus
print(newcorpus.raw().strip())

Big Data
Data Science
Inteligência Artificial
Deep LearningMercado de Trabalho
Cientista de Dados
Engenheiro de Machine Learning
Engenheiro de IAEmpresas
Recursos Humanos
Pessoas
Contratação


In [86]:
# Conteúdo do Corpus tokenizado por parágrafo (nova linha)
print(newcorpus.paras())

[[['Big', 'Data', 'Data', 'Science', 'Inteligência', 'Artificial', 'Deep', 'Learning']], [['Mercado', 'de', 'Trabalho', 'Cientista', 'de', 'Dados', 'Engenheiro', 'de', 'Machine', 'Learning', 'Engenheiro', 'de', 'IA']], ...]


In [87]:
# Conteúdo do Corpus tokenizado por sentença (nova linha)
print(newcorpus.sents())

[['Big', 'Data', 'Data', 'Science', 'Inteligência', 'Artificial', 'Deep', 'Learning'], ['Mercado', 'de', 'Trabalho', 'Cientista', 'de', 'Dados', 'Engenheiro', 'de', 'Machine', 'Learning', 'Engenheiro', 'de', 'IA'], ...]


In [88]:
# Conteúdo do Corpus tokenizado por sentença por arquivo
print(newcorpus.sents(newcorpus.fileids()[0]))

[['Big', 'Data', 'Data', 'Science', 'Inteligência', 'Artificial', 'Deep', 'Learning']]


O NLTK traz diversos Corpus e Corpora que podem ser usados para os mais variados fins. Vamos expermentar o Corpus do Projeto Gutenberg: https://www.gutenberg.org/

In [89]:
from nltk.corpus import gutenberg as gt

In [90]:
print(gt.fileids())

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']


In [91]:
shakespeare_macbeth = gt.words("shakespeare-macbeth.txt")
print(shakespeare_macbeth)

['[', 'The', 'Tragedie', 'of', 'Macbeth', 'by', ...]


In [92]:
raw = gt.raw("shakespeare-macbeth.txt")
print(raw)

[The Tragedie of Macbeth by William Shakespeare 1603]


Actus Primus. Scoena Prima.

Thunder and Lightning. Enter three Witches.

  1. When shall we three meet againe?
In Thunder, Lightning, or in Raine?
  2. When the Hurley-burley's done,
When the Battaile's lost, and wonne

   3. That will be ere the set of Sunne

   1. Where the place?
  2. Vpon the Heath

   3. There to meet with Macbeth

   1. I come, Gray-Malkin

   All. Padock calls anon: faire is foule, and foule is faire,
Houer through the fogge and filthie ayre.

Exeunt.


Scena Secunda.

Alarum within. Enter King Malcome, Donalbaine, Lenox, with
attendants,
meeting a bleeding Captaine.

  King. What bloody man is that? he can report,
As seemeth by his plight, of the Reuolt
The newest state

   Mal. This is the Serieant,
Who like a good and hardie Souldier fought
'Gainst my Captiuitie: Haile braue friend;
Say to the King, the knowledge of the Broyle,
As thou didst leaue it

   Cap. Doubtfull it stood,
As two spent Swimmers, t

In [93]:
sents = gt.sents("shakespeare-macbeth.txt")
print(sents)

[['[', 'The', 'Tragedie', 'of', 'Macbeth', 'by', 'William', 'Shakespeare', '1603', ']'], ['Actus', 'Primus', '.'], ...]


In [94]:
for fileid in gt.fileids():
    num_words = len(gt.words(fileid))
    num_sents = len(gt.sents(fileid))
    print("Dados do Arquivo:", fileid)
    print("Número de Palavras:", num_words)
    print("Número de Frases:", num_sents, end = "\n\n\n")

Dados do Arquivo: austen-emma.txt
Número de Palavras: 192427
Número de Frases: 7752


Dados do Arquivo: austen-persuasion.txt
Número de Palavras: 98171
Número de Frases: 3747


Dados do Arquivo: austen-sense.txt
Número de Palavras: 141576
Número de Frases: 4999


Dados do Arquivo: bible-kjv.txt
Número de Palavras: 1010654
Número de Frases: 30103


Dados do Arquivo: blake-poems.txt
Número de Palavras: 8354
Número de Frases: 438


Dados do Arquivo: bryant-stories.txt
Número de Palavras: 55563
Número de Frases: 2863


Dados do Arquivo: burgess-busterbrown.txt
Número de Palavras: 18963
Número de Frases: 1054


Dados do Arquivo: carroll-alice.txt
Número de Palavras: 34110
Número de Frases: 1703


Dados do Arquivo: chesterton-ball.txt
Número de Palavras: 96996
Número de Frases: 4779


Dados do Arquivo: chesterton-brown.txt
Número de Palavras: 86063
Número de Frases: 3806


Dados do Arquivo: chesterton-thursday.txt
Número de Palavras: 69213
Número de Frases: 3742


Dados do Arquivo: edgeworth

## Lab - Collocations e Processamento de Comentários de Avaliações de Hotéis

Collocations são duas ou mais palavras que tendem a aparecer frequentemente juntas, como "Estados Unidos", "Rio Grande do Sul" ou "Machine Learning". Essas palavras podem gerar diversas combinações e por isso o contexto também é importante no processamento de linguagem natural.

Os dois tipos mais comuns de Collocations são bigramas e trigramas. Bigramas são duas palavras adjacentes, como "tomografia computadorizada", "aprendizado de máquina" ou "mídia social". Trigramas são três palavras adjacentes, como "fora do negócio" ou "Proctor and Gamble".

- Bigramas: (Nome, Nome), (Adjetivo, Nome)
- Trigramas: (Adjetivo/Nome, Qualquer_Item, Adjetivo/Nome)

Mas se escolhermos palavras adjacentes como bigrama ou trigramas, não obteremos frases significativas. Por exemplo, a frase 'Ele usa mídias sociais' contém bigramas: 'Ele usa', 'usa mídias', 'mídias sociais'. "Ele usa" e "usa mídias" não significa nada, enquanto "mídias sociais" é um bigrama significativo. 

Como fazemos boas seleções para Collocations? As co-ocorrências podem não ser suficientes, pois frases como 'assim como' podem co-ocorrer com frequência, mas não são significativas. Vamos explorar vários métodos para filtrar as Collocations mais significativas: contagem de frequências, informação mútua pontual (PMI) e teste de hipóteses (teste t e qui-quadrado).

### Definição do Problema

Dado um conjunto de texto de avaliações (comentários) de hotéis, vamos buscar as Collocations mais relevantes que ajudam a explicar as avaliações!

In [95]:
# Se necessário, instale pacotes que não estejam instalados
!pip install -q spacy

In [96]:
# Imports
import pandas as pd
import nltk
import spacy
import re
import string
from nltk.corpus import stopwords

In [97]:
# Se necessário, faça o download das stopwords
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/dmpm/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [98]:
# Carregando dados de avaliações de hotéis
# Fonte de dados: https://datafiniti.co/products/business-data/
avaliacoes_hoteis = pd.read_csv('https://raw.githubusercontent.com/dsacademybr/Datasets/master/dataset7.csv')

In [99]:
# Visualiza os dados
avaliacoes_hoteis.head(5)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.dateSeen,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-08-03T00:00:00Z,2016-07-26T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-08-02T00:00:00Z,2016-08-26T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-11-15T00:00:00Z,2016-08-23T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
3,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,"2016-05-21T00:00:00Z,2016-07-31T00:00:00Z",2.0,https://www.tripadvisor.com/Hotel_Review-g4118...,Currently in bed writing this for the past hr ...,"Never again...beware, if you want sleep.",Richmond,VA,jaeem2016,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...
4,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,2016-07-31T00:00:00Z,5.0,https://www.tripadvisor.com/Hotel_Review-g4118...,I live in Md and the Aloft is my Home away fro...,ALWAYS GREAT STAY...,Laurel,MD,MamaNiaOne,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...


In [100]:
# Tipo do objeto
type(avaliacoes_hoteis)

pandas.core.frame.DataFrame

In [101]:
# Shape
avaliacoes_hoteis.shape

(10000, 25)

In [102]:
# Extraindo as avaliações
comentarios = avaliacoes_hoteis['reviews.text']

In [103]:
# Converte para o tipo string
comentarios = comentarios.astype('str')

In [104]:
# Função para remover caracteres non-ascii 
def removeNoAscii(s): 
    return "".join(i for i in s if ord(i) < 128)

In [105]:
# Remove caracteres non-ascii 
comentarios = comentarios.map(lambda x: removeNoAscii(x))

In [106]:
# Obtém as stopwords em todos os idiomas
dicionario_stopwords = {lang: set(nltk.corpus.stopwords.words(lang)) for lang in nltk.corpus.stopwords.fileids()}
dicionario_stopwords

{'arabic': {'آه',
  'آها',
  'آي',
  'أف',
  'أقل',
  'أكثر',
  'ألا',
  'أم',
  'أما',
  'أن',
  'أنا',
  'أنت',
  'أنتم',
  'أنتما',
  'أنتن',
  'أنى',
  'أو',
  'أولئك',
  'أولاء',
  'أوه',
  'أي',
  'أين',
  'أينما',
  'أيها',
  'إذ',
  'إذا',
  'إذما',
  'إذن',
  'إلا',
  'إلى',
  'إليك',
  'إليكم',
  'إليكما',
  'إليكن',
  'إما',
  'إن',
  'إنا',
  'إنما',
  'إنه',
  'إي',
  'إيه',
  'التي',
  'الذي',
  'الذين',
  'اللائي',
  'اللاتي',
  'اللتان',
  'اللتيا',
  'اللتين',
  'اللذان',
  'اللذين',
  'اللواتي',
  'بخ',
  'بس',
  'بعد',
  'بعض',
  'بك',
  'بكم',
  'بكما',
  'بكن',
  'بل',
  'بلى',
  'بما',
  'بماذا',
  'بمن',
  'بنا',
  'به',
  'بها',
  'بهم',
  'بهما',
  'بهن',
  'بي',
  'بيد',
  'بين',
  'تلك',
  'تلكم',
  'تلكما',
  'ته',
  'تي',
  'تين',
  'تينك',
  'ثم',
  'ثمة',
  'حاشا',
  'حبذا',
  'حتى',
  'حيث',
  'حيثما',
  'حين',
  'خلا',
  'دون',
  'ذا',
  'ذات',
  'ذاك',
  'ذان',
  'ذانك',
  'ذلك',
  'ذلكم',
  'ذلكما',
  'ذلكن',
  'ذه',
  'ذو',
  'ذوا',
  'ذواتا',
  'ذوا

In [107]:
# Função para detectar o idioma predominante com base nas stopwords
def descobre_idioma(text):
    
    # Aplica tokenização considerando pontuação
    palavras = set(nltk.wordpunct_tokenize(text.lower()))
    
    # Conta o total de palavras tokenizadas considerando o dicionário de stopwords
    lang = max(((lang, len(palavras & stopwords)) for lang, stopwords in dicionario_stopwords.items()), key = lambda x: x[1])[0]
    
    # Verifica se o idioma é português
    if lang == 'portuguese':
        return True
    else:
        return False

In [108]:
# Filtra somente os comentários em português
comentarios_portugues = comentarios[comentarios.apply(descobre_idioma)]

In [109]:
# Shape
comentarios_portugues.shape

(4,)

In [110]:
# Print
comentarios_portugues

5531    Hotel confortavel, porem com algumas instalaco...
5658    Adorei! Recomendo a todos! Apesar de nao ficar...
5693    O hotel e meio longe do centro de Washington, ...
5765    Perto de uma estacao de metro. Transporte grat...
Name: reviews.text, dtype: object

In [111]:
# Função para detectar o idioma predominante com base nas stopwords
def descobre_idioma(text):
    words = set(nltk.wordpunct_tokenize(text.lower()))
    lang = max(((lang, len(words & stopwords)) for lang, stopwords in dicionario_stopwords.items()), key = lambda x: x[1])[0]
    if lang == 'english':
        return True
    else:
        return False

In [112]:
# Filtra somente os comentários em português
comentarios_ingles = comentarios[comentarios.apply(descobre_idioma)]

In [113]:
# Shape
comentarios_ingles.shape

(9725,)

In [114]:
# Print
comentarios_ingles.head()

0    Our experience at Rancho Valencia was absolute...
1    Amazing place. Everyone was extremely warm and...
2    We booked a 3 night stay at Rancho Valencia to...
3    Currently in bed writing this for the past hr ...
4    I live in Md and the Aloft is my Home away fro...
Name: reviews.text, dtype: object

In [115]:
# Removendo duplicidades
comentarios_ingles.drop_duplicates(inplace = True)

In [116]:
# Shape
comentarios_ingles.shape

(9718,)

In [117]:
# Baixando o dicionário inglês
# https://spacy.io/usage/models
!python -m spacy download en_core_web_sm

[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('en_core_web_sm')


> Pode ser necessário reiniciar o Jupyter Notebook para executar a célula abaixo.

In [118]:
# Carrega o dcionário em nossa sessão SpaCy
nlp = spacy.load("en_core_web_sm")

In [119]:
# Função para limpar e lematizar os comentários
def limpa_comentarios(text):
    
    # Remove pontuação usando expressão regular
    regex = re.compile('[' + re.escape(string.punctuation) + '\\r\\t\\n]')
    nopunct = regex.sub(" ", str(text))
    
    # Usa o SpaCy para lematização
    doc = nlp(nopunct, disable = ['parser', 'ner'])
    lemma = [token.lemma_ for token in doc]
    return lemma

In [120]:
# Aplica a função aos dados
comentarios_ingles_lemmatized = comentarios_ingles.map(limpa_comentarios)

In [121]:
# Coloca tudo em minúsculo
comentarios_ingles_lemmatized = comentarios_ingles_lemmatized.map(lambda x: [word.lower() for word in x])

In [122]:
# Visualiza os dados
comentarios_ingles_lemmatized.head()

0    [-pron-, experience, at, rancho, valencia, be,...
1    [amazing, place,  , everyone, be, extremely, w...
2    [-pron-, book, a, 3, night, stay, at, rancho, ...
3    [currently, in, bed, write, this, for, the, pa...
4    [-pron-, live, in, md, and, the, aloft, be, -p...
Name: reviews.text, dtype: object

In [123]:
# Vamos tokenizar os comentários
comentarios_tokens = [item for items in comentarios_ingles_lemmatized for item in items]

In [124]:
# Tokens
comentarios_tokens

['-pron-',
 'experience',
 'at',
 'rancho',
 'valencia',
 'be',
 'absolutely',
 'perfect',
 'from',
 'begin',
 'to',
 'end',
 '    ',
 '-pron-',
 'feel',
 'special',
 'and',
 'very',
 'happy',
 'during',
 '-pron-',
 'stay',
 ' ',
 '-pron-',
 'would',
 'come',
 'back',
 'in',
 'a',
 'heart',
 'beat',
 '  ',
 'amazing',
 'place',
 ' ',
 'everyone',
 'be',
 'extremely',
 'warm',
 'and',
 'welcoming',
 ' ',
 '-pron-',
 've',
 'stay',
 'at',
 'some',
 'top',
 'notch',
 'place',
 'and',
 'this',
 'be',
 'definitely',
 'in',
 '-pron-',
 'top',
 '2',
 ' ',
 'great',
 'for',
 'a',
 'romantic',
 'getaway',
 'or',
 'take',
 'the',
 'kid',
 'along',
 'as',
 '-pron-',
 'do',
 ' ',
 'have',
 'a',
 'couple',
 'stuff',
 'animal',
 'wait',
 'for',
 '-pron-',
 'girl',
 'upon',
 'arrival',
 ' ',
 'can',
 't',
 'wait',
 'to',
 'go',
 'back',
 '-pron-',
 'book',
 'a',
 '3',
 'night',
 'stay',
 'at',
 'rancho',
 'valencia',
 'to',
 'play',
 'some',
 'tennis',
 ' ',
 'since',
 '-pron-',
 'be',
 'one',
 'of',

### Estratégia 1 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Frequência

Nossa primeira estratégia é a mais simples de todas: contagem de frequência. Contamos quantas vezes cada Collocation aparece no texto e filtramos pelos Collocations mais frequentes.

Vamos filtrar apenas os adjetivos e substantivos para reduzir o tempo de processamento e vamos contar a frequência dos Collocations, bigramas e trigramas, nos comentários.

In [125]:
# Métricas de associação de bigramas (esse objeto possui diversos atributos, como freq, pmi, teste t, etc...)
bigramas = nltk.collocations.BigramAssocMeasures()

In [126]:
# Métricas de associação de trigramas
trigramas = nltk.collocations.TrigramAssocMeasures()

In [127]:
# O próximo passo é criar um buscador de bigramas nos tokens
buscaBigramas = nltk.collocations.BigramCollocationFinder.from_words(comentarios_tokens)

In [128]:
# Fazemos o mesmo com trigramas. Fique atento aos métodos que estão sendo usados
buscaTrigramas = nltk.collocations.TrigramCollocationFinder.from_words(comentarios_tokens)

In [129]:
# Vamos contar quantas vezes cada bigrama aparece nos tokens dos comentários
bigrama_freq = buscaBigramas.ngram_fd.items()

In [130]:
# Frequência dos bigramas
bigrama_freq



In [131]:
# Vamos converter o dicionário anterior em uma tabela de frequência no formato do Pandas para os bigramas
FreqTabBigramas = pd.DataFrame(list(bigrama_freq), 
                               columns = ['Bigrama', 'Freq']).sort_values(by = 'Freq', ascending = False)

In [132]:
# Visualiza a tabela
FreqTabBigramas.head(5)

Unnamed: 0,Bigrama,Freq
22,"( , -pron-)",11873
128,"( , the)",8731
102,"(-pron-, be)",6828
279,"(-pron-, have)",3238
288,"(the, room)",3157


In [133]:
# Vamos contar quantas vezes cada trigrama aparece nos tokens dos comentários
trigrama_freq = buscaTrigramas.ngram_fd.items()

In [134]:
# Tabela de frequência no formato do Pandas para os trigramas
FreqTabTrigramas = pd.DataFrame(list(trigrama_freq), 
                                columns = ['Trigrama','Freq']).sort_values(by = 'Freq', ascending = False)

In [135]:
# Visualiza a tabela
FreqTabTrigramas.head(5)

Unnamed: 0,Trigrama,Freq
626,"( , -pron-, be)",2570
310,"(the, room, be)",1640
309,"( , the, room)",1381
138,"(the, staff, be)",1088
298,"( , -pron-, have)",1062


Temos muitas stopwords. Vamos removê-las.

In [136]:
# Vamos criar uma lista de stopwords
en_stopwords = set(stopwords.words('english'))

In [137]:
# Função para filtrar bigramas ADJ/NN e remover stopwords
def filtra_tipo_token_bigrama(ngram):
    
    # Verifica se é pronome
    if '-pron-' in ngram or 't' in ngram:
        return False
    
    # Loop nos ngramas para verificar se é stopword
    for word in ngram:
        if word in en_stopwords or word.isspace():
            return False
        
    # Tipos de tokens aceitáveis
    acceptable_types = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Subtipos
    second_type = ('NN', 'NNS', 'NNP', 'NNPS')
    
    # Tags
    tags = nltk.pos_tag(ngram)
    
    # Retorna o que queremos, ADJ/NN
    if tags[0][1] in acceptable_types and tags[1][1] in second_type:
        return True
    else:
        return False

In [138]:
# Agora filtramos os bigramas
bigramas_filtrados = FreqTabBigramas[FreqTabBigramas.Bigrama.map(lambda x: filtra_tipo_token_bigrama(x))]

In [139]:
# Visualiza a tabela
bigramas_filtrados.head(5)

Unnamed: 0,Bigrama,Freq
193,"(front, desk)",943
546,"(friendly, staff)",344
372,"(great, location)",334
1554,"(walk, distance)",325
1126,"(clean, room)",240


In [140]:
# Função para filtrar trigramas ADJ/NN e remover stopwords
def filtra_tipo_token_trigrama(ngram):
    
    # Verifica se é pronome
    if '-pron-' in ngram or 't' in ngram:
        return False
    
    # Loop nos ngramas para verificar se é stopword
    for word in ngram:
        if word in en_stopwords or word.isspace():
            return False
        
    # Tipos de tokens aceitáveis
    first_type = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Subtipos
    second_type = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Tags
    tags = nltk.pos_tag(ngram)
    
    # Retorna o que queremos, ADJ/NN
    if tags[0][1] in first_type and tags[2][1] in second_type:
        return True
    else:
        return False

In [141]:
# Agora filtramos os trigramas
trigramas_filtrados = FreqTabTrigramas[FreqTabTrigramas.Trigrama.map(lambda x: filtra_tipo_token_trigrama(x))]

In [142]:
# Visualiza a tabela
trigramas_filtrados.head(5)

Unnamed: 0,Trigrama,Freq
759,"(front, desk, staff)",162
8444,"(non, smoking, room)",40
50184,"(front, desk, clerk)",38
26907,"(regis, new, york)",37
119585,"(holiday, inn, express)",32


Já temos os bigramas e trigramas mais relevantes por frequência. Vamos usar os outros métodos e depois comparar todos eles.

### Estratégia 2 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por PMI

PMI significa Pointwise Mutual Information

PMI é um score que mede a probabilidade com que as palavras co-ocorrem mais do que se fossem independentes. No entanto, é muito sensível à combinação rara de palavras. Por exemplo, se um bigrama aleatório 'abc xyz' aparecer e nem 'abc' nem 'xyz' aparecerem em nenhum outro lugar do texto, 'abc xyz' será identificado como bigrama altamente significativo quando poderia ser apenas um erro ortográfico aleatório ou um frase muito rara para generalizar como um bigrama. Portanto, esse método é frequentemente usado com um filtro de frequência.

In [143]:
# Vamos retornar somente bigramas com 20 ou mais ocorrências
buscaBigramas.apply_freq_filter(20)

In [144]:
# Criamos a tabela
PMITabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.pmi)), 
                              columns = ['Bigrama', 'PMI']).sort_values(by = 'PMI', ascending = False)

In [145]:
# Visualiza a tabela
PMITabBigramas.head(5)

Unnamed: 0,Bigrama,PMI
0,"(sarah, junge)",14.480087
1,"(santa, monica)",14.431178
2,"(octavia, margineanhotel)",14.383872
3,"(dixie, krauss)",14.293674
4,"(honua, kai)",14.293674


In [146]:
# Vamos retornar somente trigramas com 20 ou mais ocorrências
buscaTrigramas.apply_freq_filter(20)

In [147]:
# Criamos a tabela
PMITabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.pmi)), 
                               columns = ['Trigrama', 'PMI']).sort_values(by = 'PMI', ascending = False)

In [148]:
# Visualiza a tabela
PMITabTrigramas.head(5)

Unnamed: 0,Trigrama,PMI
0,"(octavia, margineanhotel, manager)",25.163519
1,"(maingate, near, angel)",24.663628
2,"(suites, anaheim, maingate)",24.660721
3,"(towneplace, suites, anaheim)",24.490796
4,"(near, angel, stadium)",23.728169


### Estratégia 3 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Teste t

O Teste t é um teste estatístico que assume uma distribuição normal dos dados. Na prática, é um teste de hipóteses, uma das bases da Inferência Estatistica.

- H0 é a hipótese nula, que palavras ocorrem em conjunto (bigramas ou trigramas) com determinada probabilidade.
- H1 é a hipótese alternativa, que palavras não ocorrem em conjunto (bigramas ou trigramas) com determinada probabilidade.

Ao aplicar o Teste t rejeitamos ou não a H0 através do cálculo de um score e assim representamos os Collocations mais relevantes no texto.

In [149]:
# Criamos a tabela para os bigramas
# Observe como o resultado do teste t é obtido: buscaBigramas.score_ngrams(bigramas.student_t)
TestetTabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.student_t)), 
                             columns = ['Bigrama', 'Teste-t']).sort_values(by = 'Teste-t', ascending = False)

In [150]:
# Vamos aplicar o filtro pelo tipo de token conforme aplicamos no método 1
bigramas_t_filtrados = TestetTabBigramas[TestetTabBigramas.Bigrama.map(lambda x: filtra_tipo_token_bigrama(x))]

In [151]:
# Visualiza a tabela
bigramas_t_filtrados.head(5)

Unnamed: 0,Bigrama,Teste-t
25,"(front, desk)",30.635666
91,"(walk, distance)",17.993013
97,"(friendly, staff)",17.850037
100,"(great, location)",17.699336
175,"(free, breakfast)",13.799882


In [152]:
# Criamos a tabela para os trigramas
TestetTabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.student_t)), 
                                  columns = ['Trigrama', 'Teste-t']).sort_values(by = 'Teste-t', ascending = False)

In [153]:
# Vamos aplicar o filtro pelo tipo de token conforme aplicamos no método 1
trigramas_t_filtrados = TestetTabTrigramas[TestetTabTrigramas.Trigrama.map(lambda x: filtra_tipo_token_trigrama(x))]

In [154]:
# Visualiza a tabela
trigramas_t_filtrados.head(5)

Unnamed: 0,Trigrama,Teste-t
134,"(front, desk, staff)",12.726861
878,"(non, smoking, room)",6.3245
948,"(front, desk, clerk)",6.164333
976,"(regis, new, york)",6.082761
1228,"(holiday, inn, express)",5.656853


### Estratégia 4 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Teste do Qui-quadrado

O teste do qui-quadrado é uma alternativa ao teste t. O teste do qui-quadrado assume na hipótese nula que as palavras são independentes, assim como no teste t.

In [155]:
# Prepara a tabela
# Observe como estamos coletando a estatística qui-quadrado: buscaBigramas.score_ngrams(bigramas.chi_sq)
QuiTabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.chi_sq)), 
                              columns = ['Bigrama', 'Qui']).sort_values(by = 'Qui', ascending = False)

In [156]:
# Visualiza a tabela
QuiTabBigramas.head(5)

Unnamed: 0,Bigrama,Qui
0,"(honua, kai)",622565.484761
1,"(dixie, krauss)",602481.818058
2,"(wi, fi)",581387.084749
3,"(octavia, margineanhotel)",513078.193352
4,"(sarah, junge)",479904.310161


In [157]:
# Prepara a tabela
QuiTabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.chi_sq)), 
                               columns = ['Trigrama', 'Qui']).sort_values(by = 'Qui', ascending = False)

In [158]:
# Visualiza a tabela
QuiTabTrigramas.head(5)

Unnamed: 0,Trigrama,Qui
0,"(octavia, margineanhotel, manager)",901956100.0
1,"(suites, anaheim, maingate)",795679500.0
2,"(towneplace, suites, anaheim)",754422700.0
3,"(maingate, near, angel)",717555800.0
4,"(near, angel, stadium)",333508100.0


### Comparação e Resultado Final

In [159]:
# Vamos extrair os 10 Collocations bigramas mais relevantes de acordo com cada um dos 4 métodos usados
# Lembre-se que aplicamos filtros para remover as stopwords e devemos usar a tabela filtrada
metodo1_bigrama = bigramas_filtrados[:10].Bigrama.values
metodo2_bigrama = PMITabBigramas[:10].Bigrama.values
metodo3_bigrama = bigramas_t_filtrados[:10].Bigrama.values
metodo4_bigrama = QuiTabBigramas[:10].Bigrama.values

In [160]:
# Vamos extrair os 10 Collocations trigramas mais relevantes de acordo com cada um dos 4 métodos usados
# Lembre-se que aplicamos filtros para remover as stopwords e devemos usar a tabela filtrada
metodo1_trigrama = trigramas_filtrados[:10].Trigrama.values
metodo2_trigrama = PMITabTrigramas[:10].Trigrama.values
metodo3_trigrama = trigramas_t_filtrados[:10].Trigrama.values
metodo4_trigrama = QuiTabTrigramas[:10].Trigrama.values

In [161]:
# Vamos criar um super dataframe com todos os resultados para bigramas
comparaBigramas = pd.DataFrame([metodo1_bigrama, metodo2_bigrama, metodo3_bigrama, metodo4_bigrama]).T

In [162]:
# Nossa tabela precisa de nomes para as colunas
comparaBigramas.columns = ['Frequência', 
                           'PMI', 
                           'Teste-t', 
                           'Teste Qui-quadrado']

In [163]:
# Visualiza a tabela - Padrão CSS
comparaBigramas.style.set_properties(**{'background-color': 'green', 
                                        'color': 'white', 
                                        'border-color': 'white'})

Unnamed: 0,Frequência,PMI,Teste-t,Teste Qui-quadrado
0,"('front', 'desk')","('sarah', 'junge')","('front', 'desk')","('honua', 'kai')"
1,"('friendly', 'staff')","('santa', 'monica')","('walk', 'distance')","('dixie', 'krauss')"
2,"('great', 'location')","('octavia', 'margineanhotel')","('friendly', 'staff')","('wi', 'fi')"
3,"('walk', 'distance')","('dixie', 'krauss')","('great', 'location')","('octavia', 'margineanhotel')"
4,"('clean', 'room')","('honua', 'kai')","('free', 'breakfast')","('sarah', 'junge')"
5,"('free', 'breakfast')","('san', 'francisco')","('customer', 'service')","('santa', 'monica')"
6,"('customer', 'service')","('wi', 'fi')","('continental', 'breakfast')","('front', 'desk')"
7,"('desk', 'staff')","('angel', 'stadium')","('desk', 'staff')","(' ', 'more')"
8,"('hotel', 'staff')","('anaheim', 'maingate')","('comfortable', 'bed')","('french', 'quarter')"
9,"('continental', 'breakfast')","('fire', 'pit')","('next', 'door')","('las', 'vegas')"


In [164]:
# Vamos criar um super dataframe com todos os resultados para trigramas
comparaTrigramas = pd.DataFrame([metodo1_trigrama, metodo2_trigrama, metodo3_trigrama, metodo4_trigrama]).T

In [165]:
# Nossa tabela precisa de nomes para as colunas
comparaTrigramas.columns = ['Frequência', 
                            'PMI', 
                            'Teste-t', 
                            'Teste Qui-quadrado']

In [166]:
# Visualiza a tabela
comparaTrigramas.style.set_properties(**{'background-color': 'blue', 
                                         'color': 'white', 
                                         'border-color': 'white'})

Unnamed: 0,Frequência,PMI,Teste-t,Teste Qui-quadrado
0,"('front', 'desk', 'staff')","('octavia', 'margineanhotel', 'manager')","('front', 'desk', 'staff')","('octavia', 'margineanhotel', 'manager')"
1,"('non', 'smoking', 'room')","('maingate', 'near', 'angel')","('non', 'smoking', 'room')","('suites', 'anaheim', 'maingate')"
2,"('front', 'desk', 'clerk')","('suites', 'anaheim', 'maingate')","('front', 'desk', 'clerk')","('towneplace', 'suites', 'anaheim')"
3,"('regis', 'new', 'york')","('towneplace', 'suites', 'anaheim')","('regis', 'new', 'york')","('maingate', 'near', 'angel')"
4,"('holiday', 'inn', 'express')","('near', 'angel', 'stadium')","('holiday', 'inn', 'express')","('near', 'angel', 'stadium')"
5,"('suites', 'anaheim', 'maingate')","('anaheim', 'maingate', 'near')","('suites', 'anaheim', 'maingate')","('anaheim', 'maingate', 'near')"
6,"('hilton', 'garden', 'inn')","('flat', 'screen', 'tv')","('flat', 'screen', 'tv')","('flat', 'screen', 'tv')"
7,"('flat', 'screen', 'tv')","('holiday', 'inn', 'express')","('hilton', 'garden', 'inn')","('holiday', 'inn', 'express')"
8,"('maingate', 'near', 'angel')","('regis', 'new', 'york')","('maingate', 'near', 'angel')","('regis', 'new', 'york')"
9,"('octavia', 'margineanhotel', 'manager')","('hilton', 'garden', 'inn')","('octavia', 'margineanhotel', 'manager')","('within', 'walk', 'distance')"


### Conclusão

Podemos ver que os métodos PMI e Qui-quadrado fornecem bons resultados. Seus resultados também são semelhantes. 

Mas os métodos de Frequência e Teste-t apresentam os melhores resutados e são também muito semelhantes entre si. 

Em aplicativos reais, podemos observar a lista e definir um limite em um valor a partir de quando a lista para de fazer sentido. Também podemos fazer testes diferentes para ver qual lista parece fazer mais sentido para um determinado conjunto de dados. 

Como alternativa, podemos combinar resultados de várias listas. Uma boa escolha é multiplicar o PMI e a Frequência para levar em consideração o aumento da probabilidade e a frequência da ocorrência. Ou multiplicar a frequência pelo Teste-t criando assim um índice único de relevância das Collocations.

Para este trabalho, vamos considerar as Collocations calculadas por Frequência como as mais relevantes. A escolha se deve ao fato de que as suposições para o Teste-t não foram validadas e usar seu resultado seria inadequado. Salvamos a coluna de frequência do dataframe final em formato csv ou txt e encaminhamos à área de Marketing da rede de hotéis.

Você pode continuar o trabalho e alterar os métodos acima, se desejar.

# Fim