# <font color='blue'>Data Science Academy - Machine Learning</font>

# <font color='blue'>Capítulo 12 - Processamento de Linguagem Natural</font>

In [None]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

## Introdução ao Processamento de Linguagem Natural

Tudo o que expressamos (verbalmente ou por escrito) carrega enormes quantidades de informação. 

O tópico que escolhemos, nosso tom, nossa seleção de palavras, tudo acrescenta algum tipo de informação que pode ser interpretada e com o valor extraído dela. Em teoria, podemos entender e até prever o comportamento humano usando essas informações.

Mas há um problema: uma pessoa pode gerar centenas ou milhares de palavras em uma declaração, cada sentença com sua complexidade correspondente. Se você deseja dimensionar e analisar várias centenas, milhares ou milhões de pessoas ou declarações em uma determinada região, a situação é incontrolável.

Dados gerados a partir de conversas, declarações ou até tweets são exemplos de dados não estruturados. Os dados não estruturados não se encaixam perfeitamente na estrutura tradicional de linhas e colunas de bancos de dados relacionais e representam a grande maioria dos dados disponíveis no mundo real. É confuso e difícil de manipular. 

No entanto, graças aos avanços em disciplinas como aprendizado de máquina, uma grande revolução está acontecendo em relação a esse tópico. Atualmente, não se trata mais de tentar interpretar um texto ou discurso com base em suas palavras-chave (a maneira mecânica antiquada), mas de entender o significado por trás dessas palavras (a maneira cognitiva). Dessa forma, é possível detectar figuras de linguagem como ironia, ou mesmo realizar análises de sentimentos.

### O Que é Processamento de Linguagem Natural?

O Processamento de Linguagem Natural, geralmente abreviado como PLN, é um ramo da Inteligência Artificial que lida com a interação entre computadores e seres humanos usando a linguagem natural.

O objetivo final em PLN é ler, decifrar, entender e prever as linguagens humanas de uma maneira valiosa. A maioria das técnicas de PLN depende do aprendizado de máquina para derivar significado das linguagens humanas.

### Casos de Uso

Em termos simples, PLN representa o tratamento automático da linguagem humana natural, como fala ou texto, e, embora o conceito em si seja fascinante, o valor real por trás dessa tecnologia vem dos casos de uso.

PLN pode ajudá-lo com muitas tarefas e os campos de aplicação parecem aumentar diariamente. Vamos mencionar alguns exemplos:

- PLN permite o reconhecimento e a previsão de doenças com base em registros eletrônicos de saúde e na fala do próprio paciente. Essa capacidade está sendo explorada em condições de saúde que vão de doenças cardiovasculares a depressão e até esquizofrenia. Por exemplo, o Amazon Comprehend Medical é um serviço que usa PLN para extrair condições de doenças, medicamentos e resultados de tratamento de anotações de pacientes, relatórios de ensaios clínicos e outros registros eletrônicos de saúde.


- As organizações podem determinar o que os clientes estão dizendo sobre um serviço ou produto, identificando e extraindo informações em fontes como mídia social. Essa análise de sentimentos pode fornecer muitas informações sobre as escolhas dos clientes e seus motivadores de decisão.


- Um inventor da IBM desenvolveu um assistente cognitivo que funciona como um mecanismo de pesquisa personalizado, aprendendo tudo sobre você e depois lembrando um nome, uma música ou qualquer coisa que você não consegue lembrar no momento em que precisa.


- Empresas como Yahoo e Google filtram e classificam seus e-mails com PLN, analisando o texto nos e-mails que fluem através de seus servidores e interrompendo o spam antes mesmo de entrarem na sua caixa de entrada.


- Para ajudar a identificar notícias falsas, o Grupo NLP do MIT desenvolveu um novo sistema para determinar se uma fonte é precisa ou politicamente tendenciosa, detectando se uma fonte de notícias pode ser confiável ou não.


- O Alexa da Amazon e o Siri da Apple são exemplos de interfaces inteligentes orientadas por voz que usam PLN para responder às solicitações vocais e fazem de tudo, como encontrar uma loja em particular, informar a previsão do tempo, sugerir o melhor caminho para o escritório ou acender as luzes em casa.


- Ter uma ideia do que está acontecendo e do que as pessoas estão falando pode ser muito valioso para os operadores financeiros. PLN está sendo usada para rastrear notícias, relatórios, comentários sobre possíveis fusões entre empresas; tudo pode ser incorporado a um algoritmo de negociação para gerar lucros maciços. Lembre-se: compre o boato, venda as notícias.


- PLN também está sendo usado nas fases de busca e seleção do recrutamento de talentos, identificando as habilidades de possíveis contratados e também identificando perspectivas antes que elas se tornem ativas no mercado de trabalho.

- Desenvolvido pela tecnologia IBM Watson NLP, o LegalMation desenvolveu uma plataforma para automatizar tarefas rotineiras de litígio e ajudar as equipes jurídicas a economizar tempo, reduzir custos e mudar o foco estratégico.

E os exemplos não param. PLN é um campo ativo e cada vez mais presente em nossas vidas.


In [None]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

## Instalação do pacote NLTK
http://www.nltk.org/index.html

http://www.nltk.org/book/

In [None]:
# Instalação do módulo NLTK
!pip install -q nltk

In [None]:
# Imports
import re
import nltk
import spacy
import string
import numpy as np
import pandas as pd

In [None]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

In [None]:
# Instalando os arquivos de dados e dicionários do NLTK
# nltk.download('all')

## Tokenization

Processo de dividir uma string em listas de pedaços ou "tokens". Um token é uma parte inteira. Por exemplos: uma palavra é um token em uma sentença. Uma sentença é um token em um parágrafo.

### Dividindo um Parágrafo em Frases

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
paragrafo = "Seja Bem-vindo a Data Science Academy. Bom saber que você está aprendendo PLN. Obrigado por estar conosco."

In [None]:
?sent_tokenize

In [None]:
# Dividindo o parágrafo em frases
sent_tokenize(paragrafo)

In [None]:
# Utilizando dicionário do pacote NLTK
tokenizer = nltk.data.load('tokenizers/punkt/portuguese.pickle')

In [None]:
tokenizer.tokenize(paragrafo)

In [None]:
# Dicionário em espanhol
spanish_tokenizer = nltk.data.load('tokenizers/punkt/spanish.pickle')

In [None]:
spanish_tokenizer.tokenize('Hola amigo. Estoy bien.')

### Dividindo uma Frase em Palavras

In [None]:
from nltk.tokenize import word_tokenize

In [None]:
word_tokenize('Data Science Academy')

In [None]:
from nltk.tokenize import TreebankWordTokenizer

In [None]:
tokenizer = TreebankWordTokenizer()

In [None]:
tokenizer.tokenize('Inteligência Artificial')

In [None]:
word_tokenize("can't") # cannot

In [None]:
from nltk.tokenize import WordPunctTokenizer

In [None]:
tokenizer = WordPunctTokenizer()

In [None]:
tokenizer.tokenize("Can't is a contraction.")

In [None]:
from nltk.tokenize import RegexpTokenizer

In [None]:
?RegexpTokenizer

In [None]:
tokenizer = RegexpTokenizer("[\w']+")

In [None]:
tokenizer.tokenize("Can't is a contraction.")

In [None]:
from nltk.tokenize import regexp_tokenize

In [None]:
?regexp_tokenize

In [None]:
regexp_tokenize("Can't is a contraction.", "[\w']+")

In [None]:
tokenizer = RegexpTokenizer('\s+', gaps = True)

In [None]:
tokenizer.tokenize("Can't is a contraction.")

In [None]:
# Uma operação única com List Comprehension

# Texto a ser tokenizado
texto = "Seja Bem-vindo a Data Science Academy. Bom saber que você está aprendendo PLN. Obrigado por estar conosco."

# List Comprehension
print([word_tokenize(frase) for frase in sent_tokenize(texto)])

## Stopwords

Stopwords são palavras comuns que normalmente não contribuem para o significado de uma frase, pelo menos com relação ao propósito da informação e do processamento da linguagem natural. São palavras como "The" e "a" ((em inglês) ou "O/A" e "Um/Uma" ((em português). Muitos mecanismos de busca filtram estas palavras (stopwords), como forma de economizar espaço em seus índices de pesquisa.

In [None]:
from nltk.corpus import stopwords

In [None]:
english_stops = set(stopwords.words('english'))

In [None]:
english_stops

In [None]:
palavras = ["Can't", 'is', 'a', 'contraction']

In [None]:
[palavra for palavra in palavras if palavra not in english_stops]

In [None]:
portuguese_stops = set(stopwords.words('portuguese'))

In [None]:
palavras = ["Aquilo", 'é', 'uma', 'ferrari']

In [None]:
[palavra for palavra in palavras if palavra not in portuguese_stops]

In [None]:
stopwords.fileids()

In [None]:
stopwords.words('portuguese')

### Wordnet

WordNet é um banco de dados léxico (em Inglês). É uma espécie de dicionário criado especificamente para processamento de linguagem natural.

In [None]:
from nltk.corpus import wordnet

In [None]:
?wordnet

In [None]:
syn = wordnet.synsets('cookbook')[0]

In [None]:
syn.name()

In [None]:
syn.definition()

In [None]:
wordnet.synsets('cooking')[0].examples()

## Stemming e Lemmatization

Por razões gramaticais, os documentos usarão diferentes formas de uma palavra, como por exemplo: 

organizar, organizado e organizando. 

Além disso, existem famílias de palavras derivadamente relacionadas com significados semelhantes, como democracia, democrático e democratização. Em muitas situações, pode ser útil procurar uma dessas palavras para retornar documentos que contenham outra palavra no conjunto.

O objetivo da Derivação (Stemming) e da Lematização (Lemmatization) é reduzir as formas flexionadas e, às vezes, derivadas de uma palavra para uma base comum.

### Stemming

Stemming é a técnica de remover sufixos e prefixos de uma palavra, chamada stem. Por exemplo, o stem da palavra cooking é cook. Um bom algoritmo sabe que "ing" é um sufixo e pode ser removido. Stemming é muito usado em mecanismos de buscas para indexação de palavras. Ao invés de armazenar todas as formas de uma palavra, um mecamismo de busca armazena apenas o stem da palavra, reduzindo o tamanho do índice e aumentando a performance do processo de busca.

In [None]:
from nltk.stem import PorterStemmer

In [None]:
?PorterStemmer

In [None]:
porter_stemmer = PorterStemmer()

In [None]:
porter_stemmer.stem('cooking')

In [None]:
porter_stemmer.stem('cookery')

In [None]:
from nltk.stem import LancasterStemmer

In [None]:
lanc_stemmer = LancasterStemmer()

In [None]:
lanc_stemmer.stem('cooking')

In [None]:
lanc_stemmer.stem('cookery')

In [None]:
from nltk.stem import RegexpStemmer

In [None]:
regexp_stemmer = RegexpStemmer('ing')

In [None]:
regexp_stemmer.stem('cooking')

In [None]:
lista_palavras = ["cat", "cats", "know", "knowing", "time", "timing", "football", "footballers"]

In [None]:
porter_stemmer = PorterStemmer()

In [None]:
for palavra in lista_palavras:
    print(palavra + ' -> ' + porter_stemmer.stem(palavra))

In [None]:
def SentenceStemmer(sentence):
    tokens = word_tokenize(sentence)
    stems = [porter_stemmer.stem(token) for token in tokens]
    return " ".join(stems)

In [None]:
SentenceStemmer('The cats and dogs are running')

### Lemmatization

Lemmatization leva em consideração a análise morfológica das palavras. Para fazer isso, é necessário ter dicionários detalhados nos quais o algoritmo possa procurar para vincular o formulário ao seu lema. Veja um exemplo:

- Forma flexionada: organizando
- Lema: organiza

- Forma flexionada: organizado
- Lema: organiza

Com Lemmatization as duas formas flexionadas organizando e organizado seria representadas somente pelo lema organiza.

In [None]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

In [None]:
wordnet_lemmatizer = WordNetLemmatizer()

In [None]:
print(wordnet_lemmatizer.lemmatize('mice'))
print(wordnet_lemmatizer.lemmatize('cacti'))  # plural da palavra cactus - cactuses (inglês) ou cacti (latin)
print(wordnet_lemmatizer.lemmatize('horses'))
print(wordnet_lemmatizer.lemmatize('wolves'))

In [None]:
print(wordnet_lemmatizer.lemmatize('madeupwords'))
print(porter_stemmer.stem('madeupwords'))

In [None]:
from nltk import pos_tag

Part-of-Speech Tag (PoS-Tag)

http://www.nltk.org/book/ch05.html

In [None]:
def return_word_pos_tuples(sentence):
    return pos_tag(word_tokenize(sentence))

In [None]:
sentence = 'The cats and dogs are running'

In [None]:
return_word_pos_tuples(sentence)

In [None]:
def get_pos_wordnet(pos_tag):
    pos_dict = {"N": wordnet.NOUN,
                "V": wordnet.VERB,
                "J": wordnet.ADJ,
                "R": wordnet.ADV}

    return pos_dict.get(pos_tag[0].upper(), wordnet.NOUN)

In [None]:
get_pos_wordnet('VBG')

In [None]:
def lemmatize_with_pos(sentence):
    new_sentence = []
    tuples = return_word_pos_tuples(sentence)
    for tup in tuples:
        pos = get_pos_wordnet(tup[1])
        lemma = wordnet_lemmatizer.lemmatize(tup[0], pos = pos)
        new_sentence.append(lemma)
    return new_sentence

In [None]:
print(lemmatize_with_pos(sentence))

### Corpus

Corpus é uma coleção de documentos de texto e Corpora é o plural de Corpus. Esse termo vem da palavra em Latim para corpo (nesse caso, o corpo de um texto). Um Corpus customizado é uma coleção de arquivos de texto organizados em um diretório.

Se você for treinar seu próprio modelo como parte de um processo de classificação de texto (como análise de texto), você terá que criar seu próprio Corpus e treiná-lo.

In [None]:
import os
from nltk.corpus.reader.plaintext import PlaintextCorpusReader

In [None]:
corpusdir = 'corpus/' 

In [None]:
newcorpus = PlaintextCorpusReader(corpusdir, '.*')

In [None]:
newcorpus.fileids()

In [None]:
# Acessando cada arquivo no Corpus com loop for
for infile in sorted(newcorpus.fileids()):
    print(infile) 

In [None]:
# Acessando cada arquivo no Corpus com list comprehension
[arquivo for arquivo in sorted(newcorpus.fileids())]

In [None]:
# Conteúdo do Corpus
print(newcorpus.raw().strip())

In [None]:
# Conteúdo do Corpus tokenizado por parágrafo (nova linha)
print(newcorpus.paras())

In [None]:
# Conteúdo do Corpus tokenizado por sentença (nova linha)
print(newcorpus.sents())

In [None]:
# Conteúdo do Corpus tokenizado por sentença por arquivo
print(newcorpus.sents(newcorpus.fileids()[0]))

O NLTK traz diversos Corpus e Corpora que podem ser usados para os mais variados fins. Vamos expermentar o Corpus do Projeto Gutenberg: https://www.gutenberg.org/

In [None]:
from nltk.corpus import gutenberg as gt

In [None]:
print(gt.fileids())

In [None]:
shakespeare_macbeth = gt.words("shakespeare-macbeth.txt")
print(shakespeare_macbeth)

In [None]:
raw = gt.raw("shakespeare-macbeth.txt")
print(raw)

In [None]:
sents = gt.sents("shakespeare-macbeth.txt")
print(sents)

In [None]:
for fileid in gt.fileids():
    num_words = len(gt.words(fileid))
    num_sents = len(gt.sents(fileid))
    print("Dados do Arquivo:", fileid)
    print("Número de Palavras:", num_words)
    print("Número de Frases:", num_sents, end = "\n\n\n")

## Lab - Collocations e Processamento de Comentários de Avaliações de Hotéis

Collocations são duas ou mais palavras que tendem a aparecer frequentemente juntas, como "Estados Unidos", "Rio Grande do Sul" ou "Machine Learning". Essas palavras podem gerar diversas combinações e por isso o contexto também é importante no processamento de linguagem natural.

Os dois tipos mais comuns de Collocations são bigramas e trigramas. Bigramas são duas palavras adjacentes, como "tomografia computadorizada", "aprendizado de máquina" ou "mídia social". Trigramas são três palavras adjacentes, como "fora do negócio" ou "Proctor and Gamble".

- Bigramas: (Nome, Nome), (Adjetivo, Nome)
- Trigramas: (Adjetivo/Nome, Qualquer_Item, Adjetivo/Nome)

Mas se escolhermos palavras adjacentes como bigrama ou trigramas, não obteremos frases significativas. Por exemplo, a frase 'Ele usa mídias sociais' contém bigramas: 'Ele usa', 'usa mídias', 'mídias sociais'. "Ele usa" e "usa mídias" não significa nada, enquanto "mídias sociais" é um bigrama significativo. 

Como fazemos boas seleções para Collocations? As co-ocorrências podem não ser suficientes, pois frases como 'assim como' podem co-ocorrer com frequência, mas não são significativas. Vamos explorar vários métodos para filtrar as Collocations mais significativas: contagem de frequências, informação mútua pontual (PMI) e teste de hipóteses (teste t e qui-quadrado).

### Definição do Problema

Dado um conjunto de texto de avaliações (comentários) de hotéis, vamos buscar as Collocations mais relevantes que ajudam a explicar as avaliações!

In [None]:
# Se necessário, instale pacotes que não estejam instalados
#!pip install -q spacy

In [1]:
# Imports
import pandas as pd
import nltk
import spacy
import re
import string
from nltk.corpus import stopwords

In [None]:
# Se necessário, faça o download das stopwords
nltk.download('stopwords')

In [2]:
# Carregando dados de avaliações de hotéis
# Fonte de dados: https://datafiniti.co/products/business-data/
avaliacoes_hoteis = pd.read_csv('https://raw.githubusercontent.com/dsacademybr/Datasets/master/dataset7.csv')

In [3]:
# Visualiza os dados
avaliacoes_hoteis.head(5)

Unnamed: 0,id,dateAdded,dateUpdated,address,categories,primaryCategories,city,country,keys,latitude,...,reviews.dateSeen,reviews.rating,reviews.sourceURLs,reviews.text,reviews.title,reviews.userCity,reviews.userProvince,reviews.username,sourceURLs,websites
0,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-08-03T00:00:00Z,2016-07-26T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,Our experience at Rancho Valencia was absolute...,Best romantic vacation ever!!!!,,,Paula,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
1,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-08-02T00:00:00Z,2016-08-26T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,Amazing place. Everyone was extremely warm and...,Sweet sweet serenity,,,D,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
2,AVwc252WIN2L1WUfpqLP,2016-10-30T21:42:42Z,2018-09-10T21:06:27Z,5921 Valencia Cir,"Hotels,Hotels and motels,Hotel and motel reser...",Accommodation & Food Services,Rancho Santa Fe,US,us/ca/ranchosantafe/5921valenciacir/359754519,32.990959,...,"2016-11-15T00:00:00Z,2016-08-23T00:00:00Z,2016...",5.0,https://www.hotels.com/hotel/125419/reviews%20/,We booked a 3 night stay at Rancho Valencia to...,Amazing Property and Experience,,,Ron,http://www.hotels.com/ho125419/%25252525253Flo...,http://www.ranchovalencia.com
3,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,"2016-05-21T00:00:00Z,2016-07-31T00:00:00Z",2.0,https://www.tripadvisor.com/Hotel_Review-g4118...,Currently in bed writing this for the past hr ...,"Never again...beware, if you want sleep.",Richmond,VA,jaeem2016,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...
4,AVwdOclqIN2L1WUfti38,2015-11-28T19:19:35Z,2018-09-10T21:06:16Z,7520 Teague Rd,"Hotels,Hotels and motels,Travel agencies and b...",Accommodation & Food Services,Hanover,US,us/md/hanover/7520teaguerd/-2043779672,39.155929,...,2016-07-31T00:00:00Z,5.0,https://www.tripadvisor.com/Hotel_Review-g4118...,I live in Md and the Aloft is my Home away fro...,ALWAYS GREAT STAY...,Laurel,MD,MamaNiaOne,http://www.yellowbook.com/profile/aloft-arunde...,http://www.starwoodhotels.com/alofthotels/prop...


In [4]:
# Tipo do objeto
type(avaliacoes_hoteis)

pandas.core.frame.DataFrame

In [5]:
# Shape
avaliacoes_hoteis.shape

(10000, 25)

In [6]:
# Extraindo as avaliações
comentarios = avaliacoes_hoteis['reviews.text']

In [7]:
# Converte para o tipo string
comentarios = comentarios.astype('str')

In [8]:
# Função para remover caracteres non-ascii 
def removeNoAscii(s): 
    return "".join(i for i in s if ord(i) < 128)

In [9]:
# Remove caracteres non-ascii 
comentarios = comentarios.map(lambda x: removeNoAscii(x))

In [10]:
# Obtém as stopwords em todos os idiomas
dicionario_stopwords = {lang: set(nltk.corpus.stopwords.words(lang)) for lang in nltk.corpus.stopwords.fileids()}
dicionario_stopwords

{'arabic': {'ء',
  'ءَ',
  'آ',
  'آب',
  'آذار',
  'آض',
  'آمينَ',
  'آناء',
  'آنفا',
  'آه',
  'آها',
  'آهاً',
  'آهٍ',
  'آهِ',
  'آي',
  'أ',
  'أبدا',
  'أبريل',
  'أبو',
  'أبٌ',
  'أجل',
  'أجمع',
  'أحد',
  'أخبر',
  'أخذ',
  'أخو',
  'أخٌ',
  'أربع',
  'أربعاء',
  'أربعة',
  'أربعمئة',
  'أربعمائة',
  'أرى',
  'أسكن',
  'أصبح',
  'أصلا',
  'أضحى',
  'أطعم',
  'أعطى',
  'أعلم',
  'أغسطس',
  'أف',
  'أفريل',
  'أفعل به',
  'أفٍّ',
  'أقبل',
  'أقل',
  'أكتوبر',
  'أكثر',
  'أل',
  'ألا',
  'ألف',
  'ألفى',
  'أم',
  'أما',
  'أمام',
  'أمامك',
  'أمامكَ',
  'أمد',
  'أمس',
  'أمسى',
  'أمّا',
  'أن',
  'أنا',
  'أنبأ',
  'أنت',
  'أنتم',
  'أنتما',
  'أنتن',
  'أنتِ',
  'أنشأ',
  'أنى',
  'أنًّ',
  'أنّى',
  'أهلا',
  'أو',
  'أوت',
  'أوشك',
  'أول',
  'أولئك',
  'أولاء',
  'أولالك',
  'أوه',
  'أوّهْ',
  'أى',
  'أي',
  'أيا',
  'أيار',
  'أيضا',
  'أيلول',
  'أين',
  'أينما',
  'أيها',
  'أيّ',
  'أيّان',
  'أُفٍّ',
  'ؤ',
  'إحدى',
  'إذ',
  'إذا',
  'إذاً',
  'إذما',
  '

In [11]:
# Função para detectar o idioma predominante com base nas stopwords
def descobre_idioma(text):
    
    # Aplica tokenização considerando pontuação
    palavras = set(nltk.wordpunct_tokenize(text.lower()))
    
    # Conta o total de palavras tokenizadas considerando o dicionário de stopwords
    lang = max(((lang, len(palavras & stopwords)) for lang, stopwords in dicionario_stopwords.items()), key = lambda x: x[1])[0]
    
    # Verifica se o idioma é português
    if lang == 'portuguese':
        return True
    else:
        return False

In [12]:
# Filtra somente os comentários em português
comentarios_portugues = comentarios[comentarios.apply(descobre_idioma)]

In [13]:
# Shape
comentarios_portugues.shape

(4,)

In [14]:
# Print
comentarios_portugues

5531    Hotel confortavel, porem com algumas instalaco...
5658    Adorei! Recomendo a todos! Apesar de nao ficar...
5693    O hotel e meio longe do centro de Washington, ...
5765    Perto de uma estacao de metro. Transporte grat...
Name: reviews.text, dtype: object

In [15]:
# Função para detectar o idioma predominante com base nas stopwords
def descobre_idioma(text):
    words = set(nltk.wordpunct_tokenize(text.lower()))
    lang = max(((lang, len(words & stopwords)) for lang, stopwords in dicionario_stopwords.items()), key = lambda x: x[1])[0]
    if lang == 'english':
        return True
    else:
        return False

In [16]:
# Filtra somente os comentários em português
comentarios_ingles = comentarios[comentarios.apply(descobre_idioma)]

In [17]:
# Shape
comentarios_ingles.shape

(9725,)

In [18]:
# Print
comentarios_ingles.head()

0    Our experience at Rancho Valencia was absolute...
1    Amazing place. Everyone was extremely warm and...
2    We booked a 3 night stay at Rancho Valencia to...
3    Currently in bed writing this for the past hr ...
4    I live in Md and the Aloft is my Home away fro...
Name: reviews.text, dtype: object

In [19]:
# Removendo duplicidades
comentarios_ingles.drop_duplicates(inplace = True)

In [20]:
# Shape
comentarios_ingles.shape

(9718,)

In [21]:
# Baixando o dicionário inglês
# https://spacy.io/usage/models
#!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.2.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0-py3-none-any.whl (13.9 MB)
[K     |████████████████████████████████| 13.9 MB 490 kB/s eta 0:00:01
Installing collected packages: en-core-web-sm
Successfully installed en-core-web-sm-3.2.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')


> Pode ser necessário reiniciar o Jupyter Notebook para executar a célula abaixo.

In [22]:
# Carrega o dcionário em nossa sessão SpaCy
nlp = spacy.load("en_core_web_sm")

In [23]:
# Função para limpar e lematizar os comentários
def limpa_comentarios(text):
    
    # Remove pontuação usando expressão regular
    regex = re.compile('[' + re.escape(string.punctuation) + '\\r\\t\\n]')
    nopunct = regex.sub(" ", str(text))
    
    # Usa o SpaCy para lematização
    doc = nlp(nopunct, disable = ['parser', 'ner'])
    lemma = [token.lemma_ for token in doc]
    return lemma

In [24]:
# Aplica a função aos dados
comentarios_ingles_lemmatized = comentarios_ingles.map(limpa_comentarios)

In [25]:
# Coloca tudo em minúsculo
comentarios_ingles_lemmatized = comentarios_ingles_lemmatized.map(lambda x: [word.lower() for word in x])

In [26]:
# Visualiza os dados
comentarios_ingles_lemmatized.head()

0    [our, experience, at, rancho, valencia, be, ab...
1    [amazing, place,  , everyone, be, extremely, w...
2    [we, book, a, 3, night, stay, at, rancho, vale...
3    [currently, in, bed, write, this, for, the, pa...
4    [i, live, in, md, and, the, aloft, be, my, hom...
Name: reviews.text, dtype: object

In [27]:
# Vamos tokenizar os comentários
comentarios_tokens = [item for items in comentarios_ingles_lemmatized for item in items]

In [28]:
# Tokens
comentarios_tokens

['our',
 'experience',
 'at',
 'rancho',
 'valencia',
 'be',
 'absolutely',
 'perfect',
 'from',
 'begin',
 'to',
 'end',
 '    ',
 'we',
 'feel',
 'special',
 'and',
 'very',
 'happy',
 'during',
 'our',
 'stay',
 ' ',
 'i',
 'would',
 'come',
 'back',
 'in',
 'a',
 'heart',
 'beat',
 '  ',
 'amazing',
 'place',
 ' ',
 'everyone',
 'be',
 'extremely',
 'warm',
 'and',
 'welcome',
 ' ',
 'we',
 've',
 'stay',
 'at',
 'some',
 'top',
 'notch',
 'place',
 'and',
 'this',
 'be',
 'definitely',
 'in',
 'our',
 'top',
 '2',
 ' ',
 'great',
 'for',
 'a',
 'romantic',
 'getaway',
 'or',
 'take',
 'the',
 'kid',
 'along',
 'as',
 'we',
 'do',
 ' ',
 'have',
 'a',
 'couple',
 'stuff',
 'animal',
 'wait',
 'for',
 'our',
 'girl',
 'upon',
 'arrival',
 ' ',
 'can',
 't',
 'wait',
 'to',
 'go',
 'back',
 'we',
 'book',
 'a',
 '3',
 'night',
 'stay',
 'at',
 'rancho',
 'valencia',
 'to',
 'play',
 'some',
 'tennis',
 ' ',
 'since',
 'it',
 'be',
 'one',
 'of',
 'the',
 'high',
 'rate',
 'tennis',
 

### Estratégia 1 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Frequência

Nossa primeira estratégia é a mais simples de todas: contagem de frequência. Contamos quantas vezes cada Collocation aparece no texto e filtramos pelos Collocations mais frequentes.

Vamos filtrar apenas os adjetivos e substantivos para reduzir o tempo de processamento e vamos contar a frequência dos Collocations, bigramas e trigramas, nos comentários.

In [None]:
# Métricas de associação de bigramas (esse objeto possui diversos atributos, como freq, pmi, teste t, etc...)
bigramas = nltk.collocations.BigramAssocMeasures()

In [None]:
# Métricas de associação de trigramas
trigramas = nltk.collocations.TrigramAssocMeasures()

In [None]:
# O próximo passo é criar um buscador de bigramas nos tokens
buscaBigramas = nltk.collocations.BigramCollocationFinder.from_words(comentarios_tokens)

In [None]:
# Fazemos o mesmo com trigramas. Fique atento aos métodos que estão sendo usados
buscaTrigramas = nltk.collocations.TrigramCollocationFinder.from_words(comentarios_tokens)

In [None]:
# Vamos contar quantas vezes cada bigrama aparece nos tokens dos comentários
bigrama_freq = buscaBigramas.ngram_fd.items()

In [None]:
# Frequência dos bigramas
bigrama_freq

In [None]:
# Vamos converter o dicionário anterior em uma tabela de frequência no formato do Pandas para os bigramas
FreqTabBigramas = pd.DataFrame(list(bigrama_freq), 
                               columns = ['Bigrama', 'Freq']).sort_values(by = 'Freq', ascending = False)

In [None]:
# Visualiza a tabela
FreqTabBigramas.head(5)

In [None]:
# Vamos contar quantas vezes cada trigrama aparece nos tokens dos comentários
trigrama_freq = buscaTrigramas.ngram_fd.items()

In [None]:
# Tabela de frequência no formato do Pandas para os trigramas
FreqTabTrigramas = pd.DataFrame(list(trigrama_freq), 
                                columns = ['Trigrama','Freq']).sort_values(by = 'Freq', ascending = False)

In [None]:
# Visualiza a tabela
FreqTabTrigramas.head(5)

Temos muitas stopwords. Vamos removê-las.

In [None]:
# Vamos criar uma lista de stopwords
en_stopwords = set(stopwords.words('english'))

In [None]:
# Função para filtrar bigramas ADJ/NN e remover stopwords
def filtra_tipo_token_bigrama(ngram):
    
    # Verifica se é pronome
    if '-pron-' in ngram or 't' in ngram:
        return False
    
    # Loop nos ngramas para verificar se é stopword
    for word in ngram:
        if word in en_stopwords or word.isspace():
            return False
        
    # Tipos de tokens aceitáveis
    acceptable_types = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Subtipos
    second_type = ('NN', 'NNS', 'NNP', 'NNPS')
    
    # Tags
    tags = nltk.pos_tag(ngram)
    
    # Retorna o que queremos, ADJ/NN
    if tags[0][1] in acceptable_types and tags[1][1] in second_type:
        return True
    else:
        return False

In [None]:
# Agora filtramos os bigramas
bigramas_filtrados = FreqTabBigramas[FreqTabBigramas.Bigrama.map(lambda x: filtra_tipo_token_bigrama(x))]

In [None]:
# Visualiza a tabela
bigramas_filtrados.head(5)

In [None]:
# Função para filtrar trigramas ADJ/NN e remover stopwords
def filtra_tipo_token_trigrama(ngram):
    
    # Verifica se é pronome
    if '-pron-' in ngram or 't' in ngram:
        return False
    
    # Loop nos ngramas para verificar se é stopword
    for word in ngram:
        if word in en_stopwords or word.isspace():
            return False
        
    # Tipos de tokens aceitáveis
    first_type = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Subtipos
    second_type = ('JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS')
    
    # Tags
    tags = nltk.pos_tag(ngram)
    
    # Retorna o que queremos, ADJ/NN
    if tags[0][1] in first_type and tags[2][1] in second_type:
        return True
    else:
        return False

In [None]:
# Agora filtramos os trigramas
trigramas_filtrados = FreqTabTrigramas[FreqTabTrigramas.Trigrama.map(lambda x: filtra_tipo_token_trigrama(x))]

In [None]:
# Visualiza a tabela
trigramas_filtrados.head(5)

Já temos os bigramas e trigramas mais relevantes por frequência. Vamos usar os outros métodos e depois comparar todos eles.

### Estratégia 2 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por PMI

PMI significa Pointwise Mutual Information

PMI é um score que mede a probabilidade com que as palavras co-ocorrem mais do que se fossem independentes. No entanto, é muito sensível à combinação rara de palavras. Por exemplo, se um bigrama aleatório 'abc xyz' aparecer e nem 'abc' nem 'xyz' aparecerem em nenhum outro lugar do texto, 'abc xyz' será identificado como bigrama altamente significativo quando poderia ser apenas um erro ortográfico aleatório ou um frase muito rara para generalizar como um bigrama. Portanto, esse método é frequentemente usado com um filtro de frequência.

In [None]:
# Vamos retornar somente bigramas com 20 ou mais ocorrências
buscaBigramas.apply_freq_filter(20)

In [None]:
# Criamos a tabela
PMITabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.pmi)), 
                              columns = ['Bigrama', 'PMI']).sort_values(by = 'PMI', ascending = False)

In [None]:
# Visualiza a tabela
PMITabBigramas.head(5)

In [None]:
# Vamos retornar somente trigramas com 20 ou mais ocorrências
buscaTrigramas.apply_freq_filter(20)

In [None]:
# Criamos a tabela
PMITabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.pmi)), 
                               columns = ['Trigrama', 'PMI']).sort_values(by = 'PMI', ascending = False)

In [None]:
# Visualiza a tabela
PMITabTrigramas.head(5)

### Estratégia 3 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Teste t

O Teste t é um teste estatístico que assume uma distribuição normal dos dados. Na prática, é um teste de hipóteses, uma das bases da Inferência Estatistica.

- H0 é a hipótese nula, que palavras ocorrem em conjunto (bigramas ou trigramas) com determinada probabilidade.
- H1 é a hipótese alternativa, que palavras não ocorrem em conjunto (bigramas ou trigramas) com determinada probabilidade.

Ao aplicar o Teste t rejeitamos ou não a H0 através do cálculo de um score e assim representamos os Collocations mais relevantes no texto.

In [None]:
# Criamos a tabela para os bigramas
# Observe como o resultado do teste t é obtido: buscaBigramas.score_ngrams(bigramas.student_t)
TestetTabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.student_t)), 
                             columns = ['Bigrama', 'Teste-t']).sort_values(by = 'Teste-t', ascending = False)

In [None]:
# Vamos aplicar o filtro pelo tipo de token conforme aplicamos no método 1
bigramas_t_filtrados = TestetTabBigramas[TestetTabBigramas.Bigrama.map(lambda x: filtra_tipo_token_bigrama(x))]

In [None]:
# Visualiza a tabela
bigramas_t_filtrados.head(5)

In [None]:
# Criamos a tabela para os trigramas
TestetTabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.student_t)), 
                                  columns = ['Trigrama', 'Teste-t']).sort_values(by = 'Teste-t', ascending = False)

In [None]:
# Vamos aplicar o filtro pelo tipo de token conforme aplicamos no método 1
trigramas_t_filtrados = TestetTabTrigramas[TestetTabTrigramas.Trigrama.map(lambda x: filtra_tipo_token_trigrama(x))]

In [None]:
# Visualiza a tabela
trigramas_t_filtrados.head(5)

### Estratégia 4 - Buscando Bigramas e Trigramas Mais Relevantes nos Comentários Por Teste do Qui-quadrado

O teste do qui-quadrado é uma alternativa ao teste t. O teste do qui-quadrado assume na hipótese nula que as palavras são independentes, assim como no teste t.

In [None]:
# Prepara a tabela
# Observe como estamos coletando a estatística qui-quadrado: buscaBigramas.score_ngrams(bigramas.chi_sq)
QuiTabBigramas = pd.DataFrame(list(buscaBigramas.score_ngrams(bigramas.chi_sq)), 
                              columns = ['Bigrama', 'Qui']).sort_values(by = 'Qui', ascending = False)

In [None]:
# Visualiza a tabela
QuiTabBigramas.head(5)

In [None]:
# Prepara a tabela
QuiTabTrigramas = pd.DataFrame(list(buscaTrigramas.score_ngrams(trigramas.chi_sq)), 
                               columns = ['Trigrama', 'Qui']).sort_values(by = 'Qui', ascending = False)

In [None]:
# Visualiza a tabela
QuiTabTrigramas.head(5)

### Comparação e Resultado Final

In [None]:
# Vamos extrair os 10 Collocations bigramas mais relevantes de acordo com cada um dos 4 métodos usados
# Lembre-se que aplicamos filtros para remover as stopwords e devemos usar a tabela filtrada
metodo1_bigrama = bigramas_filtrados[:10].Bigrama.values
metodo2_bigrama = PMITabBigramas[:10].Bigrama.values
metodo3_bigrama = bigramas_t_filtrados[:10].Bigrama.values
metodo4_bigrama = QuiTabBigramas[:10].Bigrama.values

In [None]:
# Vamos extrair os 10 Collocations trigramas mais relevantes de acordo com cada um dos 4 métodos usados
# Lembre-se que aplicamos filtros para remover as stopwords e devemos usar a tabela filtrada
metodo1_trigrama = trigramas_filtrados[:10].Trigrama.values
metodo2_trigrama = PMITabTrigramas[:10].Trigrama.values
metodo3_trigrama = trigramas_t_filtrados[:10].Trigrama.values
metodo4_trigrama = QuiTabTrigramas[:10].Trigrama.values

In [None]:
# Vamos criar um super dataframe com todos os resultados para bigramas
comparaBigramas = pd.DataFrame([metodo1_bigrama, metodo2_bigrama, metodo3_bigrama, metodo4_bigrama]).T

In [None]:
# Nossa tabela precisa de nomes para as colunas
comparaBigramas.columns = ['Frequência', 
                           'PMI', 
                           'Teste-t', 
                           'Teste Qui-quadrado']

In [None]:
# Visualiza a tabela - Padrão CSS
comparaBigramas.style.set_properties(**{'background-color': 'green', 
                                        'color': 'white', 
                                        'border-color': 'white'})

In [None]:
# Vamos criar um super dataframe com todos os resultados para trigramas
comparaTrigramas = pd.DataFrame([metodo1_trigrama, metodo2_trigrama, metodo3_trigrama, metodo4_trigrama]).T

In [None]:
# Nossa tabela precisa de nomes para as colunas
comparaTrigramas.columns = ['Frequência', 
                            'PMI', 
                            'Teste-t', 
                            'Teste Qui-quadrado']

In [None]:
# Visualiza a tabela
comparaTrigramas.style.set_properties(**{'background-color': 'blue', 
                                         'color': 'white', 
                                         'border-color': 'white'})

### Conclusão

Podemos ver que os métodos PMI e Qui-quadrado fornecem bons resultados. Seus resultados também são semelhantes. 

Mas os métodos de Frequência e Teste-t apresentam os melhores resutados e são também muito semelhantes entre si. 

Em aplicativos reais, podemos observar a lista e definir um limite em um valor a partir de quando a lista para de fazer sentido. Também podemos fazer testes diferentes para ver qual lista parece fazer mais sentido para um determinado conjunto de dados. 

Como alternativa, podemos combinar resultados de várias listas. Uma boa escolha é multiplicar o PMI e a Frequência para levar em consideração o aumento da probabilidade e a frequência da ocorrência. Ou multiplicar a frequência pelo Teste-t criando assim um índice único de relevância das Collocations.

Para este trabalho, vamos considerar as Collocations calculadas por Frequência como as mais relevantes. A escolha se deve ao fato de que as suposições para o Teste-t não foram validadas e usar seu resultado seria inadequado. Salvamos a coluna de frequência do dataframe final em formato csv ou txt e encaminhamos à área de Marketing da rede de hotéis.

Você pode continuar o trabalho e alterar os métodos acima, se desejar.

# Fim