<h1> Avaliação de restaurantes baseado em reviews (PT-BR) - Grupo 4 </h1>
<p> A tarefa é parte de uma área da inteligência artificial chamada de processamento de linguagem natural (NLP), que, segundo Russel (2010),  consiste no desenvolvimento de modelos computacionais para a realização de tarefas que dependem de informações expressas em alguma língua natural (como tradução e interpretação de textos, busca de informações em documentos, etc). Dentro desse tópico, há a área de análise de sentimentos, cujo principal objetivo é definir técnicas automáticas capazes de extrair informações subjetivas de textos em linguagem natural,  como opiniões e sentimentos, a fim de criar conhecimento estruturado que possa ser utilizado por um sistemade apoio ou tomador de decisão (Liu, 2010). 

<h2> Análise exploratória dos dados </h2>
<p> Buscar responder duas perguntas: qual a proporção de reviews positivos e quais as palavras mais usadas. </p>

In [3]:
import pandas as pd
from matplotlib import pyplot as plt
import os
from unidecode import unidecode
import warnings
import re
import string
import numpy as np


warnings.filterwarnings('ignore')

In [4]:
data = pd.read_csv("final.csv")
data = data.drop('Unnamed: 0', axis=1)
data.head(20)

Unnamed: 0,review_rate,review_body
0,10,"Pois bem...as fotos dos pratos, bebidas e doce..."
1,30,Espero que utilizem essa avaliação para rever ...
2,20,"Fomos comer a sobremesa as 20h40, sentamos, pe..."
3,10,Pedimos o cardápio e ao chamar o atendente ped...
4,50,"Fui com algumas amigas em uma segunda-feira, d..."
5,50,"Quem gosta de doce, é um prato cheio. Erramos ..."
6,30,"Atendimento muito bom, confesso que quase peca..."
7,10,"As sobremesas são realmente uma delícia, porém..."
8,50,O bar oferece diversas opções de comidinhas de...
9,50,"Ao chegar, o local já agrada. Tanto o visual, ..."


In [5]:
data.describe(include="all") 

Unnamed: 0,review_rate,review_body
count,7672.0,7672
unique,,6992
top,,Restaurante muito bom localizado no shopping P...
freq,,2
mean,44.185349,
std,8.114585,
min,10.0,
25%,40.0,
50%,50.0,
75%,50.0,


In [6]:
data['review_rate'].value_counts()

50    4365
40    2498
30     557
20     159
10      93
Name: review_rate, dtype: int64

In [7]:
classes = np.array(data['review_rate'].value_counts().index)
i = 0
print("Classe | Porcentagem")
for item in data['review_rate'].value_counts().values:
    print(classes[i],'       ', round((item/sum(data['review_rate'].value_counts().values))*100, 2), "%" )
    i += 1

Classe | Porcentagem
50         56.9 %
40         32.56 %
30         7.26 %
20         2.07 %
10         1.21 %


In [8]:
def clear_text(text):
    #remove pontuacao, palavras com numeros, deixa o texto em caixa baixa e remove o texto entre colchetes
    text = text.lower()
    text = re.sub('\[.*?\]', '', text)
    text = re.sub('[%s]' % re.escape(string.punctuation), '', text)
    text = re.sub('\w*\d\w*', '', text)
    text = unidecode(text)
    return text

clear = lambda x: clear_text(x)

In [9]:
data_clean = pd.DataFrame(data.review_body.apply(clear))
data_clean

Unnamed: 0,review_body
0,pois bemas fotos dos pratos bebidas e doces sa...
1,espero que utilizem essa avaliacao para rever ...
2,fomos comer a sobremesa as sentamos pedimos e...
3,pedimos o cardapio e ao chamar o atendente ped...
4,fui com algumas amigas em uma segundafeira dia...
...,...
7667,com amigos sozinho ou em familia achei o local...
7668,pratos arabes muito bons e variados otimo aten...
7669,bem ao estilo arabe o dono e muito querido e s...
7670,zaki e uma especie de restaurante e loja de pr...


In [10]:
stop_words = []
for line in open("stopwords",encoding='utf-8'):
    line = line.rstrip("\n")
    stop_words.append(line)

In [11]:
from sklearn.feature_extraction.text import CountVectorizer #cada elemento da matriz é o numero de vezes que a palavra aparece no review

cv = CountVectorizer(encoding='utf-8') #sem as stopwords
data_cv = cv.fit_transform(data_clean.review_body)
data_dtm = pd.DataFrame(data_cv.toarray(), columns=cv.get_feature_names())
data_dtm

Unnamed: 0,aaaaa,aaah,abacate,abacaxi,abacaxio,abafado,abaixo,abandonada,abandonado,abandonar,...,zelo,zelosos,zemarco,zero,zeze,zola,zona,zucchina,zum,zzzrecomendo
0,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7667,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7668,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7669,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7670,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [12]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer(encoding='utf-8', stop_words=stop_words) #com as stopwords
data_cv = cv.fit_transform(data_clean.review_body)
data_dtm = pd.DataFrame(data_cv.toarray(), columns=cv.get_feature_names())
data_dtm #menos 400 palavras

Unnamed: 0,aaaaa,aaah,abacate,abacaxi,abacaxio,abafado,abaixo,abandonada,abandonado,abandonar,...,zela,zelo,zelosos,zemarco,zeze,zola,zona,zucchina,zum,zzzrecomendo
0,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7667,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7668,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7669,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
7670,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [13]:
palavras_usadas = {}
for column in data_dtm.columns:
    
    palavras_usadas[column] = data_dtm[column].sum()

In [14]:
print("15 palavras que mais aparecem:\n")
for best_positive in sorted(
    palavras_usadas.items(), 
    key=lambda x: x[1], 
    reverse=True)[:15]:
    print (best_positive)



15 palavras que mais aparecem:

('atendimento', 3565)
('comida', 2795)
('ambiente', 2384)
('pratos', 1573)
('restaurante', 1561)
('excelente', 1491)
('sao', 1458)
('agradavel', 1439)
('preco', 1259)
('otimo', 1244)
('recomendo', 1109)
('qualidade', 1011)
('melhor', 919)
('cardapio', 864)
('vale', 821)


<h2> Referências </h2>

    
    Russell,S. and Norvig,P. Artificial Intelligence - a modern approach, Prentice-Hall, 2013 
    Liu, B.Sentiment analysis and subjectivity, 2010
   
