# Notebook para fazer a análise de sentimos dos comentários do dataset

##Instalação dos pacotes

In [None]:
!pip install googletrans

In [None]:
!python -m textblob.download_corpora

##Importação dos pacotes

In [3]:
import pandas as pd
import numpy as np
import time
import googletrans as Translator
from textblob import TextBlob

In [None]:
translator = Translator.Translator()

##Lendo o dataset

In [None]:
df_dataset = pd.read_csv('/content/drive/MyDrive/UEA - Pós Ciência de Dados/2. Programação para Ciência de Dados/ds-proc-dados-uea/artefatos/dados/dataset.csv', index_col=0)

In [None]:
df_comentarios = df_dataset[['reviewId','reviewBody','reviewBodyEn']]

## Calculando a subjetividade e polaridade de cada um dos comentários

In [None]:
#Função para calcular a subjetividade de um comentário
def calcular_subjetividade(comentario) :
  try :
    comentario_blob = TextBlob(comentario)
    return comentario_blob.sentiment.subjectivity
  except:
    return np.nan

In [None]:
#Função para calcular a polaridade de um comentário
def calcular_polaridade(comentario) :
  try :
    comentario_blob = TextBlob(comentario)
    return comentario_blob.sentiment.polarity
  except :
    return np.nan

In [None]:
#Calculando a subjetividade de cada um dos comentários
df_comentarios['subjectivity'] = df_comentarios['reviewBodyEn'].apply(calcular_subjetividade)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
#Calculando a polaridade de cada um dos comentarios
df_comentarios['polarity'] = df_comentarios['reviewBodyEn'].apply(calcular_polaridade)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
df_comentarios

Unnamed: 0,reviewId,reviewBody,reviewBodyEn,subjectivity,polarity
0,692856288,"Comida maravilhosa, lugar do verdadeiro chicle...","Wonderful food, place for real shrimp gum.\nTh...",0.650000,0.350000
1,229208487,"Comida boa, drinks legais e um ambiente bem ac...","Good food, nice drinks and a very cozy atmosph...",0.820238,0.410476
2,679002332,"Excelente pra ir com a família! Ótima Comida, ...","Excellent to go with the family! Great food, p...",0.683333,0.706667
3,355671519,Tomo sorvete na Visabor faz mais de 30 anos. S...,I have had ice cream at Visabor for over 30 ye...,0.712381,0.103333
4,268741921,O melhor hamburger que já comi! Excelente aten...,The best hamburger I've ever eaten! Excellent ...,0.608333,0.575000
...,...,...,...,...,...
99995,672210394,"Ainda não inaugurado oficialmente, está atende...","Not yet officially opened, it is serving in so...",0.328333,0.018333
99996,380904400,"Bom atendimento, lugar bonito, comida muito go...","Good service, beautiful place, very tasty food...",0.533333,0.227083
99997,186111858,O Rio Scenarium é uma das baladas mais famosas...,Rio Scenarium is one of the most famous clubs ...,0.525446,0.048661
99998,152745909,"Fui por indicação e com boa expectativa!\n116,...",I went by indication and with good expectation...,0.569143,0.002143


Salvando em um arquivo

In [None]:
#df_comentarios.to_csv('/content/drive/MyDrive/UEA - Pós Ciência de Dados/2. Programação para Ciência de Dados/ds-proc-dados-uea/artefatos/dados/subjectivity-polarity-comentary.csv')

## Calculando a subjetividade e polaridade de cada uma das sentenças

In [None]:
# Função para calcular a subjetividade e polaridade de cada sentença de um comentário
# Retorna uma lista de dicionários, na qual cada dicionário contém uma senteça do comentário.
# return list( dict( reviewId, sentece, sentenceEn, subjectivity, polarity ) )
def separar_sentencas(reviewId, comentarioPt, comentarioEn) :
  try :
    sentencesPt = TextBlob(comentarioPt).sentences
    sentencesEn = TextBlob(comentarioEn).sentences
    lista_dict_sentences = []
    if len(sentencesPt) == len(sentencesEn) :
      for sentencePt, sentenceEn in zip(sentencesPt, sentencesEn) :
        lista_dict_sentences.append({'reviewId':reviewId, 'sentence':str(sentencePt), 'sentenceEn':str(sentenceEn), 'subjectivity':sentenceEn.subjectivity, 'polarity':sentenceEn.polarity})
    else :
      for sentenceEn in sentencesEn :
        lista_dict_sentences.append({'reviewId':reviewId, 'sentence':np.nan, 'sentenceEn':str(sentenceEn), 'subjectivity':sentenceEn.subjectivity, 'polarity':sentenceEn.polarity})
  except :
    lista_dict_sentences = np.nan
  return lista_dict_sentences

In [None]:
# Coletando a lista de comentários do dataset, na qual cada comentário está representado por uma lista de dicionários que contém suas sentenças.
matriz_dict_sentences = df_comentarios.apply(lambda x : separar_sentencas(x['reviewId'], x['reviewBody'], x['reviewBodyEn']), axis=1)

In [None]:
matriz_dict_sentences

0        [{'reviewId': 692856288, 'sentence': 'Comida m...
1        [{'reviewId': 229208487, 'sentence': 'Comida b...
2        [{'reviewId': 679002332, 'sentence': 'Excelent...
3        [{'reviewId': 355671519, 'sentence': 'Tomo sor...
4        [{'reviewId': 268741921, 'sentence': 'O melhor...
                               ...                        
99995    [{'reviewId': 672210394, 'sentence': 'Ainda nã...
99996    [{'reviewId': 380904400, 'sentence': 'Bom aten...
99997    [{'reviewId': 186111858, 'sentence': 'O Rio Sc...
99998    [{'reviewId': 152745909, 'sentence': nan, 'sen...
99999    [{'reviewId': 649755498, 'sentence': 'Experiên...
Length: 100000, dtype: object

In [None]:
#Criando uma lista de dicionários de cada sentença de comentários do dataset.
lista_dict_sentences = []
for lista_sentence in matriz_dict_sentences :
  try :
    for sentence in lista_sentence :
      lista_dict_sentences.append(sentence)
  except:
    continue

In [None]:
df_sentences = pd.DataFrame(lista_dict_sentences)

In [None]:
df_sentences

Unnamed: 0,reviewId,sentence,sentenceEn,subjectivity,polarity
0,692856288,"Comida maravilhosa, lugar do verdadeiro chicle...","Wonderful food, place for real shrimp gum.",0.650000,0.600000
1,692856288,"O garçom Éric Lima nos atendeu muito bem, pret...","The waiter Éric Lima served us very well, we i...",0.650000,0.100000
2,229208487,"Comida boa, drinks legais e um ambiente bem ac...","Good food, nice drinks and a very cozy atmosph...",0.858333,0.346667
3,229208487,Provamos muitas coisas e tudo nos agradou.,We tried many things and everything pleased us.,0.750000,0.500000
4,229208487,Principalmente um pato servido em um dos prato...,Especially a duck served in one of the house d...,0.833333,0.416667
...,...,...,...,...,...
371433,152745909,,"Very expensive, right?",0.722857,-0.182143
371434,152745909,,"Lettuce was withered, no seasoning options, sm...",0.400000,-0.250000
371435,152745909,,Aff.,0.000000,0.000000
371436,152745909,,"It didn't work, neither for the environment no...",0.000000,0.000000


Sanvando em um arquivo

In [None]:
#df_sentences.to_csv('/content/drive/MyDrive/UEA - Pós Ciência de Dados/2. Programação para Ciência de Dados/ds-proc-dados-uea/artefatos/dados/subjectivity-polarity-sentences.csv')