Analise de sentimentos em comentários feitos sobre carros no site http://www.carrosnaweb.com.br/

Esses dados foram minerados utilizando a linguagem R e foram os dados da <b>Hackathon de Data Science do Laboratório de Estatística e Geoinformação da UFPR</b>

Agradeço ao pessoal da UFPR pela iniciativa, aos professores Walmes e Wagner.

O objetivo desse notebook é aplicar a técnica de analise de sentimentos utilizando-se de redes neurais recorrentes utilizando células de memória LSTM, para predição de sentimento em cima dos comentários de Opinião Geral fornecidos no Dataset.

In [1]:
from string import punctuation
import tensorflow as tf
import pandas as pd
import numpy as np

In [2]:
notas = pd.read_csv("./notas.csv", sep = ';', encoding = "utf-8")

opinioes = pd.read_json("./opinioes.json", encoding = "utf-8")

In [3]:
notas.head(15)

Unnamed: 0,ID,quesito,nota
0,e2b9dc08,Estilo,7
1,e2b9dc08,Acabamento,5
2,e2b9dc08,Posição de dirigir,7
3,e2b9dc08,Instrumentos,10
4,e2b9dc08,Interior,5
5,e2b9dc08,Porta-malas,5
6,e2b9dc08,Desempenho,10
7,e2b9dc08,Motor,10
8,e2b9dc08,Câmbio,10
9,e2b9dc08,Freios,10


<i>O dataset Notas.csv fornece uma nota fornecida pelo usuário para cada feature do carro avaliado, será feita uma média dessas features, para servir como media final e label para a analise de sentimento.</i>

In [4]:
opinioes.drop([1,2,3,4,5,6,7,9], inplace = True, axis = 1)
columns = ['ID','Opiniao Geral']

opinioes.columns = columns
opinioes = opinioes.sort_values(by = ['ID'], axis = 0)

In [5]:
opinioes.head(10)

Unnamed: 0,ID,Opiniao Geral
5181,00022137,"Opinião Geral:É um bom carro, mas pelo valor d..."
4467,000a582d,Opinião Geral:pode melhorar
3945,001e058b,"Opinião Geral:Estou feliz com meu carrinho, só..."
2354,002f1155,Opinião Geral:Para quem quer um carro automáti...
2009,00372114,Opinião Geral:Em geral o carro é bom e chama a...
995,006c0f2c,"Opinião Geral:carro sem frescuras, e para quem..."
3868,00766a5c,"Opinião Geral:Quem tem um e conserva bem,tem c..."
1449,007684da,Opinião Geral:A relação custo-beneficio atende...
4805,0090acd0,Opinião Geral:Pessimo carro. Ainda irei adesiv...
4418,009d1244,Opinião Geral:Pra sair do gacho o carro atende...


No dataset de opinião, dropamos todas as colunas com exceção da coluna de ID e Opinião Geral, na qual iremos performar a analise de sentimentos, falta adicionar a média dada pelo usuario para o carro, porém essa média esta no dataset notas, o código abaixo realiza a média e adiciona a coluna média a Opinião Geral

In [6]:
def media_geral():
    
    medias = []
    for unique_id in sorted(notas['ID'].unique()):
        
        media = np.average(notas.loc[notas.ID == unique_id]['nota'])
        #print(unique_id, media)
        medias.append(media)
    
    return medias

In [7]:
medias = media_geral()
opinioes['medias'] = pd.Series(medias).values
opinioes['Opiniao Geral'] = opinioes['Opiniao Geral'].apply(lambda x: x[14:].lower())

In [8]:
opinioes.head(10)

Unnamed: 0,ID,Opiniao Geral,medias
5181,00022137,"é um bom carro, mas pelo valor dele novo, comp...",7.133333
4467,000a582d,pode melhorar,7.733333
3945,001e058b,"estou feliz com meu carrinho, só me deu alegri...",8.0
2354,002f1155,"para quem quer um carro automático de verdade,...",8.666667
2009,00372114,em geral o carro é bom e chama atenção por ond...,6.933333
995,006c0f2c,"carro sem frescuras, e para quem não quer fica...",8.6
3868,00766a5c,"quem tem um e conserva bem,tem carro pra muito...",7.866667
1449,007684da,a relação custo-beneficio atende a expectativa...,8.0
4805,0090acd0,pessimo carro. ainda irei adesivar no vidro tr...,4.466667
4418,009d1244,"pra sair do gacho o carro atende, porem o segu...",4.933333


Adicionado então a coluna de média ao dataset de opinioes, foi feita também uma trimagem nos comentarios, 
pois todos começavam com "Opinião Geral:", além disso retirou-se qualquer caps-lock dos comentarios, afim de reduzir-se ruidos no dataset

In [9]:
def clean_punctuation(x):
    x = ''.join([word for word in x if word not in punctuation])
    return x

In [10]:
opinioes['Opiniao Geral'] = opinioes['Opiniao Geral'].apply(lambda x: clean_punctuation(x))

In [11]:
opinioes.head(10)

Unnamed: 0,ID,Opiniao Geral,medias
5181,00022137,é um bom carro mas pelo valor dele novo compen...,7.133333
4467,000a582d,pode melhorar,7.733333
3945,001e058b,estou feliz com meu carrinho só me deu alegria...,8.0
2354,002f1155,para quem quer um carro automático de verdade ...,8.666667
2009,00372114,em geral o carro é bom e chama atenção por ond...,6.933333
995,006c0f2c,carro sem frescuras e para quem não quer ficar...,8.6
3868,00766a5c,quem tem um e conserva bemtem carro pra muito ...,7.866667
1449,007684da,a relação custobeneficio atende a expectativa ...,8.0
4805,0090acd0,pessimo carro ainda irei adesivar no vidro tra...,4.466667
4418,009d1244,pra sair do gacho o carro atende porem o segur...,4.933333


Retirou-se então qualquer tipo de pontuação dos comentarios.

In [12]:
threshold = 6
opinioes['medias'] = opinioes['medias'].apply(lambda x: 1 if x>threshold else 0)
opinioes.drop('ID', inplace = True, axis =1)

Para as colunas de labels, se a media geral for maior que o threshold minimo (no caso foi escolhido 6) então a avaliação é positiva, caso contrario a avaliação é negativa.

In [14]:
'''
cria uma lista com as palavras dos reviews
'''
words = []
for index,row in opinioes['Opiniao Geral'].iteritems():
    for word in row.split():
        words.append(word)

In [15]:
'''
para cada palavra do vocabulario atribui-se um valor numerico
'''
vocab_to_int = dict()
counter = 1
for word in words:
    if word not in vocab_to_int.keys():
        vocab_to_int[word] = counter
        counter+=1
    else:
        pass

In [17]:
review_ints = []    
for index,review in opinioes['Opiniao Geral'].iteritems():
    review_ints.append([vocab_to_int[word] for word in review.split()])
    
labels = opinioes['medias'].tolist()

É necessario fazer a conversão de palavras para inteiros, para isso foi criado um bag de palavras na variavel words, pegando todas as palavras dos reviews, então é criado um dicionario, atribuindo um vlaor inteiro unico para cada palavra.Então cada review em Opinioes é traduzido para inteiros e armazenado na variavel <b>review_ints</b>

In [18]:
from collections import Counter

review_lens = Counter([len(x) for x in review_ints])
print("Reviews com tamanho zero: {}".format(review_lens[0]))
print("Review mais longo: {}".format(max(review_lens)))

Reviews com tamanho zero: 16
Review mais longo: 428


Agora, fazendo uma analise do tamanho dos comentarios, percebe-se a existencia de comentários vazios ou comentários muito longos, os comentarios com zeros palavras serão removidos e o restante truncado em 200 palavras.

In [21]:
non_zero_idx = [ii for ii, review in enumerate(review_ints) if len(review) != 0]
len(non_zero_idx)

review_ints = [review_ints[ii] for ii in non_zero_idx]
labels = np.array([labels[ii] for ii in non_zero_idx])

seq_len = 200
features = np.zeros((len(review_ints), seq_len), dtype=int)
for i, row in enumerate(review_ints):
    features[i, -len(row):] = np.array(row)[:seq_len]

In [25]:
features.shape

(5313, 200)

Restaram então 5313 comentários, que foram truncados em um tamanho fixo de 200.
Caso o comentario tenha menos de 200 palavras, os espaços vazios serão preenchidos com 0's.

O array features, fiocu da seguinte forma então:


In [26]:
features[0:10]

array([[  0,   0,   0, ...,  28,  29,  30],
       [  0,   0,   0, ...,   0,  31,  32],
       [  0,   0,   0, ...,  64,  65,  66],
       ..., 
       [  0,   0,   0, ..., 159, 153, 160],
       [  0,   0,   0, ..., 171,   2,  59],
       [  0,   0,   0, ..., 179,  21, 180]])

## Treinamento, Validação, Teste

Com os dados organizados, é necessário fazer um split do dataset pra treinamento,validação e teste
A proporção ficou em 80% para treinamento 10% para validação e 10% para testes. Podendo ser alterado essa proporção na variavel train_pct

In [27]:
train_pct = 0.8

split_idx = int(len(features)*train_pct)

train_x, val_x = features[:split_idx], features[split_idx:]
train_y, val_y = labels[:split_idx], labels[split_idx:]

test_idx = int(len(val_x)*0.5)
val_x, test_x = val_x[:test_idx], val_x[test_idx:]
val_y, test_y = val_y[:test_idx], val_y[test_idx:]

print("\t\t\tFeature Shape:")
print("Train set: \t\t{}".format(train_x.shape), 
      "\nValidation set: \t{}".format(val_x.shape),
      "\nTest set: \t\t{}".format(test_x.shape))

			Feature Shape:
Train set: 		(4250, 200) 
Validation set: 	(531, 200) 
Test set: 		(532, 200)


## Construindo o Grafo da Rede Neural

In [29]:
'''
lstm_size -> tamanho das layers de LSTM
lstm_layers -> quantidade de layers, começamos em 1 e aumentamos apara analisar melhorias
batch_size -> quantidade de reviews inputadas na rede, varia de acordo com a quantidade de memória 
disponível na maquina

learning_rate -> taxa de aprendizado
'''

lstm_size = 256
lstm_layers = 1
batch_size = 500
learning_rate = 0.001