# ANÁLISE DE SENTIMENTO EM REVIEWS DE TRÊS ESTRELAS: UMA PROPOSTA DE CLASSIFICAÇÃO MULTIRRÓTULO

# Seção 6. Análise e Exploração dos Dados

#### Importação das Bibliotecas

In [None]:
#Importa a Biblioteca Pandas para Análise de Dados
import pandas as pd

#Importa Matplotlib e Seaborn para Plotagem e Visualização de Dados
import matplotlib.pyplot as plt
import seaborn as sns 

#Importa bibliotecas necessárias para Nuvem de Palavras
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from PIL import Image
import numpy as np

#### Task 0: Carregar o dataset B2W-Reviews01-Anotado


In [None]:
#Carrega o dataset anotado
data = pd.read_csv('b2w-reviews-01-anotado.csv')

#Printa as primeiras cinco linhas do dataset
data.head()

In [None]:
#Printa informações gerais do dataset anotado
data.info()

#### Task 1: Checar a distribuição das Classes de Sentimento

In [None]:
#Checa a distribuição das classes de sentimento
data.anotacao.value_counts().to_frame()

In [None]:
#Plota a distribuição das classes de sentimento em um gráfico de barras 
data.anotacao.value_counts().plot(kind="bar", color=["orange", "green","red","yellow"]);

#Adiciona informações ao gráfico
plt.title("Distribuição das Classes de Sentimento")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.xticks(rotation=0);

#### Task 2: Analisar o atributo Recomendação a um Amigo 

In [None]:
#Quantifica o atributo Recommend to a Friend
data.recommend_to_a_friend.value_counts().to_frame()

In [None]:
#Plota a distribuição de Recomendação a um Amigo em um gráfico de barras 
data.recommend_to_a_friend.value_counts().plot(kind="bar", color=["green", "red"]);

#Adiciona informações ao gráfico
plt.title("Distribuição - Recomendação a um Amigo")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Recomendação")
plt.xticks(rotation=0);

In [None]:
#Cruza Recomendação a um Amigo com a distribuição de Sentimento
pd.crosstab(data.anotacao, data.recommend_to_a_friend)

In [None]:
# Cria um plot para comparação entre Recomendação x Sentimento
pd.crosstab(data.anotacao, data.recommend_to_a_friend).plot(kind="bar", figsize=(10,6), color=["red", "green"])

#Adiciona informações ao gráfico
plt.title("Recomendação a um Amigo X Sentimento do Cliente")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.legend(["Não (No)", "Sim (Yes)"])
plt.xticks(rotation=0);

#### Task 3: Analisar o atributo Gênero

In [None]:
#Quantifica o atributo Reviewer Gender
data.reviewer_gender.value_counts().to_frame()

In [None]:
#Cruza Gênero com a distribuição de Sentimento
pd.crosstab(data.anotacao, data.reviewer_gender)

In [None]:
# Cria um plot para comparação entre Gênero x Sentimento
pd.crosstab(data.anotacao, data.reviewer_gender).plot(kind="bar", figsize=(10,6), color=["pink", "blue"])

#Adiciona informações ao gráfico
plt.title("Gênero X Sentimento dos Clientes")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.legend(["Mulher (Female)","Homem (Male)"])
plt.xticks(rotation=0); 

#### Task 3: Analisar o atributo Idade

In [None]:
#Quantifica o atributo Reviewer Birth Year
data.reviewer_birth_year.value_counts().to_frame()

In [None]:
#Checa o ano de nascimento do Cliente mais novo
data.reviewer_birth_year.max()

In [None]:
#Checa o ano de nascimento do Cliente mais velho
data.reviewer_birth_year.min()

In [None]:
#Agrupa os Clientes da Geração Z - Faixa Etária escolhida para Exploração dos Dados
GenZ =data.loc[data["reviewer_birth_year"].between(1995, 2010)]

In [None]:
#Checa quantidade de reviews pertencentes à Geração Z
len(GenZ)

In [None]:
#Checa a distribuição das classes de Sentimento da Geração Z por ano de nascimento
pd.crosstab(GenZ.anotacao, GenZ.reviewer_birth_year)

In [None]:
#Plota a distribuição das classes de Sentimento da GenZ em um gráfico de barras
GenZ.anotacao.value_counts().plot(kind="bar",color=['orange','green','yellow','red']);

#Adiciona informações ao gráfico
plt.title("Distribuição das Classes de Sentimento GenZ - Geral")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.xticks(rotation=0);

#### Task 3: Analisar o atributo Categoria de Produto


In [None]:
#Quantifica o atributo Site Category em relação à GenZ
GenZ.site_category_lv1.value_counts().to_frame()

In [None]:
#Plota a distribuição das classes de Sentimento da categoria mais popular - Gen Z 
top_dpt_genz = GenZ[GenZ['site_category_lv1']=='Celulares e Smartphones']
top_dpt_genz.anotacao.value_counts().plot(kind="bar", color=['orange','green','yellow','red']);

#Adiciona informações ao gráfico
plt.title("Distribuição das Classes de Sentimento GenZ - Celulares e Smartphones")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.xticks(rotation=0);

In [None]:
#Plota a distribuição das classes de Sentimento da segunda categoria mais popular - Gen Z 
top2_dpt_genz = GenZ[GenZ['site_category_lv1']=='Móveis']
top2_dpt_genz.anotacao.value_counts().plot(kind="bar", color=['orange','green','yellow','red']);

#Adiciona informações ao gráfico
plt.title("Distribuição das Classes de Sentimento Gen Z - Móveis")
plt.ylabel("Quantidade")
plt.xlabel("Classes de Sentimento")
plt.xticks(rotation=0);

#### Task 05: Construir Nuvem de Palavras 

In [None]:
#Constrói uma nuvem de palavra considerando o dataset inteiro

#Seleciona os textos da coluna Review e agrupa em uma lista
textos_reviews = data['review']
lista_geral = " ".join(textos_reviews)

#Importa stopwords em português
stopwords = open('../Documents/tcc/stopwords.txt').read()

#Transforma as stopwords em um lista
lista_stopwords = stopwords.split(' \n')

#Inicializa uma Nuvem de Palavra
wordcloud_geral = WordCloud(stopwords=lista_stopwords,
                      background_color = 'white', #cor de fundo
                      width = 1000, #largura
                      height = 500) #altura
               
#Gera uma Nuvem de Palavra
wordcloud_geral.generate(lista_geral)
plt.figure(figsize = (15, 7)) #tamanho do gráfico
plt.imshow(wordcloud_geral, interpolation = 'bilinear') #plotagem da nuvem de palavras
plt.axis('off') #remove as bordas
plt.show() #mostra a nuvem de palavra

In [None]:
#Constrói uma nuvem de palavra considerando as reviews positivas

#Seleciona apenas as reviews positivas e agrupa em uma lista
nuvem_positivas = data[data['anotacao']=='positivo']
textos_positivas = nuvem_positivas['review']
lista_positivas = " ".join(textos_positivas)

#Inicializa uma Nuvem de Palavra
wordcloud_positivas = WordCloud(stopwords=lista_stopwords,
                      background_color = 'white', #cor de fundo
                      width = 1000, #largura
                      height = 500) #altura
               
#Gera uma Nuvem de Palavra
wordcloud_positivas.generate(lista_positivas)
plt.figure(figsize = (15, 7)) #tamanho do gráfico
plt.imshow(wordcloud_positivas, interpolation = 'bilinear') #plotagem da nuvem de palavras
plt.axis('off') #remove as bordas
plt.show() #mostra a nuvem de palavra

In [None]:
#Constrói uma nuvem de palavra considerando as reviews negativas

#Seleciona apenas as reviews negativas e agrupa em uma lista
nuvem_negativas = data[data['anotacao']=='negativo']
textos_negativas = nuvem_negativas['review']
lista_negativas = " ".join(textos_negativas)

#Inicializa uma Nuvem de Palavra
wordcloud_negativas = WordCloud(stopwords=lista_stopwords,
                      background_color = 'white', #cor de fundo
                      width = 1000, #largura
                      height = 500) #altura
               
#Gera uma Nuvem de Palavra
wordcloud_negativas.generate(lista_negativas)
plt.figure(figsize = (15, 7)) #tamanho do gráfico
plt.imshow(wordcloud_negativas, interpolation = 'bilinear') #plotagem da nuvem de palavras
plt.axis('off') #remove as bordas
plt.show() #mostra a nuvem de palavra

In [None]:
#Constrói uma nuvem de palavra considerando as reviews com dupla polaridade

#Seleciona apenas as reviews de dupla polaridade e agrupa em uma lista
nuvem_duplas = data[data['anotacao']=='positivo + negativo']
textos_duplas = nuvem_duplas['review']
lista_duplas = " ".join(textos_duplas)

#Inicializa uma Nuvem de Palavra
wordcloud_duplas = WordCloud(stopwords=lista_stopwords,
                      background_color = 'white', #cor de fundo
                      width = 1000, #largura
                      height = 500) #altura
               
#Gera uma Nuvem de Palavra
wordcloud_duplas.generate(lista_duplas)
plt.figure(figsize = (15, 7)) #tamanho do gráfico
plt.imshow(wordcloud_duplas, interpolation = 'bilinear') #plotagem da nuvem de palavras
plt.axis('off') #remove as bordas
plt.show() #mostra a nuvem de palavra