# 0. Importing and data visualization

In [26]:
import pandas as pd

df = pd.read_csv('../datasets/dataset_avaliacoes.csv', sep=',')
df.head()

Unnamed: 0,ID_avaliacao,avaliacao,nota,sentimento
0,81841,"Esse smartphone superou minhas expectativas, r...",5,positivo
1,28031,o cheiro e muito desagradavel!! pra quem se in...,2,negativo
2,91332,"Eu fiz a compra a loja não entregou o produto,...",1,negativo
3,110045,"Atendeu minhas expectativas, só achei a luz ru...",4,positivo
4,36929,"Gostei muito, só achei que ficou a desejar a q...",5,positivo


In [27]:
# Number of reviews

df.shape

(15501, 4)

In [28]:
# Quantifying empty values for each column
empty_values = df.isnull().sum()
print("Number of empty values per column:")
print(empty_values)
print("\nPercentage of empty values:")
print((empty_values / len(df) * 100).round(2), "%")

Number of empty values per column:
ID_avaliacao    0
avaliacao       0
nota            0
sentimento      0
dtype: int64

Percentage of empty values:
ID_avaliacao    0.0
avaliacao       0.0
nota            0.0
sentimento      0.0
dtype: float64 %


In [29]:
# Numbe of positive and negative reviews

df.value_counts('sentimento')

sentimento
positivo    7890
negativo    7611
Name: count, dtype: int64

In [30]:
# Positive reviews

df_positive = df[df["sentimento"] == "positivo"]
df_positive

Unnamed: 0,ID_avaliacao,avaliacao,nota,sentimento
0,81841,"Esse smartphone superou minhas expectativas, r...",5,positivo
3,110045,"Atendeu minhas expectativas, só achei a luz ru...",4,positivo
4,36929,"Gostei muito, só achei que ficou a desejar a q...",5,positivo
10,108940,"Melhor que esperado, cor maravilhosa! Recomend...",5,positivo
15,116473,Um aparelho com uma ótima performance e um pre...,4,positivo
...,...,...,...,...
15495,76285,"Gostei do produto, atendeu minhas necessidades...",4,positivo
15496,61836,Bommm.mmmmmmmmmmmmmmmm Mmmmmmmmmmmmmmmmmmmmmmm...,4,positivo
15498,52712,"Muito simples de mexer, o manual explica direi...",5,positivo
15499,10874,"Produto muito bom, exatamente como na internet...",4,positivo


In [31]:
# Negative reviews

df_negative = df[df["sentimento"] == "negativo"]
df_negative

Unnamed: 0,ID_avaliacao,avaliacao,nota,sentimento
1,28031,o cheiro e muito desagradavel!! pra quem se in...,2,negativo
2,91332,"Eu fiz a compra a loja não entregou o produto,...",1,negativo
5,13086,Comprei o produto e ñ tinha para entrega isso ...,1,negativo
6,117549,"o produto pode até ser bom ,mais só posso aval...",1,negativo
7,56436,"já enviei duas reclamações, mas não obtive res...",1,negativo
...,...,...,...,...
15490,120679,tv nao segura configuração. atendimento suport...,1,negativo
15492,14423,Na hora de comprar nao diz qual é a altira e q...,2,negativo
15493,94589,Eu queria muito esse produto mais faz dias que...,1,negativo
15494,104324,QUANDO CLIQUEI NA PROMO ONDE ADQUIRI ESTE CELU...,1,negativo


# Transforming text into numeric data

In [32]:
from sklearn.feature_extraction.text import CountVectorizer

text = [df_negative['avaliacao'].iloc[0], df_positive['avaliacao'].iloc[0]]
vetorizer = CountVectorizer()
bag_of_words = vetorizer.fit_transform(text)
bag_of_words

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 15 stored elements and shape (2, 15)>

In [33]:
# Create vectorizer and fit with all reviews
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

vectorizer = CountVectorizer()
word_matrix = vectorizer.fit_transform(df['avaliacao'])

In [34]:
# Get feature names and total unique words
words = vectorizer.get_feature_names_out()
total_unique_words = len(words)
print(f"Total number of unique words: {total_unique_words}")

Total number of unique words: 18314


In [35]:
# Count occurrences of each word
word_counts = word_matrix.sum(axis=0).A1
word_frequency = dict(zip(words, word_counts))

print("Top 20 most frequent words:")
for word, count in sorted(word_frequency.items(), key=lambda x: x[1], reverse=True)[:20]:
    print(f"  {word}: {count}")

Top 20 most frequent words:
  de: 10780
  não: 9778
  produto: 8671
  que: 8035
  muito: 5658
  com: 4977
  do: 4771
  para: 3979
  um: 3956
  no: 2865
  da: 2709
  em: 2664
  recomendo: 2636
  entrega: 2450
  uma: 2352
  bom: 2324
  na: 2317
  mais: 2245
  mas: 2115
  qualidade: 1943


In [38]:
# Average occurrences of the top 20 most frequent words
words = vectorizer.get_feature_names_out()
word_counts = word_matrix.sum(axis=0).A1
word_frequency = dict(zip(words, word_counts))

# Get top 20 most frequent words
top_20 = sorted(word_frequency.items(), key=lambda x: x[1], reverse=True)[:20]

# Calculate average occurrences of top 20 words
top_20_counts = [count for word, count in top_20]
average_top_20 = sum(top_20_counts) / len(top_20_counts)
num_reviews = len(df)

print("Top 20 most frequent words, their counts, and average per review:")
for word, count in top_20:
    avg_per_review = count / num_reviews
    print(f"  {word}: {count} (avg: {avg_per_review:.4f} per review)")

print(f"\nAverage occurrences of top 20 words: {average_top_20:.2f}")

Top 20 most frequent words, their counts, and average per review:
  de: 10780 (avg: 0.6954 per review)
  não: 9778 (avg: 0.6308 per review)
  produto: 8671 (avg: 0.5594 per review)
  que: 8035 (avg: 0.5184 per review)
  muito: 5658 (avg: 0.3650 per review)
  com: 4977 (avg: 0.3211 per review)
  do: 4771 (avg: 0.3078 per review)
  para: 3979 (avg: 0.2567 per review)
  um: 3956 (avg: 0.2552 per review)
  no: 2865 (avg: 0.1848 per review)
  da: 2709 (avg: 0.1748 per review)
  em: 2664 (avg: 0.1719 per review)
  recomendo: 2636 (avg: 0.1701 per review)
  entrega: 2450 (avg: 0.1581 per review)
  uma: 2352 (avg: 0.1517 per review)
  bom: 2324 (avg: 0.1499 per review)
  na: 2317 (avg: 0.1495 per review)
  mais: 2245 (avg: 0.1448 per review)
  mas: 2115 (avg: 0.1364 per review)
  qualidade: 1943 (avg: 0.1253 per review)

Average occurrences of top 20 words: 4361.25
