In [None]:
# Importando as bibliotecas necessárias

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf
import numpy as np
from wordcloud import WordCloud
import gzip
import json

In [None]:
#Baixandos os Datasets

!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/AMAZON_FASHION_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/All_Beauty_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Appliances_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Gift_Cards_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Industrial_and_Scientific_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Luxury_Beauty_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Magazine_Subscriptions_5.json.gz
!wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_v2/categoryFilesSmall/Software_5.json.gz

In [None]:
# Juntando todos os Datasets em um único DataFrame

file_paths = ['/content/AMAZON_FASHION_5.json.gz', '/content/All_Beauty_5.json.gz', '/content/Appliances_5.json.gz',
              '/content/Gift_Cards_5.json.gz', '/content/Industrial_and_Scientific_5.json.gz', '/content/Luxury_Beauty_5.json.gz', '/content/Magazine_Subscriptions_5.json.gz',
              '/content/Software_5.json.gz']

dataframes = []

def parse(path):
  g = gzip.open(path, 'rb')
  for l in g:
    yield json.loads(l)

def getDF(path):
  i = 0
  df = {}
  for d in parse(path):
    df[i] = d
    i += 1
  return pd.DataFrame.from_dict(df, orient='index')

for file_path in file_paths:
    a = getDF(file_path)
    dataframes.append(a)

data = pd.concat(dataframes, ignore_index=True)

In [None]:
data.head(5)

In [None]:
#Colunas
data.columns

In [None]:
#Informações das colunas
data.info()

In [None]:
#Estatísticas das variáveis numéricas
data.describe()

In [None]:
#Valores nulos por coluna
data.isnull().sum()

In [None]:
#Contagem de notas
contagem_notas = data['overall'].value_counts()
plt.figure(figsize=(5, 4))
sns.barplot(x=contagem_notas.index, y=contagem_notas.values, palette='viridis')
plt.title('Contagem de Notas')
plt.xlabel('Nota')
plt.ylabel('Contagem')
plt.show()

In [None]:
#Distribuição das notas
plt.figure(figsize=(5, 4))
sns.histplot(data['overall'], bins=5, kde=True)
plt.title('Distribuição das Notas')
plt.xlabel('Nota')
plt.ylabel('Frequência')
plt.ylim(0, 100000)
plt.show()

In [None]:
#Boxplot das notas
plt.figure(figsize=(5, 4))
sns.boxplot(x=data['overall'])
plt.title('Boxplot das Notas')
plt.xlabel('Nota')
plt.show()

In [None]:
#Wordcloud avaliações
comment_wordcloud = WordCloud(width=800, height=400, background_color='white').generate(' '.join(data['reviewText'].astype(str)))
plt.figure(figsize=(7, 5))
plt.imshow(comment_wordcloud, interpolation='bilinear')
plt.axis('off')
plt.title('Wordcloud das Comentários')
plt.show()

In [None]:
# Número de clientes e produtos únicos
produtos_unicos = data['asin'].nunique()
clientes_unicos = data['reviewerID'].nunique()

print("Número de Produtos Únicos:", produtos_unicos)
print("Número de Clientes Únicos:", clientes_unicos)

In [None]:
data.to_csv('Dataset_Amazon.csv', index=False)