## **Análise de Dados (ETL) - Livros Best Sellers da Amazon Brasil 2020**



<img height= 500px src="https://www.oficinadanet.com.br/imagens/post/43910/top-10-livros-amazon-2022.jpg">

### **Objetivo:**
análisar os dados dos autores e dos livros mais vendidos na Amazon Brasil em 2020, responder perguntas de amostragem e armazenar informações em uma planilha .xlsx

#### **Extract** - Extraindo dados de uma fonte .csv

In [1]:
# Importações Bibliotecas
import numpy as np
import pandas as pd


In [87]:
# Extraindo Dados (.csv)
df = pd.read_csv("br-books-2020.csv", sep ='|')

#### **Transform** - Tratamento dos dados para análise

In [None]:
# Exclusão das colunas não utilizadas
cols_to_keep = ['time', 'Rank', 'Product Names', 'Authors/Company', 'Price_std_or_min']
df = df[cols_to_keep]
df.info()

In [None]:
# Formatando .df['time'] para AAAA/MM
df['time'] = df['time'].str.slice(0, 7)
df.head()

In [None]:
# Exclusão dos Dados Nulos
df.dropna()
df.isnull().sum()

In [None]:
# Remover linhas duplicadas com o mesmo 'Product Names' e manter a primeira ocorrência
df = df.drop_duplicates(subset='Product Names', keep='first')
df.info()

In [None]:
# Dados "limpos"
df.head(80)

#### **Plotagem:** Perguntas de amostragem

• Bibliotecas 'seaborn' e 'matplotlib' serão responsáveis pela plotagem dos dados do dataframe

In [96]:
# Bibliotecas de Visualização dos Dados
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

1. Quais foram os Best Sellers mais vendidos em 2020, com escala de preços?

In [None]:
# Filtrar o DataFrame para conter apenas livros vendidos em 2020
df_2020 = df[df['time'].str.startswith('2020')]

# Selecionando intervalo para amostragem
df_2020 = df_2020.head(20)

# Plotagem - Gráfico de barras com escala de calor
plt.figure(figsize=(14, 6))
sns.barplot(data=df_2020, x='Rank', y='Product Names', hue='Price_std_or_min', palette='coolwarm')
plt.xlabel('Rank (Mais Vendidos)')
plt.ylabel('Livros')
plt.title('Best Sellers mais vendidos em 2020 - escala de preços')
plt.gca()
plt.tight_layout()

# Exibir o gráfico
plt.show()

2. Quais autores possuem mais best sellers publicados?

In [None]:
# Função "value_counts" para contar o número de livros atribuídos por autor
contagem_autores = df['Authors/Company'].value_counts()

# Selecionando intervalo para amostragem
contagem_autores = contagem_autores.head(25)

# Ordenando em ordem crescente
contagem_autores = contagem_autores.sort_values(ascending=True)

# Plotagem - Gráfico de barras horizontais
plt.figure(figsize=(12, 6))
contagem_autores.plot(kind='barh', color='skyblue')
plt.xlabel('Quantidade de Livros')
plt.ylabel('Autores')
plt.title('Autores com mais Best Sellers Publicados')
plt.tight_layout()

# Exibir o gráfico
plt.show()

3. Qual a relação dos preços dos Best Sellers com a sua classificação na Amazon?

In [None]:
# Filtrar o DataFrame para conter apenas livros vendidos em 2020
df_2020 = df[df['time'].str.startswith('2020')]

# Selecionando intervalo para amostragem
df_2020 = df_2020.head(30)

# Criar um gráfico de linhas para analisar a relação entre preço e classificação
plt.figure(figsize=(14, 6))
plt.plot(df_2020['Rank'], df_2020['Price_std_or_min'], marker='o', linestyle='-', color='#FF5733')
plt.xlabel('Ranking (Mais Vendidos)')
plt.ylabel('Preço')
plt.title('Relação entre Classificação no Ranking e preço')
plt.tight_layout()

# Exibir o gráfico
plt.show()


#### **Load** - Salvando dataframe

**• Planilha do Excel:**

In [132]:
from google.colab import files

planilha_excel = 'dados_best_sellers_amazon_2020.xlsx'

# Use o método to_excel para salvar o DataFrame em um arquivo Excel
df.to_excel(planilha_excel, index=False)  # index=False evita a inclusão do índice na planilha

# Link de download
files.download(planilha_excel)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

**• Google Drive**

In [None]:
# Credenciais
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Caminho Google Drive
caminho_drive = '/content/drive/My Drive/dados_best_sellers_amazon_2020.xlsx'

#Conversão .xlsx
df.to_excel(caminho_drive, index=False)  # index=False evita a inclusão do índice no Excel

print(f'Dados salvos em {caminho_drive}')

#### **Utilitários**

• https://www.kaggle.com/datasets/edwardtoledolpez/amazon-mexico-top-50-best-sellers/data - Fonte de Dados Kaggle

'csv/br-books.csv'