<a href="https://colab.research.google.com/github/nogalinny/AluraONE01/blob/main/AluraStoreBrasil.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Importação dos dados



In [37]:
# Importando a biblioteca principal para manipulação de dados
import pandas as pd

# URLs dos arquivos CSV das quatro lojas
url = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_1.csv"
url2 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_2.csv"
url3 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_3.csv"
url4 = "https://raw.githubusercontent.com/alura-es-cursos/challenge1-data-science/refs/heads/main/base-de-dados-challenge-1/loja_4.csv"

# Leitura dos arquivos CSV de cada loja em um DataFrame
loja = pd.read_csv(url)
loja2 = pd.read_csv(url2)
loja3 = pd.read_csv(url3)
loja4 = pd.read_csv(url4)

# Visualiza as primeiras linhas da loja 1 (checagem da estrutura dos dados)
loja.head()

Unnamed: 0,Produto,Categoria do Produto,Preço,Frete,Data da Compra,Vendedor,Local da compra,Avaliação da compra,Tipo de pagamento,Quantidade de parcelas,lat,lon
0,Assistente virtual,eletronicos,219.08,9.24979,16/01/2021,Pedro Gomes,SP,4,cartao_credito,8,-22.19,-48.79
1,Mesa de jantar,moveis,256.35,11.234305,18/05/2022,Beatriz Moraes,RJ,1,cartao_credito,4,-22.25,-42.66
2,Jogo de tabuleiro,brinquedos,279.51,21.262681,15/03/2021,João Souza,DF,1,cartao_credito,1,-15.83,-47.86
3,Micro-ondas,eletrodomesticos,1009.99,54.667344,03/05/2022,João Souza,RS,4,boleto,1,-30.17,-53.5
4,Cadeira de escritório,moveis,446.99,26.964689,07/11/2020,Larissa Alves,MG,5,boleto,1,-18.1,-44.38


In [38]:
# Cria uma coluna identificando de qual loja veio cada linha
loja["loja"] = "loja_1"
loja2["loja"] = "loja_2"
loja3["loja"] = "loja_3"
loja4["loja"] = "loja_4"

# Concatena (junta) os 4 DataFrames em um único DataFrame geral
df = pd.concat([loja, loja2, loja3, loja4], ignore_index=True)

In [39]:
# Converte a coluna 'Data da Compra' de texto (string) para formato de data (datetime)
# O parâmetro 'format' define o padrão dia/mês/ano do arquivo original
df["Data da Compra"] = pd.to_datetime(df["Data da Compra"], format="%d/%m/%Y")

In [40]:
# Cria uma nova coluna chamada 'faturamento'
# Faturamento aqui foi definido como a soma do Preço do produto + Frete
df["faturamento"] = df["Preço"] + df["Frete"]

#1. Análise do faturamento



In [41]:
# Cria uma coluna 'ano_mes' agrupando a data no nível ano-mês
# Isso permite analisar o faturamento por período mensal
df["ano_mes"] = df["Data da Compra"].dt.to_period("M")

# Agrupa o faturamento por ano-mês e soma o valor em cada período
faturamento_mensal = df.groupby("ano_mes")["faturamento"].sum()

In [42]:
# Exibe a série de faturamento mensal
faturamento_mensal

Unnamed: 0_level_0,faturamento
ano_mes,Unnamed: 1_level_1
2020-01,150740.45676
2020-02,151612.488427
2020-03,169375.048611
2020-04,191170.080751
2020-05,171546.254346
2020-06,135734.086463
2020-07,167384.869048
2020-08,156854.692851
2020-09,163225.569386
2020-10,127275.90796


In [44]:
# Garante que a coluna de faturamento está criada (repetido, mas não atrapalha)
df["faturamento"] = df["Preço"] + df["Frete"]

# Agrupa os dados por categoria de produto e calcula o faturamento total por categoria
faturamento_por_categoria = (
    df.groupby("Categoria do Produto")["faturamento"]
      .sum()
      .sort_values(ascending=False)  # Ordena do maior faturamento para o menor
)

In [45]:
# Exibe o faturamento por categoria
faturamento_por_categoria

Unnamed: 0_level_0,faturamento
Categoria do Produto,Unnamed: 1_level_1
eletronicos,2332048.0
eletrodomesticos,1860199.0
moveis,1064150.0
instrumentos musicais,489701.5
esporte e lazer,200891.9
brinquedos,103502.4
utilidades domesticas,80921.72
livros,53007.43


In [46]:
# Agrupa os dados por loja e soma o faturamento de cada uma
faturamento_por_loja = df.groupby("loja")["faturamento"].sum()

In [47]:
# Exibe o faturamento total por loja
faturamento_por_loja

Unnamed: 0_level_0,faturamento
loja,Unnamed: 1_level_1
loja_1,1616347.0
loja_2,1567773.0
loja_3,1542048.0
loja_4,1458253.0


# 2. Vendas por Categoria

In [48]:
# Conta quantas vendas existem em cada categoria de produto
# value_counts conta a frequência de cada categoria
vendas_por_categoria = (
    df["Categoria do Produto"]
      .value_counts()
      .sort_values(ascending=False)  # Ordena da categoria mais vendida para a menos vendida
)

In [50]:
# Exibe a quantidade de vendas por categoria
vendas_por_categoria

Unnamed: 0_level_0,count
Categoria do Produto,Unnamed: 1_level_1
moveis,1886
eletronicos,1772
brinquedos,1290
eletrodomesticos,1149
esporte e lazer,1113
instrumentos musicais,753
livros,742
utilidades domesticas,730


# 3. Média de Avaliação das Lojas


In [51]:
# Calcula a média da avaliação da compra por loja
# Agrupa pela coluna 'loja' e tira a média das notas de 'Avaliação da compra'
media_avaliacao_lojas = (
    df.groupby("loja")["Avaliação da compra"]
      .mean()
      .round(2)  # Arredonda o resultado para 2 casas decimais
)

In [52]:
# Exibe a média de avaliação de cada loja
media_avaliacao_lojas

Unnamed: 0_level_0,Avaliação da compra
loja,Unnamed: 1_level_1
loja_1,3.98
loja_2,4.04
loja_3,4.05
loja_4,4.0


# 4. Produtos Mais e Menos Vendidos

In [53]:
# Identifica os 10 produtos mais vendidos
# value_counts conta quantas vezes cada produto aparece
produtos_mais_vendidos = (
    df["Produto"]
      .value_counts()
      .head(10)  # Seleciona apenas os 10 primeiros (mais vendidos)
)

In [54]:
# Exibe os produtos mais vendidos e suas quantidades
produtos_mais_vendidos

Unnamed: 0_level_0,count
Produto,Unnamed: 1_level_1
Cômoda,210
Carrinho controle remoto,206
Micro-ondas,206
Bateria,203
Cama king,201
Secadora de roupas,200
Modelagem preditiva,200
Jogo de panelas,200
Cama box,199
Blocos de montar,199


In [55]:
# Identifica os 10 produtos menos vendidos
# Aqui também usamos value_counts, mas pegamos os últimos da lista
produtos_menos_vendidos = (
    df["Produto"]
      .value_counts()
      .tail(10)  # Seleciona os 10 últimos (menos vendidos)
)

In [56]:
# Exibe os produtos menos vendidos e suas quantidades
produtos_menos_vendidos

Unnamed: 0_level_0,count
Produto,Unnamed: 1_level_1
Panela de pressão,172
Smartwatch,172
Jogo de copos,169
Poltrona,168
Assistente virtual,167
Ciência de dados com python,166
Guitarra,165
Mochila,163
Headset,158
Celular ABXY,157


# 5. Frete Médio por Loja

In [57]:
# Calcula o frete médio por loja
# Agrupa por loja e tira a média da coluna 'Frete'
frete_medio_loja = (
    df.groupby("loja")["Frete"]
      .mean()
      .round(2)  # Arredonda para 2 casas decimais
)

In [58]:
# Exibe o frete médio de cada loja
frete_medio_loja

Unnamed: 0_level_0,Frete
loja,Unnamed: 1_level_1
loja_1,34.69
loja_2,33.62
loja_3,33.07
loja_4,31.28
