# Desafio de Ciência de Dados - AluraStoreBr

Este notebook apresenta a análise exploratória e insights obtidos a partir dos dados de vendas da AluraStoreBr, abrangendo múltiplas lojas.

### 1. Importação e Combinação dos Dados

Nesta seção, os dados de vendas de cada loja (loja_1.csv a loja_4.csv) são carregados e combinados em um único DataFrame para facilitar a análise.

In [None]:
import pandas as pd
import os

# Caminho para a pasta com os arquivos CSV
path = "." # Assumindo que os CSVs estarão na mesma pasta ou subpasta no Colab

# Lista para armazenar os dataframes de cada loja
dfs = []

# Loop para ler cada arquivo CSV e adicionar à lista
for i in range(1, 5):
    file_path = os.path.join(path, f'loja_{i}.csv')
    # Tenta ler do caminho direto, se falhar, tenta da subpasta base-de-dados-challenge-1
    try:
        df = pd.read_csv(file_path)
    except FileNotFoundError:
        file_path = os.path.join(path, 'base-de-dados-challenge-1', f'loja_{i}.csv')
        df = pd.read_csv(file_path)
        
    df['Loja'] = f'Loja_{i}' # Adiciona uma coluna para identificar a loja
    dfs.append(df)

# Concatena todos os dataframes em um único dataframe
df_full = pd.concat(dfs, ignore_index=True)

# Exibe as primeiras linhas do dataframe combinado
print(df_full.head())

# Exibe informações gerais sobre o dataframe
print(df_full.info())

# Exibe estatísticas descritivas
print(df_full.describe())

### 2. Análise Exploratória de Dados (EDA)

Esta seção foca na exploração inicial dos dados para entender suas características, identificar padrões, anomalias e relações entre as variáveis.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Verificação de valores ausentes
print("
Valores ausentes por coluna:")
print(df_full.isnull().sum())

# 2. Análise de categorias de produtos
print("
Contagem de vendas por Categoria do Produto:")
print(df_full["Categoria do Produto"].value_counts())

plt.figure(figsize=(12, 6))
sns.countplot(data=df_full, y="Categoria do Produto", order=df_full["Categoria do Produto"].value_counts().index)
plt.title("Vendas por Categoria do Produto")
plt.xlabel("Número de Vendas")
plt.ylabel("Categoria do Produto")
plt.tight_layout()
plt.show()

# 3. Análise de vendedores
print("
Contagem de vendas por Vendedor:")
print(df_full["Vendedor"].value_counts())

plt.figure(figsize=(12, 6))
sns.countplot(data=df_full, y="Vendedor", order=df_full["Vendedor"].value_counts().index)
plt.title("Vendas por Vendedor")
plt.xlabel("Número de Vendas")
plt.ylabel("Vendedor")
plt.tight_layout()
plt.show()

# 4. Análise de tipos de pagamento
print("
Contagem de vendas por Tipo de pagamento:")
print(df_full["Tipo de pagamento"].value_counts())

plt.figure(figsize=(8, 6))
sns.countplot(data=df_full, x="Tipo de pagamento", order=df_full["Tipo de pagamento"].value_counts().index)
plt.title("Vendas por Tipo de Pagamento")
plt.xlabel("Tipo de Pagamento")
plt.ylabel("Número de Vendas")
plt.tight_layout()
plt.show()

# 5. Análise de avaliação da compra
print("
Contagem de Avaliação da compra:")
print(df_full["Avaliação da compra"].value_counts().sort_index(ascending=False))

plt.figure(figsize=(8, 6))
sns.countplot(data=df_full, x="Avaliação da compra", order=df_full["Avaliação da compra"].value_counts().sort_index(ascending=False).index)
plt.title("Distribuição da Avaliação da Compra")
plt.xlabel("Avaliação da Compra")
plt.ylabel("Número de Vendas")
plt.tight_layout()
plt.show()

# 6. Análise de sazonalidade (convertendo 'Data da Compra' para datetime)
df_full["Data da Compra"] = pd.to_datetime(df_full["Data da Compra"], format="%d/%m/%Y")
df_full["Mes"] = df_full["Data da Compra"].dt.month
df_full["Ano"] = df_full["Data da Compra"].dt.year

print("
Vendas por Mês:")
print(df_full["Mes"].value_counts().sort_index())

plt.figure(figsize=(10, 6))
sns.countplot(data=df_full, x="Mes")
plt.title("Vendas por Mês")
plt.xlabel("Mês")
plt.ylabel("Número de Vendas")
plt.tight_layout()
plt.show()

print("
Vendas por Ano:")
print(df_full["Ano"].value_counts().sort_index())

plt.figure(figsize=(10, 6))
sns.countplot(data=df_full, x="Ano")
plt.title("Vendas por Ano")
plt.xlabel("Ano")
plt.ylabel("Número de Vendas")
plt.tight_layout()
plt.show()

# 7. Análise de Local da compra (top 10)
print("
Contagem de vendas por Local da compra (Top 10):")
print(df_full["Local da compra"].value_counts().head(10))

plt.figure(figsize=(12, 6))
sns.countplot(data=df_full, y="Local da compra", order=df_full["Local da compra"].value_counts().head(10).index)
plt.title("Top 10 Locais de Compra")
plt.xlabel("Número de Vendas")
plt.ylabel("Local da Compra")
plt.tight_layout()
plt.show()

# 8. Análise de Preço e Frete
plt.figure(figsize=(10, 6))
sns.histplot(df_full["Preço"], bins=50, kde=True)
plt.title("Distribuição de Preços")
plt.xlabel("Preço")
plt.ylabel("Frequência")
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.histplot(df_full["Frete"], bins=50, kde=True)
plt.title("Distribuição de Frete")
plt.xlabel("Frete")
plt.ylabel("Frequência")
plt.tight_layout()
plt.show()

# 9. Relação entre Preço e Frete
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_full, x="Preço", y="Frete", alpha=0.6)
plt.title("Relação entre Preço e Frete")
plt.xlabel("Preço")
plt.ylabel("Frete")
plt.tight_layout()
plt.show()

# 10. Análise de Loja
print("
Contagem de vendas por Loja:")
print(df_full["Loja"].value_counts())

plt.figure(figsize=(8, 6))
sns.countplot(data=df_full, x="Loja", order=df_full["Loja"].value_counts().index)
plt.title("Vendas por Loja")
plt.xlabel("Loja")
plt.ylabel("Número de Vendas")
plt.tight_layout()
plt.show()

### 3. Análises Aprofundadas e Insights

Esta seção explora métricas de desempenho e relações mais complexas entre as variáveis para extrair insights acionáveis.

In [None]:
# Convertendo 'Data da Compra' para datetime
df_full["Data da Compra"] = pd.to_datetime(df_full["Data da Compra"], format="%d/%m/%Y")

# 1. Análise de Desempenho por Vendedor (Receita Total)
# Calculando a receita total por venda (Preço + Frete)
df_full["Receita Total"] = df_full["Preço"] + df_full["Frete"]

vendedor_receita = df_full.groupby("Vendedor")["Receita Total"].sum().sort_values(ascending=False)
print("
Receita Total por Vendedor:")
print(vendedor_receita)

# 2. Análise de Desempenho por Categoria de Produto (Receita Total)
categoria_receita = df_full.groupby("Categoria do Produto")["Receita Total"].sum().sort_values(ascending=False)
print("
Receita Total por Categoria do Produto:")
print(categoria_receita)

# 3. Análise de Preço Médio por Categoria de Produto
preco_medio_categoria = df_full.groupby("Categoria do Produto")["Preço"].mean().sort_values(ascending=False)
print("
Preço Médio por Categoria do Produto:")
print(preco_medio_categoria)

# 4. Análise de Frete Médio por Categoria de Produto
frete_medio_categoria = df_full.groupby("Categoria do Produto")["Frete"].mean().sort_values(ascending=False)
print("
Frete Médio por Categoria do Produto:")
print(frete_medio_categoria)

# 5. Análise de Avaliação Média por Vendedor
avaliacao_media_vendedor = df_full.groupby("Vendedor")["Avaliação da compra"].mean().sort_values(ascending=False)
print("
Avaliação Média por Vendedor:")
print(avaliacao_media_vendedor)

# 6. Análise de Vendas ao Longo do Tempo (Mensal)
vendas_mensais = df_full.set_index("Data da Compra").resample("M")["Receita Total"].sum()
print("
Vendas Mensais:")
print(vendas_mensais)

# 7. Análise de Vendas por Local da Compra (Receita Total)
local_receita = df_full.groupby("Local da compra")["Receita Total"].sum().sort_values(ascending=False)
print("
Receita Total por Local da Compra (Top 10):")
print(local_receita.head(10))

# 8. Análise de Vendas por Tipo de Pagamento (Receita Total)
pagamento_receita = df_full.groupby("Tipo de pagamento")["Receita Total"].sum().sort_values(ascending=False)
print("
Receita Total por Tipo de Pagamento:")
print(pagamento_receita)
