# CASE QUOD - Análise Exploratória dos Dados de Vendas

In [171]:
import pandas as pd  # Análise e manipulação de dados.
import plotly.express as px  # Geração rápida de gráficos.
import plotly.graph_objects as go  # Gráficos customizados/complexos.

In [172]:
# Carregando os dados
dados = pd.read_csv("C:/Users/Mateus Santos/Desktop/case/arquivos/dados_clean.csv")
dados.head()

Unnamed: 0,id,Data,Produto,Categoria,Quantidade,Preço,Total de Vendas
0,2,2023-11-27,Placa-mãe ASUS Prime B660M,Placa-mãe,2,1263.57,2527.14
1,1,2023-03-22,Processador Intel Core i7 13ª Geração,Processador,1,1938.78,1938.78
2,4,2023-01-25,SSD NVMe 1TB,Armazenamento,5,444.64,2223.2
3,9,2023-10-17,Water cooler 240mm,Water cooler,2,440.26,880.52
4,1,2023-04-19,Processador Intel Core i7 13ª Geração,Processador,3,1657.05,4971.15


## Produtos Vendidos com Mais Frequência

In [173]:
# Tabela de contagem
dados['Produto'].value_counts() 

Produto
Water cooler 240mm                       11
Placa-mãe ASUS Prime B660M               10
SSD NVMe 1TB                              9
Gabinete ATX com lateral em vidro         8
Ventoinha RGB 120mm                       8
Placa de vídeo NVIDIA RTX 4070 Ti         7
Fonte modular 750W 80 Plus Gold           7
Memória RAM DDR5 16GB 5200MHz             7
Processador Intel Core i7 13ª Geração     6
Cooler a ar para CPU                      6
Name: count, dtype: int64

Através da tabela de contagem, é possível observar qual item foi mais vendido:  
o **Water Cooler** ficou em primeiro lugar, seguido da **Placa-mãe ASUS Prime B660M**.

## Valores Discrepantes (Outliers)


Outliers, ou valores discrepantes, são observações que podem influenciar a média de forma positiva ou negativa.  
Em outras palavras, são pontos que se diferenciam significativamente do restante dos dados.  

Para identificar esses valores, será utilizado o **gráfico de caixa (boxplot)**.

Criação de Funções para Gráficos de Caixa

In [174]:
def boxplots(df, coluna):
    # Gera um boxplot simples para análise univariada da 'coluna' numérica.

    try:  # Inicia tratamento de erros 
        fig = px.box(df, y=coluna, width=1000, height=620, title=f'Boxplot de {coluna}')  # Cria o boxplot.

        fig.update_traces(quartilemethod="exclusive")  # Usa o método 'exclusive' para cálculo de quartis.
        fig.update_layout(template="simple_white")  # Aplica um tema visual limpo.

        fig.show()  # Exibe o gráfico interativo do Plotly.

    except Exception as e:
        print(f"Erro ao criar o boxplot: {e}")  # Reporta o erro capturado.


def multi_boxplot(df, coluna_str, coluna_num):
    # Gera boxplots comparativos, agrupados pela 'coluna_str' categórica.

    try:  # Inicia tratamento de erros.
        fig = px.box(df, x=coluna_str, y=coluna_num, color=coluna_str)

        fig.update_traces(quartilemethod="exclusive")  # Define o método de cálculo de quartis.
        # Define título e dimensões, garantindo legibilidade.
        fig.update_layout(title_text=f'Boxplot de {coluna_num} por {coluna_str}',
                          width=1000,
                          height=620,
                          template="simple_white")

        fig.show()  # Exibe o gráfico interativo.

    except Exception as e:
        # Mensagem de erro mais específica para o contexto da função.
        print(f"Erro ao criar o boxplot com outliers: {e}")

### Criando Boxplot para a variável **Preço**

In [175]:
# Plotando o boxplot para a variável Preço
boxplots(dados,'Preço')

Através do gráfico, observa-se que a variável `Preço` apresenta baixa dispersão, com alguns outliers acima do valor médio.

- Observndo a mesma variável sobre os Produtos:


In [176]:
# Boxplot de Preço por Categoria
multi_boxplot(dados,'Categoria','Preço')

Ao analisar os boxplots de cada categoria, observa-se que a maioria apresenta baixa dispersão nos dados, ou seja, os gráficos de caixa estão mais compactos.  
Além disso, ao verificar as distribuições de preços por categoria, não foram identificados outliers.


### Boxplot da variável **Quantidade**

In [177]:
# Boxplot da variável Quantidade
boxplots(dados,'Quantidade')

Ao analisar o gráfico, observa-se a presença de valores discrepantes acima do limite superior.  
Além disso, a variável apresenta baixa dispersão em torno da mediana.


- Observando a variável Quantidade em relação as categorias:

In [178]:
# Boxplot da variável Quantidade por Categoria
multi_boxplot(dados,'Categoria','Quantidade')

Observando a variável `Quantidade` nos subgrupos da categoria, nota-se que a maioria apresenta baixa dispersão: **Processador, Armazenamento, Water Cooler, Fonte, Ventoinha** e **Cooler a Ar**.  
As categorias com maior dispersão são: **Placa-mãe**, **Gabinete** (com a maior dispersão) e **Memória RAM**, que ainda apresenta um outlier.


### Boxplot da variável **Vendas Total**

In [179]:
# Boxplot para variável Vendas total
boxplots(dados,'Total de Vendas')

Ao observar os dados do `Total de Vendas`, percebe-se que apresentam baixa dispersão, evidenciada pela largura reduzida do boxplot.  
Além disso, é possível identificar a presença de outliers na variável.


- Variável total de vendas em relação aos produtos

In [180]:
# Boxplot da variável Total de Vendas por Categoria
multi_boxplot(dados,'Categoria','Total de Vendas')

Ao observar os subgrupos por categoria, percebe-se que a maioria apresenta baixa dispersão.  
Exceções: **Placa-mãe** e **Placa de Vídeo**, que apresentam maior dispersão em torno da mediana.  
Além disso, **Gabinete** e **Memória RAM** possuem outliers superiores.


## Estatísticas Descritivas

Nesta etapa, vamos resumir nossas variáveis utilizando medidas descritivas, que incluem:

- **Média:** valor médio dos dados, calculado como a soma de todos os valores dividida pelo número de observações.  
- **1º Quartil (Q1):** valor abaixo do qual 25% dos dados estão; indica a posição inicial da distribuição.  
- **Mediana:** valor central dos dados quando ordenados; divide os dados em duas partes iguais.  
- **3º Quartil (Q3):** valor abaixo do qual 75% dos dados estão; indica a posição final da distribuição antes do topo.  
- **Desvio Padrão (DP):** mede o quanto os dados se afastam da média; quanto maior, maior a dispersão.  
- **Variância:** desvio padrão ao quadrado; também mede dispersão, mas em unidades ao quadrado.  
- **Mínimo:** menor valor do conjunto de dados.  
- **Máximo:** maior valor do conjunto de dados.  
- **Coeficiente de Variação (CV):** razão entre desvio padrão e média; mede a dispersão relativa independente da escala dos dados.


In [181]:
def medidas_descritivas(df):
    # Calcula as principais estatísticas descritivas para uma 'coluna' numérica.

    try:  # Bloco para tratar erros (ex: coluna inexistente, erro de cálculo).

        # Cria e retorna um DataFrame com as medidas estatísticas em uma única linha.
        return pd.DataFrame([{
            "Coluna": coluna,
            'Média': round(df[coluna].mean(), 2),
            '1 quartil': round(df[coluna].quantile(0.25), 2),  # Q1 (25º percentil).
            'Mediana': round(df[coluna].median(), 2),          # Q2 (50º percentil).
            '3 quartil': round(df[coluna].quantile(0.75), 2),  # Q3 (75º percentil).
            'Desvio Padrão': round(df[coluna].std(), 2),
            'Variância': round(df[coluna].var(), 2),
            'Mínimo': round(df[coluna].min(), 2),
            'Máximo': round(df[coluna].max(), 2),
            # Coeficiente de Variação (CV): Mede a dispersão relativa (std/mean) em %.
            'CV': round(df[coluna].std() / df[coluna].mean() * 100, 2)
        }
        for coluna in df.select_dtypes(include=['int64','float64']) if coluna != "id"])  # Gera o DataFrame para a coluna especificada.

    except Exception as e:
        print(f"Erro ao calcular medidas descritivas: {e}")  # Imprime o erro.
        return pd.DataFrame()  # Retorna DataFrame vazio em caso de falha.

- Estatísticas descritivas

In [182]:
medidas_descritivas(dados)  # Calcula e exibe as medidas descritivas para todas as colunas numéricas.

Unnamed: 0,Coluna,Média,1 quartil,Mediana,3 quartil,Desvio Padrão,Variância,Mínimo,Máximo,CV
0,Quantidade,9.86,3.0,6.0,12.0,10.22,104.51,1.0,52.0,103.67
1,Preço,1023.35,366.46,565.63,979.32,1342.78,1803067.0,50.12,5473.04,131.21
2,Total de Vendas,8625.95,1157.67,3075.6,9896.12,13110.41,171882700.0,250.6,65676.48,151.99


- **Quantidade**  
A média é 9,86 unidades e a mediana é 6, indicando que metade das vendas está concentrada em valores menores.  
O coeficiente de variação (CV) de 103,67% indica alta variabilidade, e o valor máximo de 52 confirma a presença de registros muito acima da média.

- **Preço**  
A média é R$ 1.023,35, enquanto a mediana é R$ 565,63, evidenciando assimetria à direita, com alguns produtos muito caros elevando a média.  
O CV de 131,21% demonstra grande dispersão, com preços variando entre R$ 50,12 e R$ 5.473,04.

- **Total de Vendas**  
A média é R$ 8.625,95, mas a mediana é R$ 3.075,60, indicando forte assimetria.  
O CV de 151,99% mostra altíssima variabilidade, e o valor máximo de R$ 65.676,48 reforça a presença de outliers.


## Assimetria, Curtose e Normalidade dos Dados

Durante o teste de normalidade, observou-se que **nenhuma variável segue uma distribuição normal**.  
Portanto, será utilizado o **teste de correlação de Spearman** para avaliar a relação entre as variáveis.

### Assimetria e Curtose

- **Assimetria (Skewness):** mede o grau de simetria da distribuição dos dados.  
  - Valor próximo de 0: distribuição simétrica.  
  - Valor positivo: cauda direita mais longa (assimetria à direita).  
  - Valor negativo: cauda esquerda mais longa (assimetria à esquerda).  

- **Curtose (Kurtosis):** mede o “achatamento” ou “pontiagudez” da distribuição.  
  - Curtose ≈ 3: distribuição normal (mesocúrtica).  
  - Curtose > 3: caudas mais pesadas e pico mais alto (leptocúrtica).  
  - Curtose < 3: distribuição mais achatada, caudas mais leves (platicúrtica).  



In [183]:
def Tabela_assimetria(df) -> pd.DataFrame:
    # Calcula e retorna Assimetria (Skewness) e Curtose (Kurtosis) para colunas numéricas.

    try:  # Inicia tratamento de erros (ex: DataFrame vazio, sem colunas numéricas).

        # Cria um DataFrame iterando apenas sobre colunas de tipo numérico.
        return pd.DataFrame([
            {
                'Coluna': coluna,
                'Assimetria': df[coluna].skew(),     # Mede a falta de simetria na distribuição.
                'Curtose': df[coluna].kurtosis()     # Mede o "peso" das caudas e o pico da distribuição.
            }
            # Itera sobre colunas numéricas, excluindo a coluna 'id' se existir.
            for coluna in df.select_dtypes(include=['number']).columns
            if coluna != 'id'
        ])

    except Exception as e:
        print(f"Erro ao calcular assimetria e curtose: {e}")  # Reporta o erro.
        return pd.DataFrame()  # Retorna DataFrame vazio em caso de falha.

In [184]:
Tabela_assimetria(dados) # Exibe a tabela de Assimetria e Curtose para colunas numéricas.

Unnamed: 0,Coluna,Assimetria,Curtose
0,Quantidade,1.849813,3.578481
1,Preço,2.414902,4.926838
2,Total de Vendas,2.735461,8.230734


Através da tabela, observa-se que todas as variáveis apresentam assimetria acima de zero, indicando cauda direita mais longa.  
Além disso, todas possuem curtose acima de 3, ou seja, suas distribuições não são platicúrticas; apresentam caudas mais pesadas e picos mais altos.  

A seguir, serão exibidos os histogramas das variáveis.


In [185]:
# Gráfico de linhas para a variável Quantidade ao longo do tempo
import plotly.figure_factory as ff

In [186]:
def histograma(df, coluna, nbins=10):
    # Gera um histograma com curva de densidade (Distplot) para a 'coluna'.

    try:  # Inicia tratamento de erros 

        hist_data = [df[coluna].dropna()]  # Prepara os dados: lista da série sem valores nulos.
        group_labels = [coluna]  # Define o rótulo da série de dados.

        # Cria o Distplot
        bin_calc = (df[coluna].max() - df[coluna].min()) / nbins # Cálculo do tamanho da barra.
        fig = ff.create_distplot(hist_data,
                                 group_labels,
                                 bin_size=bin_calc,
                                 show_rug=False, # Oculta o gráfico de dispersão na base.
                                 colors=["#040D8A"])

        # Define o layout e o tema do gráfico.
        fig.update_layout(title_text=f'Histograma de {coluna}',
                          width=800,
                          height=620,
                          template="simple_white")

        fig.show()  # Exibe o gráfico interativo.

    except Exception as e:
        print(f"Erro ao criar o histograma: {e}") # Reporta o erro.

In [187]:
# Plotando o histograma para a variável Quantidade
histograma(dados, 'Quantidade', nbins=20)

In [188]:
# Plotando o histograma para a variável Preço
histograma(dados, 'Preço', nbins=20)

In [189]:
# Plotando o histograma para a variável Total de Vendas
histograma(dados, 'Total de Vendas', nbins=20)

### Normalidade

$H_{0}$: Os dados seguem uma distribuição normal

$H_{1}$: Os dados não seguem a distribuição normal

In [190]:
from scipy import stats # Biblioteca para testes estatísticos 

In [191]:
# Função de normalidade
def normalidade(df, coluna):
    # Define a função 'normalidade' para testar a normalidade de uma coluna numérica.

    try:
        # Realiza o teste de Shapiro-Wilk para verificar a normalidade.
        stat, p = stats.shapiro(df[coluna].dropna())
        print(f"Estatística de Shapiro-Wilk: {stat}, p-valor: {p}")

        # Interpreta o p-valor.
        alpha = 0.05
        if p > alpha:
            print("A amostra parece ser normalmente distribuída (não rejeita H0)")
        else:
            print("A amostra não parece ser normalmente distribuída (rejeita H0)")

    except Exception as e:
        print(f"Erro ao testar normalidade: {e}")

In [192]:
for coluna in ['Preço', 'Quantidade', 'Total de Vendas']:
    print(f"\nTeste de normalidade para a coluna: {coluna}")
    normalidade(dados, coluna)


Teste de normalidade para a coluna: Preço
Estatística de Shapiro-Wilk: 0.6177600944405379, p-valor: 4.980972984625701e-13
A amostra não parece ser normalmente distribuída (rejeita H0)

Teste de normalidade para a coluna: Quantidade
Estatística de Shapiro-Wilk: 0.7744304715077358, p-valor: 1.1418757897687474e-09
A amostra não parece ser normalmente distribuída (rejeita H0)

Teste de normalidade para a coluna: Total de Vendas
Estatística de Shapiro-Wilk: 0.6370711686247477, p-valor: 1.1291906877602309e-12
A amostra não parece ser normalmente distribuída (rejeita H0)


Podemos concluir que não há evidências estatísticas indicando que nossas colunas seguem uma distribuição normal.

## Gráficos de linhas

In [193]:
def grafico_de_linhas(df, valor:str):
    # Gera um gráfico de linha temporal para a coluna 'valor'.

    try:
        df = df.sort_values(by='Data')  # Garante que os dados estejam ordenados pela coluna 'Data'.
        # Cria o gráfico de linha: 
        fig = px.line(df, x='Data', y=valor, title=f'Gráfico de Linha: {valor} ao longo do tempo', markers=True)

        fig.update_layout(width=900, height=600, template="simple_white") # Define dimensões e tema do gráfico.
        fig.show() # Exibe o gráfico interativo.

    except Exception as e:
        print(f"Erro ao criar o gráfico de linhas: {e}") # Reporta o erro (ex: coluna 'Data' ou 'valor' não existe).

In [194]:
# Gráfico de linhas para a variável Preço ao longo do tempo
grafico_de_linhas(dados,'Preço')

O preço médio por transação também é extremamente volátil. Os picos de preço mais altos, superando 5000, ocorreram em maio, setembro e novembro de 2023.

In [195]:
# Gráfico de linhas para a variável Quantidade ao longo do tempo
grafico_de_linhas(dados,'Quantidade')

A quantidade de itens vendidos mostra uma alta volatilidade, com picos muito acentuados e curtos. O pico mais significativo ocorreu em julho de 2023, superando 50 unidades. Outros picos notáveis aconteceram em janeiro e maio de 2023. Essa irregularidade sugere que as vendas são impulsionadas por eventos específicos

In [196]:
# Gráfico de linhas para a variável Total de Vendas ao longo do tempo
grafico_de_linhas(dados,'Total de Vendas')

O faturamento (Total de Vendas) segue um padrão de picos muito semelhante ao gráfico de Quantidade. Os maiores picos de receita ocorreram em maio e setembro de 2023, ultrapassando 60k.

## Correlações

Durante o teste de normalidade, observou-se que nenhuma das variáveis segue distribuição normal.  
Portanto, será utilizado o **teste de correlação de Spearman** para avaliar a relação entre as variáveis.

In [197]:
dados[['Preço','Quantidade','Total de Vendas']].corr(method='spearman') # Matriz de correlação usando o método de Spearman

Unnamed: 0,Preço,Quantidade,Total de Vendas
Preço,1.0,-0.185943,0.580867
Quantidade,-0.185943,1.0,0.633586
Total de Vendas,0.580867,0.633586,1.0


In [198]:
def scatter_matrix(dados, colunas):
    # Cria uma matriz de dispersão para visualizar relações pareadas entre múltiplas colunas.
    try:
        fig = px.scatter_matrix(dados, dimensions=colunas)
        # Define título e aplica um tema visual.
        fig.update_layout(title='Scatter Matrix', template="ggplot2")
        fig.show() # Exibe o gráfico interativo.
    except Exception as e:
        print(f"Erro ao criar o scatter matrix: {e}") # Trata erros (ex: colunas inexistentes ou incompatíveis).


In [199]:
# Scatter matrix para as variáveis Preço, Quantidade e Total de Vendas
scatter_matrix(dados,['Preço','Quantidade','Total de Vendas'])

Observando os resultados dos **coeficientes de Pearson** e da **matriz de correlação**, nota-se que:  

- As variáveis **Quantidade** e **Total de Vendas** apresentam **correlação moderada**.  
- Da mesma forma, **Preço** e **Total de Vendas** possuem **correlação moderada**.  
- Existe uma **correlação negativa** entre **Preço** e **Quantidade**.
