<a href="https://colab.research.google.com/github/MatheusHavoc/walmart/blob/main/Walmart.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Lamentavelmente, o Github.com não suporta gráficos em HTML, o que dificulta a visualização dos gráficos gerados neste projeto. Para que possa ter acesso aos gráficos gerados, recomendamos que clique no botão acima para abrir o Colab. Assim, você poderá visualizar de forma mais elaborada os gráficos gerados, sem necessidade executar o código novamente.

O projeto foi desenvolvido em conjunto com um relatório completo, contendo todas as informações relevantes. O relatório estará disponível no Google Drive para consulta. Sinta-se à vontade para analisá-lo.

https://drive.google.com/file/d/1hxx6KCVKctR1EVMA2XLlbDOId1-_7vuY/view?usp=sharing


# General settings

##Conexão com Drive Google

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Instalações bibliotecas

##Importações bibliotecas

In [2]:
# relacionadas a dados
import pandas as pd
import numpy as np
#------------------------------
# relacionadas a gráficos
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import plotly.express as px
import plotly.subplots as sp

##Carregamentos dos dados - Drive

In [3]:
df = pd.read_csv('/content/drive/MyDrive/arquivos análise /Walmart.csv')

##Carregamentos dos dados - Manualmente

In [4]:
#from google.colab import files
#files.upload()

# *---------------------------------------------------------

# DATA UNDERSTANDING

Visualização básica dos dados

In [5]:
df.head(3)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,05-02-2010,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,12-02-2010,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,19-02-2010,1611968.17,0,39.93,2.514,211.289143,8.106


## Entendimento das colunas


1. **Store**: Número da Loja - Esta coluna contém o número identificador único de cada loja. Cada loja terá um valor exclusivo nessa coluna.

2. **Date**: Semana de Venda - Nesta coluna, são registradas as datas das semanas de venda ou período de tempo correspondente a cada registro.

3. **Weekly_Sales**: Venda Naquela Semana - Essa coluna indica o valor das vendas realizadas na respectiva semana, representando o total de vendas acumuladas ou realizadas naquela semana.

4. **Holiday_Flag**: Flag se é ou não semana com feriado - Esta coluna contém um valor binário que indica se a semana em questão é uma semana com feriado (1) ou não (0). Essa informação pode ser útil para análise de vendas durante períodos de feriados.

5. **Temperature**: Temperatura do dia em °F - Aqui são registradas as temperaturas do dia na região da loja, geralmente em graus Fahrenheit (°F).

6. **Fuel_Price**: Preço do combustível na região da loja - Nessa coluna, é registrado o preço médio do combustível na região onde a loja está localizada. Essa informação pode ser relevante para entender o comportamento dos consumidores e suas despesas relacionadas ao transporte.

7. **CPI**: Índice de preços ao consumidor - O Índice de Preços ao Consumidor (CPI) é uma medida que reflete as mudanças médias nos preços de um conjunto de bens e serviços consumidos por famílias. Ele ajuda a avaliar a inflação e o poder de compra dos consumidores.

8. **Unemployment**: Taxa de desemprego - Nesta coluna, é registrada a taxa de desemprego na região onde a loja está localizada. Esse dado pode ser relevante para entender o contexto econômico local e sua influência nas vendas.


Obtendo a dimensão da tabela

In [6]:
dimensoes = df.shape
num_linhas = dimensoes[0]
num_colunas = dimensoes[1]

print("Número de linhas:", num_linhas)
print("Número de colunas:", num_colunas)

Número de linhas: 6435
Número de colunas: 8


##Tipos dos dados

In [7]:
df.dtypes

Store             int64
Date             object
Weekly_Sales    float64
Holiday_Flag      int64
Temperature     float64
Fuel_Price      float64
CPI             float64
Unemployment    float64
dtype: object

Verificar as estatísticas básicas das colunas

In [8]:
df.describe(include='all', datetime_is_numeric=True).T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
Store,6435.0,,,,23.0,12.988182,1.0,12.0,23.0,34.0,45.0
Date,6435.0,143.0,05-02-2010,45.0,,,,,,,
Weekly_Sales,6435.0,,,,1046964.877562,564366.622054,209986.25,553350.105,960746.04,1420158.66,3818686.45
Holiday_Flag,6435.0,,,,0.06993,0.255049,0.0,0.0,0.0,0.0,1.0
Temperature,6435.0,,,,60.663782,18.444933,-2.06,47.46,62.67,74.94,100.14
Fuel_Price,6435.0,,,,3.358607,0.45902,2.472,2.933,3.445,3.735,4.468
CPI,6435.0,,,,171.578394,39.356712,126.064,131.735,182.616521,212.743293,227.232807
Unemployment,6435.0,,,,7.999151,1.875885,3.879,6.891,7.874,8.622,14.313


##  Qualidade dos dedos

### Nulos

In [9]:
(
    df.isna().sum()
    .to_frame('df_Faltantes')
)

Unnamed: 0,df_Faltantes
Store,0
Date,0
Weekly_Sales,0
Holiday_Flag,0
Temperature,0
Fuel_Price,0
CPI,0
Unemployment,0


### Duplicados

Realizando uma verificação para identificar se há valores duplicados nas colunas

In [10]:
colunas = df.columns

duplicatas = df.duplicated(subset=colunas, keep=False)
duplicatas = duplicatas.replace({False: 'Sem duplicados:', True: 'Dados duplicados:'})
print('-'*24)
print('Resultado')
print(duplicatas.value_counts())
print('-'*24)

------------------------
Resultado
Sem duplicados:    6435
dtype: int64
------------------------


### Renomear colunas

In [11]:
df = df.rename(columns={
    'Store': 'Loja',
    'Date': 'Data',
    'Weekly_Sales': 'Vendas_Semanais',
    'Holiday_Flag': 'Feriado',
    'Temperature': 'Temperatura',
    'Fuel_Price': 'Preco_Combustivel',
    'CPI': 'Indice_CPI',
    'Unemployment': 'Taxa_Desemprego'
})

### Outliers

**FUNÇÃO**

Verificação outliers -  IQR (Intervalo Interquartil)

In [12]:
def detectar_outliers(data, threshold=1.5):
    """
    Calcula os outliers em um array de dados e classifica-os como muito alto, alto, médio, baixo ou insignificante.

    Args:
        data (array-like): Array de dados.
        threshold (float): Limiar para identificar outliers. O padrão é 1.5.

    Returns:
        str: Classificação dos outliers: 'muito alto', 'alto', 'médio', 'baixo' ou 'insignificante'.
    """
    quartile_1 = np.percentile(data, 25)
    quartile_3 = np.percentile(data, 75)
    iqr = quartile_3 - quartile_1

    lower_bound = quartile_1 - threshold * iqr
    upper_bound = quartile_3 + threshold * iqr

    outliers = [x for x in data if x < lower_bound or x > upper_bound]

    if len(outliers) == 0:
        return 'sem outliers'
    elif np.mean(outliers) > np.mean(data):
        if np.mean(outliers) > np.mean(data) + 3 * np.std(data):
            return 'muito alto'
        else:
            return 'alto'
    elif np.mean(outliers) < np.mean(data):
        if np.mean(outliers) < np.mean(data) - 3 * np.std(data):
            return 'insignificante'
        else:
            return 'baixo'
    else:
        return 'médio'

In [54]:
def box_outliers(df, columns, titulo):
    """
    Função para exibir gráficos de boxplot e identificar outliers em um DataFrame.

    Parâmetros:
    - df: DataFrame - O DataFrame que contém os dados.
    - columns: list - Uma lista das colunas a serem analisadas.
    - titulo: str - O título do gráfico.

    Retorna:
    None - Exibe o gráfico de boxplot.
    """
    data = df[columns]
    quartiles = data.quantile([0.25, 0.75])

    lower_limit = quartiles.loc[0.25] - 1.5 * (quartiles.loc[0.75] - quartiles.loc[0.25])
    upper_limit = quartiles.loc[0.75] + 1.5 * (quartiles.loc[0.75] - quartiles.loc[0.25])

    outliers = ((data < lower_limit) | (data > upper_limit)).any(axis=1)
    outlier_data = data[outliers]

    fig = px.box(df, y=columns, title=titulo)
    #fig.update_layout(template='plotly_dark')
    fig.show()

Colunas extratos

In [55]:
colunas_interesse = ['Vendas_Semanais', 'Feriado', 'Temperatura',
       'Preco_Combustivel', 'Indice_CPI', 'Taxa_Desemprego']

for coluna in colunas_interesse:
    data = df[coluna].values
    outliers_classificacao = detectar_outliers(data)

    print(f"Coluna: {coluna}")
    print(f"Classificação dos outliers: {outliers_classificacao}")
    print("---------------------------")
    #print("\n") linha em branco

Coluna: Vendas_Semanais
Classificação dos outliers: muito alto
---------------------------
Coluna: Feriado
Classificação dos outliers: muito alto
---------------------------
Coluna: Temperatura
Classificação dos outliers: insignificante
---------------------------
Coluna: Preco_Combustivel
Classificação dos outliers: sem outliers
---------------------------
Coluna: Indice_CPI
Classificação dos outliers: sem outliers
---------------------------
Coluna: Taxa_Desemprego
Classificação dos outliers: alto
---------------------------


Após a análise dos dados, identificamos colunas que possuem valores atípicos (outliers), os quais podem indicar comportamentos incomuns ou variações significativas nos dados coletados. Para uma melhor compreensão, foram gerados gráficos boxplot para visualizar esses outliers nas seguintes colunas:

1. Coluna: Vendas_Semanais
   Nesta coluna, foram encontrados outliers com valores muito altos, que ficam fora das caixas do boxplot, indicando vendas excepcionalmente elevadas em algumas semanas específicas.

2. Coluna: Feriado
   A coluna "Feriado" também apresentou outliers com valores muito altos, representando semanas em que houve vendas incomumente altas em períodos de feriado.

3. Coluna: Taxa_Desemprego
   Na coluna "Taxa_Desemprego", foram identificados outliers com valores altos, indicando períodos de alta taxa de desemprego, que podem impactar negativamente as vendas.

Essas visualizações são importantes para entender a distribuição dos dados e possibilitam uma análise mais detalhada dessas colunas específicas. A identificação de outliers pode fornecer insights valiosos para tomada de decisões e investigação de eventos atípicos nos dados de vendas e desempenho das lojas.

In [56]:
columns = ['Vendas_Semanais', 'Feriado', 'Taxa_Desemprego']
box_outliers(df,columns,"outliers")

Após a análise dos dados, constatamos que a coluna de "Vendas_Semanais" apresenta valores muito altos em comparação com as demais colunas do conjunto de dados. Devido a essa disparidade, optamos por gerar três gráficos boxplot individuais para melhor visualização e análise das informações.

In [87]:
columns_1 = ["Vendas_Semanais"]
data_1 = df[columns_1]

columns_2 = ['Feriado']
data_2 = df[columns_2]

columns_3 = ["Taxa_Desemprego"]
data_3 = df[columns_3]

cores = ['#004c6d', '#0082a8', '#00a8e8', '#00d4ff', '#71e8ff', '#b2f2ff']

fig = make_subplots(rows=1, cols=3, subplot_titles=("Vendas_Semanais", "Feriado", "Taxa_Desemprego"))

for i, col in enumerate(columns_1):
    fig.add_trace(go.Box(y=data_1[col], name=col, marker_color=cores[i]), row=1, col=1)

for i, col in enumerate(columns_2):
    fig.add_trace(go.Box(y=data_2[col], name=col, marker_color=cores[i]), row=1, col=2)

for i, col in enumerate(columns_3):
    fig.add_trace(go.Box(y=data_3[col], name=col, marker_color=cores[i]), row=1, col=3)

fig.update_xaxes(showticklabels=False)  # Remover rótulos do eixo x
fig.update_layout(height=600, width=1500, title="Comparação dos Dados", title_x=0.5, showlegend=False)
fig.update_layout(template='plotly_dark')
fig.show()

Após a análise dos dados, identificamos que a coluna "Vendas_Semanais" apresenta valores atípicos (outliers), representando semanas de vendas com valores extremamente altos. Esses valores podem indicar semanas de grande destaque, onde as vendas foram excepcionalmente elevadas em comparação com as demais semanas.

No entanto, é importante ressaltar que a coluna "Feriado" é uma variável categórica com valores binários (1 ou 0) e, portanto, não pode ter outliers, pois representa apenas a presença ou ausência de feriados em uma determinada semana.

Também verificamos que a coluna "Taxa_Desemprego" possui uma faixa de valores mais ampla e, portanto, não deve ser considerada para a detecção de outliers com base nos limites típicos do boxplot. A variação natural da taxa de desemprego pode abranger um amplo intervalo de valores sem indicar valores atípicos.

Para uma análise mais detalhada dos outliers nas vendas semanais, iremos realizar uma investigação adicional na análise exploratória. Vamos analisar se esses valores atípicos estão relacionados a semanas específicas, como feriados ou se são provenientes de semanas normais. Isso nos permitirá entender melhor o comportamento das vendas nessas situações excepcionais.



verificar se os outliers na coluna 'Vendas_Semanais' estão relacionados aos feriados

In [90]:
def boxplot_by_feriado(df, column, titulo):
    fig = go.Figure()

    fig.add_trace(go.Box(y=df[df['Feriado'] == 1][column], name='Feriado', marker_color='#004c6d'))
    fig.add_trace(go.Box(y=df[df['Feriado'] == 0][column], name='Não Feriado', marker_color='#0082a8'))

    fig.update_layout(title=titulo, xaxis_title='Tipo de Dia', yaxis_title=column, template='plotly_dark')
    fig.show()

# Chamando a função para visualizar o boxplot
boxplot_by_feriado(df, 'Vendas_Semanais', 'Vendas Semanais COM feriado x SEM feriados')

Após analisar os gráficos do boxplot, observamos que tanto nos dias de feriado quanto nos dias normais, a coluna 'Vendas_Semanais' apresenta valores discrepantes (outliers). Entretanto, podemos notar que nos dias normais há uma quantidade um pouco maior de outliers em comparação com os dias de feriado.

Isso pode indicar que em dias normais, ou seja, fora do período de feriado, há uma maior variação nas vendas, com semanas que se destacam por apresentarem valores extremamente altos. Por outro lado, nos dias de feriado, as vendas parecem ser mais estáveis, com menos ocorrência de valores atípicos.

# *---------------------------------------------------------

# Exploratory Data Analysis

**FUNÇÃO**

* Gráficos

In [58]:
def Grafico_Histograma(df, coluna, título):
    """
    Cria um histograma com base em uma coluna específica de um DataFrame.

    Args:
        df (pandas.DataFrame): DataFrame contendo os dados.
        coluna (str): Nome da coluna para criar o histograma.
        título (str): Título do gráfico.

    Returns:
        None
    """
    df = df.sort_values(coluna, ascending=False)
    fig = px.histogram(df, x=coluna, nbins=10, title=título, color_discrete_sequence=['#004c6d'])
    fig.update_xaxes(title=None)  # Remover o título do eixo x
    fig.update_yaxes(title=None)  # Remover o título do eixo y
    fig.update_layout(template='plotly_dark')
    fig.show()
    return

In [94]:
def Grafico_bar(df, x, y, título):
    """
    Cria um gráfico de barras com base em duas colunas específicas de um DataFrame.

    Args:
        df (pandas.DataFrame): DataFrame contendo os dados.
        x (str): Nome da coluna para o eixo x.
        y (str): Nome da coluna para o eixo y.
        título (str): Título do gráfico.

    Returns:
        None
    """
    df = df.sort_values(x, ascending=False)
    fig = px.bar(df, x=x, y=y, title=título, color_discrete_sequence=['#004c6d'])
    fig.update_xaxes(title=None)  # Remover o título do eixo x
    fig.update_yaxes(title=None)  # Remover o título do eixo y
    #fig.update_layout(template='plotly_dark')
    fig.show()
    return

* Tabelas

## Frequência colunas categóricas

In [95]:
colunas_categoricas = {
    'Feriado': {1: 'Feriado', 0: 'Nao feriado'},
}

for coluna in colunas_categoricas:
    contagem_frequencia = df[coluna].map(colunas_categoricas[coluna]).value_counts()
    print(f"Contagem de frequência para '{coluna}':")
    print(contagem_frequencia)
    print()

Contagem de frequência para 'Feriado':
Nao feriado    5985
Feriado         450
Name: Feriado, dtype: int64



## Correlações entre colunas

In [96]:
colunas_numericas = df.select_dtypes(include=np.number).columns.tolist()

correlation = df[colunas_numericas].corr()
correlation_filtered = correlation[(correlation > 0.2) | (correlation < -0.2)]

fig = px.imshow(correlation_filtered,
                text_auto=".2f",
                x=correlation_filtered.columns,
                y=correlation_filtered.index,
                color_continuous_scale='RdBu',
                title='Correlação entre as variáveis')

fig.update_layout(width=1500, height=1000)
fig.update_layout(template='plotly_dark')
fig.show()

In [97]:
corelacao = df
var_corr = corelacao.corr()
var_corr['Vendas_Semanais'].sort_values(ascending=False).round(3).to_frame()





Unnamed: 0,Vendas_Semanais
Vendas_Semanais,1.0
Feriado,0.04
Preco_Combustivel,0.01
Temperatura,-0.06
Indice_CPI,-0.07
Taxa_Desemprego,-0.11
Loja,-0.34


Correlações entre a coluna "Vendas_Semanais" e as demais colunas do conjunto de dados:

- Vendas_Semanais vs. Preco_Combustivel: Correlação positiva muito baixa (0.009). Isso indica que o preço do combustível tem uma correlação muito fraca com as vendas semanais, o que significa que o preço do combustível não tem um impacto significativo nas vendas.

- Vendas_Semanais vs. Temperatura: Correlação negativa muito baixa (-0.064). Isso indica que a temperatura também tem uma correlação muito fraca com as vendas semanais. Nesse caso, a temperatura mais baixa não implica necessariamente em vendas menores e vice-versa.

- Vendas_Semanais vs. Indice_CPI: Correlação negativa muito baixa (-0.073). O Índice de Preços ao Consumidor (CPI) também tem uma correlação fraca com as vendas semanais. Ou seja, as variações no CPI não têm um impacto significativo nas vendas.

- Vendas_Semanais vs. Taxa_Desemprego: Correlação negativa baixa (-0.106). A taxa de desemprego tem uma correlação um pouco mais significativa, porém ainda baixa, com as vendas semanais. Isso sugere que a taxa de desemprego pode ter algum efeito modesto nas vendas.

- Vendas_Semanais vs. Loja: Correlação negativa moderada (-0.335). A coluna "Loja" é uma variável categórica que representa o número da loja. A correlação moderada indica que diferentes lojas podem apresentar desempenhos de vendas variados, com algumas lojas tendo um impacto negativo mais expressivo nas vendas em relação a outras.


correlações individuais

In [98]:
df_grupStore = df.groupby('Loja')
corelacao = df_grupStore
var_corr_Gy = corelacao.corr().round(2)
var_corr_Gy['Vendas_Semanais'].sort_values(ascending=True).to_frame().reset_index()


The default value of numeric_only in DataFrameGroupBy.corr is deprecated. In a future version, numeric_only will default to False. Either specify numeric_only or select only columns which should be valid for the function.



Unnamed: 0,Loja,level_1,Vendas_Semanais
0,36,Indice_CPI,-0.92
1,38,Taxa_Desemprego,-0.79
2,44,Taxa_Desemprego,-0.78
3,36,Preco_Combustivel,-0.73
4,35,Preco_Combustivel,-0.50
...,...,...,...
265,16,Vendas_Semanais,1.00
266,27,Vendas_Semanais,1.00
267,17,Vendas_Semanais,1.00
268,26,Vendas_Semanais,1.00


In [99]:
var_corr_Gy = var_corr_Gy[(var_corr_Gy['Vendas_Semanais'] >= 0.50) | (var_corr_Gy['Vendas_Semanais'] <= -0.50)]
var_corr_Gy.reset_index(inplace=True)
frequencia_vendas_semanais = var_corr_Gy[['level_1', 'Vendas_Semanais', "Loja"]]
print("Frequência da coluna 'Vendas_Semanais' após a limpeza:")
print(frequencia_vendas_semanais)

Frequência da coluna 'Vendas_Semanais' após a limpeza:
              level_1  Vendas_Semanais  Loja
0     Vendas_Semanais             1.00     1
1     Vendas_Semanais             1.00     2
2     Vendas_Semanais             1.00     3
3     Vendas_Semanais             1.00     4
4     Vendas_Semanais             1.00     5
5     Vendas_Semanais             1.00     6
6     Vendas_Semanais             1.00     7
7     Vendas_Semanais             1.00     8
8     Vendas_Semanais             1.00     9
9     Vendas_Semanais             1.00    10
10    Vendas_Semanais             1.00    11
11    Vendas_Semanais             1.00    12
12    Vendas_Semanais             1.00    13
13    Vendas_Semanais             1.00    14
14    Vendas_Semanais             1.00    15
15    Vendas_Semanais             1.00    16
16    Vendas_Semanais             1.00    17
17    Vendas_Semanais             1.00    18
18    Vendas_Semanais             1.00    19
19    Vendas_Semanais             1.00    20


Após analisar geral entre as variáveis de todas as lojas, observamos que não foram encontradas correlações significativas. Os valores de correlação foram próximos a zero, indicando uma fraca associação linear.

Contudo, ao realizarmos uma análise mais detalhada, percebemos que cada loja apresenta sua própria correlação única com cada variável. Esse padrão pode ser atribuído às particularidades de cada loja, como sua localização, estratégias de marketing ou público-alvo específico. Infelizmente, não temos informações sobre as localizações das lojas, o que poderia fornecer insights adicionais sobre essas correlações.

A seguir, estão alguns exemplos das correlações mais fortes encontradas para determinadas lojas:

- Loja 35:
    - Preço do Combustível: -0.50
- Loja 36:
    - Preço do Combustível: -0.73
    - Índice de Preços ao Consumidor (Indice_CPI): -0.92
    - Taxa de Desemprego: 0.83
- Loja 38:
    - Preço do Combustível: 0.70
    - Índice de Preços ao Consumidor (Indice_CPI): 0.81
    - Taxa de Desemprego: -0.79
- Loja 44:
    - Preço do Combustível: 0.61
    - Índice de Preços ao Consumidor (Indice_CPI): 0.74
    - Taxa de Desemprego: -0.78

Essas correlações específicas para cada loja podem ser exploradas com mais profundidade para compreender os fatores que afetam as vendas em cada estabelecimento. A falta de correlações gerais pode ser uma indicação de que diferentes lojas podem ser impactadas por variáveis distintas, e é importante considerar as particularidades de cada uma ao tomar decisões e estratégias relacionadas às vendas.

In [100]:
cols = ['Preco_Combustivel', 'Indice_CPI', 'Taxa_Desemprego']

fig = make_subplots(rows=1, cols=len(cols), subplot_titles=cols)
for i, var in enumerate(cols, start=1):
    fig.add_trace(go.Scatter(x=df[var], y=df['Vendas_Semanais'], mode='markers', name=var), row=1, col=i)

fig.update_layout(template='plotly_dark', width=2000, height=550)
fig.show()

1. Preco_Combustivel: Notamos uma sutil queda nas vendas quando o preço do combustível aumenta. Isso sugere que o aumento do preço do combustível pode estar impactando negativamente o volume de vendas.

2. CPI (Índice de Preços ao Consumidor): Foi observada uma lacuna entre os valores de 140 e 180 no índice de preços ao consumidor. Lojas com um CPI menor que 140 apresentam maiores vendas. Essa relação pode indicar que em períodos com um índice de preços mais baixo, os consumidores tendem a gastar mais, impulsionando as vendas das lojas.

3. Taxa de Desemprego: Notamos que, até uma taxa de desemprego de 9%, as vendas mantêm um padrão estável. No entanto, quando a taxa de desemprego ultrapassa esse valor, as vendas começam a cair. Isso sugere que altas taxas de desemprego podem levar a uma redução do poder de compra dos consumidores e, consequentemente, afetar negativamente as vendas.

Essas observações são importantes para entender melhor os padrões de vendas em relação a essas variáveis e podem fornecer insights valiosos para tomadas de decisões estratégicas nas lojas. É importante continuar analisando os dados para identificar outras tendências e correlações que possam influenciar o desempenho das vendas.

In [101]:
df_selected = df[df['Loja'].isin([36, 35, 38, 44])]

cols = ['Preco_Combustivel', 'Indice_CPI', 'Taxa_Desemprego']


fig = make_subplots(rows=1, cols=len(cols), subplot_titles=cols)

for i, var in enumerate(cols, start=1):
    for loja in [36, 35, 38, 44]:
        df_loja = df_selected[df_selected['Loja'] == loja]
        fig.add_trace(go.Scatter(x=df_loja[var], y=df_loja['Vendas_Semanais'], mode='markers', name=f'Loja {loja}'), row=1, col=i)


fig.update_layout(template='plotly_dark', width=2000, height=550)
fig.show()


## Distribuições

In [102]:
Grafico_Histograma(df,'Vendas_Semanais', 'Distribuição dos preços de venda' )

In [103]:
pd.DataFrame(df['Vendas_Semanais'].describe())

Unnamed: 0,Vendas_Semanais
count,6435.0
mean,1046964.88
std,564366.62
min,209986.25
25%,553350.1
50%,960746.04
75%,1420158.66
max,3818686.45


Os dados estatísticos para a coluna "Vendas_Semanais" são os seguintes:

1. Média (mean): A média de vendas semanais é de aproximadamente 1.046.965 unidades. Isso indica que, em média, a empresa vende cerca de 1 milhão de unidades por semana.

2. Desvio padrão (std): O desvio padrão é de aproximadamente 564.366 unidades. O desvio padrão é uma medida de dispersão dos dados em relação à média. Quanto maior o desvio padrão, maior a variabilidade das vendas semanais em relação à média.

3. Valores mínimo e máximo (min e max): O menor valor registrado nas vendas semanais é de 209.986,2 unidades, enquanto o maior valor é de 3.818.686 unidades. Esses valores mostram a amplitude total dos dados e destacam que a empresa teve semanas com vendas tanto baixas quanto excepcionalmente altas.

4. Quartis (25%, 50% e 75%): Os quartis dividem os dados em quatro partes iguais. O primeiro quartil (25%) é de aproximadamente 553.350 unidades, o que significa que 25% das semanas tiveram vendas abaixo desse valor. A mediana (50%) é de 960.746 unidades, o que indica que metade das semanas teve vendas acima e metade abaixo desse valor. O terceiro quartil (75%) é de 1.420.159 unidades, mostrando que 25% das semanas tiveram vendas acima desse valor.

# *---------------------------------------------------------

# DATA PREPARATION

**função**

In [104]:
def remover_outliers(data, threshold=1.5):
    """
    Remove os outliers de um array de dados substituindo-os pelo valor mediano da coluna.

    Args:
        data (array-like): Array de dados.
        threshold (float): Limiar para identificar outliers. O padrão é 1.5.

    Returns:
        array-like: Array de dados sem outliers.
    """
    quartile_1 = np.percentile(data, 25)
    quartile_3 = np.percentile(data, 75)
    iqr = quartile_3 - quartile_1

    lower_bound = quartile_1 - threshold * iqr
    upper_bound = quartile_3 + threshold * iqr

    data_without_outliers = np.where((data < lower_bound) | (data > upper_bound), np.median(data), data)

    return data_without_outliers

## Remoção outliers

Aplicar a remoção de outliers para cada coluna selecionadas do DataFrame

In [105]:
df_Sem_outliers = df.copy()

colunas_interesse = ["Vendas_Semanais"]
for coluna in colunas_interesse:
    data = df_Sem_outliers[coluna].values
    df_Sem_outliers[coluna] = remover_outliers(data)

Remover os outliers da coluna 'Vendas_Semanais' e manter uma cópia do conjunto de dados original é uma abordagem muito prudente para a análise dos dados de vendas. Essa decisão nos permitirá avaliar o impacto dos valores extremos nas nossas análises e comparar os resultados antes e depois da remoção dos outliers.

Ao remover os outliers, estaremos lidando com um conjunto de dados mais "limpo" e livre de valores que poderiam distorcer nossas análises e interpretadas. Essa limpeza é especialmente importante em análises estatísticas e na construção de modelos preditivos, pois os outliers podem influenciar significativamente os resultados e prejudicar a acurácia das nossas definições.

In [106]:
columns_1 = ["Vendas_Semanais"]
data_1 = df[columns_1]

columns_2 = ['Vendas_Semanais']
data_2 = df_Sem_outliers[columns_2]

cores = ['#004c6d', '#0082a8', '#00a8e8', '#00d4ff', '#71e8ff', '#b2f2ff']

fig = make_subplots(rows=1, cols=2, subplot_titles=("Vendas_Semanais COM outliers", "Vendas_Semanais SEM outliers"))

for i, col in enumerate(columns_1):
    fig.add_trace(go.Box(y=data_1[col], name=col, marker_color=cores[i]), row=1, col=1)

for i, col in enumerate(columns_2):
    fig.add_trace(go.Box(y=data_2[col], name=col, marker_color=cores[i]), row=1, col=2)

fig.update_xaxes(showticklabels=False)  # Remover rótulos do eixo x
fig.update_layout(height=600, width=1500, title="Comparação dos Dados", title_x=0.5, showlegend=False)
fig.update_layout(template='plotly_dark')
fig.show()


A utilização de gráficos de boxplot nos oferece uma visão abrangente das vendas semanais, permitindo comparações tanto com quanto sem outliers. **É fundamental observar que cada gráfico apresenta diferenças em suas escalas**, por isso, ao analisá-los, evitaremos comparações diretas entre eles, mas sim uma análise individual de cada gráfico.

## Remoção nulos
( SEM NECESSIDADE )

Transformar nulos em zero:
Essa abordagem envolve substituir todos os valores nulos por zero. Pode ser útil quando você deseja manter a integridade do conjunto de dados, mas substituindo os valores ausentes por um valor padrão. Para fazer isso, você pode usar o método fillna(0) do pandas:

In [107]:
#df_filled_zero = df.fillna(0)

Remover linhas com valores nulos:
Essa opção envolve a remoção de todas as linhas que contêm pelo menos um valor nulo. Pode ser adequada se você tiver um grande conjunto de dados e a presença de valores nulos for relativamente pequena. Use o método dropna() do pandas para fazer isso:

In [108]:
#df_dropped_rows = df.dropna()

Substituir nulos pela média da coluna:
Essa abordagem substitui os valores nulos pela média dos valores não nulos da mesma coluna. É útil quando você deseja manter a consistência dos dados, fornecendo uma estimativa razoável para os valores ausentes. Use o método fillna() em combinação com o método mean() para calcular a média da coluna:

In [109]:
#df_filled_mean = df.fillna(df.mean())

A média é calculada somando todos os valores e dividindo pelo número de observações. No entanto, se houver valores extremos (outliers) presentes nos dados, a média pode ser influenciada por eles, resultando em uma estimativa distorcida.

Por outro lado, a mediana é o valor que divide o conjunto de dados em duas partes iguais, onde metade dos valores está acima e metade está abaixo dela. A mediana é menos sensível a outliers e pode fornecer uma estimativa mais robusta para substituir valores nulos, especialmente em distribuições assimétricas ou com presença de valores extremos

In [110]:
#df_filled_median = df.fillna(df.median())

## Remoção duplicados

In [111]:
#df_sem_duplicados = df.drop_duplicates()

##Alteração tipos colunas

In [112]:
df_Sem_outliers.dtypes

Loja                   int64
Data                  object
Vendas_Semanais      float64
Feriado                int64
Temperatura          float64
Preco_Combustivel    float64
Indice_CPI           float64
Taxa_Desemprego      float64
dtype: object

In [113]:
df_Sem_outliers['Data'] = pd.to_datetime(df['Data'])
df_Sem_outliers['Feriado'] = df_Sem_outliers['Feriado'].astype('category')


Parsing dates in DD/MM/YYYY format when dayfirst=False (the default) was specified. This may lead to inconsistently parsed dates! Specify a format to ensure consistent parsing.



# *---------------------------------------------------------

#ANÁLISE

In [114]:
Grafico_bar(df_Sem_outliers, 'Loja', 'Vendas_Semanais' , "Vendas por lojas")

Após analisar o gráfico, podemos observar que as vendas estão concentradas principalmente nas lojas de número 1 até 20, com algumas lojas apresentando valores menores de vendas no meio desse intervalo. No entanto, o gráfico não nos permite identificar claramente a diferença entre as cinco lojas com maior volume de vendas.

Para uma análise mais detalhada das 5 principais lojas com maior volume de vendas, podemos utilizar um gráfico de barras ou um gráfico de linhas para visualizar as vendas de cada uma delas individualizadas ao longo do tempo. Dessa forma, podemos identificar melhor as diferenças de desempenho entre essas lojas e compreender o impacto que cada uma delas tem no total de vendas.

Além disso, podemos considerar outras métricas de desempenho, como o crescimento percentual das vendas em relação ao período anterior, a participação no mercado ou o ticket médio de cada loja. Essas métricas adicionais podem nos fornecer uma visão mais completa do desempenho das lojas e ajudar a identificar quais delas estão se destacando e com certeza para o resultado geral da empresa.

In [115]:
df_Sem_outliers['ano'] = df_Sem_outliers['Data'].apply(lambda x: str(x)[:4])
df_Sem_outliers['mes'] = df_Sem_outliers['Data'].apply(lambda x: str(x)[5:7])

df_Melhores_vendas = df_Sem_outliers.groupby(['Loja','mes','ano']).agg({'Vendas_Semanais': 'median' , 'Preco_Combustivel': 'median', 'Taxa_Desemprego' : 'median' ,  'Indice_CPI' : 'median'}).reset_index()
df_Melhores_vendas = df_Sem_outliers.rename(columns = {'Vendas_Semanais':'mediana'})

pd.options.display.float_format = '{:.2f}'.format

df_20 = df_Melhores_vendas[(df_Melhores_vendas.Loja <=20)]

df_Melhores_vendas.sort_values("mediana", ascending=False)

Unnamed: 0,Loja,Data,mediana,Feriado,Temperatura,Preco_Combustivel,Indice_CPI,Taxa_Desemprego,ano,mes
1953,14,2011-11-25,2685351.81,1,48.71,3.49,188.35,8.52,2011,11
2620,19,2010-12-24,2678206.42,0,26.05,3.31,132.75,8.07,2010,12
185,2,2010-11-26,2658725.29,1,62.98,2.73,211.41,8.16,2010,11
813,6,2011-12-23,2644633.02,0,49.45,3.11,220.95,6.55,2011,12
3760,27,2010-11-26,2627910.75,1,46.67,3.19,136.69,8.02,2010,11
...,...,...,...,...,...,...,...,...,...,...
4671,33,2011-02-12,220060.35,0,59.12,3.70,129.85,8.01,2011,02
4623,33,2010-12-31,219804.85,1,52.91,3.15,127.09,9.27,2010,12
4675,33,2011-12-30,215359.21,1,51.60,3.43,130.07,8.01,2011,12
4614,33,2010-10-29,213538.32,0,71.34,3.13,126.44,9.27,2010,10


In [122]:
fig = px.box(df_20, x='Loja', y='mediana')
fig.update_layout(template='plotly_dark')
fig.show()

Ao analisar o novo gráfico, fica evidente a proporção das vendas em cada uma das lojas, permitindo uma comparação mais clara entre elas. Notamos que as lojas 4, 14 e 20 se destacam com os maiores valores de vendas, apresentando uma contribuição significativa para o total de vendas da empresa.

Essa visualização nos permite identificar de forma mais precisa quais lojas estão obtendo melhores resultados e têm um desempenho mais expressivo em termos de vendas. Com essas informações em mãos, podemos direcionar nossos esforços para compreender os fatores que criaram para o sucesso dessas lojas em particular e buscar replicar suas estratégias em outras unidades, visando a maximização dos resultados.

In [124]:
df_Top3 = df_20.query("Loja == 14 or Loja == 20 or Loja == 4")
fig = px.violin(df_Top3, y="mediana", x="Loja", color="Loja", box=True, points="all", hover_data=df_Top3.columns)
fig.update_layout(template='plotly_dark')
fig.show()

In [118]:
df_selecao14 = df_Sem_outliers[(df_Sem_outliers.Loja == 14)]
df_selecao20 = df_Sem_outliers[(df_Sem_outliers.Loja == 20)]
df_selecao4 = df_Sem_outliers[(df_Sem_outliers.Loja == 4)]

In [126]:
fig = make_subplots(rows=1, cols=3, subplot_titles=("Loja 4", "Loja 14", "Loja 20"))

# Dados das lojas
lojas = [4, 14, 20]
anos = df_Sem_outliers['ano'].unique()
cores = ['#ff5733', '#33ff57', '#5733ff']

# Adicionar gráficos para cada loja
for i, loja in enumerate(lojas):
    loja_df = df_Sem_outliers[df_Sem_outliers['Loja'] == loja]
    df_agg = loja_df.groupby(['ano', 'mes'])['Vendas_Semanais'].median().reset_index()

    for j, ano in enumerate(anos):
        df_ano = df_agg[df_agg['ano'] == ano]
        show_legend = True if i == 0 else False  # Mostrar a legenda somente no primeiro gráfico
        fig.add_trace(go.Scatter(x=df_ano['mes'], y=df_ano['Vendas_Semanais'],
                                 mode='lines+markers', name=f'{ano}', line=dict(color=cores[j]),
                                 showlegend=show_legend),  # Utilize showlegend aqui
                      row=1, col=i+1)

    # Adicionar linha para representar as medianas dos anos
    df_agg_anos = loja_df.groupby('ano')['Vendas_Semanais'].median().reset_index()
    df_agg_anos['ano'] = df_agg_anos['ano'].astype(str)  # Converter "ano" para string
    fig.add_trace(go.Scatter(x=df_agg_anos['ano'], y=df_agg_anos['Vendas_Semanais'],
                             mode='lines+markers', name=f'Loja {loja} (Anos)', line=dict(color=cores[i], dash='dot'),
                             showlegend=False),  # Não mostrar legenda para as medianas dos anos
                  row=1, col=i+1)

    fig.update_xaxes(title_text='Mês', row=1, col=i+1)
    fig.update_yaxes(title_text='', showticklabels=False, row=1, col=i+1)

# Atualizar layout do subplot
fig.update_layout(title_text="Vendas_Semanais x Mês x Ano",  title_x=0.5,
                  template='plotly_dark', hovermode="x unified", showlegend=False)




# Exibir a figura com os subplots
fig.show()


In [128]:
fig = make_subplots(rows=4, cols=3, subplot_titles=("Loja 4", "Loja 14", "Loja 20"))

lojas = [4, 14, 20]
anos = df_Sem_outliers['ano'].unique()
cores = ['#ff5733', '#33ff57', '#5733ff']

for i, loja in enumerate(lojas):
    loja_df = df_Sem_outliers[df_Sem_outliers['Loja'] == loja]
    df_agg = loja_df.groupby(['ano', 'mes'])['Vendas_Semanais'].median().reset_index()

    for j, ano in enumerate(anos):
        df_ano = df_agg[df_agg['ano'] == ano]
        show_legend = True if i == 0 else False
        fig.add_trace(go.Scatter(x=df_ano['mes'], y=df_ano['Vendas_Semanais'],
                                 mode='lines+markers', name=f'{ano}', line=dict(color=cores[j]),
                                 showlegend=show_legend),
                      row=1, col=i+1)

    df_agg_anos = loja_df.groupby('ano')['Vendas_Semanais'].median().reset_index()
    df_agg_anos['ano'] = df_agg_anos['ano'].astype(str)
    fig.add_trace(go.Scatter(x=df_agg_anos['ano'], y=df_agg_anos['Vendas_Semanais'],
                             mode='lines+markers', name=f'Loja {loja} (Anos)', line=dict(color=cores[i], dash='dot'),
                             showlegend=False),
                  row=1, col=i+1)

    fig.update_xaxes(title_text='', showticklabels=False, row=1, col=i+1)
    fig.update_yaxes(title_text='', showticklabels=False, row=1, col=i+1)


for i, loja in enumerate(lojas):
    loja_df = df_Sem_outliers[df_Sem_outliers['Loja'] == loja]
    df_agg = loja_df.groupby(['ano', 'mes'])['Preco_Combustivel'].median().reset_index()

    for j, ano in enumerate(anos):
        df_ano = df_agg[df_agg['ano'] == ano]
        show_legend = True if i == 0 else False
        fig.add_trace(go.Scatter(x=df_ano['mes'], y=df_ano['Preco_Combustivel'],
                                 mode='lines+markers', name=f'{ano}', line=dict(color=cores[j]),
                                 showlegend=show_legend),
                      row=2, col=i+1)

    df_agg_anos = loja_df.groupby('ano')['Preco_Combustivel'].median().reset_index()
    df_agg_anos['ano'] = df_agg_anos['ano'].astype(str)
    fig.add_trace(go.Scatter(x=df_agg_anos['ano'], y=df_agg_anos['Preco_Combustivel'],
                             mode='lines+markers', name=f'Loja {loja} (Anos)', line=dict(color=cores[i], dash='dot'),
                             showlegend=False),
                  row=2, col=i+1)

    fig.update_xaxes(title_text='', showticklabels=False, row=2, col=i+1)
    fig.update_yaxes(title_text='', showticklabels=False, row=2, col=i+1)


for i, loja in enumerate(lojas):
    loja_df = df_Sem_outliers[df_Sem_outliers['Loja'] == loja]
    df_agg = loja_df.groupby(['ano', 'mes'])['Indice_CPI'].median().reset_index()

    for j, ano in enumerate(anos):
        df_ano = df_agg[df_agg['ano'] == ano]
        show_legend = True if i == 0 else False
        fig.add_trace(go.Scatter(x=df_ano['mes'], y=df_ano['Indice_CPI'],
                                 mode='lines+markers', name=f'{ano}', line=dict(color=cores[j]),
                                 showlegend=show_legend),
                      row=3, col=i+1)

    df_agg_anos = loja_df.groupby('ano')['Indice_CPI'].median().reset_index()
    df_agg_anos['ano'] = df_agg_anos['ano'].astype(str)
    fig.add_trace(go.Scatter(x=df_agg_anos['ano'], y=df_agg_anos['Indice_CPI'],
                             mode='lines+markers', name=f'Loja {loja} (Anos)', line=dict(color=cores[i], dash='dot'),
                             showlegend=False),
                  row=3, col=i+1)

    fig.update_xaxes(title_text='', showticklabels=False, row=3, col=i+1)
    fig.update_yaxes(title_text='', showticklabels=False, row=3, col=i+1)


for i, loja in enumerate(lojas):
    loja_df = df_Sem_outliers[df_Sem_outliers['Loja'] == loja]
    df_agg = loja_df.groupby(['ano', 'mes'])['Taxa_Desemprego'].median().reset_index()

    for j, ano in enumerate(anos):
        df_ano = df_agg[df_agg['ano'] == ano]
        show_legend = True if i == 0 else False
        fig.add_trace(go.Scatter(x=df_ano['mes'], y=df_ano['Taxa_Desemprego'],
                                 mode='lines+markers', name=f'{ano}', line=dict(color=cores[j]),
                                 showlegend=show_legend),
                      row=4, col=i+1)

    df_agg_anos = loja_df.groupby('ano')['Taxa_Desemprego'].median().reset_index()
    df_agg_anos['ano'] = df_agg_anos['ano'].astype(str)
    fig.add_trace(go.Scatter(x=df_agg_anos['ano'], y=df_agg_anos['Taxa_Desemprego'],
                             mode='lines+markers', name=f'Loja {loja} (Anos)', line=dict(color=cores[i], dash='dot'),
                             showlegend=False),
                  row=4, col=i+1)


    fig.update_yaxes(title_text='', showticklabels=False, row=4, col=i+1)

    fig.update_yaxes(title_text='', showticklabels=False, row=3, col=i+1)



    fig.update_layout(template='plotly_dark', hovermode="x unified", showlegend=False,
                  title_text="Vendas_Semanais x Mês x Ano | Lojas 4, 14 e 20",
                  title_x=0.5, title_y=0.98,  # Posição do título no layout
                  margin=dict(t=60, b=10),  # Ajustar o espaçamento vertical entre os subplots
                  height=800)  # Ajustar a altura total da figura
fig.show()

Com base nos gráficos gerados, pude comparar o desempenho de vendas, taxa de desemprego, preço de combustível e índice CPI entre as três lojas (4, 14 e 20). Analisando os gráficos das vendas por mês e ano, é possível perceber que a **"Loja 4" apresenta o melhor desempenho em termos de vendas**, seguida pela "Loja 20", que também mostra crescimento, embora ainda atrás da "Loja 4". Por outro lado, a "Loja 14" mostra uma tendência de queda nas vendas ao longo dos anos.


Quanto ao preço do combustível e o índice CPI, todas as lojas seguem um padrão de crescimento, o que indica que esse fator pode não ter uma influência significativa nas vendas entre as lojas.

No entanto, ao analisar a taxa de desemprego, é notável que a "Loja 4" apresenta uma queda contínua ao longo dos anos, enquanto a "Loja 14" e a "Loja 20" tiveram comportamentos variados. A "Loja 14" mostra um pequeno declínio, mas posteriormente apresenta uma tendência de aumento, e a "Loja 20" tem uma tendência de queda, mas não tão certa.

Diante dessas análises, é possível concluir que, com base nos dados disponíveis, a "Loja 4" parece ser a melhor opção para investimento, pois apresenta o melhor desempenho de vendas e uma taxa de desemprego em declínio constante.

Além disso, pretendo rodar um modelo preditivo para determinar qual loja terá o melhor desempenho de vendas no futuro. Essa análise pode fornecer informações adicionais importantes para a tomada de decisão em relação ao investimento.



# *---------------------------------------------------------