
# **Data Science**


# **Projeto de Portfólio:**

<span style='color:Gray'> Big Mart Sales Forecasting (Dash app) . </span>

Autor: Wanderson Ferreira

</div>
<center><img src="https://raw.githubusercontent.com/wanderson42/BigMart-data/refs/heads/main/image_practice-problem-big-mart-sales-iii.png" alt="Someone's feet on table facing a television"width="1800"/> <center> </div>
<p><center></center></p>

</div>
<center><img src="https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/plotly_dash_logo.png" alt="Someone's feet on table facing a television"width="1800"/> <center> </div>
<p><center></center></p>

***

<div align="center">
<font size="5">  
Resumo
</div>

Este projeto apresenta uma análise preditiva aplicada a dados de vendas de varejo da rede Big Mart. O objetivo principal é desenvolver um modelo de aprendizado de máquina capaz de prever as vendas de produtos em diferentes lojas, considerando variáveis como características dos produtos, dados das lojas e interações entre ambos.

Neste trabalho foi realizada uma compreensiva análise exploratória de dados e técnicas de engenharia de atributos foram aplicadas para melhorar o desempenho dos modelos, enquanto métodos robustos, como regressões ponderadas e regularização, foram empregados para lidar com problemas de variabilidade e correlação nas variáveis. Nesse contexto, foi abordado questões como heterocedasticidade e limitações dos dados disponíveis. Por fim, foi desenvolvido uma aplicação web interativa em Dash para análise e vizualização dos dados previstos. De forma a explorar os dados de forma dinâmica, fazer previsões e compartilhar resultados de forma fácil e interativa.


Os resultados mostram que, embora os modelos apresentem boa capacidade de generalização, a qualidade das previsões é impactada pela baixa quantidade de dados e pela natureza intrínseca do problema. Além disso, a análise sugere que o uso de aprendizado de máquina em pequenos mercados varejistas pode ser limitado, servindo mais como um suporte à tomada de decisão do que como uma solução definitiva para previsões de vendas.



### **Introdução**





O Big Mart Sales Dataset é um conjunto de dados popular utilizado em problemas de previsão de vendas no varejo. Ele contém informações sobre vendas de produtos de 10 lojas da rede Big Mart.

O conjunto de dados é composto por duas partes: A parte de treinamento contém informações sobre 8523 produtos, enquanto a parte de teste contém informações sobre 5681 produtos. Cada entrada no conjunto de dados contém informações sobre o identificador do produto, o identificador da loja, a localização da loja, o tipo de produto, o peso e o preço do produto, entre outras informações.

**Descrição dos atributos:**

> - **Item_Identifier:** ID único do produto;
>
> - **Item_Weight:** Peso do produto (Não considerado no conjunto de hipóteses);
>
> - **Item_Fat_Content:** Se o produto é com baixo teor de gordura ou não;
>
> - **Item_Visibility:** A porcentagem da área total de exposição de todos os produtos em uma loja alocada para um produto específico;
>
> - **Item_Type:** ;
>
> - **Item_MRP:** Preço máximo de varejo (preço de lista) do produto (Não considerado no conjunto de hipóteses);
>
> - **Outlet_Identifier:** ID único da loja;
>
> - **Outlet_Establishment_Year:** O ano em que a loja foi estabelecida;
>
> - **Outlet_Size:** O tamanho da loja em termos de área terrestre coberta;
>
> - **Outlet_Location_Type:** O tipo de cidade em que a loja está localizada;
>
> - **Outlet_Type:** Se a loja é apenas uma mercearia ou algum tipo de supermercado;
>
> - **Item_Outlet_Sales:** Vendas do produto em uma loja específica (este é o atributo alvo).
***

- **Problema de negócio**: O objetivo deste projeto é treinar um modelo de aprendizagem supervisionada para estimar as vendas futuras e com isso entender quais produtos e lojas e causam mais impacto no crescimento das vendas.   

**Geração de Hipóteses**

Para uma abordagem estruturada, com intuito de entender certos fatores que mais impactam as vendas. as previsões geradas tiveram como fundamento o seguinte conjunto de hipóteses:

**Com base no item**:

    1. Visibilidade do item na loja:
        A localização do produto dentro da loja pode impactar as vendas. Produtos localizados na entrada
        têm mais chances de chamar a atenção dos clientes do que aqueles posicionados no fundo da loja.

    2. Frequência do produto:
        Produtos mais populares (frequentemente comprados) tendem a apresentar vendas mais altas.

**Com base na loja**:

    1. Tipo de cidade:
        Lojas localizadas em cidades urbanas devem ter vendas mais altas devido ao maior nível de renda dos
        moradores.

    2. Capacidade da loja:
        Lojas muito grandes devem apresentar vendas mais altas, pois funcionam como "one-stop-shops"
        (lugares onde se encontra tudo em um só lugar), atraindo clientes que preferem fazer todas as compras
        em um único local. Essa etapa visa validar ou refutar essas hipóteses, ajudando a entender os fatores
        que mais impactam as vendas.   




### **1 - Aquisição de dados**

Nesta seção, os dados são importados de sua fonte original para o notebook, assim como as bibliotecas necessárias para o desenvolvimento do projeto.

In [None]:
import xgboost as xgb
print(xgb.__version__)

2.1.2


In [None]:
import numpy as np
import pandas as pd
import joblib
import pickle
import sklearn
import xgboost
import plotly
import scipy
import warnings

# Exibindo as versões das bibliotecas
print("numpy version:", np.__version__)
print("pandas version:", pd.__version__)
print("joblib version:", joblib.__version__)
#print("pickle version: (builtin library, no version needed)")
print("scikit-learn version:", sklearn.__version__)
#print("xgboost version:", xgboost.__version__)
print("plotly version:", plotly.__version__)
#print("scipy version:", scipy.__version__)


numpy version: 1.26.4
pandas version: 2.2.2
joblib version: 1.4.2
scikit-learn version: 1.5.2
plotly version: 5.24.1


In [None]:
# Importando o conjunto de dados
url_train = 'https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/train.csv'
url_test = 'https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/test.csv'

# Convertendo os dados em csv para pandas.dataframe
train = pd.read_csv(url_train) # comjunto de dados de treino
test = pd.read_csv(url_test)   # conjunto de dados não vistos (não contem o atributo alvo)


# Concatenando os dados de treino e teste
#df = pd.concat([train.assign(ind="train"), test.assign(ind="test")])

print(train.shape, test.shape)

(8523, 12) (5681, 11)


In [None]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


In [None]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5681 entries, 0 to 5680
Data columns (total 11 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            5681 non-null   object 
 1   Item_Weight                4705 non-null   float64
 2   Item_Fat_Content           5681 non-null   object 
 3   Item_Visibility            5681 non-null   float64
 4   Item_Type                  5681 non-null   object 
 5   Item_MRP                   5681 non-null   float64
 6   Outlet_Identifier          5681 non-null   object 
 7   Outlet_Establishment_Year  5681 non-null   int64  
 8   Outlet_Size                4075 non-null   object 
 9   Outlet_Location_Type       5681 non-null   object 
 10  Outlet_Type                5681 non-null   object 
dtypes: float64(3), int64(1), object(7)
memory usage: 488.3+ KB




### **2 - Pré-processamento de dados**

Nesta seção foi efetuada a análise nos dados para entender melhor a estrutura, avaliando a distribuição, realizando estatísticas descritivas. E identificar possíveis inconsistencias como valores nulos ou ausentes, valores discrepantes, etc.  

#### **2.1 - Primeiras impressões sobre o conjunto de dados**

In [None]:
#Primeiras impressões sobre o dataframe
train.info()
print("Shape of Train Dataset: ",train.shape)
print("Shape of Test Dataset: ",test.shape)
train.sample(n = 10).style.background_gradient(cmap = 'Set3')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB
Shape of Train Dataset:  (8523, 12)
Shape of 

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
831,FDA15,9.3,Low Fat,0.016055,Dairy,250.2092,OUT045,2002,,Tier 2,Supermarket Type1,5976.2208
4183,FDQ26,13.5,Regular,0.067872,Dairy,57.8562,OUT046,1997,Small,Tier 1,Supermarket Type1,355.5372
2094,FDE04,19.75,Regular,0.018096,Frozen Foods,179.566,OUT018,2009,Medium,Tier 3,Supermarket Type2,2696.49
2134,FDI52,18.7,Low Fat,0.104841,Frozen Foods,122.1072,OUT049,1999,Medium,Tier 1,Supermarket Type1,490.0288
3702,FDW24,6.8,Low Fat,0.062762,Baking Goods,50.4034,OUT010,1998,,Tier 3,Grocery Store,48.6034
5096,FDC20,10.65,Low Fat,0.02402,Fruits and Vegetables,57.2272,OUT045,2002,,Tier 2,Supermarket Type1,1174.4712
5598,FDO52,11.6,Regular,0.07715,Frozen Foods,170.2106,OUT035,2004,Small,Tier 2,Supermarket Type1,1882.2166
8029,FDK21,7.905,Low Fat,0.010033,Snack Foods,248.3408,OUT045,2002,,Tier 2,Supermarket Type1,751.0224
1232,FDQ01,19.7,Regular,0.161028,Canned,254.1014,OUT045,2002,,Tier 2,Supermarket Type1,4845.0266
640,FDC46,,Low Fat,0.115978,Snack Foods,183.4266,OUT027,1985,Medium,Tier 3,Supermarket Type3,7192.6374



>- Em relação aos atributos informativos (potencialmente relevantes), o conjunto de dados possui:
    - **6 categóricos:** [`'Item Identifier', 'Item Fat Content', 'Item Type', 'Outlet Size', 'Outlet Location Type', 'Outlet Type'`].
    - **4 numericos:** [`'Item Weight', 'Item Visibility', 'Item MRP', 'Outlet Establishment Year'`].
>- Os atributos `Outlet_Size` e `Outlet_Type` apresentan valores ausentes (NaN).

Um dos principais desafios em qualquer conjunto de dados são os valores ausentes. Vamos começar verificando quais colunas contêm valores ausentes.







In [None]:
train.apply(lambda x: sum(x.isnull()))

Unnamed: 0,0
Item_Identifier,0
Item_Weight,1463
Item_Fat_Content,0
Item_Visibility,0
Item_Type,0
Item_MRP,0
Outlet_Identifier,0
Outlet_Establishment_Year,0
Outlet_Size,2410
Outlet_Location_Type,0


Observe que os valores ausentes da variável alvo (`Item_Outlet_Sales`) são oriundas da concatenação dos dados de treino com o conjunto de teste. Portanto, não precisamos nos preocupar com isso. Posteriormente irei abordar estratégias de imputar os valores ausentes em `Item_Weight` e `Outlet_Size`.

Agora, vamos dar uma olhada nos valores únicos em cada um dos atributos:

In [None]:
train.apply(lambda x: len(x.unique()))

Unnamed: 0,0
Item_Identifier,1559
Item_Weight,416
Item_Fat_Content,5
Item_Visibility,7880
Item_Type,16
Item_MRP,5938
Outlet_Identifier,10
Outlet_Establishment_Year,9
Outlet_Size,4
Outlet_Location_Type,3




A seguir vamos explorar mais a fundo os atributos categóricos por meio da distribuição de frequência de diferentes categorias de cada atributo:



Agora vamos explorar os atributos numéricos. Segue abaixo as estatisticas descritivas do conjunto de dados:

#### **2.2 - Análise Estatística Univariada: Atributos categóricos**

Como primeiro passo, irei fazer uma exploração das categorias de atributos categóricos para melhor entender a natureza dos dados e selecionar as melhores estratégias de pré-processamento e codificação para cada atributo. Essa etapa inicial é valiosa para obter uma compreensão mais profunda do seu conjunto de dados e garantir uma análise mais robusta e precisa.

In [None]:
#@title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

def catePlot(data: pd.DataFrame, label: str):
    title = "Big Mart Sales: Atributos Categóricos - Dados de " + label
    # Criar a figura com subplots
    fig = make_subplots(rows=3, cols=3, subplot_titles=['Item Identifier', 'Item Fat Content', 'Item Type', 'Outlet Size', 'Outlet Location Type', 'Outlet Type', 'Outlet Identifier'])

    # Adicionar os gráficos de barras aos subplots
    fig.add_trace(go.Bar(x=data['Item_Identifier'].value_counts().index, y=data['Item_Identifier'].value_counts().values), row=1, col=1)
    fig.add_trace(go.Bar(x=data['Item_Fat_Content'].value_counts().index, y=data['Item_Fat_Content'].value_counts().values), row=1, col=2)
    fig.add_trace(go.Bar(x=data['Item_Type'].value_counts().index, y=data['Item_Type'].value_counts().values), row=1, col=3)
    fig.add_trace(go.Bar(x=data['Outlet_Size'].value_counts().index, y=data['Outlet_Size'].value_counts().values), row=2, col=1)
    fig.add_trace(go.Bar(x=data['Outlet_Location_Type'].value_counts().index, y=data['Outlet_Location_Type'].value_counts().values), row=2, col=2)
    fig.add_trace(go.Bar(x=data['Outlet_Type'].value_counts().index, y=data['Outlet_Type'].value_counts().values), row=2, col=3)
    fig.add_trace(go.Bar(x=data['Outlet_Identifier'].value_counts().index, y=data['Outlet_Identifier'].value_counts().values), row=3, col=1)


    # Atualizar layout dos subplots
    fig.update_layout(height=1200, width=1400, title_text=title)

    # Atualizar títulos dos subplots
    fig.update_xaxes(title_text='Item Identifier', row=1, col=1)
    fig.update_xaxes(title_text='Item Fat Content', row=1, col=2)
    fig.update_xaxes(title_text='Item Type', row=1, col=3)
    fig.update_xaxes(title_text='Outlet Size', row=2, col=1)
    fig.update_xaxes(title_text='Outlet Location Type', row=2, col=2)
    fig.update_xaxes(title_text='Outlet Type', row=2, col=3)
    fig.update_xaxes(title_text='Outlet Identifier', row=3, col=1)

    # Atualizar tamanho das fontes dos tick labels
    fig.update_xaxes(tickfont=dict(size=12))
    fig.update_yaxes(tickfont=dict(size=12))

    # Exibir o gráfico
    return fig.show()




In [None]:
catePlot(train, "treino")

<div align="center">
<font size="3">  
Figura 1
</div>

In [None]:
catePlot(test, "teste")

<div align="center">
<font size="3">  
Figura 2
</div>

Conforme pode-se observar nos gráficos acima, ambos os dados de treino e teste apresentam distribuições similares. Aém disso, pode-se considerar algumas estratégias de engenharia de atributos:


 >- `Item_Identifier`: Os dois primeiros caracteres dos prefixos dos rótulos identificadores correspondem a: FD=Food, DR=Drink, NC=Non-Consumable. Seria plausível criar um novo atributo a partir de `Item_Identifier` considerando os nomes originais para obter-se três categorias. Assim teriamos um atributo mais informativo.
 >
 >- `Item_Fat_Content`: Tem 5 categorias diferentes, mas algumas delas fazem referência a uma categoria existente, pode ser resumida em duas categorias: Low_Fat e Regular. Além disso, Este atributo não apresenta uma categoria que enquadra itens não alimentícios (i.e. não Low_Fat e Regular), portanto uma nova categoria para eles pode ser criada (e.g.
Non_Consumable).
 >
 >- `Outlet_Type`: Supermarket Type2 e Type3 talvez possam ser agrupadas. Uma vez que o `Outlet_Size` é um atributo parecido e possui uma categoria a menos. Se houver alta correlação entre categorias de ambas as features então pode ser uma ideia fazer agrupamento. Podemos fazer alguns ensaios:


In [None]:
# @title
'''
Teste Estatístico de Similaridade (Qui-Quadrado)
O teste qui-quadrado pode ajudar a verificar se há uma associação estatisticamente
significativa entre Outlet_Type e Outlet_Size, o que pode justificar o agrupamento.
'''

from scipy.stats import chi2_contingency

# Tabela de contingência
contingency_table = pd.crosstab(train['Outlet_Type'], train['Outlet_Size'])

# Teste Qui-quadrado
chi2, p, _, _ = chi2_contingency(contingency_table)
print(f"Valor p do teste qui-quadrado: {p}")

# Interpretação
if p < 0.05:
    print("Há uma associação significativa entre Outlet_Type e Outlet_Size.")
else:
    print("Não há associação significativa entre Outlet_Type e Outlet_Size.")


Valor p do teste qui-quadrado: 0.0
Há uma associação significativa entre Outlet_Type e Outlet_Size.


In [None]:

# Contagem de ocorrências para cada tipo de Outlet_Type
outlet_counts = train['Outlet_Type'].value_counts()
print("Contagem de Outlet_Type:\n", outlet_counts)

# Distribuição do Outlet_Size em relação a Outlet_Type
pd.crosstab(train['Outlet_Size'], train['Outlet_Type'], normalize='columns') * 100



Contagem de Outlet_Type:
 Outlet_Type
Supermarket Type1    5577
Grocery Store        1083
Supermarket Type3     935
Supermarket Type2     928
Name: count, dtype: int64


Outlet_Type,Grocery Store,Supermarket Type1,Supermarket Type2,Supermarket Type3
Outlet_Size,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
High,0.0,25.040301,0.0,0.0
Medium,0.0,24.986566,100.0,100.0
Small,100.0,49.973133,0.0,0.0


Considerando o valor p do teste qui-quadrado e os resultados indicando que
Supermarket Type2 e Supermarket Type3 possuem 100% de suas entradas no Outlet_Size Medium, faz sentido o agrupamento de Type2 e Type3.

#### **2.3 -  Análise Estatística Univariada:: Atributos numéricos**


In [None]:
train.describe([0.1,0.2,0.4,0.6,0.8]).style.background_gradient(cmap = 'Set3')

Unnamed: 0,Item_Weight,Item_Visibility,Item_MRP,Outlet_Establishment_Year,Item_Outlet_Sales
count,7060.0,8523.0,8523.0,8523.0,8523.0
mean,12.857645,0.066132,140.992782,1997.831867,2181.288914
std,4.643456,0.051598,62.275067,8.37176,1706.499616
min,4.555,0.0,31.29,1985.0,33.29
10%,6.695,0.012042,52.7956,1985.0,343.5528
20%,8.02,0.022558,84.68924,1987.0,666.4658
40%,11.1,0.041754,118.76504,1998.0,1402.1748
50%,12.6,0.053931,143.0128,1999.0,1794.331
60%,14.5,0.067958,159.43252,2002.0,2257.32832
80%,17.7,0.106924,194.48572,2007.0,3453.5046


In [None]:
test.describe([0.1,0.2,0.4,0.6,0.8]).style.background_gradient(cmap = 'Set3')

Unnamed: 0,Item_Weight,Item_Visibility,Item_MRP,Outlet_Establishment_Year
count,4705.0,5681.0,5681.0,5681.0
mean,12.695633,0.065684,141.023273,1997.828903
std,4.664849,0.051252,61.809091,8.372256
min,4.555,0.0,31.99,1985.0
10%,6.615,0.011391,53.864,1985.0
20%,7.863,0.023025,85.6882,1987.0
40%,10.65,0.042129,118.5098,1998.0
50%,12.5,0.054154,141.4154,1999.0
60%,14.15,0.067283,158.492,2002.0
80%,17.6,0.104507,194.6478,2007.0


 Alguns pontos relevantes que podemos observar são:

 >- O atributo `Item_Visibility` tem um valor mínimo igual a zero. Isto não faz sentido prático porque quando um produto é vendido em uma loja, a visibilidade não pode ser zero (talvez esse dado não tenha sido ). Isso pode ser um problema para a modelagem, pois a ausência de visibilidade pode ser um fator importante na predição das vendas. Poder ser que esse atributo em algum momento não foi coletado.
 >
 >- O atributo `Outlet_Establishment_Year` representa o ano de abertura das lojas (1985 a 2009). Por conveniência pode-se convertê-los para o número de anos de fundação com relação ao ano atual.
 >
 >- O desvio padrão de `Item_Weight` é menor em relação às outras variáveis, o que sugere que a distribuição dos pesos dos produtos é mais concentrada em torno da média. Isso pode facilitar a imputação dos valores ausentes adotando uma variável global (média) que não comprometa a predição de vendas.

Graficando a distribuição dos atributos numéricos:

In [None]:
# @title
def violin_plot(data: pd.DataFrame, label: str):
    # Filtra apenas as colunas numéricas
    numeric_cols = data.select_dtypes(include=['number']).columns

    # Cria um subplot com uma coluna para cada gráfico
    fig = make_subplots(rows=1, cols=len(numeric_cols), subplot_titles=[f"{col}" for col in numeric_cols])

    # Adiciona um violin plot para cada coluna numérica no subplot correspondente
    for i, col in enumerate(numeric_cols):
        fig.add_trace(go.Violin(y=data[col], box_visible=True, line_color="blue", meanline_visible=True), row=1, col=i+1)

    text = "Distribuição das Variáveis Numéricas - Dados de " + label
    # Atualiza o layout
    fig.update_layout(
        title_text=text,
        height=600,
        width=300 * len(numeric_cols),
        showlegend=False
    )

    return fig.show()

In [None]:
violin_plot(train, "treino")

<div align="center">
<font size="3">  
Figura 3
</div>

In [None]:
violin_plot(test, "teste")

<div align="center">
<font size="3">  
Figura 4
</div>

O gráfico de violino pode indicar a presença de outliers nas colunas `item_visibility` e `item_outlet_sales` ao destacar áreas em que diversos pontos estão muito distantes da massa central dos dados. Essas colunas com caudas longas indicam valores atípicos em comparação com a massa central.

#### **2.4 - Limpeza de Dados**

Esta etapa engloba a padronização de strings dos atributos, imputação de valores ausentes e o tratamento de valores que destoam da maioria (outliers). É importante mencionar que embora a remoção de outliers seja muito importante nas técnicas de regressão, modelos de predição baseados em árvores, são "imunes" a valores discrepantes.




##### **2.4.1 - Padronização de Atributos**

In [None]:
# @title
'''
Padronização de strings
'''
# Substituir espaços em branco de alguns atributos por "_"
train[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']] = train[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']].applymap(lambda x: x.replace(' ', '_'))
# Removendo a redundância nas categorias de 'item_fat_content'
train['Item_Fat_Content'].replace({'Low Fat':'Low_Fat', 'low fat':'Low_Fat', 'LF':'Low_Fat', 'reg':'Regular'}, inplace=True)

# Substituir espaços em branco de alguns atributos por "_"
test[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']] = test[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']].applymap(lambda x: x.replace(' ', '_'))
# Removendo a redundância nas categorias de 'item_fat_content'
test['Item_Fat_Content'].replace({'Low Fat':'Low_Fat', 'low fat':'Low_Fat', 'LF':'Low_Fat', 'reg':'Regular'}, inplace=True)




##### **2.4.1 - Remoção de duplicados**

In [None]:
# Contar linhas duplicadas
num_duplicated = train.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicated}")




Número de linhas duplicadas: 0


##### **2.4.3 - Detecção de valores discrepantes (outliers)**

Para termos um análise mais conclusiva a respeito dos outliers, irei calcular o intervalo interquartil (IQR) para as colunas numéricas relevantes:

In [None]:
# @title
def detect_outliers(df, feature):
    """
    Parameters:
    -----------
    df : pd.DataFrame
        The DataFrame containing the data.
    feature : str
        The name of the feature/column in the DataFrame for which outliers need to be detected.

    Returns:
    --------
    df_no_outliers : pd.DataFrame
        A copy of the DataFrame with outliers removed from the specified feature.
    outliers : pd.Series
        A series of outliers in the specified feature column that were removed.

    """
    Q1  = df[feature].quantile(0.25)
    Q3  = df[feature].quantile(0.75)
    IQR = Q3 - Q1

    upper_limit = Q3 + 1.5 * IQR
    lower_limit = Q1 - 1.5 * IQR

    # Identificar os valores outliers
    outliers = df[(df[feature] > upper_limit) | (df[feature] < lower_limit)][feature]

    # Criar uma cópia do DataFrame sem os outliers
    df_no_outliers = df[~((df[feature] > upper_limit) | (df[feature] < lower_limit))]


    return df_no_outliers, outliers


Conforme análise anterior, é conveniente lidar com outliers dos atributos `Item_visibility` e `Item_Outlet_Sales`:

In [None]:
train, outliers = detect_outliers(train, "Item_Visibility")
print(outliers)

49      0.255395
83      0.293418
108     0.278974
174     0.291865
334     0.204700
          ...   
8292    0.209163
8345    0.266397
8371    0.214125
8432    0.227261
8509    0.214306
Name: Item_Visibility, Length: 144, dtype: float64


In [None]:
train, outliers = detect_outliers(train, "Item_Outlet_Sales")
print(outliers)

43      6768.5228
130     7968.2944
132     6976.2524
145     7370.4060
203     6704.6060
          ...    
8245    7549.5062
8329    6630.0364
8350    7240.5750
8447    7588.1226
8510    7182.6504
Name: Item_Outlet_Sales, Length: 186, dtype: float64


In [None]:
violin_plot(train, "treino")

In [None]:
test, outliers = detect_outliers(test, "Item_Visibility")
print(outliers)

19      0.196898
46      0.291322
76      0.299544
78      0.246178
89      0.262504
          ...   
5469    0.299739
5482    0.240512
5514    0.252019
5571    0.236595
5668    0.288892
Name: Item_Visibility, Length: 113, dtype: float64


In [None]:
violin_plot(test, "teste")

Comparando com os gráficos de violinos anteriores observamos que os outliers foram removidos com sucesso.

##### **2.4.4 - Imputação de valores ausentes**
A identificação de valores ausentes é importante porque esses valores podem afetar a análise dos dados e, portanto, é necessário definir uma estratégia para lidar com eles.

Essa etapa envolve a intuição, onde um dos aspectos cruciais que devem ser levados em conta é se os valores ausentes ocorrem pela falta de coleta de dados.

In [None]:
#@title
#Data visualization
from IPython.display import IFrame
import plotly.express as px
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

def tableNaN(data):
  # Calculando o valor total de Nan values do dataset
  df_copia = data.copy()
  if 'Item_Outlet_Sales' in df_copia.columns:
     df_copia = df_copia.drop('Item_Outlet_Sales', axis=1)
  df_total_nan = df_copia.isnull().sum()
  df_percent_nan = ((df_copia.isnull().sum()/data.shape[0])*100)

  # Construindo uma tabela de missing values
  table_missing_data = pd.concat([df_total_nan,df_percent_nan],
                                axis=1,
                                keys=['NaN', 'NaN(%)'],
                                sort = True)

  # Somando todos os missing values de ambas as colunas
  a = table_missing_data['NaN'].sum()
  b = a*100/(data.shape[0])


  # Adicionando uma linha contento os valores totais
  row = pd.Series({'NaN': a, 'NaN(%)': b}, name='Total')
  table_missing_data = pd.concat([table_missing_data, row.to_frame().T])

  # Transformando os valores em inteiros (exceto para a coluna de porcentagem)
  table_missing_data['NaN'] = table_missing_data['NaN'].astype(int)

  return table_missing_data.style.bar(color = 'lightcoral')

print("Tabela de Valores Ausentes (Dados de Treino)")
display(tableNaN(train))

print("\nTabela de Valores Ausentes (Dados de Test)")
display(tableNaN(test))

Tabela de Valores Ausentes (Dados de Treino)


Unnamed: 0,NaN,NaN(%)
Item_Fat_Content,0,0.0
Item_Identifier,0,0.0
Item_MRP,0,0.0
Item_Type,0,0.0
Item_Visibility,0,0.0
Item_Weight,1283,15.65971
Outlet_Establishment_Year,0,0.0
Outlet_Identifier,0,0.0
Outlet_Location_Type,0,0.0
Outlet_Size,2315,28.255828



Tabela de Valores Ausentes (Dados de Test)


Unnamed: 0,NaN,NaN(%)
Item_Fat_Content,0,0.0
Item_Identifier,0,0.0
Item_MRP,0,0.0
Item_Type,0,0.0
Item_Visibility,0,0.0
Item_Weight,920,16.522989
Outlet_Establishment_Year,0,0.0
Outlet_Identifier,0,0.0
Outlet_Location_Type,0,0.0
Outlet_Size,1549,27.819684


>- Conforme os resultados acima, o percentual de valores ausentes dos atributos são similares em ambos os conjunto de dados. Sendo assim:






**`Outlet_Size`**

>- De fato, a escolha da estratégia para lidar com valores ausentes em uma feature categórica pode ser mais complexa do que para uma feature numérica. No caso da feature `Outlet_Size`, como há uma diferença significativa na distribuição de valores entre as categorias "Small", "Medium" e "High", preencher os valores ausentes com a categoria mais frequente (moda) pode não ser uma estratégia plausível. Uma abordagem alternativa seria utilizar informações de outras features para inferir o valor ausente. No caso, a categoria de `Outlet_Type` pode ser um bom indicador da categoria de `Outlet_Size`, pois o tamanho do estabelecimento pode ser influenciado pelo tipo de estabelecimento.

In [None]:
# @title
# DataFrame
print(f'Dados de Treino')
nan_counts = train[train['Outlet_Size'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Outlet_Size_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Outlet_Size_NaN'].sum()
print(f'\nSoma total de Count_Outlet_Size_NaN: {total_nan_count}')

Dados de Treino


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Outlet_Size_NaN
0,OUT010,Grocery_Store,1998,488
1,OUT017,Supermarket_Type1,2007,907
2,OUT045,Supermarket_Type1,2002,920



Soma total de Count_Outlet_Size_NaN: 2315


In [None]:
# @title
# DataFrame
print(f'Dados de Teste')
nan_counts = test[test['Outlet_Size'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Outlet_Size_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Outlet_Size_NaN'].sum()
print(f'\nSoma total de Count_Outlet_Size_NaN: {total_nan_count}')

Dados de Teste


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Outlet_Size_NaN
0,OUT010,Grocery_Store,1998,313
1,OUT017,Supermarket_Type1,2007,617
2,OUT045,Supermarket_Type1,2002,619



Soma total de Count_Outlet_Size_NaN: 1549


Por meio da tabela acima, podemos abstrair algumas informações relevantes. No caso, todos os valores ausentes em `Outlet_Size` são oriundos de somente três estabelecimentos da rede Big Mart: Duas lojas do tipo Supermarket Type1 e uma Grocery Store. Aqui utilizarei o conceito de tabela dinâmica (pivot table) para calcular a moda de `Outlet_Size` em função de uma dada categoria de `Outlet_Type`:


In [None]:
# @title
'''
Outlet_Size
'''
# Tabela pivot para calcular a moda de "outlet_size", com base nos valores de "Outlet_Type"
print("Tabela Dinâmica - Dados de Treino")
outlet_size_mode_pt = train.pivot_table(values='Outlet_Size', columns='Outlet_Type', aggfunc=lambda x: x.mode())
display(outlet_size_mode_pt)

Tabela Dinâmica - Dados de Treino


Outlet_Type,Grocery_Store,Supermarket_Type1,Supermarket_Type2,Supermarket_Type3
Outlet_Size,Small,Small,Medium,Medium


In [None]:
# @title
'''
Outlet_Size
'''
# Tabela pivot para calcular a moda de "outlet_size", com base nos valores de "Outlet_Type"
print("Tabela Dinâmica - Dados de Teste")
outlet_size_mode_pt = test.pivot_table(values='Outlet_Size', columns='Outlet_Type', aggfunc=lambda x: x.mode())
display(outlet_size_mode_pt)

Tabela Dinâmica - Dados de Teste


Outlet_Type,Grocery_Store,Supermarket_Type1,Supermarket_Type2,Supermarket_Type3
Outlet_Size,Small,Small,Medium,Medium


Em seguida, os valores ausentes em `Outlet_Size` em ambos os conjuntos de dados são substituídos pela moda calculada para a respectiva categoria de `Outlet_Type`:

In [None]:
# @title
# Criar uma amostra do DataFrame antes da imputação
amostra_antes_imputacao = train[train['Outlet_Size'].isna()].head(5)
print("Amostra dos dados de treino antes da imputação:")
display(amostra_antes_imputacao[['Outlet_Type', 'Outlet_Size']])

# Imputação de NaN em Outlet_Size adotando valor da moda em função de cada categoria de Outlet_Type
train['Outlet_Size'] = train['Outlet_Size'].fillna(train['Outlet_Type'].apply(lambda x: outlet_size_mode_pt.loc['Outlet_Size', x]))
test['Outlet_Size'] = test['Outlet_Size'].fillna(test['Outlet_Type'].apply(lambda x: outlet_size_mode_pt.loc['Outlet_Size', x]))

# Criar uma amostra do DataFrame depois da imputação
amostra_depois_imputacao = train.loc[amostra_antes_imputacao.index]
print("\nAmostra dos dados de treino após a imputação:")
display(amostra_depois_imputacao[['Outlet_Type', 'Outlet_Size']])

print("Total de NaN em Outlet_Size:", sum(train['Outlet_Size'].isnull()))

Amostra dos dados de treino antes da imputação:


Unnamed: 0,Outlet_Type,Outlet_Size
3,Grocery_Store,
8,Supermarket_Type1,
9,Supermarket_Type1,
25,Supermarket_Type1,
28,Grocery_Store,



Amostra dos dados de treino após a imputação:


Unnamed: 0,Outlet_Type,Outlet_Size
3,Grocery_Store,Small
8,Supermarket_Type1,Small
9,Supermarket_Type1,Small
25,Supermarket_Type1,Small
28,Grocery_Store,Small


Total de NaN em Outlet_Size: 0


Agora o atributo `Outlet_Size` não constitui valores ausentes.

**`Item_Weight`**

> - É plausível fazer uma imputação adotando a média como estratégia de escolha. Uma justificativa é que esse atributo é uma quantidade física que apresenta valores continuos, onde o desvio padrão é relativamente pequeno (std = 4.64) e sem a presença significativa de outliers (conforme o gráfico de violino), o que sugere que os valores ausentes estão mais próximos da média justificando a adoção da mesma para preencher valores ausentes.

Utilizando técnicas de agregação vamos analisar a origem dos valores ausentes:

In [None]:
# @title
# Supondo que 'df' seja o seu DataFrame
print('Dados de Treino')
nan_counts = train[train['Item_Weight'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Item_Weight_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Item_Weight_NaN'].sum()
print(f'\nSoma total de Count_Item_Weight_NaN: {total_nan_count}')

Dados de Treino


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Item_Weight_NaN
0,OUT019,Grocery_Store,1985,451
1,OUT027,Supermarket_Type3,1985,832



Soma total de Count_Item_Weight_NaN: 1283


In [None]:
# @title
# Supondo que 'df' seja o seu DataFrame
print('Dados de Teste')
nan_counts = test[test['Item_Weight'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Item_Weight_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Item_Weight_NaN'].sum()
print(f'\nSoma total de Count_Item_Weight_NaN: {total_nan_count}')

Dados de Teste


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Item_Weight_NaN
0,OUT019,Grocery_Store,1985,296
1,OUT027,Supermarket_Type3,1985,624



Soma total de Count_Item_Weight_NaN: 920


Conforme a tabela acima, observa-se que os outliers provém das lojas mais antigas da rede Big Mart (uma do tipo 'Grocery Store' e outra do tipo 'Supermarket Type3'). Podendo-se deduzir que naquela época a rede BigMart não coletava os dados referente ao peso dos itens.

Neste contexto, podemos adotar uma abordagem mais refinada de imputação com base nas médias específicas dos itens (`Item_Identifier`) dessas duas lojas. Porém como é um atributo que sera excluido no nosso modelo. Deixarei como está

 A seguir irei tratar o ultimo caso (o mais especial) de valores ausentes nesse conjunto de dados.  

**`Item_Visibilty`**

> - Conforme mencionado anteriomente nesse notebook, o valor mínimo do atributo Item_Visibilty é 0, o que não faz sentido na realidade. Portanto, irei considerar isso como valor ausente. Analisando a origem dos valores ausentes:

In [None]:
train.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8193 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8193 non-null   object 
 1   Item_Weight                6910 non-null   float64
 2   Item_Fat_Content           8193 non-null   object 
 3   Item_Visibility            8193 non-null   float64
 4   Item_Type                  8193 non-null   object 
 5   Item_MRP                   8193 non-null   float64
 6   Outlet_Identifier          8193 non-null   object 
 7   Outlet_Establishment_Year  8193 non-null   int64  
 8   Outlet_Size                8193 non-null   object 
 9   Outlet_Location_Type       8193 non-null   object 
 10  Outlet_Type                8193 non-null   object 
 11  Item_Outlet_Sales          8193 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 1.1+ MB


In [None]:
print('Dados de Treino')

# Agrupando e contando os valores com Item_Visibility igual a 0
zero_visibility_counts = train[train['Item_Visibility'] == 0].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Item_Visibility_Zero')

# Exibindo os primeiros 5 resultados
display(zero_visibility_counts.sample(5))
display(zero_visibility_counts.info())

Dados de Treino


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Item_Visibility_Zero
5,OUT027,Supermarket_Type3,1985,51
3,OUT018,Supermarket_Type2,2009,65
8,OUT046,Supermarket_Type1,1997,61
2,OUT017,Supermarket_Type1,2007,55
4,OUT019,Grocery_Store,1985,30


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Outlet_Identifier           10 non-null     object
 1   Outlet_Type                 10 non-null     object
 2   Outlet_Establishment_Year   10 non-null     int64 
 3   Count_Item_Visibility_Zero  10 non-null     int64 
dtypes: int64(2), object(2)
memory usage: 448.0+ bytes


None

In [None]:
print('Dados de Teste')

# Agrupando e contando os valores com Item_Visibility igual a 0
zero_visibility_counts_test = test[test['Item_Visibility'] == 0].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Item_Visibility_Zero')

# Exibindo os primeiros 5 resultados
display(zero_visibility_counts_test.sample(5))

Dados de Teste


Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Item_Visibility_Zero
1,OUT013,Supermarket_Type1,1987,39
2,OUT017,Supermarket_Type1,2007,27
9,OUT049,Supermarket_Type1,1999,59
5,OUT027,Supermarket_Type3,1985,36
0,OUT010,Grocery_Store,1998,24


Aparentemente não existe uma sistemática em relação a esses valores ausentes. Simplesmente vários items aleatóriamente não tiveram a visibilidade calculada. Imputando dados de treino:


In [None]:

# 1. Somar as vendas por produto e loja
item_visibility_stats = train.groupby(['Item_Identifier', 'Outlet_Identifier'])['Item_Visibility'].sum().reset_index()

# 2. Contar o número de lojas distintas por produto
item_visibility_stats['Loja_Contagem'] = item_visibility_stats.groupby('Item_Identifier')['Outlet_Identifier'].transform('nunique')

# 3. Calcular a média por loja
Mean_Item_Outlet = (
    item_visibility_stats.groupby('Item_Identifier')
    .agg(Media_Visibilidade=('Item_Visibility', 'sum'), Contagem_Lojas=('Loja_Contagem', 'first'))
    .reset_index()
)

Mean_Item_Outlet['Mean_Item_Visibility'] = Mean_Item_Outlet['Media_Visibilidade'] / Mean_Item_Outlet['Contagem_Lojas']

# 4. Exibir os resultados
print(Mean_Item_Outlet.head())

  Item_Identifier  Media_Visibilidade  Contagem_Lojas  Mean_Item_Visibility
0           DRA12            0.191737               6              0.031956
1           DRA24            0.336436               7              0.048062
2           DRA59            0.512325               5              0.102465
3           DRB01            0.246379               3              0.082126
4           DRB13            0.040012               5              0.008002


In [None]:

# Criar um mapeamento entre Item_Identifier e Mean_Item_Visibility
visibility_mapping = Mean_Item_Outlet.set_index('Item_Identifier')['Mean_Item_Visibility'].to_dict()

# Substituir os valores de visibilidade 0 com as médias correspondentes
train['Item_Visibility'] = train.apply(
    lambda row: visibility_mapping[row['Item_Identifier']] if row['Item_Visibility'] == 0 else row['Item_Visibility'],
    axis=1
)

# Exibir algumas linhas para verificar
print(train[train['Item_Visibility'] == 0].head(500))  # Deve estar vazio se tudo foi imputado corretamente

     Item_Identifier  Item_Weight Item_Fat_Content  Item_Visibility Item_Type  \
5434           FDP15         15.2          Low_Fat              0.0      Meat   

      Item_MRP Outlet_Identifier  Outlet_Establishment_Year Outlet_Size  \
5434   256.033            OUT010                       1998       Small   

     Outlet_Location_Type    Outlet_Type  Item_Outlet_Sales  
5434               Tier_3  Grocery_Store           1281.665  


Ainda restou uma instancia. Podemos imputar com a média global:


In [None]:
# 1. Calcular a média global de Item_Visibility para valores válidos (não zero)
mean_global_visibility = train[train['Item_Visibility'] > 0]['Item_Visibility'].mean()

# 2. Substituir diretamente os valores 0 remanescentes pela média global
train.loc[train['Item_Visibility'] == 0, 'Item_Visibility'] = mean_global_visibility

# Verificar se ainda restam valores iguais a 0
print("Valores restantes com visibilidade 0:", (train['Item_Visibility'] == 0).sum())

Valores restantes com visibilidade 0: 0


Agora realizando o mesmo procedimento para os dados de teste:

In [None]:
# 1. Somar as vendas por produto e loja
item_visibility_stats = test.groupby(['Item_Identifier', 'Outlet_Identifier'])['Item_Visibility'].sum().reset_index()

# 2. Contar o número de lojas distintas por produto
item_visibility_stats['Loja_Contagem'] = item_visibility_stats.groupby('Item_Identifier')['Outlet_Identifier'].transform('nunique')

# 3. Calcular a média por loja
Mean_Item_Outlet = (
    item_visibility_stats.groupby('Item_Identifier')
    .agg(Media_Visibilidade=('Item_Visibility', 'sum'), Contagem_Lojas=('Loja_Contagem', 'first'))
    .reset_index()
)

Mean_Item_Outlet['Mean_Item_Visibility'] = Mean_Item_Outlet['Media_Visibilidade'] / Mean_Item_Outlet['Contagem_Lojas']

# 4. Exibir os resultados
print(Mean_Item_Outlet.head())

  Item_Identifier  Media_Visibilidade  Contagem_Lojas  Mean_Item_Visibility
0           DRA12            0.122703               3              0.040901
1           DRA24            0.120028               3              0.040009
2           DRA59            0.256091               2              0.128046
3           DRB01            0.391509               5              0.078302
4           DRB13            0.021176               4              0.005294


In [None]:
# Criar um mapeamento entre Item_Identifier e Mean_Item_Visibility
visibility_mapping = Mean_Item_Outlet.set_index('Item_Identifier')['Mean_Item_Visibility'].to_dict()

# Substituir os valores de visibilidade 0 com as médias correspondentes
test['Item_Visibility'] = test.apply(
    lambda row: visibility_mapping[row['Item_Identifier']] if row['Item_Visibility'] == 0 else row['Item_Visibility'],
    axis=1
)

# Exibir algumas linhas para verificar
print(test[test['Item_Visibility'] == 0].head())  # Deve estar vazio se tudo foi imputado corretamente

     Item_Identifier  Item_Weight Item_Fat_Content  Item_Visibility  \
732            FDH50       15.000          Regular              0.0   
1634           NCS06        7.935          Low_Fat              0.0   
2201           FDO12          NaN          Low_Fat              0.0   
2312           NCC18       19.100          Low_Fat              0.0   
2570           FDB36        5.465          Regular              0.0   

         Item_Type  Item_MRP Outlet_Identifier  Outlet_Establishment_Year  \
732         Canned  185.2266            OUT049                       1999   
1634     Household  264.7910            OUT017                       2007   
2201  Baking_Goods  194.9452            OUT027                       1985   
2312     Household  173.8422            OUT013                       1987   
2570  Baking_Goods  129.2626            OUT049                       1999   

     Outlet_Size Outlet_Location_Type        Outlet_Type  
732       Medium               Tier_1  Supermarket_

In [None]:
# 1. Calcular a média global de Item_Visibility para valores válidos (não zero)
mean_global_visibility = test[test['Item_Visibility'] > 0]['Item_Visibility'].mean()

# 2. Substituir diretamente os valores 0 remanescentes pela média global
test.loc[test['Item_Visibility'] == 0, 'Item_Visibility'] = mean_global_visibility

# Verificar se ainda restam valores iguais a 0
print("Valores restantes com visibilidade 0:", (test['Item_Visibility'] == 0).sum())

Valores restantes com visibilidade 0: 0


#### **2.5 - Análise Estatistica Bivariada - Teste de Hipóteses**

Antes de efetuar a engenharia de atributos, prosseguirei com uma análise estatística bivariada para melhor averiguar como os atributos se relacionam com a variável alvo. Essa etapa visa validar ou refutar certas hipóteses, ajudando a entender os fatores que mais impactam as vendas.   

> OBS: Nesse presente estudo de caso, achei mais contundente ter deixado essa análise como uma das ultimas etapas antes de treinar qualquer modelo de aprendizagem supervisionada. Pois agora os dados estão limpos e tenho agregado um conhecimento de domínio mais amplo a respeito dos dados.

Definindo dicionário de cores similares à paleta `px.colors.qualitative.G10`:

In [None]:
# @title
# Paleta de Cores
CATEGORY_COLORS = {
    'Fruits_and_Vegetables': '#1f77b4',  # Azul vibrante
    'Snack_Foods': '#ff7f0e',            # Laranja vibrante
    'Household': '#2ca02c',              # Verde forte
    'Frozen_Foods': '#d62728',           # Vermelho escuro
    'Dairy': '#9467bd',                  # Roxo suave
    'Canned': '#8c564b',                 # Marrom suave
    'Soft_Drinks': '#e377c2',            # Rosa claro
    'Meat': '#7f7f7f',                   # Cinza médio
    'Baking_Goods': '#bcbd22',           # Amarelo forte
    'Health_and_Hygiene': '#17becf',     # Azul claro
    'Starchy_Foods': '#ff9896',          # Rosa claro
    'Breakfast': '#c5b0d5',              # Lilás suave
    'Hard_Drinks': '#aec7e8',            # Azul suave
    'Seafood': '#ffbb78',                # Laranja claro
    'Breads': '#98df8a',                 # Verde claro
    'Others': '#c7c7c7',                 # Cinza claro
    'Supermarket_Type1': '#FF5733',      # Vermelho alaranjado vibrante
    'Supermarket_Type2': '#2E8B57',      # Verde médio
    'Supermarket_Type3': '#482344',      # Violeta
    'Grocery_Store': '#1E90FF',          # Azul vibrante
}


def assign_colors(df, category_col):
    """
    Garante que todas as categorias no DataFrame tenham uma cor atribuída fixa.
    Se alguma categoria não estiver no mapeamento, levanta um aviso ou atribui uma cor padrão fixa.
    """
    global CATEGORY_COLORS

    # Verificar categorias presentes no DataFrame
    categories_in_data = set(df[category_col].unique())

    # Identificar categorias que não possuem cores atribuídas
    missing_categories = categories_in_data - set(CATEGORY_COLORS.keys())

    # Levantar exceção ou logar categorias ausentes
    if missing_categories:
        raise ValueError(f"As seguintes categorias não têm cores atribuídas: {missing_categories}")

    # Retornar um mapa de cores para as categorias presentes no DataFrame
    return {cat: CATEGORY_COLORS[cat] for cat in categories_in_data}

Definindo os gráficos:

`plotly_sales_by_category():`

In [None]:
# @title
def plotly_sales_by_category(df):
    # Calculando as porcentagens de vendas
    total_sales = df['Item_Outlet_Sales'].sum()
    df['Sales Percentage'] = df['Item_Outlet_Sales'] / total_sales * 100

    # Ordenando as categorias por porcentagem de vendas
    df = df.sort_values('Sales Percentage', ascending=False)

    # Garantir que todas as categorias têm cores atribuídas
    assign_colors(df, 'Item_Type')

    # Criando um gráfico de anel (donut chart)
    fig = go.Figure()

    fig.add_trace(go.Pie(
        labels=df['Item_Type'],
        values=df['Sales Percentage'],
        hole=0.7,  # Tamanho do buraco no meio do anel
        textinfo='percent',
        insidetextfont=dict(color='black'),  # Cor do texto dentro das fatias
        marker=dict(colors=[CATEGORY_COLORS[cat] for cat in df['Item_Type']],
                    line=dict(color='white', width=2)),  # Aplicar cores consistentes
    ))

    fig.update_traces(hole=0.6)  # Define o tamanho uniforme para o anel

    # Adicionando uma imagem dentro do buraco da pizza
    fig.add_layout_image(
        source="https://raw.githubusercontent.com/wanderson42/bigmart_dash_app/main/264-2640171_inventory-icon-white.png",
        x=0.5, y=0.5, xanchor="center", yanchor="middle", sizex=0.4, sizey=0.4
    )

    fig.update_layout(
        title='Distribuição de Vendas por Tipo de Produto',
        title_x=0.15,
        title_font=dict(color='black', size=20),
        legend=dict(orientation="v", yanchor="middle", y=0.5, xanchor="left", x=1.2),
        margin=dict(t=50),
    )

    return fig

`plotly_sales_over_outlet():`

In [None]:
# @title
def plotly_sales_over_outlet(df, top_n=10):
    # Agrupar as features com a previsão
    sales_by_category = df.groupby(['Item_Type', 'Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type']).agg(
        {'Item_Outlet_Sales': 'sum', 'Item_Type': 'count'}).rename(columns={'Item_Type': 'Item_Count'}).reset_index()

    # Garantir que todas as categorias têm cores atribuídas
    assign_colors(sales_by_category, 'Item_Type')

    # Calcular a soma total de vendas para cada tipo de produto
    total_sales_by_item = sales_by_category.groupby('Item_Type')['Item_Outlet_Sales'].sum().reset_index()
    total_sales_by_item = total_sales_by_item.sort_values(by='Item_Outlet_Sales', ascending=False)
    sorted_item_types = total_sales_by_item['Item_Type'].tolist()

    # Filtrar para incluir apenas os top 10 produtos mais vendidos em cada tipo de loja
    top_items = (
        sales_by_category
        .sort_values(by='Item_Outlet_Sales', ascending=False)
        .groupby('Outlet_Identifier')
        .head(top_n)
    )

    # Gráfico de barras agrupadas para cada produto em função das lojas
    fig_bar_grouped = px.bar(
        top_items,
        x='Outlet_Identifier',
        y='Item_Outlet_Sales',
        color='Item_Type',
        text='Item_Count',  # Adiciona o texto direto no trace (mais confiável)
        title=f'Top {top_n} Produtos Mais Vendidos por Loja',
        labels={'Item_Outlet_Sales': 'Item_Outlet_Sales', 'Outlet_Identifier': 'Outlet_Identifier'},
        category_orders={'Item_Type': sorted_item_types},
        barmode='group',  # Define o modo de barras agrupadas
        color_discrete_map=CATEGORY_COLORS  # Aplicar cores consistentes
    )

    # Atualizar o layout para exibir os números dentro das barras
    fig_bar_grouped.update_traces(
        textposition='inside',  # Garante que o texto fique dentro das barras
        texttemplate='%{text}',  # Formata o texto (quantidade de itens vendidos)
        textfont=dict(size=88),  # Aumenta o tamanho do texto dentro das barras
        marker=dict(line=dict(color='white', width=1))  # Bordas brancas nas barras
    )

    # Adicionar anotações de Outlet_Size e Outlet_Location_Type no eixo X
    outlet_info_map = sales_by_category[['Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type']].drop_duplicates().set_index('Outlet_Identifier').to_dict()

    for outlet_id, info in outlet_info_map['Outlet_Size'].items():
        location_type = outlet_info_map['Outlet_Location_Type'][outlet_id]
        size = info
        fig_bar_grouped.add_annotation(
            x=outlet_id,  # Posição no eixo X (identificador da loja)
            y=-0.12,  # Coloca a anotação mais baixa
            text=f"Size: {size}<br>Location: {location_type}",  # Texto da anotação
            showarrow=False,
            font=dict(size=10, color="black"),
            align="center",
            bgcolor="rgba(255, 255, 255, 0.8)",  # Fundo transparente
            borderpad=4,
            borderwidth=1,
            bordercolor="gray",
            opacity=0.8,
            yref="y domain"  # Usando coordenadas relativas para colocar fora do gráfico
        )

    # Atualizando o layout do gráfico
    fig_bar_grouped.update_layout(
        xaxis=dict(
            title=dict(
                text='Loja',
                font=dict(size=14, color='black'),
                standoff=40  # Controla a distância do título ao eixo
            ),
        ),
        yaxis_title='Venda Total',
        legend_title='Tipo de produto',
        height=600,
        title_x=0.5,
        title_font=dict(color='black', size=20),
        plot_bgcolor='rgba(255, 255, 255, 0.8)',
        legend=dict(orientation='h', y=1.1),
        hovermode='x',
        hoverlabel=dict(bgcolor='white', font_size=12),
        yaxis=dict(showgrid=True, gridcolor='lightgray'),
        font=dict(family='Arial, sans-serif', size=12, color='black'),
    )

    return fig_bar_grouped



`plot_visibility_boxplot():`

In [None]:
# @title
def plot_visibility_boxplot(df):
    """
    Cria um gráfico de boxplot mostrando a distribuição da visibilidade por tipo de produto,
    com cores consistentes atribuídas a cada categoria.
    """
    # Garantir que todas as categorias têm cores atribuídas
    color_map = assign_colors(df, 'Item_Type')

    # Criar o Boxplot para distribuição de visibilidade por tipo de produto
    fig_box = px.box(
        df,
        x='Item_Type',
        y='Item_Visibility',
        color='Item_Type',
        title="Distribuição de Visibilidade por Tipo de Produto",
        labels={"Item_Visibility": "Visibilidade do Produto", "Item_Type": "Tipo de Produto"},
        color_discrete_map=color_map  # Aplicar cores consistentes da paleta
    )

    # Atualizar o layout do gráfico
    fig_box.update_layout(
        xaxis_title="Tipo de Produto",
        yaxis_title="Visibilidade do Produto",
        title_x=0.5,
        title_font=dict(color='black', size=20),
        plot_bgcolor='rgba(255, 255, 255, 0.8)',
        legend=dict(orientation='h', y=1.1),
        hovermode='closest',
        hoverlabel=dict(bgcolor='white', font_size=12),
        yaxis=dict(showgrid=True, gridcolor='lightgray'),
        font=dict(family='Arial, sans-serif', size=12, color='black'),
    )

    return fig_box


`plotly_visibility_vs_sales():`

In [None]:
# @title
def plotly_visibility_vs_sales(df):
    """
    Plota a relação entre a visibilidade dos itens na loja e as vendas totais usando um gráfico de matriz de bolhas.
    As cores das bolhas representam o tipo de item ('Item_Type'), usando a função `assign_colors`.
    """

    # Calcular a porcentagem de vendas
    df['Sales Percentage'] = df['Item_Outlet_Sales'] / df['Item_Outlet_Sales'].sum() * 100

    # Garantir que todas as categorias de 'Item_Type' têm cores atribuídas
    color_map = assign_colors(df, 'Item_Type')

    # Criar o Bubble Matrix Plot
    fig_matrix_bubble = px.scatter(
        df,
        x='Item_Visibility',
        y='Item_Outlet_Sales',
        size='Sales Percentage',  # Tamanho da bolha representando a porcentagem de vendas
        color='Item_Type',  # Colorir com base em 'Item_Type'
        title="Relação entre Visibilidade e Vendas Totais",
        labels={"Item_Visibility": "Visibilidade do Produto", "Item_Outlet_Sales": "Vendas Totais"},
        color_discrete_map=color_map,  # Usando o mapa de cores gerado por `assign_colors`
        hover_data=['Item_Identifier', 'Outlet_Identifier'],
        template="plotly_white",  # Fundo branco para o gráfico
        facet_col='Outlet_Type',  # Cria uma matriz de gráficos separados por tipo de loja
        facet_col_wrap=2,  # Limita o número de colunas
        category_orders={"Outlet_Type": ['Grocery_Store', 'Supermarket_Type1', 'Supermarket_Type2', 'Supermarket_Type3']}  # Ordem dos gráficos
    )

    # Adicionar uma linha de tendência hipotética
    fig_matrix_bubble.add_trace(
        go.Scatter(
            x=df['Item_Visibility'],
            y=df['Item_Visibility'] * df['Item_Outlet_Sales'].mean(),  # Linha de tendência hipotética
            mode="lines",
            name="Linha de Tendência Hipotética",
            line=dict(color="red", dash="dot")
        )
    )

    # Ajustando a posição da legenda para cima
    fig_matrix_bubble.update_layout(
        legend=dict(
            orientation='h',  # Coloca a legenda na horizontal
            y=1.02,  # Posição da legenda acima do gráfico
            x=0.5,  # Centraliza a legenda
            xanchor='center',  # Centraliza a legenda horizontalmente
            yanchor='bottom'  # Coloca a legenda acima
        ),
        title=dict(
            text="Relação entre Visibilidade e Vendas Totais",
            font=dict(size=18),  # Tamanho da fonte do título
            x=0.5,  # Centraliza o título
            xanchor='center',  # Centraliza o título horizontalmente
            y=0.99,  # Garante que o título está na parte superior
        ),
        height=900  # Aumenta a altura do gráfico
    )

    return fig_matrix_bubble

In [None]:
plotly_sales_by_category(train)

<div align="center">
<font size="3">  
Figura 5
</div>

In [None]:
plotly_sales_over_outlet(train, top_n=10)

<div align="center">
<font size="3">  
Figura 6
</div>

In [None]:
plot_visibility_boxplot(train)

<div align="center">
<font size="3">  
Figura 7
</div>

In [None]:
plotly_visibility_vs_sales(train)

<div align="center">
<font size="3">  
Figura 8
</div>

##### **2.5.1 - Hipóteses com base no item**:



    1. Frequência do produto:
>- H$_{0}$: Produtos mais populares (frequentemente comprados) **tendem a não apresentar** vendas mais altas.
>- H$_{1}$: Produtos mais populares (frequentemente comprados) **tendem a apresentar** vendas mais altas.

Conforme o gráfico de pizza (`Fig. 5`) observa-se que dentre os 16 tipos de item encontrados nas lojas da rede Big Mart, três deles, no caso, `Fruits_and_Vegetables` (Frutas e vegetais), `Snack_Foods` (Salgadinhos) e `Household` (Items domésticos), correspondem a cerca de $40 \%$ das vendas da empresa. E analisando a distribuição do gráfico de barras (`Fig. 6`), juntamente com os valores do balão informativo do gráfico (passar o cursor em cima das barras) observa-se que a frequencia desses items mais comprados impacta positivamente os valores das vendas.  

> ▶ Conclusão: Aceitar H$_{1}$ e Refutar H$_{0}$.

    2. Visibilidade do item na loja:


>- H$_{0}$: A localização do produto dentro da loja **não impacta** as vendas.
>- H$_{1}$: A localização do produto dentro da loja **impacta** as vendas.

A interpretação visual do diagrama de caixas (`Fig. 7`), aponta valores de visibilidade semelhantes entre produtos. E o gráfico de bolhas (`Fig. 8`) apresenta uma distribuição aleatória (conforme o gradiente de cores) com grande sobreposição, sem uma clara correlação com vendas, porém bolhas maiores (grandes vendas) ainda estão associadas a altas visibilidades no gráfico, ou seja, a visibilidade pode impactar as vendas de forma geral.

> ▶ Conclusão: Aceitar H$_{1}$, porém não rejeitar H$_{0}$.


##### **2.5.2 - Hipóteses com base na loja**:




    1. Tipo de cidade:

>- H$_{0}$: Lojas localizadas em cidades urbanas **não representam** vendas mais altas.
>- H$_{1}$: Lojas localizadas em cidades urbanas **representam** vendas mais altas.

Partindo da suposição que cidades com maior nível de urbanização tendem a concentrar moradores com maior nivel de renda e consequentemente o varejo tendem a se benificiar com maiores ganhos. Porém o bloco de informações situado abaixo de cada gráfico de barras (`Fig. 6`) indica que não necessariamente as lojas situadas em cidades mais urbanizadas (como a loja `OUT018`) apresentam vendas maiores que lojas situadas em cidades menos urbanizadas (vide a loja `OUT49`).       

> ▶ Conclusão: Aceitar H$_{0}$ e rejeitar H$_{1}$.

    2. Capacidade da loja:

>- H$_{0}$: Lojas maiores **não devem apresentar** vendas mais altas.
>- H$_{1}$: Lojas maiores **devem apresentar** vendas mais altas.

Partindo da suposição que lojas grandes funcionam como _"one-stop-shops"_ (lugares onde se encontra tudo em um só lugar), atraindo clientes que preferem fazer todas as compras em um único local, portanto representando vendas mais altas para as lojas. Porém o gráfico de barras (`Fig. 5`) evidencia que na rede Big Mart duas loja de porte médio (`OUT027` e `OUT049`) constitui os maiores ganhos da empresa, seguido por uma loja de pequeno porte (`OUT045`). A maior loja da rede (`OUT013`) é somente a quarta mais lucrativa.

> ▶ Conclusão: Aceitar H$_{0}$ e rejeitar H$_{1}$.


Heatmap Corr.

In [None]:
# @title
# Create a Plotly figure using plotly.graph_objects
fig = go.Figure(layout=go.Layout(height=800, width=1500))  ## Size of the figure

# Select only numeric columns for correlation calculation
numeric_train = train.select_dtypes(include=np.number)

# Create a heatmap using plotly.graph_objects with annotations
fig = go.Figure(data=go.Heatmap(
                   z=numeric_train.corr().values,
                   x=numeric_train.columns,
                   y=numeric_train.columns,
                   colorscale='RdBu_r',
                   zmin=-1, zmax=1,
                   ))

# Add annotations (correlation values) to the heatmap
for i in range(len(numeric_train.columns)):
    for j in range(len(numeric_train.columns)):
        fig.add_annotation(x=numeric_train.columns[i],
                           y=numeric_train.columns[j],
                           text=str(round(numeric_train.corr().values[i][j], 2)),  # Round to 2 decimal places
                           showarrow=False,
                           font=dict(color='white' if abs(numeric_train.corr().values[i][j]) > 0.5 else 'black'))  # Change font color for better visibility


fig.update_layout(title="Correlation Matrix")
fig.show()

### **3 - Engenharia de Atributos**
Esta engenharia de atributos refere-se à criação e/ou transformação de atributos de forma a melhorar a qualidade dos dados com intuito de agregar no desempenho do modelo preditivo. Não menos importante, está etapa envolve um processo de codificação que transforma os dados em um formato mais apropriado para os modelos de aprendizagem de máquina.

***

Levando em conta as análises efetuadas nas seção anterior. Aqui estão algumas observações sobre as transformações que irei realizar:

**1.** Padronização de atributos:
   - Substituir espaços em branco por "_" nos atributos `Item_Type`, `Outlet_Location_Type` e `Outlet_Type`: Essa transformação pode ajudar a evitar problemas com espaços em branco nos valores das colunas e a tornar a nomenclatura mais consistente.
   - Renomear as classes de `Outlet_Size` para que a codificação LabelEncoder implemente a noção de ordem corretamente.

**2.** Criação e modificação de atributos:
   - Criação do atributo temporário `Item_Reference` a partir dos dois primeiros caracteres de 'Item_Identifier': Essa transformação pode ser útil para capturar informações adicionais sobre a categoria do item. A substituição dos valores 'FD', 'DR' e 'NC' por 'Food', 'Drink' e 'Non-Consumable' também pode facilitar a interpretação dos dados.

   - Incorporação da categoria `Inedible` em `Item_Fat_Content` para itens 'Non-Consumable', pois é incoerente atribuir uma classe que denota teor de gordura em um produto não alimentício.

   - Modificação do atributo `Outlet_Establishment_Year` para `Outlet_Years`: Essa transformação pode ajudar a capturar tendências temporais mais gerais, uma vez que este atributo embora seja numérico ele se comporta como uma variável discreta.




**4.** Codificação de atributos categóricos (Aqui podemos fazer a divisão dos dados):
   - A aplicação do `OrdinalEncoder` para os atributos categóricos selecionados pode ser útil para representar esses atributos numericamente. No entanto, é importante observar que o `OrdinalEncoder` atribui valores numéricos ordinais aos atributos, o que pode introduzir uma noção de ordem onde talvez não haja.

   - A aplicação do `OneHotEncoder` para os atributos categóricos restantes (exceto `Item_Identifier`, `Item_Type` e `Outlet_Identifier`) permite representá-los como variáveis dummy, evitando a noção de ordem entre as categorias.


A rigor o processo de engenharia de atributos deve seguir a seguinte sequência:

**1.** Ao realizar alguma transformação que envolva os métodos fit e fit_transform do `scikit-learn` (como codificação, escalonamento e seleção de atributos) **É CRUCIAL** separar de antemão os dados em conjunto de treinamento e validação.

**2.** Realizar qualquer tipo de transformação .fit_transform () nos atributos usando apenas o conjunto de treinamento.

**3.** Aplicar as mesmas transformações no conjunto de treinamento através do .transform() nos dados de validação e teste (dados não vistos).

Dessa forma, pode-se garantir que as transformações sejam aplicadas de forma consistente e imparcial em ambos os conjuntos de dados, evitando o vazamento de informações do conjunto de teste para o conjunto de treinamento.
***


**==========================================================================================**

In [None]:
# Concatenando os dados de treino e teste
df = pd.concat([train.assign(ind="train"), test.assign(ind="test")])

In [None]:
# Criar o atributo 'Outlet_Years'
df['Outlet_Years'] = 2023 - df['Outlet_Establishment_Year']
df['Outlet_Years'].value_counts()

Unnamed: 0_level_0,count
Outlet_Years,Unnamed: 1_level_1
38,2203
14,1543
26,1540
24,1539
21,1539
36,1538
19,1534
16,1524
25,801


In [None]:
#Criando um novo atributo com base no rotulo identificador:
df['Item_Reference'] = df['Item_Identifier'].apply(lambda x: x[0:2])

#Renomeando as categorias mais intuitivas:
df['Item_Reference'] = df['Item_Reference'].map({'FD':'Food', 'NC':'Non-Consumable', 'DR':'Drinks'})
df['Item_Reference'].value_counts()

Unnamed: 0_level_0,count
Item_Reference,Unnamed: 1_level_1
Food,9853
Non-Consumable,2625
Drinks,1283


In [None]:
#Criar uma nova categoria para itens não alimenticios em Item_Fat_Content:
df.loc[df['Item_Reference']=="Non-Consumable",'Item_Fat_Content'] = "Inedible"
df['Item_Fat_Content'].value_counts()

Unnamed: 0_level_0,count
Item_Fat_Content,Unnamed: 1_level_1
Low_Fat,6288
Regular,4848
Inedible,2625


In [None]:
# Criar um novo DataFrame com as colunas identificadoras
df_identifiers = df[['Item_Identifier', 'Outlet_Identifier']]

# Excluindo a colunas que não são mais necessárias
df.drop(['Item_Weight', 'Outlet_Establishment_Year', 'Item_Reference'], axis=1, inplace=True)

# Suponha que você queira mover a coluna 'Item_Outlet_Sales' para o final do DataFrame
coluna_a_mover = df.pop('Item_Outlet_Sales')

# Adicione a coluna de volta ao final do DataFrame
df['Item_Outlet_Sales'] = coluna_a_mover

# Criando uma cópia dos dados antes da codificação
data_before_encoding = df.copy()

In [None]:

# Separação dos dados de treinamento e teste
train = df[df["ind"] == "train"].copy()
test = df[df["ind"] == "test"].copy()

train.drop(['ind', 'Sales Percentage'], axis=1, inplace=True)
train = train.dropna(subset=['Item_Outlet_Sales'])
test.drop(['ind', 'Item_Outlet_Sales', 'Sales Percentage'], axis=1, inplace=True)

print(train.shape, test.shape)

(8193, 11) (5568, 10)


In [None]:
# Salvar o DataFrame em um arquivo CSV
test.to_csv('bigmart_sales_test_cleaned.csv', index=False)

from google.colab import files

files.download('bigmart_sales_test_cleaned.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Antes de finalizarmos a engenharia de atributos com o processo de codificação. Podemos gerar alguns gráficos em função da variável alvo que podem ser implementados num ambiente de produção. (Obs: Uma vez que o processo de codificação transforma os dados de treino em um formato mais adequado para os modelos de machine learning, por outro lado este torna a vizualização desses dados mais complexa):

---



**Codificação dos dados para treinar o modelo:**





**Função de codificação:**

A função `pipelineEncoded` foi desenvolvida a partir de diversos módulos do `scikit-learning`, executando de forma ordenada as seguintes etapas de processamento:

> - `num_pipeline:` Características polinomiais (PolynomialFeatures) nos atributos numéricos. Isso enriquece o modelo com características não lineares, permitindo maior flexibilidade na captura de padrões complexos nos dados. E na sequência, escala os dados (RobustScaler) para reduzir o impacto de outliers, calculando a mediana e os quartis ao invés de média e desvio padrão.

> - `nominal_pipeline:` Codificação Ordinal (Ordinal Encoding) para os atributos especificadas, convertendo valores categóricos em inteiros ordenados.

> - `ordinal_pipeline:` Codificação Nominal (OneHot Encoding) para outras colunas categóricas, criando variáveis binárias para cada categoria.

> - A função encapsula tanto a etapa de codificação como os modelos com suas respectivas grades de hiperparâmetros, que servirão de input para uma função customizada de otimização (Próxima seção).

Executando o pipelineEncoded:

In [None]:
# @title
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import RobustScaler,OneHotEncoder,OrdinalEncoder,PolynomialFeatures
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression,Ridge
from xgboost import XGBRegressor

def pipelineEncoded():
    '''
    Codificação de atributos
    '''

    num_columns = ['Item_Visibility',  'Item_MRP', 'Outlet_Years']
    nominal_columns = ['Item_Type','Outlet_Identifier']
    ordinal_columns = ['Item_Fat_Content', 'Outlet_Location_Type', 'Outlet_Size',
                       'Outlet_Type']

    num_pipeline = Pipeline([
        ('poly', PolynomialFeatures()),
        ('mms',RobustScaler())
        ])

    nominal_pipeline = Pipeline([
        ('nom_encoder',OneHotEncoder(sparse_output = False))
    ])

    ordinal_pipeline = Pipeline([
        ('ord_encoder',OrdinalEncoder())
    ])

    preprocessor = ColumnTransformer([
        ('num_pipeline',num_pipeline,num_columns),
        ('nominal_pipeline',nominal_pipeline,nominal_columns),
        ('ordinal_pipeline',ordinal_pipeline,ordinal_columns)
    ]).set_output(transform = 'pandas')

    models = [
        Pipeline([('preprocessor', preprocessor), ('LinearReg', LinearRegression())]),
        Pipeline([('preprocessor', preprocessor), ('Ridge', Ridge())]),
        Pipeline([('preprocessor', preprocessor), ('XGBRegressor', XGBRegressor())])
    ]

    params = [
        # Parameters for Linear Regression
        {'preprocessor__num_pipeline__poly__degree': [1, 2, 3]
         },

        # Parameters for Ridge Regression
        {'preprocessor__num_pipeline__poly__degree': [1,2, 3],
        'Ridge__alpha': [0.01, 0.1, 1, 5, 10]},


        #Parameters for XGBoost
        #Step1
        #{'XGBRegressor__n_estimators': [100, 300, 500],
        #'XGBRegressor__learning_rate': [0.01, 0.05, 0.1],
        #'XGBRegressor__max_depth': [3, 6, 9],
        #'XGBRegressor__min_child_weight': [1, 3, 5],
        #'XGBRegressor__gamma': [0, 0.1, 0.5],
        #'XGBRegressor__subsample': [0.7, 0.8, 0.9],
        #'XGBRegressor__colsample_bytree': [0.7, 0.8, 0.9],
        #'XGBRegressor__reg_alpha': [0, 10, 30],
        #'XGBRegressor__reg_lambda': [1, 100, 300],
        #'XGBRegressor__seed': [42]}

        #Step2
        #{
        #'XGBRegressor__n_estimators': [250, 300, 350],               # Focado em torno de 300
        #'XGBRegressor__learning_rate': [0.03, 0.05, 0.07],           # Reduzido em torno de 0.05
        #'XGBRegressor__max_depth': [2, 3, 4],                        # Ao redor de 3
        #'XGBRegressor__min_child_weight': [2, 3, 4],                 # Ao redor de 3
        #'XGBRegressor__gamma': [0, 0.05, 0.1],                       # Pequenas variações de 0
        #'XGBRegressor__subsample': [0.85, 0.9, 0.95],                # Ao redor de 0.9
        #'XGBRegressor__colsample_bytree': [0.65, 0.7, 0.75],         # Ao redor de 0.7
        #'XGBRegressor__reg_alpha': [20, 30, 40],                     # Ao redor de 30
        #'XGBRegressor__reg_lambda': [80, 100, 120],                  # Ao redor de 100
        #'XGBRegressor__seed': [42]                                   # Mantido fixo
        #}

        {
        'XGBRegressor__n_estimators': [250, 300, 350],
        'XGBRegressor__learning_rate': [0.02, 0.03, 0.04],
        'XGBRegressor__max_depth': [2, 3],
        'XGBRegressor__min_child_weight': [2, 3, 4],
        'XGBRegressor__gamma': [0, 0.1, 0.2],
        'XGBRegressor__subsample': [0.85, 0.9, 0.95],
        'XGBRegressor__colsample_bytree': [0.6, 0.65, 0.7],
        'XGBRegressor__reg_alpha': [30, 40, 50],
        'XGBRegressor__reg_lambda': [100, 120, 140],
        'XGBRegressor__seed': [42]
        }


        ]

    #model_names = ['XGBRegressor']
    model_names = ['Linear_Regression', 'Ridge_Regression', 'XGBRegressor']

    return models, params, model_names

In [None]:
models, params, model_names = pipelineEncoded()

Agora que o processo de engenharia de atributos foi realizado com sucesso nos dados de treino e teste. Para proseguir com o treinamento de um modelo regressor para previsão de vendas é importante extrair uma fração dos dados de treino que servirá como um conjunto de dados de validação (uma vez que os dados de teste não constitui o atributo alvo).

Aqui implementei uma divisão por meio da biblioteca `GroupShuffleSplit` do `scikit-learn`, de forma a garantir que grupos específicos (neste caso, identificados pela coluna Item_Identifier) não sejam divididos entre os conjuntos de treino e validação, ou seja, cada item único estará presente em apenas um dos conjuntos. Isso é especialmente útil quando os dados possuem dependências dentro de grupos, minimizando o viés entre os conjuntos.

In [None]:

from sklearn.model_selection import GroupShuffleSplit

# Criar o array do atributo_alvo dos dados de treino e aplicando
# um Power transform no atributo para evitar previsões negativas.

target = np.sqrt(train['Item_Outlet_Sales'])

# Separar o grupo pelo identificador do produto
groups = train['Item_Identifier']

# Configurar o GroupShuffleSplit
gss = GroupShuffleSplit(n_splits=1, test_size=0.3, random_state=42)

# Dividir o conjunto de dados em treino e validação
train_idx, validation_idx = next(gss.split(train, groups=groups))

# Separar os conjuntos com base nos índices
X_train = train.iloc[train_idx].drop(columns=['Item_Outlet_Sales'])
X_validation = train.iloc[validation_idx].drop(columns=['Item_Outlet_Sales'])
y_train = target.iloc[train_idx]
y_validation = target.iloc[validation_idx]

# Verificar as divisões
print("Itens únicos no treino:", X_train['Item_Identifier'].nunique())
print("Itens únicos na validação:", X_validation['Item_Identifier'].nunique())


Itens únicos no treino: 1091
Itens únicos na validação: 468


In [None]:
# Exemplo: Identificador a ser verificado
item_to_check = 'NCB42'

# Verificar a ocorrência no X_train e X_validation
occurrence_train = X_train['Item_Identifier'].str.contains(item_to_check).any()
occurrence_validation = X_validation['Item_Identifier'].str.contains(item_to_check).any()

# Exibir os resultados
print(f"O identificador {item_to_check} está presente no X_train? {'Sim' if occurrence_train else 'Não'}")
print(f"O identificador {item_to_check} está presente no X_validation? {'Sim' if occurrence_validation else 'Não'}")


O identificador NCB42 está presente no X_train? Não
O identificador NCB42 está presente no X_validation? Sim


In [None]:
import sklearn
print(sklearn.__version__)

1.5.2


### **4 - Treinamento de Modelos de Aprendizagem de Máquina**

Aqui implementei uma função customizada chanada de `Hyperopt` que utiliza validação cruzada para encontrar a melhor combinação de hiperparâmetros. Em ordem, essa função aceita como entrada os objetos gerados pela função `pipelineEncoded` (modelo, um conjunto de hiperparâmetros e rótulo identificador), dados de treino e validação, uma métrica primaria de avaliação, e o número de divisões para validação cruzada. Para encontrar uma combinação ideal de hiperparâmetros para um modelo, irei utilizar o estimador RandomizedSearchCV, cuja abordagem consiste em uma busca aleatória em um subconjunto especificado do espaço de hiperparâmetros, para identifica o melhor modelo, e realiza previsões nos conjuntos de treino e validação.

Em resumo, a função encapsula o processo de ajuste de hiperparâmetros, avaliação do modelo e apresentação dos resultados, proporcionando uma abordagem abrangente para otimização dos modelos de aprendizado de máquina.

In [None]:
# @title
from sklearn.model_selection import RandomizedSearchCV, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
from pathlib import Path
import pickle
from sklearn.exceptions import NotFittedError
from sklearn.metrics import make_scorer


def Hyperopt(models, models_names, params, X_train, X_valid, y_train, y_valid, metrica, n_splits):
    results = []  # Lista para armazenar os resultados de cada modelo

    for model, param_grid, model_name in zip(models, params, model_names):

        # Definir Objeto
        hp_search = RandomizedSearchCV(model,
                                        param_distributions=param_grid,
                                        n_iter=10,
                                        scoring=metrica,
                                        cv=n_splits,
                                        verbose=2,
                                        n_jobs=-1,
                                        random_state=42)

        # Executa a busca
        try:
            # Evita o sobreajuste (Uma precaução que confere redundância)
            if isinstance(model, xgboost.sklearn.XGBRegressor): # Checa se o modelo é o XGBRegressor
                hp_search.fit(X_train, y_train,
                             eval_set=[(X_valid, y_valid)],
                             early_stopping_rounds=50, # Ajusta o early_stopping_rounds para evitar o sobreajuste
                             eval_metric='rmse', # defnir uma métrica personalizada para o modelo
                             verbose=False) # Omiti a saída de logs durante o treinamento do modelo
            else:
                hp_search.fit(X_train, y_train)
        except NotFittedError as e:
            print(f"Falha ao ajustar o modelo {model_name}: {e}")
            continue

        best_model = hp_search.best_estimator_

        # Reverter valores ao espaço original com a transformação de raiz quadrada
        y_train_original = np.square(y_train)  # Inverso da raiz quadrada
        y_train_pred_original = np.square(best_model.predict(X_train))  # Inverso da raiz quadrada para previsões
        y_valid_original = np.square(y_valid)  # Inverso da raiz quadrada
        y_valid_pred_original = np.square(best_model.predict(X_valid))  # Inverso da raiz quadrada para previsões

        # Calcular métricas no conjunto de treino (espaço original)
        rmse_train = np.sqrt(mean_squared_error(y_train_original, y_train_pred_original))
        r2_train = r2_score(y_train_original, y_train_pred_original)

        # Calcular métricas no conjunto de teste (espaço original)
        rmse_test = np.sqrt(mean_squared_error(y_valid_original, y_valid_pred_original))
        r2_test = r2_score(y_valid_original, y_valid_pred_original)


        # Função de avaliação customizada
        def custom_rmse(y_true, y_pred):
            '''
            Função de avaliação customizada para ser usado na validação cruzada
            devido ao power transform no atributo alvo.
            '''

            # Reverter previsões e verdadeiros para o espaço original
            y_true_original = np.square(y_true)
            y_pred_original = np.square(y_pred)
            return np.sqrt(mean_squared_error(y_true_original, y_pred_original))

        # Criar o scorer
        custom_rmse_scorer = make_scorer(custom_rmse, greater_is_better=False)

        # Calcular scores da validação cruzada no espaço original
        scores_train = cross_val_score(best_model, X_train, y_train, scoring=custom_rmse_scorer, cv=n_splits)
        scores_test = cross_val_score(best_model, X_valid, y_valid, scoring=custom_rmse_scorer, cv=n_splits)

        min_score_train = np.min(scores_train)
        max_score_train = np.max(scores_train)
        std_score_train = np.std(scores_train)
        mean_score_train = np.mean(scores_train)

        min_score_test = np.min(scores_test)
        max_score_test = np.max(scores_test)
        std_score_test = np.std(scores_test)
        mean_score_test = np.mean(scores_test)


        # Mostrar os resultados utilizando o MetricViewer
        MetricViewer(
            model_name=model_name,
            hp=hp_search.best_params_,
            r2_train=r2_train,
            rmse_train=rmse_train,
            metrica_avaliada=metrica,
            min_score_train=min_score_train,
            max_score_train=max_score_train,
            std_score_train=std_score_train,
            mean_score_train=mean_score_train,
            r2_test=r2_test,
            rmse_test=rmse_test,
            min_score_test=min_score_test,
            max_score_test=max_score_test,
            std_score_test=std_score_test,
            mean_score_test=mean_score_test
        )

        model_filename = f"{model_name}_best_model.pkl"
        pickle.dump(best_model, open(model_filename, 'wb'))

        # Armazenar resultados
        results.append({
            "model": best_model,
            "best_params": hp_search.best_params_,
            "best_score": hp_search.best_score_,
            "cv_results": hp_search.cv_results_
        })

        # Retornar resultado
    return results

def MetricViewer(model_name, hp, r2_train, rmse_train, metrica_avaliada,
                 min_score_train, max_score_train, std_score_train, mean_score_train,
                 r2_test, rmse_test, min_score_test, max_score_test, std_score_test, mean_score_test):
    """
    Exibe métricas de avaliação de um modelo treinado de forma clara e organizada.

    Parâmetros:
    -----------
    modelo : object
        O modelo treinado.
    hp : dict
        Os melhores hiperparâmetros encontrados.
    r2_train, r2_test : float
        Coeficiente de determinação (R²) para treino e teste.
    rmse_train, rmse_test : float
        Raiz do erro médio quadrático (RMSE) para treino e teste.
    metrica_avaliada : str
        Nome da métrica de avaliação utilizada.
    min_score_train, max_score_train, mean_score_train, std_score_train : float
        Estatísticas dos scores de validação cruzada no conjunto de treino.
    min_score_test, max_score_test, mean_score_test, std_score_test : float
        Estatísticas dos scores de validação cruzada no conjunto de teste.
    """


    print("=" * 50)
    print(f"🔍 **Model Evaluation**")
    print("=" * 50)
    print(f"📋 **Model:** {model_name}")
    print(f"🔧 **Best Parameters:** {hp}")
    print(f"📊 **Metric Evaluated:** {metrica_avaliada}")
    print("-" * 50)

    # Métricas de Treino
    print("📈 **Training Metrics**")
    print(f"   - RMSE: {rmse_train:.4f}")
    print(f"   - R² Score: {r2_train:.4f}")
    print(f"   - Min Score (CV): {min_score_train:.4f}")
    print(f"   - Max Score (CV): {max_score_train:.4f}")
    print(f"   - Std Dev (CV): {std_score_train:.4f}")
    print(f"   - Mean Score (CV): {mean_score_train:.4f}")
    print("-" * 50)

    # Métricas de Teste
    print("📉 **Testing Metrics**")
    print(f"   - RMSE: {rmse_test:.4f}")
    print(f"   - R² Score: {r2_test:.4f}")
    print(f"   - Min Score (CV): {min_score_test:.4f}")
    print(f"   - Max Score (CV): {max_score_test:.4f}")
    print(f"   - Std Dev (CV): {std_score_test:.4f}")
    print(f"   - Mean Score (CV): {mean_score_test:.4f}")
    print("=" * 50)



In [None]:
resultado = Hyperopt(models, model_names, params, X_train, X_validation, y_train, y_validation, 'neg_root_mean_squared_error', n_splits=3)

Fitting 3 folds for each of 3 candidates, totalling 9 fits



The total space of parameters 3 is smaller than n_iter=10. Running 3 iterations. For exhaustive searches, use GridSearchCV.



🔍 **Model Evaluation**
📋 **Model:** Linear_Regression
🔧 **Best Parameters:** {'preprocessor__num_pipeline__poly__degree': 2}
📊 **Metric Evaluated:** neg_root_mean_squared_error
--------------------------------------------------
📈 **Training Metrics**
   - RMSE: 979.1015
   - R² Score: 0.5720
   - Min Score (CV): -1007.2803
   - Max Score (CV): -967.9105
   - Std Dev (CV): 16.1795
   - Mean Score (CV): -986.2826
--------------------------------------------------
📉 **Testing Metrics**
   - RMSE: 987.1083
   - R² Score: 0.5740
   - Min Score (CV): -991.5308
   - Max Score (CV): -976.0750
   - Std Dev (CV): 7.2028
   - Mean Score (CV): -981.3465
Fitting 3 folds for each of 10 candidates, totalling 30 fits
🔍 **Model Evaluation**
📋 **Model:** Ridge_Regression
🔧 **Best Parameters:** {'preprocessor__num_pipeline__poly__degree': 2, 'Ridge__alpha': 0.1}
📊 **Metric Evaluated:** neg_root_mean_squared_error
--------------------------------------------------
📈 **Training Metrics**
   - RMSE: 979.075

Conforme o resultado das métricas, O XGboost teve uma melhor perfomance com o  seguinte conjunto de hiperparâmetros otimizados:

>- n_estimators=$300$: Um aumento no número de árvores, mantendo um bom controle da complexidade.

>- learning_rate=$0.03$: Taxa de aprendizado mais baixa, permitindo ajustes graduais e reduzindo o risco de overfitting.

>- max_depth=$3$ e min_child_weight=$2$: Profundidade e peso mínimo controlados para evitar sobreajuste.

>- subsample=$0.95$ e colsample_bytree=$0.6$: Amostragem menor que o total, melhorando a robustez.

>- reg_alpha=$30$ e reg_lambda=$120$: Penalizações apropriadas para regularização e estabilidade.

>- A raiz quadrada do erro médio ao quadrado (RMSE) reflete muito bem as grandes diferenças entre as previsões e os valores reais. Cujos os valores estão na casa de centenas, indicando que, em média, as previsões erram na ordem de $900$ unidades.  

> - Valores de R² em torno de $0.57-0.59$ sugerem que os modelos explicam aproximadamente $57\%-59\%$ da variância do atributo alvo, o que é razoável, mas longe de ser ótimo.

> - O Min Score e o Max Score refletem o intervalo de variação das previsões nas diferentes folds durante a validação cruzada. E cujo o valor do desvio padrão indicam que os modelos apresentam um desempenho estável entre as diferentes folds.  

No geral os modelos tiveram perfomances similares e levando em conta o princípio da parcimônia (sugere que dentre todas as opções sendo parecidas, é melhor ficar com a solução mais simples possível para o problema) adotarei a regressão linear como modelo para realizar previsões com dados não vistos.

In [None]:
# @title
import pickle

# Carregar o modelo salvo
best_model = pickle.load(open("/content/Linear_Regression_best_model.pkl", "rb"))


In [None]:
# @title
# Prever os valores no espaço transformado
y_preds = np.square(best_model.predict(X_validation))

# Calcular os resíduos no espaço original
residuals = np.square(y_validation)-y_preds

# Criar um DataFrame com os resultados no espaço original
residuals_df = pd.DataFrame({
    'Predictions': y_preds,
    'Real Values': np.square(y_validation),
    'Residuals': residuals
})

residuals_df.head(20).style.background_gradient(cmap = 'Set3')

Unnamed: 0,Predictions,Real Values,Residuals
11,2141.954102,2187.153,45.198898
15,783.125244,1547.3192,764.193956
16,1554.700256,1621.8888,67.188544
17,786.189026,718.3982,-67.790826
19,3257.020569,2748.4224,-508.598169
22,3147.385315,1587.2672,-1560.118115
23,194.253906,214.3876,20.133694
24,2499.218811,4078.025,1578.806189
27,684.558167,308.9312,-375.626967
28,0.765625,178.4344,177.668775


Conforme os resultado das métricas os três modelos obtiveram uma perfomance limitada ao realizar previsões, mesmo com o emprego de técnicas robustas como features polinomias e XGBoost com uma grade de hiperparâmetros otimizada não conseguem capturar a maior parte da variância dos dados. Mesmo um modelo robusto como o XGBoost só conseguirá capturar o que os dados podem oferecer. Nesse contexto de vendas no varejo, a baixa quantidade de dados deve ser o fator limitante. Agora plotando um gráfico residual para avaliar a representatidade do modelo de regressão linear:


In [None]:
# @title

# Criar um gráfico de dispersão
fig = px.scatter(residuals_df, x='Predictions', y='Residuals', title='Residuals Distribution',
                 labels={'Predictions': 'Valores Previstos', 'Residuals': 'Resíduos'})

# Adicionar uma linha de referência em y=0
fig.add_trace(go.Scatter(x=[min(y_preds), max(y_preds)], y=[0, 0], mode='lines', name='Zero Residuals',
                         line=dict(color='red', dash='dash')))

# Personalizar layout
fig.update_layout(
    title=dict(text='Distribuição de Resíduos', x=0.5, y=0.95),
    xaxis_title='Valores Previstos',
    yaxis_title='Resíduos',
    font=dict(size=14, family='Arial, sans-serif', color = 'black'),
    margin=dict(l=20, r=20, t=60, b=20),
    showlegend=True
)

# Personalizar marcadores
fig.update_traces(marker=dict(size=6, opacity=0.7))

# Exibir o gráfico
fig.show()



Esse conjunto de dados é particularmente propenso à heterocedasticidade, pois agrega subgrupos (tipos de produtos) com características muito diferentes. Dependendo da categoria do produto, tamanho da loja, localização da loja, entre outros atributos, a variação nas vendas agrega uma faixa bem ampla. Logo é natural que certos produtos tenham vendas muito baixas, enquanto outros, especialmente itens de alta demanda ou preço, tenham vendas significativamente mais altas. Isso gera uma distribuição de valores assimétrica e uma heterocedasticidade inerente que não é um problema em si, mas um reflexo natural da variação nos dados. Porém, essse fator preponderante afeta o desempenho do modelo, especialmente em previsões de valores maiores, que tendem a carregar maior erro proporcional conforme observa-se no gráfico acima.

####**Conclusões**
No caso analisado, os dados coletados de um pequeno mercado varejista, como o Big Mart, são insuficientes para treinar um modelo altamente eficaz. Isso ocorre devido às características intrínsecas de mercados menores, que incluem baixo tráfego de consumidores, baixo estoque de produtos disponíveis e restrições na variedade de categorias de dados.

Este experimento sugere que, para dados de vendas em pequenos volumes, o uso exclusivo de algoritmos de aprendizado de máquina pode não ser a abordagem ideal. As previsões geradas por esses modelos podem carecer de precisão e, portanto, não se mostram particularmente cruciais em tomadas de decisões no que se diz respeito a prervisão de vendas. Nesse cenário, tais modelos podem ser vistos apenas como ferramentas auxiliares, fornecendo suporte limitado para decisões do varejo da rede Big Mart, mas sem substituir abordagens tradicionais ou complementares de análise.


### **5 - Implantação de um Modelo de Regressão Linear**

Nessas circustâncias, o ambiente jupyter notebook não é o cenário ideal para implementar uma aplicação web escrita em Dash. Contudo, é possível realizar algumas adaptações para testar a operacionalização do modelo treinado para realizar previsões individuais e múltiplas. Execute as duas células da seção 5.1 e passe para a seção 5.3, executando as células de forma ordenada.

#### **5.1 - Dependências**

Instalando as dependencias necessárias:

In [None]:
# Essas bibliotecas são essenciais para rodar o dash app no colab
%%capture
!pip install numpy==1.26.4
!pip install pandas==2.2.2 --include-deps
!pip install joblib==1.4.2
!pip install scikit-learn==1.5.2
!pip install xgboost==2.1.2 --include-deps
!pip install plotly==5.24.1
!pip install dash==2.18.2
!pip install dash-bootstrap-components==1.6.0
!pip install jupyter-dash==0.4.2


Importando as bibliotecas:

In [None]:
import numpy as np
import pandas as pd
import re
import base64, io
import os
from joblib import load
import plotly.graph_objects as go
import plotly.express as px
from urllib.parse import quote
import dash
import dash_bootstrap_components as dbc
from dash import dcc, html, dash_table
from dash.dependencies import Input, Output, State
from dash.exceptions import PreventUpdate

#### **5.2 - Testes Preliminares**

Importando os dados e o modelo treinado (Está hospedado no Github)

In [None]:
# @title
import pandas as pd
from joblib import load
import os

#Importar os dados necessários
PathExist = os.path.exists('/content/BigMart-data/')
if PathExist == True:
   %cd /content/BigMart-data
else:
   %cd /content
   !git clone https://github.com/wanderson42/BigMart-data.git
   %cd /content/BigMart-data

location = os.getcwd()
# Carregar modelo treinado
path = os.path.join(location, 'XGBRegressor_best_model.pkl')
XGBRegressor = load(path)

# Convertendo os dados de teste em csv para pandas.dataframe
test_df = pd.read_csv('/content/BigMart-data/bigmart_sales_test_cleaned.csv')

/content
Cloning into 'BigMart-data'...
remote: Enumerating objects: 103, done.[K
remote: Counting objects: 100% (44/44), done.[K
remote: Compressing objects: 100% (43/43), done.[K
remote: Total 103 (delta 23), reused 1 (delta 1), pack-reused 59 (from 1)[K
Receiving objects: 100% (103/103), 1.18 MiB | 11.61 MiB/s, done.
Resolving deltas: 100% (46/46), done.
/content/BigMart-data


In [None]:
# @title

#Código para usar somente a parte de codificação do pipeline encapsulado (pkl)

# Selecionar apenas as colunas necessárias do conjunto de validação
#num_columns = ['Item_Visibility',  'Item_MRP', 'Outlet_Years']
#nominal_columns = ['Item_Fat_Content', 'Outlet_Location_Type', 'Outlet_Size', 'Item_Reference',
#                      'Outlet_Type','Outlet_Identifier']
# ordinal_columns are removed as they are same as nominal_columns
# ordinal_columns = ['Item_Fat_Content', 'Outlet_Location_Type', 'Outlet_Size', 'Item_Reference',
#                       'Outlet_Type','Outlet_Identifier']

# Combine the unique columns, avoiding duplicates using set
#relevant_columns = list(set(num_columns + nominal_columns))  # Use set to ensure unique columns


# Aplicar o pipeline de pré-processamento aos conjuntos de treino e validação
#X_train_encoded = best_model.named_steps['preprocessor'].transform(X_train[relevant_columns])
#X_validation_encoded = best_model.named_steps['preprocessor'].transform(X_validation[relevant_columns])



**Função para fazer previsões com base nas entradas do usuário:**

In [None]:
# @title
# Função para fazer previsões com base nas entradas do usuário.
import os
import pandas as pd
import numpy as np
from joblib import load
import re
def make_predictions(user_data):

    # Caminho para o modelo treinado
    location = os.getcwd()
    path_model = os.path.join(location, 'Linear_Regression_best_model.pkl')
    XGBRegressor = load(path_model)
    if isinstance(user_data, dict):

      # Dicionário para inferência de diversos atributos baseada em 'Outlet_Identifier'
      outlet_info = {
          'OUT010': {'Outlet_Type': 'Grocery_Store', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 25},
          'OUT013': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'High', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 36},
          'OUT017': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 16},
          'OUT018': {'Outlet_Type': 'Supermarket_Type2', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 14},
          'OUT019': {'Outlet_Type': 'Grocery_Store', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 38},
          'OUT027': {'Outlet_Type': 'Supermarket_Type3', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 38},
          'OUT035': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 19},
          'OUT045': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 21},
          'OUT046': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 26},
          'OUT049': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 24}
      }

      # Verificar se 'Outlet_Identifier' está presente nos dados do usuário
      if 'Outlet_Identifier' not in user_data:
          raise ValueError("Missing 'Outlet_Identifier' in user data.")

      outlet_identifier = user_data['Outlet_Identifier']
      if outlet_identifier not in outlet_info:
          raise ValueError(f"Unknown Outlet Identifier: {outlet_identifier}")

      # Combinar os dois dicionários
      combined_data = {**user_data, **outlet_info[outlet_identifier]}

      # Garantir que valores numéricos estejam encapsulados em listas
      num_features = ['Item_Visibility', 'Item_MRP', 'Outlet_Years']
      for feature in num_features:
          if feature in combined_data and not isinstance(combined_data[feature], list):
              combined_data[feature] = [combined_data[feature]]

      # Converter dicionário combinado para DataFrame
      user_data = pd.DataFrame.from_dict(combined_data)

    # Verificar colunas esperadas pelo modelo
    expected_columns = XGBRegressor.feature_names_in_

    # Ordenar as colunas na ordem esperada
    user_data = user_data[expected_columns]

    # Fazer previsão
    predictions = np.square(XGBRegressor.predict(user_data))

    return predictions


**=======================================================================================**

In [None]:
# Criar o DataFrame
# Extrair categorias únicas para 'Item_Identifier'
df_items = train['Item_Identifier'].unique().tolist()

# Create a DataFrame with the list
df_items = pd.DataFrame(df_items, columns=['Item_Identifier']) # Convert list to DataFrame

# Salvar como CSV na pasta raiz do projeto
csv_path = './item_identifiers.csv'
df_items.to_csv(csv_path, index=False)

print(f"Arquivo CSV criado em: {csv_path}")

Arquivo CSV criado em: ./item_identifiers.csv


**Aplicar o modelo treinado para fazer uma previsão individual:**

In [None]:
# @title
# Extraindo uma linha aleatória
X_row = test_df.sample(1)
X_row

Unnamed: 0,Item_Identifier,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Size,Outlet_Location_Type,Outlet_Type,Outlet_Years
1248,FDO45,Regular,0.037921,Snack_Foods,87.3856,OUT013,High,Tier_3,Supermarket_Type1,36


In [None]:
# @title
user_data = {'Item_Identifier':'FDO45', 'Outlet_Identifier': 'OUT013', 'Item_Type': 'Snack_Foods', 'Item_Fat_Content': 'Regular', 'Item_Visibility': 0.04, 'Item_MRP': 87.03}

In [None]:
make_predictions(user_data)


array([1380.00640869])

**=======================================================================================**

**Aplicar o modelo treinado para fazer uma previsão multipla:**

In [None]:
import pandas as pd

# Carregar os dados limpos que serão usados para predição
test_user_inputs = pd.read_csv('/content/BigMart-data/bigmart_sales_test_cleaned.csv')

# Efetuar as predições
preds_data_frame = make_predictions(test_user_inputs)

# Criar uma série para as previsões
item_outlet_sales = pd.Series(preds_data_frame, name='Item_Outlet_Sales')

# Criar o DataFrame final com apenas as colunas necessárias
test_preds = pd.concat([
    test_df[['Outlet_Identifier', 'Item_Identifier']].reset_index(drop=True),
    item_outlet_sales.reset_index(drop=True)
], axis=1)

# Exibindo o DataFrame resultante
print("\033[1mPrevisões no conjunto de novos dados:\033[0m")
test_preds.sample(20).style.background_gradient(cmap = 'Set3')

# Opcional: salvar as previsões em um arquivo CSV
# test_preds.to_csv('test_predictions.csv', index=False)

[1mPrevisões no conjunto de novos dados:[0m


Unnamed: 0,Outlet_Identifier,Item_Identifier,Item_Outlet_Sales
941,OUT035,FDQ49,2334.097656
4858,OUT019,FDU11,268.396545
4807,OUT010,NCV06,674.781799
1323,OUT049,NCU29,2352.25
4204,OUT010,FDY45,992.25
4683,OUT010,FDO31,56.719727
3725,OUT018,FDZ01,1447.564697
852,OUT013,FDO11,3468.105713
3780,OUT045,NCO07,3135.125061
2842,OUT017,DRH03,1355.160156


Parece que tudo está funcionando perfeitamente. Agora podemos prosseguir com o Dashboard

#### **5.3 - Dashboard**

A seguir estão as células que contem os arquivos da aplicação dash que originalmente foram escritas no Vscode. A célula do arquivo `helper.py` contém funções auxiliares para o arquivo principal do `app.py`.

Como forma de testar a funcionalidade de multiplas previsões no aplicatico dash, segue o link de um conjunto de dados de produção que pode ser upado no app: https://raw.githubusercontent.com/wanderson42/BigMart-data/refs/heads/main/bigmart_sales_test_cleaned.csv

Esses são dados finais, em oposição aos dados de treinamento ou validação, com intuito de realizar previsões ou fornecer insights através de um cenário mais próximo do uso real.


Execute as células a seguir para acessar o dasboard através de uma url local!

In [None]:
# Importando o modelo treinado via pkl
path = '/content/bigmart_dash_app/xgboost_model.joblib'
PathExist = os.path.exists(path)
if PathExist == True:
   %cd /content/bigmart_dash_app
else:
   %cd /content
   !git clone https://github.com/wanderson42/bigmart_dash_app.git
   %cd /content/bigmart_dash_app

/content
Cloning into 'bigmart_dash_app'...
remote: Enumerating objects: 60, done.[K
remote: Counting objects: 100% (60/60), done.[K
remote: Compressing objects: 100% (60/60), done.[K
remote: Total 60 (delta 20), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (60/60), 3.93 MiB | 6.59 MiB/s, done.
Resolving deltas: 100% (20/20), done.
/content/bigmart_dash_app




```
# Isto está formatado como código
```

**`helpers.py:`**

In [None]:
def text_intro():
    conteudo_inicio = html.Div([
        html.H4("Motivação"),
        html.P([
            "O ",
            html.Strong("BigMart Sales"),
            " é um conjunto de dados desenvolvido pela ",
            html.A("analytics vidhya", href="https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/", target="_blank"),
            " para previsão de vendas a partir de produtos em diferentes lojas, com base em atributos informativos, como tamanho da loja, localização, tipo de produto, preço, promoções e descontos, entre outros. O desafio é construir um modelo de aprendizado de máquina que possa prever com precisão as vendas futuras com base nessas informações."
        ]),
        html.P([
            "Portanto, o desenvolvimento desse dashboard é motivado pelo desejo de tornar a previsão (e consequente análise e interpretação) dos dados mais acessível, útil e interativa para diferentes tipos de usuários."
        ]),

        html.H4("Geração de Hipóteses"),
        html.P("Para uma abordagem estruturada, com intuito de entender os fatores que mais impactam as vendas, as previsões geradas nesse dashboard tiveram como fundamento o seguinte conjunto de hipóteses:"),

        html.H5("Com base no item:"),
        html.Ul([
            html.Li([html.Strong("Visibilidade do item na loja:"), " A localização do produto dentro da loja pode impactar as vendas. Produtos localizados na entrada têm mais chances de chamar a atenção dos clientes do que aqueles posicionados no fundo da loja."]),
            html.Li([html.Strong("Frequência do produto:"), " Produtos mais populares (frequentemente comprados) tendem a apresentar vendas mais altas."]),
        ]),

        html.H5("Com base na loja:"),
        html.Ul([
            html.Li([html.Strong("Tipo de cidade:"), " Lojas localizadas em cidades urbanas devem ter vendas mais altas devido ao maior nível de renda dos moradores."]),
            html.Li([html.Strong("Capacidade da loja:"), " Lojas muito grandes devem apresentar vendas mais altas, pois funcionam como 'one-stop-shops' (lugares onde se encontra tudo em um só lugar), atraindo clientes que preferem fazer todas as compras em um único local."]),
        ]),

        html.H4("Sobre o Conjunto de Dados"),
        html.P([
            html.Strong("O Big Mart Sales"),
            " é um conjunto de dados popular utilizado em problemas de previsão de vendas no varejo. Ele contém informações sobre vendas de produtos de 10 lojas da rede 'Big Mart', que estão localizadas em diferentes cidades e possuem diferentes tamanhos e tipos."
        ]),
        html.P("O conjunto de dados é composto por duas partes: A parte de treinamento contém informações sobre 8523 produtos, enquanto a parte de teste contém informações sobre 5681 produtos. Cada entrada no conjunto de dados contém informações sobre o identificador do produto, o identificador da loja, a localização da loja, o tipo de produto, o peso e o preço do produto, entre outras informações."),

        html.H5("Descrição dos atributos informativos:"),
        html.Ul([
            html.Li([html.Strong("Item_Weight:"), " Peso do produto ;", html.Strong(" (Não considerado nas hipóteses)")]),
            html.Li([html.Strong("Item_Fat_Content:"), " Se o produto é com baixo teor de gordura ou não;"]),
            html.Li([html.Strong("Item_Visibility:"), " A porcentagem da área total de exposição de todos os produtos em uma loja alocada para um produto específico;"]),
            html.Li([html.Strong("Item_Type:"), " O tipo de categoria que o produto pertence;"]),
            html.Li([html.Strong("Item_MRP:"), " Preço máximo de varejo (preço de lista) do produto;", html.Strong(" (Não considerado nas hipóteses)")]),
            html.Li([html.Strong("Outlet_Establishment_Year:"), " O ano em que a loja foi fundada;"]),
            html.Li([html.Strong("Outlet_Size:"), " O tamanho da loja em termos de área terrestre coberta;"]),
            html.Li([html.Strong("Outlet_Location_Type:"), " O tipo de cidade em que a loja está localizada;"]),
            html.Li([html.Strong("Outlet_Type:"), " Se a loja é apenas uma mercearia ou algum tipo de supermercado;"]),
        ]),

        html.P([
            html.Strong("Item_Outlet_Sales:"),
            " Representa as vendas totais de um produto específico em uma loja específica. Essa é o atributo alvo em que estamos interessados em prever no conjunto de dados."
        ]),
        html.P("O objetivo deste projeto é treinar um modelo de aprendizagem supervisionada para estimar com precisão as vendas futuras e com isso entender quais produtos e lojas causam mais impacto no crescimento das vendas. Por meio da biblioteca Dash Python foi possível criar uma aplicação web interativa e personalizada para visualização e análise do Big Mart Sales Prediction Dataset. De forma a explorar os dados de forma dinâmica, fazer previsões e compartilhar insights de forma fácil e interativa."),

        html.H4("Código GitHub"),
        html.P([
            "Interessado no desenvolvimento do projeto? ",
            html.A("Clique aqui para ver o código fonte!", href="https://github.com/wanderson42/bigmart_dash_app.git", target="_blank"),
            " Para ter acesso ao projeto na íntegra, que contempla desde uma minuciosa análise de dados, bem como o treinamento de um modelo random forest confiável para previsão de vendas, e não menos importante a construção desta aplicação web."
        ])
    ])
    return conteudo_inicio



# Função para criar menu suspenso de categorias da página "Previsões Individuais"
def create_dropdown(feature, searchable=False):
    """
    Cria um menu suspenso (dropdown) personalizado para Dash.

    :param feature: Nome da feature para o dropdown.
    :param options: Lista de opções disponíveis para o dropdown.
                    Se None, será usado o dicionário padrão `categorias`.
    :return: Elemento HTML contendo o dropdown.
    """
    # Dicionários com as categorias para as features discretas da página "Previsões"
    categorias = {
        "Outlet_Identifier": ['OUT010', 'OUT013',  'OUT017', 'OUT018', 'OUT019',  'OUT027', 'OUT035', 'OUT045',  'OUT046', 'OUT049'],  # Atualizado com as categorias corretas
        "Item_Reference": ['Food', 'Drinks', 'Non-Consumable'],
        "Item_Fat_Content": ['Low_Fat', 'Regular', 'Inedible'],  # Atualizado com as categorias corretas
        "Item_Type": ['Canned', 'Household', 'Hard_Drinks', 'Health_and_Hygiene',
        'Frozen_Foods', 'Baking_Goods', 'Fruits_and_Vegetables',
        'Snack_Foods', 'Dairy', 'Meat', 'Breakfast', 'Others',
        'Starchy_Foods', 'Soft_Drinks', 'Seafood', 'Breads'],  # Atualizado com as categorias corretas
        "Outlet_Size": ['Small', 'Medium',  'High'],  # Atualizado com as categorias corretas
        "Outlet_Location_Type": ['Tier_1', 'Tier_2', 'Tier_3'],  # Atualizado com as categorias corretas
        "Outlet_Type": ['Grocery_Store', 'Supermarket_Type1', 'Supermarket_Type2']  # Atualizado com as categorias corretas
    }

    return html.Div([
        html.H6(f"{feature}:"),
        dcc.Dropdown(
            id=f'dropdown-{feature}',
            options=[] if searchable else [{'label': i, 'value': i} for i in categorias.get(feature, [])],
            placeholder=f"Digite ou selecione {feature}...",
            multi=False, # Configurar para múltiplas seleções se necessário
            searchable=searchable, # Permitir busca digitando
            style={"width": "180px"} if searchable else {"width": "180px"}
        ),
    ])

# função para processar o arquivo .csv após o upload e exibi-lo em uma tabela de dados no callback:
def read_uploaded_data(contents):
    content_type, content_string = contents.split(',')
    decoded = base64.b64decode(content_string)
    loaded_data = pd.read_csv(io.StringIO(decoded.decode('utf-8')))
    return loaded_data

def parse_contents(contents):
    loaded_data = read_uploaded_data(contents)

    return html.Div([
        html.H5('Dados do arquivo .csv:'),
        dash_table.DataTable(
            data=loaded_data.to_dict('records'),
            columns=[{'name': col, 'id': col} for col in loaded_data.columns],
            style_table={'height': '300px', 'overflowY': 'auto', 'position': 'relative'},
        ),
        html.Button('Fazer Previsões', id='submit-button', n_clicks=0, style={
            'background-color': '#f1863d',
            'border-radius': '5px',
            'padding': '5px',
            'color': 'black',
            'bottom': '5px',
        }),
    ], style={'width': '100%', 'position': 'relative'})


# Função para fazer previsões com base nas entradas do usuário.
def make_predictions(user_data):
    '''
    Faz previsões de vendas com base nos dados fornecidos pelo usuário.

    Esta função utiliza um modelo de regressão linear previamente treinado para
    prever valores de vendas, permitindo entradas de dados em formato de dicionário (uma única previsão)
    ou DataFrame (previsões em lote). O modelo foi treinado para trabalhar com features numéricas e categóricas,
    e pode inferir informações adicionais com base no identificador da loja ('Outlet_Identifier').

    Retorno:
    -------
    numpy.ndarray
        Um array contendo os valores previstos (em sua escala original).

    Exceções:
    ---------
    ValueError:
        - Caso o 'Outlet_Identifier' esteja ausente ou seja desconhecido no dicionário de entrada.
        - Caso o DataFrame ou dicionário fornecido não possua as colunas esperadas pelo modelo.

    '''
    # Caminho para o modelo treinado
    #location = os.getcwd()
    #path_model = os.path.join(location, 'Ridge_Regression_best_model.pkl')
    lr_model = load('/content/bigmart_dash_app/Linear_Regression_best_model.pkl')

    # Se for uma previsão individual o input sera um dicionário:
    if isinstance(user_data, dict):

      # Dicionário para inferência de diversos atributos baseada em 'Outlet_Identifier'
      outlet_info = {
          'OUT010': {'Outlet_Type': 'Grocery_Store', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 25},
          'OUT013': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'High', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 36},
          'OUT017': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 16},
          'OUT018': {'Outlet_Type': 'Supermarket_Type2', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 14},
          'OUT019': {'Outlet_Type': 'Grocery_Store', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 38},
          'OUT027': {'Outlet_Type': 'Supermarket_Type3', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_3', 'Outlet_Years': 38},
          'OUT035': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 19},
          'OUT045': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_2', 'Outlet_Years': 21},
          'OUT046': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Small', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 26},
          'OUT049': {'Outlet_Type': 'Supermarket_Type1', 'Outlet_Size': 'Medium', 'Outlet_Location_Type': 'Tier_1', 'Outlet_Years': 24}
      }

      # Verificar se 'Outlet_Identifier' está presente nos dados do usuário
      if 'Outlet_Identifier' not in user_data:
          raise ValueError("Missing 'Outlet_Identifier' in user data.")

      outlet_identifier = user_data['Outlet_Identifier']
      if outlet_identifier not in outlet_info:
          raise ValueError(f"Unknown Outlet Identifier: {outlet_identifier}")

      # Combinar os dois dicionários
      combined_data = {**user_data, **outlet_info[outlet_identifier]}

      # Garantir que valores numéricos estejam encapsulados em listas
      num_features = ['Item_Visibility', 'Item_MRP', 'Outlet_Years']
      for feature in num_features:
          if feature in combined_data and not isinstance(combined_data[feature], list):
              combined_data[feature] = [combined_data[feature]]

      # Converter dicionário combinado para DataFrame
      user_data = pd.DataFrame.from_dict(combined_data)

    # Verificar colunas esperadas pelo modelo
    expected_columns = lr_model.feature_names_in_

    # Ordenar as colunas na ordem esperada
    user_data = user_data[expected_columns]

    # Fazer previsão
    predictions = np.square(lr_model.predict(user_data))

    return predictions


# Apartir daqui são as funções de plot

# Paleta de Cores
CATEGORY_COLORS = {
    'Fruits_and_Vegetables': '#1f77b4',  # Azul vibrante
    'Snack_Foods': '#ff7f0e',            # Laranja vibrante
    'Household': '#2ca02c',              # Verde forte
    'Frozen_Foods': '#d62728',           # Vermelho escuro
    'Dairy': '#9467bd',                  # Roxo suave
    'Canned': '#8c564b',                 # Marrom suave
    'Soft_Drinks': '#e377c2',            # Rosa claro
    'Meat': '#7f7f7f',                   # Cinza médio
    'Baking_Goods': '#bcbd22',           # Amarelo forte
    'Health_and_Hygiene': '#17becf',     # Azul claro
    'Starchy_Foods': '#ff9896',          # Rosa claro
    'Breakfast': '#c5b0d5',              # Lilás suave
    'Hard_Drinks': '#aec7e8',            # Azul suave
    'Seafood': '#ffbb78',                # Laranja claro
    'Breads': '#98df8a',                 # Verde claro
    'Others': '#c7c7c7',                 # Cinza claro
    'Supermarket_Type1': '#FF5733',      # Vermelho alaranjado vibrante
    'Supermarket_Type2': '#2E8B57',      # Verde médio
    'Supermarket_Type3': '#482344',      # Violeta
    'Grocery_Store': '#1E90FF',          # Azul vibrante
}


def assign_colors(df, category_col):
    """
    Garante que todas as categorias no DataFrame tenham uma cor atribuída fixa.
    Se alguma categoria não estiver no mapeamento, levanta um aviso ou atribui uma cor padrão fixa.
    """
    global CATEGORY_COLORS

    # Verificar categorias presentes no DataFrame
    categories_in_data = set(df[category_col].unique())

    # Identificar categorias que não possuem cores atribuídas
    missing_categories = categories_in_data - set(CATEGORY_COLORS.keys())

    # Levantar exceção ou logar categorias ausentes
    if missing_categories:
        raise ValueError(f"As seguintes categorias não têm cores atribuídas: {missing_categories}")

    # Retornar um mapa de cores para as categorias presentes no DataFrame
    return {cat: CATEGORY_COLORS[cat] for cat in categories_in_data}



def plotly_sales_by_category(df):
    # Calculando as porcentagens de vendas
    total_sales = df['Item_Outlet_Sales'].sum()
    df['Sales Percentage'] = df['Item_Outlet_Sales'] / total_sales * 100

    # Ordenando as categorias por porcentagem de vendas
    df = df.sort_values('Sales Percentage', ascending=False)

    # Garantir que todas as categorias têm cores atribuídas
    assign_colors(df, 'Item_Type')

    # Criando um gráfico de anel (donut chart)
    fig = go.Figure()

    fig.add_trace(go.Pie(
        labels=df['Item_Type'],
        values=df['Sales Percentage'],
        hole=0.7,  # Tamanho do buraco no meio do anel
        textinfo='percent',
        insidetextfont=dict(color='black'),  # Cor do texto dentro das fatias
        marker=dict(colors=[CATEGORY_COLORS[cat] for cat in df['Item_Type']],
                    line=dict(color='white', width=2)),  # Aplicar cores consistentes
    ))

    fig.update_traces(hole=0.6)  # Define o tamanho uniforme para o anel

    # Adicionando uma imagem dentro do buraco da pizza
    fig.add_layout_image(
        source="https://raw.githubusercontent.com/wanderson42/bigmart_dash_app/main/264-2640171_inventory-icon-white.png",
        x=0.5, y=0.5, xanchor="center", yanchor="middle", sizex=0.4, sizey=0.4
    )

    fig.update_layout(
        title='Distribuição de Vendas por Tipo de Produto',
        title_x=0.15,
        title_font=dict(color='black', size=20),
        legend=dict(orientation="v", yanchor="middle", y=0.5, xanchor="left", x=1.2),
        margin=dict(t=50),
    )

    return fig


# @title
def plotly_sales_over_outlet(df, top_n=10):
    # Agrupar as features com a previsão
    sales_by_category = df.groupby(['Item_Type', 'Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type']).agg(
        {'Item_Outlet_Sales': 'sum', 'Item_Type': 'count'}).rename(columns={'Item_Type': 'Item_Count'}).reset_index()

    # Garantir que todas as categorias têm cores atribuídas
    assign_colors(sales_by_category, 'Item_Type')

    # Calcular a soma total de vendas para cada tipo de produto
    total_sales_by_item = sales_by_category.groupby('Item_Type')['Item_Outlet_Sales'].sum().reset_index()
    total_sales_by_item = total_sales_by_item.sort_values(by='Item_Outlet_Sales', ascending=False)
    sorted_item_types = total_sales_by_item['Item_Type'].tolist()

    # Filtrar para incluir apenas os top 10 produtos mais vendidos em cada tipo de loja
    top_items = (
        sales_by_category
        .sort_values(by='Item_Outlet_Sales', ascending=False)
        .groupby('Outlet_Identifier')
        .head(top_n)
    )

    # Gráfico de barras agrupadas para cada produto em função das lojas
    fig_bar_grouped = px.bar(
        top_items,
        x='Outlet_Identifier',
        y='Item_Outlet_Sales',
        color='Item_Type',
        text='Item_Count',  # Adiciona o texto direto no trace (mais confiável)
        title=f'Top {top_n} Produtos Mais Vendidos por Loja',
        labels={'Item_Outlet_Sales': 'Item_Outlet_Sales', 'Outlet_Identifier': 'Outlet_Identifier'},
        category_orders={'Item_Type': sorted_item_types},
        barmode='group',  # Define o modo de barras agrupadas
        color_discrete_map=CATEGORY_COLORS  # Aplicar cores consistentes
    )

    # Atualizar o layout para exibir os números dentro das barras
    fig_bar_grouped.update_traces(
        textposition='inside',  # Garante que o texto fique dentro das barras
        texttemplate='%{text}',  # Formata o texto (quantidade de itens vendidos)
        textfont=dict(size=88),  # Aumenta o tamanho do texto dentro das barras
        marker=dict(line=dict(color='white', width=1))  # Bordas brancas nas barras
    )

    # Adicionar anotações de Outlet_Size e Outlet_Location_Type no eixo X
    outlet_info_map = sales_by_category[['Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type']].drop_duplicates().set_index('Outlet_Identifier').to_dict()

    for outlet_id, info in outlet_info_map['Outlet_Size'].items():
        location_type = outlet_info_map['Outlet_Location_Type'][outlet_id]
        size = info
        fig_bar_grouped.add_annotation(
            x=outlet_id,  # Posição no eixo X (identificador da loja)
            y=-0.12,  # Coloca a anotação mais baixa
            text=f"Size: {size}<br>Location: {location_type}",  # Texto da anotação
            showarrow=False,
            font=dict(size=10, color="black"),
            align="center",
            bgcolor="rgba(255, 255, 255, 0.8)",  # Fundo transparente
            borderpad=4,
            borderwidth=1,
            bordercolor="gray",
            opacity=0.8,
            yref="y domain"  # Usando coordenadas relativas para colocar fora do gráfico
        )

    # Atualizando o layout do gráfico
    fig_bar_grouped.update_layout(
        xaxis=dict(
            title=dict(
                text='Loja',
                font=dict(size=14, color='black'),
                standoff=40  # Controla a distância do título ao eixo
            ),
        ),
        yaxis_title='Venda Total',
        legend_title='Tipo de produto',
        height=600,
        title_x=0.5,
        title_font=dict(color='black', size=20),
        plot_bgcolor='rgba(255, 255, 255, 0.8)',
        legend=dict(orientation='h', y=1.1),
        hovermode='x',
        hoverlabel=dict(bgcolor='white', font_size=12),
        yaxis=dict(showgrid=True, gridcolor='lightgray'),
        font=dict(family='Arial, sans-serif', size=12, color='black'),
    )

    return fig_bar_grouped

# @title
def plot_visibility_boxplot(df):
    """
    Cria um gráfico de boxplot mostrando a distribuição da visibilidade por tipo de produto,
    com cores consistentes atribuídas a cada categoria.
    """
    # Garantir que todas as categorias têm cores atribuídas
    color_map = assign_colors(df, 'Item_Type')

    # Criar o Boxplot para distribuição de visibilidade por tipo de produto
    fig_box = px.box(
        df,
        x='Item_Type',
        y='Item_Visibility',
        color='Item_Type',
        title="Distribuição de Visibilidade por Tipo de Produto",
        labels={"Item_Visibility": "Visibilidade do Produto", "Item_Type": "Tipo de Produto"},
        color_discrete_map=color_map  # Aplicar cores consistentes da paleta
    )

    # Atualizar o layout do gráfico
    fig_box.update_layout(
        xaxis_title="Tipo de Produto",
        yaxis_title="Visibilidade do Produto",
        title_x=0.5,
        title_font=dict(color='black', size=20),
        plot_bgcolor='rgba(255, 255, 255, 0.8)',
        legend=dict(orientation='h', y=1.1),
        hovermode='closest',
        hoverlabel=dict(bgcolor='white', font_size=12),
        yaxis=dict(showgrid=True, gridcolor='lightgray'),
        font=dict(family='Arial, sans-serif', size=12, color='black'),
    )

    return fig_box


# @title
def plotly_visibility_vs_sales(df):
    """
    Plota a relação entre a visibilidade dos itens na loja e as vendas totais usando um gráfico de matriz de bolhas.
    As cores das bolhas representam o tipo de item ('Item_Type'), usando a função `assign_colors`.
    """

    # Calcular a porcentagem de vendas
    df['Sales Percentage'] = df['Item_Outlet_Sales'] / df['Item_Outlet_Sales'].sum() * 100

    # Garantir que todas as categorias de 'Item_Type' têm cores atribuídas
    color_map = assign_colors(df, 'Item_Type')

    # Criar o Bubble Matrix Plot
    fig_matrix_bubble = px.scatter(
        df,
        x='Item_Visibility',
        y='Item_Outlet_Sales',
        size='Sales Percentage',  # Tamanho da bolha representando a porcentagem de vendas
        color='Item_Type',  # Colorir com base em 'Item_Type'
        title="Relação entre Visibilidade e Vendas Totais",
        labels={"Item_Visibility": "Visibilidade do Produto", "Item_Outlet_Sales": "Vendas Totais"},
        color_discrete_map=color_map,  # Usando o mapa de cores gerado por `assign_colors`
        hover_data=['Item_Identifier', 'Outlet_Identifier'],
        template="plotly_white",  # Fundo branco para o gráfico
        facet_col='Outlet_Type',  # Cria uma matriz de gráficos separados por tipo de loja
        facet_col_wrap=2,  # Limita o número de colunas
        category_orders={"Outlet_Type": ['Grocery_Store', 'Supermarket_Type1', 'Supermarket_Type2', 'Supermarket_Type3']}  # Ordem dos gráficos
    )

    # Adicionar uma linha de tendência hipotética
    fig_matrix_bubble.add_trace(
        go.Scatter(
            x=df['Item_Visibility'],
            y=df['Item_Visibility'] * df['Item_Outlet_Sales'].mean(),  # Linha de tendência hipotética
            mode="lines",
            name="Linha de Tendência Hipotética",
            line=dict(color="red", dash="dot")
        )
    )

    # Ajustando a posição da legenda para cima
    fig_matrix_bubble.update_layout(
        legend=dict(
            orientation='h',  # Coloca a legenda na horizontal
            y=1.02,  # Posição da legenda acima do gráfico
            x=0.5,  # Centraliza a legenda
            xanchor='center',  # Centraliza a legenda horizontalmente
            yanchor='bottom'  # Coloca a legenda acima
        ),
        title=dict(
            text="Relação entre Visibilidade e Vendas Totais",
            font=dict(size=18),  # Tamanho da fonte do título
            x=0.5,  # Centraliza o título
            xanchor='center',  # Centraliza o título horizontalmente
            y=0.99,  # Garante que o título está na parte superior
        ),
        height=900  # Aumenta a altura do gráfico
    )

    return fig_matrix_bubble

**`app.py:`**

In [None]:
# @title
'''
from helpers import (create_dropdown, read_uploaded_data, parse_contents,
                     make_predictions, text_intro, plotly_sales_by_category,
                     plotly_sales_over_outlet, plotly_visibility_vs_sales, plot_visibility_boxplot)
'''
app = dash.Dash(__name__, external_stylesheets=[dbc.themes.BOOTSTRAP, '/content/bigmart_dash_app/styles.css'], suppress_callback_exceptions=True)

# Define um estilo específico para a guia "Sobre Este Web App"
sobre_style = {
    "background-color": "white",
    "margin": "20px auto",  # Centraliza no eixo horizontal
    "max-width": "1000px",  # Largura máxima alinhada às proporções da imagem
    'border-top': '1px solid #616161',
    'border': '1px solid #ccc',
    'border-radius': '5px',
    "padding": "20px"  # Espaçamento interno
}

# Logotipo da empresa
logo_empresa = html.Div([
    html.Img(
        src='https://raw.githubusercontent.com/wanderson42/BigMart-data/refs/heads/main/image_practice-problem-big-mart-sales-iii.png',
        style={
            'width': '100%',  # Proporção da largura
            'max-width': '1000px',  # Mantém a largura fixa alinhada ao estilo
            'height': 'auto',  # Ajusta automaticamente a altura
            'border-radius': '5px',
            'display': 'block',
            'margin': 'auto'
        }
    ),
], style={"margin": "0 0 10px", "overflow": "hidden"})

# Conteúdo para a página inicial "Sobre Este App"
def get_inicio_content():
    return html.Div([
        logo_empresa,
        html.H3("Sobre Este Web App", style={"padding-left": "20px", "padding-top": "10px"}),
        html.Hr(style={'border-top': '1px solid #616161'}),
        html.Div(
            text_intro(),
            style={"padding-left": "20px", "padding-right": "20px"}  # Margens menores para texto
        ),
    ], style=sobre_style)  # Aplica o estilo personalizado

inicio_content = get_inicio_content()


# Define um estilo com fundo branco e margem lateral configurada para a guia Dashboard
pagina_style = {
    "background-color": "white",
    "margin": "20px auto",  # Margens ajustadas para centralizar no eixo horizontal
    "max-width": "1800px",  # Largura máxima da página
    'border': '1px solid #ccc',
    'border-radius': '5px',
    "padding": "20px"  # Adiciona espaço interno na página
}

# Conteúdo para a página "Dash Board De Previsões"
def get_previsoes_content():
    return html.Div([
        html.Div(style={'margin-top': '8px'}),  # Espaço adicional
        html.H3("LinearRegressor - Previsão de Vendas"),
        # Adicione seus gráficos de previsões aqui
        # dcc.Graph(...)

        # Guias de opções e etiquetas
        dcc.Tabs(id='tabs', value='tab-1', children=[
            dcc.Tab(label='Previsões Individuais', value='tab-1'),
            dcc.Tab(label='Previsões Multiplas', value='tab-2'),
            # dcc.Tab(label='Opção 3', value='tab-3'),
        ]),

        # Aqui, estamos criando um conteiner com o id="tabs-content",
        # que será preenchido via callback com o conteúdo adequado de acordo
        # com a guia (tab) selecionada.
        html.Div(id='tabs-content')

        # Adicionar mais conteúdo conforme necessário
    ], style={**pagina_style, "margin-top": "10px"})

previsoes_content = get_previsoes_content()



app.layout = html.Div([
    dcc.Location(id='url', refresh=False),  # Objeto para controlar a URL do aplicativo

    # Barra de navegação com melhor posicionamento
    dbc.Navbar(
        [
            # Logotipo à esquerda
            html.A(
                html.Img(
                    src="https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/turing_logo.png",
                    height="50px",  # Ajusta o tamanho do logotipo
                    style={"margin-right": "20px"}  # Espaçamento entre o logotipo e as guias
                ),
                href="/",
                style={"display": "flex", "align-items": "center"}
            ),
            # Itens de navegação centralizados
            dbc.Nav(
                [
                    dbc.NavItem(dbc.NavLink("Sobre Este App", href="/", id="nav_inicio")),
                    dbc.NavItem(dbc.NavLink("DashBoard De Previsões", href="/predictions", id="nav_previsoes")),
                ],
                pills=True,
                style={"margin-left": "auto", "display": "flex", "align-items": "center"}  # Centraliza guias
            ),
        ],
        color="white",
        dark=False,
        style={
            "height": "70px",
            "padding": "10px 30px",  # Ajusta o espaçamento interno
            "box-shadow": "0px 2px 4px rgba(0, 0, 0, 0.1)",  # Sombra sutil
            "border-radius": "0 0 5px 5px",  # Apenas bordas inferiores arredondadas
            "display": "flex",  # Usa flexbox para alinhamento
            "align-items": "center"  # Alinha verticalmente os itens
        }
    ),

    # Conteúdo do NavItem
    html.Div(
        id="nav-content",
        style={
            "margin": "0 20px",
            "min-height": "calc(100vh - 90px)",  # Altura mínima da página sem a barra de navegação
            "padding": "20px",  # Adiciona espaço interno ao conteúdo
            "background-color": "#f5f5f5"  # Fundo claro
        }
    )
], style={"background-color": "#f5f5f5"})



'''
Aqui começa a parte dos callbacks
'''

# Callback para atualizar o conteúdo da página com base na URL
@app.callback(
    Output("nav-content", "children"),
    Output("nav_inicio", "className"),
    Output("nav_previsoes", "className"),
    Input("url", "pathname"),  # Monitora a URL atual
    prevent_initial_call=True
)
def update_nav_content(pathname):
    class_name_inicio = "nav-link"
    class_name_previsoes = "nav-link"
    if pathname == "/predictions":
        class_name_previsoes = "nav-link active"
        return previsoes_content, class_name_inicio, class_name_previsoes
    else:
        class_name_inicio = "nav-link active"
        return inicio_content, class_name_inicio, class_name_previsoes  # Página "Sobre Este App" como padrão


# Callback exclusivo para filtrar as opções do Item_Identifier conforme o usuário digita:
@app.callback(
    Output('dropdown-Item_Identifier', 'options'),
    Input('dropdown-Item_Identifier', 'search_value'),
    prevent_initial_call=True
)
def update_item_identifier_options_from_csv(search_value):
    """
    Filtra as opções de Item_Identifier dinamicamente usando um arquivo CSV.
    """
    if not search_value:
        raise dash.exceptions.PreventUpdate

    # Carregar o CSV com os identificadores
    csv_path = '/content/bigmart_dash_app/item_identifiers.csv'  # Caminho para o arquivo na raiz do projeto
    df = pd.read_csv(csv_path)

    # Filtrar os identificadores que contêm o valor buscado
    filtered_options = df[df['Item_Identifier'].str.contains(search_value, case=False, na=False)]

    # Retornar as opções formatadas para o Dropdown
    return [{'label': identifier, 'value': identifier} for identifier in filtered_options['Item_Identifier']]


# Callback principal do dashboard
@app.callback(
    Output('tabs-content', 'children'),
    Input('tabs', 'value')
)
def render_content(tab):
    '''
    A função render_content é o callback que responde à interação
    do usuário com as guias (tabs).

    Este callback é ativado sempre que o valor de uma guia (tabs) muda,
    ou seja, verifica qual guia o usuario seleciona e retorna o conteúdo
    correspondente a essa guia.
    '''

    if tab == 'tab-1':
        return html.Div([
            html.Div(style={'margin-top': '8px'}),  # Espaço adicional
            html.H4('Selecione os atributos para realizar uma previsão:'),
            html.Div([
                html.Br(),
                # Adicione os Dropdowns para as features discretas
                html.Div([
                    create_dropdown("Outlet_Identifier", searchable=False),
                ], style={"margin-right": "20px", "margin-bottom": "20px", "display": "inline-block", "width": "200px", "vertical-align": "top"}),

                # Dropdown com busca para Item Identifier
                html.Div(
                    create_dropdown("Item_Identifier", searchable=True),
                    style={"margin-right": "20px", "margin-bottom": "20px", "display": "inline-block", "width": "300px"}
                ),

                html.Br(), # Quebra de linha após o terceiro dropdown

                html.Div([
                    create_dropdown("Item_Type"),
                ], style={"margin-right": "20px", "margin-bottom": "20px", "display": "inline-block", "width": "200px", "vertical-align": "top"}),


                html.Div([
                    create_dropdown("Item_Fat_Content"),
                ], style={"margin-right": "20px", "margin-bottom": "20px", "display": "inline-block", "width": "200px", "vertical-align": "top"}),

                html.Br(),  # Quebra de linha após o quarto dropdown

                html.Div([
                    html.H6("Item_Visibility (0 – 5):"),
                    dcc.Input(id='input-Item_Visibility', type='number', value=0, min=0, max=0.5, step=0.01, style={ "width": "180px"}),
                ], style={"margin-right": "20px", "margin-bottom": "20px","display": "inline-block", "width": "200px", "vertical-a lign": "top"}),

                html.Div([
                    html.H6("Item_MRP (0 – 1000):"),
                    dcc.Input(id='input-Item_MRP', type='number', value=0, min=0, max=1000, step=0.01, style={ "width": "180px"}),
                ], style={"margin-right": "20px", "margin-bottom": "20px", "display": "inline-block",  "width": "200px", "vertical-align": "top"}),

            ]),

            # Botão de Fazer Previsão
            html.Button('Fazer Previsão',id='submit-button', n_clicks=0, style={
                'margin-top': '0px', 'background-color': '#f1863d',
                'text-align': 'center', 'padding': '5px',
                'border-radius': '5px', 'color': 'black',
                'text-decoration': 'none', 'display': 'block'  # Criar um espaço abaixo do botão
                }),
            # Exibição da previsão
            html.Div(id='individual-prediction')
        ])

    #Condicional para acessar a opção de multiplas previsões
    elif tab == 'tab-2':
        return html.Div([
            html.Div(style={'margin-top': '8px'}),  # Espaço adicional
            html.H4('Certifique-se que os dados estejam adequadamente padronizados com base'),
            html.H4('nos atributos informativos:'),
            html.Div([
                dcc.Upload(
                    id='upload-data',
                    children=html.Div([
                        'Arraste e solte ou ',
                        html.A('selecione um arquivo .csv')
                    ]),
                    style={
                        'width': '100%',
                        'height': '60px',
                        'lineHeight': '60px',
                        'borderWidth': '1px',
                        'borderStyle': 'dashed',
                        'borderRadius': '5px',
                        'textAlign': 'center',
                        'margin': '10px 0'
                    },
                    # Permite upload de apenas um arquivo
                    multiple=False
                ),
                html.Div(id='output-data-upload'),
            ]),
            # Adicione seu conteúdo da opção 2 aqui
            html.Div(style={'margin-top': '8px'}),  # Espaço adicional
            #html.Button('Fazer Previsões', id='submit-button', n_clicks=0, style={'background-color': '#f1863d',
            #                                                                      'position': 'relative', 'left':'750px'}),

            html.Div(id='multiple-predictions')

        ])


# Callback para receber os dados de previsão individual
@app.callback(
    Output('individual-prediction', 'children'),
    Input('submit-button', 'n_clicks'),
    [
    State('dropdown-Outlet_Identifier', 'value'),
    State('dropdown-Item_Identifier', 'value'),
    State('dropdown-Item_Type', 'value'),
    State('dropdown-Item_Fat_Content', 'value'),
    State('input-Item_Visibility', 'value'),
    State('input-Item_MRP', 'value')
    ],
    prevent_initial_call=True
)
def update_individual_prediction(n_clicks, outlet_identifier, item_identifier,
                                 item_type, item_fat_content, item_visibility, item_mrp):
    if n_clicks == 0:
        raise PreventUpdate

    if not all([outlet_identifier, item_identifier, item_type, item_fat_content, item_visibility, item_mrp]):
        return html.H5("Por favor, preencha todos os campos antes de realizar a previsão.", style={'color': 'red'})


    user_input = {
        'Outlet_Identifier': outlet_identifier,
        'Item_Identifier': item_identifier,
        'Item_Type': item_type,
        'Item_Fat_Content': item_fat_content,
        'Item_Visibility': item_visibility,
        'Item_MRP': item_mrp
    }

    # Fazer a previsão
    try:
        prediction = make_predictions(user_input)  # Função customizada para realizar as previsões
        prediction_rounded = np.round(prediction, 2)  # Arredondar resultado
        result_text = f"**Resultado:**  \nItem_Outlet_Sales = R$ {prediction_rounded[0]:,.2f}"
    except Exception as e:
        result_text = f"Erro ao realizar previsão: {str(e)}"

    # Retornar resultado formatado
    return html.H5(dcc.Markdown(result_text), style={'margin-top': '10px'})


# Visualização de múltiplas previsões
html.Div([
    dcc.Graph(id='multiple-predictions'),  # Use dcc.Graph para mostrar um gráfico
    html.A('Baixar Previsões', id='download-predictions',
         download="predictions.csv", href="", target="_blank",
         style={
        'display': 'none'  # Oculta o link na página
    })

])

# ...

# callback para chamar a função parse_contents quando um arquivo .csv for carregado:
@app.callback(
    Output('output-data-upload', 'children'),
    Input('upload-data', 'contents')
)
def update_output(contents):
    if contents is None:
        raise PreventUpdate
    return parse_contents(contents)


# Callback para múltiplas previsões
@app.callback(
    Output('multiple-predictions', 'children'),
    Input('submit-button', 'n_clicks'),
    State('upload-data', 'contents')  # Adicionando o conteúdo do arquivo
)
def update_multiple_predictions(n_clicks, contents):

    if n_clicks == 0 or contents is None:
        raise PreventUpdate

    # Dados obtidos a partir do upload do usuario
    user_inputs = read_uploaded_data(contents)

    # Fazendo previsões com base nas entradas do usuário
    predictions = make_predictions(user_inputs)

    predictions = np.round(predictions, 2)

    # Criar uma Panda.Series para as previsões
    item_outlet_sales = pd.Series(predictions, name='Item_Outlet_Sales')

    # Concatenar a série de previsões com o dataframe user_inputs
    result_df = pd.concat([user_inputs.reset_index(drop=True), item_outlet_sales.reset_index(drop=True)], axis=1)


    # Criar o DataFrame final com apenas as colunas necessárias
    df_preds = pd.concat([
        user_inputs[['Outlet_Identifier', 'Item_Identifier']].reset_index(drop=True),
        item_outlet_sales.reset_index(drop=True)
    ], axis=1)

    # Criando a tabela de resultados das previsões
    table = dash_table.DataTable(
        data=df_preds.to_dict('records'),
        columns=[{'name': col, 'id': col} for col in df_preds.columns],
        style_table={'height': '350px', 'overflowY': 'auto', 'position': 'relative'},
        id='results-table'  # Adicionando um ID à tabela para referência posterior
    )

    # Gráfico Distribuição de Vendas por Categoria
    plotly_1 = plotly_sales_by_category(result_df)

    # Gerando link para download do CSV
    csv_string = df_preds.to_csv(index=False, encoding='utf-8')
    csv_string = "data:text/csv;charset=utf-8," + quote(csv_string)


    # Ajustando o botão de download
    download_href = csv_string
    download_button = html.A('Baixar Previsões', id='download-predictions', download="predictions.csv",
                             href=download_href, target="_blank",
                             style={'background-color': '#2E9203', 'margin-top': '-60px',
                                    'display': 'block', 'width': '130px', 'text-align': 'center',
                                    'padding': '5px', 'border-radius': '5px', 'color': 'black',
                                    'text-decoration': 'none','margin-bottom': '10px'})

    # Gráfico Distribuição de Vendas por Categoria em cada loja
    plotly_2 = plotly_sales_over_outlet(result_df)

    # Gráfico de distribuição da visibilidade dos items
    plotly_3 = plot_visibility_boxplot(result_df)

    # Gráfico de visibilidade vs vendas
    plotly_4 = plotly_visibility_vs_sales(result_df)


    # Layout para empilhar os gráficos
    return html.Div([
        html.H5('Resultado das Previsões:'),
        dbc.Row([
            dbc.Col(html.Div([table]), width=4),
            dbc.Col(html.Div([dcc.Graph(figure=plotly_1, id='sales-graph')]), width=8)
        ]),
        download_button,  # Botão de download
        dbc.Row([
            dbc.Col(html.Div([dcc.Graph(figure=plotly_2, id='second-sales-graph')]), width=12)
        ]),
        dbc.Row([
            dbc.Col(html.Div([dcc.Graph(figure=plotly_3, id='third-sales-graph')]), width=12)
        ]),
        dbc.Row([
            dbc.Col(html.Div([dcc.Graph(figure=plotly_4, id='fourth-sales-graph')]), width=12)
        ]),
    ], style={'width': '100%'})


if __name__ == '__main__':
    app.run(debug=True, jupyter_mode="external") # Abre diretamente no localhost
#from google.colab import output
#output.serve_kernel_port_as_iframe(8050) # Abre dentro do Colab em um iframe

Dash app running on:
Try `serve_kernel_port_as_iframe` instead. [0m


<IPython.core.display.Javascript object>

> Obs: Através desse link pode-se baixar um arquivo csv para testar o sistema de multiplas previsões do dashboard: https://raw.githubusercontent.com/wanderson42/BigMart-data/refs/heads/main/bigmart_sales_test_cleaned.csv

Por que o Colab dá esse Warning?

> Motivo técnico: Atualmente os navergadores estão implementando regras mais rígidas para servidores locais. Pois o Google Colab roda em uma máquina virtual na nuvem. O endereço localhost da máquina virtual não é diretamente acessível a partir do navegador local.

> Solução prática: O Colab facilita o acesso ao servidor sem necessidade de configurações manuais. Criando automaticamente um túnel HTTP para redirecionar o servidor local (localhost) para um endereço acessível publicamente.

> Sobre o Warning: Futuramente pode (ou não ) ocorrer problemas de compatibilidade devido a políticas de segurança que impedem o acesso direto ao link externo gerado pelo túnel.

> Recomendação do Colab: Renderizar o aplicativo no próprio notebook (com  `serve_kernel_port_as_iframe`). Porém ele é mais lento e pouco responsivo.

> Abordagem atual: Padrão (`app.run`) com redirecionamento automático. Enquanto tiver funcionando (preferível utilizar). Pois é mais rápido e responsivo. O Dash é iniciado no localhost (geralmente no endereço http://127.0.0.1:8050). Ao clicarmos no endereço o Colab detecta que o servidor foi iniciado e cria um link no formato `https://<túnel>-colab.googleusercontent.com` .