<a href="https://colab.research.google.com/github/wanderson42/Portfolio-DS/blob/main/Projeto_Dash_App_BigMartSales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Data Science**


# **Projeto de Portfólio:**

<span style='color:Gray'>  Construção de um Dash app - Big Mart Sales Prediction Dataset.</span>

Autor: Wanderson Ferreira



</div>
<center><img src="https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/plotly_dash_logo.png" alt="Someone's feet on table facing a television"width="1800"/> <center> </div>
<p><center></center></p>


</div>
<center><img src="https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/dataset-cover.png" alt="Someone's feet on table facing a television"width="1800"/> <center> </div>
<p><center></center></p>

***

# **1 - Introdução: Algumas informações sobre o Dataset**

O Big Mart Sales Prediction Dataset é um conjunto de dados popular utilizado em problemas de previsão de vendas no varejo. Ele contém informações sobre vendas de produtos de várias lojas da rede Big Mart, que estão localizadas em diferentes cidades e possuem diferentes tamanhos e tipos.

O conjunto de dados é composto por duas partes: treinamento e teste. A parte de treinamento contém informações sobre 8523 produtos de 1559 lojas, enquanto a parte de teste contém informações sobre 5681 produtos de 1559 lojas. Cada entrada no conjunto de dados contém informações sobre o identificador do produto, o identificador da loja, a localização da loja, o tipo de produto, o peso e o preço do produto, entre outras informações.

O objetivo do conjunto de dados é prever as vendas de produtos em diferentes lojas, com base em atributos informativos, como tamanho da loja, localização, tipo de produto, preço, promoções e descontos, entre outros. O desafio é construir um modelo de aprendizado de máquina que possa prever com precisão as vendas futuras com base nessas informações.


**Descrição dos atributos:**

> - **Item_Identifier:** ID único do produto;
>
> - **Item_Weight:** Peso do produto;
>
> - **Item_Fat_Content:** Se o produto é com baixo teor de gordura ou não;
>
> - **Item_Visibility:** A porcentagem da área total de exposição de todos os produtos em uma loja alocada para um produto específico;
>
> - **Item_Type:** ;
>
> - **Item_MRP:** Preço máximo de varejo (preço de lista) do produto;
>
> - **Outlet_Identifier:** ID único da loja;
>
> - **Outlet_Establishment_Year:** O ano em que a loja foi estabelecida;
>
> - **Outlet_Size:** O tamanho da loja em termos de área terrestre coberta;
>
> - **Outlet_Location_Type:** O tipo de cidade em que a loja está localizada;
>
> - **Outlet_Type:** Se a loja é apenas uma mercearia ou algum tipo de supermercado;
>
> - **Item_Outlet_Sales:** Vendas do produto em uma loja específica. Este é o Target (variável resposta) a ser predito.
***

Nesse contexto, este presente projeto, tem como objetivo utilizar a biblioteca Dash para criar uma aplicação web interativa e personalizada para visualização e análise do Big Mart Sales Prediction Dataset. De forma a explorar os dados de forma dinâmica, fazer previsões e compartilhar insights de forma fácil e interativa.


### **2.1 - Aquisição de dados**

Nesta seção, os dados são importados de sua fonte original para o notebook

In [1]:
import pandas as pd
import numpy as np
# Importando o conjunto de dados
url_train = 'https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/train.csv'
url_test = 'https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/test.csv'

# Convertendo os dados em csv para pandas.dataframe
train = pd.read_csv(url_train)
test = pd.read_csv(url_test)

# Concatenando os dados de treino e teste
df = pd.concat([train.assign(ind="train"), test.assign(ind="test")])

print(train.shape, test.shape, df.shape)

(8523, 12) (5681, 11) (14204, 13)


In [2]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5681 entries, 0 to 5680
Data columns (total 11 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            5681 non-null   object 
 1   Item_Weight                4705 non-null   float64
 2   Item_Fat_Content           5681 non-null   object 
 3   Item_Visibility            5681 non-null   float64
 4   Item_Type                  5681 non-null   object 
 5   Item_MRP                   5681 non-null   float64
 6   Outlet_Identifier          5681 non-null   object 
 7   Outlet_Establishment_Year  5681 non-null   int64  
 8   Outlet_Size                4075 non-null   object 
 9   Outlet_Location_Type       5681 non-null   object 
 10  Outlet_Type                5681 non-null   object 
dtypes: float64(3), int64(1), object(7)
memory usage: 488.3+ KB




### **2.2 - Pré-processamento de dados**

Nesta seção, são realizadas análises exploratórias básicas nos dados para entender melhor sua estrutura, dimensões, tipos de dados, valores nulos ou ausentes, outliers, distribuição, estatísticas descritivas, etc.



#### **2.2.1 - Primeiras impressões sobre o conjunto de dados**

In [3]:
#Primeiras impressões sobre o dataframe
df.info()
print("Shape of Train Dataset: ",train.shape)
print("Shape of Test Dataset: ",test.shape)
df.head(n = 5).style.background_gradient(cmap = 'Set3')

<class 'pandas.core.frame.DataFrame'>
Index: 14204 entries, 0 to 5680
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            14204 non-null  object 
 1   Item_Weight                11765 non-null  float64
 2   Item_Fat_Content           14204 non-null  object 
 3   Item_Visibility            14204 non-null  float64
 4   Item_Type                  14204 non-null  object 
 5   Item_MRP                   14204 non-null  float64
 6   Outlet_Identifier          14204 non-null  object 
 7   Outlet_Establishment_Year  14204 non-null  int64  
 8   Outlet_Size                10188 non-null  object 
 9   Outlet_Location_Type       14204 non-null  object 
 10  Outlet_Type                14204 non-null  object 
 11  Item_Outlet_Sales          8523 non-null   float64
 12  ind                        14204 non-null  object 
dtypes: float64(4), int64(1), object(8)
memory usage: 1.5

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales,ind
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138,train
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228,train
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27,train
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38,train
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052,train



>- Em relação aos atributos informativos (potencialmente relevantes), o conjunto de dados possui:
    - **6 categóricos:** [`'Item Identifier', 'Item Fat Content', 'Item Type', 'Outlet Size', 'Outlet Location Type', 'Outlet Type'`].
    - **4 numericos:** [`'Item Weight', 'Item Visibility', 'Item MRP', 'Outlet Establishment Year'`].
>- Os atributos `Outlet_Size` e `Outlet_Type` apresentan valores ausentes (NaN).

Um dos principais desafios em qualquer conjunto de dados são os valores ausentes. Vamos começar verificando quais colunas contêm valores ausentes.







In [4]:
df.apply(lambda x: sum(x.isnull()))

Item_Identifier                 0
Item_Weight                  2439
Item_Fat_Content                0
Item_Visibility                 0
Item_Type                       0
Item_MRP                        0
Outlet_Identifier               0
Outlet_Establishment_Year       0
Outlet_Size                  4016
Outlet_Location_Type            0
Outlet_Type                     0
Item_Outlet_Sales            5681
ind                             0
dtype: int64

Observe que os valores ausentes da variável alvo (`Item_Outlet_Sales`) são oriundas da concatenação dos dados de treino com o conjunto de teste. Portanto, não precisamos nos preocupar com isso. Mas imputaremos os valores ausentes em `Item_Weight` e `Outlet_Size` na seção de limpeza de dados.

Agora, vamos dar uma olhada nos valores únicos em cada um dos atributos:

In [5]:
df.apply(lambda x: len(x.unique()))

Item_Identifier               1559
Item_Weight                    416
Item_Fat_Content                 5
Item_Visibility              13006
Item_Type                       16
Item_MRP                      8052
Outlet_Identifier               10
Outlet_Establishment_Year        9
Outlet_Size                      4
Outlet_Location_Type             3
Outlet_Type                      4
Item_Outlet_Sales             3494
ind                              2
dtype: int64

Podemos observar que existem 1.559 produtos (`Item_Identifier`) disponíveis a venda em 10 diferentes lojas (`Outlet_Identifier`) da rede "BigMart". Totalizando 16 tipos de classes de produtos (`Item_Type`) a venda.

A seguir vamos explorar mais a fundo os atributos categóricos por meio da distribuição de frequência de diferentes categorias de cada atributo:



Agora vamos explorar os atributos numéricos. Segue abaixo as estatisticas descritivas do conjunto de dados:

#### **2.2.2 - Análise Exploratória de Dados: Atributos categóricos**

Como primeiro passo, irei fazer uma exploração das categorias de atributos categóricos para melhor entender a natureza dos dados e selecionar as melhores estratégias de pré-processamento e codificação para cada atributo. Essa etapa inicial é valiosa para obter uma compreensão mais profunda do seu conjunto de dados e garantir uma análise mais robusta e precisa.

In [6]:
#@title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Criar a figura com subplots
fig = make_subplots(rows=3, cols=2, subplot_titles=['Item Identifier', 'Item Fat Content', 'Item Type', 'Outlet Size', 'Outlet Location Type', 'Outlet Type'])

# Adicionar os gráficos de barras aos subplots
fig.add_trace(go.Bar(x=df['Item_Identifier'].value_counts().index, y=df['Item_Identifier'].value_counts().values), row=1, col=1)
fig.add_trace(go.Bar(x=df['Item_Fat_Content'].value_counts().index, y=df['Item_Fat_Content'].value_counts().values), row=1, col=2)
fig.add_trace(go.Bar(x=df['Item_Type'].value_counts().index, y=df['Item_Type'].value_counts().values), row=2, col=1)
fig.add_trace(go.Bar(x=df['Outlet_Size'].value_counts().index, y=df['Outlet_Size'].value_counts().values), row=2, col=2)
fig.add_trace(go.Bar(x=df['Outlet_Location_Type'].value_counts().index, y=df['Outlet_Location_Type'].value_counts().values), row=3, col=1)
fig.add_trace(go.Bar(x=df['Outlet_Type'].value_counts().index, y=df['Outlet_Type'].value_counts().values), row=3, col=2)

# Atualizar layout dos subplots
fig.update_layout(height=1400, width=1000, title_text="Atributos Categóricos (Big Mart Sales Dataset)")

# Atualizar títulos dos subplots
fig.update_xaxes(title_text='Item Identifier', row=1, col=1)
fig.update_xaxes(title_text='Item Fat Content', row=1, col=2)
fig.update_xaxes(title_text='Item Type', row=2, col=1)
fig.update_xaxes(title_text='Outlet Size', row=2, col=2)
fig.update_xaxes(title_text='Outlet Location Type', row=3, col=1)
fig.update_xaxes(title_text='Outlet Type', row=3, col=2)

# Atualizar tamanho das fontes dos tick labels
fig.update_xaxes(tickfont=dict(size=12))
fig.update_yaxes(tickfont=dict(size=12))

# Exibir o gráfico
fig.show()


In [7]:
# @title
#Filter categorical variables
categorical_columns = [x for x in df.dtypes.index if df.dtypes[x]=='object']
#Exclude ID cols:
#categorical_columns = [x for x in categorical_columns if x not in ['Item_Identifier','Outlet_Identifier']]
#Print frequency of categories
for col in categorical_columns:
    print('\n\033[1mFrequência de', col, '\033[0m')
    print(df[col].value_counts())


[1mFrequência de Item_Identifier [0m
Item_Identifier
FDU15    10
FDS25    10
FDA38    10
FDW03    10
FDJ10    10
         ..
FDR51     7
FDM52     7
DRN11     7
FDH58     7
NCW54     7
Name: count, Length: 1559, dtype: int64

[1mFrequência de Item_Fat_Content [0m
Item_Fat_Content
Low Fat    8485
Regular    4824
LF          522
reg         195
low fat     178
Name: count, dtype: int64

[1mFrequência de Item_Type [0m
Item_Type
Fruits and Vegetables    2013
Snack Foods              1989
Household                1548
Frozen Foods             1426
Dairy                    1136
Baking Goods             1086
Canned                   1084
Health and Hygiene        858
Meat                      736
Soft Drinks               726
Breads                    416
Hard Drinks               362
Others                    280
Starchy Foods             269
Breakfast                 186
Seafood                    89
Name: count, dtype: int64

[1mFrequência de Outlet_Identifier [0m
Outlet_Identifie

Apartir dos dados acima, pode-se inferir que:


 >- `Item_Identifier`: Os dois primeiros caracteres dos prefixos dos rótulos identificadores correspondem a: FD=Food, DR=Drink, NC=Non-Consumable. Seria plausível criar um novo atributo a partir de `Item_Identifier` considerando os nomes originais para obter-se três categorias. Assim teriamos um atributo mais informativo.
 >
 >- `Item_Fat_Content`: Tem 5 categorias diferentes, mas algumas delas fazem referência a uma categoria existente, pode ser resumida em duas categorias: Low_Fat e Regular. Além disso, Este atributo não apresenta uma categoria que enquadra itens não alimentícios (i.e. não Low_Fat e Regular), portanto uma nova categoria para eles pode ser criada (e.g.
Non_Consumable).
 >
 >
 >- `Item_Type`: Nem todas as categorias possuem números substanciais. Parece que combiná-los pode dar melhores resultados (e.g. Seafood e Breakfast com Others).  Nesse caso, uma estratégia seria agrupar as categorias "Breakfast" e "Seafood" em uma categoria mais geral, por exemplo, "Other Foods". Isso ajudaria a equilibrar a distribuição e evitar o enviesamento excessivo para as categorias mais dominantes.
 >
 >- `Outlet_Type`: Supermarket Type2 e Type3 podem ser combinados. Mas devemos verificar se isso é uma boa ideia antes de fazê-lo.


#### **2.2.3 - Análise Exploratória de Dados: Atributos numéricos**


Considerando que o número total de instâncias no conjunto de dados é de 14204, e 879 dessas instâncias têm visibilidade 0%, então a proporção de instâncias com visibilidade 0% em relação ao total é de aproximadamente 6%.

É recomendado avaliar se a presença de itens com visibilidade 0% é significativa para o problema em questão e se a remoção desses itens pode introduzir algum viés ou distorção nos resultados. Além disso, é importante garantir que a remoção dessas instâncias seja justificada e que não comprometa a representatividade ou a qualidade dos dados.





É importante ressaltar que essa é uma suposição com base nas características gerais dos produtos, e a confirmação dessas informações específicas dependeria de uma análise mais aprofundada dos dados e de informações adicionais sobre o dataset Big Mart Sales.

In [8]:
df.describe([0.1,0.2,0.4,0.6,0.8]).style.background_gradient(cmap = 'Set3')

Unnamed: 0,Item_Weight,Item_Visibility,Item_MRP,Outlet_Establishment_Year,Item_Outlet_Sales
count,11765.0,14204.0,14204.0,14204.0,8523.0
mean,12.792854,0.065953,141.004977,1997.830681,2181.288914
std,4.652502,0.051459,62.086938,8.371664,1706.499616
min,4.555,0.0,31.29,1985.0,33.29
10%,6.655,0.011797,53.23058,1985.0,343.5528
20%,7.96,0.022828,85.1424,1987.0,666.4658
40%,10.895,0.041886,118.6098,1998.0,1402.1748
50%,12.6,0.054021,142.247,1999.0,1794.331
60%,14.3,0.067637,159.0262,2002.0,2257.32832
80%,17.7,0.105626,194.5794,2007.0,3453.5046


 Alguns pontos relevantes que podemos observar são:

 >- O atributo `Item_Visibility` tem um valor mínimo igual a zero. Isto não faz sentido prático porque quando um produto é vendido em uma loja, a visibilidade não pode ser zero (talvez esse dado não tenha sido ). Isso pode ser um problema para a modelagem, pois a ausência de visibilidade pode ser um fator importante na predição das vendas.
 >
 >- O atributo `Outlet_Establishment_Year` representa o ano de abertura das lojas (1985 a 2009). Os valores podem não ser adequados neste formato. Em vez disso, se pudermos convertê-los para o número de anos de fundação, isso deverá ter um impacto melhor nas vendas.
 >
 >- O desvio padrão de `Item_Weight` é menor em relação às outras variáveis, o que sugere que a distribuição dos pesos dos produtos é mais concentrada em torno da média. Isso pode facilitar a imputação dos valores ausentes adotando uma variável global que não comprometa a predição de vendas.



### **2.3 - Limpeza de Dados**

Esta etapa normalmente envolve a imputação de valores ausentes e o tratamento de valores que destoam da maioria (outliers). Embora a remoção de outliers seja muito importante nas técnicas de regressão, aqui usarei somente modelos de predição baseados em árvores, pois estes são "imunes" a valores discrepantes. Então vamos nos concentrar na etapa de imputação aqui, que é uma etapa muito importante.


#### **2.3.1 - Imputação de valores ausentes**


In [9]:
#@title
#Data visualization
from IPython.display import IFrame
import plotly.express as px
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

def f2():
  # Calculando o valor total de Nan values do dataset
  df_copia = df.copy()
  df_copia = df_copia.drop('Item_Outlet_Sales', axis=1)
  df_total_nan = df_copia.isnull().sum()
  df_percent_nan = ((df_copia.isnull().sum()/df.shape[0])*100)

  # Construindo uma tabela de missing values
  table_missing_data = pd.concat([df_total_nan,df_percent_nan],
                                axis=1,
                                keys=['NaN', 'NaN(%)'],
                                sort = True)

  # Somando todos os missing values de ambas as colunas
  a = table_missing_data['NaN'].sum()
  b = a*100/(df.shape[0])


  # Adicionando uma linha contento os valores totais
  row = pd.Series({'NaN': a, 'NaN(%)': b}, name='Total')
  table_missing_data = pd.concat([table_missing_data, row.to_frame().T])

  # Transformando os valores em inteiros (exceto para a coluna de porcentagem)
  table_missing_data['NaN'] = table_missing_data['NaN'].astype(int)

  return table_missing_data.style.bar(color = 'lightcoral')

print("Tabela de Valores Ausentes (NaN)")
display(f2())

Tabela de Valores Ausentes (NaN)


Unnamed: 0,NaN,NaN(%)
Item_Fat_Content,0,0.0
Item_Identifier,0,0.0
Item_MRP,0,0.0
Item_Type,0,0.0
Item_Visibility,0,0.0
Item_Weight,2439,17.171219
Outlet_Establishment_Year,0,0.0
Outlet_Identifier,0,0.0
Outlet_Location_Type,0,0.0
Outlet_Size,4016,28.273726


>- Com base na tabela de valores ausentes do conjunto de dados, o atributo `Outlet_Size` tem a maior quantidade de valores ausentes ($4016$), seguido pelo atributo `Item_Weight` ($2439$). Totalizando um percentual de $\sim 45\%$ de linhas do conjunto de dados que possuem algum valor ausente.

A identificação de valores ausentes é importante porque esses valores podem afetar a análise dos dados e, portanto, é necessário definir uma estratégia para lidar com eles:





**`Outlet_Size`**

>- De fato, a escolha da estratégia para lidar com valores ausentes em uma feature categórica pode ser mais complexa do que para uma feature numérica. No caso da feature `Outlet_Size`, como há uma diferença significativa na quantidade de ocorrências entre as categorias "Small", "Medium" e "High", preencher os valores ausentes com a categoria mais frequente pode não ser uma estratégia plausível. Uma abordagem alternativa seria utilizar informações de outras features para inferir o valor ausente. No caso, a categoria de `Outlet_Type` pode ser um bom indicador da categoria de `Outlet_Size`, pois o tamanho do estabelecimento pode ser influenciado pelo tipo de estabelecimento.

In [10]:
# @title
# Supondo que 'df' seja o seu DataFrame
nan_counts = df[df['Outlet_Size'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Outlet_Size_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Outlet_Size_NaN'].sum()
print(f'\nSoma total de Count_Outlet_Size_NaN: {total_nan_count}')

Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Outlet_Size_NaN
0,OUT010,Grocery Store,1998,925
1,OUT017,Supermarket Type1,2007,1543
2,OUT045,Supermarket Type1,2002,1548



Soma total de Count_Outlet_Size_NaN: 4016


Uma vez que todos os valores ausentes em `Outlet_Size` estão associados às categorias de `Outlet_Type`, utilizarei o conceito de tabela dinâmica (pivot table) para calcular a moda de `Outlet_Size` em função de uma dada categoria de `Outlet_Type`:


In [11]:
# @title
'''
Outlet_Size
'''
# Tabela pivot para calcular a moda de "outlet_size", com base nos valores de "Outlet_Type"
print("Tabela Dinâmica")
outlet_size_mode_pt = df.pivot_table(values='Outlet_Size', columns='Outlet_Type', aggfunc=lambda x: x.mode())
display(outlet_size_mode_pt)

Tabela Dinâmica


Outlet_Type,Grocery Store,Supermarket Type1,Supermarket Type2,Supermarket Type3
Outlet_Size,Small,Small,Medium,Medium


Em seguida, os valores ausentes em `Outlet_Size` são substituídos pela moda calculada para a respectiva categoria de `Outlet_Type`:

In [12]:
# @title
# Criar uma amostra do DataFrame antes da imputação
amostra_antes_imputacao = df[df['Outlet_Size'].isna()].head(5)
print("Amostra antes da imputação:")
display(amostra_antes_imputacao[['Outlet_Type', 'Outlet_Size']])

# Imputação de NaN em Outlet_Size adotando valor da moda em função de cada categoria de Outlet_Type
df['Outlet_Size'] = df['Outlet_Size'].fillna(df['Outlet_Type'].apply(lambda x: outlet_size_mode_pt.loc['Outlet_Size', x]))

# Criar uma amostra do DataFrame depois da imputação
amostra_depois_imputacao = df.loc[amostra_antes_imputacao.index]
print("\nAmostra após a imputação:")
display(amostra_depois_imputacao[['Outlet_Type', 'Outlet_Size']])

print("Total de NaN em Outlet_Size:", sum(df['Outlet_Size'].isnull()))

Amostra antes da imputação:


Unnamed: 0,Outlet_Type,Outlet_Size
3,Grocery Store,
8,Supermarket Type1,
9,Supermarket Type1,
25,Supermarket Type1,
28,Grocery Store,



Amostra após a imputação:


Unnamed: 0,Outlet_Type,Outlet_Size
3,Grocery Store,Small
3,Supermarket Type1,Small
8,Supermarket Type1,Small
8,Supermarket Type1,Small
9,Supermarket Type1,Small
9,Supermarket Type1,Small
25,Supermarket Type1,Small
25,Grocery Store,Small
28,Grocery Store,Small
28,Supermarket Type1,Small


Total de NaN em Outlet_Size: 0


**`Item_Weight`**

> - É plausível fazer uma imputação adotando a média como estratégia de escolha. Uma justificativa é que esse atributo é uma quantidade física que apresenta valores continuos, onde o desvio padrão é relativamente pequeno (std = 4.64), o que sugere que os valores ausentes estão mais próximos da média justificando a adoção da mesma para preencher valores ausentes.

Utilizando técnicas de agregação vamos analisar a origem dos valores ausentes:

In [13]:
# @title
# Supondo que 'df' seja o seu DataFrame
nan_counts = df[df['Item_Weight'].isna()].groupby(['Outlet_Identifier', 'Outlet_Type', 'Outlet_Establishment_Year']).size().reset_index(name='Count_Item_Weight_NaN')
display(nan_counts.head(5))

# Soma total das linhas na coluna 'NaN_Count'
total_nan_count = nan_counts['Count_Item_Weight_NaN'].sum()
print(f'\nSoma total de Count_Item_Weight_NaN: {total_nan_count}')

Unnamed: 0,Outlet_Identifier,Outlet_Type,Outlet_Establishment_Year,Count_Item_Weight_NaN
0,OUT019,Grocery Store,1985,880
1,OUT027,Supermarket Type3,1985,1559



Soma total de Count_Item_Weight_NaN: 2439


Conforme a tabela acima, observa-se que uma loja do tipo 'Grocery Store' e outra do tipo 'Supermarket Type3', ambas fundadas em 1985 não pesavam os itens. Podendo-se deduzir que naquela época a rede BigMart não coletava os dados referente ao peso dos itens.

Neste contexto, podemos adotar uma abordagem mais refinada de imputação com base nas médias específicas dos itens (`Item_Identifier`) dessas duas lojas, utilizando o recurso de tabela dinâmica:

In [14]:
# @title
# Tabela pivot para calcular a média e a contagem de "Item_Weight" com base nos valores de "Item_Identifier".
item_weight_stats = df.pivot_table(values="Item_Weight", index="Item_Identifier", aggfunc=['mean', 'count'])
print("Tabela Dinâmica")
# Renomear as colunas para clareza
item_weight_stats.columns = ['Mean_Item_Weight', 'Count_Item_Identifier']
item_weight_stats = item_weight_stats[['Count_Item_Identifier', 'Mean_Item_Weight']]
item_weight_stats.head(5)

Tabela Dinâmica


Unnamed: 0_level_0,Count_Item_Identifier,Mean_Item_Weight
Item_Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1
DRA12,8,11.6
DRA24,8,19.35
DRA59,8,8.27
DRB01,6,7.39
DRB13,8,6.115


Deduz-se que um dado item, embora não tenha sido pesado naquela loja especifica (e no ano em questão), ele foi pesado em outras lojas (de diferentes anos de fundação). Validando assim a utilização da tabela dinâmica para implementar a imputação:

In [15]:
# @title
# Criar uma amostra do DataFrame antes da imputação
amostra_antes_imputacao = df[df['Item_Weight'].isna()].head(5)
print("Amostra antes da imputação:")
display(amostra_antes_imputacao[['Item_Identifier', 'Item_Weight']])

# Imputação de NaN em Item_Weight adotando valor da média em função de cada categoria de Item_Identifier
df["Item_Weight"] = df["Item_Weight"].fillna(df["Item_Identifier"].map(item_weight_stats['Mean_Item_Weight']))

# Criar uma amostra do DataFrame depois da imputação
amostra_depois_imputacao = df.loc[amostra_antes_imputacao.index]
print("\nAmostra após a imputação:")
display(amostra_depois_imputacao[['Item_Identifier', 'Item_Weight']])

print("Total de NaN em Item_Weight:", sum(df['Item_Weight'].isnull()))

Amostra antes da imputação:


Unnamed: 0,Item_Identifier,Item_Weight
7,FDP10,
18,DRI11,
21,FDW12,
23,FDC37,
29,FDC14,



Amostra após a imputação:


Unnamed: 0,Item_Identifier,Item_Weight
7,FDP10,19.0
7,FDC48,9.195
18,DRI11,8.26
18,NCM42,6.13
21,FDW12,8.315
21,NCJ31,19.2
23,FDC37,15.5
23,NCL19,15.35
29,FDC14,14.5
29,FDE21,12.8


Total de NaN em Item_Weight: 0


Agora não resta mais valores ausentes no atributo `Item_Weight`. A seguir irei tratar o ultimo caso (o mais especial) de valores ausentes nesse conjunto de dados.  

**`Item_Visibilty`**

> - Conforme eu tinha mencionardo anteriomente nesse notebook, o valor mínimo do atributo Item_Visibilty é 0, o que não faz sentido prático. Vamos considerar isso como valor ausente. E assim como `Item_Weight`, a natureza continua de Item_Visibilty permite uma imputação base nas médias específicas dos itens (`Item_Identifier`).

A rigor, primeiramente irei atribuir "NaN" onde Item_Visibilty = 0 () e em seguida calcular a tabela dinâmica:

In [16]:
# NaN em itens com visibilidade zero em "Item_Visibility"
df.loc[df['Item_Visibility'] == 0, 'Item_Visibility'] = np.nan

# Tabela pivot para calcular a média e a contagem de "Item_Weight" com base nos valores de "Item_Identifier".
item_visibility_stats = df.pivot_table(values="Item_Visibility", index="Item_Identifier", aggfunc=['mean', 'count'])
print("Tabela Dinâmica")
# Trocando a posição das colunas
item_visibility_stats.columns = ['Mean_Item_Visibility', 'Count_Item_Identifier']
item_visibility_stats = item_visibility_stats[['Count_Item_Identifier', 'Mean_Item_Visibility']]
item_visibility_stats.head(5)

Tabela Dinâmica


Unnamed: 0_level_0,Count_Item_Identifier,Mean_Item_Visibility
Item_Identifier,Unnamed: 1_level_1,Unnamed: 2_level_1
DRA12,7,0.04492
DRA24,10,0.045646
DRA59,9,0.148204
DRB01,7,0.091127
DRB13,8,0.007648


A utilização de NaNs garante exclusão desses valores ausentes do cálculo da média, garantindo que apenas os itens com visibilidade conhecida sejam considerados. E assim, realizar uma imputação mais precisa em `Item_Visibility`:

In [17]:
# @title
# Criar uma amostra do DataFrame antes da imputação
amostra_antes_imputacao = df[df['Item_Visibility'].isna()].head(5)
print("Amostra antes da imputação:")
display(amostra_antes_imputacao[['Item_Identifier', 'Item_Visibility']])

# Imputar os valores NaN em "Item_Visibility" adotando o valor médio em função de cada categoria de "Item_Identifier"
df['Item_Visibility'] = df['Item_Visibility'].fillna(df['Item_Identifier'].map(item_visibility_stats['Mean_Item_Visibility']))

# Criar uma amostra do DataFrame depois da imputação
amostra_depois_imputacao = df.loc[amostra_antes_imputacao.index]
print("\nAmostra após a imputação:")
display(amostra_depois_imputacao[['Item_Identifier', 'Item_Visibility']])

print("Total de NaN em Item_Visibility:", sum(df['Item_Visibility'].isnull()))

Amostra antes da imputação:


Unnamed: 0,Item_Identifier,Item_Visibility
3,FDX07,
4,NCD19,
5,FDP36,
10,FDY07,
32,FDP33,



Amostra após a imputação:


Unnamed: 0,Item_Identifier,Item_Visibility
3,FDX07,0.02293
3,FDQ58,0.015388
4,NCD19,0.01467
4,FDY38,0.118599
5,FDP36,0.091294
5,FDH56,0.063817
10,FDY07,0.12188
10,FDT44,0.103569
32,FDP33,0.103437
32,NCR06,0.006793


Total de NaN em Item_Visibility: 0


Por fim, os valores ausentes do conjunto de dados foram eliminados:

In [18]:
# @title
from IPython.display import IFrame
import plotly.express as px
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore", category=RuntimeWarning, message="invalid value encountered in long_scalars")


def f2():
  # Calculando o valor total de Nan values do dataset
  df_copia = df.copy()
  df_copia = df_copia.drop('Item_Outlet_Sales', axis=1)
  df_total_nan = df_copia.isnull().sum()
  df_percent_nan = ((df_copia.isnull().sum()/df.shape[0])*100)

  # Construindo uma tabela de missing values
  table_missing_data = pd.concat([df_total_nan,df_percent_nan],
                                axis=1,
                                keys=['NaN', 'NaN(%)'],
                                sort = True)

  # Somando todos os missing values de ambas as colunas
  a = table_missing_data['NaN'].sum()
  b = a*100/(df.shape[0])

  # Adicionando uma linha contento os valores totais
  row = pd.Series({'NaN': a, 'NaN(%)': b}, name='Total')
  table_missing_data = pd.concat([table_missing_data, row.to_frame().T])

  # Transformando os valores em inteiros (exceto para a coluna de porcentagem)
  table_missing_data['NaN'] = table_missing_data['NaN'].astype(int)

  return table_missing_data.style.bar(color = 'lightcoral')

print("Tabela de Valores Ausentes (NaN)")
display(f2())

Tabela de Valores Ausentes (NaN)



invalid value encountered in scalar divide



Unnamed: 0,NaN,NaN(%)
Item_Fat_Content,0,0.0
Item_Identifier,0,0.0
Item_MRP,0,0.0
Item_Type,0,0.0
Item_Visibility,0,0.0
Item_Weight,0,0.0
Outlet_Establishment_Year,0,0.0
Outlet_Identifier,0,0.0
Outlet_Location_Type,0,0.0
Outlet_Size,0,0.0


Agora podemos avançar para a etapa de engenharia de atributos. A seção a seguir é opcional, conforme já mencionado nesse notebook, os modelos de predição a serem implementados neste notebook são robustos a outliers.

#### **2.3.2 - Detecção de Dados Discrepantes (Outliers)**

Para dar procedimento com a investigação irei lidar com os outliers, efetuando cálculo das estatísticas necessárias para definir os limites do intervalo interquartil (IQR) e histogramas. Portanto:

In [19]:
#@title
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Criar a figura com subplots
fig = make_subplots(rows=2, cols=2, subplot_titles=['Item Weight', 'Item Visibility', 'Item MRP', 'Outlet Establishment Year'])

# Adicionar os histogramas aos subplots
fig.add_trace(go.Histogram(x=df['Item_Weight'], nbinsx=30, opacity=0.5), row=1, col=1)
fig.add_trace(go.Histogram(x=df['Item_Visibility'], nbinsx=30, opacity=0.5), row=1, col=2)
fig.add_trace(go.Histogram(x=df['Item_MRP'], nbinsx=30, opacity=0.5), row=2, col=1)
fig.add_trace(go.Histogram(x=df['Outlet_Establishment_Year'], nbinsx=30, opacity=0.5), row=2, col=2)

# Atualizar layout dos subplots
fig.update_layout(height=1000, width=1000, title_text="Atributos numéricos (Big Mart Sales Dataset)")

# Atualizar títulos dos subplots
fig.update_xaxes(title_text='Item Weight', row=1, col=1)
fig.update_xaxes(title_text='Item Visibility', row=1, col=2)
fig.update_xaxes(title_text='Item MRP', row=2, col=1)
fig.update_xaxes(title_text='Outlet Establishment Year', row=2, col=2)

# Atualizar tamanho das fontes dos tick labels
fig.update_xaxes(tickfont=dict(size=14), row=1, col=1)
fig.update_xaxes(tickfont=dict(size=14), row=1, col=2)
fig.update_xaxes(tickfont=dict(size=14), row=2, col=1)
fig.update_xaxes(tickfont=dict(size=14), row=2, col=2)
fig.update_yaxes(tickfont=dict(size=14), row=1, col=1)
fig.update_yaxes(tickfont=dict(size=14), row=1, col=2)
fig.update_yaxes(tickfont=dict(size=14), row=2, col=1)
fig.update_yaxes(tickfont=dict(size=14), row=2, col=2)

# Exibir o gráfico
fig.show()


Com base nos histogramas, podemos observar que:

>- Os atributos `Item_Weight`, `Item_Visibility` e `Item_MRP` têm distribuições razoavelmente simétricas.
>
>- O atributo `Outlet_Establishment_Year` não parece ter outliers. Nesse caso, transforma-lo em categórico, criando-se faixas de anos pode ser uma abordagem mais apropriada para a engenharia de atributos. Isso pode ajudar o modelo a capturar possíveis padrões não lineares relacionados a diferentes períodos.

Para termos um análise mais conclusiva a respeito dos outliers, irei calcular o intervalo interquartil (IQR) para cada coluna numérica relevante (omitindo identificadores):

In [20]:
#@title
import numpy as np
# selecionar apenas colunas numéricas
df_num = df.select_dtypes(include=[np.number])

# excluir colunas que não devem ser consideradas para a detecção de outliers
cols_to_exclude = ['Item_Outlet_Sales']
for col in df.columns:
    if df[col].nunique() == df.shape[0] or df[col].nunique() == 1:
        cols_to_exclude.append(col)

df_num = df_num.drop(columns=cols_to_exclude)

# calcular IQR e identificar outliers
Q1 = df_num.quantile(0.25)
Q3 = df_num.quantile(0.75)
IQR = Q3 - Q1
outliers = ((df_num < (Q1 - 1.5 * IQR)) | (df_num > (Q3 + 1.5 * IQR))).any(axis=1)

# gerar tabela de outliers
outliers_table = df.loc[outliers, df_num.columns]
print("Número de outliers:", outliers.sum())
print("Tabela de outliers:")
print(outliers_table)


Número de outliers: 259
Tabela de outliers:
      Item_Weight  Item_Visibility  Item_MRP  Outlet_Establishment_Year
49         10.195         0.255395  196.8794                       1985
83         18.850         0.293418  194.6136                       1985
108         9.395         0.278974  225.3720                       1985
174        17.700         0.291865  115.1834                       1998
334        15.600         0.204700   76.8670                       1985
...           ...              ...       ...                        ...
5482        6.985         0.240512  181.9608                       1985
5514       14.600         0.252019   50.3692                       1998
5571       13.800         0.236595  265.0884                       1998
5597       17.700         0.205456  113.4834                       2009
5668       15.600         0.288892  115.1518                       1998

[259 rows x 4 columns]


Como tem-se uma justificativa plausível para manter esses outliers, então pode-se considerar mantê-los.

### **2.4 - Engenharia de Atributos**
A Engenharia de Atributos refere-se à criação, modificação ou transformação de atributos de forma a melhorar a qualidade dos dados e fornecer informações relevantes ao modelo preditivo.

***

Levando em conta as análises efetuadas nas seção anterior. Aqui estão algumas observações sobre as transformações que irei realizar:

**1.** Padronização de atributos:
   - Substituir espaços em branco por "_" nos atributos `Item_Type`, `Outlet_Location_Type` e `Outlet_Type`: Essa transformação pode ajudar a evitar problemas com espaços em branco nos valores das colunas e a tornar a nomenclatura mais consistente.
   - Renomear as classes de `Outlet_Size` para que a codificação LabelEncoder implemente a noção de ordem corretamente.

**2.** Criação e modificação de atributos:
   - Criação do atributo `Item_Reference` a partir dos dois primeiros caracteres de 'Item_Identifier': Essa transformação pode ser útil para capturar informações adicionais sobre a categoria do item. A substituição dos valores 'FD', 'DR' e 'NC' por 'Food', 'Drink' e 'Non-Consumable' também pode facilitar a interpretação dos dados.

   - Incorporação da categoria `Inedible` em `Item_Fat_Content` para itens 'Non-Consumable', pois é incoerente atribuir uma classe que denota teor de gordura em um produto não alimentício.

   - Modificação do atributo `Outlet_Establishment_Year` para `Outlet_Years`: Essa transformação pode ajudar a capturar tendências temporais mais gerais, uma vez que este atributo embora seja numérico ele se comporta como uma variável discreta.




**4.** Codificação de atributos categóricos:
   - A aplicação do `LabelEncoder` para os atributos categóricos selecionados (`Item_Identifier`, `Item_Type` e `Outlet_Identifier`) pode ser útil para representar esses atributos numericamente. No entanto, é importante observar que o `LabelEncoder` atribui valores numéricos ordinais aos atributos, o que pode introduzir uma noção de ordem onde talvez não haja.

   - A aplicação do `OneHotEncoder` para os atributos categóricos restantes (exceto `Item_Identifier`, `Item_Type` e `Outlet_Identifier`) permite representá-los como variáveis dummy, evitando a noção de ordem entre as categorias.


A rigor o processo de engenharia de atributos deve seguir a seguinte sequência:

**1.** Separar os dados em conjunto de treinamento e teste.

**2.** Realizar qualquer tipo de transformação e imputação de atributos usando apenas o conjunto de treinamento.

**3.** Aplicar as mesmas transformações e imputações ao conjunto de teste usando as informações obtidas apenas do conjunto de treinamento.

Dessa forma, pode-se garantir que as transformações e imputações sejam aplicadas de forma consistente e imparcial em ambos os conjuntos de dados, evitando o vazamento de informações do conjunto de teste para o conjunto de treinamento.
***


**==========================================================================================**

In [21]:
# @title
'''
Padronização de strings
'''
# Substituir espaços em branco de alguns atributos por "_"
df[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']] = df[['Item_Type', 'Outlet_Location_Type', 'Outlet_Type']].applymap(lambda x: x.replace(' ', '_'))
# Removendo a redundância nas categorias de 'item_fat_content'
df['Item_Fat_Content'].replace({'Low Fat':'Low_Fat', 'low fat':'Low_Fat', 'LF':'Low_Fat', 'reg':'Regular'}, inplace=True)

In [22]:
# Criar o atributo 'Outlet_Years'
df['Outlet_Years'] = 2023 - df['Outlet_Establishment_Year']
df['Outlet_Years'].value_counts()

Outlet_Years
38    2439
36    1553
24    1550
26    1550
19    1550
21    1548
14    1546
16    1543
25     925
Name: count, dtype: int64

In [23]:
#Criando um novo atributo com base no rotulo identificador:
df['Item_Reference'] = df['Item_Identifier'].apply(lambda x: x[0:2])

#Renomeando as categorias mais intuitivas:
df['Item_Reference'] = df['Item_Reference'].map({'FD':'Food', 'NC':'Non-Consumable', 'DR':'Drinks'})
df['Item_Reference'].value_counts()

Item_Reference
Food              10201
Non-Consumable     2686
Drinks             1317
Name: count, dtype: int64

In [24]:
#Criar uma nova categoria para itens não alimenticios em Item_Fat_Content:
df.loc[df['Item_Reference']=="Non-Consumable",'Item_Fat_Content'] = "Inedible"
df['Item_Fat_Content'].value_counts()

Item_Fat_Content
Low_Fat     6499
Regular     5019
Inedible    2686
Name: count, dtype: int64

In [25]:
df.dtypes

Item_Identifier               object
Item_Weight                  float64
Item_Fat_Content              object
Item_Visibility              float64
Item_Type                     object
Item_MRP                     float64
Outlet_Identifier             object
Outlet_Establishment_Year      int64
Outlet_Size                   object
Outlet_Location_Type          object
Outlet_Type                   object
Item_Outlet_Sales            float64
ind                           object
Outlet_Years                   int64
Item_Reference                object
dtype: object

In [26]:
# Criar um novo DataFrame com as colunas a serem removidas
df_identifiers = df[['Item_Identifier', 'Outlet_Identifier']]

# Excluindo outras colunas que não são mais necessárias
df.drop(['Item_Identifier', 'Outlet_Establishment_Year'], axis=1, inplace=True)

# Suponha que você queira mover a coluna 'Item_Outlet_Sales' para o final do DataFrame
coluna_a_mover = df.pop('Item_Outlet_Sales')

# Adicione a coluna de volta ao final do DataFrame
df['Item_Outlet_Sales'] = coluna_a_mover

# Criando uma cópia dos dados antes da codificação
data_before_encoding = df.copy()

df

Unnamed: 0,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Size,Outlet_Location_Type,Outlet_Type,ind,Outlet_Years,Item_Reference,Item_Outlet_Sales
0,9.30,Low_Fat,0.016047,Dairy,249.8092,OUT049,Medium,Tier_1,Supermarket_Type1,train,24,Food,3735.1380
1,5.92,Regular,0.019278,Soft_Drinks,48.2692,OUT018,Medium,Tier_3,Supermarket_Type2,train,14,Drinks,443.4228
2,17.50,Low_Fat,0.016760,Meat,141.6180,OUT049,Medium,Tier_1,Supermarket_Type1,train,24,Food,2097.2700
3,19.20,Regular,0.022930,Fruits_and_Vegetables,182.0950,OUT010,Small,Tier_3,Grocery_Store,train,25,Food,732.3800
4,8.93,Inedible,0.014670,Household,53.8614,OUT013,High,Tier_3,Supermarket_Type1,train,36,Non-Consumable,994.7052
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5676,10.50,Regular,0.013496,Snack_Foods,141.3154,OUT046,Small,Tier_1,Supermarket_Type1,test,26,Food,
5677,7.60,Regular,0.142991,Starchy_Foods,169.1448,OUT018,Medium,Tier_3,Supermarket_Type2,test,14,Food,
5678,10.00,Inedible,0.073529,Health_and_Hygiene,118.7440,OUT045,Small,Tier_2,Supermarket_Type1,test,21,Non-Consumable,
5679,15.30,Regular,0.098200,Canned,214.6218,OUT017,Small,Tier_2,Supermarket_Type1,test,16,Food,


Antes de finalizarmos a engenharia de atributos com o processo de codificação. Podemos gerar alguns gráficos em função da variável alvo que podem ser implementados num ambiente de produção. (Obs: Uma vez que o processo de codificação transforma os dados de treino em um formato mais adequado para os modelos de machine learning, por outro lado este torna a vizualização desses dados mais complexa):

Desempenho de Vendas por Categoria ao Longo do Tempo

In [27]:
# @title
import plotly.express as px

# Agrupar os dados por categoria e ano/mês
sales_by_category = data_before_encoding.groupby(['Item_Type', 'Outlet_Years']).agg({'Item_Outlet_Sales': 'sum'}).reset_index()

# Gráfico de linhas para cada categoria ao longo dos anos
fig_line = px.line(sales_by_category, x='Outlet_Years', y='Item_Outlet_Sales', color='Item_Type',
                   title='Desempenho de Vendas por Categoria ao Longo do Tempo')

fig_line.update_layout(
    xaxis_title='Ano',
    yaxis_title='Vendas',
    legend_title='Categoria',
    #width=1200,
    #height=700,
    title_x=0.5,  # Centraliza o título horizontalmente
    title_font=dict(color='black', size=20),
    plot_bgcolor='rgba(0,0,0,0)',  # Define o fundo do gráfico como transparente
    legend=dict(orientation='h', y=1.1),  # Posiciona a legenda acima do gráfico
    hovermode='x',  # Exibe informações no hover apenas na posição x
    hoverlabel=dict(bgcolor='white', font_size=12),  # Define o estilo do hover
    yaxis=dict(showgrid=True, gridcolor='lightgray'),  # Adiciona linhas de grade ao eixo y
)

fig_line.update_traces(
    mode='lines+markers',  # Adiciona marcadores aos pontos de dados
    line=dict(width=2),  # Ajusta a largura das linhas
    marker=dict(size=6),  # Define o tamanho dos marcadores
)

fig_line.show()






Distribuição de Vendas por Categoria

In [28]:
# @title
import plotly.graph_objects as go

# Calculando as porcentagens de vendas por categoria
total_sales = data_before_encoding['Item_Outlet_Sales'].sum()
sales_by_category['Sales Percentage'] = sales_by_category['Item_Outlet_Sales'] / total_sales * 100

# Ordenando as categorias por porcentagem de vendas (ou outro critério desejado)
sales_by_category = sales_by_category.sort_values('Sales Percentage', ascending=False)

# Criando um gráfico de anel (donut chart) com setores de largura uniforme
fig = go.Figure()

fig.add_trace(go.Pie(
    labels=sales_by_category['Item_Type'],
    values=sales_by_category['Sales Percentage'],
    hole=0.7,  # Controla o tamanho do buraco no meio do anel
    textinfo='percent',
    insidetextfont=dict(color='black'),  # Define a cor do texto dentro das fatias
    marker=dict(colors=px.colors.qualitative.Set3, line=dict(color='white', width=2)),  # Estiliza as cores e adiciona bordas às fatias
))

fig.update_traces(hole=0.6)  # Define o tamanho uniforme para o anel

# Adicionando uma imagem dentro do buraco da pizza (cifrão de dinheiro)
fig.add_layout_image(
    source="https://raw.githubusercontent.com/wanderson42/bigmart_dash_app/main/264-2640171_inventory-icon-white.png",  # URL da imagem do cifrão
    x=0.5,
    y=0.5,
    xanchor="center",
    yanchor="middle",
    sizex=0.4,  # Tamanho horizontal da imagem
    sizey=0.4,  # Tamanho vertical da imagem
)

fig.update_layout(
    title='Distribuição de Vendas por Categoria',
    title_x=0.5,  # Centraliza o título horizontalmente
    title_font=dict(color='black', size=20),  # Define a cor do texto do título como preto e o tamanho da fonte
    legend=dict(orientation="v", yanchor="middle", y=0.5, xanchor="right", x=1.2),  # Posiciona a legenda ao lado direito do anel
    margin=dict(t=50),  # Ajusta a margem superior para aproximar o título do gráfico
)


fig.show()


Correlação entre Preço do Produto, Vendas, Teor de Gordura e Peso do Produto

In [29]:
# @title
import pandas as pd
import plotly.express as px

# Crie um gráfico de dispersão com linha de tendência e diferentes cores para 'Item_Fat_Content'
scatter = px.scatter(data_before_encoding, x='Item_MRP', y='Item_Outlet_Sales', color='Item_Fat_Content', size='Item_Weight',
                     trendline="ols", title='Correlação entre Preço do Produto, Vendas, Teor de Gordura e Peso do Produto')

# Exiba o gráfico
scatter.show()



---



**Codificação dos dados para treinar o modelo:**





In [30]:
# Criar o array target e dropar NaN
target = df['Item_Outlet_Sales'].dropna().to_numpy()

In [31]:
# Separação dos dados de treinamento e teste
train = df[df["ind"] == "train"].copy()
test = df[df["ind"] == "test"].copy()
train.drop(['ind', 'Item_Outlet_Sales'], axis=1, inplace=True)
test.drop(['ind', 'Item_Outlet_Sales'], axis=1, inplace=True)
print(train.shape, test.shape)

(8523, 11) (5681, 11)


**Função de codificação:**

A função feature_encoded realiza uma engenharia de atributos que inclui:

> - Codificação Ordinal (Label Encoding) para colunas especificadas, convertendo valores categóricos em inteiros ordenados.

> - Codificação Nominal (OneHot Encoding) para outras colunas categóricas, criando variáveis binárias para cada categoria.

> - A função retorna tanto uma matriz esparsa adequada para otimização de memória (para treinar um modelo ML) quanto um DataFrame para fácil visualização e manipulação. Além disso, a função retorna os objetos de codificação para serem utilizados em novos dados em um ambiente de produção.


In [32]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.compose import make_column_transformer
from scipy.sparse import csr_matrix
import pandas as pd
import numpy as np

def feature_encoded(data):
    '''
    Codificação de atributos categóricos
    '''
    # Colunas categóricas para uma codificação via LabelEncoder
    le_cols = ['Outlet_Location_Type', 'Outlet_Type', 'Outlet_Size']

    # Ordenando as classes de Outlet_Size para o LabelEncoder
    data['Outlet_Size'].replace({'Small': 'A_Small', 'Medium': 'B_Medium', 'High': 'C_High'}, inplace=True)

    # Aplicar LabelEncoder às colunas especificadas
    le = LabelEncoder()
    for col in le_cols:
        data[col] = le.fit_transform(data[col])

    # Colunas categóricas para o OneHotEncoder
    ohe_cols = data.select_dtypes(include=['object']).columns.difference(le_cols)

    # Pipeline para codificação com OneHotEncoder
    ohe = make_column_transformer(
        (OneHotEncoder(handle_unknown='ignore'), ohe_cols),
        remainder='passthrough'
    )

    # Aplicando OneHotEncoder e obtendo uma matriz esparsa
    data_encoded_spmatrix = ohe.fit_transform(data)

    # Garantir que a matriz resultante seja uma matriz esparsa do scipy
    data_encoded_spmatrix = csr_matrix(data_encoded_spmatrix)

    # Obtendo um pandas.DataFrame a partir da matriz esparsa
    data_encoded_df = pd.DataFrame.sparse.from_spmatrix(data_encoded_spmatrix)

    # Adicionar nomes de colunas ao data_encoded_df
    data_encoded_df.columns = ohe.get_feature_names_out()

    return data_encoded_spmatrix, data_encoded_df, ohe, le


In [33]:
# Aplicar a codificação nos dados de treino
features_train_encoded_spmatrix, features_train_encoded_df, ohe_train, le_train = feature_encoded(train)
print("\033[1mDados de Treino Codificados - pandas.DataFrame:\033[0m")
display(features_train_encoded_df.info())
print()
print("\033[1mDados de Treino Codificados - scipy.sparse:\033[0m")
display(features_train_encoded_spmatrix)

[1mDados de Treino Codificados - pandas.DataFrame:[0m
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 39 columns):
 #   Column                                          Non-Null Count  Dtype             
---  ------                                          --------------  -----             
 0   onehotencoder__Item_Fat_Content_Inedible        8523 non-null   Sparse[float64, 0]
 1   onehotencoder__Item_Fat_Content_Low_Fat         8523 non-null   Sparse[float64, 0]
 2   onehotencoder__Item_Fat_Content_Regular         8523 non-null   Sparse[float64, 0]
 3   onehotencoder__Item_Reference_Drinks            8523 non-null   Sparse[float64, 0]
 4   onehotencoder__Item_Reference_Food              8523 non-null   Sparse[float64, 0]
 5   onehotencoder__Item_Reference_Non-Consumable    8523 non-null   Sparse[float64, 0]
 6   onehotencoder__Item_Type_Baking_Goods           8523 non-null   Sparse[float64, 0]
 7   onehotencoder__Item_Type_Breads         

None


[1mDados de Treino Codificados - scipy.sparse:[0m


<8523x39 sparse matrix of type '<class 'numpy.float64'>'
	with 85484 stored elements in Compressed Sparse Row format>

Checando a distribuição dos dados de uma feature antes (data_before_encoding) e após a codificação (features_train_encoded_df):

In [34]:
data_before_encoding[data_before_encoding['ind'] == 'train']['Outlet_Size'].value_counts()

Outlet_Size
Small     4798
Medium    2793
High       932
Name: count, dtype: int64

In [35]:
features_train_encoded_df['remainder__Outlet_Size'].value_counts()

remainder__Outlet_Size
0.0    4798
1.0    2793
2.0     932
Name: count, dtype: int64

Salvando os objetos de codificação obtidos por meio da função de codificação

In [36]:
import joblib

# Salvar os objetos le e ohe em arquivos separados
joblib.dump(ohe_train, 'one_hot_encoder.pkl')
joblib.dump(le_train, 'label_encoder.pkl')

['label_encoder.pkl']

In [37]:
#salvando os dados de test
#url_test = 'https://raw.githubusercontent.com/wanderson42/Portfolio-DS/main/datasets/Big_Mart_Sales/test.csv'
#test_identifiers = pd.read_csv(url_test)
#test_concat = pd.concat([test_identifiers['Item_Identifier'], test], axis=1)

# Salvar o DataFrame em um arquivo CSV
#test_concat.to_csv('bigmart_sales_test_pre_encoding.csv', index=False)

#from google.colab import files

#files.download('bigmart_sales_test_pre_encoding.csv')

Agora que o processo de engenharia de atributos foi realizado com sucesso nos dados de treino e teste (para o ambiente de produção). Podemos proseguir com o treinamento de um modelo regressor para previsão de vendas.

In [38]:
import sklearn
print(sklearn.__version__)

1.2.2


**Treinar o modelo:**

Aqui implementei a função *optimizadorHP* que utiliza validação cruzada para encontrar a melhor combinação de hiperparâmetros usando validação cruzada.

A função aceita como entrada um modelo, um conjunto de hiperparâmetros a serem otimizados, dados de treino e validação, uma métrica de avaliação, e o número de divisões para validação cruzada. Para encontrar uma combinação ideal de hiperparâmetros para um modelo, irei utilizar o estimador RandomizedSearchCV, cuja abordagem consiste em uma busca aleatória em um subconjunto especificado do espaço de hiperparâmetros, para identifica o melhor modelo, e realiza previsões nos conjuntos de treino e validação.

In [39]:
# @title
from sklearn.model_selection import RandomizedSearchCV, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

def optimizadorHP(modelo, params, X_train, X_test, y_train, y_test, metrica, n_splits):
    # Definir Objeto
    hp_search = RandomizedSearchCV(modelo,
                                    param_distributions=params,
                                    n_iter=50,  # Ajuste conforme necessário
                                    scoring=metrica,
                                    cv=n_splits,
                                    verbose=0,
                                    n_jobs=-1,
                                    random_state=42)

    # Buscar
    hp_search.fit(X_train, y_train)

    # Realizar previsões com o melhor modelo nos dados de treino
    best_model = hp_search.best_estimator_
    y_pred = best_model.predict(X_test)
    y_pred_train = best_model.predict(X_train)

    # Calcular métricas no conjunto de treino
    rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
    nrmse_train = rmse_train / (np.max(y_train) - np.min(y_train))
    r2_train = r2_score(y_train, y_pred_train)

    # Realizar previsões com o melhor modelo nos dados de teste
    y_pred_test = best_model.predict(X_test)

    # Calcular métricas no conjunto de teste
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
    nrmse_test = rmse_test / (np.max(y_test) - np.min(y_test))
    r2_test = r2_score(y_test, y_pred_test)

    # Calcular scores da validação cruzada com métrica diferente nos dados de treino
    scores_train = cross_val_score(best_model, X_train, y_train, scoring=metrica, cv=n_splits)
    min_score_train = np.min(scores_train)
    max_score_train = np.max(scores_train)
    std_score_train = np.std(scores_train)
    mean_score_train = np.mean(scores_train)

    # Calcular scores da validação cruzada com métrica diferente nos dados de teste
    scores_test = cross_val_score(best_model, X_test, y_test, scoring=metrica, cv=n_splits)
    min_score_test = np.min(scores_test)
    max_score_test = np.max(scores_test)
    std_score_test = np.std(scores_test)
    mean_score_test = np.mean(scores_test)

    # Mostrar resultados finais nos dados de teste e treino
    mostrarResultadosFinaisOtimizacao(best_model, hp_search.best_params_, r2_train, rmse_train, nrmse_train, metrica,
                                      min_score_train, max_score_train, std_score_train, mean_score_train,
                                      r2_test, rmse_test, nrmse_test, min_score_test, max_score_test, std_score_test, mean_score_test)

    # Retornar resultado
    return (best_model, hp_search.best_params_, hp_search.best_score_, hp_search.cv_results_)


def mostrarResultadosFinaisOtimizacao(modelo, hp, r2_train, rmse_train, nrmse_train, metrica_avaliada, min_score_train, max_score_train, std_score_train, mean_score_train,
                                      r2_test, rmse_test, nrmse_test, min_score_test, max_score_test, std_score_test, mean_score_test):
    print('Model:', type(modelo).__name__)
    print('Best Parameters:', hp)
    print('Metric:', metrica_avaliada)

    # Métricas de Treino
    print('--- Training Metrics ---')
    print('RMSE:', rmse_train)
    print('NRMSE:', nrmse_train)
    print('R2 Score:', r2_train)
    print('Min Score:', min_score_train)
    print('Max Score:', max_score_train)
    print('Standard Deviation:', std_score_train)
    print('Mean Score:', mean_score_train)

    # Métricas de Teste
    print('--- Testing Metrics ---')
    print('RMSE:', rmse_test)
    print('NRMSE:', nrmse_test)
    print('R2 Score:', r2_test)
    print('Min Score:', min_score_test)
    print('Max Score:', max_score_test)
    print('Standard Deviation:', std_score_test)
    print('Mean Score:', mean_score_test)


Em resumo, a função encapsula o processo de ajuste de hiperparâmetros, avaliação do modelo e apresentação dos resultados, proporcionando uma abordagem abrangente para otimização de modelos de machine learning.

#### **3.1.2 - XGBoost Regressor**

Dividindo os dados em conjuntos de treinamento e teste. Isso pode ser feito usando a função train_test_split. E na sequência, instanciar o modelo a partir da classe XGBRegressor( )

In [40]:
#from sklearn.preprocessing import StandardScaler

## Criar o objeto StandardScaler
#scaler = StandardScaler(with_mean=False)

# Aplicar o StandardScaler aos dados
#features_train_encoded_spmatrix_scaled = scaler.fit_transform(features_train_encoded_spmatrix)


In [41]:
# Criando o subconjunto de dados de validação (a partir dos dados de treinamento)

from sklearn.model_selection import train_test_split

X_train, X_validation, y_train, y_validation = train_test_split(features_train_encoded_spmatrix, target, test_size=0.2, random_state=42)

É importante criar uma grade de hiperparâmetros para otimização do XGBoost. Uma boa prática é otimizar primeiramente o parâmetro mais importante:

In [42]:
param_grid = {# Taxa de aprendizado
              'learning_rate': [0.01, 0.1, 0.2, 0.3]
              }

import xgboost as xgb
# Criar modelo XGBoost
modelo_xgboost = xgb.XGBRegressor()

resultado = optimizadorHP(modelo_xgboost , param_grid, X_train, X_validation, y_train, y_validation, 'neg_mean_squared_error', n_splits=5)


The total space of parameters 4 is smaller than n_iter=50. Running 4 iterations. For exhaustive searches, use GridSearchCV.



Model: XGBRegressor
Best Parameters: {'learning_rate': 0.1}
Metric: neg_mean_squared_error
--- Training Metrics ---
RMSE: 881.6405233410358
NRMSE: 0.06753964204325327
R2 Score: 0.7372289344634775
Min Score: -1335607.0143966745
Max Score: -1229178.3973470302
Standard Deviation: 42131.24793449591
Mean Score: -1271004.6380561956
--- Testing Metrics ---
RMSE: 1055.072589558904
NRMSE: 0.10340417317967558
R2 Score: 0.5904376641556636
Min Score: -1395718.762066132
Max Score: -1286040.5215805932
Standard Deviation: 39212.869863622735
Mean Score: -1319083.8629156672


Agora executando novamente a função optimizacaoHP para otimizar os demais hiperparâmetros da grade e assim avaliar o modelo:

In [43]:
# Definir a grade de hiperparâmetros
param_grid = {
    'n_estimators' : [30, 40, 50, 60],  # Número de árvores
    #'learning_rate': [0.01, 0.1, 0.2, 0.3],  # Taxa de aprendizado
    'subsample': [0.8, 0.9, 1.0],  # Taxa de amostragem de linhas (row sampling)
    'colsample_bytree': [0.8, 0.9, 1.0],  # Taxa de amostragem de colunas (column sampling)
    'max_depth': [3, 4, 5, 6],  # Profundidade máxima da árvore
    'min_child_weight': [1, 3, 5],  # Peso mínimo da folha da árvore
    'reg_alpha': [0, 0.1, 0.5, 1],  # Termo de regularização L1
    'reg_lambda': [0, 1, 2],  # Termo de regularização L2
}

import xgboost as xgb
# Criar modelo XGBoost
modelo_xgboost = xgb.XGBRegressor(learning_rate = 0.1)

resultado = optimizadorHP(modelo_xgboost , param_grid, X_train, X_validation, y_train, y_validation, 'neg_mean_squared_error', n_splits=5)

Model: XGBRegressor
Best Parameters: {'subsample': 0.9, 'reg_lambda': 2, 'reg_alpha': 0.5, 'n_estimators': 50, 'min_child_weight': 3, 'max_depth': 3, 'colsample_bytree': 0.8}
Metric: neg_mean_squared_error
--- Training Metrics ---
RMSE: 1071.6815939986648
NRMSE: 0.0820980766273314
R2 Score: 0.61173700670182
Min Score: -1239860.8027506536
Max Score: -1164211.8026212528
Standard Deviation: 32738.73572801246
Mean Score: -1198377.9960131499
--- Testing Metrics ---
RMSE: 1020.149190764106
NRMSE: 0.09998144642823006
R2 Score: 0.6171023425905092
Min Score: -1113989.4709401669
Max Score: -1020129.4051316126
Standard Deviation: 34610.942803445694
Mean Score: -1077470.4892598975


In [44]:
#from google.colab import drive
#drive.mount('/content/drive')

Considerações Finais

> - Os valores de hiperparâmetros otimizados estão dentro do esperado para um modelo XGBoost, com uma profundidade moderada da árvore e regularização para evitar overfitting.

> - Consistência entre Treinamento e Teste: O modelo mostra uma consistência razoável entre os conjuntos de treinamento e teste, o que é um bom sinal de que ele está generalizando bem.

> - Espaço para Melhoria: Com um R2 Score de cerca de 0.61, há espaço para melhorias. Dependendo do domínio do problema, você pode explorar técnicas avançadas ou ajustar ainda mais os hiperparâmetros.

> - Erro Absoluto: Em contexto com a escala dos dados. Um RMSE de aproximadamente 1071 no conjunto de treinamento e 1020 no conjunto de teste indica que o modelo tem um desempenho razoavelmente consistente entre os dois conjuntos de dados. Entretanto, é sempre possível considerar novas técnicas de ajuste de modelo ou engenharia de atributos pode ajudar a melhorar o desempenho.

Agora plotando um gráfco residual para avaliar a representatidade do modelo treinado:

In [45]:
# @title
import plotly.graph_objects as go
import plotly.express as px

best_model = resultado[0]  # O melhor modelo retornado pela função
y_preds = best_model.predict(X_validation)

# Calcular os resíduos
residuals = y_validation - y_preds

# Criar um DataFrame para os resíduos
residuals_df = pd.DataFrame({'Predictions': y_preds, 'Residuals': residuals})

# Criar um gráfico de dispersão
fig = px.scatter(residuals_df, x='Predictions', y='Residuals', title='Residuals Distribution',
                 labels={'Predictions': 'Valores Previstos', 'Residuals': 'Resíduos'})

# Adicionar uma linha de referência em y=0
fig.add_trace(go.Scatter(x=[min(y_preds), max(y_preds)], y=[0, 0], mode='lines', name='Zero Residuals',
                         line=dict(color='red', dash='dash')))

# Personalizar layout
fig.update_layout(
    title=dict(text='Distribuição de Resíduos', x=0.5, y=0.95),
    xaxis_title='Valores Previstos',
    yaxis_title='Resíduos',
    font=dict(size=14, family='Arial, sans-serif', color = 'black'),
    margin=dict(l=20, r=20, t=60, b=20),
    showlegend=True
)

# Personalizar marcadores
fig.update_traces(marker=dict(size=6, opacity=0.7))

# Exibir o gráfico
fig.show()


O gráfico acima possui alta densidade de pontos próximos à origem e menor densidade de pontos distantes da origem, além de apresentar uma simétria em relação à origem. Essas características indicam que os resíduos do modelo apresentam uma distribuição normal (i.e. padrão aleatório, sem tendências acentuadas) e que o modelo está capturando de forma adequada a estrutura dos dados.

In [46]:
# O código abaixo leva a mesma saida obtida na função optimizacaoHP

#best_model = resultado[0]  # O melhor modelo retornado pela função
#y_pred_test = best_model.predict(X_validation)

#mostrarResultadosFinaisOtimizacao(best_model, resultado[1], r2_score(y_validation, y_pred_test),
#                                  np.sqrt(mean_squared_error(y_validation, y_pred_test)),
#                                  resultado[2],  # nrmse está na posição 2 da tupla
#                                  'neg_mean_squared_error',  # ou a métrica que você está usando
#                                  resultado[3]['mean_test_score'].min(),
#                                  resultado[3]['mean_test_score'].max(),
#                                  resultado[3]['std_test_score'].mean(),
#                                  resultado[3]['mean_test_score'].mean())

In [47]:
import joblib
# save the model to a file
best_model = resultado[0]  # O índice 0 contém o best_model
joblib.dump(best_model, 'best_model_xgboost.joblib')

['best_model_xgboost.joblib']

**Avaliação Final no Conjunto de Teste:**

Após o treinamento e validação do modelo preditivo, pode-se aplicar o modelo treinado para fazer previsões no conjunto de teste (dados não vistos) para uma inicial.

Carregando os dados para "deploy":

In [51]:
from joblib import load
import os

#Importar os dados necessários
PathExist = os.path.exists('/content/BigMart-data/')
if PathExist == True:
   %cd /content/BigMart-data
else:
   %cd /content
   !git clone https://github.com/wanderson42/BigMart-data.git
   %cd /content/BigMart-data

location = os.getcwd()

# Carregar o objeto label encoder
fullpath_le = os.path.join(location, 'label_encoder.pkl')
le = load(fullpath_le)

# Carregar o objeto onehot encoder
fullpath_ohe = os.path.join(location, 'one_hot_encoder.pkl')
ohe = load(fullpath_ohe)

# Carregar modelo treinado
fullpath_rfm = os.path.join(location, 'best_model_xgboost.joblib')
xgb_model_deploy = load(fullpath_rfm)


/content
Cloning into 'BigMart-data'...
remote: Enumerating objects: 39, done.[K
remote: Counting objects: 100% (39/39), done.[K
remote: Compressing objects: 100% (39/39), done.[K
remote: Total 39 (delta 18), reused 0 (delta 0), pack-reused 0[K
Receiving objects: 100% (39/39), 347.67 KiB | 4.57 MiB/s, done.
Resolving deltas: 100% (18/18), done.
/content/BigMart-data


Vale ressaltar que a implementação de um dashboard nessa etapa é de fundamental importância. A continuação desse projeto pode ser encontrado aqui:

A seguir irei fazer algumas adaptações para testar a operacionalização do modelo treinado para realizar previsões individuais e multiplas.

In [52]:
# @title
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.compose import make_column_transformer
from scipy.sparse import csr_matrix

def feature_encoded_deploy(data, le_filename, ohe_filename):
  '''
  Codificação de atributos categóricos
  '''
  if isinstance(data, dict):
     # Cria um DataFrame com uma única linha de dados (uma previsão)
     data = pd.DataFrame([data])

  # Colunas categóricas para uma codificação via LabelEncoder
  le_cols = ['Outlet_Location_Type', 'Outlet_Type', 'Outlet_Size']

  # Ordenando as classes de Outlet_Size para o LabelEncoder
  data['Outlet_Size'].replace({'Small': 'A_Small', 'Medium': 'B_Medium', 'High': 'C_High'}, inplace=True)

  # Aplicar LabelEncoder às colunas especificadas
  for col in le_cols:
      data[col] = le.fit_transform(data[col])

  # Colunas categóricas para o OneHotEncoder
  ohe_cols = data.select_dtypes(include=['object']).columns.difference(le_cols)

  # Aplicando OneHotEncoder e obtendo uma matriz esparsa
  data_encoded_spmatrix = ohe.transform(data)

  return data_encoded_spmatrix

**Aplicar o modelo treinado para fazer uma previsão individual:**

In [53]:
# Criando um dicionário com as entradas do usuário
user_input = {
        'Item_Type': 'Meat',
        'Item_Fat_Content': 'Regular',
        'Outlet_Type': 'Grocery_Store',
        'Outlet_Size': 'High',
        'Outlet_Location_Type': 'Tier_3',
        'Outlet_Identifier': 'OUT010',
        'Item_Reference': 'Food',
        'Item_Weight': 250,
        'Item_Visibility': 0.5,
        'Item_MRP': 500,
        'Outlet_Years': 50
    }

In [54]:
# Aplicar a codificação nos dados de entrada
data_row = feature_encoded_deploy(user_input, le, ohe)
display(data_row)

<1x39 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [55]:
predictions = xgb_model_deploy.predict(data_row)
predictions

array([1052.11], dtype=float32)

**=======================================================================================**

In [57]:
os.getcwd()

'/content/BigMart-data'

**Aplicar o modelo treinado para fazer uma previsão multipla:**

In [58]:
# @title
# Convertendo os dados em csv para pandas.dataframe
test_user_inputs = pd.read_csv('/content/BigMart-data/bigmart_sales_test_pre_encoding.csv')

# Armazenando os rótulos identificadores
test_identifiers = pd.read_csv('test_identifiers.csv')

test_user_inputs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5681 entries, 0 to 5680
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Item_Identifier       5681 non-null   object 
 1   Item_Weight           5681 non-null   float64
 2   Item_Fat_Content      5681 non-null   object 
 3   Item_Visibility       5681 non-null   float64
 4   Item_Type             5681 non-null   object 
 5   Item_MRP              5681 non-null   float64
 6   Outlet_Identifier     5681 non-null   object 
 7   Outlet_Size           5681 non-null   object 
 8   Outlet_Location_Type  5681 non-null   object 
 9   Outlet_Type           5681 non-null   object 
 10  Outlet_Years          5681 non-null   int64  
 11  Item_Reference        5681 non-null   object 
dtypes: float64(3), int64(1), object(8)
memory usage: 532.7+ KB


In [59]:
# Aplicar a feature_engineering aos dados de entrada
features_test_encoded_spmatrix = feature_encoded_deploy(test_user_inputs, le, ohe)
print("\033[1mDados de Teste Codificados - scipy.sparse:\033[0m")
display(features_test_encoded_spmatrix)

[1mDados de Teste Codificados - scipy.sparse:[0m


<5681x39 sparse matrix of type '<class 'numpy.float64'>'
	with 56979 stored elements in Compressed Sparse Row format>

In [60]:
# Efetuar as multiplas predições
preds_data_frame = xgb_model_deploy.predict(features_test_encoded_spmatrix)
preds_data_frame

array([1649.6298, 1381.049 ,  770.6319, ..., 1974.5669, 3433.2295,
       1282.9244], dtype=float32)

In [61]:
# Convertendo para DataFrame com índice igual ao número de linhas
item_outlet_sales = pd.Series(preds_data_frame, name='Item_Outlet_Sales')

# Juntando as duas séries em um DataFrame
test_preds = pd.concat([test_identifiers, item_outlet_sales.dropna()], axis=1)

# Exibindo o DataFrame
print("\033[1mPrevisões no conjunto de novo dados:\033[0m")

test_preds.head(10)

[1mPrevisões no conjunto de novo dados:[0m


Unnamed: 0,Item_Identifier,Outlet_Identifier,Item_Outlet_Sales
0,FDW58,OUT049,1649.629761
1,FDW14,OUT017,1381.04895
2,NCN55,OUT010,770.631897
3,FDQ58,OUT017,2430.762207
4,FDY38,OUT027,6013.474609
5,FDH56,OUT046,1954.904541
6,FDL48,OUT018,628.524475
7,FDC48,OUT027,2074.859619
8,FDN33,OUT045,1533.653198
9,FDA36,OUT017,3191.146729


In [62]:
test_preds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5681 entries, 0 to 5680
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Item_Identifier    5681 non-null   object 
 1   Outlet_Identifier  5681 non-null   object 
 2   Item_Outlet_Sales  5681 non-null   float32
dtypes: float32(1), object(2)
memory usage: 111.1+ KB


In [63]:
# Salvar o DataFrame em um arquivo CSV
test_preds.to_csv('bigmart_xgboost_subission_hackatom.csv', index=False)

from google.colab import files

files.download('bigmart_xgboost_subission_hackatom.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>