# Pizza Query - Relatório e Documentação

In [1]:
# Se você não tiver alguma das bibliotecas usadas neste notebook, basta instalá-las com esta célula.

# !pip install pingouin
# !pip install pandas
# !pip install numpy
# !pip install seaborn
# !pip install plotly

In [2]:
# Importando bibliotecas...

import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import pingouin as pgn

## Carregamento de Dados

In [3]:
# Abrindo dataframes

df_item_pedido = pd.read_csv(r"C:\Users\mathe\Desktop\Power BI\Data Glow Up\17\item_pedido.csv")
df_item_pedido.head()

Unnamed: 0,idPedido,descTipoItem,descItem
0,0,bebida,refrigerante
1,0,borda,borda tradicional
2,0,ingrediente 1,pepperoni
3,0,ingrediente 2,orégano
4,0,ingrediente 3,frango


In [4]:
df_pedido = pd.read_csv(r"C:\Users\mathe\Desktop\Power BI\Data Glow Up\17\pedido.csv")
df_pedido.head()

Unnamed: 0,idPedido,dtPedido,flKetchup,descUF,txtRecado
0,0,2023-05-11T10:59:33.000+0000,,Goiás,
1,1,2023-05-11T11:23:42.000+0000,,Paraná,Aquela pizza perfeita! :-D
2,2,2023-05-11T11:24:29.000+0000,,São Paulo,Muito obrigado!!
3,3,2023-05-11T11:29:39.000+0000,,São Paulo,
4,4,2023-05-11T11:31:30.000+0000,,Rio Grande do Sul,Capricha no peperoni


In [5]:
df_produto = pd.read_csv(r"C:\Users\mathe\Desktop\Power BI\Data Glow Up\17\produto.csv")
df_produto.head()

Unnamed: 0,descItem,vlPreco
0,abacate,5.25
1,abacaxi,2.5
2,abobrinha,2.0
3,alcaparra,3.0
4,alho,1.0


## Limpeza de Dados

Hora de analisar as tabelas e verificar a necessidade de limpeza.

In [6]:
# Iniciando a veriicação da tabela df_item_pedido

df_item_pedido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10484 entries, 0 to 10483
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   idPedido      10484 non-null  int64 
 1   descTipoItem  10484 non-null  object
 2   descItem      10484 non-null  object
dtypes: int64(1), object(2)
memory usage: 245.8+ KB


In [7]:
df_item_pedido["descTipoItem"].unique()

array(['bebida', 'borda', 'ingrediente 1', 'ingrediente 2',
       'ingrediente 3', 'ingrediente 4', 'ingrediente 5', 'massa',
       'queijo 1', 'queijo 2'], dtype=object)

In [8]:
df_item_pedido["descTipoItem"] = df_item_pedido["descTipoItem"].astype("category")

In [9]:
df_item_pedido["descItem"].unique()

array(['refrigerante', 'borda tradicional', 'pepperoni', 'orégano',
       'frango', 'calabresa', 'bacon', 'massa final', 'mussarela',
       'provolone', 'cheddar', 'tomate', 'presunto', 'palmito',
       'massa tradicional', 'cerveja', 'sabor catupiry',
       'pimenta biquinho', 'linguiça calabresa defumada', 'cogumelos',
       'alho-poró', 'catupiry', 'cebola', 'pimenta calabresa',
       'suco de laranja', 'cebola caramelizada', 'azeitona',
       'massa grossa', 'gorgonzola', 'cream cheese', 'milho', 'rúcula',
       'tomate seco', 'carne seca', 'queijo coalho', 'água com gás',
       'camarão', 'parmesão', 'massa integral', 'queijo brie',
       'vinho tinto', 'queijo roquefort', 'suco de uva', 'brócolis',
       'azeite de oliva', 'abacaxi', 'ovo', 'ervilha', 'pimentão',
       'suco de maracujá', 'alho', 'queijo cheddar', 'chá gelado', 'mel',
       'berinjela', 'abobrinha', 'queijo coalho grelhado',
       'suco de abacaxi', 'alcaparra', 'lentilha', 'ricota', 'cebolinha',
  

In [10]:
df_item_pedido["descItem"] = df_item_pedido["descItem"].replace("sabor catupiry", "catupiry")
df_item_pedido["descItem"] = df_item_pedido["descItem"].replace("massa final", "massa fina")
df_item_pedido["descItem"] = df_item_pedido["descItem"].astype("category")
df_item_pedido["descItem"].unique()

['refrigerante', 'borda tradicional', 'pepperoni', 'orégano', 'frango', ..., 'beterraba', 'castanhas', 'cereja', 'abacate', 'uva passa']
Length: 84
Categories (84, object): ['abacate', 'abacaxi', 'abobrinha', 'alcaparra', ..., 'tomate seco', 'uva passa', 'vinho tinto', 'água com gás']

In [11]:
df_item_pedido["idPedido"].nunique()

1106

In [12]:
df_item_pedido.info()

# Finalizando verificação da tabela

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10484 entries, 0 to 10483
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   idPedido      10484 non-null  int64   
 1   descTipoItem  10484 non-null  category
 2   descItem      10484 non-null  category
dtypes: category(2), int64(1)
memory usage: 105.6 KB


In [13]:
# Iniciando a verificação da tabela df_produto

df_produto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 85 entries, 0 to 84
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   descItem  85 non-null     object 
 1   vlPreco   85 non-null     float64
dtypes: float64(1), object(1)
memory usage: 1.5+ KB


In [14]:
df_produto["descItem"].unique()

array(['abacate', 'abacaxi', 'abobrinha', 'alcaparra', 'alho',
       'alho-poró', 'amêndoas', 'anchova', 'anchova em conserva', 'atum',
       'azeite de oliva', 'azeitona', 'bacon', 'berinjela', 'beterraba',
       'borda tradicional', 'brócolis', 'calabresa', 'camarão',
       'carne moída', 'carne seca', 'castanhas', 'catupiry', 'cebola',
       'cebola caramelizada', 'cebolinha', 'cereja', 'cerveja', 'cheddar',
       'chá gelado', 'cogumelos', 'cream cheese', 'ervilha', 'espinafre',
       'frango', 'gorgonzola', 'grão de bico', 'lentilha', 'limonada',
       'linguiça', 'linguiça calabresa defumada', 'massa final',
       'massa grossa', 'massa integral', 'massa tradicional', 'mel',
       'milho', 'mussarela', 'nozes', 'orégano', 'ovo', 'palmito',
       'parmesão', 'pepperoni', 'picles', 'pimenta biquinho',
       'pimenta calabresa', 'pimentão', 'pimentão assado', 'presunto',
       'provolone', 'pêssego', 'queijo brie', 'queijo cheddar',
       'queijo coalho', 'queijo coalh

In [15]:
df_produto["descItem"] = df_produto["descItem"].replace("massa final", "massa fina")
df_produto["descItem"] = df_produto["descItem"].replace("sabor catupiry", "catupiry")
df_produto["descItem"] = df_produto["descItem"].astype("category")
df_produto["descItem"].unique()

['abacate', 'abacaxi', 'abobrinha', 'alcaparra', 'alho', ..., 'tomate', 'tomate seco', 'uva passa', 'vinho tinto', 'água com gás']
Length: 84
Categories (84, object): ['abacate', 'abacaxi', 'abobrinha', 'alcaparra', ..., 'tomate seco', 'uva passa', 'vinho tinto', 'água com gás']

In [16]:
df_produto["vlPreco"].min()

0.0

In [17]:
df_produto[df_produto["vlPreco"] <= 0.0]

# Verificando qual produto não custa nada. 
# Minha suspeita (depois confirmada) é que esse produto se referia a borda ou massa tradicional,
# caso o cliente não quisesse pagar nenhum valor adicional.

Unnamed: 0,descItem,vlPreco
15,borda tradicional,0.0


In [18]:
df_produto["vlPreco"].max()

13.75

In [19]:
df_produto[df_produto["vlPreco"] >= 13.75]

Unnamed: 0,descItem,vlPreco
43,massa integral,13.75


In [20]:
# Finalizada a verificação da tabela df_produto

# Iniciando a verificação da tabela df_pedido

In [21]:
df_pedido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1106 entries, 0 to 1105
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   idPedido   1106 non-null   int64 
 1   dtPedido   1106 non-null   object
 2   flKetchup  1097 non-null   object
 3   descUF     1106 non-null   object
 4   txtRecado  538 non-null    object
dtypes: int64(1), object(4)
memory usage: 43.3+ KB


In [22]:
df_pedido["dtPedido"] = pd.to_datetime(df_pedido["dtPedido"], utc=True).dt.tz_convert("Brazil/Acre")
df_pedido["dtPedido"]

0      2023-05-11 05:59:33-05:00
1      2023-05-11 06:23:42-05:00
2      2023-05-11 06:24:29-05:00
3      2023-05-11 06:29:39-05:00
4      2023-05-11 06:31:30-05:00
                  ...           
1101   2023-05-25 11:47:40-05:00
1102   2023-05-25 11:55:35-05:00
1103   2023-05-25 12:07:05-05:00
1104   2023-05-25 13:18:02-05:00
1105   2023-05-25 13:27:12-05:00
Name: dtPedido, Length: 1106, dtype: datetime64[ns, Brazil/Acre]

In [23]:
df_pedido["flKetchup"].unique()

array([nan, True, False], dtype=object)

In [24]:
df_pedido["flKetchup"] = df_pedido["flKetchup"].fillna(False)
df_pedido["flKetchup"].value_counts()

False    585
True     521
Name: flKetchup, dtype: int64

In [26]:
# Por ora, acredito que os dados estejam suficientemente limpos. 
# Quaisquer alterações posteriores podem ser feitas pelo Power BI e documentadas aqui. 
# Hora de salvar os arquivos. 
# E sim, irei salvá-lo separadamente.

df_item_pedido.to_csv("item_pedido_limpo.csv", sep=";")
df_produto.to_csv("produto_limpo.csv", sep=";")
df_pedido.to_csv("pedido_limpo.csv", sep=";")

# Os separadores são importantes. Algumas mensagens tem vírgula, 
# então deixar o separador padrão vai confundir o Power BI.

### Enquanto isso, no Power BI...

Na verdade, não houveram grandes diferenças em termos de organização dos dados no Power BI.
Separei a coluna dtPedido da tabela Pedido em três outras colunas: a coluna DataPedido, com o dia, mês e ano; a coluna HoraPedido, com o horário de cada pedido; e a coluna DiaPedido, com o dia da semana correspondente de cada pedido.

Além disso, o Power BI não reconheceu os decimais dos valores, uma vez que Python faz uso de ponto e o programa faz uso de vírgula. Isso também foi solucionado por meio de Power Query.