# Manipulando o primeiro arquivo (bPedidos)

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Abrindo o arquivo bPedidos.

df1 = pd.read_csv('bPedidos.csv')

In [3]:
# Verificando a disposição da tabela.

df1.head()

Unnamed: 0,order_id,date,time
0,1,2015-01-01,11:38:36
1,2,2015-01-01,11:57:40
2,3,2015-01-01,12:12:28
3,4,2015-01-01,12:16:31
4,5,2015-01-01,12:21:30


In [4]:
# Verificando existência de valores ausentes.

df1.isnull().sum()

order_id    0
date        0
time        0
dtype: int64

In [5]:
# Verificando a duplicidade na coluna que deve conter valores exclusivos.

df1.duplicated(subset = ['order_id']).sum()

0

In [6]:
# Verificando a tipagem das colunas.

df1.dtypes

order_id     int64
date        object
time        object
dtype: object

In [7]:
# As colunas date e time devem ser tipadas para data.

df1['date'] = pd.to_datetime(df1['date'])
df1['time'] = pd.to_datetime(df1['time'], format='%H:%M:%S')

In [8]:
# Verificando se as colunas date e time estão tipadas corretamente.

df1.dtypes

order_id             int64
date        datetime64[ns]
time        datetime64[ns]
dtype: object

In [9]:
# Traduzindo o nome das colunas para finalizar.

df1.rename(columns = {'order_id' : 'id_pedido','date': 'data_pedido','time' : 'horario_pedido'}, inplace = True)

In [10]:
# Visualizando a primeira tabela atualizada.

df1.head()

Unnamed: 0,id_pedido,data_pedido,horario_pedido
0,1,2015-01-01,1900-01-01 11:38:36
1,2,2015-01-01,1900-01-01 11:57:40
2,3,2015-01-01,1900-01-01 12:12:28
3,4,2015-01-01,1900-01-01 12:16:31
4,5,2015-01-01,1900-01-01 12:21:30


# Manipulando o segundo arquivo (Detalhes_Pedidos)

In [11]:
# Abrindo o arquivo bDetalhes_Pedidos.

df2 = pd.read_csv('bDetalhes_Pedidos.csv')

In [12]:
# Verificando a disposição da tabela.

df2.head()

Unnamed: 0,order_details_id,order_id,pizza_id,quantity
0,1,1,hawaiian_m,1
1,2,2,classic_dlx_m,1
2,3,2,five_cheese_l,1
3,4,2,ital_supr_l,1
4,5,2,mexicana_m,1


In [13]:
# Verificando existência de valores ausentes.

df2.isnull().sum()

order_details_id    0
order_id            0
pizza_id            0
quantity            0
dtype: int64

In [14]:
# Como temos uma coluna quantitativa na tabela, é importante verificar sua média e os valores máximo e mínimo
# para verificar a existência de outliers
df2['quantity'].describe()

count    48620.000000
mean         1.019622
std          0.143077
min          1.000000
25%          1.000000
50%          1.000000
75%          1.000000
max          4.000000
Name: quantity, dtype: float64

Os valores encontrados são plausíveis, portanto, não são encontrados outliers.

In [15]:
# Dá visualização dos dados, conclui-se que a coluna 'order_details_id'é um registro individual de cada pizza, 
# dentro de cada pedido, ou seja, é apenas um índice para a Tabela.
# Portanto, não será usada para Análise, podendo ser removida
df2 = df2.drop(columns=['order_details_id'])

In [16]:
# Por fim, traduzindo o nome das colunas
df2.rename(columns = {'order_id' : 'id_pedido','pizza_id': 'id_pizza','quantity' : 'quantidade'}, inplace = True)

In [17]:
# Visualizando a segunda tabela atualizada.

df2.head()

Unnamed: 0,id_pedido,id_pizza,quantidade
0,1,hawaiian_m,1
1,2,classic_dlx_m,1
2,2,five_cheese_l,1
3,2,ital_supr_l,1
4,2,mexicana_m,1


# Manipulando o terceiro arquivo (Pizzas)

In [18]:
# Abrindo o arquivo bPizzas.

df3 = pd.read_csv('bPizzas.csv')

In [19]:
# Verificando a disposição da tabela.

df3.head()

Unnamed: 0,pizza_id,pizza_type_id,size,price
0,bbq_ckn_s,bbq_ckn,S,12.75
1,bbq_ckn_m,bbq_ckn,M,16.75
2,bbq_ckn_l,bbq_ckn,L,20.75
3,cali_ckn_s,cali_ckn,S,12.75
4,cali_ckn_m,cali_ckn,M,16.75


In [20]:
# Verificando existência de valores ausentes.

df3.isnull().sum()

pizza_id         0
pizza_type_id    0
size             0
price            0
dtype: int64

In [21]:
# Para este caso, verificamos apenas a duplicidade na coluna de pizza_id, uma vez que as outras podem e vão se repetir.

df3.duplicated(subset = ['pizza_id']).sum()

0

In [22]:
# Verificando agora os preços das pizzas (Variável Quantitativa), para encontrar possíveis outliers

df3['price'].describe()

count    96.000000
mean     16.440625
std       4.090266
min       9.750000
25%      12.500000
50%      16.250000
75%      20.250000
max      35.950000
Name: price, dtype: float64

Novamente, valores plausíveis, portanto, sem outliers

In [23]:
# Importante também, verificar os tamanhos encontrados na tabela (em busca de algum erro)

df3['size'].unique()

array(['S', 'M', 'L', 'XL', 'XXL'], dtype=object)

Tudo certo por aqui também, o único porém é que as siglas estão em inglês, portanto vamos substituir as letras para traduzí-las, seguindo o seguinte padrao:

S = Pequena/P; 

M = Média/M (se mantém);

L = Grande/G;

XL = Gigante/GG;

XXL = Extra Grande/XG;.


In [24]:
df3['size'] = (
    df3['size']
    .str.replace('XXL', 'XG', regex=True)
    .str.replace('XL', 'GG', regex=True)
    .str.replace('L', 'G', regex=True) 
    .str.replace('S', 'P', regex=True)
)

In [25]:
# Por fim, renomeando as colunas.
df3.rename(columns = {'pizza_id' : 'id_pizza','pizza_type_id' : 'id_tipo_pizza','size' : 'tamanho','price':'preço'}, 
           inplace = True)

In [26]:
# Visualizando a terceira tabela atualizada.

df3.head()

Unnamed: 0,id_pizza,id_tipo_pizza,tamanho,preço
0,bbq_ckn_s,bbq_ckn,P,12.75
1,bbq_ckn_m,bbq_ckn,M,16.75
2,bbq_ckn_l,bbq_ckn,G,20.75
3,cali_ckn_s,cali_ckn,P,12.75
4,cali_ckn_m,cali_ckn,M,16.75


# Manipulando o quarto e último arquivo (Tipos_Pizzas)

In [27]:
# Abrindo o arquivo bTipos_Pizzas.

df4 = pd.read_csv('bTipos_Pizza.csv',encoding = 'latin1')

In [28]:
# Verificando a disposição da tabela.

df4.head()

Unnamed: 0,pizza_type_id,name,category,ingredients
0,bbq_ckn,The Barbecue Chicken Pizza,Chicken,"Barbecued Chicken, Red Peppers, Green Peppers,..."
1,cali_ckn,The California Chicken Pizza,Chicken,"Chicken, Artichoke, Spinach, Garlic, Jalapeno ..."
2,ckn_alfredo,The Chicken Alfredo Pizza,Chicken,"Chicken, Red Onions, Red Peppers, Mushrooms, A..."
3,ckn_pesto,The Chicken Pesto Pizza,Chicken,"Chicken, Tomatoes, Red Peppers, Spinach, Garli..."
4,southw_ckn,The Southwest Chicken Pizza,Chicken,"Chicken, Tomatoes, Red Peppers, Red Onions, Ja..."


In [29]:
# Verificando existência de valores ausentes.

df4.isnull().sum()

pizza_type_id    0
name             0
category         0
ingredients      0
dtype: int64

In [30]:
# Verificando se há duplicidade nas colunas id_tipo_pizza e nome.

d1 = df4['pizza_type_id'].duplicated().sum()
d2 = df4['name'].duplicated().sum()
print(d1,d2)

0 0


Para o projeto em questão, não será utilizada a coluna de Ingredientes. Logo, ela já pode ser removida.

In [31]:
# Remoção da coluna ingredients

df4 = df4.drop(columns=['ingredients'])

A tradução dos nomes das pizzas para o português será feita diretamente na planilha Excel, utilizando PROCV para relacionar os IDs com seus respectivos nomes traduzidos.

Essa abordagem facilita a visualização e o entendimento dos dados durante a análise e a criação dos relatórios, além de preservar a consistência dos identificadores no banco de dados.

In [32]:
# Portanto, finalizaremos a parte de Python renomeando as colunas e exportando o último arquivo.

df4.rename(columns = {'pizza_type_id' : 'id_tipo_pizza', 'name' : 'nome_pizza', 'category' : 'categoria'}, inplace = True)

# Colunas Calculadas

Após realizar a limpeza e padronização de cada uma das tabelas do dataset Pizza Sales, esta seção é dedicada à criação das colunas calculadas necessárias para responder às perguntas do projeto.

# 1. Quantos clientes por dia a pizzaria teve?

Não será necessária coluna nova. Será respondida diretamente no Excel.

# 2. Quais os horários de pico de pedido?

In [33]:
# Para facilitar a análise será criada a coluna hora.
df1['hora'] = pd.to_datetime(df1['horario_pedido']).dt.hour

# Além disso, pode-se remover a coluna 'horario_pedido', pois ela nao será mais útil

df1 = df1.drop(columns=['horario_pedido'])

In [34]:
# Resultado da primeira planilha com a nova coluna hora.
df1.head()

Unnamed: 0,id_pedido,data_pedido,hora
0,1,2015-01-01,11
1,2,2015-01-01,11
2,3,2015-01-01,12
3,4,2015-01-01,12
4,5,2015-01-01,12


# 3. Quais são as pizzas mais vendidas (bestsellers)?

Não será necessária coluna nova. Será respondida diretamente no Excel.

# 4. Quantas pizzas normalmente há em um pedido?

In [35]:
# É necessário agrupar a quantidade por id_pedido (Ambos presentes na tabela bDetalhes_Pedidos) e adicionar essa nova coluna
# à tabela bPedidos.

qtd_pizzas = df2.groupby('id_pedido')['quantidade'].sum().reset_index()

# Nomeando a coluna que vai para bPedidos.

qtd_pizzas = qtd_pizzas.rename(columns={'quantidade': 'qtd_pizzas'})

# Adicionando a nova coluna em bPedidos com Left Join (Mantendo tudo dá primeira tabela)

df1 = df1.merge(qtd_pizzas, on='id_pedido', how='left')

In [36]:
# Visualizando o resultado.
df1.head()

Unnamed: 0,id_pedido,data_pedido,hora,qtd_pizzas
0,1,2015-01-01,11,1
1,2,2015-01-01,11,5
2,3,2015-01-01,12,2
3,4,2015-01-01,12,1
4,5,2015-01-01,12,1


# Qual o faturamento do ano?

In [37]:
# Para isso devemos multiplicar as quantidades (Tabela bDetalhes_Pedidos) pelo preço de cada pizza (Tabela bPizzas)
# Portanto, será criada uma nova Tabela, permitindo a multiplicação de valores de tabelas diferentes.

df_vendas = df2.merge(df3[['id_pizza', 'preço']], on='id_pizza', how ='left')
df_vendas['faturamento_por_venda'] = df_vendas['quantidade'] * df_vendas['preço']


In [38]:
# Agora é possível visualizar o faturamento de cada venda, facilitando a obtenção do faturamento total
# Cálculo este, que será apresentado no Excel
df_vendas.head()

Unnamed: 0,id_pedido,id_pizza,quantidade,preço,faturamento_por_venda
0,1,hawaiian_m,1,13.25,13.25
1,2,classic_dlx_m,1,16.0,16.0
2,2,five_cheese_l,1,18.5,18.5
3,2,ital_supr_l,1,20.75,20.75
4,2,mexicana_m,1,16.0,16.0


# Deve-se retirar ou colocar em promoção alguma pizza?

Não será necessária coluna nova. Será respondida diretamente no Excel.

# Formatando o arquivo para o formato .xlsx

In [None]:
# Para finalizar o projeto, o arquivo é convertido para .xlsx e 
# todas tabelas vão para um único arquivo, que será aberto no Excel

with pd.ExcelWriter('Projeto_Pizzaria.xlsx', engine='openpyxl') as writer:
    df1.to_excel(writer, sheet_name='Pedidos', index=False)
    df2.to_excel(writer, sheet_name='Detalhes_Pedido', index=False)
    df3.to_excel(writer, sheet_name='Pizzas', index=False)
    df4.to_excel(writer, sheet_name='Tipos_Pizza', index=False)
    df_vendas.to_excel(writer, sheet_name='Vendas', index=False)