# ETL Food Service Data

ETL to transform food service data into a snowflake database.




In [1]:
import pandas as pd


In [2]:
data_local = pd.read_excel('../data/food_service_data.xlsx', sheet_name= 'vendas_loja')

data_local

Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30 00:00:00,Manhã,Liguiça Acebolada + Maionese,12,OK,-,-,2
1,2020-07-30 00:00:00,Manhã,Carne de Panela + Maionese,12,OK,-,-,-
2,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,-,-,2
3,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,-,-,-
4,2020-07-30 00:00:00,Noite,Frango + Maionese,12,OK,-,-,2
...,...,...,...,...,...,...,...,...
2178,2022-04-10 00:00:00,-,-,,OK,,,
2179,2022-04-11 00:00:00,-,-,,OK,,,
2180,2022-04-12 00:00:00,-,-,,OK,,,
2181,2022-04-13 00:00:00,-,-,,OK,,,


## Pre processing data

A first look at date shows that there are some '-' values in the data. Lest's fix that, and do some other cleaning.


In [3]:
# Replacing all '-' values with NaN

data_local = data_local.replace('-', pd.NA)

data_local


Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30 00:00:00,Manhã,Liguiça Acebolada + Maionese,12,OK,,,2
1,2020-07-30 00:00:00,Manhã,Carne de Panela + Maionese,12,OK,,,
2,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,2
3,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,
4,2020-07-30 00:00:00,Noite,Frango + Maionese,12,OK,,,2
...,...,...,...,...,...,...,...,...
2178,2022-04-10 00:00:00,,,,OK,,,
2179,2022-04-11 00:00:00,,,,OK,,,
2180,2022-04-12 00:00:00,,,,OK,,,
2181,2022-04-13 00:00:00,,,,OK,,,


In [4]:
# Removing all rows with NaN in 'Prato' column

data_local = data_local.dropna(subset=['Prato'])

data_local


Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30 00:00:00,Manhã,Liguiça Acebolada + Maionese,12,OK,,,2
1,2020-07-30 00:00:00,Manhã,Carne de Panela + Maionese,12,OK,,,
2,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,2
3,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,
4,2020-07-30 00:00:00,Noite,Frango + Maionese,12,OK,,,2
...,...,...,...,...,...,...,...,...
2012,2021-10-30 00:00:00,Manhã,parmê + fritas,18,OK,,,
2013,2021-10-30 00:00:00,Manhã,2x parmê + fritas,36,OK,,,
2014,2021-10-31 00:00:00,,IBMH,88,OK,,,
2016,2021-10-31 00:00:00,Manhã,só parmê + fritas,20,OK,,,


In [5]:
# Removing rows with NaN in 'Turno' column

data_local = data_local.dropna(subset=['Turno'])

data_local


Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30 00:00:00,Manhã,Liguiça Acebolada + Maionese,12,OK,,,2
1,2020-07-30 00:00:00,Manhã,Carne de Panela + Maionese,12,OK,,,
2,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,2
3,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,,,
4,2020-07-30 00:00:00,Noite,Frango + Maionese,12,OK,,,2
...,...,...,...,...,...,...,...,...
2008,2021-10-29 00:00:00,Manhã,strogonoff + batatinha palha,18,OK,,,
2009,2021-10-29 00:00:00,Manhã,carne moída + legumes + guaracamp,20,OK,,,
2012,2021-10-30 00:00:00,Manhã,parmê + fritas,18,OK,,,
2013,2021-10-30 00:00:00,Manhã,2x parmê + fritas,36,OK,,,


In [6]:
# Replacing NaN values in 'Valor R$', 'à Pagar', 'Taxa', 'Frete' columns with 0

data_local['Valor R$'] = data_local['Valor R$'].fillna(0)
data_local['à Pagar'] = data_local['à Pagar'].fillna(0)
data_local['Taxa'] = data_local['Taxa'].fillna(0)
data_local['Frete'] = data_local['Frete'].fillna(0)

data_local


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Valor R$'] = data_local['Valor R$'].fillna(0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['à Pagar'] = data_local['à Pagar'].fillna(0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Taxa'] = data_local['Taxa'].fillna(0)
A value is trying to be set on a copy of 

Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30 00:00:00,Manhã,Liguiça Acebolada + Maionese,12,OK,0.0,0.0,2.0
1,2020-07-30 00:00:00,Manhã,Carne de Panela + Maionese,12,OK,0.0,0.0,0.0
2,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,0.0,0.0,2.0
3,2020-07-30 00:00:00,Manhã,Frango + Maionese,12,OK,0.0,0.0,0.0
4,2020-07-30 00:00:00,Noite,Frango + Maionese,12,OK,0.0,0.0,2.0
...,...,...,...,...,...,...,...,...
2008,2021-10-29 00:00:00,Manhã,strogonoff + batatinha palha,18,OK,0.0,0.0,0.0
2009,2021-10-29 00:00:00,Manhã,carne moída + legumes + guaracamp,20,OK,0.0,0.0,0.0
2012,2021-10-30 00:00:00,Manhã,parmê + fritas,18,OK,0.0,0.0,0.0
2013,2021-10-30 00:00:00,Manhã,2x parmê + fritas,36,OK,0.0,0.0,0.0


In [12]:
# Replacing 'OK' values in 'pedido_pago' column with 1, and other values with 0

data_local['Pago'] = data_local['Pago'].replace('OK', 1)
data_local['Pago'] = data_local['Pago'].fillna(0)

data_local['Pago'].unique()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Pago'] = data_local['Pago'].replace('OK', 1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Pago'] = data_local['Pago'].fillna(0)


array([1., 0.])

In [8]:
# change data types

data_local['Data'] = pd.to_datetime(data_local['Data'], errors='coerce')

data_local['Valor R$'] = pd.to_numeric(data_local['Valor R$'], errors= 'coerce').fillna(0)

data_local['à Pagar'] = pd.to_numeric(data_local['à Pagar'], errors= 'coerce')

data_local['Taxa'] = pd.to_numeric(data_local['Taxa'], errors= 'coerce')

data_local['Frete'] = pd.to_numeric(data_local['Frete'], errors= 'coerce')

data_local['Pago'] = pd.to_numeric(data_local['Pago'], errors= 'coerce')

data_local

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Data'] = pd.to_datetime(data_local['Data'], errors='coerce')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['Valor R$'] = pd.to_numeric(data_local['Valor R$'], errors= 'coerce').fillna(0)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data_local['à Pagar'] = pd.to_numeric(dat

Unnamed: 0,Data,Turno,Prato,Valor R$,Pago,à Pagar,Taxa,Frete
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0
...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0
2013,2021-10-30,Manhã,2x parmê + fritas,36.0,1.0,0.0,0.0,0.0


In [9]:
data_local.dtypes


Data        datetime64[ns]
Turno               object
Prato               object
Valor R$           float64
Pago               float64
à Pagar            float64
Taxa               float64
Frete              float64
dtype: object

In [10]:
# Changing column names

data_local = data_local.rename(columns={
    'Prato': 'prato', 
    'Turno': 'turno', 
    'Data': 'data_venda', 
    'Valor R$': 'valor_prato', 
    'à Pagar': 'valor_pendente', 
    'Taxa': 'valor_adicional', 
    'Frete': 'valor_frete',
    'Pago': 'pedido_pago'})

data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0
...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0
2013,2021-10-30,Manhã,2x parmê + fritas,36.0,1.0,0.0,0.0,0.0


## Creating dimension tables

Now we will create dimension tables for the data. Our dimension tables will be:

- prato principal
- acompanhamento




### Analisys of 'prato' column before create dim_prato

In [11]:
# Analisys of 'prato'


data_local['prato'].info()

<class 'pandas.core.series.Series'>
Int64Index: 1685 entries, 0 to 2016
Series name: prato
Non-Null Count  Dtype 
--------------  ----- 
1685 non-null   object
dtypes: object(1)
memory usage: 26.3+ KB


In [12]:
data_local['prato'].describe()

count               1685
unique               623
top       parmê + fritas
freq                  77
Name: prato, dtype: object

In [13]:
# We have only 623 unique itens in 'prato', let's see them

unique_pratos = data_local['prato'].unique()

for prato in sorted(unique_pratos):
    print(prato)

 Parmegiana + Purê
 Porção Aipim + Calabresa
 alcatra + fritas e alcatra + purê
 omelete de espinafre + macarrão 
 pagou
 parmê + fritas e 2x guaracamp
 parmê + purê
 pavê kitkat + mousse ganache
*****
******
1 Batata Frita
1 Carré
1 Nuggets
1 porção de fritas
1/2 feijão
1/2 fritas extras
1/2 p. aipim frito
1/2 p. fritas
1/2 p. fritas + 2 extras parmegiana + 2 guaracamp
1/2 p. fritas + trufa
1/2 p.fritas + coca 350ml
1/2 porção de fritas
11 quentinhas 
1> empanado + maionese + empanado extra + guaracamp
1x - pavê kitkat e 1x - pavê morango
1x- pavê morango + costelinha
2 > a. parmegiana + purê
2 > parmê + fritas
2 Batata Frita
2 Frango Parmegiana
2 Frango Parmegiana 
2 Frangos Empanados
2 Frangos a parmegiana
2 Guaracamp
2 Kuat 2l
2 Nuggets
2 Pudim
2 parmê + salada + purê
2> parmegianas
2x - empanado + maionese
2x - parmê + fritas
2x - parmê + fritas e outra salaada
2x - parmê + maionese + salada
2x - pavê de kitkat
2x - porçao calabresa + aipim
2x -> Alcatra + fritas
2x -> Parmegiana 

Looks our 'prato' column needs some manipulation:

- Extract quantities;
- Remove non dish names;
- Clean and Padronize names.


#### Extract quantities from 'prato'

In [14]:
## Extract quantities from 'prato'
data_local['prato'] = data_local['prato'].str.replace('x', '', regex= False)

data_local['quantidade'] = data_local['prato'].str.split().str[0]

data_local


Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,Liguiça
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,Carne
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,Frango
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,Frango
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,Frango
...,...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,strogonoff
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,carne
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,parmê
2013,2021-10-30,Manhã,2 parmê + fritas,36.0,1.0,0.0,0.0,0.0,2


In [15]:
### Looking for 'quantidade'

unique_quantidade = data_local['quantidade'].unique()

for qtd in sorted(unique_quantidade): # Appying sorted, number will appear first
    print(qtd)



*****
******
1
1-
1/2
11
1>
2
2-
2->
2>
3
3->
3>
3parmê
4
4->
5
50
7
A.
Aipim
Alcatra
Almôndega
Batata
Bife
Bolo
Bolonhesa
Calabresa
Calabresas
Carne
Carre
Carré
Coca
Coca-Cola
Costela
Costelinha
Cubinho
Drumet
Empanada
Empanado
Empanado+
Empanadp
Ensopado
Estrogonofe
Etras
F.
Fanta
Feijoada
Feijão
Filé
Frando
Frango
Fritas
Gorjäoes
Grelhado
Grelhado+
Guaracamp
Guaraná
Kaut
Kuat
Lasanha
Liguiça
Linguiça
Lombo
Macarrão
Mouse
Mousse
Nuggets
P.
Panqueca
Parm\~e
Parmegiana
Parmê
Peie
Picadinho
Porçâo
Porção
Pote
Pudim
Refri
Refrigerante
Sobrecoa
Sprit
Stogronofe
Strogonofe
Strogonoff
Toscana
UBER
Uber
a.
a.parmegiana
abóbora
acebolado
acumulo
alcatra
bolo
calabresa
carne
carré
coca
contra-file
costeliha
costelinha
empanado
empanado+
f.
feijão
filé
frango
fritas
fígado
grelhado
kuat
ling.churrasco
linguiça
maracrrão
omelete
p.
pagou
parmegiana
parmê
parmê+
parmê+fritas
parmê+maionese
pavê
picadinho
strogonoff
só
trufas


In [16]:
### Adjust quantities

data_local['quantidade'] = data_local['quantidade'].replace({
    '-': '',
    '>': '',
    '1/2': '0.5',
    'parmê': '',
    '->': ''
}, regex= True)


In [17]:
unique_quantidade = data_local['quantidade'].unique()

for qtd in sorted(unique_quantidade): # Appying sorted, number will appear first
    print(qtd)


*****
******
+
+fritas
+maionese
0.5
1
11
2
3
4
5
50
7
A.
Aipim
Alcatra
Almôndega
Batata
Bife
Bolo
Bolonhesa
Calabresa
Calabresas
Carne
Carre
Carré
Coca
CocaCola
Costela
Costelinha
Cubinho
Drumet
Empanada
Empanado
Empanado+
Empanadp
Ensopado
Estrogonofe
Etras
F.
Fanta
Feijoada
Feijão
Filé
Frando
Frango
Fritas
Gorjäoes
Grelhado
Grelhado+
Guaracamp
Guaraná
Kaut
Kuat
Lasanha
Liguiça
Linguiça
Lombo
Macarrão
Mouse
Mousse
Nuggets
P.
Panqueca
Parm\~e
Parmegiana
Parmê
Peie
Picadinho
Porçâo
Porção
Pote
Pudim
Refri
Refrigerante
Sobrecoa
Sprit
Stogronofe
Strogonofe
Strogonoff
Toscana
UBER
Uber
a.
a.parmegiana
abóbora
acebolado
acumulo
alcatra
bolo
calabresa
carne
carré
coca
contrafile
costeliha
costelinha
empanado
empanado+
f.
feijão
filé
frango
fritas
fígado
grelhado
kuat
ling.churrasco
linguiça
maracrrão
omelete
p.
pagou
parmegiana
pavê
picadinho
strogonoff
só
trufas


In [18]:
### Convert column to number

data_local['quantidade'] = pd.to_numeric(data_local['quantidade'], errors= 'coerce').fillna(1)

data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
...,...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0
2013,2021-10-30,Manhã,2 parmê + fritas,36.0,1.0,0.0,0.0,0.0,2.0


In [19]:
### Adjust 'valor_prato' by 'quantidade'

data_local['valor_prato'] = data_local['valor_prato']/data_local['quantidade']

data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0
...,...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0
2013,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0


#### Transformations on main dish names

In [20]:
# Create 'prato_principal' column
data_local['prato_principal'] = data_local['prato'].str.split('+').str[0]

# Remove leading/trailing whitespace
data_local['prato_principal'] = data_local['prato_principal'].str.strip()

# Remove quantities and special characters from the beginning of 'prato_principal'
data_local['prato_principal'] = data_local['prato_principal'].str.replace(r'^(\d+(\s*\/\s*\d+)?|\d+\/\d+|\-|\->|>)\s*', '', regex=True)

# Remove any remaining leading/trailing whitespace
data_local['prato_principal'] = data_local['prato_principal'].str.strip()

data_local['prato_principal'] = data_local['prato_principal'].replace({
    '-':'',
    '->':'',
    '>':'',
}, regex=True).str.strip()

In [21]:
# Check for unique values to see if there are any remaining patterns
unique_pratos = data_local['prato_principal'].unique()


for prato in sorted(sorted(unique_pratos)):
    print(prato)

*****
******
A. Parmegiana
A. empanada
A. paremegiana
A. parmegiana
Aipim
Alcatra
Alcatra (parmegiana)
Alcatra a parmegiana
Alcatra acebolada
Alcatra parmegiana
Almôndega
Batata Frita
Bife
Bife a Parmegiana
Bife a rolé carne
Bife a rolé frango
Bife de Alcatra
Bife de Alcatra a Parmegiana
Bife à Rolé
Bolo de pote
Bolonhesa
Calabresa
Calabresa Acebolada
Calabresas
Carne Assada
Carne Assada com Molho
Carne Asssada
Carne Picadinha
Carne ao molho
Carne assada
Carne de Panela
Carne de panela
Carne moída
Carre
Carré
Carré etra
Coca 2,0L
Coca 2,5L
Coca 2L
Coca 350ml
CocaCola 2,5L
CocaCola 2L
CocaCola Lata
Costela
Costelinha
Costelinha Frita
Cubinho Emanado
Drumet
Empanada
Empanado
Empanado (etra)
Empanado (unidade)
Empanado de frango
Empanadp (só)
Ensopado
Ensopado de Frango
Ensopado de frango
Estrogonofe
Estrogonofe de Carne
Estrogonofe de Carne (completo)
Etras
F. de panela
Fanta 2 Lt.
Fanta 2L
Fanta 350ml
Fanta Uva 2L
Fanta Uva 350ml
Fanta guaraná 350ml
Feijoada
Feijão
Filé de Frango Empana

In [22]:
data_local['prato_principal'] = data_local['prato_principal'].replace({
    '*****': pd.NA,
    '******': pd.NA,
    'A. Parmegiana': str.upper('alcatra parmegiana'),
    'A. empanada': str.upper('alcatra empanada'),
    'A. paremegiana': str.upper('alcatra parmegiana'),
    'A. parmegiana': str.upper('alcatra parmegiana'),
    'Aipim': str.upper('porção de aipim'),
    'Alcatra': str.upper('alcatra acebolada'),
    'Alcatra (parmegiana)': str.upper('alcatra parmegiana'),
    'Alcatra a parmegiana': str.upper('alcatra parmegiana'),
    'Alcatra acebolada': str.upper('alcatra acebolada'),
    'Alcatra parmegiana': str.upper('alcatra parmegiana'),
    'Almôndega': str.upper('almôdega'),
    'Batata Frita': str.upper('porção de batata frita'),
    'Bife': str.upper('alcatra acebolada'),
    'Bife a Parmegiana': str.upper('alcatra parmegiana'),
    'Bife a rolé carne': str.upper('bife a rolé bovino'),
    'Bife a rolé frango': str.upper('bife a rolé frango'),
    'Bife de Alcatra': str.upper('alcatra acebolada'),
    'Bife de Alcatra a Parmegiana': str.upper('alcatra parmegiana'),
    'Bife à Rolé': str.upper('bife a rolé bovino'),
    'Bolo de pote':pd.NA,
    'Bolonhesa': str.upper('macarrão a bolonhesa'),
    'Calabresa': str.upper('calabresa acebolada'),
    'Calabresa Acebolada': str.upper('calabresa acebolada'),
    'Calabresas': str.upper('calabresa acebolada'),
    'Carne Assada': str.upper('carne assada'),
    'Carne Assada com Molho': str.upper('carne assada'),
    'Carne Asssada': str.upper('carne assada'),
    'Carne Picadinha': str.upper('carne assada'),
    'Carne ao molho': str.upper('carne assada'),
    'Carne assada': str.upper('carne assada'),
    'Carne de Panela': str.upper('carne de panela'),
    'Carne de panela': str.upper('carne de panela'),
    'Carne moída': str.upper('carne moída'),
    'Carre': str.upper('carré suíno'),
    'Carré': str.upper('carré suíno'),
    'Carré etra': str.upper('carré suíno'),
    'Coca 2,0L': pd.NA,
    'Coca 2,5L': pd.NA,
    'Coca 2L': pd.NA,
    'Coca 350ml': pd.NA,
    'CocaCola 2,5L': pd.NA,
    'CocaCola 2L': pd.NA,
    'CocaCola Lata': pd.NA,
    'Costela': str.upper('costelinha suína'),
    'Costelinha': str.upper('costelinha suína'),
    'Costelinha Frita': str.upper('costelinha suína'),
    'Cubinho Emanado': str.upper('cubinho de frango empanado'),
    'Drumet': str.upper('drumet de frango'),
    'Empanada': str.upper('filé de frango empanado'),
    'Empanado': str.upper('filé de frango empanado'),
    'Empanado (etra)': str.upper('filé de frango empanado unidade'),
    'Empanado (unidade)': str.upper('filé de frango empanado unidade'),
    'Empanado de frango': str.upper('filé de frango empanado'),
    'Empanadp (só)': str.upper('filé de frango empanado'),
    'Ensopado': str.upper('frango ensopado'),
    'Ensopado de Frango': str.upper('frango ensopado'),
    'Ensopado de frango': str.upper('frango ensopado'),
    'Estrogonofe': str.upper('strogonoff de frango'),
    'Estrogonofe de Carne': str.upper('strogonoff de carne'),
    'Estrogonofe de Carne (completo)': str.upper('strogonoff de carne'),
    'Etras': pd.NA,
    'F. de panela': str.upper('frango ensopado'),
    'Fanta 2 Lt.': pd.NA,
    'Fanta 2L': pd.NA,
    'Fanta 350ml': pd.NA,
    'Fanta Uva 2L': pd.NA,
    'Fanta Uva 350ml': pd.NA,
    'Fanta guaraná 350ml': pd.NA,
    'Feijoada': str.upper('feijoada'),
    'Feijão': str.upper('feijão unidade'),
    'Filé de Frango Empanado': str.upper('filé de frango empanado'),
    'Frando ensopado': str.upper('frango ensopado'),
    'Frango': str.upper('filé de frango empanado'),
    'Frango Empanado': str.upper('filé de frango empanado'),
    'Frango Grelhado': str.upper('filé de frango grelhado'),
    'Frango Parmegiana': str.upper('frango a parmegiana'),
    'Frango a parmegiana': str.upper('frango a parmegiana'),
    'Frango ao Molho': str.upper('frango ensopado'),
    'Frango empanado': str.upper('filé de frango empanado'),
    'Frango ensopado': str.upper('frango ensopado'),
    'Frangos Empanados': str.upper('filé de frango empanado'),
    'Frangos a parmegiana': str.upper('frango a parmegiana'),
    'Fritas': str.upper('porção de batata frita'),
    'Gorjäoes de Frango': str.upper('Gorjão de Frango'),
    'Grelhado': str.upper('filé de frango grelhado'),
    'Guaracamp': pd.NA,
    'Guaracamps': pd.NA,
    'Guaraná 350ml': pd.NA,
    'Kaut 2L': pd.NA,
    'Kuat 2L': pd.NA,
    'Kuat 2l': pd.NA,
    'Lasanha': pd.NA,
    'Liguiça Acebolada': str.upper('calabresa acebolada'),
    'Linguiça': str.upper('calabresa acebolada'),
    'Linguiça Acebolada': str.upper('calabresa acebolada'),
    'Lombo': str.upper('lombo suíno'),
    'Macarrão': str.upper('macarrão a bolonhesa'),
    'Macarrão à Bolonhesa': str.upper('macarrão a bolonhesa'),
    'Mouse Chocolate c/Maracujá': pd.NA,
    'Mousse': pd.NA,
    'Nuggets': str.upper('Nuggets'),
    'P. Calabresa': str.upper('calabresa acebolada'),
    'Panqueca': str.upper('panqueca a bolonhesa'),
    'Panqueca a Bolonhesa': str.upper('panqueca a bolonhesa'),
    'Parm\~e': str.upper('frango a parmegiana'),
    'Parmegiana': str.upper('frango a parmegiana'),
    'Parmegiana (etra)': str.upper('frango a parmegiana unidade'),
    'Parmegiana de alcatra': str.upper('alcatra parmegiana'),
    'Parmegiana de frango': str.upper('frango a parmegiana'),
    'Parmê': str.upper('frango a parmegiana'),
    'Peie': str.upper('Peixe empanado'),
    'Peie Empanado': str.upper('Peixe empanado'),
    'Picadinho de Carne': str.upper('picadinho de carne'),
    'Porçâo Cubinhos de Frango': str.upper('cubinho de frango empanado'),
    'Porção  Fritas': str.upper('porção de batata frita'),
    'Porção Aipim': str.upper('porção de aipim'),
    'Porção Calabresa': str.upper('calabresa acebolada'),
    'Porção Cubinho Emanado': str.upper('cubinho de frango empanado'),
    'Porção Frango a Passarinho': str.upper('frango a passarinho'),
    'Porção Fritas': str.upper('porção de batata frita'),
    'Porção Salgadinho': str.upper('porção de salgadinhos'),
    'Porção Salgadinhos': str.upper('porção de salgadinhos'),
    'Porção Sardinha': str.upper('porção de sardinha'),
    'Porção aipim': str.upper('porção de aipim'),
    'Porção de Fritas': str.upper('porção de batata frita'),
    'Porção de Salgadinho': str.upper('porção de salgadinhos'),
    'Porção de Sardinha': str.upper('porção de sardinha'),
    'Porção de aipim': str.upper('porção de aipim'),
    'Pote Sorvete 2L': pd.NA,
    'Pudim':pd.NA,
    'Refri 2L': pd.NA,
    'Refrigerante 2L': pd.NA,
    'Refrigerante Sabores 1,5L': pd.NA,
    'Sobrecoa': str.upper('sobrecoxa assada'),
    'Sobrecoa Assada': str.upper('sobrecoxa assada'),
    'Sobrecoa Frita': str.upper('sobrecoxa frita'),
    'Sobremesa':pd.NA,
    'Sprit Lata': pd.NA,
    'Sprit Lata 350ml': pd.NA,
    'Stogronofe de Frango': str.upper('strogonoff de frango'),
    'Strogonofe de Carne': str.upper('strogonoff de carne'),
    'Strogonofe de Frango': str.upper('strogonoff de frango'),
    'Strogonoff': str.upper('strogonoff de frango'),
    'Strogonoff (puro)': str.upper('strogonoff de frango unidade'),
    'Strogonoff Carne': str.upper('strogonoff de carne'),
    'Strogonoff Frango': str.upper('strogonoff de frango'),
    'Strogonoff carne': str.upper('strogonoff de carne'),
    'Strogonoff de Carne': str.upper('strogonoff de carne'),
    'Strogonoff de carne': str.upper('strogonoff de carne'),
    'Strogonoff de frango': str.upper('strogonoff de frango'),
    'Strogonoff frango': str.upper('strogonoff de frango'),
    'Toscana': str.upper('linguiça de churrasco acebolada'),
    'UBER': pd.NA,
    'Uber': pd.NA,
    'a. parmegiana': str.upper('alcatra parmegiana'),
    'a. parmê': str.upper('alcatra parmegiana'),
    'a.parmegiana': str.upper('alcatra parmegiana'),
    'a.parmê': str.upper('alcatra parmegiana'),
    'abóbora':pd.NA,
    'acebolado':pd.NA,
    'acumulo': pd.NA,
    'alcatra': str.upper('alcatra acebolada'),
    'alcatras': str.upper('alcatra acebolada'),
    'bolo de pote':pd.NA,
    'calabresa': str.upper('calabresa acebolada'),
    'carne': str.upper('carne de panela'),
    'carne de panela': str.upper('carne de panela'),
    'carne moída': str.upper('carne de panela'),
    'carne picadinha': str.upper('picadinho de carne'),
    'carré': str.upper('carré suíno'),
    'coca 2L': pd.NA,
    'coca 350ml': pd.NA,
    'contrafile': str.upper('contrafilé bovino'),
    'costeliha': str.upper('costelinha suína'),
    'costelinha': str.upper('costelinha suína'),
    'costelinha salada/fritas/maionese': str.upper('costelinha suína'),
    'empanado': str.upper('filé de frango empanado'),
    'empanado e parmê':pd.NA,
    'empanado etra': str.upper('filé de frango empanado unidade'),
    'empanados': str.upper('filé de frango empanado'),
    'escondidinho': str.upper('escondidinho'),
    'etra f. parmegiana': str.upper('frango a parmegiana unidade'),
    'f. parmegiana': str.upper('frango a parmegiana'),
    'f. parmergiana': str.upper('frango a parmegiana'),
    'f. parmê': str.upper('frango a parmegiana'),
    'feijão': str.upper('feijão unidade'),
    'feijão branco': str.upper('feijão branco'),
    'filé empanado': str.upper('filé de frango empanado'),
    'frango': str.upper('filé de frango empanado'),
    'frango a parmegiana': str.upper('frango a parmegiana'),
    'frango assado': str.upper('frango assado'),
    'fritas': str.upper('porção de batata frita'),
    'fritas etras': str.upper('porção de batata frita'),
    'fígado': str.upper('fígado bovino acebolado'),
    'grelhado': str.upper('filé de frango grelhado'),
    'kuat 2L': pd.NA,
    'ling.churrasco': str.upper('linguíça de churrasco acebolada'),
    'linguiça': str.upper('calabresa acebolada'),
    'maracrrão': str.upper('macarrão a bolonhesa'),
    'nuggets': str.upper('Nuggets'),
    'omelete': str.upper('omelete de queijo'),
    'omelete de espinafre': str.upper('omelete de espinafre'),
    'omelete de queijo': str.upper('omelete de queijo'),
    'omelete etra e omelete': str.upper('omelete de queijo'),
    'p. aipim frito': str.upper('porção de aipim'),
    'p. fritas': str.upper('porção de batata frita'),
    'p.fritas': str.upper('porção de batata frita'),
    'pagou': pd.NA,
    'parmegiana': str.upper('frango a parmegiana'),
    'parmegiana etra': str.upper('frango a parmegiana unidade'),
    'parmegiana etra 2': pd.NA,
    'parmegianas': str.upper('frango a parmegiana unidade'),
    'parmê': str.upper('frango a parmegiana'),
    'parmê e omelete etra': pd.NA,
    'parmê e salada verda': str.upper('frango a parmegiana'),
    'parmê etra': str.upper('frango a parmegiana unidade'),
    'pavê de kitkat': pd.NA,
    'pavê de kitkat e 1 de limão': pd.NA,
    'pavê kitkat': pd.NA,
    'pavê kitkat e 1  pavê morango': pd.NA,
    'pavê morango': pd.NA,
    'pavês': pd.NA,
    'picadinho': str.upper('picadingo de carne'),
    'porçao calabresa': str.upper('calabresa acebolada'),
    'porção de fritas': str.upper('porção de batata frita'),
    'quentinhas': pd.NA,
    'quentinhas de empanado': str.upper('filé de frango empanado'),
    'salgadinhos': str.upper('porção de salgadinhos'),
    'strogonoff': str.upper('strogonoff de frango'),
    'strogonoff de carne': str.upper('strogonoff de carne'),
    'strogonoff de frango': str.upper('strogonoff de frango'),
    'strogonoff e carré': pd.NA,
    'strogonoff e parmegiana': pd.NA,
    'só parmê': str.upper('frango a parmegiana unidade'),
    'trufas': pd.NA,
    'trufas 2': pd.NA
    })

In [23]:
data_local = data_local.dropna(subset=['prato_principal'])

In [24]:
unique_pratos = data_local['prato_principal'].unique()


for prato in sorted(sorted(unique_pratos)):
    print(prato)

ALCATRA ACEBOLADA
ALCATRA EMPANADA
ALCATRA PARMEGIANA
ALMÔDEGA
BIFE A ROLÉ BOVINO
BIFE A ROLÉ FRANGO
CALABRESA ACEBOLADA
CARNE ASSADA
CARNE DE PANELA
CARNE MOÍDA
CARRÉ SUÍNO
CONTRAFILÉ BOVINO
COSTELINHA SUÍNA
CUBINHO DE FRANGO EMPANADO
DRUMET DE FRANGO
ESCONDIDINHO
FEIJOADA
FEIJÃO BRANCO
FEIJÃO UNIDADE
FILÉ DE FRANGO EMPANADO
FILÉ DE FRANGO EMPANADO UNIDADE
FILÉ DE FRANGO GRELHADO
FRANGO A PARMEGIANA
FRANGO A PARMEGIANA UNIDADE
FRANGO A PASSARINHO
FRANGO ASSADO
FRANGO ENSOPADO
FÍGADO BOVINO ACEBOLADO
GORJÃO DE FRANGO
LINGUIÇA DE CHURRASCO ACEBOLADA
LINGUÍÇA DE CHURRASCO ACEBOLADA
LOMBO SUÍNO
MACARRÃO A BOLONHESA
NUGGETS
OMELETE DE ESPINAFRE
OMELETE DE QUEIJO
PANQUECA A BOLONHESA
PEIXE EMPANADO
PICADINGO DE CARNE
PICADINHO DE CARNE
PORÇÃO DE AIPIM
PORÇÃO DE BATATA FRITA
PORÇÃO DE SALGADINHOS
PORÇÃO DE SARDINHA
SOBRECOXA ASSADA
SOBRECOXA FRITA
STROGONOFF DE CARNE
STROGONOFF DE FRANGO
STROGONOFF DE FRANGO UNIDADE


In [25]:
data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade,prato_principal
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,CALABRESA ACEBOLADA
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,CARNE DE PANELA
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,FILÉ DE FRANGO EMPANADO
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,FILÉ DE FRANGO EMPANADO
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,FILÉ DE FRANGO EMPANADO
...,...,...,...,...,...,...,...,...,...,...
2008,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0,STROGONOFF DE FRANGO
2009,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0,CARNE DE PANELA
2012,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0,FRANGO A PARMEGIANA
2013,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0,FRANGO A PARMEGIANA


### dim_prato

In [26]:
dim_prato = pd.DataFrame()

dim_prato['prato_principal'] = sorted(data_local['prato_principal'].unique())

dim_prato['id_prato_principal'] = dim_prato.index + 1

dim_prato

Unnamed: 0,prato_principal,id_prato_principal
0,ALCATRA ACEBOLADA,1
1,ALCATRA EMPANADA,2
2,ALCATRA PARMEGIANA,3
3,ALMÔDEGA,4
4,BIFE A ROLÉ BOVINO,5
5,BIFE A ROLÉ FRANGO,6
6,CALABRESA ACEBOLADA,7
7,CARNE ASSADA,8
8,CARNE DE PANELA,9
9,CARNE MOÍDA,10


In [27]:
data_local = data_local.merge(dim_prato, on='prato_principal', how='left')

data_local = data_local.drop(columns=['prato_principal'])


data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade,id_prato_principal
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,7
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,9
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,20
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20
...,...,...,...,...,...,...,...,...,...,...
1541,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0,48
1542,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0,9
1543,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0,23
1544,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0,23


### Transformations on side dish names

In [28]:
# Create 'acompanhamento' column
data_local['acompanhamento'] = data_local['prato'].str.split('+').str[1]

# Remove leading/trailing whitespace
data_local['acompanhamento'] = data_local['acompanhamento'].str.strip()


data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade,id_prato_principal,acompanhamento
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,7,Maionese
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,9,Maionese
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,Maionese
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,20,Maionese
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,Maionese
...,...,...,...,...,...,...,...,...,...,...,...
1541,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0,48,batatinha palha
1542,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0,9,legumes
1543,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0,23,fritas
1544,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0,23,fritas


In [29]:
unique_acompanhamentos = data_local['acompanhamento'].astype(str).unique()

for x in unique_acompanhamentos:
    print(x)

Maionese
Purê
Batata
Salada
nan
Couve
Batata Corada
Batata Frita
Mainese
Salada de Alface e Tomate
Bastante Macarrão
Aipim
Salada de Legumes
Linguiça
Batata Frira
Couve-Flor
Fritas
Purê de batatas
Calabresa
Aipim Frito
Batatinha
fritas
batatinha
Molho branco
maionese
calabresa
calabresa (meia)
Costela (apenas)
Macarrão
Legumes
legumes
aipim
alface e tomate
purê
salada verde
Salada verde
Grelhado
Coca
Salada Verde
Ovos
fritass
legumes -3
fritas e Calabresa
fritas e A. Parmegiana
maionesw
docinhos 2
fritas e parmegiana
maiô
maionese e f. parmê
fritas e guaraná 350ml
maiô e 2-> alcatra
fritas e coca 350ml
maiô e fritas etras e grelhado etra
maionese e parmê
fritas , strogonoff e coca 2L
fritas , alcatra
fritas e 1 parmê
fritas e parmê etra
fritas, 1-> grelhado
maiô e 1-> empanado
purê e calabresa
fitas e um com maionese
purê > etra
fritas e alcatra
salada
fritas e outra salaada
aipim.
2 etras parmegiana
maionese.
guaracamp
omelete
fritas e empanada
fritas e strogonoff
fritas 2
salada e pa

In [30]:
data_local['acompanhamento'] = data_local['acompanhamento'].astype(str).replace({
    'Maionese': str.upper('maionese'),
    'Purê': str.upper('purê de batata'),
    'Batata': str.upper('batata frita'),
    'Salada': str.upper('salada de alface e tomante'),
    'nan': str.upper('sem acompanhamento'),
    'Couve': str.upper('couve'),
    'Batata Corada': str.upper('batata frita'),
    'Batata Frita': str.upper('batata frita'),
    'Mainese': str.upper('maionese'),
    'Salada de Alface e Tomate': str.upper('salada de alface e tomante'),
    'Bastante Macarrão': str.upper('sem acompanhamento'),
    'Aipim': str.upper('aipim frito'),
    'Salada de Legumes': str.upper('salada de legumes'),
    'Linguiça': str.upper('sem acompanhamento'),
    'Batata Frira': str.upper('batata frita'),
    'Couve-Flor': str.upper('salada de couve-flor'),
    'Fritas': str.upper('batata frita'),
    'Purê de batatas': str.upper('purê de batata'),
    'Calabresa': str.upper('sem acompanhamento'),
    'Aipim Frito': str.upper('aipim frito'),
    'Batatinha': str.upper('batatinha palha'),
    'fritas': str.upper('batata frita'),
    'batatinha': str.upper('batatinha palha'),
    'Molho branco': str.upper('molho branco'),
    'maionese': str.upper('maionese'),
    'calabresa':pd.NA,
    'calabresa (meia)': str.upper('sem acompanhamento'),
    'Costela (apenas)': str.upper('sem acompanhamento'),
    'Macarrão': str.upper('sem acompanhamento'),
    'Legumes': str.upper('salada de legumes'),
    'legumes': str.upper('salada de legumes'),
    'aipim': str.upper('aipim frito'),
    'alface e tomate': str.upper('salada de alface e tomante'),
    'purê': str.upper('purê de batata'),
    'salada verde': str.upper('salada de alface e tomante'),
    'Salada verde': str.upper('salada de alface e tomante'),
    'Grelhado': str.upper('sem acompanhamento'),
    'Coca': str.upper('sem acompanhamento'),
    'Salada Verde': str.upper('salada de alface e tomante'),
    'Ovos': str.upper('ovo frito'),
    'fritass': str.upper('batata frita'),
    'legumes -3': str.upper('salada de legumes'),
    'fritas e Calabresa': str.upper('batata frita'),
    'fritas e A. Parmegiana': str.upper('batata frita'),
    'maionesw': str.upper('maionese'),
    'docinhos 2': str.upper('sem acompanhamento'),
    'fritas e parmegiana': str.upper('batata frita'),
    'maiô': str.upper('maionese'),
    'maionese e f. parmê': str.upper('maionese'),
    'fritas e guaraná 350ml': str.upper('batata frita'),
    'maiô e 2-> alcatra': str.upper('maionese'),
    'fritas e coca 350ml': str.upper('batata frita'),
    'maiô e fritas etras e grelhado etra': str.upper('maionese'),
    'maionese e parmê': str.upper('maionese'),
    'fritas , strogonoff e coca 2L': str.upper('batata frita'),
    'fritas , alcatra': str.upper('batata frita'),
    'fritas e 1 parmê': str.upper('batata frita'),
    'fritas e parmê etra': str.upper('batata frita'),
    'fritas, 1-> grelhado': str.upper('batata frita'),
    'maiô e 1-> empanado': str.upper('maionese'),
    'purê e calabresa': str.upper('purê de batata'),
    'fitas e um com maionese': str.upper('maionese'),
    'purê > etra': str.upper('purê de batata'),
    'fritas e alcatra': str.upper('batata frita'),
    'salada': str.upper('salada de alface e tomante'),
    'fritas e outra salaada': str.upper('batata frita'),
    'aipim.': str.upper('aipim frito'),
    '2 etras parmegiana': str.upper('sem acompanhamento'),
    'maionese.': str.upper('maionese'),
    'guaracamp': str.upper('sem acompanhamento'),
    'omelete': str.upper('sem acompanhamento'),
    'fritas e empanada': str.upper('batata frita'),
    'fritas e strogonoff': str.upper('batata frita'),
    'fritas 2': str.upper('batata frita'),
    'salada e parmê': str.upper('salada de alface e tomante'),
    'fritas e parmê': str.upper('batata frita'),
    'fritas e maionese': str.upper('maionese'),
    'legumes e 1 porção de fritas': str.upper('batata frita'),
    'coca 2L': str.upper('sem acompanhamento'),
    'maiô e grelhado': str.upper('maionese'),
    'fritas e a. parmê': str.upper('batata frita'),
    'salada e omelete': str.upper('salada de alface e tomante'),
    'maiÔ': str.upper('maionese'),
    'fritas/maionese e costelinha': str.upper('maionese'),
    'fritas e 2 trufas': str.upper('batata frita'),
    'salada de legume': str.upper('salada de alface e tomante'),
    'maionesa': str.upper('maionese'),
    'legumes/maionese': str.upper('maionese'),
    'fritas e empanado': str.upper('batata frita'),
    'fritas, grelhado': str.upper('batata frita'),
    'batata doce': str.upper('salada de batata doce'),
    'macarrão': str.upper('sem acompanhamento'),
    'fritas.': str.upper('batata frita'),
    'friras': str.upper('batata frita'),
    'legumes e parmê': str.upper('salada de legumes'),
    'coca 350ml': str.upper('sem acompanhamento'),
    'fritas e omelete de queijo': str.upper('batata frita'),
    'fritas , empanado': str.upper('batata frita'),
    'maiô e fanta 350ml': str.upper('maionese'),
    'fritas 3': str.upper('batata frita'),
    'salada, costelinha, parmê': str.upper('salada de alface e tomante'),
    'fritas e guarana 1L': str.upper('batata frita'),
    'fritas e 2 guaracamp': str.upper('batata frita'),
    'beterraba': str.upper('salada de beterraba'),
    'trufa': str.upper('sem acompanhamento'),
    'purê/legumes': str.upper('purê de batata'),
    'legumes e costela': str.upper('salada de legumes'),
    'ovo': str.upper('ovo frito'),
    'fritas e costelinha': str.upper('batata frita'),
    'batatinha palha': str.upper('batatinha palha'),
    '<NA>': str.upper('sem acompanhamento')
})

In [31]:
unique_acompanhamentos = data_local['acompanhamento'].unique()

for x in unique_acompanhamentos:
    print(x)

MAIONESE
PURÊ DE BATATA
BATATA FRITA
SALADA DE ALFACE E TOMANTE
SEM ACOMPANHAMENTO
COUVE
AIPIM FRITO
SALADA DE LEGUMES
SALADA DE COUVE-FLOR
BATATINHA PALHA
MOLHO BRANCO
<NA>
OVO FRITO
SALADA DE BATATA DOCE
SALADA DE BETERRABA


In [32]:
data_local['acompanhamento'].fillna('SEM ACOMPANHAMENTO', inplace= True)

dim_acompanhamento = pd.DataFrame()

dim_acompanhamento['acompanhamento'] = sorted(data_local['acompanhamento'].unique())

dim_acompanhamento['id_acompanhamento'] = dim_acompanhamento.index + 1

dim_acompanhamento

Unnamed: 0,acompanhamento,id_acompanhamento
0,AIPIM FRITO,1
1,BATATA FRITA,2
2,BATATINHA PALHA,3
3,COUVE,4
4,MAIONESE,5
5,MOLHO BRANCO,6
6,OVO FRITO,7
7,PURÊ DE BATATA,8
8,SALADA DE ALFACE E TOMANTE,9
9,SALADA DE BATATA DOCE,10


In [33]:
data_local = data_local.merge(dim_acompanhamento, on='acompanhamento', how='left')

data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade,id_prato_principal,acompanhamento,id_acompanhamento
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,7,MAIONESE,5
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,9,MAIONESE,5
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,MAIONESE,5
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,20,MAIONESE,5
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,MAIONESE,5
...,...,...,...,...,...,...,...,...,...,...,...,...
1541,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0,48,BATATINHA PALHA,3
1542,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0,9,SALADA DE LEGUMES,13
1543,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0,23,BATATA FRITA,2
1544,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0,23,BATATA FRITA,2


In [34]:
data_local = data_local.drop(columns=['acompanhamento'])


data_local

Unnamed: 0,data_venda,turno,prato,valor_prato,pedido_pago,valor_pendente,valor_adicional,valor_frete,quantidade,id_prato_principal,id_acompanhamento
0,2020-07-30,Manhã,Liguiça Acebolada + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,7,5
1,2020-07-30,Manhã,Carne de Panela + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,9,5
2,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,5
3,2020-07-30,Manhã,Frango + Maionese,12.0,1.0,0.0,0.0,0.0,1.0,20,5
4,2020-07-30,Noite,Frango + Maionese,12.0,1.0,0.0,0.0,2.0,1.0,20,5
...,...,...,...,...,...,...,...,...,...,...,...
1541,2021-10-29,Manhã,strogonoff + batatinha palha,18.0,1.0,0.0,0.0,0.0,1.0,48,3
1542,2021-10-29,Manhã,carne moída + legumes + guaracamp,20.0,1.0,0.0,0.0,0.0,1.0,9,13
1543,2021-10-30,Manhã,parmê + fritas,18.0,1.0,0.0,0.0,0.0,1.0,23,2
1544,2021-10-30,Manhã,2 parmê + fritas,18.0,1.0,0.0,0.0,0.0,2.0,23,2
