### Desenvolvendo regressão para prever faturamento

In [None]:
#garantido a instalancao das bibliotecas necessarias no mesmo ambiente do notebook
import sys
!{sys.executable} -m pip install pandas sqlalchemy psycopg2-binary



Collecting sqlalchemy
  Downloading sqlalchemy-2.0.45-cp314-cp314-win_amd64.whl.metadata (9.8 kB)
Collecting psycopg2-binary
  Downloading psycopg2_binary-2.9.11-cp314-cp314-win_amd64.whl.metadata (5.1 kB)
Downloading sqlalchemy-2.0.45-cp314-cp314-win_amd64.whl (2.1 MB)
   ---------------------------------------- 0.0/2.1 MB ? eta -:--:--
   ---------------------------------------- 2.1/2.1 MB 17.5 MB/s eta 0:00:00
Downloading psycopg2_binary-2.9.11-cp314-cp314-win_amd64.whl (2.8 MB)
   ---------------------------------------- 0.0/2.8 MB ? eta -:--:--
   ---------------------------------------- 2.8/2.8 MB 19.7 MB/s eta 0:00:00
Installing collected packages: sqlalchemy, psycopg2-binary

   ---------------------------------------- 0/2 [sqlalchemy]
   ---------------------------------------- 0/2 [sqlalchemy]
   ---------------------------------------- 0/2 [sqlalchemy]
   ---------------------------------------- 0/2 [sqlalchemy]
   ---------------------------------------- 0/2 [sqlalchemy]
  

In [3]:
#importando as bibliotecas
import pandas as pd
from sqlalchemy import create_engine


In [8]:
#criando acesso ao banco de dados postgreSQL
engine = create_engine(
    "postgresql+psycopg2://postgres:postgres@localhost:5432/lanchoneteprototipo"
)


In [29]:
#teste
pd.read_sql("SELECT 1", engine)


Unnamed: 0,?column?
0,1


In [30]:
#Query que usei para consultar os dados da tabela fato e dimensao
query = """
select
	IP.id_item,
	IP.id_pedido,
	IP.id_produto,
	IP.quantidade,
	IP.preco_unitario,
	Pe.data_hora,
	Pe.tipo_entrega,
	Po.nome as nome_produto,
	Po.preco AS PRECOPRODUTO
from
	itens_pedido IP
LEFT JOIN pedidos Pe on IP.id_pedido = Pe.id_pedido
LEFT JOIN produtos Po on IP.id_produto = Po.id_produto
"""

#Carregando os dados em um DataFrame
df = pd.read_sql(query, engine)


In [31]:
#Visualizando os dados carregados
df.head(10000)
#df.info()


Unnamed: 0,id_item,id_pedido,id_produto,quantidade,preco_unitario,data_hora,tipo_entrega,nome_produto,precoproduto
0,1,1,9,2,24.0,2025-10-01 18:23:06,ENTREGA,X-A Moda Frango,24.0
1,2,1,33,1,2.0,2025-10-01 18:23:06,ENTREGA,Tomate,2.0
2,3,2,15,1,6.0,2025-09-09 17:05:06,BALCAO,Fanta Laranja 600ml,6.0
3,4,2,9,2,24.0,2025-09-09 17:05:06,BALCAO,X-A Moda Frango,24.0
4,5,2,13,2,15.0,2025-09-09 17:05:06,BALCAO,Guaraná 2L,15.0
...,...,...,...,...,...,...,...,...,...
2961,2962,999,7,2,21.0,2025-09-17 04:25:06,ENTREGA,X-Calafrango,21.0
2962,2963,999,31,2,2.0,2025-09-17 04:25:06,ENTREGA,Milho,2.0
2963,2964,999,3,1,20.0,2025-09-17 04:25:06,ENTREGA,X-Bacon,20.0
2964,2965,1000,19,1,4.0,2025-09-09 11:35:06,BALCAO,Água com Gás,4.0


In [32]:
#Convertendo data
df["data_hora"] = pd.to_datetime(df["data_hora"])
df["data"] = df["data_hora"].dt.date
df["dia_semana"] = df["data_hora"].dt.weekday  # 0 = segunda


In [33]:
#A tabela fato foi modelada no nível de item do pedido.
#A taxa de entrega é uma informação do pedido, então garanti que ela fosse aplicada apenas uma vez por id_pedido, evitando duplicação de receita.

#duplicated(id_pedido) == False → primeira ocorrência do pedido
df['taxa_entrega'] = 0
df.loc[
    (df['tipo_entrega'] == 'Entrega') &
    (df.duplicated('id_pedido') == False),
    'taxa_entrega'
] = 5


In [34]:
#Calculando valor por item
df["valor_item"] = df["quantidade"] * df["preco_unitario"]
df['valor_total'] = df['valor_item'] + df['taxa_entrega']


In [36]:
#Criando df final com faturamento por dia
#Assim o output será data | faturamento_diario
faturamento_diario = (
    df
    .groupby("data", as_index=False)["valor_total"]
    .sum()
)

faturamento_diario.head(10000)

Unnamed: 0,data,valor_total
0,2025-09-06,310.0
1,2025-09-07,1932.0
2,2025-09-08,1603.5
3,2025-09-09,2044.0
4,2025-09-10,1615.0
5,2025-09-11,2025.5
6,2025-09-12,1702.5
7,2025-09-13,2680.0
8,2025-09-14,1414.0
9,2025-09-15,1273.5


In [38]:
# garante que a data não tem hora
df["data"] = pd.to_datetime(df["data"]).dt.date

pedido = (
    df
    .groupby(["id_pedido", "data"], as_index=False)
    .agg(
        valor_itens=("quantidade", lambda x: (x * df.loc[x.index, "preco_unitario"]).sum()),
        tipo_entrega=("tipo_entrega", "first")
    )
)

pedido["taxa_entrega"] = (pedido["tipo_entrega"] == "Entrega") * 5
pedido["valor_pedido"] = pedido["valor_itens"] + pedido["taxa_entrega"]


In [40]:
faturamento_diario = (
    pedido
    .groupby("data", as_index=False)["valor_pedido"]
    .sum()
)

faturamento_diario.head(10000)

Unnamed: 0,data,valor_pedido
0,2025-09-06,310.0
1,2025-09-07,1932.0
2,2025-09-08,1603.5
3,2025-09-09,2044.0
4,2025-09-10,1615.0
5,2025-09-11,2025.5
6,2025-09-12,1702.5
7,2025-09-13,2680.0
8,2025-09-14,1414.0
9,2025-09-15,1273.5
