# 0.0 Business Problem

## Estágio do projeto:
Ciclo 1: Pipeline de dados funcional de ponta a ponta, desde a coleta dos dados até o treinamento do modelo.

## 0.1 Cenário: 
O B7 Bar é um Snooker Bar localizado no Brasil, no estado de São Paulo e atua no setor de bares e restaurantes. Os principais produtos/serviços do B7 Snooker Bar são: aluguel de mesas de bilhar para utilização no local e venda de comidas e bebidas para consumo no local ou delivery.

Faz parte da rotina de atividades do gestor de um bar, fazer previsões de demanda para oferecer os produtos que os clientes desejam sem interrupções. Uma boa gestão de estoque requer uma previsão de demanda assertiva, no ramo de bares, esta tarefa deve estar muito bem alinhada com sazonalidades, datas comemorativas, e outros eventos dos mais variados tipos. Como você bem sabe, às sextas e sábados os barzinhos estão quase sempre cheios, também nem precisaríamos te informar que cervejas combinam perfeitamente com o calor, portanto em dias quentes, nós esperamos um fluxo maior de vendas de cerveja.

A empresa fez recentemente alguns cortes de horas extras e reduziu o horário de funcionamento no final do expediente. O conceito estragégico mudou de "até ultimo cliente", para "horário fixo de encerramento". Os gestores da empresa querem saber se o resultado financeiro foi positivo, sabendo-se que o corte com horas extras gerou 4000 reais em custos para a empresa.

A empresa B7 é um bar, e como todo bar, nos referimos ao valor total consumido pela mesa como "Comanda". Este termo irá se repetir bastante durante o projeto. Os dados são reais, coletados entre 02/01/2018 e 20/03/2020, a receita vinda do aluguel de mesas de bilhar está integralmente contido no dataset, já as vendas correspondem a 40% dos itens reais vendidos, filtrados de forma aleatória. O businessday da empresa é de terça à domingo.

## 0.2 Premissas:
1. A margem líquida global da empresa é de 10% do faturamento total, independente do ítem vendido, pressupõe-se que a margem líquida seja de 10%.

## 0.3 Estratégia da Solução:

###### 0.3.1 Objetivos:
1. Principais insights sobre as features mais importantes para o faturamento.
2. Saldo monetário gerado pela mudança de estragégia da empresa quanto ao horário de encerramento.
3. Qual será o faturamente total semanal imediatamente seguinte ao dataset? Qual será o faturamento total semanal dos produtos agregados por Classe 2.

###### 0.3.2 Proposta de Solução:

###### 0.3.3 Inputs:

###### 0.3.4 Outputs:


## 0.4 Sumário:

## 0.5 Resultados e Conclusão:

## 0.6 Significado das Features:

###### 0.6.1 bilhar:
1. No: ID da mesa aberta no sistema, é a 'key' da comanda do cliente no sistema, uma vêz que a comanda se encerra, este número nunca mais se repete.
2. Name: Número da mesa física no ambiente de atendimento.
3. Start Time: Horário de início da abertura da comanda do cliente.
4. In use: Tempo em que a comanda permaneceu aberta (tempo em uso no sistema).
5. Semana: Semana relativa do mês, a semana se inicia no dia 1, independente do dia semanal.
6. Turno: Os turnos são divididos em dois. 'Tarde': do início do expediente, até às 21 horas, 'Noite': das 21 horas até o término das atividades. O turno é definido de acordo com o horário de abertura da comanda.
7. Total Bilhar: Total pago de bilhar por comanda.
8. Pago: Valor total pago pela comanda, engloba os produtos consumidos e o aluguel do bilhar.
9. Preço/Hora: Custo do bilhar por hora. O bilhar é cobrado por hora e não por partida (ficha). Os preços podem variar de acordo com dias de semana, promoções e tamanho de mesa de bilhar (A casa conta com mesas de bilhar de tamanho oficial, semi-oficial, oficial americana, e universitárias.
10. Data: Data do início da abertura da comanda.

###### 0.6.2 produtos:
1. Time: Horário da venda do ítem.
2. Purchaser: Mesa física em que o produto foi servido.
3. Item: Nome do produto
4. Voucher: ID da mesa aberta no sistema, é a 'key' da comanda do cliente no sistema, uma vêz que a comanda se encerra, este número nunca mais se repete
5. Name: Número da mesa física no ambiente de atendimento.
6. Semana: Semana relativa do mês, a semana se inicia no dia 1, independente do dia semanal.
7. Turno: Os turnos são divididos em dois. 'Tarde': do início do expediente, até às 21 horas, 'Noite': das 21 horas até o término das atividades. O turno é definido de acordo com a abertura da comanda.
8. Classe 1: Classificação dos produtos segundo a sua natureza de consumo, diretamente relacionado aos setores, diferencia cozinha, bar, bilhar e etc.
9. Classe 2: Classificação dos produtos de acordo com o tipo de insumo que pode ou não ser necessário para sua manipulação, útil para identificar custos diretos. Exemplo: Porções quentes quase sempre são fritas, portanto utilizam gordura vegetal para o seu processamento. Interessante para poder trabalhar melhor a gestão de custos.
10. Classe 3: Classificação dos produtos de acordo com o nicho de clientes que atende, diferencia por exemplo cervejas Mainstream, Premium ou artesanais. Interessante para poder trabalhar melhor os direcionamentos de ações para melhorar as vendas.

###### 0.6.3 clima:
1. Data: Data de coleta.
2. Temperatura minima diária: Temperatura mínima coletada. 
3. Temp maxima diaria: Temperatura máxima coletada.
4. Vento constante máximo: Velocidade do vento máxima (nada se sabe sobre o critério do "constante/rajada".
5. Rajada de vento máxima: Rajada de vento máxima (nada se sabe sobre o critério do "constante/rajada").
6. Espessura de neve: 100% de dados ausentes.
7. Pressão: 100% de dados ausentes.
8. Ícone: 100% de dados ausentes.
9. Descrição: Classificação categórica qualitativa sobre a ocorrência ou não de: raios, chuvas, nevoeiros ou Outros.

# 1.0 Imports

###### 1.1 Importing libraries

In [45]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import time

tempo_agora = time.time() # Tempo inicial

###### 1.2 Loading datasets

In [46]:
bilhar = pd.read_csv('C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\bar_sales_forecast\\bilhar.csv')
produtos = pd.read_csv('C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\bar_sales_forecast\\produtos.csv')
clima = pd.read_csv('C:\\Users\\Notebook\\Google Drive\\Pessoal\\Projetos\\bar_sales_forecast\\clima.csv')

###### 1.3 Helper Functions

# 2.0 Data description and cleaning

## 2.1 Bilhar

### 2.1.1 General Analysis

###### 2.1.1.1 Looking dataset

In [47]:
bilhar.head(5)

Unnamed: 0,#No,Name,#Start Time,In Use,Semana,Turno,Total Bilhar,Pago,#Preço/Hora,Data
0,848,***Quarta1***,1/00:45,0:15,5,Noite,2.0,2.0,3.5,5/31/2017
1,829,Guest(30),31/18:06,6:24,5,Tarde,0.0,24.6,0.0,5/31/2017
2,836,Guest(28),31/20:46,4:28,5,Tarde,0.0,4.5,0.0,5/31/2017
3,838,Guest(27),31/20:57,3:25,5,Tarde,0.0,29.72,0.0,5/31/2017
4,844,Guest(14),31/22:16,2:47,5,Noite,0.0,48.3,0.0,5/31/2017


###### 2.1.1.2 Check NaN values

In [48]:
bilhar[bilhar.isnull()].sum()

#No             0.0
Name              0
#Start Time       0
In Use            0
Semana          0.0
Turno             0
Total Bilhar    0.0
Pago            0.0
#Preço/Hora     0.0
Data              0
dtype: object

###### 2.1.1.3 Data types

In [49]:
bilhar.dtypes

#No               int64
Name             object
#Start Time      object
In Use           object
Semana            int64
Turno            object
Total Bilhar    float64
Pago            float64
#Preço/Hora     float64
Data             object
dtype: object

###### 2.1.1.4 Data dimensions

In [50]:
print(f'Qty of rows: {bilhar.shape[0]}')
print(f'Qty of columns: {bilhar.shape[0]}')

Qty of rows: 34338
Qty of columns: 34338


### 2.1.2 Data Cleaning

###### 2.1.2.1 Adjusting #Start Time to datetimeindex format

In [51]:
bilhar['start_time'] = bilhar['#Start Time'].apply(lambda x: x.split('/')[1])
bilhar.drop('#Start Time', axis=1, inplace=True)

###### 2.1.2.2 Adjusting #Data to datetime format

In [52]:
bilhar['Data'] = bilhar['Data'].str.replace('/', '-').str.strip()

###### 2.1.2.3 Creating datetime feature

In [53]:
bilhar['datetime'] = bilhar['Data'] + '-' + bilhar['start_time']
bilhar['datetime'] = pd.to_datetime(bilhar['datetime'])
bilhar.drop('Data', axis=1, inplace=True)
bilhar.drop('start_time', axis=1, inplace=True)

###### 2.1.2.4 Changing interesting feature names

In [54]:
bilhar.rename(columns={'#No':'id'}, inplace=True)

## 2.2 Produtos

### 2.2.1 General Analysis

###### 2.2.1.1 Looking dataset

In [58]:
produtos.head(5)

Unnamed: 0,#Time,Purchaser,Item,#Voucher,Semana,Turno,Classe 1,Classe 2,Classe 3,Preço,Total Venda,Data,Quantidade
0,2/23:50:26,Mesa 1,10%,150,1,Noite,Gorjeta,,,0.1,1.6,5/2/2017,16
1,2/23:56:18,Mesa 5,10%,151,1,Noite,Gorjeta,,,0.1,3.7,5/2/2017,37
2,3/00:43:47,Mesa 1,10%,153,1,Noite,Gorjeta,,,0.1,1.5,5/2/2017,15
3,3/01:04:07,Mesa 5,10%,155,1,Noite,Gorjeta,,,0.1,2.4,5/2/2017,24
4,3/00:43:35,Mesa 1,Agua s/ Gás,153,1,Noite,Bar,Sem Álcool,,3.0,6.0,5/2/2017,2


# 3.0 Feature Engineering

# 4.0 Business Hypothesis

# 5.0 Exploratory Data Analysis 

# 6.0 Training Machine Learning Model

# 7.0 Results and Conclusions

# Time

In [9]:
print(f'O projeto está processando em {round((time.time() - tempo_agora) / 60, 2)} minutos')

O projeto está processando em 2.17 minutos


# Continua