<a href="https://colab.research.google.com/github/lucassenacode/ApiRestaurante/blob/main/CD_Peers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Rentabilidade e Otimização de Estratégias da Infomaz

**Contexto:**
A Infomaz, empresa especializada em artigos eletrônicos e de informática, tem observado mudanças significativas no comportamento de compra de seus clientes e variações nas vendas de algumas categorias de produtos. Para otimizar seu estoque, melhorar a relação com fornecedores e maximizar seus lucros, a empresa busca entender melhor esses padrões.

**Objetivo:**
Este projeto visa responder à seguinte questão: “Quais produtos e categorias apresentam maior e menor rentabilidade, e como podemos otimizar nossas estratégias de fornecimento e precificação para maximizar os lucros?”

**Métricas a serem Calculadas:**

1. Calcule o valor total de venda dos produtos por categoria. Utilize as tabelas `CADASTRO_PRODUTOS` e `TRANSACOES_VENDAS`.

2. Calcule a margem dos produtos subtraindo o valor unitario pelo valor de venda. Utilize as tabelas `CADASTRO_ESTOQUE` e `TRANSACOES_VENDAS`.

3. Calcule um ranking de clientes por quantidade de produtos comprados por mês. Utilize as tabelas `CADASTRO_CLIENTES` e `TRANSACOES_VENDAS`.

4. Calcule um ranking de fornecedores por quantidade de estoque disponivel por mês. Utilize as tabelas `CADASTRO_FORNECEDORES` e `CADASTRO_ESTOQUE`.

5. Calcule um ranking de produtos por quantidade de venda por mês. Utilize a tabela `TRANSACOES_VENDAS`.

6. Calcule um ranking de produtos por valor de venda por mês. Utilize a tabela `TRANSACOES_VENDAS`.

7. Calcule a média de valor de venda por categoria de produto por mês. Utiliza as tabelas `CADASTRO_PRODUTOS` e `TRANSACOES_VENDAS`.

8. Calcule um ranking de margem de lucro por categoria

9. Liste produtos comprados por clientes

10. Ranking de produtos por quantidade de estoque



# Importação das bibliotecas necessárias


In [37]:
import pandas as pd
import numpy as np

#Importando e Processando os Dados de Vendas

In [38]:
import pandas as pd

# Carregar o arquivo Excel como ExcelFile
arquivo = pd.ExcelFile("Case_Infomaz_Base_de_Dados.xlsx")

# Listar os nomes das abas
print(arquivo.sheet_names)

['Orientações', 'Guia', 'Cadastro Produtos', 'Cadastro Clientes', 'Cadastro de Estoque', 'Cadastro Fornecedores', 'Transações Vendas']


In [39]:
# Carregar as abas desejadas em DataFrames separados
df_produtos = pd.read_excel(arquivo, sheet_name="Cadastro Produtos")
print("--- CADASTRO_PRODUTOS ---")
print(df_produtos.head())
print(df_produtos.info())

--- CADASTRO_PRODUTOS ---
     TABELA 1 CADASTRO PRODUTOS             Unnamed: 2   Unnamed: 3
0  ID PRODUTO        ID ESTOQUE           NOME PRODUTO    CATEGORIA
1        1001              5001     Notebook EliteBook  Eletrônicos
2        1002              5002  Smartphone Galaxy S23  Eletrônicos
3        1003              5003     Mesa de Escritório       Móveis
4        1004              5004     Cadeira Ergonômica       Móveis
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   TABELA 1           41 non-null     object
 1   CADASTRO PRODUTOS  41 non-null     object
 2   Unnamed: 2         41 non-null     object
 3   Unnamed: 3         41 non-null     object
dtypes: object(4)
memory usage: 1.4+ KB
None


In [40]:
# Ler novamente a aba 'Cadastro Produtos', especificando o cabeçalho na linha correta
df_produtos = pd.read_excel(arquivo, sheet_name="Cadastro Produtos", header=0)

# Renomear as colunas para facilitar o trabalho
df_produtos.columns = ['ID PRODUTO', 'ID ESTOQUE', 'NOME PRODUTO', 'CATEGORIA']

# Verificar o DataFrame corrigido
print("--- CADASTRO_PRODUTOS ---")
print(df_produtos.head())
print(df_produtos.info())

--- CADASTRO_PRODUTOS ---
   ID PRODUTO  ID ESTOQUE           NOME PRODUTO    CATEGORIA
0  ID PRODUTO  ID ESTOQUE           NOME PRODUTO    CATEGORIA
1        1001        5001     Notebook EliteBook  Eletrônicos
2        1002        5002  Smartphone Galaxy S23  Eletrônicos
3        1003        5003     Mesa de Escritório       Móveis
4        1004        5004     Cadeira Ergonômica       Móveis
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   ID PRODUTO    41 non-null     object
 1   ID ESTOQUE    41 non-null     object
 2   NOME PRODUTO  41 non-null     object
 3   CATEGORIA     41 non-null     object
dtypes: object(4)
memory usage: 1.4+ KB
None


In [41]:
df_clientes = pd.read_excel(arquivo, sheet_name="Cadastro Clientes")
print("\n--- CADASTRO_CLIENTES ---")
print(df_clientes.head())
print(df_clientes.info())


--- CADASTRO_CLIENTES ---
     TABELA 2       CADASTRO CLIENTES           Unnamed: 2
0  ID CLIENTE            NOME CLIENTE        DATA CADASTRO
1        2001      João Silva Almeida  2022-03-15 00:00:00
2        2002   Maria Oliveira Santos  2021-05-22 00:00:00
3        2003  Carlos Eduardo Pereira  2023-01-10 00:00:00
4        2004    Ana Paula Costa Lima  2020-11-03 00:00:00
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 3 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   TABELA 2           41 non-null     object
 1   CADASTRO CLIENTES  41 non-null     object
 2   Unnamed: 2         41 non-null     object
dtypes: object(3)
memory usage: 1.1+ KB
None


In [42]:
# Ler novamente a aba 'Cadastro Clientes', especificando o cabeçalho na linha correta
df_clientes = pd.read_excel(arquivo, sheet_name="Cadastro Clientes", header=0)

# Renomear as colunas
df_clientes.columns = ['ID CLIENTE', 'NOME CLIENTE', 'DATA CADASTRO']

# Verificar o DataFrame corrigido
print("\n--- CADASTRO_CLIENTES ---")
print(df_clientes.head())
print(df_clientes.info())


--- CADASTRO_CLIENTES ---
   ID CLIENTE            NOME CLIENTE        DATA CADASTRO
0  ID CLIENTE            NOME CLIENTE        DATA CADASTRO
1        2001      João Silva Almeida  2022-03-15 00:00:00
2        2002   Maria Oliveira Santos  2021-05-22 00:00:00
3        2003  Carlos Eduardo Pereira  2023-01-10 00:00:00
4        2004    Ana Paula Costa Lima  2020-11-03 00:00:00
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID CLIENTE     41 non-null     object
 1   NOME CLIENTE   41 non-null     object
 2   DATA CADASTRO  41 non-null     object
dtypes: object(3)
memory usage: 1.1+ KB
None


In [43]:
df_estoque = pd.read_excel(arquivo, sheet_name="Cadastro de Estoque")
print("\n--- CADASTRO_ESTOQUE ---")
print(df_estoque.head())
print(df_estoque.info())


--- CADASTRO_ESTOQUE ---
     TABELA 4 CADASTRO ESTOQUE   Unnamed: 2           Unnamed: 3  \
0  ID ESTOQUE    VALOR ESTOQUE  QTD ESTOQUE         DATA ESTOQUE   
1        5001           171996           50  2023-03-01 00:00:00   
2        5002           124768           40  2023-02-15 00:00:00   
3        5003            35980           50  2023-01-10 00:00:00   
4        5004            51960           50  2023-04-05 00:00:00   

      Unnamed: 4  
0  ID FORNECEDOR  
1           F100  
2           F105  
3           F110  
4           F115  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   TABELA 4          41 non-null     object
 1   CADASTRO ESTOQUE  41 non-null     object
 2   Unnamed: 2        41 non-null     object
 3   Unnamed: 3        41 non-null     object
 4   Unnamed: 4        41 non-null     object
dtypes: object(5)
memory us

In [44]:
# Ler novamente a aba 'Cadastro de Estoque', especificando o cabeçalho na linha correta
df_estoque = pd.read_excel(arquivo, sheet_name="Cadastro de Estoque", header=0)

# Renomear as colunas
df_estoque.columns = ['ID ESTOQUE', 'VALOR ESTOQUE', 'QTD ESTOQUE', 'DATA ESTOQUE', 'ID FORNECEDOR']

# Verificar o DataFrame corrigido
print("\n--- CADASTRO_ESTOQUE ---")
print(df_estoque.head())
print(df_estoque.info())


--- CADASTRO_ESTOQUE ---
   ID ESTOQUE  VALOR ESTOQUE  QTD ESTOQUE         DATA ESTOQUE  ID FORNECEDOR
0  ID ESTOQUE  VALOR ESTOQUE  QTD ESTOQUE         DATA ESTOQUE  ID FORNECEDOR
1        5001         171996           50  2023-03-01 00:00:00           F100
2        5002         124768           40  2023-02-15 00:00:00           F105
3        5003          35980           50  2023-01-10 00:00:00           F110
4        5004          51960           50  2023-04-05 00:00:00           F115
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   ID ESTOQUE     41 non-null     object
 1   VALOR ESTOQUE  41 non-null     object
 2   QTD ESTOQUE    41 non-null     object
 3   DATA ESTOQUE   41 non-null     object
 4   ID FORNECEDOR  41 non-null     object
dtypes: object(5)
memory usage: 1.7+ KB
None


In [45]:
df_fornecedores = pd.read_excel(arquivo, sheet_name="Cadastro Fornecedores")
print("\n--- CADASTRO_FORNECEDORES ---")
print(df_fornecedores.head())
print(df_fornecedores.info())


--- CADASTRO_FORNECEDORES ---
        TABELA 5      CADASTRO FORNECEDORES           Unnamed: 2
0  ID FORNECEDOR            NOME FORNECEDOR        DATA CADASTRO
1           F100  Eletrônicos Nacional Ltda  2020-01-15 00:00:00
2           F105           TecnoImport S.A.  2019-03-22 00:00:00
3           F110   Móveis Premium Indústria  2018-11-08 00:00:00
4           F115        DecoraHome Comércio  2021-05-30 00:00:00
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   TABELA 5               13 non-null     object
 1   CADASTRO FORNECEDORES  13 non-null     object
 2   Unnamed: 2             13 non-null     object
dtypes: object(3)
memory usage: 444.0+ bytes
None


In [46]:
# Ler novamente a aba 'Cadastro Fornecedores', especificando o cabeçalho na linha correta
df_fornecedores = pd.read_excel(arquivo, sheet_name="Cadastro Fornecedores", header=0)

# Renomear as colunas
df_fornecedores.columns = ['ID FORNECEDOR', 'NOME FORNECEDOR', 'DATA CADASTRO']

# Verificar o DataFrame corrigido
print("\n--- CADASTRO_FORNECEDORES ---")
print(df_fornecedores.head())
print(df_fornecedores.info())


--- CADASTRO_FORNECEDORES ---
   ID FORNECEDOR            NOME FORNECEDOR        DATA CADASTRO
0  ID FORNECEDOR            NOME FORNECEDOR        DATA CADASTRO
1           F100  Eletrônicos Nacional Ltda  2020-01-15 00:00:00
2           F105           TecnoImport S.A.  2019-03-22 00:00:00
3           F110   Móveis Premium Indústria  2018-11-08 00:00:00
4           F115        DecoraHome Comércio  2021-05-30 00:00:00
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 3 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ID FORNECEDOR    13 non-null     object
 1   NOME FORNECEDOR  13 non-null     object
 2   DATA CADASTRO    13 non-null     object
dtypes: object(3)
memory usage: 444.0+ bytes
None


In [47]:
df_vendas = pd.read_excel(arquivo, sheet_name="Transações Vendas")
print("\n--- TRANSACOES_VENDAS ---")
print(df_vendas.head())
print(df_vendas.info())


--- TRANSACOES_VENDAS ---
  TABELA 3 TRANSAÇÕES NOTAS DE VENDAS  Unnamed: 2  Unnamed: 3 Unnamed: 4  \
0  ID NOTA                  DATA NOTA  VALOR NOTA  VALOR ITEM   QTD ITEM   
1     3001        2023-03-05 00:00:00      4299.9      4299.9          1   
2     3002        2023-03-12 00:00:00      5798.9        3899          1   
3     3002        2023-03-12 00:00:00      5798.9        1899          1   
4     3003        2023-03-18 00:00:00      1028.8       129.9          1   

   Unnamed: 5  Unnamed: 6  
0  ID PRODUTO  ID CLIENTE  
1        1001        2015  
2        1002        2003  
3        1013        2003  
4        1006        2028  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   TABELA 3                    237 non-null    object
 1   TRANSAÇÕES NOTAS DE VENDAS  237 non-null    object
 2   Unnamed: 2     

In [48]:
# Ler novamente a aba 'Transações Vendas', especificando o cabeçalho na linha correta
df_vendas = pd.read_excel(arquivo, sheet_name="Transações Vendas", header=0)

# Renomear as colunas
df_vendas.columns = ['ID NOTA', 'DATA NOTA', 'VALOR NOTA', 'VALOR ITEM', 'QTD ITEM', 'ID PRODUTO', 'ID CLIENTE']

# Verificar o DataFrame corrigido
print("\n--- TRANSACOES_VENDAS ---")
print(df_vendas.head())
print(df_vendas.info())


--- TRANSACOES_VENDAS ---
   ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO  \
0  ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO   
1     3001  2023-03-05 00:00:00      4299.9      4299.9         1        1001   
2     3002  2023-03-12 00:00:00      5798.9        3899         1        1002   
3     3002  2023-03-12 00:00:00      5798.9        1899         1        1013   
4     3003  2023-03-18 00:00:00      1028.8       129.9         1        1006   

   ID CLIENTE  
0  ID CLIENTE  
1        2015  
2        2003  
3        2003  
4        2028  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ID NOTA     237 non-null    object
 1   DATA NOTA   237 non-null    object
 2   VALOR NOTA  237 non-null    object
 3   VALOR ITEM  237 non-null    object
 4   QTD ITEM    237 non-null    object
 5   I

#1. Calcule o valor total de venda dos produtos por categoria. Utilize as tabelas `CADASTRO_PRODUTOS` e `TRANSACOES_VENDAS`.

In [49]:
# Para ver as categorias únicas
print(df_produtos['CATEGORIA'].unique())

['CATEGORIA' 'Eletrônicos' 'Móveis' 'Decoração' 'Eletrodomésticos'
 'Ferramentas' 'Acessórios' 'Livros' 'Papelaria']


In [50]:
# Fazendo o merge de df_vendas com df_produtos
df_vendas_com_categorias = pd.merge(df_vendas, df_produtos[['ID PRODUTO', 'CATEGORIA']], on='ID PRODUTO', how='inner')

# Verificando o DataFrame resultante
print("\n--- DF_VENDAS COM CATEGORIAS ---")
print(df_vendas_com_categorias.head())
print(df_vendas_com_categorias.info())


--- DF_VENDAS COM CATEGORIAS ---
   ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO  \
0  ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO   
1     3001  2023-03-05 00:00:00      4299.9      4299.9         1        1001   
2     3002  2023-03-12 00:00:00      5798.9        3899         1        1002   
3     3002  2023-03-12 00:00:00      5798.9        1899         1        1013   
4     3003  2023-03-18 00:00:00      1028.8       129.9         1        1006   

   ID CLIENTE    CATEGORIA  
0  ID CLIENTE    CATEGORIA  
1        2015  Eletrônicos  
2        2003  Eletrônicos  
3        2003       Móveis  
4        2028  Eletrônicos  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ID NOTA     237 non-null    object
 1   DATA NOTA   237 non-null    object
 2   VALOR NOTA  237 non-null    object
 

In [51]:
# Agrupando por categoria e somando o valor total de venda
vendas_por_categoria = df_vendas_com_categorias.groupby('CATEGORIA')['VALOR ITEM'].sum()

# Exibindo o resultado
print("\n--- VALOR TOTAL DE VENDAS POR CATEGORIA ---")
print(vendas_por_categoria)

# Ordenando do maior para o menor
vendas_por_categoria_ordenado = vendas_por_categoria.sort_values(ascending=False)

print("\n--- VALOR TOTAL DE VENDAS POR CATEGORIA (Ordenado) ---")
print(vendas_por_categoria_ordenado)


--- VALOR TOTAL DE VENDAS POR CATEGORIA ---
CATEGORIA
CATEGORIA      VALOR ITEM
Eletrônicos       78908.1
Ferramentas       14717.7
Livros            12998.7
Móveis            90934.0
Papelaria           477.6
Name: VALOR ITEM, dtype: object


TypeError: '<' not supported between instances of 'str' and 'float'

In [52]:
# Ler novamente a aba 'Transações Vendas', garantindo o cabeçalho correto
df_vendas = pd.read_excel(arquivo, sheet_name="Transações Vendas", header=0)
df_vendas.columns = ['ID NOTA', 'DATA NOTA', 'VALOR NOTA', 'VALOR ITEM', 'QTD ITEM', 'ID PRODUTO', 'ID CLIENTE']

# Verificar o DataFrame corrigido
print("\n--- TRANSACOES_VENDAS (Recarregado e Corrigido) ---")
print(df_vendas.head())
print(df_vendas.info())

# Refazendo o merge de df_vendas com df_produtos
df_vendas_com_categorias = pd.merge(df_vendas, df_produtos[['ID PRODUTO', 'CATEGORIA']], on='ID PRODUTO', how='inner')

# Agrupando por categoria e somando o valor total de venda
vendas_por_categoria = df_vendas_com_categorias.groupby('CATEGORIA')['VALOR ITEM'].sum()

# Exibindo o resultado
print("\n--- VALOR TOTAL DE VENDAS POR CATEGORIA ---")
print(vendas_por_categoria)

# Ordenando do maior para o menor
vendas_por_categoria_ordenado = vendas_por_categoria.sort_values(ascending=False)

print("\n--- VALOR TOTAL DE VENDAS POR CATEGORIA (Ordenado) ---")
print(vendas_por_categoria_ordenado)


--- TRANSACOES_VENDAS (Recarregado e Corrigido) ---
   ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO  \
0  ID NOTA            DATA NOTA  VALOR NOTA  VALOR ITEM  QTD ITEM  ID PRODUTO   
1     3001  2023-03-05 00:00:00      4299.9      4299.9         1        1001   
2     3002  2023-03-12 00:00:00      5798.9        3899         1        1002   
3     3002  2023-03-12 00:00:00      5798.9        1899         1        1013   
4     3003  2023-03-18 00:00:00      1028.8       129.9         1        1006   

   ID CLIENTE  
0  ID CLIENTE  
1        2015  
2        2003  
3        2003  
4        2028  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 237 entries, 0 to 236
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   ID NOTA     237 non-null    object
 1   DATA NOTA   237 non-null    object
 2   VALOR NOTA  237 non-null    object
 3   VALOR ITEM  237 non-null    object
 4   QTD ITEM    237

TypeError: '<' not supported between instances of 'str' and 'float'