## Análise de pedidos realizados pelo setor de compras no período de 08-2021 á 12-2021

**Alguns dados foram mascarados por se tratarem de dados reais da empresa.**
   
   O setor de compras da empresa Flamingo Shop passou a armazenar os dados de todos pedidos realizados a partir de agosto de 2021, com o término do ano o gerente de compras solicitou ao analista de dados que realizasse uma análise para entender o comportamento de compras da empresa nesse período.

  ### Questionário do gerente
  
  - Qual o tempo médio de entrega do fornecedor a partir da data do pedido?
  - Qual menor tempo de entrega do fornecedor?
  - Qual maior tempo de entrega do fornecedor?
  - Valor médio mensal de compra.
  - Valor total de compra no período.
  - Valor total de compra por conta e quantidade de produtos.
  - Qual o mês teve maior valor de compra?
  - Top 10 produtos com maior valor de compra no período?
  - Qual produto apresenta maior quantidade adquirida?
  - Qual categoria apresentou maior valor investido?
  - Unidades adiquiridas por categoria.
  - Ranking de produtos com maior movimento por categoria.
  - Qual o valor total de comissão movimentado por conta?
  
  
    
  ## Fonte dos dados
  
  - Banco de dados interno
  - Formato do arquivo xlsx

  ## Estrutura do arquivo de dados
   
  O arquivo está estruturado nas seguintes colunas:
  
- **Comprador:** Comprador que realizou o pedido no fornecedor.
- **Data_pedido:** Data em que foi realizado o pedido.
- **Cod_pedido:** Código do pedido.
- **Produto:** Produto comprado
- **Quantidade:** Quantidade de unidades por pedido.
- **Valor_pedido:** O valor pago no pedido.
- **Comissão:** O valor da comissão de venda que volta para o caixa da empresa
- **Data_entrega:** Data em que foi entregue o pedido.
- **Tempo_entrega:** Tempo de entrega do fornecedor, em dias.
- **Categoria:** Categoria do produto

 
 ## Ferramentas  utilizadas
 
 - Python
 - Jupyter notebook
 - Biblioteca pandas
 - Biblioteca numpy
 - Biblioteca matplotlib

## Importando as biliotecas 

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 

## Carregando conjunto de dados

In [2]:
df_compra = pd.read_excel('controle_compra.xlsx')
df_compra.head()

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega,Unnamed: 8,Unnamed: 9,...,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24
0,C-02,2021-08-03,62133,P18,8,799.36,247.8016,2021-08-10,,,...,,,,,,,,,,
1,C-02,2021-08-03,62133,P36,8,287.36,89.0816,2021-08-10,,,...,,,,,,,,,,
2,C-04,2021-08-03,43431,P36,8,287.36,89.0816,2021-08-09,,,...,,,,,,,,,,
3,C-06,2021-08-03,31809,P36,8,287.36,89.0816,2021-08-13,,,...,,,,,,,,,,
4,C-01,2021-08-03,92058,P36,8,287.36,89.0816,2021-08-09,,,...,,,,,,,,,,


## Processo de tratamento do conjunto de dados

Iremos tratar o conjunto de dados para que tenhamos uma melhor análise, adicionando eexcluindo colunas, alterar tipos de dados, modificar para melhor leitura.

- Excluir colunas, 'Unnamed:8' até 'Unnamed:24'
- Criar coluna 'tempo_entrega'
- Deixar duas casas decimais na coluna 'comissão'
- Criar coluna  'categoria' do produto
- Verificar os tipos dos dados e realizar alterações se necessário

In [3]:
# Listando as colunas para melhor vizualizar e identificar quais serão excluídas.

df_compra.columns

Index(['comprador', 'data compra', 'cod_compra', 'produto', 'quantidade',
       'valor compra', 'comissão', 'data entrega', 'Unnamed: 8', 'Unnamed: 9',
       'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13',
       'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17',
       'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24'],
      dtype='object')

In [4]:
# Vamos excluir as colunas que não iremos utilizar 

df_compra = df_compra.drop(columns= ['Unnamed: 8', 'Unnamed: 9',
       'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13',
       'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17',
       'Unnamed: 18', 'Unnamed: 19', 'Unnamed: 20', 'Unnamed: 21',
       'Unnamed: 22', 'Unnamed: 23', 'Unnamed: 24'])
# Vizualizando o novo conjunto de dados com as coulnas já excluídas.
df_compra.head(2)

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega
0,C-02,2021-08-03,62133,P18,8,799.36,247.8016,2021-08-10
1,C-02,2021-08-03,62133,P36,8,287.36,89.0816,2021-08-10


In [5]:
# Iremos criar a coluna 'tempo_entrtega' para sabermos quantos dias o fornecedor levou para entregar o pedido.

df_compra['tempo_entrega'] = df_compra['data entrega'] - df_compra['data compra']
df_compra.head()

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega,tempo_entrega
0,C-02,2021-08-03,62133,P18,8,799.36,247.8016,2021-08-10,7 days
1,C-02,2021-08-03,62133,P36,8,287.36,89.0816,2021-08-10,7 days
2,C-04,2021-08-03,43431,P36,8,287.36,89.0816,2021-08-09,6 days
3,C-06,2021-08-03,31809,P36,8,287.36,89.0816,2021-08-13,10 days
4,C-01,2021-08-03,92058,P36,8,287.36,89.0816,2021-08-09,6 days


In [6]:
# iremos criar a coluna 'categoria' para classificar os produtos em suas respectivas categorias

df_compra['categoria'] = df_compra['produto'].apply( lambda x: 'DE' if (x == 'P03')|(x == 'P04')|(x == 'P09')|(x == 'P10')|
                                                                       (x == 'P11')|(x == 'P12')|(x == 'P13')|(x == 'P14') else
                                                               'HI' if (x == 'P06')|(x == 'P07')|(x == 'P24')|(x == 'P43')|(x == 'P44') else
                                                               'MB' if (x == 'P08')|(x == 'P36')|(x == 'P37') else
                                                               'PR' if (x == 'P22')|(x == 'P23') else
                                                               'OL' if (x == 'P31')|(x == 'P32') else
                                                               'SA' if (x == 'P33') else 'PE' )
df_compra.head()

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega,tempo_entrega,categoria
0,C-02,2021-08-03,62133,P18,8,799.36,247.8016,2021-08-10,7 days,PE
1,C-02,2021-08-03,62133,P36,8,287.36,89.0816,2021-08-10,7 days,MB
2,C-04,2021-08-03,43431,P36,8,287.36,89.0816,2021-08-09,6 days,MB
3,C-06,2021-08-03,31809,P36,8,287.36,89.0816,2021-08-13,10 days,MB
4,C-01,2021-08-03,92058,P36,8,287.36,89.0816,2021-08-09,6 days,MB


In [7]:
# Vamos identificar os tipos de dados de cada coluna

df_compra.dtypes

# Nota-se que precisamos alterar o tipo da coluna 'tempo_entrega' para 'inte64' afim de realizar operações matemáticas.

comprador                 object
data compra       datetime64[ns]
cod_compra                object
produto                   object
quantidade                 int64
valor compra             float64
comissão                 float64
data entrega      datetime64[ns]
tempo_entrega    timedelta64[ns]
categoria                 object
dtype: object

In [8]:
# Alterando o tipo da coluna 'tempo_entrega'

df_compra['tempo_entrega'] = df_compra['tempo_entrega'].dt.days.astype('int64')

In [9]:
# Vizualizar se foi alterado corretamente para 'int64'
df_compra.dtypes

comprador                object
data compra      datetime64[ns]
cod_compra               object
produto                  object
quantidade                int64
valor compra            float64
comissão                float64
data entrega     datetime64[ns]
tempo_entrega             int64
categoria                object
dtype: object

In [10]:
# Observe que a coluna 'tempo_entrega' aparesenta apenas números
df_compra.head(2)

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega,tempo_entrega,categoria
0,C-02,2021-08-03,62133,P18,8,799.36,247.8016,2021-08-10,7,PE
1,C-02,2021-08-03,62133,P36,8,287.36,89.0816,2021-08-10,7,MB


In [11]:
# Colocando duas casas decimais nos dados da coluna 'comissão'

df_compra['comissão'] = np.round( df_compra['comissão'],2 )
df_compra.head(2)

Unnamed: 0,comprador,data compra,cod_compra,produto,quantidade,valor compra,comissão,data entrega,tempo_entrega,categoria
0,C-02,2021-08-03,62133,P18,8,799.36,247.8,2021-08-10,7,PE
1,C-02,2021-08-03,62133,P36,8,287.36,89.08,2021-08-10,7,MB


Agora nosso conjunto de dados está estruturado da forma que queriamos, dessa forma podemos responder as questões do gerente de compras.
Então vamos lá!!

### Qual o tempo médio de entrega do fornecedor a partir da data do pedido?

In [12]:
media = np.round( df_compra['tempo_entrega'].mean(), 2 )
print('O tempo médio de entrega do fornecedor é {} dias.'.format(media)) 

O tempo médio de entrega do fornecedor é 5.51 dias.


### Qual menor tempo de entrega do fornecedor?

In [13]:
min = df_compra['tempo_entrega'].min()
print('O menor tempo de entrega é de {} dias.'.format(min))

O menor tempo de entrega é de 2 dias.


### Qual maior tempo de entrega do fornecedor?

In [14]:
max = df_compra['tempo_entrega'].max()
print('O tempo máximo de entrega é de {} dias.'.format(max))

O tempo máximo de entrega é de 10 dias.


### Valor médio mensal de compra.

In [15]:
med = np.round( df_compra['valor compra'].mean(),2)
print('O valar médio de compra é R${}.'.format(med))

O valar médio de compra é R$356.89.


### Valor total de compra no período.

In [16]:
total = np.round( df_compra['valor compra'].sum() )
print('O valor total de compra no periodo de 08-2021 á 12-2021 é de R${}'.format(total))

O valor total de compra no periodo de 08-2021 á 12-2021 é de R$119560.0


### Valor total de compra por comprador e quantidade de produtos.

In [17]:
df_compra[['comprador','valor compra','quantidade']].groupby(['comprador']).sum().reset_index()

Unnamed: 0,comprador,valor compra,quantidade
0,C-01,14491.84,408
1,C-02,77634.43,1673
2,C-03,15055.78,299
3,C-04,3890.84,66
4,C-05,239.2,8
5,C-06,8247.68,147


### Qual o mês teve maior valor de compra?

In [18]:
dec = df_compra.rename( columns= {'data compra': 'Mês'})
dec = dec.groupby(dec['Mês'].dt.month)['valor compra'].sum().reset_index()
dec.sort_values( by= 'valor compra', ascending= False).head(1)

Unnamed: 0,Mês,valor compra
1,9,29962.62


## Top 10 produtos com maior valor de compra no período?

In [19]:
val = df_compra.groupby(['produto'])['valor compra'].sum().reset_index()
val.sort_values( by= 'valor compra', ascending= False).head(10)

Unnamed: 0,produto,valor compra
16,P18,13497.63
25,P27,9460.22
23,P25,9343.3
0,P02,7090.89
17,P19,7033.04
14,P16,6573.3
15,P17,6133.36
34,P36,5653.34
3,P05,5548.94
24,P26,5535.6


## Qual produto apresenta maior quantidade adquirida?

In [20]:
prod = df_compra.groupby(['produto'])['quantidade'].sum().reset_index()
prod.sort_values( by= 'quantidade', ascending= False).head(1)

Unnamed: 0,produto,quantidade
25,P27,168


###  Qual categoria apresentou maior valor investido?

In [25]:
cat = df_compra.groupby(['categoria'])['valor compra'].sum().reset_index()
cat.sort_values( by= 'valor compra', ascending=False ).head(1)

Unnamed: 0,categoria,valor compra
4,PE,95074.07


### Unidades adiquiridas por categoria.

In [27]:
df_compra.groupby(['categoria'])['quantidade'].sum().reset_index()

Unnamed: 0,categoria,quantidade
0,DE,688
1,HI,172
2,MB,280
3,OL,16
4,PE,1384
5,PR,45
6,SA,16


### Ranking de produtos com maior movimento por categoria.

In [55]:
ran = df_compra.groupby( ['categoria','produto'], as_index=False)['valor compra'].sum()
ran.sort_values(by= 'valor compra', ascending= False)


Unnamed: 0,categoria,produto,valor compra
23,PE,P18,13497.63
29,PE,P27,9460.22
27,PE,P25,9343.3
18,PE,P02,7090.89
24,PE,P19,7033.04
21,PE,P16,6573.3
22,PE,P17,6133.36
14,MB,P36,5653.34
19,PE,P05,5548.94
28,PE,P26,5535.6



## Qual o valor total de comissão movimentado por comprador?

In [62]:
df_compra['comissão'].groupby(df_compra['comprador']).sum().reset_index()

Unnamed: 0,comprador,comissão
0,C-01,4492.54
1,C-02,24066.99
2,C-03,4667.33
3,C-04,1206.17
4,C-05,74.15
5,C-06,2556.77
