# Exploratory Data Analysis

O objetivo dessa análise exploratória é tentar responder a algumas perguntas sobre o arquivo BI_MERCADO disponibilizado pelo Laboratório de Tecnologia Coco Bambu (CBLAB) para a vaga de estágio em BI (estagiário de dados). A fim de facilitar a leitura de todas as tabelas dentro do arquivo, eu separei cada tabela em um único arquivo separado das demais.<br>
Algumas perguntas que tentarei responder aqui são: <br> 
- Qual loja vendeu mais e qual vendeu menos? 
- Todas as lojas venderam ao menos uma unidade de cada produto?
- Qual o produto que vendeu mais? Qual vendeu menos?
- Qual setor (categoria) vendeu mais? Qual setor (categoria) vendeu menos?
- Existe alguma loja que não tenha vendido nada? 



## Importando as bibliotecas

In [1]:
import pandas as pd
import numpy as np

## lendo os arquivos 

In [2]:
data = pd.read_excel('calendario.xlsx')
data.tail()

Unnamed: 0,DT_CAL,DIA_SEM,MES_TEX,MES_NUM
461,2020-04-06,SEG,ABRIL,4
462,2020-04-07,TER,ABRIL,4
463,2020-04-08,QUA,ABRIL,4
464,2020-04-09,QUI,ABRIL,4
465,2020-04-10,SEX,ABRIL,4


In [3]:
local = pd.read_excel('local.xlsx')
local.head()

Unnamed: 0,SK_LOC,ID_LOC,DESC_LOC
0,1,258,AGUAS CLARAS
1,2,496,ASA SUL
2,3,478,ASA NORTE
3,4,631,SUDOESTE
4,5,732,GAMA


In [4]:
loja = pd.read_excel('loja.xlsx')
loja.head()

Unnamed: 0,SK_LOJA,ID_LOJA,DESC_LOJA
0,1,4589,AGUAS CLARAS SHOPING
1,2,5896,SUDOESTE 1
2,3,7596,304 SUL
3,4,1478,IGUATEMI SHOP
4,5,3691,AGUAS CLARAS RUA 5


In [5]:
produto = pd.read_excel('produtos.xlsx')
produto.head()

Unnamed: 0,SK_PROD,ID_PROD,DESC_PROD
0,1,1597,Café
1,2,1606,Cerveja
2,3,1647,Refrigerante
3,4,1655,Suco
4,5,1656,Suco de frutas


In [6]:
setor = pd.read_excel('setor.xlsx')
setor

Unnamed: 0,SK_SET,ID_SET,DESC_SET
0,1,456,BEDIDAS
1,2,697,LATICINIOS
2,3,36,ENLATADOS
3,4,257,DOCES E SOBREMESAS
4,5,367,CONCELADOS
5,6,496,HIGIENE PESSOAL
6,7,47,LIMPEZA
7,8,83,ALIMENTOS
8,9,29,FEIRA
9,10,451,ACOUGUE


In [7]:
vendas = pd.read_excel('vendas.xlsx')
vendas.head()

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
0,2,4,1,1,2019-01-10,148,56,0.01,3,168
1,2,4,15,3,2019-01-10,148,14,0.02,8,112
2,2,4,18,3,2019-01-10,148,40,0.1,5,200
3,2,4,56,8,2019-01-10,148,19,0.25,8,152
4,2,4,41,7,2019-01-10,148,90,0.08,2,180


## Explorando cada arquivo Individualmente

### Arquivo Data

In [30]:
data.shape

(466, 4)

In [31]:
data.dtypes

DT_CAL     datetime64[ns]
DIA_SEM            object
MES_TEX            object
MES_NUM             int64
dtype: object

In [32]:
data.columns

Index(['DT_CAL', 'DIA_SEM', 'MES_TEX', 'MES_NUM'], dtype='object')

In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 466 entries, 0 to 465
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   data      466 non-null    datetime64[ns]
 1   dia       466 non-null    object        
 2   mes_desc  466 non-null    object        
 3   mes_num   466 non-null    int64         
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 14.7+ KB


In [17]:
data.isnull().sum()

data        0
dia         0
mes_desc    0
mes_num     0
dtype: int64

In [18]:
data.describe()

Unnamed: 0,mes_num
count,466.0
mean,5.585837
std,3.565385
min,1.0
25%,2.0
50%,5.0
75%,9.0
max,12.0


<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

### Arquivo Local

In [33]:
local.shape

(5, 3)

In [34]:
local.dtypes

SK_LOC       int64
ID_LOC       int64
DESC_LOC    object
dtype: object

In [36]:
local.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   SK_LOC    5 non-null      int64 
 1   ID_LOC    5 non-null      int64 
 2   DESC_LOC  5 non-null      object
dtypes: int64(2), object(1)
memory usage: 248.0+ bytes


In [37]:
local.describe()

Unnamed: 0,SK_LOC,ID_LOC
count,5.0,5.0
mean,3.0,519.0
std,1.581139,179.055857
min,1.0,258.0
25%,2.0,478.0
50%,3.0,496.0
75%,4.0,631.0
max,5.0,732.0


In [38]:
local.isna().sum()

SK_LOC      0
ID_LOC      0
DESC_LOC    0
dtype: int64

In [39]:
local.columns

Index(['SK_LOC', 'ID_LOC', 'DESC_LOC'], dtype='object')

<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

### Arquivo Loja

In [67]:
loja.head()

Unnamed: 0,SK_LOJA,ID_LOJA,DESC_LOJA
0,1,4589,AGUAS CLARAS SHOPING
1,2,5896,SUDOESTE 1
2,3,7596,304 SUL
3,4,1478,IGUATEMI SHOP
4,5,3691,AGUAS CLARAS RUA 5


In [45]:
loja.columns

Index(['SK_LOJA', 'ID_LOJA', 'DESC_LOJA'], dtype='object')

In [40]:
loja.shape

(10, 3)

In [41]:
loja.dtypes

SK_LOJA       int64
ID_LOJA       int64
DESC_LOJA    object
dtype: object

In [42]:
loja.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   SK_LOJA    10 non-null     int64 
 1   ID_LOJA    10 non-null     int64 
 2   DESC_LOJA  10 non-null     object
dtypes: int64(2), object(1)
memory usage: 368.0+ bytes


In [43]:
loja.describe()

Unnamed: 0,SK_LOJA,ID_LOJA
count,10.0,10.0
mean,5.5,4086.6
std,3.02765,1844.696494
min,1.0,1478.0
25%,3.25,2836.25
50%,5.5,4140.0
75%,7.75,4763.5
max,10.0,7596.0


In [44]:
loja.isnull().sum()

SK_LOJA      0
ID_LOJA      0
DESC_LOJA    0
dtype: int64

<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

### Arquivo Produtos

In [46]:
produto.columns

Index(['SK_PROD', 'ID_PROD', 'DESC_PROD'], dtype='object')

In [47]:
produto.shape

(80, 3)

In [48]:
produto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   SK_PROD    80 non-null     int64 
 1   ID_PROD    80 non-null     int64 
 2   DESC_PROD  80 non-null     object
dtypes: int64(2), object(1)
memory usage: 2.0+ KB


In [49]:
produto.isna().sum()

SK_PROD      0
ID_PROD      0
DESC_PROD    0
dtype: int64

In [50]:
produto.dtypes

SK_PROD       int64
ID_PROD       int64
DESC_PROD    object
dtype: object

In [51]:
produto.describe()

Unnamed: 0,SK_PROD,ID_PROD
count,80.0,80.0
mean,40.5,1620.5
std,23.2379,23.2379
min,1.0,1581.0
25%,20.75,1600.75
50%,40.5,1620.5
75%,60.25,1640.25
max,80.0,1660.0


<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

### Arquivo Setor

In [65]:
setor.columns

Index(['SK_SET', 'ID_SET', 'DESC_SET'], dtype='object')

In [52]:
setor.shape

(10, 3)

In [53]:
setor.dtypes

SK_SET       int64
ID_SET       int64
DESC_SET    object
dtype: object

In [54]:
setor.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   SK_SET    10 non-null     int64 
 1   ID_SET    10 non-null     int64 
 2   DESC_SET  10 non-null     object
dtypes: int64(2), object(1)
memory usage: 368.0+ bytes


In [55]:
setor.isnull().sum()

SK_SET      0
ID_SET      0
DESC_SET    0
dtype: int64

In [56]:
setor.describe()

Unnamed: 0,SK_SET,ID_SET
count,10.0,10.0
mean,5.5,291.9
std,3.02765,236.42685
min,1.0,29.0
25%,3.25,56.0
50%,5.5,312.0
75%,7.75,454.75
max,10.0,697.0


<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

### Arquivo Vendas

In [57]:
vendas.shape

(656, 10)

In [60]:
vendas.dtypes

SK_LOJA                 int64
SK_LOC                  int64
SK_PROD                 int64
SK_SET                  int64
DT_CAL         datetime64[ns]
ID_VENDA                int64
VAL_VENDA               int64
LUCRO_VENDA           float64
QTD_VENDA               int64
TOT_VENDA               int64
dtype: object

In [61]:
vendas.columns

Index(['SK_LOJA', 'SK_LOC', 'SK_PROD', 'SK_SET', 'DT_CAL', 'ID_VENDA',
       'VAL_VENDA', 'LUCRO_VENDA', 'QTD_VENDA', 'TOT_VENDA'],
      dtype='object')

In [62]:
vendas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 656 entries, 0 to 655
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   SK_LOJA      656 non-null    int64         
 1   SK_LOC       656 non-null    int64         
 2   SK_PROD      656 non-null    int64         
 3   SK_SET       656 non-null    int64         
 4   DT_CAL       656 non-null    datetime64[ns]
 5   ID_VENDA     656 non-null    int64         
 6   VAL_VENDA    656 non-null    int64         
 7   LUCRO_VENDA  656 non-null    float64       
 8   QTD_VENDA    656 non-null    int64         
 9   TOT_VENDA    656 non-null    int64         
dtypes: datetime64[ns](1), float64(1), int64(8)
memory usage: 51.4 KB


In [63]:
vendas.describe()

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
count,656.0,656.0,656.0,656.0,656.0,656.0,656.0,656.0,656.0
mean,5.178354,2.405488,40.568598,5.853659,505.243902,51.875,0.16439,5.460366,281.974085
std,2.798073,1.002394,23.346998,2.824092,229.361014,28.538704,0.102055,2.839463,231.326934
min,1.0,1.0,1.0,1.0,148.0,1.0,0.01,1.0,1.0
25%,3.0,2.0,20.0,3.0,327.0,27.0,0.08,3.0,100.0
50%,5.0,2.0,40.0,7.0,506.0,53.0,0.203,6.0,217.0
75%,8.0,3.0,61.0,8.0,685.0,77.0,0.24,8.0,415.5
max,10.0,4.0,80.0,10.0,864.0,100.0,0.351,10.0,990.0


In [64]:
vendas.isna().sum()

SK_LOJA        0
SK_LOC         0
SK_PROD        0
SK_SET         0
DT_CAL         0
ID_VENDA       0
VAL_VENDA      0
LUCRO_VENDA    0
QTD_VENDA      0
TOT_VENDA      0
dtype: int64

<b><i>O tipo de cada variável corresponde ao já esperado e não há valores faltantes.</i></b>

## Começando a responder

### Pergunta 1

In [79]:
loja

Unnamed: 0,SK_LOJA,ID_LOJA,DESC_LOJA
0,1,4589,AGUAS CLARAS SHOPING
1,2,5896,SUDOESTE 1
2,3,7596,304 SUL
3,4,1478,IGUATEMI SHOP
4,5,3691,AGUAS CLARAS RUA 5
5,6,2589,LAGO SUL
6,7,4789,SUDOESTE 2
7,8,3578,310 SUL
8,9,4687,108 SUL
9,10,1973,BSB SHOPPING


In [80]:
vendas.head()

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
0,2,4,1,1,2019-01-10,148,56,0.01,3,168
1,2,4,15,3,2019-01-10,148,14,0.02,8,112
2,2,4,18,3,2019-01-10,148,40,0.1,5,200
3,2,4,56,8,2019-01-10,148,19,0.25,8,152
4,2,4,41,7,2019-01-10,148,90,0.08,2,180


In [12]:
lojas = [num for num in vendas['SK_LOJA']]
preco = [valor for valor in vendas['TOT_VENDA']]
aux = list()
valores = []

for i in range(10):
    valores.append(aux[:])

In [147]:
for index, dado in enumerate(lojas):
    valores[dado - 1].append(preco[index])

In [148]:
for index, dado in enumerate(valores):
    print(f'A loja {index + 1} vendeu {sum(valores[index])} reais')

A loja 1 vendeu 23679 reais
A loja 2 vendeu 20240 reais
A loja 3 vendeu 18032 reais
A loja 4 vendeu 20304 reais
A loja 5 vendeu 12401 reais
A loja 6 vendeu 20676 reais
A loja 7 vendeu 22204 reais
A loja 8 vendeu 17868 reais
A loja 9 vendeu 22383 reais
A loja 10 vendeu 7188 reais


<b><i>Com base nos dados acima, pode-se perceber que a loja que mais vendeu foi a loja número 1, com 23679 reais em vendas. A loja que menos vendeu foi a loja número 10, com 7188 reais em vendas. O total dos valores vendidos é de 184.975 reais.</i></b>

### Pergunta 2 

In [91]:
produto

Unnamed: 0,SK_PROD,ID_PROD,DESC_PROD
0,1,1597,Café
1,2,1606,Cerveja
2,3,1647,Refrigerante
3,4,1655,Suco
4,5,1656,Suco de frutas
...,...,...,...
75,76,1657,Tomate
76,77,1601,Carne
77,78,1620,Frango
78,79,1641,Peixe


In [89]:
loja

Unnamed: 0,SK_LOJA,ID_LOJA,DESC_LOJA
0,1,4589,AGUAS CLARAS SHOPING
1,2,5896,SUDOESTE 1
2,3,7596,304 SUL
3,4,1478,IGUATEMI SHOP
4,5,3691,AGUAS CLARAS RUA 5
5,6,2589,LAGO SUL
6,7,4789,SUDOESTE 2
7,8,3578,310 SUL
8,9,4687,108 SUL
9,10,1973,BSB SHOPPING


In [90]:
vendas.head()

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
0,2,4,1,1,2019-01-10,148,56,0.01,3,168
1,2,4,15,3,2019-01-10,148,14,0.02,8,112
2,2,4,18,3,2019-01-10,148,40,0.1,5,200
3,2,4,56,8,2019-01-10,148,19,0.25,8,152
4,2,4,41,7,2019-01-10,148,90,0.08,2,180


In [119]:
prod = [valor for valor in vendas['SK_PROD']]

In [120]:
contagem = []
parametro = list(range(1, 81))

for x in range(10):
    contagem.append(aux[:])
    
for index, valor in enumerate(lojas):
    contagem[valor - 1].append(prod[index])

In [151]:
for x in range(10):
    for y in contagem[x]:
        z = pd.Series(y)
        z = z.sort_values(ascending=True)
        if y == parametro:
            print(f'A loja {x + 1} vendeu ao menos 1 unidade de cada produto ')
            break
        else:
            print(f'A loja {x + 1} não vendeu ao menos 1 unidade de cada produto')
            break

A loja 1 não vendeu ao menos 1 unidade de cada produto
A loja 2 não vendeu ao menos 1 unidade de cada produto
A loja 3 não vendeu ao menos 1 unidade de cada produto
A loja 4 não vendeu ao menos 1 unidade de cada produto
A loja 5 não vendeu ao menos 1 unidade de cada produto
A loja 6 não vendeu ao menos 1 unidade de cada produto
A loja 7 não vendeu ao menos 1 unidade de cada produto
A loja 8 não vendeu ao menos 1 unidade de cada produto
A loja 9 não vendeu ao menos 1 unidade de cada produto
A loja 10 não vendeu ao menos 1 unidade de cada produto


<b><i>Com base nos dados acima, pode-se perceber que nenhuma unidade (loja) conseguiu vender ao menos 1 unidade de cada produto no período de tempo na tabela vendas.</i></b>

### Pergunta 3

In [154]:
vendas.head()

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
0,2,4,1,1,2019-01-10,148,56,0.01,3,168
1,2,4,15,3,2019-01-10,148,14,0.02,8,112
2,2,4,18,3,2019-01-10,148,40,0.1,5,200
3,2,4,56,8,2019-01-10,148,19,0.25,8,152
4,2,4,41,7,2019-01-10,148,90,0.08,2,180


In [235]:
produto.head()

Unnamed: 0,SK_PROD,ID_PROD,DESC_PROD
0,1,1597,Café
1,2,1606,Cerveja
2,3,1647,Refrigerante
3,4,1655,Suco
4,5,1656,Suco de frutas


In [225]:
preco # -> para os valores dos produtos na ordem da tabela vendas
prod # -> para os produtos em si na ordem da tabela vendas
quant = [quantia for quantia in vendas['QTD_VENDA']] # -> indica a quantia vendida de cada produto 

prod_array = np.array(prod)
preco_array = np.array(preco)
quant_array = np.array(quant)

prod_array = prod_array.reshape(-1, 1)
preco_array = preco_array.reshape(-1, 1)
quant_array = quant_array.reshape(-1, 1)

new_table = np.concatenate((prod_array, preco_array), axis=1)
other_table = np.concatenate((prod_array, quant_array), axis=1)

In [232]:
soma = total = maior = menor = pos_maior = pos_menor = 0
caixa = []

for index in range(1, 81):    
    for x, y in enumerate(new_table):
        if y[0] == index:
            soma += y[1]
    caixa.append(f'O produto {index} vendeu {soma} reais')
    if index == 1:
        maior = menor = soma
        pos_maior = pos_menor = 1
        
    else:
        if soma > maior:
            maior = soma
            pos_maior = index
        if soma < menor:
            menor = soma
            pos_menor = index
    total += soma
    soma = 0        

In [None]:
caixa

In [253]:
print(f'O total foi de {total} reais') 
print(f'O maior valor foi {maior} no produto {pos_maior} e o menor valor foi {menor} no produto {pos_menor}')

O total foi de 184975 reais
O maior valor foi 4952 no produto 63 e o menor valor foi 152 no produto 19


In [239]:
produto[produto.index.isin({62, 18})]

Unnamed: 0,SK_PROD,ID_PROD,DESC_PROD
18,19,1600,Caldo de legumes
62,63,1654,Sopa


<b><i>Pode-se concluir que o maior valor de venda (4952 reais) ocorreu no produto Sopa e o menor valor de venda (152 reais) ocorreu no produto Caldo de legumes.</i></b>

In [227]:
quant_series = pd.Series(quant)
quant_series.value_counts()

6     78
2     71
7     71
3     68
10    67
4     66
5     61
9     60
1     60
8     54
dtype: int64

<i>Agora sabemos que todas as quantidades vendidas variam de 1 a 10<i>

In [250]:
quantias = mais = menos = total_uni = pos_mais = pos_menos = 0
quantidade = []

for index in range(1, 81):
    for x, y in enumerate(other_table):
        if y[0] == index:
            quantias += y[1]
    quantidade.append(f'O produto {index} vendeu {quantias} unidades')
    if index == 1:
        mais = menos = quantias
        pos_mais = pos_menos = 1
        
    else:
        if quantias > mais:
            mais = quantias
            pos_mais = index
        if (quantias != 0) and (quantias < menos):
            menos = quantias
            pos_menos = index
       
    total_uni += quantias
    quantias = 0
            
    

In [None]:
quantidade

In [251]:
print(f'O produto que mais vendeu unidades foi {pos_mais} com {mais} unidades')
print(f'O produto que menos vendeu unidades foi {pos_menos} com {menos} unidades')

O produto que mais vendeu unidades foi 62 com 82 unidades
O produto que menos vendeu unidades foi 19 com 8 unidades


In [252]:
produto[produto.index.isin({61, 18})]

Unnamed: 0,SK_PROD,ID_PROD,DESC_PROD
18,19,1600,Caldo de legumes
61,62,1652,Sal grosso


In [245]:
vendas[vendas['SK_PROD'].isin({61})]

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
84,1,1,61,8,2019-03-11,248,79,0.1,10,790
166,2,4,61,8,2019-05-10,348,59,0.1,4,236
183,3,2,61,8,2019-05-10,349,48,0.351,2,96
214,9,2,61,8,2019-06-10,357,29,0.351,2,58
246,5,1,61,8,2019-07-09,448,89,0.01,3,267
335,1,1,61,8,2019-09-07,548,80,0.277,8,640
350,8,2,61,8,2019-09-07,551,40,0.02,3,120
358,10,3,61,8,2019-09-09,553,37,0.203,3,111
378,7,4,61,8,2019-10-08,557,26,0.351,3,78
395,4,3,61,8,2019-10-13,560,7,0.203,3,21


In [246]:
a = vendas[vendas['SK_PROD'].isin({61})]
a['TOT_VENDA'].sum()

3698

In [254]:
b = vendas[vendas['SK_PROD'].isin({18})]
b['TOT_VENDA'].sum()

2966

<b><i>O produto que mais vendeu unidades foi Sal grosso, com 82 unidades vendidas e um total de 3698 reais em vendas. O produto que menos vendeu unidades foi Caldo de legumes com apenas 2966 reais em vendas.</i></b>

### Pergunta 4

In [258]:
setor # -> TABELA SETOR

Unnamed: 0,SK_SET,ID_SET,DESC_SET
0,1,456,BEDIDAS
1,2,697,LATICINIOS
2,3,36,ENLATADOS
3,4,257,DOCES E SOBREMESAS
4,5,367,CONCELADOS
5,6,496,HIGIENE PESSOAL
6,7,47,LIMPEZA
7,8,83,ALIMENTOS
8,9,29,FEIRA
9,10,451,ACOUGUE


In [260]:
setores = [dado for dado in vendas['SK_SET']]

In [261]:
setores = pd.Series(setores)

In [264]:
setores.value_counts(normalize=True) * 100

8     23.932927
7     11.737805
9     11.737805
3     11.280488
2     10.670732
6      8.841463
1      7.774390
4      7.469512
10     5.487805
5      1.067073
dtype: float64

In [266]:
setor[setor['SK_SET'].isin({8, 5})]

Unnamed: 0,SK_SET,ID_SET,DESC_SET
4,5,367,CONCELADOS
7,8,83,ALIMENTOS


<b><i>Como é possível ver acima, o setor 8 (Alimentos) foi o que mais vendeu, com aproximadamente 24% do percentual total de vendas. Enquanto o setor 5 (Congelados) foi o que menos vendeu, com cerca de 1% do total de vendas.</i></b>

### Pergunta 5

In [8]:
loja

Unnamed: 0,SK_LOJA,ID_LOJA,DESC_LOJA
0,1,4589,AGUAS CLARAS SHOPING
1,2,5896,SUDOESTE 1
2,3,7596,304 SUL
3,4,1478,IGUATEMI SHOP
4,5,3691,AGUAS CLARAS RUA 5
5,6,2589,LAGO SUL
6,7,4789,SUDOESTE 2
7,8,3578,310 SUL
8,9,4687,108 SUL
9,10,1973,BSB SHOPPING


In [9]:
local

Unnamed: 0,SK_LOC,ID_LOC,DESC_LOC
0,1,258,AGUAS CLARAS
1,2,496,ASA SUL
2,3,478,ASA NORTE
3,4,631,SUDOESTE
4,5,732,GAMA


In [11]:
vendas.head(1)

Unnamed: 0,SK_LOJA,SK_LOC,SK_PROD,SK_SET,DT_CAL,ID_VENDA,VAL_VENDA,LUCRO_VENDA,QTD_VENDA,TOT_VENDA
0,2,4,1,1,2019-01-10,148,56,0.01,3,168


In [20]:
# vamos usar a variável anterior lojas aqui
serie_lojas = pd.Series(lojas)
sk_loja = list(range(1, 11))
unidades = serie_lojas.unique()
unidades.sort()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10], dtype=int64)

In [21]:
print(unidades == sk_loja)

[ True  True  True  True  True  True  True  True  True  True]


<b><i>O que isso quer dizer? A coluna SK_LOJA enumera todas as lojas de 1 a 10, logo, para saber se todas as lojas venderam, todos esses números precisam constar dentro do SK_LOJA (variável 'lojas') da tabela vendas. Eu criei uma lista de 1 a 10 para comparar se todas esses números estavam de fato presentes no dataset. Logo, pode-se concluir que todas as lojas venderam sim.</i></b>

In [24]:
locais = [valores for valores in vendas['SK_LOC']]
sk_local = list(range(1, 6))

In [25]:
serie_locais = pd.Series(locais)
unidades_locais = serie_locais.unique()
unidades_locais.sort()

In [27]:
unidades_locais

array([1, 2, 3, 4], dtype=int64)

In [26]:
print(unidades_locais == sk_local)

False


  print(unidades_locais == sk_local)


<b><i>Por meio dos códigos acima, pode-se subentender que, ainda que todas as lojas tenham realizado vendas no período de tempo do dataset, nem todos as localizações possuem vendas. O local 'Gama', portanto, não possui lojas indexadas a si, o que explica a sua ausência na construção dos gráficos.</i></b>

# Considerações Finais

Há diversas perguntas a serem respondidas com apenas esse conjunto de dados, e cada uma delas, se bem respondida, pode vir a gerar novas outras perguntas que, por sua vez, podem vir a auxiliar numa possível tomada de decisões. Alguns exemplos são: <br>
- Períodos do ano em que as vendas são máximas e mínimas
- Qual o setor que mais vende em cada mercado?
- E qual o setor que mais vende em cada localização?
- Quais as possíveis razões para aumentos e baixas no número de vendas?
- Há algum produto que venda mais em todas as lojas? 
- Há alguma expectativa de vendas para o final de 2020?
- Qual loja vendeu mais por maior período de tempo? Qual vendeu menos?
- ... <br>

Decerto que nem toda resposta virá a ser útil, mas para saber disso é preciso antes perguntar. Nessa análise superficial com Python, foquei em tentar responder dúvidas que eu tive durante a elaboração do Dashboard utilizando a ferramente Power BI, dúvidas, que, talvez por eu ainda não estar tão avançado quanto gostaria no domínio da ferramente, não soube como responder utilizando apenas o o Power BI. Entendo ainda que o grande diferencial ao utilizar Python seria tentar responder perguntas mais <b> matemáticas, estatísticas e talvez até preditivas </b>, visto que utilizar SQL poderia ter sanado minhas dúvidas em tempo talvez até mais hábil. Porém, sendo bem sincero, o uso de Python em vagas para Dados com BI tende a ser considerado como um diferencial, enquanto que SQL é sempre tratado como o básico a se ter dominado, por isso a minha escolha.