## O primeiro passo para responder as perguntas é combinar todas as tabelas fornecidas.

In [146]:
# Importando as bibliotecas necessárias
import pandas as pd 
import numpy as np

### Primeiramente, é necessário carregar os dados:

In [147]:
base_lojas = pd.read_csv("./data/Base_Lojas.txt", encoding="latin1", sep=";", index_col="Código da Loja", decimal=",")
base_lojas_complementar = pd.read_csv("./data/Base_Lojas complementar.txt", encoding="latin1", sep=";", index_col="Código da Loja", decimal=",")
itens_clientes = pd.read_csv("./data/Itens e clientes por loja.txt", encoding="latin1", sep=";", index_col="Código da Loja", decimal=",")
rh_loja =  pd.read_csv("./data/RHLoja.txt", encoding="latin1", sep=";", index_col="Código da Loja", decimal=",")

### Podemos observar uma parte de cada uma das tabelas:

In [148]:
base_lojas.head()

Unnamed: 0_level_0,Formato/ BU,Estado
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1
47,Super Loja,AL
68,Super Loja,AL
2,Super Loja,BA
363,Loja do sabor,BA
40,Super Loja,BA


In [149]:
base_lojas_complementar.head()

Unnamed: 0_level_0,"Área da Loja (Piso de Vendas, em Metros Quadrados)",Quantidade de SKUs da Loja,Possui limpeza Terceirizada?
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
691,61,5.572,NÃO
656,66,3.192,NÃO
516,74,3.111,NÃO
517,75,3.2,NÃO
623,81,3.194,NÃO


In [150]:
itens_clientes.head()

Unnamed: 0_level_0,Itens Vendidos,Clientes atendidos
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1
722,148.594,30.593
723,208.527,42.021
701,230.222,86.47
756,244.797,47.141
760,267.1,67.828


In [151]:
rh_loja.head()

Unnamed: 0_level_0,HC Ativo Total da Loja,Horas Trabalhadas - Total da Loja,Taxa de Tunover
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
509,5,1.064,"2,1%"
500,5,1.078,"2,8%"
194,48,10.293,"2,9%"
160,42,9.153,"3,1%"
398,35,7.672,"3,6%"


### O primeiro ponto a ser destacado é que todas as tabelas se relacionam pela chave "Código da Loja". Sendo assim, podemos combiná-las a partir dessa chave.

In [152]:
df = base_lojas.join(base_lojas_complementar, on="Código da Loja", how="outer").join(rh_loja, on="Código da Loja", how="outer").join(itens_clientes, on="Código da Loja", how="outer")

In [153]:
# É convenite ordenar a tabela pelo Código da Loja
df = df.sort_values(by="Código da Loja")

In [154]:
# Podemos ver como fica a tabela final:
df

Unnamed: 0_level_0,Formato/ BU,Estado,"Área da Loja (Piso de Vendas, em Metros Quadrados)",Quantidade de SKUs da Loja,Possui limpeza Terceirizada?,HC Ativo Total da Loja,Horas Trabalhadas - Total da Loja,Taxa de Tunover,Itens Vendidos,Clientes atendidos
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,Super Loja,MS,3.586,26.904,SIM,101,21.808,"45,5%",5.662.916,585.950
2,Super Loja,BA,4.496,26.592,SIM,121,25.690,"27,3%",10.006.477,837.415
3,Super Loja,PI,4.107,28.476,SIM,178,39.144,"29,3%",13.158.512,1.092.452
4,Super Loja,MS,3.523,28.669,SIM,111,23.790,"40,0%",6.281.119,755.513
5,Super Loja,SP,4.499,32.325,SIM,247,52.062,"17,3%",20.743.582,2.008.825
...,...,...,...,...,...,...,...,...,...,...
756,Lojas da Familia,PE,140,4.881,NÃO,9,1.890,"4,4%",244.797,47.141
757,Lojas da Familia,SP,165,4.954,NÃO,9,1.891,"35,0%",392.557,71.126
759,Lojas da Familia,SP,220,5.917,NÃO,10,2.287,"20,6%",439.120,80.604
760,Lojas da Familia,SP,132,4.935,NÃO,7,1.560,"11,7%",267.100,67.828


In [156]:
df.to_csv("./data/dados_rd.txt")

### 1) a) Qual a loja mais produtiva da base disponibilizada?

In [131]:
# É preciso converter o tipo:
df["Itens Vendidos"] = df["Itens Vendidos"].str.replace('.', '')
df["Itens Vendidos"] = df["Itens Vendidos"].astype('float')
df["Horas Trabalhadas - Total da Loja"] = df["Horas Trabalhadas - Total da Loja"].str.replace('.', '')
df["Horas Trabalhadas - Total da Loja"] = df["Horas Trabalhadas - Total da Loja"].astype('float')

In [133]:
# Criando a coluna produtividade:
df["produtividade"] = df["Itens Vendidos"]/df["Horas Trabalhadas - Total da Loja"]

In [139]:
# Buscando pela loja mais produtiva
df.loc[df.produtividade == df.produtividade.max()]

Unnamed: 0_level_0,Formato/ BU,Estado,"Área da Loja (Piso de Vendas, em Metros Quadrados)",Quantidade de SKUs da Loja,Possui limpeza Terceirizada?,HC Ativo Total da Loja,Horas Trabalhadas - Total da Loja,Taxa de Tunover,Itens Vendidos,Clientes atendidos,produtividade
Código da Loja,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
151,Lojas Esperança,SP,943,9.689,NÃO,35,7585.0,"12,3%",6424913.0,485.832,847.055109



### Número da loja mais produtiva: 151

1) b) Qual é a média de proditividade das lojas que possuem limpeza terceirizada?
df.loc[df[]]

In [142]:
df.loc[df["Possui limpeza Terceirizada?"] == "SIM", "produtividade"].mean()

413.9929708324899

1) c) Qual a média de horas trabalhadas das lojas "Super Loja"?

In [144]:
df.loc[df["Formato/ BU"] == "Super Loja", "Horas Trabalhadas - Total da Loja"].mean()

26120.378151260506

Podemos exportar os dados calculados para resolver as demais questões no tableau:

In [145]:
df.to_csv("./data/dados_teste_rd")