#### Bibliotecas

In [1]:
import pandas as pd
import datetime as dt
import numpy as np

#### Configurações

In [2]:
def descricao (df):
    """Essa função auxilia na descrição da base de dados
    
    Paramêtros:

    df = base de dados"""

    resultado = []

    for col in df.columns:

        naonulo  = len(df) - np.sum(pd.isna(df[col]))
        Null = np.sum(pd.isna(df[col]))
        unico = df[col].nunique()
        duplicado = df.duplicated().sum()
        tipocol = str(df[col].dtype)

        resultado.append([col, naonulo, Null, unico, duplicado, tipocol])

    resultado = pd.DataFrame(resultado)   
    resultado.columns = ["Nome da Columa","Não Nulo", "Null", "Único", "Duplicado", "Tipo"]

    return resultado

#### 1. Tabelas Dimensão

Tendo em vista que base **Dimensoes_DadosModelagem** possui diversas *sheets*, irei fazer o tratamento de dados quando necessário em cada uma delas.

#### Dimensão Clientes

In [3]:
#Primeira sheet: Dimensão Clientes
d_cli = pd.read_excel("Dimensoes_DadosModelagem.xlsx") #Importando dados 

**Visualizando a base de dados**

In [4]:
d_cli.head(2)

Unnamed: 0,ClienteID,Cliente,NomeContato,Endereco,Cidade,Pais,PaisCodigo,Regiao,CEP,Latitude,Longitude,Fax,Telefone
0,1,Eintrach GS,Albert von Einstein,Obere Str. 57,Berlin,Germany,DE,Europe,12209.0,52.401482,13.099724,030-0076545,030-0074321
1,2,La Tienda de la Esquina,Paco el Maco,Avda. de la Constitución 2222,Mexico City,Mexico,MX,North America,5021.0,19.631915,-99.133418,(5) 555-3745,(5) 555-4729


**Dimensão da base de dados**

In [5]:
print("Base - Dimensão Clientes")
print("Nº de linhas: {:,}" .format(d_cli.shape[0]))
print("Nº de colunas: {:,}" .format(d_cli.shape[1]))


Base - Dimensão Clientes
Nº de linhas: 90
Nº de colunas: 13


**Tabela descritiva da base de dados**

In [6]:
descricao(d_cli)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,ClienteID,90,0,90,0,int64
1,Cliente,90,0,90,0,object
2,NomeContato,90,0,90,0,object
3,Endereco,90,0,90,0,object
4,Cidade,90,0,67,0,object
5,Pais,90,0,21,0,object
6,PaisCodigo,90,0,21,0,object
7,Regiao,90,0,3,0,object
8,CEP,66,24,60,0,float64
9,Latitude,90,0,90,0,float64


Não foi possível observar dados duplicados, uma das principais preocupações em uma tabela dimensão. Além disso, foram encontrados valores ausentes nas colunas *CEP*, *Fax* e *Telefone*. Atentando que tais variáveis não serão utilizadas na análise e que a retirada dessas linhas excluiria em conjunto a chave primária *ClienteID*, opta-se pelo prosseguimento da análise. 

#### Dimensão Funcionários

In [8]:
#Segunda sheet: Dimensão Funcionários
d_func = pd.read_excel("Dimensoes_DadosModelagem.xlsx", sheet_name= 1)

**Visualizando a base de dados**

In [9]:
d_func.head(2)

Unnamed: 0,FuncionarioID,Extensao,NomeFuncionario,Genero,DataAdmissao,Escritorio,Supervisor,Cargo,SalarioAnual,MetaVendas
0,11,501.0,Rock Rollman,M,2012-10-01,5,Fletcher G. Mason,Sales Representative,135000,300000.0
1,2,101.0,Eli Preston,M,2011-09-15,1,Fletcher G. Mason,Sales Representative,97000,90000.0


**Dimensão da base de dados**

In [10]:
print("Base - Dimensão Funcionários")
print("Nº de linhas: {:,}" .format(d_func.shape[0]))
print("Nº de colunas: {:,}" .format(d_func.shape[1]))

Base - Dimensão Funcionários
Nº de linhas: 47
Nº de colunas: 10


**Tabela descritiva da base de dados**

In [11]:
descricao(d_func)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,FuncionarioID,47,0,47,0,int64
1,Extensao,39,8,24,0,float64
2,NomeFuncionario,47,0,47,0,object
3,Genero,47,0,2,0,object
4,DataAdmissao,47,0,41,0,datetime64[ns]
5,Escritorio,47,0,5,0,int64
6,Supervisor,47,0,9,0,object
7,Cargo,47,0,9,0,object
8,SalarioAnual,47,0,38,0,int64
9,MetaVendas,9,38,8,0,float64


Não foi possível observar valores duplicados, entretanto encontra-se valores ausentes nas colunas *Extensao* e *MetaVendas*. Dado que a extensão telefônica do funcionário não é importante para o problema da análise, prossegue-se sem o preenchimento dos valores ausentes para essa coluna. 

Considerando que *MetaVendas* possa ser importante para a análise desses dados, procura-se entender quais são esses valores ausentes e o seu preenchimento. 

**Preenchendo as informações faltantes**

In [272]:
#Visualizando alguns dados ausentes (NaN)
d_func[d_func["MetaVendas"].isna()].sample(5)

Unnamed: 0,FuncionarioID,Extensao,NomeFuncionario,Genero,DataAdmissao,Escritorio,Supervisor,Cargo,SalarioAnual,MetaVendas
34,44,204.0,Clark Kentman,M,2012-02-01,2,Kamal E. Kirk,Account Manager,55000,
21,31,500.0,Keith Helmkey,M,2015-04-01,5,Buckminster A. Fleming,Storeman,30200,
41,51,,Lucky Luke,M,2015-01-03,3,Fletcher G. Mason,Operator/Clerk,25000,
24,34,300.0,Bill Yang,M,2015-01-11,3,Buckminster A. Fleming,Storeman,32500,
42,52,,Mike Ashkenaz,M,2014-11-30,1,Kaitlin K. Chavez,Account Manager,49500,


In [12]:
#Conferindo se apenas o pessoal de cargos diferentes de Sales que não tem metas 
d_func.groupby("Cargo")[["MetaVendas"]].apply(lambda x: x.isna().sum())

Unnamed: 0_level_0,MetaVendas
Cargo,Unnamed: 1_level_1
Account Manager,12
Network Manager,2
Operator/Clerk,3
Product Manager,4
Sales Coordinator,0
Sales Manager,0
Sales Representative,0
Storeman,11
Systems Manager,6


Observa-se que de fato apenas os funcionários com cargos não relacionados a vendas que não possuem metas.

In [13]:
#Preenchendo os valores ausentes em MetasVendas em O
d_func['MetaVendas'].fillna(0, inplace=True)

#### Dimensão Escritórios

In [14]:
#Terceira sheet: Dimensão Escritórios
d_esc = pd.read_excel("Dimensoes_DadosModelagem.xlsx", sheet_name= 2) #Importando dados 

**Visualizando a base de dados**

In [15]:
d_esc.head(2)

Unnamed: 0,Escritorios,EscritorioLocalizacao
0,1,Stockholm
1,2,Lund


**Dimensão da base de dados**

In [16]:
print("Base - Dimensão Escritórios")
print("Nº de linhas: {:,}" .format(d_esc.shape[0]))
print("Nº de colunas: {:,}" .format(d_esc.shape[1]))

Base - Dimensão Escritórios
Nº de linhas: 5
Nº de colunas: 2


**Tabela descritiva da base de dados**

In [17]:
descricao(d_func)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,FuncionarioID,47,0,47,0,int64
1,Extensao,39,8,24,0,float64
2,NomeFuncionario,47,0,47,0,object
3,Genero,47,0,2,0,object
4,DataAdmissao,47,0,41,0,datetime64[ns]
5,Escritorio,47,0,5,0,int64
6,Supervisor,47,0,9,0,object
7,Cargo,47,0,9,0,object
8,SalarioAnual,47,0,38,0,int64
9,MetaVendas,47,0,9,0,float64


Não se encontra nenhum valor duplicado ou ausência de informações, com exceção a coluna *Extensão*. Portanto a base se encontra pronta para uso. 

#### Dimensão Categoria

In [18]:
#Quarta sheet: Dimensão Categoria
d_cat = pd.read_excel("Dimensoes_DadosModelagem.xlsx", sheet_name=3) #Importando dados 

**Visualizando a base de dados**

In [19]:
d_cat.head(2)

Unnamed: 0,CategoriaID,Categoria,Departamento,Descricao
0,1,Mens Clothes,Clothing,Fashion for Men
1,2,Womens wear,Clothing,Fashion for Women


**Dimensão da base de dados**

In [20]:
print("Base - Dimensão Categoria")
print("Nº de linhas: {:,}" .format(d_cat.shape[0]))
print("Nº de colunas: {:,}" .format(d_cat.shape[1]))

Base - Dimensão Categoria
Nº de linhas: 8
Nº de colunas: 4


**Tabela descritiva da base de dados**

In [21]:
descricao(d_cat)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,CategoriaID,8,0,8,0,int64
1,Categoria,8,0,8,0,object
2,Departamento,8,0,2,0,object
3,Descricao,8,0,8,0,object


Mais uma vez, não é necessário nenhum tipo de tratamento na base de dados

#### Dimensão Produto

In [22]:
#Quinta sheet: Dimensão Produto
d_prod = pd.read_excel("Dimensoes_DadosModelagem.xlsx", sheet_name=4) #Importando dados 

**Visualizando a base de dados**

In [23]:
d_prod.head(2)

Unnamed: 0,ProdutoID,CategoriaID,Produto,FornecedorID
0,1,1,Lenin Jeansshorts,1
1,2,1,Mr X Trousers,1


**Dimensão da base de dados**

In [24]:
print("Base - Dimensão Produto")
print("Nº de linhas: {:,}" .format(d_prod.shape[0]))
print("Nº de colunas: {:,}" .format(d_prod.shape[1]))

Base - Dimensão Produto
Nº de linhas: 77
Nº de colunas: 4


**Tratamento da base de dados**

In [25]:
descricao(d_prod)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,ProdutoID,77,0,77,0,int64
1,CategoriaID,77,0,8,0,int64
2,Produto,77,0,77,0,object
3,FornecedorID,77,0,29,0,int64


Novamente nenhum problema com dados duplicados ou Null's.

#### Dimensão Fornecedor

In [26]:
#Quinta sheet: Dimensão Fornecedor
d_forn = pd.read_excel("Dimensoes_DadosModelagem.xlsx", sheet_name=5) #Importando dados 

**Visualizando a base de dados**

In [27]:
d_forn.head(2)

Unnamed: 0,FornecedorID,Fornecedor,FornecedorContato,FornecedorPais
0,1,Sunny Clothes,Peter Shilton,UK
1,2,Big L,James Brown,USA


**Dimensão da base de dados**

In [28]:
print("Base - Dimensão Fornecedor")
print("Nº de linhas: {:,}" .format(d_forn.shape[0]))
print("Nº de colunas: {:,}" .format(d_forn.shape[1]))

Base - Dimensão Fornecedor
Nº de linhas: 29
Nº de colunas: 4


**Tabela descritiva da base de dados**

In [29]:
descricao(d_forn)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,FornecedorID,29,0,29,0,int64
1,Fornecedor,29,0,29,0,object
2,FornecedorContato,29,0,29,0,object
3,FornecedorPais,29,0,16,0,object


Não foram encontrados valores ausentes ou duplicados. 

#### Exportando as bases de dados 


In [252]:
with pd.ExcelWriter('dimensoes.xlsx') as writer:  
    d_cli.to_excel(writer, sheet_name='d_clientes', index = False)
    d_func.to_excel(writer, sheet_name='d_funcionarios', index = False)
    d_prod.to_excel(writer, sheet_name='d_produto', index = False)
    d_cat.to_excel(writer, sheet_name='d_categoria',index = False)
    d_forn.to_excel(writer, sheet_name='d_fornecedor',index = False)
    d_esc.to_excel(writer, sheet_name='d_escritorio',index = False)

#### 2. Tabelas Fato

#### Fato Cabeçalho

In [30]:
f_cab = pd.read_csv("FatoCabecalho_DadosModelagem.txt", sep = "\t", decimal=",") #Importando a base de dados

**Visualizando a base de dados**

In [31]:
f_cab.head(2)

Unnamed: 0,Data,ClienteID,FuncionarioID,ValorFrete,CupomID,EmpresaFrete,DataEntrega
0,22/03/2018,78,11,12.45,11081,Freight Express,05/04/2018
1,21/11/2016,62,3,20.01,10637,One Liners,24/11/2016


In [32]:
print("Base - Fato Cabeçalho")
print("Nº de linhas: {:,}" .format(f_cab.shape[0]))
print("Nº de colunas: {:,}" .format(f_cab.shape[1]))

Base - Fato Cabeçalho
Nº de linhas: 836
Nº de colunas: 7


**Tabela descritiva da base de dados**

In [33]:
descricao(f_cab)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,Data,836,0,533,0,object
1,ClienteID,836,0,90,0,int64
2,FuncionarioID,836,0,9,0,int64
3,ValorFrete,836,0,783,0,float64
4,CupomID,836,0,836,0,int64
5,EmpresaFrete,836,0,3,0,object
6,DataEntrega,836,0,556,0,object


Não foi possível encontrar nenhum dado duplicado ou nulo. 

#### Fato Detalhes

In [34]:
f_detalhes = pd.read_csv("FatoDetalhes_DadosModelagem.csv", sep = ";", decimal=",") #Importando a base de dados

**Visualizando a base de dados**

In [36]:
f_detalhes.head()

Unnamed: 0,CupomID,ProdutoID,Quantidade,Valor,Desconto,Custo,ValorLiquido
0,10308,69,1,2.12,0.0,1.8317,0.2883
1,10558,73,3,2.97,0.0,2.4057,0.5643
2,10259,37,1,4.37,0.0,3.7757,0.5943
3,11077,73,5,6.11,0.0605,5.838,0.2725
4,10752,69,3,6.57,0.0,5.3217,1.2483


**Dimensão da base de dados**

In [37]:
print("Base - Fato Detalhes")
print("Nº de linhas: {:,}" .format(f_detalhes.shape[0]))
print("Nº de colunas: {:,}" .format(f_detalhes.shape[1]))

Base - Fato Detalhes
Nº de linhas: 2,172
Nº de colunas: 7


**Tabela descritiva da base de dados**

In [38]:
descricao(f_detalhes)

Unnamed: 0,Nome da Columa,Não Nulo,Null,Único,Duplicado,Tipo
0,CupomID,2172,0,836,0,int64
1,ProdutoID,2172,0,77,0,int64
2,Quantidade,2172,0,56,0,int64
3,Valor,2172,0,2105,0,float64
4,Desconto,2172,0,829,0,float64
5,Custo,2172,0,2140,0,float64
6,ValorLiquido,2172,0,2149,0,float64


Como anteriormente não foi encontrado linhas com ausências de informações ou dados duplicados. 

**Fazendo relacionamento entre as duas tabelas fato**

In [39]:
fatos = pd.merge(left = f_detalhes , right = f_cab, on = ["CupomID"], how = "inner")

#### Exportando a base de dados

In [263]:
fatos.to_csv('fatos.csv', index=False)