In [2]:
import pandas as pd
import numpy as np

In [3]:
# Reading fact and dimensions csvs
fact = pd.read_csv('basevendas.csv')
dclient = pd.read_csv('cadastroclientes.csv')
dprod = pd.read_csv('cadastroprodutos.csv')

In [4]:
# Checking table data types
fact.dtypes

Ano                    int64
Trimestre             object
Mês                   object
Dia                    int64
SKU                   object
Código Cliente         int64
Loja                  object
Quantidade Vendida     int64
dtype: object

In [5]:
dclient.dtypes

Ano                int64
Trimestre         object
Mês               object
Dia                int64
Sexo              object
Nome              object
Código Cliente     int64
Nº de Filhos       int64
E-mail            object
dtype: object

In [6]:
dprod.dtypes

Marca             object
Categoria         object
Produto           object
SKU               object
Custo Unitário     int64
Preço Unitário     int64
dtype: object

In [7]:
# Verifying table structure
fact.head(1)

Unnamed: 0,Ano,Trimestre,Mês,Dia,SKU,Código Cliente,Loja,Quantidade Vendida
0,2016,Trim 1,janeiro,1,HL1001,796,Fortaleza,2


In [8]:
dclient.head(1)

Unnamed: 0,Ano,Trimestre,Mês,Dia,Sexo,Nome,Código Cliente,Nº de Filhos,E-mail
0,1950,Trim 1,janeiro,13,Masculino,Bruno Oliveira,743,0,bruno10@outlook.com


In [9]:
dprod.head(1)

Unnamed: 0,Marca,Categoria,Produto,SKU,Custo Unitário,Preço Unitário
0,Acer,Notebook,Aspire 5,HL1024,1150,2400


In [11]:
# Get brands (unique)
brand = dprod["Marca"].unique()
brand

array(['Acer', 'Apple', 'Canon', 'Dell', 'LG', 'Motorola', 'Nikon',
       'Philco', 'Samsung', 'Sony', 'Xiaomi'], dtype=object)

In [12]:
# A quick logic of quantity sold by brand
sold = 0
for b in brand:
    fsku = dprod.loc[dprod["Marca"]==b,"SKU"]
    for s in fsku:
        sold = sold + (fact.loc[fact["SKU"]==s,"Quantidade Vendida"].sum())
    print(f'{b} sold ${sold}')

Acer sold $3155
Apple sold $11317
Canon sold $17186
Dell sold $23710
LG sold $31472
Motorola sold $38831
Nikon sold $41951
Philco sold $46669
Samsung sold $60607
Sony sold $67294
Xiaomi sold $71442


In [13]:
# Reading CSVs again in case of any change
fact = pd.read_csv('basevendas.csv')
dclient = pd.read_csv('cadastroclientes.csv')
dprod = pd.read_csv('cadastroprodutos.csv')

In [18]:
# Split fact into sku

In [14]:
fact_groupby_sku = fact.groupby(by="SKU")

In [15]:
# Split products in brands
dprod_groupby_brand = dprod.groupby(by="Marca")

In [16]:
# Show a specific brand products
dprod_groupby_brand.get_group("Apple")

Unnamed: 0,Marca,Categoria,Produto,SKU,Custo Unitário,Preço Unitário
1,Apple,Celular,iPhone 6S,HL1010,1150,1900
2,Apple,Celular,iPhone 7,HL1002,1500,2500
3,Apple,Celular,iPhone XS,HL1019,2800,6500
4,Apple,Smart Watch,Apple Watch,HL1004,900,1750
5,Apple,Tablet,iPad 32GB Wifi,HL1022,350,750


In [22]:
# Join table fact and products to have a better overview of the data
fact_leftjoin_dprod = pd.merge(fact,dprod,how="left",on="SKU")

In [23]:
fact_leftjoin_dprod

Unnamed: 0,Ano,Trimestre,Mês,Dia,SKU,Código Cliente,Loja,Quantidade Vendida,Marca,Categoria,Produto,Custo Unitário,Preço Unitário
0,2016,Trim 1,janeiro,1,HL1001,796,Fortaleza,2,LG,Televisão,Smart TV 50' 4K,1700,2600
1,2016,Trim 1,janeiro,1,HL1001,235,São Paulo,5,LG,Televisão,Smart TV 50' 4K,1700,2600
2,2016,Trim 1,janeiro,1,HL1002,157,Fortaleza,4,Apple,Celular,iPhone 7,1500,2500
3,2016,Trim 1,janeiro,1,HL1002,452,Nova Iguaçu,3,Apple,Celular,iPhone 7,1500,2500
4,2016,Trim 1,janeiro,1,HL1002,429,São Paulo,3,Apple,Celular,iPhone 7,1500,2500
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21973,2018,Trim 4,dezembro,31,HL1021,489,Porto Alegre,1,Samsung,Celular,Galaxy S8,1400,3000
21974,2018,Trim 4,dezembro,31,HL1021,5,Recife,5,Samsung,Celular,Galaxy S8,1400,3000
21975,2018,Trim 4,dezembro,31,HL1021,765,Salvador,2,Samsung,Celular,Galaxy S8,1400,3000
21976,2018,Trim 4,dezembro,31,HL1023,538,Guarulhos,1,Samsung,Notebook,Samsung Dual Core,550,1500


In [25]:
# Quantity sold by brand using the joined table
sold_by_brand = fact_leftjoin_dprod.groupby("Marca")
sold_by_brand.agg({"Quantidade Vendida":"sum"})

Unnamed: 0_level_0,Quantidade Vendida
Marca,Unnamed: 1_level_1
Acer,3155
Apple,8162
Canon,5869
Dell,6524
LG,7762
Motorola,7359
Nikon,3120
Philco,4718
Samsung,13938
Sony,6687


In [27]:
fact_leftjoin_dprod

Unnamed: 0,Ano,Trimestre,Mês,Dia,SKU,Código Cliente,Loja,Quantidade Vendida,Marca,Categoria,Produto,Custo Unitário,Preço Unitário
0,2016,Trim 1,janeiro,1,HL1001,796,Fortaleza,2,LG,Televisão,Smart TV 50' 4K,1700,2600
1,2016,Trim 1,janeiro,1,HL1001,235,São Paulo,5,LG,Televisão,Smart TV 50' 4K,1700,2600
2,2016,Trim 1,janeiro,1,HL1002,157,Fortaleza,4,Apple,Celular,iPhone 7,1500,2500
3,2016,Trim 1,janeiro,1,HL1002,452,Nova Iguaçu,3,Apple,Celular,iPhone 7,1500,2500
4,2016,Trim 1,janeiro,1,HL1002,429,São Paulo,3,Apple,Celular,iPhone 7,1500,2500
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21973,2018,Trim 4,dezembro,31,HL1021,489,Porto Alegre,1,Samsung,Celular,Galaxy S8,1400,3000
21974,2018,Trim 4,dezembro,31,HL1021,5,Recife,5,Samsung,Celular,Galaxy S8,1400,3000
21975,2018,Trim 4,dezembro,31,HL1021,765,Salvador,2,Samsung,Celular,Galaxy S8,1400,3000
21976,2018,Trim 4,dezembro,31,HL1023,538,Guarulhos,1,Samsung,Notebook,Samsung Dual Core,550,1500


In [28]:
sale_total_value = fact_leftjoin_dprod["Quantidade Vendida"]*fact_leftjoin_dprod["Preço Unitário"]

In [29]:
fact_leftjoin_dprod["Total Sale Value"] = sale_total_value

In [30]:
fact_leftjoin_dprod.agg({"Quantidade Vendida":"sum"})

Quantidade Vendida    71442
dtype: int64

In [31]:
fact_leftjoin_dprod

Unnamed: 0,Ano,Trimestre,Mês,Dia,SKU,Código Cliente,Loja,Quantidade Vendida,Marca,Categoria,Produto,Custo Unitário,Preço Unitário,Total Sale Value
0,2016,Trim 1,janeiro,1,HL1001,796,Fortaleza,2,LG,Televisão,Smart TV 50' 4K,1700,2600,5200
1,2016,Trim 1,janeiro,1,HL1001,235,São Paulo,5,LG,Televisão,Smart TV 50' 4K,1700,2600,13000
2,2016,Trim 1,janeiro,1,HL1002,157,Fortaleza,4,Apple,Celular,iPhone 7,1500,2500,10000
3,2016,Trim 1,janeiro,1,HL1002,452,Nova Iguaçu,3,Apple,Celular,iPhone 7,1500,2500,7500
4,2016,Trim 1,janeiro,1,HL1002,429,São Paulo,3,Apple,Celular,iPhone 7,1500,2500,7500
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21973,2018,Trim 4,dezembro,31,HL1021,489,Porto Alegre,1,Samsung,Celular,Galaxy S8,1400,3000,3000
21974,2018,Trim 4,dezembro,31,HL1021,5,Recife,5,Samsung,Celular,Galaxy S8,1400,3000,15000
21975,2018,Trim 4,dezembro,31,HL1021,765,Salvador,2,Samsung,Celular,Galaxy S8,1400,3000,6000
21976,2018,Trim 4,dezembro,31,HL1023,538,Guarulhos,1,Samsung,Notebook,Samsung Dual Core,550,1500,1500


In [39]:
group_category = fact_leftjoin_dprod.groupby(by=["Categoria","Marca"])

In [40]:
final_table = group_category.agg({"Quantidade Vendida":"sum","Total Sale Value":"sum"})

In [42]:
# A more complex approach with two index table showing quantity sold as well as the total sale value
final_table

Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade Vendida,Total Sale Value
Categoria,Marca,Unnamed: 2_level_1,Unnamed: 3_level_1
Celular,Apple,6997,28331500
Celular,Motorola,7359,10510200
Celular,Samsung,6690,20800400
Câmera,Canon,5869,8803500
Câmera,Nikon,3120,4836000
Câmera,Sony,6687,4680900
Notebook,Acer,3155,7572000
Notebook,Dell,6524,21133200
Notebook,Samsung,3976,5964000
Smart Watch,Apple,782,1368500


Unnamed: 0_level_0,Unnamed: 1_level_0,Quantidade Vendida,Total Sale Value
Categoria,Marca,Unnamed: 2_level_1,Unnamed: 3_level_1
Celular,Apple,6997,28331500
Celular,Motorola,7359,10510200
Celular,Samsung,6690,20800400
Câmera,Canon,5869,8803500
Câmera,Nikon,3120,4836000
Câmera,Sony,6687,4680900
Notebook,Acer,3155,7572000
Notebook,Dell,6524,21133200
Notebook,Samsung,3976,5964000
Smart Watch,Apple,782,1368500
