## 1 - Imports

In [82]:
import pandas as pd
import numpy as np
import sqlalchemy
import psycopg2
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from warnings import filterwarnings
from IPython.display import HTML

## 1.1 - Funções

In [2]:
def jupyter_settings():
    %matplotlib inline
    
    filterwarnings('ignore')
    
    #pd.set_option('display.float_format', lambda x: '%.2f' % x)
    
    plt.style.use( 'ggplot')
    plt.rcParams['figure.figsize'] = [24, 9]
    plt.rcParams['font.size'] = 24
    
    display( HTML( '<style>.container { width:100% !important; }</style>') )
    pd.options.display.max_columns = None
    pd.options.display.max_rows = None
    pd.set_option( 'display.expand_frame_repr', False )
    
    sns.set()
    
jupyter_settings()

## 1.2 - Carregando os dados

In [3]:
# Conectando banco de dados
engine = sqlalchemy.create_engine('postgresql://postgres:triforce@localhost/vendas')

In [4]:
# Verificar as tables schemas
query = "SELECT distinct(table_schema) from information_schema.tables"
pd.read_sql(query, engine)

Unnamed: 0,table_schema
0,pg_catalog
1,mkt
2,information_schema


In [5]:
# Selecionando a table schema mkt
query = "SELECT * FROM information_schema.tables WHERE table_schema = 'mkt'"
df = pd.read_sql(query, engine)
df.head()

Unnamed: 0,table_catalog,table_schema,table_name,table_type,self_referencing_column_name,reference_generation,user_defined_type_catalog,user_defined_type_schema,user_defined_type_name,is_insertable_into,is_typed,commit_action
0,vendas,mkt,TB_LOJA,BASE TABLE,,,,,,YES,NO,
1,vendas,mkt,TB_VENDEDOR,BASE TABLE,,,,,,YES,NO,
2,vendas,mkt,TB_DATA,BASE TABLE,,,,,,YES,NO,
3,vendas,mkt,TB_PRODUTO,BASE TABLE,,,,,,YES,NO,
4,vendas,mkt,TB_VENDAS,BASE TABLE,,,,,,YES,NO,


In [6]:
# Verificando as tabelas existentes
df['table_name'].unique()

array(['TB_LOJA', 'TB_VENDEDOR', 'TB_DATA', 'TB_PRODUTO', 'TB_VENDAS'],
      dtype=object)

In [7]:
query = 'SELECT * FROM mkt."TB_VENDAS"'
df = pd.read_sql(query, engine)
df.head()

Unnamed: 0,ID_PRODUTO,ID_LOJA,ID_VENDEDOR,DATA_COMPLETA,VALOR_VENDA
0,SKU-0000001,1009,SP8821,04/10/2012,679.0
1,SKU-0000002,1006,SP8821,01/01/2012,832.0
2,SKU-0000003,1006,SP8821,02/02/2012,790.0
3,SKU-0000004,1003,SP8821,03/03/2012,765.32
4,SKU-0000005,1004,SP8821,04/04/2012,459.89


In [8]:
query = 'SELECT * FROM mkt."TB_DATA"'
df = pd.read_sql(query, engine)
df.head()

Unnamed: 0,DATA_COMPLETA,DIA,MES,ANO
0,04/10/2012,,,
1,01/01/2012,,,
2,02/02/2012,,,
3,03/03/2012,,,
4,04/04/2012,,,


In [12]:
# Unindo as tabelas
query = """SELECT * 

FROM mkt."TB_VENDAS" v INNER JOIN mkt."TB_PRODUTO" P on v."ID_PRODUTO" = P."ID_PRODUTO" 
                        INNER JOIN mkt."TB_DATA" d on v."DATA_COMPLETA" = d."DATA_COMPLETA"

"""
df = pd.read_sql(query, engine)

# Excluindo colunas duplicadas
df = df.loc[:,~df.columns.duplicated()]

df.head()

Unnamed: 0,ID_PRODUTO,ID_LOJA,ID_VENDEDOR,DATA_COMPLETA,VALOR_VENDA,NOME_PRODUTO,CATEGORIA,SEGMENTO,MARCA,DIA,MES,ANO
0,SKU-0000001,1009,SP8821,04/10/2012,679.0,LG K10 TV Power,Celulares,Corporativo,LG,,,
1,SKU-0000002,1006,SP8821,01/01/2012,832.0,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,,,
2,SKU-0000003,1006,SP8821,02/02/2012,790.0,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,,,
3,SKU-0000004,1003,SP8821,03/03/2012,765.32,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,,,
4,SKU-0000005,1004,SP8821,04/04/2012,459.89,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux,,,


# 2 - Análise descritiva

In [13]:
df2 = df.copy()

## 2.1 - Renomeando colunas

In [41]:
# Colocando o nome das colunas no diminutivo
aux = df2.columns

for e in aux:
    col = e.casefold()
    df2.rename(columns={e:col}, inplace=True)

Index(['id_produto', 'id_loja', 'id_vendedor', 'data_completa', 'valor_venda',
       'nome_produto', 'categoria', 'segmento', 'marca', 'dia', 'mes', 'ano'],
      dtype='object')

## 2.2 - Dimensão do dataset

In [42]:
print(f'Quantidade de linhas: {df2.shape[0]}')
print(f'Quantidade de colunas: {df2.shape[1]}')

Quantidade de linhas: 457
Quantidade de colunas: 12


## 2.3 - Tipo dos dados

In [43]:
df2.dtypes

id_produto               object
id_loja                  object
id_vendedor              object
data_completa    datetime64[ns]
valor_venda             float64
nome_produto             object
categoria                object
segmento                 object
marca                    object
dia                      object
mes                      object
ano                      object
dtype: object

## 2.4 - Alterando tipo de dados

In [44]:
df2['data_completa'] = pd.to_datetime(df2['data_completa'], format='%d/%m/%Y')

## 2.5 - Dados nulos

In [45]:
df2.isnull().sum()

id_produto         0
id_loja            0
id_vendedor        0
data_completa      0
valor_venda        0
nome_produto       0
categoria          0
segmento           0
marca              0
dia              457
mes              457
ano              457
dtype: int64

# 3.0 - Feature Engineering

In [47]:
df3 = df2.copy()

In [48]:
# Separando a data completa em dia, mês e ano
df3['dia'] = df3['data_completa'].dt.day
df3['mes'] = df3['data_completa'].dt.month
df3['ano'] = df3['data_completa'].dt.year

df3.head()

Unnamed: 0,id_produto,id_loja,id_vendedor,data_completa,valor_venda,nome_produto,categoria,segmento,marca,dia,mes,ano
0,SKU-0000001,1009,SP8821,2012-10-04,679.0,LG K10 TV Power,Celulares,Corporativo,LG,4,10,2012
1,SKU-0000002,1006,SP8821,2012-01-01,832.0,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,1,1,2012
2,SKU-0000003,1006,SP8821,2012-02-02,790.0,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,2,2,2012
3,SKU-0000004,1003,SP8821,2012-03-03,765.32,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,3,3,2012
4,SKU-0000005,1004,SP8821,2012-04-04,459.89,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux,4,4,2012


# 4.0 - Respondendo as perguntas de negócio

1 - Qual o total do valor de vendas por categoria?  
2 - Qual o total do valor de vendas por marca?  
3 - Qual o total do valor de vendas por ano?  
4 - Qual a média de valor de venda por segmento?  
5 - Qual o total do valor de venda?  
6 - Qual a média do valor de venda?

## 1 - Qual o total do valor de vendas por categoria?

In [49]:
aux = df3.groupby('categoria', as_index=False)['valor_venda'].sum().sort_values('valor_venda', ascending=False)
px.bar(x='categoria', y='valor_venda', data_frame=aux)

## 2 - Qual o total do valor de vendas por marca?

In [50]:
aux = df3.groupby('marca', as_index=False)['valor_venda'].sum().sort_values('valor_venda', ascending=False)
px.bar(x='marca', y='valor_venda', data_frame=aux)

## 3 - Qual o total do valor de vendas por ano?

In [77]:
aux = df3.groupby('ano', as_index=False)['valor_venda'].sum().sort_values('valor_venda', ascending=True)
aux['ano'] = aux['ano'].astype(str)
aux['avg'] = aux['valor_venda'].mean()

bars = go.Bar(y=aux['ano'], x =aux['valor_venda'],  orientation='h', showlegend= False)

line = go.Scatter(y= [0, 1], x= aux['avg'], mode= 'lines', showlegend= False, hoverinfo='none')

fig = make_subplots(specs=[[{"secondary_y": True}]])
fig.add_trace(bars, 1, 1, secondary_y=False)
fig.add_trace(line, 1, 1, secondary_y=True)

fig.update_layout(yaxis2= dict(fixedrange= True, range= [0, 1], visible= False))

## 4 - Qual a média de valor de venda por segmento?

In [79]:
aux = df3.groupby('segmento', as_index=False)['valor_venda'].mean().sort_values('valor_venda', ascending=False)
px.bar(x='segmento', y='valor_venda', data_frame=aux)

## 5 - Qual o total do valor de venda?

In [80]:
df3['valor_venda'].sum()

361081.11

## 6 - Qual a média do valor de venda?

In [83]:
np.round(df3['valor_venda'].mean(), 2)

790.11