Importação e Leitura dos Dados

In [None]:
import pandas as pd
from datetime import datetime
import os
import sys
import calendar

In [None]:
df = pd.read_csv('../data/raw/superstore_final_dataset.csv', encoding='latin1')

Entendendo a base de Dados

Nessa sessão será executado alguns comandos, para entender melhor sobre a estrutura e como funciona o dataset

In [None]:
df.head(10)

In [None]:
df.info() # Entendendo melhor como funciona e está estruturado os dados

In [None]:
df.columns # Verificando quais são as colunas existentes nesse dataset

In [None]:
df.describe()

Preparação dos Dados

Nessa sessão será executado as principais formatações, limpezas e preparações dos dados para as análise. Garantindo a consistência e clareza dos dados

In [None]:
df_copy = df.copy()
df_copy = df_copy.set_index('Row_ID')

In [None]:
df_copy.isnull().sum()
mask_index_nan = df_copy['Postal_Code'].isnull()
mask_index_nan # Uma máscara com os index onde o Postal_Code está com o valor NaN, para ter um controle exato de onde essses valores estão

In [None]:
# Mudar os valores NaN do Postal_Code para o valor 0
df_copy.loc[df_copy['Postal_Code'].isnull(), 'Postal_Code'] = 0
df_copy[mask_index_nan] # Verificar se a correção foi feita corretamente, se sim não deve retornar nenhuma linha

In [None]:
df_copy.loc[df_copy.duplicated()]
# Ter o controle e visualização de qual linha realmente é a duplicada, somente para uma breve visualização das linhas
linhas_duplicadas = df_copy['Order_ID'] == 'US-2015-150119'
df_copy[linhas_duplicadas]

In [None]:
# Remover as duplicatas
mask = ~df_copy.duplicated(keep='first') # Uso do operador not, para que as duplicatas sejam false, e ao aplicar a máscara no df, ela não apareça, pois é false
df_copy = df_copy[mask].copy()
df_copy

In [None]:
# Função para formatar as datas
def formatar_datas(valor):
    date = valor.split('/')
    nova_data = f'{date[2]}-{date[1]}-{date[0]}'
    return nova_data
df_copy['Order_Date'] = df_copy['Order_Date'].apply(formatar_datas)
df_copy['Ship_Date'] = df_copy['Ship_Date'].apply(formatar_datas)

In [None]:
# Converter Order_Date e Ship_Date para o tipo datetime
df_copy['Order_Date'] = pd.to_datetime(df_copy['Order_Date'], errors='coerce')
df_copy['Ship_Date'] = pd.to_datetime(df_copy['Ship_Date'], errors='coerce')

Analisar o total de vendas entre 2015-2018

In [None]:
total_vendas = df_copy['Sales'].sum()
total_vendas

Analisar o total de vendas por ano entre 2015-2018

In [None]:
# Separar cada ano
vendas_por_ano = {} # Local onde a quantidade de vendas de cada ano será armazenado
def soma_vendas_por_ano(valor):
    for x in range(5, 10):
        ano = int(f'201{x}')
        query = round(df_copy.loc[df_copy['Ship_Date'].dt.year == ano, 'Sales'].sum(), 2)
        valor.update({f'201{x}':float(query)})
    series = pd.Series(valor)
    return pd.DataFrame(series, columns=['Total de Vendas']).sort_values(by='Total de Vendas', ascending=False)
soma_vendas_por_ano(vendas_por_ano)

Identificação Mensal dos Picos e Quedas de Vendas Durante o Ano

In [None]:
vendas_por_mes = {} # Local onde a quantidade de vendas por mês ficará armazenado

# Função pegar a soma de vendas por mês em cada ano
def soma_vendas_por_mes(valor):
    for x in range(5,10):
        ano = int(f'201{x}')
        df_ano_filtrado = df_copy.loc[df_copy['Ship_Date'].dt.year == ano]
        for m in range(1, 13):
            
            ultimo_dia = calendar.monthrange(ano, m)[1]
            data_inicial = datetime.strptime(f'201{x}-{m:02d}-01', '%Y-%m-%d')
            data_final = datetime.strptime(f'201{x}-{m:02d}-{ultimo_dia}', '%Y-%m-%d')
            
            valor_vendas_mes = round(df_ano_filtrado.loc[(df_ano_filtrado['Ship_Date'] >= data_inicial) & (df_ano_filtrado['Ship_Date'] <= data_final), 'Sales'].sum(), 2)
            
            if ano not in valor:
                valor.update({ano: {
                    f'mes_{m}':  f'$ {float(valor_vendas_mes)}'
                }})
            else:
               valor[ano].update({f'mes_{m}': f'$ {float(valor_vendas_mes)}'})
    return valor
soma_vendas_por_mes(vendas_por_mes)

Analisar vendas por Categoria e Sub-categoria de produtos

In [None]:
# Criar o agrupamento por Categoria e Sub-Categoria (produtos individuais)
grupo = df_copy.groupby(['Category', 'Sub_Category'])['Sales'].describe()
grupo

In [423]:
# Retornar quais os produtos com maior número de vendas
grupo.loc[['Technology']].sort_values(by='count', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean,std,min,25%,50%,75%,max
Category,Sub_Category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Technology,Phones,876.0,374.180877,494.390228,2.97,84.784,210.866,479.9525,4548.81
Technology,Accessories,756.0,217.178175,337.7238,0.99,47.9745,100.0,239.97,3347.37
Technology,Machines,115.0,1645.553313,2765.102088,11.56,287.939,599.985,2120.938,22638.48
Technology,Copiers,66.0,2215.880212,3216.185499,299.99,609.9845,1099.98,2299.96,17499.95
