ImportaÃ§Ã£o e Leitura dos Dados

In [None]:
import pandas as pd
from datetime import datetime
import os
import sys
import calendar

In [None]:
df = pd.read_csv('../data/raw/superstore_final_dataset.csv', encoding='latin1')

Entendendo a base de Dados

Nessa sessÃ£o serÃ¡ executado alguns comandos, para entender melhor sobre a estrutura e como funciona o dataset

In [None]:
df.head(10)

In [None]:
df.info() # Entendendo melhor como funciona e estÃ¡ estruturado os dados

In [None]:
df.columns # Verificando quais sÃ£o as colunas existentes nesse dataset

In [None]:
df.describe()

PreparaÃ§Ã£o dos Dados

Nessa sessÃ£o serÃ¡ executado as principais formataÃ§Ãµes, limpezas e preparaÃ§Ãµes dos dados para as anÃ¡lise. Garantindo a consistÃªncia e clareza dos dados

In [None]:
df_copy = df.copy()
df_copy = df_copy.set_index('Row_ID')

In [None]:
df_copy.isnull().sum()
mask_index_nan = df_copy['Postal_Code'].isnull() 
# Uma mÃ¡scara com os index onde o Postal_Code estÃ¡ com o valor NaN, para ter um controle exato de onde essses valores estÃ£o

In [None]:
# Mudar os valores NaN do Postal_Code para o valor 0
df_copy.loc[df_copy['Postal_Code'].isnull(), 'Postal_Code'] = 0
df_copy[mask_index_nan] # Verificar se a correÃ§Ã£o foi feita corretamente, se sim nÃ£o deve retornar nenhuma linha

In [None]:
df_copy.loc[df_copy.duplicated()]
# Ter o controle e visualizaÃ§Ã£o de qual linha realmente Ã© a duplicada, somente para uma breve visualizaÃ§Ã£o das linhas
linhas_duplicadas = df_copy['Order_ID'] == 'US-2015-150119'

In [None]:
# Remover as duplicatas
mask = ~df_copy.duplicated(keep='first') # Uso do operador not, para que as duplicatas sejam false, e ao aplicar a mÃ¡scara no df, ela nÃ£o apareÃ§a, pois Ã© false
df_copy = df_copy[mask].copy()

In [None]:
# FunÃ§Ã£o para formatar as datas
def formatar_datas(valor):
    date = valor.split('/')
    nova_data = f'{date[2]}-{date[1]}-{date[0]}'
    return nova_data


In [None]:
df_copy['Order_Date'] = df_copy['Order_Date'].apply(formatar_datas)
df_copy['Ship_Date'] = df_copy['Ship_Date'].apply(formatar_datas)

In [None]:
# Converter Order_Date e Ship_Date para o tipo datetime
df_copy['Order_Date'] = pd.to_datetime(df_copy['Order_Date'], errors='coerce')
df_copy['Ship_Date'] = pd.to_datetime(df_copy['Ship_Date'], errors='coerce')

In [None]:
df_copy['Sales'] = df_copy['Sales'].map("{:.2f}".format)
df_copy['Sales'] = pd.to_numeric(df_copy['Sales'], errors='coerce')

Analisar o total de vendas entre 2015-2019

Nessa sessÃ£o serÃ¡ extraÃ­do o valor total de arrecadaÃ§Ã£o do supermercado nos anos de 2015 a 2019

In [None]:
total_vendas = df_copy['Sales'].sum()
total_vendas

Analisar o total de vendas por ano entre 2015-2019

Nessa sessÃ£o serÃ¡ extraÃ­do a arrecadaÃ§Ã£o do supermercado em cada ano individual

In [None]:
# Separar cada ano
vendas_por_ano = {} # Local onde a quantidade de vendas de cada ano serÃ¡ armazenado
def soma_vendas_por_ano(valor):
    for x in range(5, 10):
        ano = int(f'201{x}')
        query = round(df_copy.loc[df_copy['Ship_Date'].dt.year == ano, 'Sales'].sum(), 2)
        valor.update({f'201{x}':float(query)})
    series = pd.Series(valor)
    return pd.DataFrame(series, columns=['Total de Vendas']).sort_values(by='Total de Vendas', ascending=False)
soma_vendas_por_ano(vendas_por_ano)

IdentificaÃ§Ã£o Mensal dos Picos e Quedas de Vendas Durante o Ano

NessÃ£o sessÃ£o serÃ¡ retornado os valores de vendas em cada mÃªs entre os anos de 2015-2019

In [None]:
vendas_por_mes = {} # Local onde a quantidade de vendas por mÃªs ficarÃ¡ armazenado

# FunÃ§Ã£o pegar a soma de vendas por mÃªs em cada ano
def soma_vendas_por_mes(valor):
    for x in range(5,10):
        ano = int(f'201{x}')
        df_ano_filtrado = df_copy.loc[df_copy['Ship_Date'].dt.year == ano]
        for m in range(1, 13):
            
            ultimo_dia = calendar.monthrange(ano, m)[1]
            data_inicial = datetime.strptime(f'201{x}-{m:02d}-01', '%Y-%m-%d')
            data_final = datetime.strptime(f'201{x}-{m:02d}-{ultimo_dia}', '%Y-%m-%d')
            
            valor_vendas_mes = round(df_ano_filtrado.loc[(df_ano_filtrado['Ship_Date'] >= data_inicial) & (df_ano_filtrado['Ship_Date'] <= data_final), 'Sales'].sum(), 2)
            
            if ano not in valor:
                valor.update({ano: {
                    f'mes_{m}':  f'$ {float(valor_vendas_mes)}'
                }})
            else:
               valor[ano].update({f'mes_{m}': f'$ {float(valor_vendas_mes)}'})
    return valor

soma_vendas_por_mes(vendas_por_mes)

Analisar vendas por Categoria e Sub-categoria de produtos

In [None]:
# Criar o agrupamento por Categoria e Sub-Categoria para tirar a quantidade de vendas por produto (individual)
vendas_por_prod = df_copy.groupby(['Category', 'Sub_Category'])['Sales'].sum()
vendas_por_prod = pd.DataFrame(vendas_por_prod).sort_values(by='Sales', ascending=False)
vendas_por_prod.map("R$ {:,.2f}".format)

In [None]:
# Criar um grupo com Categoria, para tirar a quantidade de vendas por categoria
vendas_por_categoria = df_copy.groupby('Category')['Sales'].sum()
vendas_por_categoria = pd.DataFrame(vendas_por_categoria).sort_values(by='Sales', ascending=False)
vendas_por_categoria.map("R$ {:,.2f}".format)

Analisar vendas por regiÃ£o

In [None]:
vendas_por_regiao = df_copy.groupby('Region')['Sales'].sum()
vendas_por_regiao = pd.DataFrame(vendas_por_regiao)
vendas_por_regiao.map("R$ {:,.2f}".format).sort_values(by='Sales', ascending=False)

In [None]:

vendas_por_regiao = df_copy.groupby(['Region', 'State'])['Sales'].sum()
vendas_por_regiao = pd.DataFrame(vendas_por_regiao).sort_values(by='Sales', ascending=False)
vendas_por_regiao.map("R$ {:,.2f}".format)

In [None]:
qtd_vendas_prod = df_copy.groupby(['Category', 'Sub_Category'])['Sub_Category'].describe()
qtd_vendas_prod['count'].sort_values(ascending=False)

Analisar o comportamento do cliente, com nÃºmeros de compras, total gasto, qual os tipos de clientes que mais compram, e por qual regiÃ£o

In [None]:
# Retorna a quantidade de vendas por tipo de cliente
tipo_cliente = df_copy.groupby('Segment').agg(
    Soma = ('Sales', 'sum'),
    Count = ('Sales', 'count'),
    Media = ('Sales', 'mean')
)

tipo_cliente['Soma']=tipo_cliente['Soma'].map("R$ {:,.2f}".format)
tipo_cliente['Media'] = tipo_cliente['Media'].map("R$ {:,.2f}".format)
tipo_cliente

In [None]:
# Retorna a quantidade de compras por cliente, o faturamento total gerado pelas compras de cada cliente e a mÃ©dia de valor gasto por cliente
grupo = df_copy.groupby(['Segment', 'Customer_Name']).agg(
    qtd_compras = ('Sales', 'count'),
    faturamento = ('Sales', 'sum'),
    media = ('Sales', 'mean')
)
grupo['faturamento'] = grupo['faturamento'].map("R$ {:,.2f}".format)
grupo['media'] = grupo['media'].map("R$ {:,.2f}".format)
grupo.sort_values(by='qtd_compras', ascending=False).head(20)

In [None]:
# Retorna a quantidade de compras por item especÃ­fico, mostrando qual o cliente, e de qual segmento ele pertence
grupo2 = df_copy.groupby(['Segment','Customer_Name', 'Sub_Category']).agg(
    qtd_itens_cliente = ('Sub_Category', 'count'),
    compras = ('Sales', 'sum')
)
grupo2['compras'] = grupo2['compras'].map("R$ {:,.2f}".format)
grupo2.sort_values(by='qtd_itens_cliente', ascending=False).head(20)

Principais Insights da AnÃ¡lise

ðŸ“Š A categoria de Tecnologia lidera as vendas, com cerca de R$ 100 mil a mais que as demais categorias. Esse desempenho reforÃ§a o potencial do setor e indica que investimentos adicionais em marketing, estoque e diversificaÃ§Ã£o de modelos podem gerar retornos ainda maiores.

ðŸ“Š Entre os produtos, os celulares apresentam o maior faturamento, consolidando o domÃ­nio da categoria de Tecnologia. No entanto, quando analisamos quantidade vendida, percebe-se uma presenÃ§a mais forte de itens de escritÃ³rio no top 20. Isso sugere que, embora produtos tecnolÃ³gicos gerem mais receita por unidade, produtos bÃ¡sicos â€” de menor valor â€” tÃªm maior volume e giro, sustentando parte importante das vendas.

ðŸ“Š O segmento de clientes Consumer Ã© o principal comprador, com vantagem prÃ³xima de R$ 500 mil em vendas sobre os demais segmentos. Esse resultado reforÃ§a que aÃ§Ãµes de marketing, promoÃ§Ãµes e campanhas de fidelizaÃ§Ã£o devem ser fortemente direcionadas ao pÃºblico geral, que concentra a maior parte da receita.

ðŸ“Š Em volume de vendas, fichÃ¡rios, papÃ©is e mÃ³veis lideram o top 3, enquanto celulares aparecem logo depois. Isso evidencia que, apesar do alto faturamento dos celulares, sua frequÃªncia de compra Ã© menor, enquanto produtos essenciais e de ticket baixo apresentam alta rotatividade, impulsionando a operaÃ§Ã£o no dia a dia.

ðŸ“Š Em termo de localidade, as regiÃµes West e East se destacam liderando o ranking de faturamento, mostrando forte pÃºblico nessa parte do pÃ¡is, isso se nota tambÃ©m pelo fato dos estados com maior faturamento, constituÃ­dos de New York e a CalifÃ³rnia, alÃ©m de outros estados dessas regiÃµes aparecendo repedidamente no topo do ranking

ðŸ“Š Os estados de New York e CalifÃ³rnia tem um ampla vantagem em relaÃ§Ã£o aos demais abaixo deles, visto que do terceiro ao segundo (califÃ³rnia) tem uma grande diferenÃ§a, que Ã© aproximadamente o dobro, e do segundo ao primeiro Ã© de aproximadamente R$ 150 mil.

### ConclusÃ£o

Em resumo a loja, apresenta um alto faturamento na categoria Tecnologia, porÃ©m, em volume e quantidade de vendas, mostra que os itens de escritÃ³rios de menor valor estÃ£o em grande maioria. AlÃ©m disso, o pÃºblico em geral (Consumer) mostra-se ser o motor de receita, com uma diferenÃ§a de aproximandamente R$ 500 mil. Esses pontos em conjunto apresenta que, a estratÃ©gia ideal seria, fortalecer o portfÃ³lio tecnolÃ³gico, mas reconhecendo que em giro rÃ¡pido de vendas, produtos com menor valor, como os de escritÃ³rios sÃ£o de alta importÃ¢ncia para o lucro final, foi analisado que as regiÃµes de West e East tem um grande faturamento com uma distÃ¢ncia considerÃ¡vel em relaÃ§Ã£o aos outros, cidade como New York e CalifÃ³rnia sÃ£o um bom alvo para a expansÃ£o e foco de vendas, visto o seu alto retorno.