In [1]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.1.2 -> 26.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import pandas as pd
import numpy as np

In [3]:
df_vendas = pd.read_csv('01.amazon_sales_dataset.csv')
df_vendas.columns

Index(['order_id', 'order_date', 'ship_date', 'delivery_date', 'order_status',
       'customer_id', 'customer_name', 'country', 'state', 'city',
       'product_id', 'product_name', 'category', 'sub_category', 'brand',
       'quantity', 'unit_price', 'discount', 'shipping_cost', 'total_sales',
       'payment_method'],
      dtype='str')

In [4]:
df_vendas.dtypes

order_id              str
order_date            str
ship_date             str
delivery_date         str
order_status          str
customer_id           str
customer_name         str
country               str
state                 str
city                  str
product_id            str
product_name          str
category              str
sub_category          str
brand                 str
quantity            int64
unit_price        float64
discount          float64
shipping_cost     float64
total_sales       float64
payment_method        str
dtype: object

In [5]:
df_vendas.info()

<class 'pandas.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   order_id        10000 non-null  str    
 1   order_date      10000 non-null  str    
 2   ship_date       10000 non-null  str    
 3   delivery_date   10000 non-null  str    
 4   order_status    10000 non-null  str    
 5   customer_id     10000 non-null  str    
 6   customer_name   10000 non-null  str    
 7   country         10000 non-null  str    
 8   state           10000 non-null  str    
 9   city            10000 non-null  str    
 10  product_id      10000 non-null  str    
 11  product_name    10000 non-null  str    
 12  category        10000 non-null  str    
 13  sub_category    10000 non-null  str    
 14  brand           10000 non-null  str    
 15  quantity        10000 non-null  int64  
 16  unit_price      10000 non-null  float64
 17  discount        10000 non-null  float64
 18

In [None]:
coluna_alvo = 'total_sales'

# Medidas de Tendencia Centrais
total_vendas = df_vendas[coluna_alvo].sum()
media_valor_vendas = df_vendas[coluna_alvo].mean()
venda_minima = df_vendas[coluna_alvo].min()
venda_maxima = df_vendas[coluna_alvo].max()

In [9]:
# Medidas de Posição
q1 = np.percentile(df_vendas[coluna_alvo], 25)
# q2 = Mediana
q2 = np.percentile(df_vendas[coluna_alvo], 50)
q3 = np.percentile(df_vendas[coluna_alvo], 75)

In [10]:
# avaliar a 'confiabilidade' da média
delta_media_mediana = media_valor_vendas - q2
distancia_percentual = media_valor_vendas/q2
# Caso 1. Distancia <= 10% (0.9 ~ 1.1)
# R = Média é altamente confiavel
# Caso 2. Distancia entre 10% e 25% 
# (0.75~0.9 / 1.10~1.25)
# R = Média sofre influencia moderada de extremos
# Caso 3. Distancia > 25% (< 0.75 / > 1.25)
# R = NÃO confie na média, ela é distorcida 
# pelos extremos


In [12]:
# Assimetria (Skewness)
assimetria = df_vendas[coluna_alvo].skew()

# Caso 1. Assimetria entre -0.5 e 0.5
# R = Dados Equilibrados
# Caso 2. Assimetria > 0.5 (Positiva)
# R = Valores altos são raros, porém são tão
# grandes que distorcem o calculo
# Caso 3. Assimetria < - 0.5 (Negativa)
# R = Menos valores distorcem o calculo para baixo

In [7]:
print('\n--- Resumo Executivo de Vendas ---')
print(f'1. Volume Total (Soma das Vendas): \
      $ {total_vendas:,.2f}')
# Representa o tamanho total da nossa operação no periodo
print(f'2. Gasto Médio: $ {media_valor_vendas:,.2f}')
# Valor esperado que um cliente gaste em média conosco
print(f'3. Maior Venda: $ {venda_maxima:,.2f}')
# Nosso recorde. Investigar o perfil do cliente
print(f'4. Menor Venda: $ {venda_minima:,.2f}')
# Menor valor registrado. Investigar se há anomalias ou fraude



--- Resumo Executivo de Vendas ---
1. Volume Total (Soma das Vendas):       $ 642,129,105.55
2. Gasto Médio: $ 64,212.91
3. Maior Venda: $ 249,155.53
4. Menor Venda: $ 309.94


In [15]:
print('--- Relatorio Estatísticos de Negócio ---')

print(f'A média de vendas é \
      $ {media_valor_vendas:,.2f}')
print(f'A mediana (valor central) das vendas é \
      $ {q2:,.2f}')
print(f'O Delta (Diferença Financeira) entre \
      elas é: $ {delta_media_mediana:,.2f}')

print('\n--- Analise Comportamental ---\n')
print(f'Distância Relativa entre elas: \
      {distancia_percentual:.2f}')
print(f'Grau de Assimetria (Skewness): \
      {assimetria:.4f}')


--- Relatorio Estatísticos de Negócio ---
A média de vendas é       $ 64,212.91
A mediana (valor central) das vendas é       $ 50,287.18
O Delta (Diferença Financeira) entre       elas é: $ 13,925.73

--- Analise Comportamental ---

Distância Relativa entre elas:       1.28
Grau de Assimetria (Skewness):       0.9635
