In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.simplefilter("ignore")

# Visual Settings
%matplotlib inline
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)
pd.set_option("display.float_format", lambda x:f"{x:,.4f}")

# Graphic style
plt.style.use("seaborn-v0_8")
sns.set_style("whitegrid")
sns.set_palette("Set1")

In [3]:
df = pd.read_csv('data/raw/data.csv', encoding='latin1')
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


In [5]:
df.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.5522,4.6111,15287.6906
std,218.0812,96.7599,1713.6003
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


## Transformando a coluna para data e hora

In [7]:
# Converter a coluna 'InvoiceDate' para datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

In [8]:
df['InvoiceDate']

0        2010-12-01 08:26:00
1        2010-12-01 08:26:00
2        2010-12-01 08:26:00
3        2010-12-01 08:26:00
4        2010-12-01 08:26:00
                 ...        
541904   2011-12-09 12:50:00
541905   2011-12-09 12:50:00
541906   2011-12-09 12:50:00
541907   2011-12-09 12:50:00
541908   2011-12-09 12:50:00
Name: InvoiceDate, Length: 541909, dtype: datetime64[ns]

In [9]:
df['Quantity'].describe()

count   541,909.0000
mean          9.5522
std         218.0812
min     -80,995.0000
25%           1.0000
50%           3.0000
75%          10.0000
max      80,995.0000
Name: Quantity, dtype: float64

Valores negativos em **Quantity** geralmente indicam devoluções ou cancelamentos de pedidos. No contexto do nosso problema, esses itens não representam vendas efetivas.

In [11]:
df[df['Quantity'] < 0]['Quantity'].value_counts()

Quantity
-1        4184
-2        1395
-3         620
-12        564
-6         518
          ... 
-272         1
-1206        1
-161         1
-472         1
-80995       1
Name: count, Length: 329, dtype: int64

Como suspeitávamos, são várias entradas com quantidades negativas, indicando devoluções ou ajustes. Para o nosso objetivo de calcular o "valor médio por item vendido" (uma métrica de receita/venda), essas transações de saída não devem ser consideradas.

In [13]:
df[df['UnitPrice'] < 0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299983,A563186,B,Adjust bad debt,1,2011-08-12 14:51:00,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom


Você encontrou duas linhas específicas com UnitPrice negativo, e a descrição "Adjust bad debt" (Ajustar dívida duvidosa) reforça que estas não são vendas. Elas são ajustes financeiros e devem ser excluídas da nossa análise de vendas.

In [15]:
df[df['UnitPrice'] == 0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,2010-12-01 11:52:00,0.0000,,United Kingdom
1970,536545,21134,,1,2010-12-01 14:32:00,0.0000,,United Kingdom
1971,536546,22145,,1,2010-12-01 14:33:00,0.0000,,United Kingdom
1972,536547,37509,,1,2010-12-01 14:33:00,0.0000,,United Kingdom
1987,536549,85226A,,1,2010-12-01 14:34:00,0.0000,,United Kingdom
...,...,...,...,...,...,...,...,...
536981,581234,72817,,27,2011-12-08 10:33:00,0.0000,,United Kingdom
538504,581406,46000M,POLYESTER FILLER PAD 45x45cm,240,2011-12-08 13:58:00,0.0000,,United Kingdom
538505,581406,46000S,POLYESTER FILLER PAD 40x40cm,300,2011-12-08 13:58:00,0.0000,,United Kingdom
538554,581408,85175,,20,2011-12-08 14:06:00,0.0000,,United Kingdom


No contexto do nosso problema específico – "o valor médio por item vendido deveria ser de pelo menos £10.00 para garantir uma margem de lucro saudável" – a resposta é não, não faz sentido manter UnitPrice igual a zero.

Vou explicar o porquê:

Contribuição para o Valor Total: Se o UnitPrice é 0, então o TotalPrice_LineItem (Quantity * UnitPrice) também será 0. Itens com valor total 0 não contribuem para a receita ou para a "margem de lucro saudável" que o benchmark de £10.00 busca garantir.
Distração do Objetivo: Incluir esses itens de custo zero no cálculo da média de "valor por item vendido" distorceria a métrica. Eles arrastariam a média para baixo, sem que de fato representem uma venda geradora de receita para a qual o benchmark foi estabelecido.
Cenários Comuns para UnitPrice = 0:
Amostras Grátis: Itens enviados como amostra gratuita.
Itens Promocionais: Brindes ou itens com desconto de 100%.
Erros de Entrada: Dados incorretos.
Itens Bundled: Podem ser itens que não têm um preço individual, mas fazem parte de um pacote maior.
Embora esses cenários possam ser relevantes para outras análises (como engajamento, marketing ou para entender o que é enviado como brinde), para a nossa análise de profitabilidade por item vendido, eles não se encaixam no escopo. Nosso objetivo é avaliar a capacidade de cada item vendido em gerar receita acima de um certo limiar.

Portanto, mantenha o filtro para UnitPrice > 0. Isso garante que estamos analisando apenas os itens que efetivamente geraram alguma receita na transação.

In [17]:
df_copia = df[df['Quantity'] > 0]
df_copia = df_copia[df_copia['UnitPrice'] > 0]

In [18]:
df_copia[df_copia['UnitPrice'] < 0].head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


In [19]:
df_copia[df_copia['Quantity'] < 0].head()


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


In [20]:
df_copia['TotalPriceLineItem'] = df_copia['Quantity'] * df_copia['UnitPrice']

In [21]:
df_copia['TotalPriceLineItem'].describe()

count   530,104.0000
mean         20.1219
std         270.3567
min           0.0010
25%           3.7500
50%           9.9000
75%          17.7000
max     168,469.6000
Name: TotalPriceLineItem, dtype: float64

In [22]:
df_copia['TotalPriceLineItem'].count()

530104

- Esse é o número de transações válidas, ou seja, itens vendidos com quantidade e preço, após a limpeza.

In [24]:
df_copia['TotalPriceLineItem'].mean()

20.121871451639677

- A média do valor por item vendido nessa amostra é de aproximadamente £20.12.

In [26]:
df_copia['TotalPriceLineItem'].std()

270.35674321836746

- Desvio bem alto, isso quer dizer que a dispersão dos valores é grande, isso é comum em dados de vendas, alguns itens podem ter valores superiores a média.

In [28]:
df_copia['TotalPriceLineItem'].max()

168469.6

Há itens com valores de vendas extremamente altos, isso só confirma a alta dispersão e a presença de potenciais valores discrepantes, ou itens de grande volume/valor.

In [None]:
sns.histplot(data=df_copia, x=df_copia['TotalPriceLineItem'])


KeyboardInterrupt



Error in callback <function _draw_all_if_interactive at 0x000001DADA126340> (for post_execute), with arguments args (),kwargs {}:



KeyboardInterrupt



Error in callback <function flush_figures at 0x000001DAEA0B6660> (for post_execute), with arguments args (),kwargs {}:
