In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np

In [2]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [3]:
# Carregando e lendo o dataset
sales = pd.read_csv('C:/Users/mathe/Projetos Dados/EcommerceSalesAnalysis/App/Data/Online Retail.csv', delimiter=';', encoding='latin1', decimal=',')
sales.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01/12/2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01/12/2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01/12/2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01/12/2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01/12/2010 08:26,3.39,17850.0,United Kingdom


In [4]:
sales.shape

(541909, 8)

Uma análise do Dataset mostrou que além de registrar as operações de venda e cancelamento dos produtos, esse dataset também registra operações manuais de ajustes, descontos ofertados, taxas, comissões e outras operações.

Portanto, como a análise está focada apenas na VENDA e CANCELAMENTO dos PRODUTOS, os registros citados devem ser excluídos no pré-processamento.

Essas operações são identificadas pela coluna *[StockCode]*, em que seus valores iniciam-se por uma letra.

In [5]:
# Filtrando as operações que não se referem a produtos
def not_number(value):
    return not value[0].isdigit()

# Filtra todos os registros que não vendas/cancelamento de produtos
not_product_lines = sales[sales['StockCode'].apply(not_number)]

# Obter os valores únicos das linhas
not_product = not_product_lines['StockCode'].unique()

# Imprimir os valores únicos que não começam com números
print(not_product)

['POST' 'D' 'C2' 'DOT' 'M' 'BANK CHARGES' 'S' 'AMAZONFEE' 'DCGS0076'
 'DCGS0003' 'gift_0001_40' 'DCGS0070' 'm' 'gift_0001_50' 'gift_0001_30'
 'gift_0001_20' 'DCGS0055' 'DCGS0072' 'DCGS0074' 'DCGS0069' 'DCGS0057'
 'DCGSSBOY' 'DCGSSGIRL' 'gift_0001_10' 'PADS' 'DCGS0004' 'DCGS0073'
 'DCGS0071' 'DCGS0068' 'DCGS0067' 'DCGS0066P' 'B' 'CRUK']


In [7]:
# Conhecendo os tipos dos dados
sales.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

In [8]:
# Adicionando coluna de Preço Final de venda/devolução para cada transação
sales['FinalPrice'] = sales['Quantity'] * sales['UnitPrice']

In [9]:
# Resumo dos dados
sales[['Quantity', 'UnitPrice', 'FinalPrice']].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Quantity,538914.0,9.59,218.63,-80995.0,1.0,3.0,10.0,80995.0
UnitPrice,538914.0,3.27,4.49,0.0,1.25,2.08,4.13,649.5
FinalPrice,538914.0,18.17,367.11,-168469.6,3.4,9.36,17.4,168469.6


In [10]:
# Excluindo os registros com valor unitário igual a zero
sales = sales[sales['UnitPrice'] > 0]
sales.shape

(536429, 9)

In [11]:
# Verifica a presença de registros duplicados no dataset
cols_list = sales.columns
duplicates = sales.duplicated(subset=cols_list, keep=False)
sales[duplicates].sort_values('Description').head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,FinalPrice
160509,550459,72800B,4 PURPLE FLOCK DINNER CANDLES,1,18/04/2011 13:17,2.55,18116.0,United Kingdom,2.55
160498,550459,72800B,4 PURPLE FLOCK DINNER CANDLES,1,18/04/2011 13:17,2.55,18116.0,United Kingdom,2.55
483414,577503,72800B,4 PURPLE FLOCK DINNER CANDLES,1,20/11/2011 12:34,2.55,18110.0,United Kingdom,2.55
483390,577503,72800B,4 PURPLE FLOCK DINNER CANDLES,1,20/11/2011 12:34,2.55,18110.0,United Kingdom,2.55
460074,575895,23345,DOLLY GIRL BEAKER,1,11/11/2011 14:50,1.25,17052.0,United Kingdom,1.25


In [12]:
# Remove as linhas duplicadas e retorna o novo tamanho do dataset
sales_processed = sales.drop_duplicates()
sales_processed.shape

(531172, 9)

In [13]:
# Checando valores ausentes
sales_processed.isna().sum()

InvoiceNo           0
StockCode           0
Description         0
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     131516
Country             0
FinalPrice          0
dtype: int64

Há presença de valores ausentes na coluna *[CustomerID].*

A coluna de *[CustomerID]* só será utilizada nas duas últimas análises, logo, as linhas com valores ausentes serão mantidas na análise inicial.

In [14]:
# Verificando a existência de nomes de produtos iguais para diferentes StockCodes
duplicates_descriptions = sales_processed.groupby('Description')['StockCode'].nunique()

# Filtra os casos onde há mais de um StockCode para a mesma Description
duplicates_descriptions = duplicates_descriptions[duplicates_descriptions > 1]

# Imprime as Description com mais de um StockCode associado
print("Descriptions com mais de um StockCode associado:")
print(duplicates_descriptions.sort_values(ascending=False))

Descriptions com mais de um StockCode associado:
Description
METAL SIGN,CUPCAKE SINGLE HOOK      6
3 GARDENIA MORRIS BOXED CANDLES     2
S/4 PINK FLOWER CANDLES IN BOWL     2
SET OF 4 GREEN CAROUSEL COASTERS    2
SET OF 4 FAIRY CAKE PLACEMATS       2
                                   ..
EDWARDIAN PARASOL NATURAL           2
EDWARDIAN PARASOL BLACK             2
EAU DE NILE JEWELLED PHOTOFRAME     2
DOORMAT BLACK FLOCK                 2
WOVEN ROSE GARDEN CUSHION COVER     2
Name: StockCode, Length: 130, dtype: int64


In [15]:
# Verificando a existência de StockCodes iguais para diferentes Description
duplicates_stock_codes = sales_processed.groupby('StockCode')['Description'].nunique()

# Filtra os casos onde há mais de um Description para um mesmo StockCode
duplicates_stock_codes = duplicates_stock_codes[duplicates_stock_codes > 1]

# Imprime os StockCodes com mais de um Description associado
print("StockCodes com mais de um Description associado:")
print(duplicates_stock_codes.sort_values(ascending=False))

StockCodes com mais de um Description associado:
StockCode
23236     4
23196     4
23203     3
23370     3
23366     3
         ..
23057     2
23061     2
23065     2
23066     2
90014C    2
Name: Description, Length: 220, dtype: int64


Há dois casos observados:
1. Um mesmo código possui descrições diferentes
2. Códigos diferentes possuem descrições iguais.

Para a análise feita neste notebook, será considerado que esses casos são decorrentes de cadastros errados, duplicados, registros incorretos ou alterações propositais nas descrições. 

In [16]:
# Quantidade de valores únicos da coluna Description
sales_processed.nunique()

InvoiceNo      23195
StockCode       3914
Description     4019
Quantity         507
InvoiceDate    21308
UnitPrice        515
CustomerID      4362
Country           38
FinalPrice      5068
dtype: int64

Para simplificar a análise e melhorar a identificação dos produtos, cada registro único de *[Description]* será considerado como um produto diferente, já que a quantidade valores únicos de StockCode e Description são bem próximos.

Observa-se, portanto, um total de 4019 tipos de produtos distintos