In [1]:
import pandas as pd
import pandas_profiling as pf
from scipy import stats
import seaborn as sns
import datetime

In [2]:
path_raw = '../data/raw/'

df = pd.read_csv(path_raw + 'ecommerce.csv', encoding='latin1', sep=',')
df.shape

(541909, 8)

In [3]:
#profile = pf.ProfileReport(df, title='Ecommerce - Profile Report')
#profile.to_file('../documentation/Ecommerce - Profile Report.html')

**Tratamento dos dados**

Objetivo
> Tratar tipos das variáveis, normalizá-las e remover valores extremos

Informações em: ".../documentation/Variaveis.xlsx"

In [4]:
#Criar variável InvoiceStatus: Caso InvoiceNo comece com "C", o status será Cancelled, se não Done
df['InvoiceStatus'] = df['InvoiceNo'].apply(lambda x: 'Cancelled' if x.startswith('C') else 'Done')

#Fillnan
df['Description'].fillna('', inplace=True)
df['CustomerID'].fillna('', inplace=True)

#Flag para indicar presença de valores extremos em Quantity
df['QuantityOutlier'] = False

#Pq alguns pedidos com status Done possuem Quantidade menor ou igual a zero?
# Caso 1 - Todos possuem UnitPrice = 0 e Country = United Kingdom e InvoiceStatus = Done e CustomerID vazio
# - Aparentemente foram lançamentos manuais afim de indicar saída de um produto danificado, perdido, etc.
df.loc[(df['InvoiceStatus'] == 'Done') & (df['Quantity'] <= 0), 'QuantityOutlier'] = True

#Quantity: Calculando ZScore para detecção de outliers
df['QuantityZScore'] = stats.zscore(df['Quantity'])
#QuantityOutlierZScore
df['QuantityOutlierZScore'] = False
df.loc[(df['QuantityZScore'] > 3) | (df['QuantityZScore'] < -3), 'QuantityOutlierZScore'] = True

#UnitPrice: Calculando ZScore para detecção de outliers
df['UnitPriceZScore'] = stats.zscore(df['UnitPrice'])
#UnitPriceOutlierZScore
df['UnitPriceOutlierZScore'] = False
df.loc[(df['UnitPriceZScore'] > 3) | (df['UnitPriceZScore'] < -3), 'UnitPriceOutlierZScore'] = True

#Cast datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df['InvoiceDateTime'] = df['InvoiceDate']
df['InvoiceDate'] = df['InvoiceDate'].apply(lambda x: x.date())
df['InvoiceYearMonth'] = df['InvoiceDate'].map(lambda x: 100 * x.year + x.month)

#Total price
df['TotalPrice'] = df['UnitPrice'] * df['Quantity']

Com o propósito de atingir nosso objetivo, serão desconsiderados os valores negativos sem investigar os motivos de sua existência. Partiremos dos valores positivos para que a metogologia de segmentação possa ser aplicada.

In [5]:
p_negativos = (df.query('UnitPrice <= 0').shape[0] / df.query('UnitPrice > 0').shape[0]) * 100
'Os registros com UnitPrice negativo representam {0} % da base'.format(p_negativos)

'Os registros com UnitPrice negativo representam 0.4666365092548647 % da base'

In [6]:
df = df.query('UnitPrice > 0').copy()

Desconsiderando outliers em UnitPrice e Quantity

In [7]:
df = df.query('QuantityOutlierZScore == False and UnitPriceOutlierZScore == False and QuantityOutlier == False').copy()
df.shape

(538761, 17)

In [9]:
#df.to_csv('../data/prep/dataset_ecommerce.csv', index=False, encoding='utf-8')
df.to_pickle('../data/prep/dataset_ecommerce.pkl')