In [16]:
import pandas as pd

**InvoiceNo**: Número da fatura. Nominal. Um número inteiro de 6 dígitos atribuído de forma única a cada transação. Se esse código começar com a letra 'c', indica um cancelamento.

**StockCode**: Código do produto (item). Nominal. Um número inteiro de 5 dígitos atribuído de forma única a cada produto distinto.

**Description**: Nome do produto (item). Nominal.

**Quantity**: As quantidades de cada produto (item) por transação. Numérico.

**InvoiceDate**: Data e hora da fatura. Numérico. O dia e a hora em que a transação foi gerada.

**UnitPrice**: Preço unitário. Numérico. Preço do produto por unidade em libras esterlinas (£).

**CustomerID**: Número do cliente. Nominal. Um número inteiro de 5 dígitos atribuído de forma única a cada cliente.

**Country**: Nome do país. Nominal. O nome do país onde o cliente reside.

In [17]:
df = pd.read_excel('trabalho001_v2/data/online_retail_II.xlsx', sheet_name='Year 2010-2011')

In [246]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541910 entries, 0 to 541909
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      541910 non-null  object        
 1   StockCode    541910 non-null  object        
 2   Description  540456 non-null  object        
 3   Quantity     541910 non-null  int64         
 4   InvoiceDate  541910 non-null  datetime64[ns]
 5   Price        541910 non-null  float64       
 6   Customer ID  541910 non-null  object        
 7   Country      541910 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 33.1+ MB


In [253]:
# Elimina duplicatas na base de dados, de forma que cada produto ocorra apenas 1 única vez em cada fatura (As quantidades de vendas são somadas)
df_tratado = df.groupby(['Invoice', 'StockCode', 'Description', 'InvoiceDate', 'Price', 'Customer ID', 'Country'])['Quantity'].sum().reset_index()
df_tratado

Unnamed: 0,Invoice,StockCode,Description,InvoiceDate,Price,Customer ID,Country,Quantity
0,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,2010-12-01 08:26:00,4.25,17850.0,United Kingdom,6
1,536365,22752,SET 7 BABUSHKA NESTING BOXES,2010-12-01 08:26:00,7.65,17850.0,United Kingdom,2
2,536365,71053,WHITE METAL LANTERN,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,6
3,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,6
4,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,6
...,...,...,...,...,...,...,...,...
530350,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,2011-12-09 09:57:00,0.83,14397.0,United Kingdom,-11
530351,C581499,M,Manual,2011-12-09 10:28:00,224.69,15498.0,United Kingdom,-1
530352,C581568,21258,VICTORIAN SEWING BOX LARGE,2011-12-09 11:57:00,10.95,15311.0,United Kingdom,-5
530353,C581569,20979,36 PENCILS TUBE RED RETROSPOT,2011-12-09 11:58:00,1.25,17315.0,United Kingdom,-5


In [255]:
# Verifica se há duplicidades de produtos em uma mesma fatura
df_tratado[df_tratado.duplicated(subset=['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate', 'Price', 'Customer ID', 'Country'], keep=False)]

Unnamed: 0,Invoice,StockCode,Description,InvoiceDate,Price,Customer ID,Country,Quantity


In [256]:
df_tratado['Invoice'] = df_tratado['Invoice'].astype(str)
df_tratado['Customer ID'] = df_tratado['Customer ID'].astype(str)

In [257]:
df_tratado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 530355 entries, 0 to 530354
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      530355 non-null  object        
 1   StockCode    530355 non-null  object        
 2   Description  530355 non-null  object        
 3   InvoiceDate  530355 non-null  datetime64[ns]
 4   Price        530355 non-null  float64       
 5   Customer ID  530355 non-null  object        
 6   Country      530355 non-null  object        
 7   Quantity     530355 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 32.4+ MB


#### Quais são os 5 produtos com maior representatividade de venda? A representatividade é dada pela quantidade de faturas com pelo menos uma venda do produto dividida pela quantidade total de faturas.

<span style="color: red; font-weight: bold;">Nessa base existem produtos que possuem preços unitários diferentes</span>

In [254]:
# Verifica duplicidades de faturas por produto
df_tratado[df_tratado.duplicated(subset=['Invoice', 'StockCode'], keep=False)]

Unnamed: 0,Invoice,StockCode,Description,InvoiceDate,Price,Customer ID,Country,Quantity
1423,536544,21218,RED SPOTTY BISCUIT TIN,2010-12-01 14:32:00,3.75,,United Kingdom,2
1424,536544,21218,RED SPOTTY BISCUIT TIN,2010-12-01 14:32:00,8.47,,United Kingdom,1
1704,536544,22844,VINTAGE CREAM DOG FOOD CONTAINER,2010-12-01 14:32:00,8.50,,United Kingdom,2
1705,536544,22844,VINTAGE CREAM DOG FOOD CONTAINER,2010-12-01 14:32:00,16.98,,United Kingdom,1
1708,536544,22862,LOVE HEART NAPKIN BOX,2010-12-01 14:32:00,4.25,,United Kingdom,2
...,...,...,...,...,...,...,...,...
529573,C577330,S,SAMPLES,2011-11-18 14:16:00,75.00,,United Kingdom,-1
529726,C578073,M,Manual,2011-11-22 16:02:00,0.32,18139.0,United Kingdom,-36
529727,C578073,M,Manual,2011-11-22 16:02:00,0.56,18139.0,United Kingdom,-36
530110,C580263,M,Manual,2011-12-02 12:43:00,0.29,12536.0,France,-16


In [261]:
df_tratado = df.groupby(['Invoice', 'StockCode'])['Quantity'].sum().reset_index()
df_tratado

Unnamed: 0,Invoice,StockCode,Quantity
0,536365,21730,6
1,536365,22752,2
2,536365,71053,6
3,536365,84029E,6
4,536365,84029G,6
...,...,...,...
531221,C581490,23144,-11
531222,C581499,M,-1
531223,C581568,21258,-5
531224,C581569,20979,-5


In [262]:
df_tratado[df_tratado.duplicated(subset=['Invoice', 'StockCode'], keep=False)]

Unnamed: 0,Invoice,StockCode,Quantity


In [258]:
# Obtém a quantidade total de faturas para cada produto
freq_invoice = df_tratado['StockCode'].value_counts()
freq_invoice

StockCode
85123A    2255
22423     2183
85099B    2139
47566     1710
20725     1610
          ... 
21414        1
90100        1
37461        1
21120        1
17028J       1
Name: count, Length: 3958, dtype: int64

In [180]:
# Selecionar as linhas onde 'Quantity' é maior ou igual a 1
resultado = df_tratado[df_tratado['Quantity'] >= 1][['Invoice', 'StockCode', 'Quantity']]
resultado

Unnamed: 0,Invoice,StockCode,Quantity
0,536365,21730,6
1,536365,22752,2
2,536365,71053,6
3,536365,84029E,6
4,536365,84029G,6
...,...,...,...
522082,581587,23256,4
522083,581587,POST,1
522084,A563185,B,1
522085,A563186,B,1


In [181]:
# Obtém a quantidade de faturas com pelo menos 1 venda do produto
qtd_faturas = resultado['StockCode'].value_counts()
qtd_faturas

StockCode
85123A    2203
85099B    2092
22423     1989
47566     1686
20725     1565
          ... 
47579        1
84569C       1
79323B       1
84968f       1
20950        1
Name: count, Length: 3941, dtype: int64

In [182]:
representatividade = qtd_faturas / freq_invoice
representatividade

StockCode
10002           0.986301
10080           1.000000
10120           1.000000
10125           1.000000
10133           0.994924
                  ...   
gift_0001_20    1.000000
gift_0001_30    1.000000
gift_0001_40    1.000000
gift_0001_50    1.000000
m               1.000000
Name: count, Length: 4059, dtype: float64

In [206]:
# Obtém os 5 produtos com maior representatividade de venda
five_products = representatividade.nlargest(5)
resultado_juncao = df.merge(five_products, left_on='StockCode', right_on='StockCode', how='inner')
resultado_final = resultado_juncao.drop_duplicates(subset='StockCode', keep='first')
resultado_final[['Invoice', 'StockCode', 'Description']]

Unnamed: 0,Invoice,StockCode,Description
0,536464,10125,MINI FUNKY DESIGN TAPES
94,536544,11001,ASSTD DESIGN RACING CAR PEN
214,536592,10135,COLOURING PENCILS BROWN TUBE
394,536863,10120,DOGGY RUBBER
424,545060,10080,GROOVY CACTUS INFLATABLE


#### Considerando somente o período de 2010-2011 (e que estamos no dia 23/12/2011). Descreva o comportamento dos nossos clientes através da distribuição da sua recência (vide referência).

Recência é uma métrica que considera o tempo passado desde a última compra feita por um cliente


    
    
    
    [ ] Considerando faturamento crie uma curva ABC e responda: Qual é a média de faturamento do itens da classe A?
    
    [ ] Qual o ticket médio dos clientes únicos (clientes com somente uma compra)?
    
    [ ] Em cada mês do ano de 2011 (até novembro), qual foi a hora com menor quantidade de vendas? Quais foram as 3 horas com a menor?
    
    [ ] Qual a representatividade financeira das vendas feitas para paises da Europa?
    
    [ ] O país de origem interfere no comportamento de compra dos clientes? Considerando somente recência e frequência.