### 1. Importação de bibliotecas importantes e leitura da base

In [49]:
import pandas as pd
from datetime import datetime

In [39]:
df = pd.read_csv('Assignment-1_Data.csv',sep=';')

In [28]:
df.head()

Unnamed: 0,BillNo,Itemname,Quantity,Date,Price,CustomerID,Country
0,536365,WHITE HANGING HEART T-LIGHT HOLDER,6,01.12.2010 08:26,255,17850.0,United Kingdom
1,536365,WHITE METAL LANTERN,6,01.12.2010 08:26,339,17850.0,United Kingdom
2,536365,CREAM CUPID HEARTS COAT HANGER,8,01.12.2010 08:26,275,17850.0,United Kingdom
3,536365,KNITTED UNION FLAG HOT WATER BOTTLE,6,01.12.2010 08:26,339,17850.0,United Kingdom
4,536365,RED WOOLLY HOTTIE WHITE HEART.,6,01.12.2010 08:26,339,17850.0,United Kingdom


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 522064 entries, 0 to 522063
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   BillNo      522064 non-null  object 
 1   Itemname    520609 non-null  object 
 2   Quantity    522064 non-null  int64  
 3   Date        522064 non-null  object 
 4   Price       522064 non-null  object 
 5   CustomerID  388023 non-null  float64
 6   Country     522064 non-null  object 
dtypes: float64(1), int64(1), object(5)
memory usage: 27.9+ MB


**Temos valores faltantes para Itemname e CustomerID. Para agilizar algumas transformações futuras, seguiu-se com a substituição desses valores pela string "NONE"**

In [30]:
df = df.fillna('NONE')

### 2. Ajuste de campos

In [31]:
df['Date'] = [(datetime.strptime(str(d).split(' ')[0],'%d.%m.%Y').strftime('%Y-%m-%d')) 
              for d in df['Date']]

df['Price'] = [float(p.replace(',','.')) for p in df['Price']]

df['CustomerID'] = [(str(c).split('.'))[0] if c != 'NONE' else c for c in df['CustomerID']]

### 2.1 Inspeção de alguns campos

In [32]:
print('Itens com quantitade negativa:',df[df.Quantity<0].shape[0])
print('Itens sem descrição: ',df[df.Itemname=='NONE'].shape[0])
print('Itens sem preço: ',df[df.Price==0].shape[0])

Itens com quantitade negativa: 1336
Itens sem descrição:  1455
Itens sem preço:  2511


**Itens sem preço que possuem descrição em minúsculo condizem com itens em retorno, danificados, etc.**

In [33]:
df[(df.Price==0)&(df.Itemname.str.islower()==True)]

Unnamed: 0,BillNo,Itemname,Quantity,Date,Price,CustomerID,Country
6275,536941,amazon,20,2010-12-03,0.0,NONE,United Kingdom
6276,536942,amazon,15,2010-12-03,0.0,NONE,United Kingdom
12926,537425,check,-20,2010-12-06,0.0,NONE,United Kingdom
12927,537426,check,-35,2010-12-06,0.0,NONE,United Kingdom
12973,537432,damages,-43,2010-12-06,0.0,NONE,United Kingdom
...,...,...,...,...,...,...,...
515635,581211,check,14,2011-12-07,0.0,NONE,United Kingdom
515636,581212,lost,-1050,2011-12-07,0.0,NONE,United Kingdom
515637,581213,check,-30,2011-12-07,0.0,NONE,United Kingdom
517209,581226,missing,-338,2011-12-08,0.0,NONE,United Kingdom


**Itens sem preço que possuem descrição em maiúsculo condizem com itens sem descrição, na maioria dos casos e para aquele com descrição, muitas vezes possuem quantidades maior que 0, mas sem valor, o que não condiz com o senso comum**

In [34]:
df[(df.Price==0)&(df.Itemname.str.islower()==False)].sample(20)

Unnamed: 0,BillNo,Itemname,Quantity,Date,Price,CustomerID,Country
307941,564918,NONE,21,2011-08-31,0.0,NONE,United Kingdom
144872,549373,NONE,-2,2011-04-08,0.0,NONE,United Kingdom
293791,563652,NONE,-36,2011-08-18,0.0,NONE,United Kingdom
142483,549137,NONE,-7,2011-04-06,0.0,NONE,United Kingdom
331067,566977,NONE,-54,2011-09-16,0.0,NONE,United Kingdom
142775,549160,NONE,-7,2011-04-06,0.0,NONE,United Kingdom
91275,544344,NONE,51,2011-02-18,0.0,NONE,United Kingdom
145220,549458,NONE,-6,2011-04-08,0.0,NONE,United Kingdom
40275,539856,WHEELBARROW FOR CHILDREN,1,2010-12-22,0.0,NONE,United Kingdom
186873,553539,JUMBO BAG TOYS,1,2011-05-17,0.0,NONE,United Kingdom


**Como itens sem descrição, quantidade negativa e preço igual 0 não nos interessa, vamos remover e pelo fato da base ser grande, teremos poucas perdas de informação**

In [35]:
df = df[~((df.Quantity < 0)|(df.Itemname == 'NONE') | (df.Price == 0))]

In [36]:
print('Total de transações distintas na base: ',df['BillNo'].nunique())
print('Total de clientes distintos identificados na base: ',df[df.CustomerID != 'NONE']['CustomerID'].nunique())
print('Total de produtos distintas na base: ',df['Itemname'].nunique())
print(f'Transações ocorreram entre {min(df.Date)} e {max(df.Date)}')

Total de transações distintas na base:  19563
Total de clientes distintos identificados na base:  4296
Total de produtos distintas na base:  4006
Transações ocorreram entre 2010-12-01 e 2011-12-09


**Grande parte das transações realizadas são de clientes do Reino Unido**

In [37]:
aux = df.drop_duplicates(['BillNo','CustomerID','Country'])

In [43]:
aux.groupby('Country').agg({'BillNo':'count'}).rename({'BillNo':'total_transacoes'},axis=1).sort_values('total_transacoes',
                                                                                                         ascending=False)

Unnamed: 0_level_0,total_transacoes
Country,Unnamed: 1_level_1
United Kingdom,18023
Germany,457
France,392
Belgium,98
Netherlands,94
Spain,90
Portugal,58
Australia,57
Switzerland,54
Italy,38


**Uma ideia que podemos explorar depois, de um modelo genérico, é ver regras de associação para diferentes países (talvez comparar UK, France e Germany, por conta de volumetria de transações)**

**Vemos que existem 3 transações que são erros e elas são alfanuméricas. Vamos eliminar as transações que sejam alfanuméricas**

In [14]:
df.groupby('BillNo')['Itemname'].unique()

BillNo
536365     [WHITE HANGING HEART T-LIGHT HOLDER, WHITE MET...
536366     [HAND WARMER UNION JACK, HAND WARMER RED POLKA...
536367     [ASSORTED COLOUR BIRD ORNAMENT, POPPY'S PLAYHO...
536368     [JAM MAKING SET WITH JARS, RED COAT RACK PARIS...
536369                            [BATH BUILDING BLOCK WORD]
                                 ...                        
572057     [TEA TIME OVEN GLOVE, FRYING PAN UNION FLAG, N...
572058     [DOOR HANGER  MUM + DADS ROOM, BAKING MOULD CH...
A563185                                    [Adjust bad debt]
A563186                                    [Adjust bad debt]
A563187                                    [Adjust bad debt]
Name: Itemname, Length: 19563, dtype: object

In [15]:
df_ajustado = df[~(df.BillNo.str.contains('[A-Z]')==True)].groupby('BillNo')['Itemname']\
                        .unique().values

### 3. Preparação dos dados para modelos de regras de associação
- biblioteca que achei interessante para Python: http://rasbt.github.io/mlxtend/

In [15]:
!pip install mlxtend

[0m

**Precisamos ajustar o dataframe de tal forma que cada linha contenha todos os itens adquiridos na transação**

- existem diversas formas de fazer isso, mas como encontrei essa biblioteca mlxtend, basicamente, o que precisamos fazer é criar um dataframe em que cada coluna é um produto e os valores são True ou False, dependendo se a transação contém ou não o item

- para fazer esse dataframe, podemos usar do TransactionEncoder()

In [16]:
from mlxtend.preprocessing import TransactionEncoder
transaction_enc = TransactionEncoder()
transaction_enc_array = transaction_enc.fit_transform(df_ajustado)

In [17]:
df_transactions = pd.DataFrame(transaction_enc_array,columns=transaction_enc.columns_)

In [18]:
df_transactions

Unnamed: 0,*Boombox Ipod Classic,*USB Office Mirror Ball,10 COLOUR SPACEBOY PEN,12 COLOURED PARTY BALLOONS,12 DAISY PEGS IN WOOD BOX,12 EGG HOUSE PAINTED WOOD,12 HANGING EGGS HAND PAINTED,12 IVORY ROSE PEG PLACE SETTINGS,12 MESSAGE CARDS WITH ENVELOPES,12 PENCIL SMALL TUBE WOODLAND,...,ZINC STAR T-LIGHT HOLDER,ZINC SWEETHEART SOAP DISH,ZINC SWEETHEART WIRE LETTER RACK,ZINC T-LIGHT HOLDER STAR LARGE,ZINC T-LIGHT HOLDER STARS LARGE,ZINC T-LIGHT HOLDER STARS SMALL,ZINC TOP 2 DOOR WOODEN SHELF,ZINC WILLIE WINKIE CANDLE STICK,ZINC WIRE KITCHEN ORGANISER,ZINC WIRE SWEETHEART LETTER TRAY
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19555,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
19556,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
19557,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
19558,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


### 4. Teste de alguns modelos de regras de associação, verificação de métricas chaves (support, confidence, lift), explorar algumas associações, ver ideias de gráficos que podemos usar...