# Projeto 2: coletar, tratar, analisar e aplicar algoritmo de Machine Learning com o objetivo de encontrar padrões ocultos nos dados de produtos comprados pelos clientes em uma rede de supermercado, de forma a entender melhor a relação entre os produtos que auxiliem na tomada de decisão.

Para ajudar a encontrar padrões relavantes nos dados, será usado o algoritmo de regras de associação.

# Etapa 1: coleta dos dados de produtos do mercado

In [None]:
# instala a biblioteca de machine learning mlxtend
!pip install mlxtend

In [None]:
# importa as bibliotecas necessárias 
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

In [None]:
# coleta os dados do mercado
ARQUIVO = '/home/priscila/workspace/Desafio_IGTI/input/mercado.csv' # caminho do arquivo na máquina local
dados_mercado = pd.read_csv(ARQUIVO, sep=';', encoding='latin-1')

In [None]:
# exibe os dados
dados_mercado

Unnamed: 0,Id,product_1,product_2,product_3,product_4,product_5,product_6,product_7,product_8,product_9,...,product_11,product_12,product_13,product_14,product_15,product_16,product_17,product_18,product_19,product_20
0,0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,...,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,1,burgers,meatballs,eggs,,,,,,,...,,,,,,,,,,
2,2,chutney,,,,,,,,,...,,,,,,,,,,
3,3,turkey,avocado,,,,,,,,...,,,,,,,,,,
4,4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,7496,butter,light mayo,fresh bread,,,,,,,...,,,,,,,,,,
7497,7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,...,,,,,,,,,,
7498,7498,chicken,,,,,,,,,...,,,,,,,,,,
7499,7499,escalope,green tea,,,,,,,,...,,,,,,,,,,


# Etapa 2: análise exploratória dos dados

In [None]:
# mostra informações estatísticas sobre os dados
dados_mercado.describe(include='all')

Unnamed: 0,Id,product_1,product_2,product_3,product_4,product_5,product_6,product_7,product_8,product_9,...,product_11,product_12,product_13,product_14,product_15,product_16,product_17,product_18,product_19,product_20
count,7501.0,7501,5747,4389,3345,2529,1864,1369,981,654,...,256,154,87,47,25,8,4,4,3,1
unique,,115,117,115,114,110,106,102,98,88,...,66,50,43,28,19,8,3,3,3,1
top,,mineral water,mineral water,mineral water,mineral water,green tea,french fries,green tea,green tea,green tea,...,low fat yogurt,green tea,green tea,green tea,magazines,salmon,frozen smoothie,protein bar,spinach,olive oil
freq,,577,484,375,201,153,107,96,67,57,...,22,15,8,4,3,1,2,2,1,1
mean,3750.0,,,,,,,,,,...,,,,,,,,,,
std,2165.496517,,,,,,,,,,...,,,,,,,,,,
min,0.0,,,,,,,,,,...,,,,,,,,,,
25%,1875.0,,,,,,,,,,...,,,,,,,,,,
50%,3750.0,,,,,,,,,,...,,,,,,,,,,
75%,5625.0,,,,,,,,,,...,,,,,,,,,,


In [None]:
# mostra mais informações sobre os dados 
dados_mercado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7501 entries, 0 to 7500
Data columns (total 21 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Id          7501 non-null   int64 
 1   product_1   7501 non-null   object
 2   product_2   5747 non-null   object
 3   product_3   4389 non-null   object
 4   product_4   3345 non-null   object
 5   product_5   2529 non-null   object
 6   product_6   1864 non-null   object
 7   product_7   1369 non-null   object
 8   product_8   981 non-null    object
 9   product_9   654 non-null    object
 10  product_10  395 non-null    object
 11  product_11  256 non-null    object
 12  product_12  154 non-null    object
 13  product_13  87 non-null     object
 14  product_14  47 non-null     object
 15  product_15  25 non-null     object
 16  product_16  8 non-null      object
 17  product_17  4 non-null      object
 18  product_18  4 non-null      object
 19  product_19  3 non-null      object
 20  product_

In [None]:
# mostra o tamanho da base de dados
dados_mercado.shape

(7501, 21)

Cada linha do dataset representa uma transação, ou seja, uma operação de compras de produtos. Nas linhas que apresentam valores NaN significa que não houve a compra daquele produto naquela transação.

O algoritmo de regra de associação precisa que a entrada de dados seja no formato de lista com indicador de valores True ou False para cada produto do dataset. Dessa forma, antes de aplicar o algoritmo, é necessário realizar o tratamento dos dados para satisfazer essa condição.

# Etapa 3: tratamento dos dados

In [None]:
# exibe a quantidade de registros de compras
len(dados_mercado)

7501

In [None]:
# mostra valor de produto localizado na linha 1 e coluna 1
dados_mercado.values[1,1]

'burgers'

O nome dos produtos estão localizados a partir da linha 1 e da coluna 1 em diante. Como os dados da coluna id não são necessários para o algoritmo, eles serão dropados para facilitar a manipulação dos dados. Para pegar os dados dos produtos, será necessário percorrer todo o dataframe e armazenar esses dados em uma lista.

In [None]:
# dropa os dados da coluna id
dados_mercado.drop(columns='Id', inplace=True)

In [None]:
# mostra informações sobre os dados dos produtos do mercado
dados_mercado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7501 entries, 0 to 7500
Data columns (total 20 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   product_1   7501 non-null   object
 1   product_2   5747 non-null   object
 2   product_3   4389 non-null   object
 3   product_4   3345 non-null   object
 4   product_5   2529 non-null   object
 5   product_6   1864 non-null   object
 6   product_7   1369 non-null   object
 7   product_8   981 non-null    object
 8   product_9   654 non-null    object
 9   product_10  395 non-null    object
 10  product_11  256 non-null    object
 11  product_12  154 non-null    object
 12  product_13  87 non-null     object
 13  product_14  47 non-null     object
 14  product_15  25 non-null     object
 15  product_16  8 non-null      object
 16  product_17  4 non-null      object
 17  product_18  4 non-null      object
 18  product_19  3 non-null      object
 19  product_20  1 non-null      object
dtypes: objec

In [None]:
# pega os produtos e armazena em uma lista
lista_compras = [] # lista para armazenar somente os produtos
for i in range(len(dados_mercado)):
  lista_compras.append([str(dados_mercado.values[i,j]) for j in range(20)])

In [None]:
# mostra a lista com os produtos
lista_compras

[['shrimp',
  'almonds',
  'avocado',
  'vegetables mix',
  'green grapes',
  'whole weat flour',
  'yams',
  'cottage cheese',
  'energy drink',
  'tomato juice',
  'low fat yogurt',
  'green tea',
  'honey',
  'salad',
  'mineral water',
  'salmon',
  'antioxydant juice',
  'frozen smoothie',
  'spinach',
  'olive oil'],
 ['burgers',
  'meatballs',
  'eggs',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['chutney',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['turkey',
  'avocado',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['mineral water',
  'milk',
  'energy bar',
  'whole wheat rice',
  'green tea',
  'nan',
  'nan',
  'nan',
 

O próximo passo é criar uma lista de produtos com os indicadores True ou False para cada um deles.

In [None]:
te = TransactionEncoder() # classe que codifica os dados de transação armazenados em lista
te_array = te.fit(lista_compras).transform(lista_compras)

In [None]:
# visualiza a nova lista criada
te_array

array([[False,  True,  True, ...,  True, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       ...,
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False, False, False],
       [False, False, False, ..., False,  True, False]])

O próximo passo é criar um dataframe a partir da nova lista de compras gerada, usando como colunas os produtos do mercado, de forma a indicar se eles foram comprados ou não em uma determinada transação.

In [None]:
# transforma a lista de indicadores te.array usando como coluna os produtos
df_produtos = pd.DataFrame(te_array, columns=te.columns_)
df_produtos

Unnamed: 0,asparagus,almonds,antioxydant juice,asparagus.1,avocado,babies food,bacon,barbecue sauce,black tea,blueberries,...,turkey,vegetables mix,water spray,white wine,whole weat flour,whole wheat pasta,whole wheat rice,yams,yogurt cake,zucchini
0,False,True,True,False,True,False,False,False,False,False,...,False,True,False,False,True,False,False,True,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,True,False,False,False,False,False,...,True,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7497,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7498,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
7499,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


# Etapa 4: avaliar os dados ausentes

Após a coleta dos dados percebe-se que há dados ausentes no dataset. Como os produtos foram transformados em colunas, todos os valores ausentes 'NaN' também estão agora como coluna. Esses dados indicam que não houve compra naquela transação e por não nos fornecer algo útil que possa ser aproveitado para aplicar ao algoritmo, eles são excluídos.

In [None]:
# verifica a quantidade de produtos ausentes
df_produtos['nan'].count()

7501

In [None]:
# remove a coluna 'nan' do dataframe
df_produtos.drop(columns='nan', inplace=True)

In [None]:
# mostra a coluna de produtos
df_produtos.columns

Index([' asparagus', 'almonds', 'antioxydant juice', 'asparagus', 'avocado',
       'babies food', 'bacon', 'barbecue sauce', 'black tea', 'blueberries',
       ...
       'turkey', 'vegetables mix', 'water spray', 'white wine',
       'whole weat flour', 'whole wheat pasta', 'whole wheat rice', 'yams',
       'yogurt cake', 'zucchini'],
      dtype='object', length=120)

# Etapa 5: identificar os itens frequentes

Essa etapa consiste em identificar os itens sets mais frequentes no dataframe. Para isso, é necessário utilizar a biblioteca apriori.

In [None]:
# importa a biblioteca apriori
from mlxtend.frequent_patterns import apriori

In [None]:
# define os itens mais frequentes
itens_frequentes = apriori(df_produtos, min_support = 0.05, use_colnames=True) # com suporte de 0.05
itens_frequentes 

Unnamed: 0,support,itemsets
0,0.087188,(burgers)
1,0.081056,(cake)
2,0.059992,(chicken)
3,0.163845,(chocolate)
4,0.080389,(cookies)
5,0.05106,(cooking oil)
6,0.179709,(eggs)
7,0.079323,(escalope)
8,0.170911,(french fries)
9,0.063325,(frozen smoothie)


# Etapa 6: criar as regras de associação

O próximo passo é criar as regras de associação e para isso, necessita-se da biblioteca association_rules.

In [None]:
# importa a biblioteca association_rules
from mlxtend.frequent_patterns import association_rules

In [None]:
# cria as regras e visualiza-as
regras = association_rules(itens_frequentes, metric='confidence', min_threshold=0.1) # 10% das regras acontecerem
regras

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(mineral water),(chocolate),0.238368,0.163845,0.05266,0.220917,1.348332,0.013604,1.073256
1,(chocolate),(mineral water),0.163845,0.238368,0.05266,0.3214,1.348332,0.013604,1.122357
2,(mineral water),(eggs),0.238368,0.179709,0.050927,0.213647,1.188845,0.00809,1.043158
3,(eggs),(mineral water),0.179709,0.238368,0.050927,0.283383,1.188845,0.00809,1.062815
4,(mineral water),(spaghetti),0.238368,0.17411,0.059725,0.250559,1.439085,0.018223,1.102008
5,(spaghetti),(mineral water),0.17411,0.238368,0.059725,0.343032,1.439085,0.018223,1.159314


In [None]:
#seleciona as colunas a serem analisadas
regras = regras[['antecedents', 'consequents', 'support', 'confidence', 'lift']]

In [None]:
# renomea as colunas para facilitar a análise
regras = regras.rename(columns={'antecedents': 'se', 'consequents': 'então', 'support': 'suporte', 'confidence': 'confiança', 'lift': 'LIFT'})

In [None]:
# exibe as regras
regras

Unnamed: 0,se,então,suporte,confiança,LIFT
0,(mineral water),(chocolate),0.05266,0.220917,1.348332
1,(chocolate),(mineral water),0.05266,0.3214,1.348332
2,(mineral water),(eggs),0.050927,0.213647,1.188845
3,(eggs),(mineral water),0.050927,0.283383,1.188845
4,(mineral water),(spaghetti),0.059725,0.250559,1.439085
5,(spaghetti),(mineral water),0.059725,0.343032,1.439085
