# Especialização em Ciência de Dados - PUC-Rio
# Machine Learning
## Problemas de Associação com Apriori

# Apriori com 10 linhas de código

https://www.linkedin.com/pulse/getting-started-association-rule-algorithms-machine-only-rajendran/

https://github.com/CharlesRajendran/ml-apriori-algorithm

Nas regras de associação, tentaremos encontrar itens de dados que tenham associação com outro item de dados. Por exemplo: No supermercado, a organização dos produtos exige muita tomada de decisão, porque eles precisam decidir como fazer o o cliente compra mais produtos. Digamos que se você mantiver um produto complementar próximo a outro produto, como chá e açúcar, existe uma grande possibilidade de o cliente comprar os dois.

Vamos usar o algoritmo **apriori** para encontrar padrões de compra nas transações diárias de uma loja de varejo por um mês.

In [0]:
# No Google Colab, clique em > no canto superior esquerdo e na aba Files, adicione os arquivos data.csv e apriori.py, fornecidos junto com este notebook

# Imports
from google.colab import files
import io
from apyori import apriori # necessário importar o apriori.py

# uploaded = files.upload() # caso você queira fazer upload do arquivo na hora

# Converte o dataset em um dataframe do pandas
dataset = pd.read_csv("data.csv", header=None)


# O algoritmo apriori espera a entrada como uma lista de listas: [ [item1, item2], [item2, item3, item4], ..... ] ]
transacoes = []
# Converte o dataframe em uma lista de listas
for i in range(0, len(dataset)):
    transacoes.append([str(dataset.values[i, j]) for j in range(0, 20)])
# Após essas linhas, a variável transacoes terá uma lista de transações, e cada transação terá os itens que foram comprados.


# Suporte: a frequência de um item sendo comprado em toda a transação (quantas vezes um produto está sendo comprado). 
# Este dataset tem 7500 transações e escolhi considerar itens que estavam em pelo menos 30 transações. Portanto, o suporte deve ser 30/7500 = 0,004.
# Suporte (Produto A) = Nº de transações com A / No. total de transações

# Confiança: a frequência de compra de um produto junto com outro produto (quantas vezes compramos produtos juntos, dividido pelo número de vezes que um produto é comprado).
# Exemplo: compramos o "Produto A" 100 vezes e, dentre essas 100 transações, compramos o "Produto B" 60 vezes. 
# Então, a confiança (comprar o "Produto B" se um cliente comprar o "Produto A") é 0,6. Aqui, definimos 0,4 como o mínimo confiante.
# Confiança (Produto A -> Produto B) = Nº de transações (A-> B) / Nº de transações (A)

# Lift: o "aumento" que recebemos ao sugerir um produto para uma pessoa que comprou outro produto e para uma pessoa normal que não comprou o outro produto. 
# Exemplo: digamos que as pessoas tenham comprado o "Produto B" 30 vezes e o "Produto A" 500 vezes, sendo 25 das 30 transações do "Produto B" também incluem o "Produto A". 
# Assim, a porcentagem de pessoas que compram o "Produto B" (Suporte B) é 30/7500 = 0,004 e a porcentagem de pessoas que compram o "Produto B" e o "Produto A" é 25/500 = 0,05. 
# Portanto, o aumento (lift) obtido é de 0,05/0,004 = 12,5%.
# Lift (Produto A -> Produto B) = Confiança (A -> B) / Suporte (B)

# min_length: tamanho mínimo - indica qual é o número mínimo de itens que devem estar em uma transação.

# O algoritmo analisará o conjunto de dados e encontrará associações que correspondem ao nosso valor de Suporte, Confiança, Lift e gerará um conjunto de resultados. 
associacoes = apriori(transacoes, min_support = 0.004, min_confidence = 0.4, min_lift = 3, min_length = 2)

# Converte o resultado gerado em uma lista 
for item in associacoes:
  print(item)

# A primeira coleção de itens escolhida é {'spaghetti', 'cooking oil', 'ground beef'} e o seu suporte é 0,0047. 
# A regra da associação é que, se alguém compra 'cooking oil', 'ground beef' (veja item_base), então compra 'spaghetti' (veja items_add). 
# A confiança para a associação acima é de 0,57 e o lift é de 3,2.

# Exemplo de Market Basket Analysis com Apriori
https://stackabuse.com/association-rule-mining-via-apriori-algorithm-in-python/
https://www.geeksforgeeks.org/apriori-algorithm/



## Carga e análise exploratória dos dados

In [0]:
# Imports
import numpy as np 
import pandas as pd 
from mlxtend.frequent_patterns import apriori, association_rules 

# Carga dos dados
data = pd.read_excel('Online_Retail.xlsx') 

In [0]:
# Exibe as primeiras linhas do dataset
data.head() 

In [0]:
# Exibe as colunas dos dados 
data.columns 

In [0]:
# Exibe as diferentes regiões das transações
data.Country.unique() 

## Limpeza dos dados

In [0]:
# Removendo espaços extras na descrição
data['Description'] = data['Description'].str.strip() 

# Eliminando as linhas sem nenhum invoice number 
data.dropna(axis = 0, subset =['InvoiceNo'], inplace = True) 
data['InvoiceNo'] = data['InvoiceNo'].astype('str') 

# Eliminando todas as transações realizadas a crédito
data = data[~data['InvoiceNo'].str.contains('C')] 

## Divisão dos dados de acordo com a região da transação

In [0]:
# Transações realizadas na França
basket_France = (data[data['Country'] =="France"] 
		.groupby(['InvoiceNo', 'Description'])['Quantity'] 
		.sum().unstack().reset_index().fillna(0) 
		.set_index('InvoiceNo')) 

# Transações realizadas no Reino Unido
basket_UK = (data[data['Country'] =="United Kingdom"] 
		.groupby(['InvoiceNo', 'Description'])['Quantity'] 
		.sum().unstack().reset_index().fillna(0) 
		.set_index('InvoiceNo')) 

# Transações realizadas em Portugal 
basket_Por = (data[data['Country'] =="Portugal"] 
		.groupby(['InvoiceNo', 'Description'])['Quantity'] 
		.sum().unstack().reset_index().fillna(0) 
		.set_index('InvoiceNo')) 

# Transações realizadas na Suécia
basket_Sweden = (data[data['Country'] =="Sweden"] 
		.groupby(['InvoiceNo', 'Description'])['Quantity'] 
		.sum().unstack().reset_index().fillna(0) 
		.set_index('InvoiceNo')) 


In [0]:
# Exibe as primeiras linhas da cesta da Suécia
basket_Sweden.head()

## Transformação dos dados com Hot encoding
https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f

In [0]:
# Definição de uma função simples de hot encoding para sinalizar se o item foi ou não comprado
def hot_encode(x): 
	if(x<= 0): 
		return 0
	if(x>= 1): 
		return 1

# Codificando os datasets 
basket_encoded = basket_France.applymap(hot_encode) 
basket_France = basket_encoded 

basket_encoded = basket_UK.applymap(hot_encode) 
basket_UK = basket_encoded 

basket_encoded = basket_Por.applymap(hot_encode) 
basket_Por = basket_encoded 

basket_encoded = basket_Sweden.applymap(hot_encode) 
basket_Sweden = basket_encoded 

In [0]:
# Exibe as primeiras linhas da cesta da Suécia
basket_Sweden.head()

## Construção dos modelos e análise dos resultados

In [0]:
# Construindo o modelo da França 
frq_items = apriori(basket_France, min_support = 0.05, use_colnames = True) 

# Coletando as Regras Inferidas em um Dataframe
rules = association_rules(frq_items, metric ="lift", min_threshold = 1) 
rules = rules.sort_values(['confidence', 'lift'], ascending =[False, False]) 
rules.head()

Podemos ver que copos e papel e pratos são comprados juntos na França. Isso podo ocorrer porque os franceses têm uma cultura de se reunir com seus amigos e familiares pelo menos uma vez por semana. Além disso, desde que o governo francês proibiu o uso de plástico no país, o povo precisa comprar as alternativas em papel.

In [0]:
# Reino Unido
frq_items = apriori(basket_UK, min_support = 0.01, use_colnames = True) 
rules = association_rules(frq_items, metric ="lift", min_threshold = 1) 
rules = rules.sort_values(['confidence', 'lift'], ascending =[False, False]) 
rules.head()

Se as regras para as transações britânicas forem analisadas um pouco mais profundamente, percebe-se que o povo britânico compra junto diferentes pratos de chá coloridos. Uma razão por trás disso pode ser porque normalmente os britânicos apreciam muito o chá e geralmente colecionam pratos de chá de cores diferentes para diferentes ocasiões.

In [0]:
# Portugal
frq_items = apriori(basket_Por, min_support = 0.05, use_colnames = True) 
rules = association_rules(frq_items, metric ="lift", min_threshold = 1) 
rules = rules.sort_values(['confidence', 'lift'], ascending =[False, False]) 
rules.head()

Ao analisar as regras de associação para transações em Portugal, observa-se que os conjuntos Tiffin (Knick Knack Tins) e lápis de cor geralmente são comprados juntos. Esses dois produtos geralmente pertencem a uma criança que frequenta a escola primária,e as criaças costumam usar a para levar o almoço e para trabalhos criativos, respectivamente, e, portanto, fazem sentido serem comprados juntos.

In [0]:
# Suécia
frq_items = apriori(basket_Sweden, min_support = 0.05, use_colnames = True) 
rules = association_rules(frq_items, metric ="lift", min_threshold = 1) 
rules = rules.sort_values(['confidence', 'lift'], ascending =[False, False]) 
rules.head()

Ao analisar as regras acima, verifica-se que os talheres de meninos e meninas são comprados juntos. Isso pode fazer sentido prático, porque quando um pai compra talheres para seus filhos, ele quer que o produto seja personalizado de acordo com os desejos da criança.

# Outros exemplos interessantes

https://www.geeksforgeeks.org/implementing-apriori-algorithm-in-python/

https://livebook.manning.com/book/machine-learning-in-action/chapter-11/176

https://medium.com/@fabio.italiano/the-apriori-algorithm-in-python-expanding-thors-fan-base-501950d55be9

https://adataanalyst.com/machine-learning/apriori-algorithm-python-3-0/

https://medium.com/@dhavalbagal99/market-basket-analysis-using-apriori-algorithm-215fb308bd1c