# Apriori

_Pessoas que compraram isso, compraram aquilo..._


_Apriori_ é um algoritimo que vai nos dar essa informação.


Imagine as duas situações abaixo:

**Indicação de filmes**

<pre>
User1 -> Movie1, Movie2, Movie3, Movie4
User2 -> Movie1, Movie2
User3 -> Movie2, Movie4
User4 -> Movie1, Movie2, Movie4
</pre>

Podemos observar que:

* Quem viu o Movie1, potencialmente verá Movie2
* Quem vio o Movie2, potencialmente verá Movie4

** Compras lanchonete **

<pre>
User1 -> Burger, French Fries, Ketchup
User2 -> Burger, French Fries, Soda
User3 -> Vegetables, Juice
User4 -> Burguer, Ketchup, Soda
</pre>

Podemos observar que:

* Quem compra Burger, tende a pedir batata, ketchup e refrigerante
* Quem compra vegetais, tende a pedir suco


Chegamos então as seguintes fórmulas:

**Support**

* Indicação de filme

$$ support(M) = \frac{numberUserWatchilistsContainingM}{numberUserWatchlists} $$

* Compras lanchonete

$$ support(I) = \frac{numberTransactionsContainingI}{numberTransactions} $$


**Confidence**

* Indicação de filme

$$ confidence(M1 -> M2) = \frac{numberUserWatchilistsContainingM1AndM2}{numberUserWatchlistsContainingM1} $$

* Compras lanchonete

$$ confidence(I1 -> I2) = \frac{numberTransactionsContainingI1AndI2}{numberTransactionsContainingI1} $$



**Lift**

* Indicação de filme

$$ lift(M1 -> M2) = \frac{confidence(M1 -> M2)}{support(M1 -> M2)} $$

* Compras lanchonete

$$ lift(I1 -> I2) = \frac{confidence(I1 -> I2)}{support(I1 -> I2)} $$



**Passo a passo**

1. Setar um valor minimo para _support_ e _confidence_
2. Obter todos os sub-conjuntos em transações com _support_ alto
3. Obter todas as regras desses sub-conjuntos com _condidence_ alto
4. Ordenar as regras por _lift_ descrescente


## Python

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [2]:
# Import the dataset

dataset = pd.read_csv('Market_Basket_Optimisation.csv', header=None)
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [3]:
## Transformar o dataset em uma lista de listas, pois é assim que o algoritmo espera a 
## entrada de dados

# Iniciar a lista de transacoes
transactions = []

for i in range(0, len(dataset.index)):
    transactions.append([str(dataset.values[i,j]) for j in range(0, len(dataset.columns))])

In [4]:
# Treinar o modelo Aproiri
from apyori import apriori

# Para saber o support, imagine um produto que se compra 3x por semana, entao o support sera:
# 3 * 7 / 7500 = 0.0028 ---> arredondamos para 0.003

# Confidence muito alto, vai dar resultados errados, entao vamos usar confidence de 20%

rules = apriori(transactions, min_support=0.003, min_confidence=0.2, min_lift=3, min_length=2)

In [5]:
# Visualizando os resultados
results = list(rules)

In [6]:
results[0]

RelationRecord(items=frozenset({'chicken', 'light cream'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)])