In [5]:
import pandas as pd
import numpy as np
from apyori import apriori
from tensorflow.keras.callbacks import TensorBoard
import warnings
import datetime

In [6]:
log_dir = "./tensor/logs/apriori/" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S")
tensorboard_callback = TensorBoard(log_dir=log_dir)

In [7]:
warnings.filterwarnings("ignore")

<span style="font-family: 'Trebuchet MS', sans-serif;">

# Algoritmo Apriori
</span>

<span style="font-size: 13.5px; font-family: 'Trebuchet MS', sans-serif;">
    
O algoritmo Apriori é uma técnica popular de aprendizado de máquina utilizada para mineração de regras de associação em conjuntos de dados. Ele é especialmente útil na descoberta de padrões frequentes em grandes volumes de dados transacionais, como cestas de compras em um supermercado ou registros de transações financeiras.

O algoritmo Apriori baseia-se no princípio da geração de conjuntos de itens frequentes, ou seja, conjuntos de itens que aparecem juntos com uma alta frequência no conjunto de dados. Ele utiliza esse conceito para gerar regras de associação que indicam a relação entre diferentes itens.

---

**Funcionamento**

O funcionamento do algoritmo Apriori pode ser dividido em três principais etapas:

1. **Geração de conjuntos de itens frequentes (itemsets)**: O algoritmo começa identificando todos os itens que aparecem com uma frequência acima de um limiar pré-definido, conhecido como suporte mínimo. Em seguida, ele combina esses itens para formar conjuntos maiores, explorando a propriedade conhecida como "apriori", que afirma que se um conjunto de itens é frequente, então todos os seus subconjuntos também devem ser frequentes.

2. **Geração de regras de associação**: Com os conjuntos de itens frequentes identificados, o algoritmo Apriori gera todas as possíveis regras de associação a partir desses conjuntos. Uma regra de associação é uma expressão do tipo "Se {antecedente}, então {consequente}", onde o antecedente e o consequente são conjuntos de itens.

3. **Avaliação das regras**: Finalmente, o algoritmo avalia as regras geradas com base em métricas como confiança e lift para determinar quais são significativas e úteis.

---

**Parâmetros**

Os principais parâmetros do algoritmo Apriori incluem:

- **Suporte mínimo**: O limiar de frequência mínimo que um conjunto de itens deve ter para ser considerado frequente.

- **Confiança mínima**: A confiança mínima requerida para que uma regra de associação seja considerada significativa.

- **Lift mínimo**: O valor mínimo de lift necessário para que uma regra seja considerada interessante.

---

**Fórmulas**

1. **Suporte de um itemset**:
$[ Suporte(X) = \frac{Número\ de\ transações\ contendo\ X}{Número\ total\ de\ transações} ]$

2. **Confiança de uma regra**:
$[ Confiança(X \rightarrow Y) = \frac{Suporte(X \cup Y)}{Suporte(X)} ]$

3. **Lift de uma regra**:
$[ Lift(X \rightarrow Y) = \frac{Suporte(X \cup Y)}{Suporte(X) \times Suporte(Y)} ]$

---

**Métricas**

- **Suporte**: Mede a frequência com que um conjunto de itens aparece no conjunto de dados.
    -  Frequência de um item ou conjunto de itens nas transações. (Ex: Leite aparece em 80% das transações).
- **Confiança**: Indica a probabilidade de que o consequente de uma regra seja verdadeiro, dado que o antecedente é verdadeiro.
    -  Probabilidade de encontrar B nas transações que contêm A. (Ex: Se alguém compra leite, há 75% de chance de também comprar pão)
- **Lift**: Avalia a força da associação entre os itens em uma regra, considerando a frequência esperada de ocorrência do consequente dado o antecedente.
    -  Importância da regra comparada à ocorrência esperada se os itens fossem independentes. (Ex: Pão é 1.25 vezes mais provável de ser comprado com leite do que por acaso)

---

**Informações Técnicas/Uso**
Para usar o algoritmo Apriori, é necessário preparar os dados no formato apropriado, geralmente uma matriz binária onde cada linha representa uma transação e cada coluna representa um item. Em seguida, define-se os parâmetros como suporte mínimo e confiança mínima e aplica-se o algoritmo para gerar regras de associação.


O algoritmo Apriori é uma ferramenta poderosa para descoberta de padrões em conjuntos de dados transacionais. Ao identificar relações entre itens, ele pode fornecer insights valiosos para a tomada de decisões em diversos domínios, como varejo, marketing e finanças. Com uma compreensão sólida dos conceitos, funcionamento e parâmetros do Apriori, os profissionais de aprendizado de máquina podem aplicá-lo com eficácia em seus projetos.

</span>

<span style="font-family: 'Trebuchet MS', sans-serif;">

## Base Teórica
</span>

In [9]:
base_mercado1 = pd.read_csv('../data/mercado.csv', sep = ',', header = None)
base_mercado1

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


**Transformando DF em Lista**

In [10]:
transacoes = []

for i in range(len(base_mercado1)):
    transacoes.append([str(base_mercado1.values[i, j]) for j in range(base_mercado1.shape[1])])

In [11]:
transacoes

[['leite', 'cerveja', 'pao', 'manteiga'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['leite', 'cafe', 'pao', 'manteiga'],
 ['cerveja', 'nan', 'nan', 'nan'],
 ['manteiga', 'nan', 'nan', 'nan'],
 ['pao', 'nan', 'nan', 'nan'],
 ['feijao', 'nan', 'nan', 'nan'],
 ['arroz', 'feijao', 'nan', 'nan'],
 ['arroz', 'nan', 'nan', 'nan']]

In [16]:
regras = apriori(
    transactions = transacoes,
    min_support = 0.3,
    min_confidence = 0.8,
    min_lift = 2
)
resultados = list(regras)

In [17]:
resultados

[RelationRecord(items=frozenset({'manteiga', 'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'pao', 'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'pao', 'manteiga', 'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'manteiga', 'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'pao', 'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])]

In [19]:
resultados[2]

RelationRecord(items=frozenset({'pao', 'manteiga', 'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'manteiga', 'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'pao', 'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])

<span style="font-family: 'Trebuchet MS', sans-serif;">

### Retorno
</span>

<span style="font-size: 12px; font-family: 'Trebuchet MS', sans-serif; line-height: 0.7; letter-spacing: 0.3px; font-weight: 100;">

---

#### Explicação do retorno do algoritmo Apriori
```python
RelationRecord(
    items = frozenset({'pao', 'manteiga', 'cafe'}), 
    support=0.3, 
    ordered_statistics=[
        OrderedStatistic(
            items_base=frozenset({'cafe'}), 
            items_add=frozenset({'pao', 'manteiga'}), 
            confidence=1.0, 
            lift=2.5
        ), 
        OrderedStatistic(
            items_base=frozenset({'manteiga', 'cafe'}), 
            items_add=frozenset({'pao'}), 
            confidence=1.0, 
            lift=2.0
        ), 
        OrderedStatistic(
            items_base=frozenset({'pao', 'cafe'}), 
            items_add=frozenset({'manteiga'}), 
            confidence=1.0, 
            lift=2.0
        )
    ]
)
```
---
##### items
- `items=frozenset({'pao', 'manteiga', 'cafe'})` Conjunto de itens que aparecem frequentemente juntos nas transações.
---

##### support
- `support=0.3` Proporção de transações que contêm o itemset completo. Neste caso, 30% das transações contêm `pao`, `manteiga` e `cafe`.
---
##### ordered_statistics
- Lista de objetos `OrderedStatistic`, cada um representando uma regra de associação derivada do itemset frequente.
---
##### Componentes do OrderedStatistic
###### items_base
- `items_base=frozenset({'cafe'})` Antecedente da regra de associação (lado esquerdo da regra).
###### items_add
- `items_add=frozenset({'pao', 'manteiga'})` Consequente da regra de associação (lado direito da regra).
###### confidence
- `confidence=1.0` Confiança da regra, indicando a probabilidade de `items_add` aparecer nas transações que contêm `items_base`. Aqui, 100%.
###### lift
- `lift=2.5` Lift da regra, medindo a importância da regra comparada à ocorrência esperada do consequente se antecedente e consequente fossem independentes. Aqui, 2.5 vezes mais provável.

---

##### Resumo das Regras Geradas
###### Regra 1:
- **Antecedente:** `cafe`

- **Consequente:** `pao, manteiga`

- **Confiança:** 1.0 (100%)

- **Lift:** 2.5
###### Regra 2:
- **Antecedente:** `manteiga, cafe`

- **Consequente:** `pao`

- **Confiança:** 1.0 (100%)

- **Lift:** 2.0
###### Regra 3:
- **Antecedente:** `pao, cafe`

- **Consequente:** `manteiga`

- **Confiança:** 1.0 (100%)

- **Lift:** 2.0

---

##### Interpretação
- **Suporte:** O itemset `{'pao', 'manteiga', 'cafe'}` aparece em 30% das transações.

- **Confiança:** Indica que o consequente sempre aparece quando o antecedente está presente.

- **Lift:** Indica que a presença do antecedente aumenta a probabilidade do consequente mais do que seria esperado por acaso, sugerindo uma associação forte entre os itens.
---
</span>

<span style="font-family: 'Trebuchet MS', sans-serif;">
    
### Armazenando as Regras

</span>

In [23]:
A = []
B = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1]
    result_rules = resultado[2]
    for result_rule in result_rules:
        a = list(result_rule[0])
        b = list(result_rule[1])
        c = result_rule[2]
        l = result_rule[3]
        A.append(a)
        B.append(b)
        suporte.append(s)
        confianca.append(c)
        lift.append(l)

In [24]:
# Se
A

[['cafe'], ['cafe'], ['cafe'], ['manteiga', 'cafe'], ['pao', 'cafe']]

In [25]:
# Então
B

[['manteiga'], ['pao'], ['pao', 'manteiga'], ['pao'], ['manteiga']]

In [26]:
suporte

[0.3, 0.3, 0.3, 0.3, 0.3]

In [27]:
confianca

[1.0, 1.0, 1.0, 1.0, 1.0]

In [28]:
lift

[2.0, 2.0, 2.5, 2.0, 2.0]

In [31]:
rules_df = pd.DataFrame({
    'A': A,
    'B': B,
    'suporte': suporte,
    'confianca': confianca,
    'lift': lift
})
rules_df.sort_values(by = 'lift', ascending = False)

Unnamed: 0,A,B,suporte,confianca,lift
2,[cafe],"[pao, manteiga]",0.3,1.0,2.5
0,[cafe],[manteiga],0.3,1.0,2.0
1,[cafe],[pao],0.3,1.0,2.0
3,"[manteiga, cafe]",[pao],0.3,1.0,2.0
4,"[pao, cafe]",[manteiga],0.3,1.0,2.0


<span style="font-family: 'Trebuchet MS', sans-serif;">
    
## Base de dados Real
</span>

In [33]:
base_mercado2 = pd.read_csv('../data/mercado2.csv', sep = ',', header = None)
base_mercado2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7498,chicken,,,,,,,,,,,,,,,,,,,
7499,escalope,green tea,,,,,,,,,,,,,,,,,,


In [34]:
transacoes2 = []
for i in range(base_mercado2.shape[0]):
    transacoes2.append([str(base_mercado2.values[i, j]) for j in range(base_mercado2.shape[1])])

**Produtos vendidos x vezes por dia**

In [48]:
prod_num = 4
form = prod_num * 7
support = form / base_mercado2.shape[0]

In [64]:
regras2 = apriori(
    transactions = transacoes2,
    min_support = support,
    min_confidence = 0.2,
    min_lift = 3
)
resultados2 = list(regras2)

In [65]:
len(resultados2)

88

**Criação de um df com regras**

In [66]:
A2 = []
B2 = []
suporte2 = []
confianca2 = []
lift2 = []

for resultado2 in resultados2:
    s2 = resultado2[1]
    result_rules2 = resultado2[2]
    for result_rule2 in result_rules2:
        a2 = list(result_rule2[0])
        b2 = list(result_rule2[1])
        c2 = result_rule2[2]
        l2 = result_rule2[3]
        A2.append(a2)
        B2.append(b2)
        suporte2.append(s2)
        confianca2.append(c2)
        lift2.append(l2)

In [67]:
rules_df2 = pd.DataFrame({
    'A': A2,
    'B': B2,
    'suporte': suporte2,
    'confianca': confianca2,
    'lift': lift2
})
rules_df2.sort_values(by = 'lift', ascending = False)

Unnamed: 0,A,B,suporte,confianca,lift
138,"[mineral water, whole wheat pasta]","[nan, olive oil]",0.003866,0.402778,6.128268
139,"[mineral water, nan, whole wheat pasta]",[olive oil],0.003866,0.402778,6.115863
50,"[mineral water, whole wheat pasta]",[olive oil],0.003866,0.402778,6.115863
9,[light cream],"[nan, chicken]",0.004533,0.290598,4.843951
10,"[light cream, nan]",[chicken],0.004533,0.290598,4.843951
...,...,...,...,...,...
108,"[spaghetti, frozen vegetables, nan]",[shrimp],0.005999,0.215311,3.013149
31,"[spaghetti, frozen vegetables]",[shrimp],0.005999,0.215311,3.013149
130,"[ground beef, shrimp]","[spaghetti, nan]",0.005999,0.523256,3.005315
131,"[ground beef, shrimp, nan]",[spaghetti],0.005999,0.523256,3.005315
