# AULA 14 - ASSOCIATION RULES
---


Dado:

- Um grande conjunto de **items**
- Um grande conjunto de **Baskets (Cestos de Compras)**

O objetivo principal é responder a algo como isto:

```
As pessoas que compraram {x, y, z} tendem a comprar {v, w}

```

Esta é uma **regra de associação**.

----

Considere o seguinte Market-Basket com 5 transações:

<img src = "images/market_basket.png" style = "width: 30%" />

A forma de uma **regra de associação** é

$$ I → j $$

onde I e j são conjuntos de itens. A implicação desta regra de associação é que, se todos os itens em I aparecem em alguma cesta, então todos os items de j também são prováveis que apareçam no cesto.

---

Vamos ver algumas definições:

### Definições

**Suporte $S(I + j) $:** a proporção de registros que **suporta a nossa suposição** 
> Quantas vezes existem nos cestos em análise os items (todos) que compõem I e j?

$$ S (I + j) = \frac {\#(I \cup j)} {T} $$

onde $ T $ = número total de cestos


**Confiança $ C (I → j) $:** a proporção de cestos com todos os $ I $ e também contendo $ j $

$$ C (I → j) = \frac{\#(I \cup j)}{\#I} $$




<img src = "images/market_basket.png" style = "width: 30%" />

Exemplo de Regras:

```
{Leite, Fralda} → {Cerveja} (S = 0,4, C = 0,67)
{Leite, Cerveja} → {Fralda} (S = 0,4, C = 1,0)
{Fralda, Cerveja} → {Leite} (S = 0,4, C = 0,67)
{Cerveja} → {Leite, Fralda} (S = 0,4, C = 0,67)
{Fralda} → {Leite, Cerveja} (S = 0,4, C = 0,5)
{Leite} → {Fralda, Cerveja} (S = 0,4, C = 0,5)
```

Comentários:

- Todas as regras acima correspondem ao mesmo conjunto de items: {Leite, Fralda, Cerveja}
- As regras obtidas do mesmo conjunto de items têm suporte idêntico, mas podem ter uma confiança diferente

---

Dado um limite de suporte k, 
os conjuntos de items que aparecem em pelo menos "s" cestos são chamados **items frequentes** e relatam os **k** cestos com maior suporte




### Como Gerar Regras de Associação?


#### força bruta
Uma abordagem de força bruta para regras de associação de mineração é calcular o **suporte** e **confiança** para todas as regras possíveis. Depois, procurar regras cujos valores sejam acima de limiares específicos.

Esta abordagem é **proibitivamente cara** porque existem várias regras exponenciais que podem ser extraídas de um conjunto de dados.

##### Vejamos este exemplo 

<img src = "images/transactions_1.png" style = "width: 50%" />

Considere-se N = nº de transações, d o número de items de cada cesta (fixo, como exemplo)

Para  $ N = 100 $ transações com 20 items cada ($ d = 20 $), teríamos $ 100 \times 2 ^{20-1} = 52 \space 428 \space 800 $ possíveis combinações e por isso, o mesmo número de candidatos.


---

#### Abordagem em dois passos:

1. Gere todos os conjuntos de items frequentes (conjuntos de items cujo $S$ > K)
2. Gerar regras de associação de alta confiança de cada conjunto de items frequentes

- Cada regra é uma partição de um conjunto de items frequente, pois o suporte alto e a alta confiança só acontecem para items frequentes (o suporte alto é apenas isso!)


> A geração freqüente de items é a operação mais difícil

----

### Gerando conjuntos de items frequentes ($M$):

Se tivermos $d$ items em uma transação, o número de transações frequentes não vazias possíveis é dado por

$$ \sum_ {i = 0} ^ N \binom {d} {i} = 2 ^ d - 1 $$

A regra geral é

Para N transações se tudo tivesse uma quantidade $d$ de items, devemos comparar **suporte** e **confiança** para $M$ conjuntos candidatos por transação onde $M = 2^{d-1}$ - Isso significa uma complexidade de ordem 

$$ O(NM) $$



Este processo precisa de algo que reduz nosso processo de busca. E se pudermos filtrá-los usando algum tipo de informação conhecida anteriormente?

> Imaginemos que um par $w$ não é muito frequente. O que acontece com qualquer conjunto de items composto por $ w $?

<img src = "images/apriori.png" style = "width: 50%" />

> eles também não são muito frequentes!

Podemos declarar:
> **Se um conjunto I de items aparecem menos de X vezes, então o mesmo acontece para todos os conjuntos J que contenham obrigatóriamente I**

Então, podemos reduzir a nossa busca para elementos frequentes:


## Método à priori



1. Leia os cestos e conte "na memória principal" as ocorrências de cada item individual e filtre-os (acima de um dado número de aparições;
    - Necessita de gerar uma hash com dimensão igual ao número de #$items$ e depois filtrar
    
2. Leia os cestos novamente e conte na memória principal apenas os pares em que ambos os elementos são frequentes (do Passo 1) e filtre-os.
    - Lista de items frequentes, com hash #$\{item,item\}$ de dimensão $\binom {\#\{items\}} {2}$ 
    
    
3. E, em seguida, avance nos próximos 3 items
    - Lista de items frequentes, com hash #$\{item,item,item\}$ de dimensão $\binom {\#\{item,item\}} {3}$ 




#### Vejamos um exemplo de uso apriori:

CONSIDERAR:

- Ck = candidata k-tuplas = aqueles que podem ser conjuntos frequentes (suporte> s) com base na informação da passagem para k-1
- Lk = o conjunto de k-tuplas verdadeiramente frequentes


EXEMPLO:

```
C1 = {{b:8} {c:5} {j:7} {m:10} {n:2} {p:3}}
Contar o suporte de items em C1
Filtrar não frequentes (k=4): L1 = {b, c, j, m}
Gerar C2 = {{(b, c):5} {(b, j):1} {(b, m):4} {(c, j):4} {(c, m):5} {(j, m):1}}
Contar o suporte de items em C2
Filtrar não frequentes (k=4): L2 = {{b, c} {b, m} {c, j} {c, m} }
Gerar C3 = {{(b, c, m):3} {(b, c, j):2} {(b, m, j):1} {(c, m, j):2}}
Contar o suporte de items em C3
Filtrar não frequentes (k=1): L3 = {{b, c, m}}
``` 

<img src = "images/apriori_2.png" style = "width: 60%" />


----

### Gerar regras de associação de alta confiança de cada conjunto de items frequentes (alto suporte)

Encontrar todos os subconjuntos não vazios f ⊂ L de tal forma que f → L-f satisfaça o requisito mínimo de confiança.

(O suporte já está assegurado por ser um "conjunto de items frequentes")


Dado {A, B, C, D} como um conjunto de items frequentes, estas são como regras candidatas, com alto suporte:


- ABC → D
- A → BCD
- AB → CD
- BD → AC
- ABD → C
- B → ACD
- AC → BD
- CD → AB
- ACD → B
- C → ABD
- AD → BC
- BCD → A
- D → ABC
- BC → AD

O calculo uma confiança ($C$) é feito pela definição. Por exemplo, para o caso de C (A, B → C, D)

$$ C (A, B → C, D) = \frac {S (A, B, C, D)} {S (A, B)} = \frac {\# (A, B, C, D) } {\# (A, B)} $$

Analisando o conjunto de dados disponível.


