### Regras de Associação

⭐ **Support**

O **suporte** mede a frequência com que um conjunto de itens $X$ aparece no conjunto de dados.
 $$supp(X) = \frac{Number \ of \ transactions \ in \ which \ X \ appears}{Total \ Number \ of \ transactions} $$
 $$supp(X) = P(X)$$
 
⭐ **Confidence**

A **confiança** mede a probabilidade de o item $Y$ aparecer em uma transação, dado que o item $X$ já apareceu. É uma medida de quão confiável é a regra $X→Y$.
 $$conf(X \rightarrow Y) = \frac{supp(X \cap Y)}{supp(X)}$$
$$conf(X \rightarrow Y) = P(Y | X)$$
⭐ **Lift**

O **lift** mede a relação entre a ocorrência de $X$ e $Y$, indicando se a ocorrência de $X$ aumenta ou diminui a probabilidade de $Y$.
 $$lift(X \rightarrow Y) = \frac{supp(X \cap Y)}{supp(X) * supp(Y)}$$
Interpretação:
- **Lift = 1**: $X$ e $Y$ são independentes.
- **Lift > 1**: $X$ e $Y$ estão positivamente correlacionados.
- **Lift < 1**: $X$ e $Y$ estão negativamente correlacionados.

**Conviction**

A **convicção** mede o quão dependente $Y$ é de $X$. Ela avalia a frequência com que a regra $X→Y$ faz previsões incorretas.
 $$conv(X \rightarrow Y) = \frac{1 - supp(Y)}{1 - conf(X\rightarrow Y)}$$

Interpretação:
- **Conviction = 1**: $X$ e $Y$ são independentes.
- **Conviction > 1**: A regra $X→Y$ é útil.
- **Conviction < 1**: A regra $X→Y$ é pior do que a independência.

A convicção compara duas situações:
1. **Sem a Regra $X→Y$**:
    - A probabilidade de $Y$ não ocorrer é $1−P(Y)$.
2. **Com a Regra $X→Y$**:
    - A probabilidade de $Y$ não ocorrer, dado que $X$ ocorreu, é $1−P(Y∣X)$.

A convicção mede **quantas vezes mais frequente** $Y$ não ocorreria se não fosse pela regra $X→Y$. 

Em outras palavras, ela quantifica o quanto a regra $X→Y$ "evita" que $Y$ não ocorra.

In [12]:
import pandas as pd
import random

produtos = [
    'Banana', 'Laranja', 'Leite', 'Carne', 'Queijo', 'Pão', 'Manteiga', 'Café', 'Ovos', 'Arroz',
    'Feijão', 'Açúcar', 'Óleo', 'Sabão', 'Shampoo', 'Cerveja', 'Refrigerante', 'Chocolate', 'Maçã', 'Uva'
]

random.seed(42)  
transacoes = []
for _ in range(20):  
    transacao = [random.choice([0, 1]) for _ in range(len(produtos))]  
    transacoes.append(transacao)

df = pd.DataFrame(transacoes, columns=produtos)

print(df)

    Banana  Laranja  Leite  Carne  Queijo  Pão  Manteiga  Café  Ovos  Arroz  \
0        0        0      1      0       0    0         0     0     1      0   
1        0        0      1      1       1    0         0     1     0      0   
2        1        1      0      0       0    0         1     0     0      0   
3        0        0      0      1       1    1         0     1     0      0   
4        1        0      1      0       0    1         1     1     1      0   
5        1        1      1      0       0    1         1     0     1      1   
6        0        0      1      1       0    0         1     1     0      0   
7        1        0      0      1       1    1         1     1     0      0   
8        0        0      1      0       0    1         1     0     0      1   
9        1        0      0      0       1    1         0     0     0      0   
10       0        0      0      0       0    1         1     1     0      1   
11       0        0      1      0       0    0      

In [13]:
def supp(df, conjunto_itens):
    contagem = df[conjunto_itens].all(axis=1).sum()
    return contagem / len(df)

def conf(df, X, Y):
    return supp(df, X + Y) / supp(df, X)

def lift(df, X, Y):
    return supp(df, X + Y) / (supp(df, X) * supp(df, Y))

def conv(df, X, Y):
    return (1 - supp(df, Y)) / (1 - conf(df, X, Y))

In [17]:
# Exemplo 1
print("\nBANANA E LEITE:")
suporte_banana_leite = supp(df, ['Banana', 'Leite'])
print(f"Suporte de {{Banana, Leite}}: {suporte_banana_leite:.2f}")

confianca_banana_para_leite = conf(df, ['Banana'], ['Leite'])
print(f"Confiança de {{Banana}} -> {{Leite}}: {confianca_banana_para_leite:.2f}")

lift_banana_leite = lift(df, ['Banana'], ['Leite'])
print(f"Lift de {{Banana}} -> {{Leite}}: {lift_banana_leite:.2f}")

conviccao_banana_leite = conv(df, ['Banana'], ['Leite'])
print(f"Convicção de {{Banana}} -> {{Leite}}: {conviccao_banana_leite:.2f}")

# Exemplo 2
print("\nCERVEJA E UVA:")
suporte_Cerveja_Uva = supp(df, ['Cerveja', 'Uva'])
print(f"Suporte de {{Cerveja, Uva}}: {suporte_Cerveja_Uva:.2f}")

confianca_Cerveja_para_Uva = conf(df, ['Cerveja'], ['Uva'])
print(f"Confiança de {{Cerveja}} -> {{Uva}}: {confianca_Cerveja_para_Uva:.2f}")

lift_Cerveja_Uva = lift(df, ['Cerveja'], ['Uva'])
print(f"Lift de {{Cerveja}} -> {{Uva}}: {lift_Cerveja_Uva:.2f}")

conviccao_Cerveja_Uva = conv(df, ['Cerveja'], ['Uva'])
print(f"Convicção de {{Cerveja}} -> {{Uva}}: {conviccao_Cerveja_Uva:.2f}")


BANANA E LEITE:
Suporte de {Banana, Leite}: 0.20
Confiança de {Banana} -> {Leite}: 0.50
Lift de {Banana} -> {Leite}: 0.91
Convicção de {Banana} -> {Leite}: 0.90

CERVEJA E UVA:
Suporte de {Cerveja, Uva}: 0.10
Confiança de {Cerveja} -> {Uva}: 0.29
Lift de {Cerveja} -> {Uva}: 0.57
Convicção de {Cerveja} -> {Uva}: 0.70


### Algoritmo Apriori
Identifica **conjuntos de itens frequentes (frequent itemsets)** e gera **regras de associação** (por exemplo, "se comprou pão, então comprou leite").

#### Passos do Apriori:
1. **Geração de Itemsets Frequentes**:
    - Encontra todos os conjuntos de itens que aparecem com uma **frequência mínima (suporte mínimo, pode ser chamado também de threshold)**.
    - Começa com itemsets de tamanho 1 e aumenta gradualmente o tamanho dos itemsets.
2. **Pruning (Poda)**:
    - Aplica a **propriedade Apriori**: Se um itemset não é frequente, nenhum dos seus superconjuntos (conjuntos que tenham os elementos desse itemset e outros elementos) pode ser frequente.
    - Remove itemsets que não atendem ao suporte mínimo, reduzindo o espaço de busca.
3. **Geração de Regras de Associação**:
	1. Selecionar Itemsets Frequentes
		- Selecionar aqueles itemsets que atendem ao **suporte mínimo** definido.
	2. Gerar Regras Candidatas
		- Para cada itemset frequente $Z$, gere todas as possíveis regras $X \rightarrow Y$, onde:
			- $X \subset Z$ ($X$ é subconjunto de $Z$)
			- $Y = Z \setminus X$ (o restante dos itens em $Z$)
	3. Calcular a Confiança das Regras:
		- A confiança de $X \rightarrow Y$ 
		- $conf(X \rightarrow Y) = \frac{supp(Z)}{supp(X)} = \frac{supp(X \cap Y)}{supp(X)}$
	4. Filtrar Regras por **Confiança Mínima**
		- Manter apenas as regras cuja confiança atende a um **limiar mínimo** definido.

In [39]:
from itertools import combinations

def gerar_combinacoes(itens, tamanho):
    return list(combinations(itens, tamanho))

def podar_candidatos(candidatos, itens_frequentes_anteriores):
    candidatos_podados = []
    for candidato in candidatos:
        subconjuntos = list(combinations(candidato, len(candidato) - 1))
        
        if all(subconjunto in itens_frequentes_anteriores for subconjunto in subconjuntos):
            candidatos_podados.append(candidato)
    
    return candidatos_podados

def apriori(df, suporte_minimo):
    
    itens = df.columns.tolist()
    itens_frequentes = {}
    
    k = 1
    itens_frequentes[k] = {}
    for item in itens:
        suporte = supp(df, [item])
        if suporte >= suporte_minimo:
            itens_frequentes[k][(item,)] = suporte # salvando item como tupla
    
    k += 1
    while True:
        itens_frequentes[k] = {}
        
        combinacoes = gerar_combinacoes(itens, k)

        candidatos_podados = podar_candidatos(combinacoes, itens_frequentes[k - 1])
        
        for combo in candidatos_podados:
            suporte = supp(df, list(combo))
            if suporte >= suporte_minimo:
                itens_frequentes[k][combo] = suporte # combo é tupla
        
        if not itens_frequentes[k]:
            del itens_frequentes[k]
            break
        
        k += 1
    
    return itens_frequentes

itens_frequentes = apriori(df, 0.35)

print("Itens Frequentes:")
for k, itemsets in itens_frequentes.items():
    print(f"Tamanho {k}: {itemsets}")

# 'Banana', 'Laranja', 'Leite', 'Carne', 'Queijo', 'Pão', 'Manteiga', 'Café', 'Ovos', 'Arroz',
# 'Feijão', 'Açúcar', 'Óleo', 'Sabão', 'Shampoo', 'Cerveja', 'Refrigerante', 'Chocolate', 'Maçã', 'Uva'

Itens Frequentes:
Tamanho 1: {('Banana',): 0.4, ('Leite',): 0.55, ('Carne',): 0.45, ('Queijo',): 0.5, ('Pão',): 0.55, ('Manteiga',): 0.65, ('Café',): 0.45, ('Ovos',): 0.4, ('Arroz',): 0.55, ('Açúcar',): 0.4, ('Óleo',): 0.65, ('Sabão',): 0.4, ('Shampoo',): 0.35, ('Cerveja',): 0.35, ('Refrigerante',): 0.65, ('Chocolate',): 0.45, ('Maçã',): 0.55, ('Uva',): 0.5}
Tamanho 2: {('Banana', 'Manteiga'): 0.35, ('Leite', 'Manteiga'): 0.45, ('Leite', 'Arroz'): 0.35, ('Leite', 'Uva'): 0.4, ('Carne', 'Queijo'): 0.35, ('Carne', 'Óleo'): 0.35, ('Queijo', 'Óleo'): 0.5, ('Queijo', 'Refrigerante'): 0.35, ('Pão', 'Óleo'): 0.35, ('Pão', 'Refrigerante'): 0.35, ('Manteiga', 'Arroz'): 0.45, ('Manteiga', 'Óleo'): 0.4, ('Manteiga', 'Refrigerante'): 0.35, ('Manteiga', 'Chocolate'): 0.35, ('Manteiga', 'Maçã'): 0.35, ('Manteiga', 'Uva'): 0.4, ('Café', 'Óleo'): 0.35, ('Arroz', 'Óleo'): 0.35, ('Arroz', 'Refrigerante'): 0.4, ('Óleo', 'Refrigerante'): 0.5, ('Óleo', 'Maçã'): 0.45, ('Sabão', 'Refrigerante'): 0.35, ('Refr

In [40]:
def gerar_regras(itens_frequentes, confianca_minima):
    regras = []
    
    for k, itemsets in itens_frequentes.items():
        if k < 2:
            continue  
        
        for itemset in itemsets:
            for i in range(1, k):
                for antecedente in combinations(itemset, i):
                    consequente = tuple(item for item in itemset if item not in antecedente)
                    
                    suporte_itemset = itens_frequentes[k][itemset]
                    suporte_antecedente = itens_frequentes[len(antecedente)][antecedente]
                    confianca = suporte_itemset / suporte_antecedente
                    
                    if confianca >= confianca_minima:
                        regras.append((antecedente, consequente, confianca))
    
    return regras

regras = gerar_regras(itens_frequentes, 0.85)

print("\nRegras de Associação:")
for regra in regras:
    antecedente, consequente, confianca = regra
    print(f"{antecedente} -> {consequente} (Confiança: {confianca:.2f})")


Regras de Associação:
('Banana',) -> ('Manteiga',) (Confiança: 0.87)
('Queijo',) -> ('Óleo',) (Confiança: 1.00)
('Sabão',) -> ('Refrigerante',) (Confiança: 0.87)
('Leite', 'Arroz') -> ('Manteiga',) (Confiança: 1.00)
('Leite', 'Uva') -> ('Manteiga',) (Confiança: 0.87)
('Manteiga', 'Uva') -> ('Leite',) (Confiança: 0.87)
('Carne', 'Queijo') -> ('Óleo',) (Confiança: 1.00)
('Carne', 'Óleo') -> ('Queijo',) (Confiança: 1.00)
('Queijo', 'Refrigerante') -> ('Óleo',) (Confiança: 1.00)
('Refrigerante', 'Maçã') -> ('Óleo',) (Confiança: 0.87)
