<a href="https://colab.research.google.com/github/lopes-adriano/machine-learning/blob/main/apriori_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Algoritmos de ML - Aprendizado não supervisionado

Aluno: Adriano Ferreira Lopes

Matrícula: 201802671

## Apriori Algorithm

### Introdução

O Apriori é um algoritmo de mineração de regras de associação usado para descobrir padrões frequentes em conjuntos de dados. Ele opera identificando itens frequentes em transações e construindo regras de associação que descrevem a relação entre diferentes itens. A abordagem chave do Apriori é a geração iterativa de conjuntos de itens frequentes, explorando o princípio de que um conjunto de itens frequente deve conter todos os seus subconjuntos frequentes.

### Aplicações

- Varejo e Comércio Eletrônico: No setor de varejo, o Apriori é utilizado para análise de cestas de compras, permitindo a recomendação de produtos com base nas associações frequentes entre itens comprados juntos.

- Análise de Dados da Web: Em análise de logs da web, o Apriori pode ser aplicado para descobrir padrões de comportamento do usuário, melhorando a personalização de conteúdo.

- Saúde e Medicina: Na área de saúde, o Apriori pode ser empregado para identificar associações entre sintomas e condições médicas com base em registros de pacientes.

### Vantagens

1. Simplicidade e Interpretabilidade: O Apriori é fácil de compreender e interpretar, tornando-se uma escolha acessível para análise de padrões em dados transacionais.

2. Identificação de Relações Entre Itens: Permite a descoberta de relações frequentes entre itens, revelando associações úteis e insights de negócios.

3. Adaptabilidade a Dados Variáveis: Pode ser aplicado a diferentes tipos de dados, como transações de compras, registros médicos e padrões de navegação na web.

### Desvantagens

1. Custo Computacional Elevado: O Apriori pode ser computacionalmente intensivo, especialmente em conjuntos de dados grandes, devido à necessidade de gerar todos os conjuntos de itens frequentes.

2. Manejo de Dados Esparsos: Pode enfrentar desafios em conjuntos de dados com muitos itens, resultando em uma matriz esparsa e aumento nos requisitos de memória.

3. Sensibilidade a Parâmetros: O desempenho do Apriori pode depender da configuração de parâmetros, como o suporte mínimo, exigindo ajustes cuidadosos.

### Exemplo de código

In [1]:
# Importando bibliotecas
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules
import pandas as pd

In [None]:
# Dados de exemplo (transações de compra)
transactions = [
    ['Leite', 'Pão', 'Manteiga', 'Cerveja'],
    ['Leite', 'Pão', 'Cerveja', 'Frutas'],
    ['Leite', 'Ovos', 'Cerveja', 'Frutas'],
    ['Pão', 'Ovos', 'Manteiga', 'Cerveja'],
    ['Manteiga', 'Ovos', 'Cerveja', 'Frutas'],
    ['Leite', 'Pão', 'Manteiga'],
    ['Leite', 'Pão', 'Cerveja'],
    ['Pão', 'Ovos', 'Manteiga', 'Frutas'],
    ['Leite', 'Pão', 'Ovos', 'Manteiga', 'Cerveja'],
    ['Leite', 'Ovos', 'Cerveja', 'Frutas'],
    ['Pão', 'Manteiga', 'Cerveja', 'Frutas'],
    ['Leite', 'Pão', 'Ovos', 'Manteiga'],
]

In [None]:
# Convertendo os dados para o formato esperado pelo Apriori
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)

# Criando um DataFrame com os dados transformados
df = pd.DataFrame(te_ary, columns=te.columns_)

In [None]:
# Aplicando o algoritmo Apriori para encontrar itens frequentes
frequent_itemsets = apriori(df, min_support=0.4, use_colnames=True)

# Gerando regras de associação
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.7)

In [5]:
# Exibindo itens frequentes e regras de associação
print("Itens Frequentes:")
print(frequent_itemsets)

print("\nRegras de Associação:")
print(rules)

Itens Frequentes:
     support             itemsets
0   0.750000            (Cerveja)
1   0.500000             (Frutas)
2   0.666667              (Leite)
3   0.666667           (Manteiga)
4   0.583333               (Ovos)
5   0.750000                (Pão)
6   0.416667    (Frutas, Cerveja)
7   0.500000     (Leite, Cerveja)
8   0.416667  (Cerveja, Manteiga)
9   0.416667      (Cerveja, Ovos)
10  0.500000       (Cerveja, Pão)
11  0.500000         (Leite, Pão)
12  0.416667     (Ovos, Manteiga)
13  0.583333      (Pão, Manteiga)

Regras de Associação:
  antecedents consequents  antecedent support  consequent support   support  \
0    (Frutas)   (Cerveja)            0.500000            0.750000  0.416667   
1     (Leite)   (Cerveja)            0.666667            0.750000  0.500000   
2      (Ovos)   (Cerveja)            0.583333            0.750000  0.416667   
3     (Leite)       (Pão)            0.666667            0.750000  0.500000   
4      (Ovos)  (Manteiga)            0.583333         

  and should_run_async(code)


- antecedents: O conjunto de itens que aparece antes da seta (->).
- consequents: O conjunto de itens que aparece após a seta (->).

- antecedent support: A proporção de transações que contêm o antecedente em relação ao total de transações.
- consequent support: A proporção de transações que contêm o consequente em relação ao total de transações.

- support: A proporção de transações que contêm tanto o antecedente quanto o consequente em relação ao total de transações.

- confidence: A confiança da regra é a probabilidade condicional de o consequente ocorrer dado o antecedente.

- lift: O lift é a razão entre a confiança da regra e o suporte do consequente. Um lift maior que 1 indica uma associação positiva.

- leverage: Mede quanto a ocorrência conjunta da antecedente e consequente difere da ocorrência esperada se fossem independentes.

- conviction: Mede o quão independente são o antecedente e o consequente. Valores mais altos indicam maior dependência.