[![](images/colab-badge.png)](https://colab.research.google.com/github/fzampirolli/si-md2/blob/main/si-md2/notebooks_alunos/cap02/cap02_aluno.ipynb)


# Minera√ß√£o de Dados e Regras de Associa√ß√£o

## Introdu√ß√£o

A Minera√ß√£o de Dados √© uma disciplina t√£o vasta que qualquer publica√ß√£o
sobre o tema obriga o autor a selecionar alguns t√≥picos em detrimento de
outros n√£o menos importantes. A atividade de **Regras de Associa√ß√£o**
foi o t√≥pico escolhido para iniciarmos a apresenta√ß√£o das principais
atividades da Minera√ß√£o de Dados por envolver ideias bem intuitivas. A
analogia entre Regras de Associa√ß√£o e Cesta de Compras facilita o
entendimento de como descobrir padr√µes de associa√ß√£o entre itens de um
conjunto qualquer.

## Minera√ß√£o de Dados

Durante o processo de **Descoberta de Conhecimento em Bases de Dados**,
**KDD**, √© na etapa de **Minera√ß√£o de Dados** que efetivamente s√£o
encontrados os padr√µes de associa√ß√£o impl√≠citos nos dados. A an√°lise
automatizada dessa massa de dados visa detectar regularidades, ou quebra
de regularidade, que constitui informa√ß√£o impl√≠cita, por√©m desconhecida,
e √∫til para determinado fim.

A Minera√ß√£o de Dados pode ser vista como a sistematiza√ß√£o de teorias,
t√©cnicas e algoritmos desenvolvidos em outras disciplinas j√°
consagradas, como a Estat√≠stica, a Intelig√™ncia Artificial, o
Aprendizado de M√°quina, a Base de Dados etc. O prop√≥sito da Minera√ß√£o de
Dados √© detectar automaticamente padr√µes de associa√ß√£o √∫teis e n√£o
√≥bvios em grandes quantidades de dados, veja @fig-2-1.

No dia a dia, uma quantidade incalcul√°vel de dados √© gerada na forma de
registros de vendas, textos brutos, imagens, sons, gr√°ficos etc., tanto
por sistemas computacionais como por seres humanos, constituindo uma
esp√©cie de informa√ß√£o n√£o estruturada. Embora esta forma de registro de
dados seja adequada para o ser humano, quando se trata de analisar
grandes quantidades de dados de forma automatizada, √© comum e
conveniente que se introduza alguma **estrutura** que facilite o acesso
e o processamento sistem√°tico.

![A Rela√ß√£o da Minera√ß√£o de Dados com Algumas Disciplinas Correlatas.](images/fig2_1.png){#fig-2-1 width=50%}

Para que parte de toda essa informa√ß√£o n√£o estruturada possa ser
utilizada na Minera√ß√£o de Dados, geralmente √© feita uma sele√ß√£o e um
pr√©-processamento visando transformar dados brutos em cole√ß√µes
estruturadas de dados. Em termos pr√°ticos, para nossas considera√ß√µes
iniciais, a estrutura de representa√ß√£o de uma Base de Dados pode ser
semelhante a uma tabela de dados, sendo cada linha dessa tabela uma
**transa√ß√£o** ou um **exemplo**. Cada **transa√ß√£o** √© composta por um ou
mais **itens** ou, visto de outra forma, cada **exemplo** √©
caracterizado por seus **atributos**.

As Tabelas [-@tbl-2-cestas], [-@tbl-2-booleana] e [-@tbl-2-tempo] ilustram formas de dados estruturados convenientes para a Minera√ß√£o de Dados.

In [327]:
#| quarto-raw: true
#| label: tbl-2-cestas
#| tbl-cap: "Cestas de Compras."
#| echo: false
#| output: asis

import pandas as pd
from IPython.display import Markdown

dados = {
    'TID': [1, 2, 3, 4, 5],
    'Itens': [
        '{Arroz, Feij√£o, √ìleo}',
        '{Queijo, Vinho}',
        '{Arroz, Feij√£o, Batata, √ìleo}',
        '{Arroz, √Ågua, Queijo, Vinho}',
        '{Arroz, Feij√£o, Batata, √ìleo}'
    ]
}
df = pd.DataFrame(dados)

# Para garantir que o Quarto entenda como Markdown puro e o Colab mostre formatado:
Markdown(df.to_markdown(index=False, colalign=("center", "left")))

|  TID  | Itens                         |
|:-----:|:------------------------------|
|   1   | {Arroz, Feij√£o, √ìleo}         |
|   2   | {Queijo, Vinho}               |
|   3   | {Arroz, Feij√£o, Batata, √ìleo} |
|   4   | {Arroz, √Ågua, Queijo, Vinho}  |
|   5   | {Arroz, Feij√£o, Batata, √ìleo} |

Na @tbl-2-cestas cada uma das Transa√ß√µes possui uma IDentifica√ß√£o (TID), e
seus itens representam artigos vendidos em um supermercado. Se a tabela
de itens for muito extensa, como costuma ser em casos reais, pode ser
ainda mais conveniente representar cada um de seus itens na forma de um
atributo associado a um valor booleano, como mostra a @tbl-2-booleana.


In [328]:
#| quarto-raw: true
#| label: tbl-2-booleana
#| tbl-cap: "Representa√ß√£o Booleana de Cestas de Compras."
#| echo: false

import pandas as pd
from IPython.display import Markdown

dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feij√£o': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    '√ìleo': ['y', 'n', 'y', 'n', 'y'],
    '√Ågua': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}
df_booleana = pd.DataFrame(dados_booleana)

Markdown(df_booleana.to_markdown(index=False, colalign=("center",) * len(df_booleana.columns)))

|  TID  |  Arroz  |  Feij√£o  |  Batata  |  √ìleo  |  √Ågua  |  Queijo  |  Vinho  |
|:-----:|:-------:|:--------:|:--------:|:------:|:------:|:--------:|:-------:|
|   1   |    y    |    y     |    n     |   y    |   n    |    n     |    n    |
|   2   |    n    |    n     |    n     |   n    |   n    |    y     |    y    |
|   3   |    y    |    y     |    y     |   y    |   n    |    n     |    n    |
|   4   |    y    |    n     |    n     |   n    |   y    |    y     |    y    |
|   5   |    y    |    y     |    y     |   y    |   n    |    n     |    n    |

Um exemplo cl√°ssico de uma Base de Dados usada em artigos sobre
Minera√ß√£o de Dados √© apresentada na @tbl-2-tempo (@quinlan1986 *apud*  @witten2005), composta por dados fict√≠cios sobre as condi√ß√µes
de tempo para que ocorra ou n√£o a partida de um esporte n√£o
especificado. A tabela √© composta por 14 exemplos (linhas), cada um com
cinco atributos (colunas): Dia, Temperatura, Umidade, Vento e Partida. A
tabela pode tamb√©m ser interpretada de outra forma, como sendo composta
por quatro atributos (Dia, Temperatura, Umidade e Vento) e uma classe
(Partida), que representa o resultado da combina√ß√£o dos quatro
atributos.

In [329]:
#| quarto-raw: true
#| label: tbl-2-tempo
#| tbl-cap: "Tabela do Tempo."
#| echo: false

import pandas as pd
from IPython.display import Markdown

dados_tempo = {
    'Dia': ['Ensolarado', 'Ensolarado', 'Nublado', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Nublado', 'Ensolarado', 'Ensolarado', 'Chuvoso', 'Ensolarado', 'Nublado', 'Nublado', 'Chuvoso'],
    'Temperatura': ['Elevada', 'Elevada', 'Elevada', 'Amena', 'Baixa', 'Baixa', 'Baixa', 'Amena', 'Baixa', 'Amena', 'Amena', 'Amena', 'Elevada', 'Amena'],
    'Umidade': ['Alta', 'Alta', 'Alta', 'Alta', 'Normal', 'Normal', 'Normal', 'Alta', 'Normal', 'Normal', 'Normal', 'Alta', 'Normal', 'Alta'],
    'Vento': ['Falso', 'Verdadeiro', 'Falso', 'Falso', 'Falso', 'Verdadeiro', 'Verdadeiro', 'Falso', 'Falso', 'Falso', 'Verdadeiro', 'Verdadeiro', 'Falso', 'Verdadeiro'],
    'Partida': ['N√£o', 'N√£o', 'Sim', 'Sim', 'Sim', 'N√£o', 'Sim', 'N√£o', 'Sim', 'Sim', 'Sim', 'Sim', 'Sim', 'N√£o']
}
df_tempo = pd.DataFrame(dados_tempo)

Markdown(df_tempo.to_markdown(index=False))

| Dia        | Temperatura   | Umidade   | Vento      | Partida   |
|:-----------|:--------------|:----------|:-----------|:----------|
| Ensolarado | Elevada       | Alta      | Falso      | N√£o       |
| Ensolarado | Elevada       | Alta      | Verdadeiro | N√£o       |
| Nublado    | Elevada       | Alta      | Falso      | Sim       |
| Chuvoso    | Amena         | Alta      | Falso      | Sim       |
| Chuvoso    | Baixa         | Normal    | Falso      | Sim       |
| Chuvoso    | Baixa         | Normal    | Verdadeiro | N√£o       |
| Nublado    | Baixa         | Normal    | Verdadeiro | Sim       |
| Ensolarado | Amena         | Alta      | Falso      | N√£o       |
| Ensolarado | Baixa         | Normal    | Falso      | Sim       |
| Chuvoso    | Amena         | Normal    | Falso      | Sim       |
| Ensolarado | Amena         | Normal    | Verdadeiro | Sim       |
| Nublado    | Amena         | Alta      | Verdadeiro | Sim       |
| Nublado    | Elevada       | Normal    | Falso      | Sim       |
| Chuvoso    | Amena         | Alta      | Verdadeiro | N√£o       |

Uma an√°lise mais atenta dos exemplos das Tabelas [-@tbl-2-cestas] e [-@tbl-2-tempo] revela que alguns desses atributos sempre aparecem juntos e que, portanto, v√°rias
**Regras de Associa√ß√£o** podem ser extra√≠das dessas tabelas.

## Regras de Associa√ß√£o 

A representa√ß√£o do conhecimento atrav√©s de regras, tamb√©m conhecidas
como regras *IF-THEN* ou Regras de Produ√ß√£o, √© largamente utilizada
porque, entre outras vantagens sobre formas alternativas de
representa√ß√£o do conhecimento, s√£o facilmente compreendidas pelo ser
humano, f√°ceis de serem alteradas, validadas e verificadas, e de baixo
custo para a cria√ß√£o de sistemas baseados em regras (@padhy2010).

$\textcolor{blue}{\textbf{Regra de Associa√ß√£o}}$ s√£o uma forma espec√≠fica de representa√ß√£o de
conhecimento que descrevem padr√µes de associa√ß√£o impl√≠citos entre um
conjunto de atributos ou itens de uma Base de Dados, e que podem ajudar
a predizer com alta probabilidade a presen√ßa, ou n√£o, de outro conjunto
de atributos ou itens.

Dito de forma equivalente, uma Regra de Associa√ß√£o revela que a presen√ßa
de um conjunto $\mathbf{X}$ de itens numa transa√ß√£o implica outro conjunto
$\mathbf{Y}$ de itens, i.e., $\mathbf{X} = \{a, b, \ldots\} \Rightarrow \mathbf{Y} = \{p, \ldots, z\}$.
Note que o fato de um conjunto de itens $\mathbf{X}$ (antecedente) estar sempre
associado a outro $\mathbf{Y}$ (consequente) n√£o significa obrigatoriamente que
um seja a causa de outro, i.e., n√£o h√° necessariamente rela√ß√£o de
causalidade entre antecedente e consequente e sim mera ocorr√™ncia
simult√¢nea de itens com certa probabilidade.


A estrutura geral de uma **Regra de Associa√ß√£o** assume a seguinte forma:

$$
\textcolor{red}{\textbf{If }} 
(\text{Conjunto } \mathbf{X} \text{ de Itens})
\;\textcolor{red}{\textbf{ then }}\;
(\text{Conjunto } \mathbf{Y} \text{ de Itens}),
\quad \text{sendo } \mathbf{X} \cap \mathbf{Y} = \varnothing
$$ 



Com base na @tbl-2-tempo, v√°rias Regras de Associa√ß√£o podem ser
formuladas:

$$
\textcolor{red}{\textbf{If }} 
(\text{Temperatura} = \text{Baixa})
\;\textcolor{red}{\textbf{ then }}\;
(\text{Umidade} = \text{Normal})
$$ {#eq-2-1}



$$
\textcolor{red}{\textbf{If }} 
(\text{Umidade} = \text{Normal})
\;\textcolor{red}{\textbf{ and }}\;
(\text{Vento} = \text{Falso})
\;\textcolor{red}{\textbf{ then }}\;
(\text{Partida} = \text{Sim})
$$ {#eq-2-2}



$$
\textcolor{red}{\textbf{If }} 
(\text{Dia} = \text{Ensolarado})
\;\textcolor{red}{\textbf{ and }}\;
(\text{Partida} = \text{N√£o})
\;\textcolor{red}{\textbf{ then }}\;
(\text{Umidade} = \text{Alta})
$$ {#eq-2-3}



$$
\textcolor{red}{\textbf{If }} 
(\text{Vento} = \text{Falso})
\;\textcolor{red}{\textbf{ and }}\;
(\text{Partida} = \text{N√£o})
\;\textcolor{red}{\textbf{ then }}\;
(\text{Temperatura} = \text{Elevada})
\;\textcolor{red}{\textbf{ and }}\;
(\text{Umidade} = \text{Alta})
$$ {#eq-2-4}


Estas s√£o apenas algumas das muitas Regras de Associa√ß√£o que podem ser
formuladas com base na @tbl-2-tempo. Para selecionar as Regras de
Associa√ß√£o mais representativas, i.e., aquelas que se apliquem a um
grande n√∫mero de exemplos com alta probabilidade de acerto, precisaremos
de m√©tricas para avaliar o alcance ou a for√ßa de cada regra. Dois dos
mais conhecidos indicadores s√£o **Suporte** e **Confian√ßa**.

**Suporte** --- para cada regra do tipo $\mathbf{X} \Rightarrow \mathbf{Y}$, este par√¢metro indica
a quantos exemplos da tabela esta regra satisfaz (i.e., cont√©m) tanto ao
conjunto de itens de $\mathbf{X}$ quanto ao de $\mathbf{Y}$, ou seja, indica sua
**cobertura** com rela√ß√£o ao n√∫mero total $N$ de exemplos da tabela.
Portanto,

$$\mathbf{\mathbf{Sup}}\left( \mathbf{X \rightarrow Y} \right)\mathbf{=}\frac{\mathbf{|X \cup Y|}}{\mathbf{N}}$$

Por ex., com rela√ß√£o √† primeira [Regra @eq-2-1], h√° quatro exemplos na @tbl-2-tempo em que 
$\mathbf{X} \cup \mathbf{Y} = \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\}$.
Portanto,

$$
\mathbf{Sup}\left( \text{Regra 2.1} \right) 
= \frac{\left| X \cup Y \right|}{N} 
= \frac{\left| \left\{ \text{Temperatura = Baixa, Umidade = Normal} \right\} \right|}{N} 
= \frac{4}{14} = 0{,}29
$$


A [Regra @eq-2-2] tamb√©m possui 
$\mathbf{Sup}(\text{Regra 2.2}) = \frac{4}{14}$; 
a terceira regra apresenta 
$\mathbf{Sup}(\text{Regra 2.3}) = \frac{3}{14}$, 
enquanto a quarta regra possui 
$\mathbf{Sup}(\text{Regra 2.4}) = \frac{1}{14}$.



**Confian√ßa** --- a confian√ßa de uma regra reflete o n√∫mero de exemplos
que cont√™m $\mathbf{Y}$ dentre todos aqueles que cont√™m $\mathbf{X}$
(observe que, al√©m de $\mathbf{X} \Rightarrow \mathbf{Y}$, podem existir
regras do tipo $\mathbf{X} \Rightarrow \mathbf{Z}$,
$\mathbf{X} \Rightarrow \mathbf{W}$ etc.). Em outras palavras, o par√¢metro
Confian√ßa determina quantos s√£o os exemplos em que $\mathbf{X}$ implica
$\mathbf{Y}$, em compara√ß√£o com aqueles em que $\mathbf{X}$ pode ou n√£o
implicar $\mathbf{Y}$. A esse par√¢metro costuma-se tamb√©m atribuir o nome
de $\mathbf{Acur√°cia}$.

$$
\mathbf{Conf}\!\left(\mathbf{X} \Rightarrow \mathbf{Y}\right)
=
\frac{\left| \mathbf{X} \cup \mathbf{Y} \right|}
     {\left| \mathbf{X} \right|}
=
\frac{\mathbf{Sup}\!\left(\mathbf{X} \Rightarrow \mathbf{Y}\right)}
     {\mathbf{Sup}\!\left(\mathbf{X}\right)}
$$

Por ex., com rela√ß√£o √† primeira [Regra @eq-2-1], h√° quatro exemplos na
@tbl-2-tempo em que 
$\mathbf{X} \cup \mathbf{Y} = \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\}$ e,
coincidentemente, quatro exemplos em que 
$\mathbf{X} = \{\text{Temperatura} = \text{Baixa}\}$.
Portanto,

$$
\mathbf{Conf}\!\left(\text{Regra 2.1}\right)
=
\frac{\left| \mathbf{X} \cup \mathbf{Y} \right|}{\left| \mathbf{X} \right|}
=
\frac{\left| \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\} \right|}
     {\left| \{\text{Temperatura} = \text{Baixa}\} \right|}
=
\frac{4}{4}
=
1{,}0
$$

A [Regra @eq-2-2] tamb√©m possui
$\mathbf{Conf}\!\left(\text{Regra 2.2}\right) = \frac{4}{4}$;
a terceira regra apresenta
$\mathbf{Conf}\!\left(\text{Regra 2.3}\right) = \frac{3}{3}$,
enquanto a quarta regra possui
$\mathbf{Conf}\!\left(\text{Regra 2.4}\right) = \frac{1}{2}$.



Regras de Associa√ß√£o s√£o particularmente √∫teis para analisar o
comportamento de clientes e propor "vendas casadas". A informa√ß√£o de que
clientes que compram o item A geralmente compram o item B pode aumentar
significativamente as vendas de uma loja ou livraria, j√° que toda vez
que um cliente manifestar a inten√ß√£o de comprar o item A, a loja pode
tamb√©m lhe oferecer o item B.

Mas o fato de um simples conjunto de itens poder gerar muitas regras de
associa√ß√£o faz com que o n√∫mero de regras associadas a uma base de dados
seja t√£o grande a ponto de a maioria dessas regras n√£o ter qualquer
interesse pr√°tico. Para contornar esta situa√ß√£o, antes de come√ßar a
gerar as regras de associa√ß√£o, √© comum que sejam estabelecidos um valor
de Suporte M√≠nimo ($\mathbf{SupMin}$) e de Confian√ßa M√≠nima ($\mathbf{ConfMin}$).
Regras com suporte muito baixo podem ser resultado de compras feitas ao
acaso e, portanto, n√£o fornecem informa√ß√µes de interesse. Por outro
lado, regras com confian√ßa muito baixa podem indicar que seu poder de
predi√ß√£o √© baixo e, portanto, n√£o √© muito aconselh√°vel assumir que $\mathbf{X}$
implica $\mathbf{Y}$ com base nessas regras.


@agrawal1993mining ao introduzir o conceito de Regras de
Associa√ß√£o prop√¥s um algoritmo denominado **Apriori** no qual Regras de
Associa√ß√£o s√£o geradas em duas etapas:

-   Dado um conjunto de transa√ß√µes **T**, primeiramente s√£o criados
    conjuntos de itens frequentes, chamados de **Conjuntos
    Frequentes**, que devem satisfazer o limite de $\mathbf{SupMin}$;

-   a partir desses Conjuntos Frequentes s√£o geradas **Regras de
    Associa√ß√£o** com confian√ßa maior ou igual **ConfMin**.

## Etapa 1: Gera√ß√£o de Conjuntos Frequentes com Suporte $\geq \mathbf{SupMin}$

As Tabelas [-@tbl-2-simplificada] e [-@tbl-2-alternativa]  mostram vers√µes simplificadas da @tbl-2-booleana, aqui
adaptada para que cada item possa ser representado por apenas uma letra.


::: {layout-ncol=2}

| TID | A | B | C | D | E | F | G |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 |
| 2 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
| 3 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
| 4 | 1 | 0 | 0 | 0 | 1 | 1 | 1 |
| 5 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |

: Vers√£o simplificada da @tbl-2-booleana. {#tbl-2-simplificada}



| TID | Itens |
|:---:|:------|
| 1 | {A, B, D} |
| 2 | {F, G} |
| 3 | {A, B, C, D} |
| 4 | {A, E, F, G} |
| 5 | {A, B, C, D} |

: Vers√£o alternativa da @tbl-2-booleana. {#tbl-2-alternativa}

:::

De acordo com o algoritmo Apriori, para se obter os poss√≠veis Conjuntos
Frequentes relacionados a um conjunto de transa√ß√µes, inicialmente devem
ser criados Conjuntos Frequentes com 1 item apenas e que satisfa√ßam o
crit√©rio de Suporte M√≠nimo. A seguir s√£o criados recursivamente
Conjuntos Frequentes com 2 itens, depois com 3 itens, e assim
sucessivamente.

Os poss√≠veis Conjuntos Frequentes com 1 item apenas, e seus respectivos
valores de Suporte, est√£o representados na @tbl-2-frequentes-1.

| Itens | Suporte |
|:-----:|:-------:|
| {A} | 4/5 |
| {B} | 3/5 |
| {C} | 2/5 |
| {D} | 3/5 |
| {E} | 1/5 |
| {F} | 2/5 |
| {G} | 2/5 |

: Poss√≠veis Conjuntos Frequentes com 1 Item. {#tbl-2-frequentes-1}

Suponhamos que o $\mathbf{SupMin}$ tenha sido definido como $2/5$, ou seja, $40\%$.
De acordo com este crit√©rio, o conjunto {E} n√£o satisfaz $\mathbf{SupMin}$ e
deve ser eliminado. Portanto os Conjuntos Frequentes com 1 Item que
satisfazem o crit√©rio de $\mathbf{SupMin}$ maior ou igual a $2/5$ est√£o
representados na @tbl-2-frequentes-1-supmin.


Ao adotar o procedimento de poda dos candidatos a Conjunto Frequente que
n√£o satisfazem o crit√©rio de $\mathbf{SupMin}$, o n√∫mero total de
Conjuntos Frequentes gerados pode cair significativamente. Em princ√≠pio,
dada uma Base de Dados com $k$ itens, o n√∫mero de poss√≠veis Conjuntos
Frequentes √© $\lvert \mathbf{CF} \rvert = 2^{k} - 1$ (excluindo o conjunto vazio).
Como em nossa @tbl-2-simplificada h√° 7 itens, ent√£o
$\lvert \mathbf{CF} \rvert = 2^{7} - 1 = 127$.



| Itens | Suporte |
|:-----:|:-------:|
| {A} | 4/5 |
| {B} | 3/5 |
| {C} | 2/5 |
| {D} | 3/5 |
| {F} | 2/5 |
| {G} | 2/5 |

: Conjuntos Frequentes com 1 Item e $\mathbf{SupMin} \geq \frac{2}{5}$. {#tbl-2-frequentes-1-supmin}


A seguir devem ser formados novos Conjuntos Frequentes com 2 Itens,
partindo-se dos Conjuntos Frequentes com 1 Item. Note que o Suporte de
um Conjunto Frequente com 2 Itens pode ter no m√°ximo o menor valor de
Suporte de cada um de seus subconjuntos, i. e., dos respectivos
Conjuntos Frequentes com 1 Item. De acordo com esta mesma propriedade,
conhecida como **Princ√≠pio Apriori** ou antimonot√¥nico, qualquer
subconjunto de um Conjunto Frequente tamb√©m ser√° um Conjunto Frequente.
Por exemplo, se $\{A, B\}$ for um Conjunto Frequente, ent√£o $\{A\}$ e $\{B\}$ tamb√©m
s√£o Conjuntos Frequentes e t√™m $\mathbf{Suporte} \geq \mathbf{SupMin}$.

A @tbl-2-frequentes-2 mostra os poss√≠veis Conjuntos Frequentes com 2 Itens e os
respectivos valores de Suporte.

Os conjuntos de 2 itens foram obtidos por combina√ß√£o dos conjuntos de 1
item, enquanto que os valores de Suporte foram obtidos inspecionando-se
as Tabelas [-@tbl-2-simplificada] e [-@tbl-2-alternativa].

Note que os detalhes de como os conjuntos de itens s√£o efetivamente
gerados dependem da forma como o algoritmo Apriori foi implementado, e
diferem um pouco da exposi√ß√£o simplificada que se adotou aqui por raz√µes
did√°ticas.

Para calcular o Suporte dos Conjuntos Frequentes foi necess√°rio ler a
Base de Dados, que em nosso caso √© pequena e est√° representada pela
@tbl-2-simplificada. Em uma implementa√ß√£o computacional √© altamente desej√°vel que
toda a Base de Dados possa ser lida na mem√≥ria principal do computador.
Por√©m, se a Base de Dados for muito grande ela provavelmente ter√° de ser
lida no disco r√≠gido. Para minimizar o n√∫mero de vezes que a Base de
Dados √© consultada, muitos candidatos a Conjuntos Frequentes podem ser
inicialmente criados e depois eliminados, obtendo-se assim
significativos ganhos de tempo.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B} | 3/5 |
| {A, C} | 2/5 |
| {A, D} | 3/5 |
| {A, F} | 1/5 |
| {A, G} | 1/5 |
| {B, C} | 2/5 |
| {B, D} | 3/5 |
| {B, F} | 0 |
| {B, G} | 0 |
| {C, D} | 2/5 |
| {C, F} | 0 |
| {C, G} | 0 |
| {D, F} | 0 |
| {D, G} | 0 |
| {F, G} | 2/5 |

: Poss√≠veis Conjuntos Frequentes com 2 Itens. {#tbl-2-frequentes-2}

Para n√≥s, neste momento, o importante √© compreender como os Conjuntos
Frequentes com $k$ Itens podem ser gerados de forma relativamente
simples pela combina√ß√£o de Conjuntos Frequentes com $k-1$ Itens.

Aplicando-se novamente o crit√©rio de $\mathbf{SupMin} \geq \frac{2}{5}$,
restam apenas os Conjuntos Frequentes com 2 Itens apresentados na
@tbl-2-frequentes-supmin.


| Itens | Suporte |
|:-----:|:-------:|
| {A, B} | 3/5 |
| {A, C} | 2/5 |
| {A, D} | 3/5 |
| {B, C} | 2/5 |
| {B, D} | 3/5 |
| {C, D} | 2/5 |
| {F, G} | 2/5 |

: Conjuntos Frequentes com 2 Itens e 
$\mathbf{SupMin} \geq \frac{2}{5}$. {#tbl-2-frequentes-supmin}



O pr√≥ximo passo agora consiste em criar novos Conjuntos Frequentes com 3
Itens, partindo-se dos Conjuntos Frequentes com 2 Itens, cujo resultado
√© mostrado na @tbl-2-frequentes-3.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C} | 2/5 |
| {A, B, D} | 3/5 |
| {A, C, D} | 2/5 |
| {A, F, G} | 1/5 |
| {B, C, D} | 2/5 |
| {B, F, G} | 0 |
| {C, D, F} | 0 |
| {C, F, G} | 0 |

: Poss√≠veis Conjuntos Frequentes com 3 Itens. {#tbl-2-frequentes-3}

Neste caso, novamente, alguns Conjuntos Frequentes n√£o satisfazem o
crit√©rio de $\mathbf{SupMin} \geq \frac{2}{5}$, havendo a necessidade de
poda para que esses conjuntos n√£o participem da etapa seguinte.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C} | 2/5 |
| {A, B, D} | 3/5 |
| {A, C, D} | 2/5 |
| {B, C, D} | 2/5 |

: Conjuntos Frequentes com 3 Itens e 
$\mathbf{SupMin} \geq \frac{2}{5}$. {#tbl-2-frequentes-3-supmin}

Vamos agora gerar novos Conjuntos Frequentes com 4 Itens, partindo-se
dos Conjuntos Frequentes com 3 Itens (@tbl-2-frequentes-3-supmin), cujo resultado √©
mostrado na @tbl-2-frequentes-4.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C, D} | 2/5 |

: Poss√≠veis Conjuntos Frequentes com 4 Itens. {#tbl-2-frequentes-4}

Se houvesse ao menos dois Conjuntos Frequentes com 4 Itens poder√≠amos
ainda tentar gerar Conjuntos Frequentes com 5 Itens. Mas como h√° apenas
um Conjunto Frequente com 4 Itens, esta primeira etapa do algoritmo
Apriori termina aqui.







## Etapa 2: Gera√ß√£o de Regra de Associa√ß√£o a partir dos Conjuntos Frequentes

Uma vez obtidos os Conjuntos Frequentes com Suporte 
$\geq \mathbf{SupMin}$, √© poss√≠vel extrair de cada Conjunto Frequente
com $k$ itens um total de $2^{k} - 2$ Regras de Associa√ß√£o
(excluindo-se o conjunto vazio na posi√ß√£o de antecedente 
$\varnothing \Rightarrow \mathbf{CF}$ ou de consequente 
$\mathbf{CF} \Rightarrow \varnothing$). 
Na Etapa 1 foram gerados os seguintes Conjuntos Frequentes:


\textbf{Conjuntos Frequentes com 1 Item (total de 6 $\mathbf{CFs}$)}

$$
\{A\},\; \{B\},\; \{C\},\; \{D\},\; \{F\},\; \{G\}
$$

\textbf{Conjuntos Frequentes com 2 Itens (total de 7 $\mathbf{CFs}$)}

$$
\{A, B\},\; \{A, C\},\; \{A, D\},\; \{B, C\},\; \{B, D\},\; \{C, D\},\; \{F, G\}
$$

\textbf{Conjuntos Frequentes com 3 Itens (total de 4 $\mathbf{CFs}$)}

$$
\{A, B, C\},\; \{A, B, D\},\; \{A, C, D\},\; \{B, C, D\}
$$

\textbf{Conjunto Frequente com 4 Itens (total de 1 $\mathbf{CF}$)}

$$
\{A, B, C, D\}
$$



Para extrair as Regras de Associa√ß√£o de um Conjunto Frequente √©
necess√°rio, primeiramente, gerar todos os subconjuntos n√£o vazios desse
Conjunto Frequente $\mathbf{CF}$ e, para cada subconjunto
$\mathbf{S} \subset \mathbf{CF}$, produzir uma Regra de Associa√ß√£o do tipo
$\mathbf{S} \Rightarrow (\mathbf{CF} - \mathbf{S})$ que satisfa√ßa o
crit√©rio de $\mathbf{Confian√ßa} \geq \mathbf{ConfMin}$.

Por exemplo, dado $\mathbf{CF} = \{A, B, C\}$, seus subconjuntos n√£o vazios
poss√≠veis s√£o
$\mathbf{S} = \{\{A\}, \{B\}, \{C\}, \{A, B\}, \{A, C\},$ $\{B, C\}\}$.
Portanto, √© poss√≠vel extrair seis Regras de Associa√ß√£o do
$\mathbf{CF} = \{A, B, C\}$ que envolvam os tr√™s itens:

$$
\{A\} \Rightarrow \{B, C\},
$$

$$
\{B\} \Rightarrow \{A, C\},
$$

$$
\{C\} \Rightarrow \{A, B\},
$$

$$
\{A, B\} \Rightarrow \{C\},
$$

$$
\{A, C\} \Rightarrow \{B\},
$$

$$
\{B, C\} \Rightarrow \{A\}.
$$






Como o Suporte de todos os subconjuntos j√° ter√° sido calculado na Etapa 1,
n√£o ser√° necess√°rio percorrer novamente a Base de Dados para calcular
a Confian√ßa de cada Regra de Associa√ß√£o. Basta reutilizar esses valores
j√° calculados, pois

$$
\mathrm{Conf}\!\left( \mathbf{S} \rightarrow \mathbf{CF} - \mathbf{S} \right)
=
\frac{\left| \mathbf{S} \cup (\mathbf{CF} - \mathbf{S}) \right|}
     {\left| \mathbf{S} \right|}
=
\frac{\left| \mathbf{CF} \right|}
     {\left| \mathbf{S} \right|}
=
\frac{\mathrm{Sup}\!\left( \mathbf{CF} \right)}
     {\mathrm{Sup}\!\left( \mathbf{S} \right)}
$$



Voltando ao exemplo inicial da @tbl-2-alternativa, como o Suporte de
$\mathbf{CF} = \{A, B, C\}$ √© $\frac{2}{5}$ (veja @tbl-2-frequentes-3-supmin), e
considerando os Suportes de seus subconjuntos,

::: {.text-center}
$\mathbf{Sup}(\{A\}) = \frac{4}{5} \quad$ (veja @tbl-2-frequentes-1)

$\mathbf{Sup}(\{B\}) = \frac{3}{5} \quad$ (veja @tbl-2-frequentes-1)

$\mathbf{Sup}(\{C\}) = \frac{2}{5} \quad$ (veja @tbl-2-frequentes-1)

$\mathbf{Sup}(\{A, B\}) = \frac{3}{5} \quad$ (veja @tbl-2-frequentes-2)

$\mathbf{Sup}(\{A, C\}) = \frac{2}{5} \quad$ (veja @tbl-2-frequentes-2)

$\mathbf{Sup}(\{B, C\}) = \frac{2}{5} \quad$ (veja @tbl-2-frequentes-2)
:::

<br>
<p>a Confian√ßa de cada uma das seis regras poss√≠veis ser√°:</p>

$$
\mathbf{Conf}(A \Rightarrow B, C)
=
\frac{\frac{2}{5}}{\frac{4}{5}}
=
0{,}50
$$

$$
\mathbf{Conf}(B \Rightarrow A, C)
=
\frac{\frac{2}{5}}{\frac{3}{5}}
=
0{,}66
$$

$$
\mathbf{Conf}(C \Rightarrow A, B)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

$$
\mathbf{Conf}(A, B \Rightarrow C)
=
\frac{\frac{2}{5}}{\frac{3}{5}}
=
0{,}66
$$

$$
\mathbf{Conf}(A, C \Rightarrow B)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

$$
\mathbf{Conf}(B, C \Rightarrow A)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

Suponha que, para o problema em quest√£o, tenham sido adotados
$\mathbf{SupMin} = 40\%$ e $\mathbf{ConfMin} = 90\%$.
Nesse caso, apenas tr√™s das regras acima seriam aproveitadas:

$$
\mathbf{Conf}(C \Rightarrow A, B) = 1{,}00
\quad
\{Batata\} \Rightarrow \{Arroz, Feij√£o\}
$$

$$
\mathbf{Conf}(A, C \Rightarrow B) = 1{,}00
\quad
\{Arroz, Batata\} \Rightarrow \{Feij√£o\}
$$

$$
\mathbf{Conf}(B, C \Rightarrow A) = 1{,}00
\quad
\{Feij√£o, Batata\} \Rightarrow \{Arroz\}
$$

Aplicando-se o procedimento explicado acima para todos os 18
$\mathbf{CFs}$ obtidos na Etapa 1, seriam geradas aproximadamente
30 Regras de Associa√ß√£o com $\mathbf{SupMin} = 40\%$ e
$\mathbf{ConfMin} = 90\%$ (na realidade, chegamos ao n√∫mero 30
por meio de simula√ß√£o no Weka, como ser√° mostrado na Atividade
Pr√°tica com o Weka).


## Como Gerar Regras de Associa√ß√£o Usando a Ferramenta Weka

Nesta se√ß√£o ser√° apresentado um pequeno tutorial sobre a gera√ß√£o de
Regras de Associa√ß√£o usando o algoritmo "Apriori" implementado na
ferramenta de Aprendizado de M√°quina para tarefas de Minera√ß√£o de Dados
Weka [@frank2016weka]. A vers√£o utilizada √© a 3.6.7 ($\textcolor{red}{\textbf{vers√£o 3.8.6?}}$).  Para fazer uma
simula√ß√£o no Weka, a Base de Dados ter√° de ser escrita ou no formato CSV
*(Comma-Separated Value)* (".csv") ou no formato "ARFF"
*(Attribute-Relation File Format)*, um formato bastante simples e
intuitivo dessa ferramenta. Com o arquivo ".arff" carregado, podemos
ajustar os par√¢metros Suporte e Confian√ßa e rodar o algoritmo Apriori.

**Passo 1** - Vamos supor que nossa Base de Dados tenha sido retirada de
uma planilha eletr√¥nica (".xls") e salva no formato ".csv", como mostra
a @fig-2-2.

::: {#fig-2-2 layout-ncol=2}

![Planilha ".xls"](images/fig2_2a.png){#fig-2-2a width=95%}

![".csv"](images/fig2_2b.png){#fig-2-2b width=45%}

A Base de Dados Transacoes_1 na Forma (a) Planilha ".xls" e (b) ".csv".
:::

Como o Weka tem um conversor interno do formato ".csv" para ".arff",
vamos primeiramente usar este recurso. Depois vamos mostrar como
transformar manualmente o arquivo ".csv" para ".arff".

Obs.: Certifique-se que em seu arquivo ".csv" o separador de c√©lulas
seja efetivamente a v√≠rgula "," e n√£o ";". Se o arquivo ".csv" gerado
pela sua planilha utilizar ";", fa√ßa a substitui√ß√£o para ", ". Caso
contr√°rio, ocorrer√° um erro de leitura no Weka e o arquivo ser√°
interpretado de forma completamente diferente do esperado.

A @tbl-2-weka-db apresenta a representa√ß√£o booleana das cestas de compras, em que cada coluna (A, B, C, ...) indica a presen√ßa (`y`) ou aus√™ncia (`n`) de um item em cada transa√ß√£o. Esse formato √© amplamente utilizado em tarefas de minera√ß√£o de dados, como a extra√ß√£o de regras de associa√ß√£o.

In [330]:
#| quarto-raw: true
#| label: tbl-2-weka-db
#| tbl-cap: "Representa√ß√£o Booleana de Cestas de Compras para utilizar no Weka."
#| echo: false
#| output: asis

import pandas as pd
from IPython.display import Markdown


# 1. Defini√ß√£o dos Dados Brutos (Tabela 2.2)
dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feij√£o': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    '√ìleo': ['y', 'n', 'y', 'n', 'y'],
    '√Ågua': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}

df_original = pd.DataFrame(dados_booleana)

# 2. Pr√©-processamento: Remo√ß√£o de TID e Renomea√ß√£o (Tabela 2.4)
df_sem_tid = df_original.drop(columns=['TID'])
novos_nomes = list(string.ascii_uppercase[:len(df_sem_tid.columns)])
df_sem_tid.columns = novos_nomes

# Para garantir que o Quarto entenda como Markdown puro e o Colab mostre formatado:
Markdown(df_sem_tid.to_markdown(index=False, colalign=("center", "left")))

|  A  | B   | C   | D   | E   | F   | G   |
|:---:|:----|:----|:----|:----|:----|:----|
|  y  | y   | n   | y   | n   | n   | n   |
|  n  | n   | n   | n   | n   | y   | y   |
|  y  | y   | y   | y   | n   | n   | n   |
|  y  | n   | n   | n   | y   | y   | y   |
|  y  | y   | y   | y   | n   | n   | n   |

::: {.content-visible when-format="html"}
> **Instru√ß√£o:** Utilize o bot√£o abaixo para baixar o arquivo `Transacoes_1.csv` e utiliz√°-lo no tutorial do Weka.
:::

In [331]:
#| quarto-raw: true
#| label: download-csv-only
#| code-summary: "Representa√ß√£o Booleana de Cestas de Compras para utilizar no Weka."
#| code-fold: true
#| echo: false

import pandas as pd
import string
import base64
import os
from IPython.display import Markdown, display, HTML

# 1. Defini√ß√£o dos Dados Brutos (Tabela 2.2)
dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feij√£o': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    '√ìleo': ['y', 'n', 'y', 'n', 'y'],
    '√Ågua': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}

df_original = pd.DataFrame(dados_booleana)

# 2. Pr√©-processamento: Remo√ß√£o de TID e Renomea√ß√£o (Tabela 2.4)
df_sem_tid = df_original.drop(columns=['TID'])
novos_nomes = list(string.ascii_uppercase[:len(df_sem_tid.columns)])
df_sem_tid.columns = novos_nomes

# 4. Bot√£o de download apenas para HTML/Jupyter
quarto_format = os.environ.get('QUARTO_FORMAT', '')

if quarto_format in ('html', ''):
    nome_arquivo = "Transacoes_1.csv"
    csv_content = df_sem_tid.to_csv(index=False)
    b64 = base64.b64encode(csv_content.encode()).decode()
    display(HTML(f"""
<div style="margin-top:20px; margin-bottom:20px;">
    <a href="data:text/csv;base64,{b64}" download="{nome_arquivo}"
       style="background-color:#1b5e20; color:white; padding:10px 18px; text-decoration:none; 
              border-radius:8px; font-family:sans-serif; font-size:14px; font-weight:bold; 
              display:inline-block; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
        üì• Baixar Arquivo Transacoes_1.csv
    </a>
</div>
"""))

**Passo 2** -- Dispare o Weka ("GUI Chooser") e tome a op√ß√£o "Explorer",
que corresponde √† vers√£o com recursos gr√°ficos e √≠cones (em vez de linha
de comando). Veja @fig-2-3.

::: {#fig-2-3 layout-ncol=2}

![GUI Chooser](images/fig2_3a.png){#fig-2-3a width=70%}

![Explorer](images/fig2_3b.png){#fig-2-3b width=70%}

Telas Iniciais do Weka (a) GUI Chooser e (b) Explorer.
:::

**Passo 3 --** Com a aba superior "Preprocess" escolhida, d√™ um clique
em "Open file\...". Uma janela denominada "Open" deve se abrir. Ajuste a
op√ß√£o de "File Format:" para ".csv", e escolha o arquivo
"Transacoes_1.csv", conforme mostra a @fig-2-4.


![Janela "Open" com a Op√ß√£o "File Format:" em ".csv".](images/fig2_4.png){#fig-2-4  width=80%}


**Passo 4** -- A tela do Weka Explorer deve apresentar os sete atributo
do arquivo `Transacoes_1`, como mostra a @fig-2-5.

![Os Sete Atributos do Arquivo `Transacoes_1` S√£o Mostrados.](images/fig2_5.png){#fig-2-5}

**Passo 5** -- Como nossa "Base de Dados" √© muito pequena, a convers√£o
manual do arquivo ".csv" para ".arff" pode ser feita muito rapidamente.

Digite no arquivo "Transacoes_1.csv" as palavras-chave "\@relation",
"\@attribute" e "\@data", de acordo com a @fig-2-6, salve e feche o
arquivo ".csv". Mude a termina√ß√£o do arquivo de ".csv" para ".arff". H√°
ainda outras alternativas: Crie um arquivo "Transacoes_1.txt" com o
conte√∫do mostrado abaixo na @fig-2-6 (certifique-se de que se trata
efetivamente de arquivo tipo ".txt" e n√£o, por ex.,
"Transacoes_1.txt.doc" ou "Transacoes_1.txt.rtf"). Feche o arquivo e
mude a termina√ß√£o para ".arff", ou seja, para "Transacoes_1.arff".

![Arquivo ARFF (Transacoes_1.arff), com Itens Ausentes Representados por "n"](images/fig2_6.png){#fig-2-6  width=80%}



 

::: {.content-visible when-format="html"}
> **Instru√ß√£o:** Utilize o bot√£o abaixo para baixar o arquivo `Transacoes_1.arff` e utiliz√°-lo no tutorial do Weka.
:::

In [332]:
#| quarto-raw: true
#| label: download-arff-only
#| code-summary: "Exibir C√≥digo Python para Gera√ß√£o do ARFF"
#| code-fold: true
#| echo: false

import pandas as pd
import string
import os

# 1. Dados e Processamento (conforme Se√ß√£o 2.4)
dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feij√£o': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    '√ìleo': ['y', 'n', 'y', 'n', 'y'],
    '√Ågua': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}

df_sem_tid = pd.DataFrame(dados_booleana).drop(columns=['TID'])
novos_nomes = list(string.ascii_uppercase[:len(df_sem_tid.columns)])
df_sem_tid.columns = novos_nomes

# 2. Constru√ß√£o do conte√∫do ARFF (conforme Se√ß√£o 2.6)
def gerar_arff(df, relacao="Transacoes_1"):
    arff = f"@relation {relacao}\n\n"
    for col in df.columns:
        arff += f"@attribute {col} {{y, n}}\n"
    arff += "\n@data\n"
    for _, row in df.iterrows():
        arff += ",".join(row.values) + "\n"
    return arff

quarto_format = os.environ.get('QUARTO_FORMAT', '')

if quarto_format in ('html', ''):
    import base64
    from IPython.display import display, HTML
    conteudo_arff = gerar_arff(df_sem_tid)
    b64 = base64.b64encode(conteudo_arff.encode()).decode()
    botao_html = f"""<div style="margin-top:20px; margin-bottom:20px;">
        <a href="data:application/octet-stream;base64,{b64}" download="Transacoes_1.arff"
           style="background-color:#1b5e20; color:white; padding:10px 18px; text-decoration:none; 
                  border-radius:8px; font-family:sans-serif; font-size:14px; font-weight:bold; 
                  display:inline-block; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
            üì• Baixar Arquivo Transacoes_1.arff
        </a>
    </div>"""
    display(HTML(botao_html))

**Passo 6** -- Com o arquivo
"Transacoes_1.arff" pronto, disparar o Weka, selecionar a aba
"Preprocess", depois clicar na op√ß√£o "Open file\..." e escolher o
arquivo "Transacoes1\_.arff", conforme mostra a @fig-2-7.


![Aba "Preprocess" + "Open file..." para Escolha do Arquivo ARFF.](images/fig2_7.png){#fig-2-7}

**Passo 7** -- Depois de abrir o arquivo
"Transacoes_1.arff", ainda com a aba "Preprocess" selecionada, escolha
"No class" (ao lado de "Visualize all"), conforme ilustra a @fig-2-8.
(Como vamos gerar Regras de Associa√ß√£o, qualquer um dos atributos pode
funcionar como "classe". Este conceito vai ser melhor explicado quando
formos estudar Regras de Classifica√ß√£o.).

![Sele√ß√£o da Op√ß√£o "No class" para Regras de Associa√ß√£o.](images/fig2_8.png){#fig-2-8}


**Passo 8** -- Na
aba superior do Weka, escolher "Associate" e ao lado de "Choose" clicar
duas vezes sobre o algoritmo "Apriori", conforme mostra a @fig-2-9.


![Ajuste dos Par√¢metros de Entrada do Algoritmo Apriori.](images/fig2_9.png){#fig-2-9}



**Passo 9 --** Na janela que se abre, ajustar o $\mathbf{SupMin}$
("lowerBoundMinSupport") para 0.4, a ConfMin (minMetric) para 0.9 e o
n√∫mero de regras mostradas ("numRules") para 1000, conforme mostra a
@fig-2-10. Clicar em "OK".


![Ajuste dos Par√¢metros SupMin e ConfMin.](images/fig2_10.png){#fig-2-10  width=80%}

**Passo 10** -- Ao clicar em "Start" (ver @fig-2-9) centenas de Regras de Associa√ß√£o
ser√£o geradas, a maioria delas sem qualquer interesse, conforme ilustra
a @fig-2-11. Um dos riscos da gera√ß√£o de Regras de Associa√ß√£o √© que
muitas delas podem n√£o ter qualquer significado pr√°tico. Para contornar
este tipo de problema, √© poss√≠vel introduzir pequenas mudan√ßas na forma
como os atributos s√£o declarados e reduzir significativamente o n√∫mero
de regras geradas.

![Algumas Regras de Associa√ß√£o Geradas com o Arquivo
"Transacoes_1.arff".](images/fig2_11.png){#fig-2-11}

**Passo 11** -- Uma forma de diminuir o n√∫mero de regras √© substituir os
valores ausentes de atributo "n" por "?". Crie um arquivo
"Transacoes_2.arff" conforme mostra a @fig-2-12.

![Arquivo "Transacoes_2.arff" com Itens Ausentes Representados
por "?".](images/fig2_12.png){#fig-2-12}

::: {.content-visible when-format="html"}
> **Instru√ß√£o:** Utilize o bot√£o abaixo para baixar o arquivo `Transacoes_2.arff` e utiliz√°-lo no tutorial do Weka.
:::

In [333]:
#| quarto-raw: true
#| label: download-arff-v2
#| code-summary: "Exibir C√≥digo Python para Gera√ß√£o do Transacoes_2.arff"
#| code-fold: true
#| echo: false

import pandas as pd
import string
import os
import base64

dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feij√£o': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    '√ìleo': ['y', 'n', 'y', 'n', 'y'],
    '√Ågua': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}
df = pd.DataFrame(dados_booleana).drop(columns=['TID'])
df_melhorado = df.replace('n', '?')
novos_nomes = list(string.ascii_uppercase[:len(df_melhorado.columns)])
df_melhorado.columns = novos_nomes

def gerar_arff_v2(df):
    arff = "@relation Transacoes_2\n\n"
    for col in df.columns:
        arff += f"@attribute {col} {{y}}\n"
    arff += "\n@data\n"
    for _, row in df.iterrows():
        arff += ",".join(row.values) + "\n"
    return arff


quarto_format = os.environ.get('QUARTO_FORMAT', '')

if quarto_format in ('html', ''):
    from IPython.display import display, HTML
    conteudo_arff = gerar_arff_v2(df_melhorado)
    b64 = base64.b64encode(conteudo_arff.encode()).decode()
    botao_html = f"""<div style="margin-top:20px; margin-bottom:20px;">
        <a href="data:application/octet-stream;base64,{b64}" download="Transacoes_2.arff"
           style="background-color:#1b5e20; color:white; padding:10px 18px; text-decoration:none; 
                  border-radius:8px; font-family:sans-serif; font-size:14px; font-weight:bold; 
                  display:inline-block; box-shadow: 0 2px 4px rgba(0,0,0,0.1);">
            üì• Baixar Arquivo Transacoes_2.arff
        </a>
    </div>"""
    display(HTML(botao_html))

Isso evitar√° que o Weka crie regras sem qualquer significado pr√°tico,
envolvendo itens ausentes, como por exemplo
$\{F = n\} \Rightarrow \{G = n\}$ (Regra 20 na @fig-2-11).
Embora a regra $\{F = y\} \Rightarrow \{G = y\}$ 
(isto √©, "quem compra queijo
tamb√©m costuma comprar vinho")
possa ser de interesse, a regra segundo a qual
"quem n√£o compra queijo tamb√©m n√£o compra vinho"
dificilmente trar√° alguma informa√ß√£o pr√°tica. Em uma Base de Dados muito
grande, regras desse tipo podem aparecer em quantidades
proibitivamente elevadas.

Com o arquivo "Transacoes_2.arff" foram geradas 30 Regras de
Associa√ß√£o (@fig-2-13), sendo que as regras ilustrativas do texto
te√≥rico do Cap√≠tulo 2, envolvendo o $\mathbf{CF} = \{A, B, C\}$,
aparecem na @fig-2-13 como as regras 15, 16 e 17.

![As 30 Regras de Associa√ß√£o Geradas com o Arquivo
"Transacoes_2.arff".](images/fig2_13.png){#fig-2-13  width=70%}

H√° outras formas de melhorar a qualidade dos resultados e controlar o
n√∫mero de regras geradas, por exemplo, atrav√©s do par√¢metro $\mathbf{Lift}$, cujo significado fica como li√ß√£o de casa.


## üß™ Pr√°tica em Python

### Introdu√ß√£o

A atividade de **Regras de Associa√ß√£o** foi o t√≥pico escolhido para
iniciarmos as principais atividades da Minera√ß√£o de Dados por envolver
ideias bem intuitivas. A analogia entre Regras de Associa√ß√£o e
**Cesta de Compras** facilita o entendimento de como descobrir padr√µes
de associa√ß√£o entre itens de um conjunto qualquer.

Uma **Regra de Associa√ß√£o** possui a forma:

$$\mathbf{X} \Rightarrow \mathbf{Y}, \quad \text{sendo } \mathbf{X} \cap \mathbf{Y} = \varnothing$$

onde $\mathbf{X}$ √© o **antecedente** e $\mathbf{Y}$ o **consequente**.
Note que a associa√ß√£o n√£o implica **causalidade** ‚Äî apenas ocorr√™ncia
simult√¢nea com certa probabilidade.


### üîπ Pr√°tica 1 ‚Äî Configura√ß√£o e Dados Estruturados

Retomamos o padr√£o do cap√≠tulo anterior, todos os `import` no topo, verifica√ß√£o
de vers√µes e uso de **dicion√°rios** para estruturar os dados antes de
convert√™-los em `DataFrames`.

In [334]:
# ============================================================
# BLOCO DE IMPORTA√á√ïES
# ============================================================
import sys
from itertools import combinations
from collections import defaultdict

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches

print(f"Python    : {sys.version.split()[0]}")
print(f"Pandas    : {pd.__version__}")
print(f"NumPy     : {np.__version__}")
print("‚úÖ Ambiente pronto!")

Python    : 3.9.7
Pandas    : 2.3.3
NumPy     : 2.0.2
‚úÖ Ambiente pronto!


### üîπ Pr√°tica 2 ‚Äî Representa√ß√£o de Transa√ß√µes

Os dados de uma Cesta de Compras podem ser representados de duas
formas equivalentes:

1. **Formato de listas** (cada transa√ß√£o √© um conjunto de itens)
2. **Formato booleano** (matriz transa√ß√£o √ó item)

O formato booleano √© mais eficiente computacionalmente e √© o que
algoritmos como o **Apriori** utilizam internamente.

> üí° **Novo conceito Python:** `set` ‚Äî cole√ß√£o **sem ordem** e **sem
> duplicatas**, ideal para opera√ß√µes de conjuntos (‚à™, ‚à©, ‚àí).
> Perfeitamente alinhado com a nota√ß√£o matem√°tica de Regras de
> Associa√ß√£o.

In [335]:
# ----------------------------------------------------------
# Transa√ß√µes: cada elemento √© um frozenset (set imut√°vel)
# Usamos frozenset pois sets n√£o s√£o hashe√°veis (n√£o podem
# ser chaves de dicion√°rio ou elementos de outro set).
# ----------------------------------------------------------
transacoes_raw = [
    {"Arroz", "Feij√£o", "√ìleo"},
    {"Queijo", "Vinho"},
    {"Arroz", "Feij√£o", "Batata", "√ìleo"},
    {"Arroz", "√Ågua", "Queijo", "Vinho"},
    {"Arroz", "Feij√£o", "Batata", "√ìleo"},
]
transacoes = [frozenset(t) for t in transacoes_raw]

# Universo de itens √∫nicos
todos_itens = sorted(set().union(*transacoes))
N = len(transacoes)

print(f"Transa√ß√µes (N={N}):")
for i, t in enumerate(transacoes, start=1):
    print(f"  T{i}: {sorted(t)}")

print(f"\nUniverso de itens ({len(todos_itens)}): {todos_itens}")

# ----------------------------------------------------------
# Representa√ß√£o booleana com Pandas
# ----------------------------------------------------------
df_bool = pd.DataFrame(
    [[item in t for item in todos_itens] for t in transacoes],
    columns=todos_itens,
    index=[f"T{i}" for i in range(1, N+1)]
).astype(int)  # True/False ‚Üí 1/0 para facilitar somas

print("\nRepresenta√ß√£o Booleana:")
print(df_bool.to_string())
print("\nFrequ√™ncia por item:")
print(df_bool.sum().sort_values(ascending=False).to_string())

Transa√ß√µes (N=5):
  T1: ['Arroz', 'Feij√£o', '√ìleo']
  T2: ['Queijo', 'Vinho']
  T3: ['Arroz', 'Batata', 'Feij√£o', '√ìleo']
  T4: ['Arroz', 'Queijo', 'Vinho', '√Ågua']
  T5: ['Arroz', 'Batata', 'Feij√£o', '√ìleo']

Universo de itens (7): ['Arroz', 'Batata', 'Feij√£o', 'Queijo', 'Vinho', '√Ågua', '√ìleo']

Representa√ß√£o Booleana:
    Arroz  Batata  Feij√£o  Queijo  Vinho  √Ågua  √ìleo
T1      1       0       1       0      0     0     1
T2      0       0       0       1      1     0     0
T3      1       1       1       0      0     0     1
T4      1       0       0       1      1     1     0
T5      1       1       1       0      0     0     1

Frequ√™ncia por item:
Arroz     4
Feij√£o    3
√ìleo      3
Batata    2
Queijo    2
Vinho     2
√Ågua      1


### üîπ Pr√°tica 3 ‚Äî Implementando Suporte e Confian√ßa

Para avaliar a qualidade das regras, usamos duas m√©tricas fundamentais:

$$\text{Sup}(X \Rightarrow Y) = \frac{|X \cup Y|}{N}$$

$$\text{Conf}(X \Rightarrow Y) = \frac{\text{Sup}(X \Rightarrow Y)}{\text{Sup}(X)} = \frac{|X \cup Y|}{|X|}$$

- **Suporte** mede a **cobertura** da regra (quantas transa√ß√µes a cont√™m).
- **Confian√ßa** mede a **precis√£o** da regra (dado X, qual a probabilidade de Y).

::: {.callout-note appearance="simple"}
### üí° Novos conceitos Python para Minera√ß√£o

Para implementar algoritmos como o **Apriori** de forma eficiente, √© fundamental dominar ferramentas que otimizam o processamento de grandes volumes de dados:

* **`defaultdict`**: Dicion√°rio do m√≥dulo `collections` que atribui um valor padr√£o autom√°tico. √â ideal para a contagem de **Suporte**, pois evita erros ao tentar acessar chaves que ainda n√£o foram inseridas.
* **`combinations`**: Fun√ß√£o do m√≥dulo `itertools` que gera todas as combina√ß√µes poss√≠veis de um conjunto de itens. √â essencial na **Etapa 1** do KDD para criar candidatos a conjuntos frequentes.
* **Generators (Geradores)**: Estruturas que produzem valores sob demanda (utilizando `yield`). Eles economizam mem√≥ria RAM ao n√£o carregar todas as combina√ß√µes simultaneamente, o que √© crucial em bases de dados volumosas.
:::

In [336]:
def calcular_suporte(itemset: frozenset, transacoes: list) -> float:
    """
    Calcula o suporte de um itemset nas transa√ß√µes.

    Args:
        itemset: conjunto de itens a verificar.
        transacoes: lista de frozensets representando as transa√ß√µes.

    Returns:
        Suporte como propor√ß√£o (0.0 ‚Äì 1.0).
    """
    contagem = sum(1 for t in transacoes if itemset.issubset(t))
    return contagem / len(transacoes)


def calcular_confianca(antecedente: frozenset, consequente: frozenset,
                       transacoes: list) -> float:
    """
    Calcula a confian√ßa de X ‚Üí Y.

    Args:
        antecedente: itemset X.
        consequente: itemset Y.
        transacoes: lista de frozensets.

    Returns:
        Confian√ßa como propor√ß√£o (0.0 ‚Äì 1.0).
        Retorna 0.0 se o antecedente n√£o ocorre.
    """
    sup_antec = calcular_suporte(antecedente, transacoes)
    if sup_antec == 0:
        return 0.0
    sup_uniao = calcular_suporte(antecedente | consequente, transacoes)
    return sup_uniao / sup_antec


# ----------------------------------------------------------
# Teste das m√©tricas com as regras do texto
# ----------------------------------------------------------
regras_exemplo = [
    (frozenset(["Arroz"]),         frozenset(["Feij√£o"]),  "Arroz ‚Üí Feij√£o"),
    (frozenset(["Feij√£o"]),        frozenset(["√ìleo"]),    "Feij√£o ‚Üí √ìleo"),
    (frozenset(["Arroz","Feij√£o"]),frozenset(["Batata"]),  "Arroz,Feij√£o ‚Üí Batata"),
    (frozenset(["Queijo"]),        frozenset(["Vinho"]),   "Queijo ‚Üí Vinho"),
]

print(f"{'Regra':<25} {'Suporte':>8} {'Confian√ßa':>10}")
print("-" * 46)
for ant, cons, label in regras_exemplo:
    sup  = calcular_suporte(ant | cons, transacoes)
    conf = calcular_confianca(ant, cons, transacoes)
    print(f"{label:<25} {sup:>8.2f} {conf:>10.2f}")

Regra                      Suporte  Confian√ßa
----------------------------------------------
Arroz ‚Üí Feij√£o                0.60       0.75
Feij√£o ‚Üí √ìleo                 0.60       1.00
Arroz,Feij√£o ‚Üí Batata         0.40       0.67
Queijo ‚Üí Vinho                0.40       1.00


### üîπ Pr√°tica 4 ‚Äî Algoritmo Apriori Simplificado

O algoritmo **Apriori** [@agrawal1993mining] √© o mais cl√°ssico
para minera√ß√£o de regras de associa√ß√£o. Sua ideia central √© a
**propriedade anti-monot√¥nica do suporte**:

> Se um itemset tem suporte *menor* que o m√≠nimo, nenhum de seus
> superconjuntos pode ter suporte maior.

Isso permite **podar** o espa√ßo de busca exponencialmente.

::: {.callout-tip appearance="simple"}
### üí° Novos conceitos Python para Estrutura√ß√£o de Dados

Para evoluir a implementa√ß√£o dos algoritmos de Minera√ß√£o de Dados, o Python moderno oferece estruturas que tornam o c√≥digo mais leg√≠vel e eficiente:

* **`dataclass` (Python 3.7+)**: Forma moderna de criar classes de dados. Gera automaticamente m√©todos √∫teis como `__init__` e `__repr__`, facilitando a visualiza√ß√£o de transa√ß√µes complexas sem c√≥digo repetitivo.
* **`typing.NamedTuple`**: Uma alternativa imut√°vel para armazenar resultados (como pares de itens e seus suportes). √â mais leve que uma classe comum e permite acessar os dados por nome (ex: `resultado.suporte`) em vez de apenas √≠ndices.
* **Recurs√£o Controlada**: T√©cnica de programa√ß√£o para gerar itemsets de tamanho $k$ a partir de $k-1$. √â vital aplicar um limite de tamanho para evitar o estouro de mem√≥ria ao processar combina√ß√µes em bases com muitos itens diferentes.
:::

In [337]:
from dataclasses import dataclass, field


@dataclass
class RegraAssociacao:
    """Representa uma regra de associa√ß√£o com suas m√©tricas."""
    antecedente: frozenset
    consequente: frozenset
    suporte:    float
    confianca:  float
    lift:       float = field(init=False)

    def __post_init__(self):
        # Lift = confian√ßa / suporte do consequente
        # Lift > 1: associa√ß√£o positiva; < 1: negativa; = 1: independ√™ncia
        sup_cons = calcular_suporte(self.consequente, transacoes)
        self.lift = self.confianca / sup_cons if sup_cons > 0 else 0.0

    def __str__(self):
        ant = ", ".join(sorted(self.antecedente))
        con = ", ".join(sorted(self.consequente))
        return (f"{ant} ‚Üí {con} "
                f"[sup={self.suporte:.2f}, conf={self.confianca:.2f}, "
                f"lift={self.lift:.2f}]")


def apriori(transacoes: list, sup_min: float = 0.4,
            conf_min: float = 0.6) -> list:
    """
    Implementa√ß√£o simplificada do algoritmo Apriori.

    Args:
        transacoes: lista de frozensets.
        sup_min: suporte m√≠nimo (0.0 ‚Äì 1.0).
        conf_min: confian√ßa m√≠nima (0.0 ‚Äì 1.0).

    Returns:
        Lista de RegraAssociacao ordenada por lift (decrescente).
    """
    itens = sorted(set().union(*transacoes))
    regras: list[RegraAssociacao] = []

    # --- Passo 1: itemsets frequentes ---
    frequentes: list[frozenset] = []
    candidatos_k = [frozenset([i]) for i in itens]  # 1-itemsets

    while candidatos_k:
        freq_k = [c for c in candidatos_k
                  if calcular_suporte(c, transacoes) >= sup_min]
        frequentes.extend(freq_k)
        if not freq_k:
            break
        # Gera candidatos k+1 por combina√ß√£o dos frequentes de tamanho k
        k = len(freq_k[0]) + 1
        candidatos_k = [
            a | b
            for a, b in combinations(freq_k, 2)
            if len(a | b) == k
        ]
        # Remove duplicatas
        candidatos_k = list({c: None for c in candidatos_k})

    print(f"Itemsets frequentes (sup ‚â• {sup_min}):")
    for f in sorted(frequentes, key=len):
        print(f"  {sorted(f)}  sup={calcular_suporte(f, transacoes):.2f}")

    # --- Passo 2: gera√ß√£o de regras ---
    for itemset in frequentes:
        if len(itemset) < 2:
            continue
        for tam_ant in range(1, len(itemset)):
            for ant in combinations(itemset, tam_ant):
                ant = frozenset(ant)
                con = itemset - ant
                sup  = calcular_suporte(itemset, transacoes)
                conf = calcular_confianca(ant, con, transacoes)
                if conf >= conf_min:
                    regras.append(RegraAssociacao(ant, con, sup, conf))

    return sorted(regras, key=lambda r: r.lift, reverse=True)


# ----------------------------------------------------------
# Execu√ß√£o
# ----------------------------------------------------------
print("=" * 55)
regras_encontradas = apriori(transacoes, sup_min=0.4, conf_min=0.6)
print(f"\nRegras encontradas ({len(regras_encontradas)}):")
print("=" * 55)
for r in regras_encontradas:
    print(f"  {r}")

Itemsets frequentes (sup ‚â• 0.4):
  ['Arroz']  sup=0.80
  ['Batata']  sup=0.40
  ['Feij√£o']  sup=0.60
  ['Queijo']  sup=0.40
  ['Vinho']  sup=0.40
  ['√ìleo']  sup=0.60
  ['Arroz', 'Batata']  sup=0.40
  ['Arroz', 'Feij√£o']  sup=0.60
  ['Arroz', '√ìleo']  sup=0.60
  ['Batata', 'Feij√£o']  sup=0.40
  ['Batata', '√ìleo']  sup=0.40
  ['Feij√£o', '√ìleo']  sup=0.60
  ['Queijo', 'Vinho']  sup=0.40
  ['Arroz', 'Batata', 'Feij√£o']  sup=0.40
  ['Arroz', 'Batata', '√ìleo']  sup=0.40
  ['Arroz', 'Feij√£o', '√ìleo']  sup=0.60
  ['Batata', 'Feij√£o', '√ìleo']  sup=0.40
  ['Arroz', 'Batata', 'Feij√£o', '√ìleo']  sup=0.40

Regras encontradas (48):
  Vinho ‚Üí Queijo [sup=0.40, conf=1.00, lift=2.50]
  Queijo ‚Üí Vinho [sup=0.40, conf=1.00, lift=2.50]
  Feij√£o ‚Üí Batata [sup=0.40, conf=0.67, lift=1.67]
  Batata ‚Üí Feij√£o [sup=0.40, conf=1.00, lift=1.67]
  Batata ‚Üí √ìleo [sup=0.40, conf=1.00, lift=1.67]
  √ìleo ‚Üí Batata [sup=0.40, conf=0.67, lift=1.67]
  Feij√£o ‚Üí √ìleo [sup=0.60, conf=1.0

### üîπ Pr√°tica 5 ‚Äî Simula√ß√£o do Apriori Cl√°ssico (Join & Prune)

Nesta etapa, vamos focar na **Gera√ß√£o de Candidatos** de forma eficiente, como descrito nas obras de @agrawal1993mining e @han2008.


In [338]:
# ----------------------------------------------------------
# Pr√°tica 5: Implementa√ß√£o da L√≥gica de "Join" do Apriori
# ----------------------------------------------------------

def apriori_gen(freq_k_minus_1: list, k: int) -> list:
    """
    Gera candidatos de tamanho k seguindo a regra do Apriori cl√°ssico:
    Une conjuntos que possuem os mesmos (k-2) primeiros itens.
    """
    candidatos = []
    lista_ordenada = [sorted(list(i)) for i in freq_k_minus_1]
    
    n = len(lista_ordenada)
    for i in range(n):
        for j in range(i + 1, n):
            # Passo de Join: verifica se os primeiros k-2 itens s√£o iguais
            # Para k=2 (itens individuais), o prefixo √© vazio [], ent√£o todos se unem.
            if k == 2:
                candidatos = [frozenset(a) | frozenset(b)
                            for a, b in combinations(freq_k_minus_1, 2)]
            elif lista_ordenada[i][:k-2] == lista_ordenada[j][:k-2]:
                novo_candidato = frozenset(lista_ordenada[i]) | frozenset(lista_ordenada[j])
                
                # Passo de Prune: Propriedade Anti-monot√¥nica
                # Verifica se todos os subconjuntos de tamanho k-1 s√£o frequentes
                if todos_subconjuntos_frequentes(novo_candidato, freq_k_minus_1, k):
                    candidatos.append(novo_candidato)
    return list(set(candidatos))

def todos_subconjuntos_frequentes(candidato: frozenset, freq_k_minus_1: list, k: int) -> bool:
    """Valida se todos os subconjuntos imediatos do candidato s√£o frequentes."""
    subconjuntos = [frozenset(c) for c in combinations(candidato, k-1)]
    for s in subconjuntos:
        if s not in freq_k_minus_1:
            return False
    return True

# --- Simula√ß√£o Passo a Passo ---
print("--- Gerando Candidatos L2 (tamanho 2) a partir de L1 ---")
L1 = [frozenset([i]) for i in todos_itens if calcular_suporte(frozenset([i]), transacoes) >= 0.4]
C2 = apriori_gen(L1, 2)
print(f"Candidatos C2 gerados: {len(C2)}")
for c in sorted([sorted(list(x)) for x in C2]): print(f"  {c}")

print("\n--- Gerando Candidatos L3 (tamanho 3) a partir de L2 ---")
L2 = [c for c in C2 if calcular_suporte(c, transacoes) >= 0.4]
C3 = apriori_gen(L2, 3)
print(f"Candidatos C3 gerados (ap√≥s poda): {len(C3)}")
for c in sorted([sorted(list(x)) for x in C3]): print(f"  {c}")


--- Gerando Candidatos L2 (tamanho 2) a partir de L1 ---
Candidatos C2 gerados: 15
  ['Arroz', 'Batata']
  ['Arroz', 'Feij√£o']
  ['Arroz', 'Queijo']
  ['Arroz', 'Vinho']
  ['Arroz', '√ìleo']
  ['Batata', 'Feij√£o']
  ['Batata', 'Queijo']
  ['Batata', 'Vinho']
  ['Batata', '√ìleo']
  ['Feij√£o', 'Queijo']
  ['Feij√£o', 'Vinho']
  ['Feij√£o', '√ìleo']
  ['Queijo', 'Vinho']
  ['Queijo', '√ìleo']
  ['Vinho', '√ìleo']

--- Gerando Candidatos L3 (tamanho 3) a partir de L2 ---
Candidatos C3 gerados (ap√≥s poda): 4
  ['Arroz', 'Batata', 'Feij√£o']
  ['Arroz', 'Batata', '√ìleo']
  ['Arroz', 'Feij√£o', '√ìleo']
  ['Batata', 'Feij√£o', '√ìleo']


#### Explica√ß√£o Conceitual do Fluxo Cl√°ssico:

* **Gera√ß√£o de Candidatos ($C_k$):** Em vez de usar `combinations(todos_itens, k)`, o que seria proibitivo em bases grandes, o Apriori usa apenas os conjuntos que j√° provaram ser frequentes no n√≠vel anterior ($L_{k-1}$).
* **Poda (Pruning):** Se um candidato a conjunto de 3 itens (ex: `{Arroz, Feij√£o, Batata}`) for gerado, mas o subconjunto `{Feij√£o, Batata}` n√£o estiver na lista de frequentes anterior, o candidato √© descartado imediatamente, antes mesmo de olharmos para a base de dados. Isso economiza processamento computacional massivo.
* **Efici√™ncia:** Essa abordagem reduz drasticamente o n√∫mero de acessos ao disco/mem√≥ria para contar o suporte, focando apenas no que √© estatisticamente promissor.

## ü§ñ Uso do NotebookLM como Tutor Complementar

Seguindo o padr√£o do cap√≠tulo anterior, al√©m dos notebooks interativos no Google Colab, incentiva-se o uso do **NotebookLM** como ferramenta complementar de aprendizagem. Essa ferramenta de IA utiliza exclusivamente os documentos fornecidos pelos autores como base de conhecimento, garantindo respostas alinhadas ao conte√∫do do livro.

Para cada cap√≠tulo, foi preparado um projeto espec√≠fico na plataforma. Para uma experi√™ncia de estudo ampliada, utilize o acesso abaixo:

::: {.callout-important appearance="default" icon=false}
### üéì Estude com o Tutor Inteligente

Para interagir com o conte√∫do deste cap√≠tulo, acesse o link abaixo. O ambiente cont√©m materiais did√°ticos em diferentes formatos, gerados a partir do **PDF** do cap√≠tulo. Na plataforma, explore especialmente as op√ß√µes **Guia de Estudo** e **Conversa** para aprofundar sua compreens√£o.

[üöÄ ACESSAR NOTEBOOKLM: CAP√çTULO 02](https://notebooklm.google.com/notebook/aca1138a-02aa-4f98-b777-1e25795ca635)

:::


## Considera√ß√µes Finais {#considera√ß√µes-finais .list-paragraph}

Um conjunto de Regras de Associa√ß√£o constitui uma forma de conhecimento
extra√≠do de uma Base de Dados, sendo esta representa√ß√£o do conhecimento
geralmente um tipo de aprendizado muito √∫til para aplica√ß√µes pr√°ticas,
como o aumento de vendas de uma rede de supermercados, o projeto de
cat√°logos de novos produtos ou o lan√ßamento de campanhas promocionais
baseadas em vendas casadas. Geralmente quando fazemos busca na Web, ao
digitarmos uma palavra de busca √© comum que outras palavras sejam
sugeridas. Isso ocorre porque a ferramenta de busca est√° usando Regras
de Associa√ß√£o e tem em sua Base de Dados registros de que pessoas que
buscam a Palavra_1 geralmente buscam tamb√©m a `Palavra_2`, a `Palavra_3`, e
assim por diante.

Nesta primeira abordagem da extra√ß√£o de conhecimento a partir de uma
Base de Dados foi suficiente apenas um procedimento algoritmo, sem
necessidade de infer√™ncias. Nos pr√≥ximos cap√≠tulos vamos mostrar que na
pr√°tica √© comum nos depararmos com situa√ß√µes para as quais n√£o se
conhece um algoritmo que produza o conhecimento necess√°rio para uma
tomada de decis√£o. Para estes casos, ser√° necess√°rio pensar num
mecanismo de infer√™ncia que nos permita chegar √† conclus√£o mais
plaus√≠vel para determinada situa√ß√£o. Esse √© o caso de sistemas
conhecidos como Sistemas Especialistas, que auxiliam por exemplo um
m√©dico a fazer diagn√≥stico a partir dos sintomas do paciente. Como nem
sempre os sintomas declarados pelo paciente s√£o compat√≠veis com
determinada doen√ßa, ou ent√£o porque o paciente omite determinados
sintomas importantes para o diagn√≥stico correto, o sistema precisa fazer
infer√™ncias comparando sua Base \[permanente\] de Conhecimento com os
sintomas declarados.

Regras de Associa√ß√£o frequentemente usam atributos nominais (por ex.,
temperatura elevada, amena, baixa) e mais raramente atributos num√©ricos
(por ex. $40^\circ\mathrm{C},\; 23^\circ\mathrm{C},\; 4^\circ\mathrm{C}$), porque algoritmos para
extra√ß√£o de Regras de Associa√ß√£o com atributos num√©ricos n√£o costumam
apresentar bom desempenho em grandes Bases de Dados. Al√©m disso, ao n√£o
levar em conta por exemplo o pre√ßo de um artigo ou a quantidade de itens
vendidos em cada transa√ß√£o, as Regras de Associa√ß√£o geralmente se
transformam numa forma simplista de representa√ß√£o do conhecimento
extra√≠do da Base de Dados.

No exemplo da Cesta de Artigos mostramos como gerar Regras de Associa√ß√£o
que indiquem venda casada dos artigos mais comum. Mas, frequentemente,
os especialistas em vendas n√£o est√£o muito interessados nestes itens
porque a associa√ß√£o entre eles j√° √© conhecida. Na realidade, estes
especialistas buscam pares de itens dos quais um deles √© um produto
barato e o outro tem alta taxa de lucro. Nestes casos, lan√ßar uma
superpromo√ß√£o do produto barato faz com que as vendas do produto com
alta taxa de lucro aumente.

Em nossa Cesta de Artigos est√° impl√≠cito o padr√£o de associa√ß√£o entre
Queijo e Vinho. Talvez a√≠, numa campanha de inverno, cadeias de
supermercados possam fazer promo√ß√µes de queijos com o √∫nico prop√≥sito de
vender mais vinhos. Mas como as vendas de ambos eram relativamente
baixas, esta regra n√£o satisfez os crit√©rios estabelecidos de
$\mathbf{SupMin}$ e $\mathbf{ConfMin}$. E, no entanto, √© possivelmente este tipo
de informa√ß√£o a mais procurada. O que fazer para conseguir minerar as
p√©rolas de informa√ß√£o?

## Lista de Exerc√≠cios {#lista-de-exerc√≠cios-1 .list-paragraph}

1. ($20\%$) Explique com suas pr√≥prias palavras a import√¢ncia do **Suporte
M√≠nimo ($\mathbf{SupMin}$)** e **Confian√ßa M√≠nima (ConfMin)** para a gera√ß√£o de
**Regras de Associa√ß√£o**.

2. ($30\%$) Explique com suas pr√≥prias palavras o que √© **Conjunto
Frequente** no contexto das **Regras de Associa√ß√£o**.

3. ($50\%$) Crie uma pequena **Cesta de Compras** (¬± 5 Exemplos) com itens
relacionados ao seu ambiente de trabalho, ou √† √°rea de seu TCC, ou a
qualquer outra √°rea de seu interesse, e gere as **Regras de Associa√ß√£o**
no Weka. Anexe o respectivo arquivo "`.arff`", e um pequeno relat√≥rio
sobre a simula√ß√£o.

---

### üîß Desafios de Programa√ß√£o (extras)

4. **(M√©dio)** Adicione a m√©trica **Lift** √† fun√ß√£o `apriori()` da
   Pr√°tica 4 como crit√©rio de filtragem (par√¢metro `lift_min`).

5. **(Avan√ßado)** Pesquise o algoritmo **FP-Growth** como alternativa
   mais eficiente ao Apriori. Quais s√£o as principais vantagens em
   bases de dados muito grandes?


## Refer√™ncias do Cap√≠tulo

Este cap√≠tulo baseou-se nas obras fundamentais que consolidaram as bases da minera√ß√£o de dados: @agrawal1993mining, para a introdu√ß√£o hist√≥rica e formal das regras de associa√ß√£o; @frank2016weka, como documenta√ß√£o t√©cnica e refer√™ncia do sistema WEKA; @rocha2008analise, @tan2009 e @witten2005, para os conceitos estruturais do processo de descoberta de conhecimento (KDD) e algoritmos de minera√ß√£o; @padhy2010, para a integra√ß√£o com sistemas inteligentes; e o trabalho cl√°ssico de @quinlan1986, sobre a indu√ß√£o de √°rvores de decis√£o.

