[![](images/colab-badge.png)](https://colab.research.google.com/github/fzampirolli/si-md2/blob/main/si-md2/notebooks_alunos/cap02/cap02_aluno.ipynb)


# Mineração de Dados e Regras de Associação

## Introdução

A Mineração de Dados é uma disciplina tão vasta que qualquer publicação
sobre o tema obriga o autor a selecionar alguns tópicos em detrimento de
outros não menos importantes. A atividade de **Regras de Associação**
foi o tópico escolhido para iniciarmos a apresentação das principais
atividades da Mineração de Dados por envolver ideias bem intuitivas. A
analogia entre Regras de Associação e Cesta de Compras facilita o
entendimento de como descobrir padrões de associação entre itens de um
conjunto qualquer.

## Mineração de Dados

Durante o processo de **Descoberta de Conhecimento em Bases de Dados**,
**KDD**, é na etapa de **Mineração de Dados** que efetivamente são
encontrados os padrões de associação implícitos nos dados. A análise
automatizada dessa massa de dados visa detectar regularidades, ou quebra
de regularidade, que constitui informação implícita, porém desconhecida,
e útil para determinado fim.

A Mineração de Dados pode ser vista como a sistematização de teorias,
técnicas e algoritmos desenvolvidos em outras disciplinas já
consagradas, como a Estatística, a Inteligência Artificial, o
Aprendizado de Máquina, a Base de Dados etc. O propósito da Mineração de
Dados é detectar automaticamente padrões de associação úteis e não
óbvios em grandes quantidades de dados, veja [Figura 2.1](#fig-2-1).

No dia a dia, uma quantidade incalculável de dados é gerada na forma de
registros de vendas, textos brutos, imagens, sons, gráficos etc., tanto
por sistemas computacionais como por seres humanos, constituindo uma
espécie de informação não estruturada. Embora esta forma de registro de
dados seja adequada para o ser humano, quando se trata de analisar
grandes quantidades de dados de forma automatizada, é comum e
conveniente que se introduza alguma **estrutura** que facilite o acesso
e o processamento sistemático.

<figure id="fig-2-1">
  <img src="images/fig2_1.png" alt="A Relação da Mineração de Dados com Algumas Disciplinas Correlatas." style="max-width:100%" />
  <figcaption><strong>Figura 2.1:</strong> A Relação da Mineração de Dados com Algumas Disciplinas Correlatas.</figcaption>
</figure>

Para que parte de toda essa informação não estruturada possa ser
utilizada na Mineração de Dados, geralmente é feita uma seleção e um
pré-processamento visando transformar dados brutos em coleções
estruturadas de dados. Em termos práticos, para nossas considerações
iniciais, a estrutura de representação de uma Base de Dados pode ser
semelhante a uma tabela de dados, sendo cada linha dessa tabela uma
**transação** ou um **exemplo**. Cada **transação** é composta por um ou
mais **itens** ou, visto de outra forma, cada **exemplo** é
caracterizado por seus **atributos**.

As [Tabela 2.1](#tbl-2-cestas), [Tabela 2.2](#tbl-2-booleana) e [Tabela 2.3](#tbl-2-tempo) ilustram formas de dados estruturados convenientes para a Mineração de Dados.

**Tabela 2.1:** Cestas de Compras

In [4]:
# @title { display-mode: "form" }
import pandas as pd
from IPython.display import Markdown

dados = {
    'TID': [1, 2, 3, 4, 5],
    'Itens': [
        '{Arroz, Feijão, Óleo}',
        '{Queijo, Vinho}',
        '{Arroz, Feijão, Batata, Óleo}',
        '{Arroz, Água, Queijo, Vinho}',
        '{Arroz, Feijão, Batata, Óleo}'
    ]
}
df = pd.DataFrame(dados)

# Para garantir que o Quarto entenda como Markdown puro e o Colab mostre formatado:
Markdown(df.to_markdown(index=False, colalign=("center", "left")))

|  TID  | Itens                         |
|:-----:|:------------------------------|
|   1   | {Arroz, Feijão, Óleo}         |
|   2   | {Queijo, Vinho}               |
|   3   | {Arroz, Feijão, Batata, Óleo} |
|   4   | {Arroz, Água, Queijo, Vinho}  |
|   5   | {Arroz, Feijão, Batata, Óleo} |

Na [Tabela 2.1](#tbl-2-cestas) cada uma das Transações possui uma IDentificação (TID), e
seus itens representam artigos vendidos em um supermercado. Se a tabela
de itens for muito extensa, como costuma ser em casos reais, pode ser
ainda mais conveniente representar cada um de seus itens na forma de um
atributo associado a um valor booleano, como mostra a [Tabela 2.2](#tbl-2-booleana).


**Tabela 2.2:** Representação Booleana de Cestas de Compras

In [5]:
# @title { display-mode: "form" }
import pandas as pd
from IPython.display import Markdown

dados_booleana = {
    'TID': [1, 2, 3, 4, 5],
    'Arroz': ['y', 'n', 'y', 'y', 'y'],
    'Feijão': ['y', 'n', 'y', 'n', 'y'],
    'Batata': ['n', 'n', 'y', 'n', 'y'],
    'Óleo': ['y', 'n', 'y', 'n', 'y'],
    'Água': ['n', 'n', 'n', 'y', 'n'],
    'Queijo': ['n', 'y', 'n', 'y', 'n'],
    'Vinho': ['n', 'y', 'n', 'y', 'n']
}
df_booleana = pd.DataFrame(dados_booleana)

Markdown(df_booleana.to_markdown(index=False, colalign=("center",) * len(df_booleana.columns)))

|  TID  |  Arroz  |  Feijão  |  Batata  |  Óleo  |  Água  |  Queijo  |  Vinho  |
|:-----:|:-------:|:--------:|:--------:|:------:|:------:|:--------:|:-------:|
|   1   |    y    |    y     |    n     |   y    |   n    |    n     |    n    |
|   2   |    n    |    n     |    n     |   n    |   n    |    y     |    y    |
|   3   |    y    |    y     |    y     |   y    |   n    |    n     |    n    |
|   4   |    y    |    n     |    n     |   n    |   y    |    y     |    y    |
|   5   |    y    |    y     |    y     |   y    |   n    |    n     |    n    |

Um exemplo clássico de uma Base de Dados usada em artigos sobre
Mineração de Dados é apresentada na [Tabela 2.3](#tbl-2-tempo) (Quinlan (1986) *apud*  Witten e Frank (2005)), composta por dados fictícios sobre as condições
de tempo para que ocorra ou não a partida de um esporte não
especificado. A tabela é composta por 14 exemplos (linhas), cada um com
cinco atributos (colunas): Dia, Temperatura, Umidade, Vento e Partida. A
tabela pode também ser interpretada de outra forma, como sendo composta
por quatro atributos (Dia, Temperatura, Umidade e Vento) e uma classe
(Partida), que representa o resultado da combinação dos quatro
atributos.

**Tabela 2.3:** Tabela do Tempo

In [6]:
# @title { display-mode: "form" }
import pandas as pd
from IPython.display import Markdown

dados_tempo = {
    'Dia': ['Ensolarado', 'Ensolarado', 'Nublado', 'Chuvoso', 'Chuvoso', 'Chuvoso', 'Nublado', 'Ensolarado', 'Ensolarado', 'Chuvoso', 'Ensolarado', 'Nublado', 'Nublado', 'Chuvoso'],
    'Temperatura': ['Elevada', 'Elevada', 'Elevada', 'Amena', 'Baixa', 'Baixa', 'Baixa', 'Amena', 'Baixa', 'Amena', 'Amena', 'Amena', 'Elevada', 'Amena'],
    'Umidade': ['Alta', 'Alta', 'Alta', 'Alta', 'Normal', 'Normal', 'Normal', 'Alta', 'Normal', 'Normal', 'Normal', 'Alta', 'Normal', 'Alta'],
    'Vento': ['Falso', 'Verdadeiro', 'Falso', 'Falso', 'Falso', 'Verdadeiro', 'Verdadeiro', 'Falso', 'Falso', 'Falso', 'Verdadeiro', 'Verdadeiro', 'Falso', 'Verdadeiro'],
    'Partida': ['Não', 'Não', 'Sim', 'Sim', 'Sim', 'Não', 'Sim', 'Não', 'Sim', 'Sim', 'Sim', 'Sim', 'Sim', 'Não']
}
df_tempo = pd.DataFrame(dados_tempo)

Markdown(df_tempo.to_markdown(index=False))

| Dia        | Temperatura   | Umidade   | Vento      | Partida   |
|:-----------|:--------------|:----------|:-----------|:----------|
| Ensolarado | Elevada       | Alta      | Falso      | Não       |
| Ensolarado | Elevada       | Alta      | Verdadeiro | Não       |
| Nublado    | Elevada       | Alta      | Falso      | Sim       |
| Chuvoso    | Amena         | Alta      | Falso      | Sim       |
| Chuvoso    | Baixa         | Normal    | Falso      | Sim       |
| Chuvoso    | Baixa         | Normal    | Verdadeiro | Não       |
| Nublado    | Baixa         | Normal    | Verdadeiro | Sim       |
| Ensolarado | Amena         | Alta      | Falso      | Não       |
| Ensolarado | Baixa         | Normal    | Falso      | Sim       |
| Chuvoso    | Amena         | Normal    | Falso      | Sim       |
| Ensolarado | Amena         | Normal    | Verdadeiro | Sim       |
| Nublado    | Amena         | Alta      | Verdadeiro | Sim       |
| Nublado    | Elevada       | Normal    | Falso      | Sim       |
| Chuvoso    | Amena         | Alta      | Verdadeiro | Não       |

Uma análise mais atenta dos exemplos das [Tabela 2.1](#tbl-2-cestas) e [Tabela 2.2](#tbl-2-booleana) que
alguns desses atributos sempre aparecem juntos e que, portanto, várias
**Regras de Associação** podem ser extraídas dessas tabelas.

## Regras de Associação 

A representação do conhecimento através de regras, também conhecidas
como regras *IF-THEN* ou Regras de Produção, é largamente utilizada
porque, entre outras vantagens sobre formas alternativas de
representação do conhecimento, são facilmente compreendidas pelo ser
humano, fáceis de serem alteradas, validadas e verificadas, e de baixo
custo para a criação de sistemas baseados em regras (Padhy (2010)).

**Regras de Associação** são uma forma específica de representação de
conhecimento que descrevem padrões de associação implícitos entre um
conjunto de atributos ou itens de uma Base de Dados, e que podem ajudar
a predizer com alta probabilidade a presença, ou não, de outro conjunto
de atributos ou itens.

Dito de forma equivalente, uma Regra de Associação revela que a presença
de um conjunto $\mathbf{X}$ de itens numa transação implica outro conjunto
$\mathbf{Y}$ de itens, i.e., $\mathbf{X} = \{a, b, \ldots\} \Rightarrow \mathbf{Y} = \{p, \ldots, z\}$.
Note que o fato de um conjunto de itens $\mathbf{X}$ (antecedente) estar sempre
associado a outro $\mathbf{Y}$ (consequente) não significa obrigatoriamente que
um seja a causa de outro, i.e., não há necessariamente relação de
causalidade entre antecedente e consequente e sim mera ocorrência
simultânea de itens com certa probabilidade.

A estrutura geral de uma Regra de Associação assume a seguinte forma:

<div id="eq-2-1" style="display:flex; align-items:center; justify-content:space-between; margin:1em 0;">
  <div style="flex:1; text-align:center;">

$$
{\color{red}{\textbf{If }}} 
(\text{Conjunto } \mathbf{X} \text{ de Itens})
\;{\color{red}{\textbf{ then }}}\;
(\text{Conjunto } \mathbf{Y} \text{ de Itens}),
\quad \text{sendo } \mathbf{X} \cap \mathbf{Y} = \varnothing
$$ 

Com base na Figura 2.3, várias Regras de Associação podem ser
formuladas:

$$
{\color{red}{\textbf{If }}} 
(\text{Temperatura} = \text{Baixa})
\;{\color{red}{\textbf{ then }}}\;
(\text{Umidade} = \text{Normal})
$$

  </div>
  <div style="min-width:4em; text-align:right; color:#555;">(2.1)</div>
</div>

<div id="eq-2-2" style="display:flex; align-items:center; justify-content:space-between; margin:1em 0;">
  <div style="flex:1; text-align:center;">

$$
{\color{red}{\textbf{If }}} 
(\text{Umidade} = \text{Normal})
\;{\color{red}{\textbf{ and }}}\;
(\text{Vento} = \text{Falso})
\;{\color{red}{\textbf{ then }}}\;
(\text{Partida} = \text{Sim})
$$

  </div>
  <div style="min-width:4em; text-align:right; color:#555;">(2.2)</div>
</div>

<div id="eq-2-3" style="display:flex; align-items:center; justify-content:space-between; margin:1em 0;">
  <div style="flex:1; text-align:center;">

$$
{\color{red}{\textbf{If }}} 
(\text{Dia} = \text{Ensolarado})
\;{\color{red}{\textbf{ and }}}\;
(\text{Partida} = \text{Não})
\;{\color{red}{\textbf{ then }}}\;
(\text{Umidade} = \text{Alta})
$$

  </div>
  <div style="min-width:4em; text-align:right; color:#555;">(2.3)</div>
</div>

<div id="eq-2-4" style="display:flex; align-items:center; justify-content:space-between; margin:1em 0;">
  <div style="flex:1; text-align:center;">

$$
{\color{red}{\textbf{If }}} 
(\text{Vento} = \text{Falso})
\;{\color{red}{\textbf{ and }}}\;
(\text{Partida} = \text{Não})
\;{\color{red}{\textbf{ then }}}\;
(\text{Temperatura} = \text{Elevada})
\;{\color{red}{\textbf{ and }}}\;
(\text{Umidade} = \text{Alta})
$$

  </div>
  <div style="min-width:4em; text-align:right; color:#555;">(2.4)</div>
</div>






Estas são apenas algumas das muitas Regras de Associação que podem ser
formuladas com base na [Tabela 2.3](#tbl-2-tempo). Para selecionar as Regras de
Associação mais representativas, i.e., aquelas que se apliquem a um
grande número de exemplos com alta probabilidade de acerto, precisaremos
de métricas para avaliar o alcance ou a força de cada regra. Dois dos
mais conhecidos indicadores são **Suporte** e **Confiança**.

**Suporte** --- para cada regra do tipo $\mathbf{X} \Rightarrow \mathbf{Y}$, este parâmetro indica
a quantos exemplos da tabela esta regra satisfaz (i.e., contém) tanto ao
conjunto de itens de $\mathbf{X}$ quanto ao de $\mathbf{Y}$, ou seja, indica sua
**cobertura** com relação ao número total $N$ de exemplos da tabela.
Portanto,

$$\mathbf{\text{Sup}}\left( \mathbf{X \rightarrow Y} \right)\mathbf{=}\frac{\mathbf{|X \cup Y|}}{\mathbf{N}}$$

Por ex., com relação à primeira regra ([Equação 2.1](#eq-2-1)), há quatro exemplos na [Tabela 2.3](#tbl-2-tempo) em que 
$\mathbf{X} \cup \mathbf{Y} = \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\}$.
Portanto,

$$
\text{Sup}\left( \text{Regra 2.1} \right) 
= \frac{\left| X \cup Y \right|}{N} 
= \frac{\left| \left\{ \text{Temperatura = Baixa, Umidade = Normal} \right\} \right|}{N} 
= \frac{4}{14} = 0{,}29
$$


A [Equação 2.2](#eq-2-2) (Regra) também possui 
$\mathbf{Sup}(\text{Regra 2.2}) = \frac{4}{14}$; 
a terceira regra apresenta 
$\mathbf{Sup}(\text{Regra 2.3}) = \frac{3}{14}$, 
enquanto a quarta regra possui 
$\mathbf{Sup}(\text{Regra 2.4}) = \frac{1}{14}$.



**Confiança** --- a confiança de uma regra reflete o número de exemplos
que contêm $\mathbf{Y}$ dentre todos aqueles que contêm $\mathbf{X}$
(observe que, além de $\mathbf{X} \Rightarrow \mathbf{Y}$, podem existir
regras do tipo $\mathbf{X} \Rightarrow \mathbf{Z}$,
$\mathbf{X} \Rightarrow \mathbf{W}$ etc.). Em outras palavras, o parâmetro
Confiança determina quantos são os exemplos em que $\mathbf{X}$ implica
$\mathbf{Y}$, em comparação com aqueles em que $\mathbf{X}$ pode ou não
implicar $\mathbf{Y}$. A esse parâmetro costuma-se também atribuir o nome
de \textbf{Acurácia}.

$$
\mathbf{Conf}\!\left(\mathbf{X} \Rightarrow \mathbf{Y}\right)
=
\frac{\left| \mathbf{X} \cup \mathbf{Y} \right|}
     {\left| \mathbf{X} \right|}
=
\frac{\mathbf{Sup}\!\left(\mathbf{X} \Rightarrow \mathbf{Y}\right)}
     {\mathbf{Sup}\!\left(\mathbf{X}\right)}
$$

Por ex., com relação à primeira Regra (2.1), há quatro exemplos na
[Tabela 2.3](#tbl-2-tempo) em que 
$\mathbf{X} \cup \mathbf{Y} = \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\}$ e,
coincidentemente, quatro exemplos em que 
$\mathbf{X} = \{\text{Temperatura} = \text{Baixa}\}$.
Portanto,

$$
\mathbf{Conf}\!\left(\text{Regra 2.1}\right)
=
\frac{\left| \mathbf{X} \cup \mathbf{Y} \right|}{\left| \mathbf{X} \right|}
=
\frac{\left| \{\text{Temperatura} = \text{Baixa},\; \text{Umidade} = \text{Normal}\} \right|}
     {\left| \{\text{Temperatura} = \text{Baixa}\} \right|}
=
\frac{4}{4}
=
1{,}0
$$

A Regra 2.2 também possui
$\mathbf{Conf}\!\left(\text{Regra 2.2}\right) = \frac{4}{4}$;
a terceira regra apresenta
$\mathbf{Conf}\!\left(\text{Regra 2.3}\right) = \frac{3}{3}$,
enquanto a quarta regra possui
$\mathbf{Conf}\!\left(\text{Regra 2.4}\right) = \frac{1}{2}$.



Regras de Associação são particularmente úteis para analisar o
comportamento de clientes e propor "vendas casadas". A informação de que
clientes que compram o item A geralmente compram o item B pode aumentar
significativamente as vendas de uma loja ou livraria, já que toda vez
que um cliente manifestar a intenção de comprar o item A, a loja pode
também lhe oferecer o item B.

Mas o fato de um simples conjunto de itens poder gerar muitas regras de
associação faz com que o número de regras associadas a uma base de dados
seja tão grande a ponto de a maioria dessas regras não ter qualquer
interesse prático. Para contornar esta situação, antes de começar a
gerar as regras de associação, é comum que sejam estabelecidos um valor
de Suporte Mínimo ($\mathbf{SupMin}$) e de Confiança Mínima ($\mathbf{ConfMin}$).
Regras com suporte muito baixo podem ser resultado de compras feitas ao
acaso e, portanto, não fornecem informações de interesse. Por outro
lado, regras com confiança muito baixa podem indicar que seu poder de
predição é baixo e, portanto, não é muito aconselhável assumir que $\mathbf{X}$
implica $\mathbf{Y}$ com base nessas regras.


Agrawal et al. (1993) ao introduzir o conceito de Regras de
Associação propôs um algoritmo denominado **Apriori** no qual Regras de
Associação são geradas em duas etapas:

-   Dado um conjunto de transações **T**, primeiramente são criados
    conjuntos de itens frequentes, chamados de **Conjuntos
    Frequentes**, que devem satisfazer o limite de $\mathbf{SupMin}$;

-   a partir desses Conjuntos Frequentes são geradas **Regras de
    Associação** com confiança maior ou igual **ConfMin**.

## Etapa 1: Geração de Conjuntos Frequentes com Suporte $\geq \mathbf{SupMin}$

As [Tabela 2.4](#tbl-2-simplificada) e [Tabela 2.5](#tbl-2-alternativa)  mostram versões simplificadas da Tabela 2.2, aqui
adaptada para que cada item possa ser representado por apenas uma letra.


<a id="tbl-2-simplificada"></a>

**Tabela 2.4:** Versão simplificada da [Tabela 2.2](#tbl-2-booleana).

| TID | A | B | C | D | E | F | G |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| 1 | 1 | 1 | 0 | 1 | 0 | 0 | 0 |
| 2 | 0 | 0 | 0 | 0 | 0 | 1 | 1 |
| 3 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
| 4 | 1 | 0 | 0 | 0 | 1 | 1 | 1 |
| 5 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |


<a id="tbl-2-alternativa"></a>

**Tabela 2.5:** Versão alternativa da [Tabela 2.2](#tbl-2-booleana).

| TID | Itens |
|:---:|:------|
| 1 | {A, B, D} |
| 2 | {F, G} |
| 3 | {A, B, C, D} |
| 4 | {A, E, F, G} |
| 5 | {A, B, C, D} |


De acordo com o algoritmo Apriori, para se obter os possíveis Conjuntos
Frequentes relacionados a um conjunto de transações, inicialmente devem
ser criados Conjuntos Frequentes com 1 item apenas e que satisfaçam o
critério de Suporte Mínimo. A seguir são criados recursivamente
Conjuntos Frequentes com 2 itens, depois com 3 itens, e assim
sucessivamente.

Os possíveis Conjuntos Frequentes com 1 item apenas, e seus respectivos
valores de Suporte, estão representados na [Tabela 2.6](#tbl-2-frequentes-1).

<a id="tbl-2-frequentes-1"></a>

**Tabela 2.6:** Possíveis Conjuntos Frequentes com 1 Item.

| Itens | Suporte |
|:-----:|:-------:|
| {A} | 4/5 |
| {B} | 3/5 |
| {C} | 2/5 |
| {D} | 3/5 |
| {E} | 1/5 |
| {F} | 2/5 |
| {G} | 2/5 |


Suponhamos que o $\mathbf{SupMin}$ tenha sido definido como $2/5$, ou seja, $40\%$.
De acordo com este critério, o conjunto {E} não satisfaz $\mathbf{SupMin}$ e
deve ser eliminado. Portanto os Conjuntos Frequentes com 1 Item que
satisfazem o critério de $\mathbf{SupMin}$ maior ou igual a $2/5$ estão
representados na [Tabela 2.7](#tbl-2-frequentes-1-supmin).


Ao adotar o procedimento de poda dos candidatos a Conjunto Frequente que
não satisfazem o critério de $\mathbf{SupMin}$, o número total de
Conjuntos Frequentes gerados pode cair significativamente. Em princípio,
dada uma Base de Dados com $k$ itens, o número de possíveis Conjuntos
Frequentes é $\lvert CF \rvert = 2^{k} - 1$ (excluindo o conjunto vazio).
Como em nossa [Tabela 2.4](#tbl-2-simplificada) há 7 itens, então
$\lvert CF \rvert = 2^{7} - 1 = 127$.



<a id="tbl-2-frequentes-1-supmin"></a>

**Tabela 2.7:** Conjuntos Frequentes com 1 Item e $\mathbf{SupMin} \geq \frac{2}{5}$.

| Itens | Suporte |
|:-----:|:-------:|
| {A} | 4/5 |
| {B} | 3/5 |
| {C} | 2/5 |
| {D} | 3/5 |
| {F} | 2/5 |
| {G} | 2/5 |



A seguir devem ser formados novos Conjuntos Frequentes com 2 Itens,
partindo-se dos Conjuntos Frequentes com 1 Item. Note que o Suporte de
um Conjunto Frequente com 2 Itens pode ter no máximo o menor valor de
Suporte de cada um de seus subconjuntos, i. e., dos respectivos
Conjuntos Frequentes com 1 Item. De acordo com esta mesma propriedade,
conhecida como **Princípio Apriori** ou antimonotônico, qualquer
subconjunto de um Conjunto Frequente também será um Conjunto Frequente.
Por exemplo, se $\{A, B\}$ for um Conjunto Frequente, então $\{A\}$ e $\{B\}$ também
são Conjuntos Frequentes e têm $\mathbf{Suporte} \geq \mathbf{SupMin}$.

A [Tabela 2.8](#tbl-2-frequentes-2) mostra os possíveis Conjuntos Frequentes com 2 Itens e os
respectivos valores de Suporte.

Os conjuntos de 2 itens foram obtidos por combinação dos conjuntos de 1
item, enquanto que os valores de Suporte foram obtidos inspecionando-se
as [Tabela 2.4](#tbl-2-simplificada) e [Tabela 2.5](#tbl-2-alternativa).

Note que os detalhes de como os conjuntos de itens são efetivamente
gerados dependem da forma como o algoritmo Apriori foi implementado, e
diferem um pouco da exposição simplificada que se adotou aqui por razões
didáticas.

Para calcular o Suporte dos Conjuntos Frequentes foi necessário ler a
Base de Dados, que em nosso caso é pequena e está representada pela
[Tabela 2.4](#tbl-2-simplificada). Em uma implementação computacional é altamente desejável que
toda a Base de Dados possa ser lida na memória principal do computador.
Porém, se a Base de Dados for muito grande ela provavelmente terá de ser
lida no disco rígido. Para minimizar o número de vezes que a Base de
Dados é consultada, muitos candidatos a Conjuntos Frequentes podem ser
inicialmente criados e depois eliminados, obtendo-se assim
significativos ganhos de tempo.

<a id="tbl-2-frequentes-2"></a>

**Tabela 2.8:** Possíveis Conjuntos Frequentes com 2 Itens.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B} | 3/5 |
| {A, C} | 2/5 |
| {A, D} | 3/5 |
| {A, F} | 1/5 |
| {A, G} | 1/5 |
| {B, C} | 2/5 |
| {B, D} | 3/5 |
| {B, F} | 0 |
| {B, G} | 0 |
| {C, D} | 2/5 |
| {C, F} | 0 |
| {C, G} | 0 |
| {D, F} | 0 |
| {D, G} | 0 |
| {F, G} | 2/5 |


Para nós, neste momento, o importante é compreender como os Conjuntos
Frequentes com $k$ Itens podem ser gerados de forma relativamente
simples pela combinação de Conjuntos Frequentes com $k-1$ Itens.

Aplicando-se novamente o critério de $\mathbf{SupMin} \geq \frac{2}{5}$,
restam apenas os Conjuntos Frequentes com 2 Itens apresentados na
[Tabela 2.9](#tbl-2-frequentes-supmin).


<a id="tbl-2-frequentes-supmin"></a>

**Tabela 2.9:** Conjuntos Frequentes com 2 Itens e 
$\mathbf{SupMin} \geq \frac{2}{5}$.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B} | 3/5 |
| {A, C} | 2/5 |
| {A, D} | 3/5 |
| {B, C} | 2/5 |
| {B, D} | 3/5 |
| {C, D} | 2/5 |
| {F, G} | 2/5 |




O próximo passo agora consiste em criar novos Conjuntos Frequentes com 3
Itens, partindo-se dos Conjuntos Frequentes com 2 Itens, cujo resultado
é mostrado na [Tabela 2.10](#tbl-2-frequentes-3).

<a id="tbl-2-frequentes-3"></a>

**Tabela 2.10:** Possíveis Conjuntos Frequentes com 3 Itens.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C} | 2/5 |
| {A, B, D} | 3/5 |
| {A, C, D} | 2/5 |
| {A, F, G} | 1/5 |
| {B, C, D} | 2/5 |
| {B, F, G} | 0 |
| {C, D, F} | 0 |
| {C, F, G} | 0 |


Neste caso, novamente, alguns Conjuntos Frequentes não satisfazem o
critério de $\mathbf{SupMin} \geq \frac{2}{5}$, havendo a necessidade de
poda para que esses conjuntos não participem da etapa seguinte.

<a id="tbl-2-frequentes-3-supmin"></a>

**Tabela 2.11:** Conjuntos Frequentes com 3 Itens e 
$\mathbf{SupMin} \geq \frac{2}{5}$.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C} | 2/5 |
| {A, B, D} | 3/5 |
| {A, C, D} | 2/5 |
| {B, C, D} | 2/5 |


Vamos agora gerar novos Conjuntos Frequentes com 4 Itens, partindo-se
dos Conjuntos Frequentes com 3 Itens ([Tabela 2.11](#tbl-2-frequentes-3-supmin)), cujo resultado é
mostrado na [Tabela 2.12](#tbl-2-frequentes-4).

<a id="tbl-2-frequentes-4"></a>

**Tabela 2.12:** Possíveis Conjuntos Frequentes com 4 Itens.

| Itens | Suporte |
|:-----:|:-------:|
| {A, B, C, D} | 2/5 |


Se houvesse ao menos dois Conjuntos Frequentes com 4 Itens poderíamos
ainda tentar gerar Conjuntos Frequentes com 5 Itens. Mas como há apenas
um Conjunto Frequente com 4 Itens, esta primeira etapa do algoritmo
Apriori termina aqui.







## Etapa 2: Geração de Regra de Associação a partir dos Conjuntos Frequentes

Uma vez obtidos os Conjuntos Frequentes com Suporte 
$\geq \mathbf{SupMin}$, é possível extrair de cada Conjunto Frequente
com $k$ itens um total de $2^{k} - 2$ Regras de Associação
(excluindo-se o conjunto vazio na posição de antecedente 
$\varnothing \Rightarrow \mathbf{CF}$ ou de consequente 
$\mathbf{CF} \Rightarrow \varnothing$). 
Na Etapa 1 foram gerados os seguintes Conjuntos Frequentes:


\textbf{Conjuntos Frequentes com 1 Item (total de 6 CFs)}

$$
\{A\},\; \{B\},\; \{C\},\; \{D\},\; \{F\},\; \{G\}
$$

\textbf{Conjuntos Frequentes com 2 Itens (total de 7 CFs)}

$$
\{A, B\},\; \{A, C\},\; \{A, D\},\; \{B, C\},\; \{B, D\},\; \{C, D\},\; \{F, G\}
$$

\textbf{Conjuntos Frequentes com 3 Itens (total de 4 CFs)}

$$
\{A, B, C\},\; \{A, B, D\},\; \{A, C, D\},\; \{B, C, D\}
$$

\textbf{Conjunto Frequente com 4 Itens (total de 1 CF)}

$$
\{A, B, C, D\}
$$



Para extrair as Regras de Associação de um Conjunto Frequente é
necessário, primeiramente, gerar todos os subconjuntos não vazios desse
Conjunto Frequente $\mathbf{CF}$ e, para cada subconjunto
$\mathbf{S} \subset \mathbf{CF}$, produzir uma Regra de Associação do tipo
$\mathbf{S} \Rightarrow (\mathbf{CF} - \mathbf{S})$ que satisfaça o
critério de $\mathbf{Confiança} \geq \mathbf{ConfMin}$.

Por exemplo, dado $\mathbf{CF} = \{A, B, C\}$, seus subconjuntos não vazios
possíveis são
$\mathbf{S} = \{\{A\}, \{B\}, \{C\}, \{A, B\}, \{A, C\},$ $\{B, C\}\}$.
Portanto, é possível extrair seis Regras de Associação do
$\mathbf{CF} = \{A, B, C\}$ que envolvam os três itens:

$$
\{A\} \Rightarrow \{B, C\},
$$

$$
\{B\} \Rightarrow \{A, C\},
$$

$$
\{C\} \Rightarrow \{A, B\},
$$

$$
\{A, B\} \Rightarrow \{C\},
$$

$$
\{A, C\} \Rightarrow \{B\},
$$

$$
\{B, C\} \Rightarrow \{A\}.
$$






Como o Suporte de todos os subconjuntos já terá sido calculado na Etapa~1,
não será necessário percorrer novamente a Base de Dados para calcular
a Confiança de cada Regra de Associação. Basta reutilizar esses valores
já calculados, pois

$$
\mathrm{Conf}\!\left( \mathbf{S} \rightarrow \mathbf{CF} - \mathbf{S} \right)
=
\frac{\left| \mathbf{S} \cup (\mathbf{CF} - \mathbf{S}) \right|}
     {\left| \mathbf{S} \right|}
=
\frac{\left| \mathbf{CF} \right|}
     {\left| \mathbf{S} \right|}
=
\frac{\mathrm{Sup}\!\left( \mathbf{CF} \right)}
     {\mathrm{Sup}\!\left( \mathbf{S} \right)}
$$



Voltando ao exemplo inicial da Tabela~2.5, como o Suporte de
$\mathbf{CF} = \{A, B, C\}$ é $\frac{2}{5}$ (veja Tabela~2.11), e
considerando os Suportes de seus subconjuntos,

$\mathbf{Sup}(\{A\}) = \frac{4}{5}$ \quad (veja [Tabela 2.6](#tbl-2-frequentes-1))

$\mathbf{Sup}(\{B\}) = \frac{3}{5}$ \quad (veja [Tabela 2.6](#tbl-2-frequentes-1))

$\mathbf{Sup}(\{C\}) = \frac{2}{5}$ \quad (veja [Tabela 2.6](#tbl-2-frequentes-1))

$\mathbf{Sup}(\{A, B\}) = \frac{3}{5}$ \quad (veja [Tabela 2.8](#tbl-2-frequentes-2))

$\mathbf{Sup}(\{A, C\}) = \frac{2}{5}$ \quad (veja [Tabela 2.8](#tbl-2-frequentes-2))

$\mathbf{Sup}(\{B, C\}) = \frac{2}{5}$ \quad (veja [Tabela 2.8](#tbl-2-frequentes-2))

<br>
<p>A Confiança de cada uma das seis regras possíveis será:</p>

$$
\mathbf{Conf}(A \Rightarrow B, C)
=
\frac{\frac{2}{5}}{\frac{4}{5}}
=
0{,}50
$$

$$
\mathbf{Conf}(B \Rightarrow A, C)
=
\frac{\frac{2}{5}}{\frac{3}{5}}
=
0{,}66
$$

$$
\mathbf{Conf}(C \Rightarrow A, B)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

$$
\mathbf{Conf}(A, B \Rightarrow C)
=
\frac{\frac{2}{5}}{\frac{3}{5}}
=
0{,}66
$$

$$
\mathbf{Conf}(A, C \Rightarrow B)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

$$
\mathbf{Conf}(B, C \Rightarrow A)
=
\frac{\frac{2}{5}}{\frac{2}{5}}
=
1{,}00
$$

Suponha que, para o problema em questão, tenham sido adotados
$\mathbf{SupMin} = 40\%$ e $\mathbf{ConfMin} = 90\%$.
Nesse caso, apenas três das regras acima seriam aproveitadas:

$$
\mathbf{Conf}(C \Rightarrow A, B) = 1{,}00
\quad
\{Batata\} \Rightarrow \{Arroz, Feijão\}
$$

$$
\mathbf{Conf}(A, C \Rightarrow B) = 1{,}00
\quad
\{Arroz, Batata\} \Rightarrow \{Feijão\}
$$

$$
\mathbf{Conf}(B, C \Rightarrow A) = 1{,}00
\quad
\{Feijão, Batata\} \Rightarrow \{Arroz\}
$$

Aplicando-se o procedimento explicado acima para todos os 18
$\mathbf{CFs}$ obtidos na Etapa~1, seriam geradas aproximadamente
30 Regras de Associação com $\mathbf{SupMin} = 40\%$ e
$\mathbf{ConfMin} = 90\%$ (na realidade, chegamos ao número 30
por meio de simulação no Weka, como será mostrado na Atividade
Prática com o Weka).


## Como Gerar Regras de Associação Usando a Ferramenta Weka

Nesta seção será apresentado um pequeno tutorial sobre a geração de
Regras de Associação usando o algoritmo "Apriori" implementado na
ferramenta de Aprendizado de Máquina para tarefas de Mineração de Dados
Weka (Weka, 2013). A versão utilizada é a 3.6.7. Para fazer uma
simulação no Weka, a Base de Dados terá de ser escrita ou no formato CSV
*(Comma-Separated Value)* (".csv") ou no formato "ARFF"
*(Attribute-Relation File Format)*, um formato bastante simples e
intuitivo dessa ferramenta. Com o arquivo ".arff" carregado, podemos
ajustar os parâmetros Suporte e Confiança e rodar o algoritmo Apriori.

**Passo 1** - Vamos supor que nossa Base de Dados tenha sido retirada de
uma planilha eletrônica (".xls") e salva no formato ".csv", como mostra
a [Figura 2](#fig-2-2).

<figure id="fig-2-2a">
  <img src="images/fig2_2a.png" alt="Planilha ".xls"" style="max-width:100%" />
  <figcaption><strong>Figura 2.2:</strong> Planilha ".xls"</figcaption>
</figure>

<figure id="fig-2-2b">
  <img src="images/fig2_2b.png" alt="".csv"" style="max-width:100%" />
  <figcaption><strong>Figura 2.3:</strong> ".csv"</figcaption>
</figure>

A Base de Dados Transacoes_1 na Forma (a) Planilha ".xls" e (b) ".csv".

Como o Weka tem um conversor interno do formato ".csv" para ".arff",
vamos primeiramente usar este recurso. Depois vamos mostrar como
transformar manualmente o arquivo ".csv" para ".arff".

Obs.: Certifique-se que em seu arquivo ".csv" o separador de células
seja efetivamente a vírgula "," e não ";". Se o arquivo ".csv" gerado
pela sua planilha utilizar ";", faça a substituição para ", ". Caso
contrário, ocorrerá um erro de leitura no Weka e o arquivo será
interpretado de forma completamente diferente do esperado.

**Passo 2** -- Dispare o Weka ("GUI Chooser") e tome a opção "Explorer",
que corresponde à versão com recursos gráficos e ícones (em vez de linha
de comando). Veja [Figura 2](#fig-2-3).

<figure id="fig-2-3a">
  <img src="images/fig2_3a.png" alt="GUI Chooser" style="max-width:100%" />
  <figcaption><strong>Figura 2.4:</strong> GUI Chooser</figcaption>
</figure>

<figure id="fig-2-3b">
  <img src="images/fig2_3b.png" alt="Explorer" style="max-width:100%" />
  <figcaption><strong>Figura 2.5:</strong> Explorer</figcaption>
</figure>

Telas Iniciais do Weka (a) GUI Chooser e (b) Explorer.

**Passo 3 --** Com a aba superior "Preprocess" escolhida, dê um clique
em "Open file\...". Uma janela denominada "Open" deve se abrir. Ajuste a
opção de "File Format:" para ".csv", e escolha o arquivo
"Transacoes_1.csv", conforme mostra a [Figura 2.6](#fig-2-4).


<figure id="fig-2-4">
  <img src="images/fig2_4.png" alt="Janela "Open" com a Opção "File Format:" em ".csv"." style="max-width:100%" />
  <figcaption><strong>Figura 2.6:</strong> Janela "Open" com a Opção "File Format:" em ".csv".</figcaption>
</figure>


**Passo 4** -- A tela do Weka Explorer deve apresentar os sete atributo
do arquivo `Transacoes_1`, como mostra a [Figura 2.7](#fig-2-5).

<figure id="fig-2-5">
  <img src="images/fig2_5.png" alt="Os Sete Atributos do Arquivo `Transacoes_1` São Mostrados." style="max-width:100%" />
  <figcaption><strong>Figura 2.7:</strong> Os Sete Atributos do Arquivo `Transacoes_1` São Mostrados.</figcaption>
</figure>

**Passo 5** -- Como nossa "Base de Dados" é muito pequena, a conversão
manual do arquivo ".csv" para ".arff" pode ser feita muito rapidamente.

Digite no arquivo "Transacoes_1.csv" as palavras-chave "\?relation",
"\?attribute" e "\?data", de acordo com a [Figura 2.8](#fig-2-6), salve e feche o
arquivo ".csv". Mude a terminação do arquivo de ".csv" para ".arff". Há
ainda outras alternativas: Crie um arquivo "Transacoes_1.txt" com o
conteúdo mostrado abaixo na [Figura 2.8](#fig-2-6) (certifique-se de que se trata
efetivamente de arquivo tipo ".txt" e não, por ex.,
"Transacoes_1.txt.doc" ou "Transacoes_1.txt.rtf"). Feche o arquivo e
mude a terminação para ".arff", ou seja, para "Transacoes_1.arff".

<figure id="fig-2-6">
  <img src="images/fig2_6.png" alt="Arquivo ARFF (Transacoes_1.arff), com Itens Ausentes Representados por "n"" style="max-width:100%" />
  <figcaption><strong>Figura 2.8:</strong> Arquivo ARFF (Transacoes_1.arff), com Itens Ausentes Representados por "n"</figcaption>
</figure>



 

**Passo 6** -- Com o arquivo
"Transacoes_1.arff" pronto, disparar o Weka, selecionar a aba
"Preprocess", depois clicar na opção "Open file\..." e escolher o
arquivo "Transacoes1\_.arff", conforme mostra a [Figura 2.9](#fig-2-7).


<figure id="fig-2-7">
  <img src="images/fig2_7.png" alt="Aba "Preprocess" + "Open file..." para Escolha do Arquivo ARFF." style="max-width:100%" />
  <figcaption><strong>Figura 2.9:</strong> Aba "Preprocess" + "Open file..." para Escolha do Arquivo ARFF.</figcaption>
</figure>

**Passo 7** -- Depois de abrir o arquivo
"Transacoes_1.arff", ainda com a aba "Preprocess" selecionada, escolha
"No class" (ao lado de "Visualize all"), conforme ilustra a [Figura 2.10](#fig-2-8).
(Como vamos gerar Regras de Associação, qualquer um dos atributos pode
funcionar como "classe". Este conceito vai ser melhor explicado quando
formos estudar Regras de Classificação.).

<figure id="fig-2-8">
  <img src="images/fig2_8.png" alt="Seleção da Opção "No class" para Regras de Associação." style="max-width:100%" />
  <figcaption><strong>Figura 2.10:</strong> Seleção da Opção "No class" para Regras de Associação.</figcaption>
</figure>


**Passo 8** -- Na
aba superior do Weka, escolher "Associate" e ao lado de "Choose" clicar
duas vezes sobre o algoritmo "Apriori", conforme mostra a [Figura 2.11](#fig-2-9).


<figure id="fig-2-9">
  <img src="images/fig2_9.png" alt="Ajuste dos Parâmetros de Entrada do Algoritmo Apriori." style="max-width:100%" />
  <figcaption><strong>Figura 2.11:</strong> Ajuste dos Parâmetros de Entrada do Algoritmo Apriori.</figcaption>
</figure>



**Passo 9 --** Na janela que se abre, ajustar o $\mathbf{SupMin}$
("lowerBoundMinSupport") para 0.4, a ConfMin (minMetric) para 0.9 e o
número de regras mostradas ("numRules") para 1000, conforme mostra a
[Figura 2.12](#fig-2-10). Clicar em "OK".


<figure id="fig-2-10">
  <img src="images/fig2_10.png" alt="Ajuste dos Parâmetros SupMin e ConfMin." style="max-width:100%" />
  <figcaption><strong>Figura 2.12:</strong> Ajuste dos Parâmetros SupMin e ConfMin.</figcaption>
</figure>

**Passo 10** -- Ao clicar em "Start" centenas de Regras de Associação
serão geradas, a maioria delas sem qualquer interesse, conforme ilustra
a [Figura 2.13](#fig-2-11). Um dos riscos da geração de Regras de Associação é que
muitas delas podem não ter qualquer significado prático. Para contornar
este tipo de problema, é possível introduzir pequenas mudanças na forma
como os atributos são declarados e reduzir significativamente o número
de regras geradas.


<figure id="fig-2-11">
  <img src="images/fig2_11.png" alt="Algumas Regras de Associação Geradas com o Arquivo
"Transacoes_1.arff"." style="max-width:100%" />
  <figcaption><strong>Figura 2.13:</strong> Algumas Regras de Associação Geradas com o Arquivo
"Transacoes_1.arff".</figcaption>
</figure>



**Passo 11** -- Uma forma de diminuir o número de regras é substituir os
valores ausentes de atributo "n" por "?". Crie um arquivo
"Transacoes_2.arff" conforme mostra a [Figura 2.14](#fig-2-12).


<figure id="fig-2-12">
  <img src="images/fig2_12.png" alt="Arquivo "Transacoes_2.arff" com Itens Ausentes Representados
por "?"." style="max-width:100%" />
  <figcaption><strong>Figura 2.14:</strong> Arquivo "Transacoes_2.arff" com Itens Ausentes Representados
por "?".</figcaption>
</figure>


Isso evitará que o Weka crie regras sem qualquer significado prático,
envolvendo itens ausentes, como por exemplo
$\{F = n\} \Rightarrow \{G = n\}$ (Regra 20 na [Figura 2.13](#fig-2-11)).
Embora a regra $\{F = y\} \Rightarrow \{G = y\}$ 
(isto é, "quem compra queijo
também costuma comprar vinho")
possa ser de interesse, a regra segundo a qual
"quem não compra queijo também não compra vinho"
dificilmente trará alguma informação prática. Em uma Base de Dados muito
grande, regras desse tipo podem aparecer em quantidades
proibitivamente elevadas.

Com o arquivo "Transacoes_2.arff" foram geradas 30 Regras de
Associação ([Figura 2.15](#fig-2-13)), sendo que as regras ilustrativas do texto
teórico do Capítulo 2, envolvendo o $\mathbf{CF} = \{A, B, C\}$,
aparecem na [Figura 2.15](#fig-2-13) como as regras 15, 16 e 17.

<figure id="fig-2-13">
  <img src="images/fig2_13.png" alt="As 30 Regras de Associação Geradas com o Arquivo
"Transacoes_2.arff"." style="max-width:100%" />
  <figcaption><strong>Figura 2.15:</strong> As 30 Regras de Associação Geradas com o Arquivo
"Transacoes_2.arff".</figcaption>
</figure>

Há outras formas de melhorar a qualidade dos resultados e controlar o
número de regras geradas, por exemplo, através do parâmetro $\mathbf{Lift}$, cujo significado fica como lição de casa.


## Considerações Finais

Um conjunto de Regras de Associação constitui uma forma de conhecimento
extraído de uma Base de Dados, sendo esta representação do conhecimento
geralmente um tipo de aprendizado muito útil para aplicações práticas,
como o aumento de vendas de uma rede de supermercados, o projeto de
catálogos de novos produtos ou o lançamento de campanhas promocionais
baseadas em vendas casadas. Geralmente quando fazemos busca na Web, ao
digitarmos uma palavra de busca é comum que outras palavras sejam
sugeridas. Isso ocorre porque a ferramenta de busca está usando Regras
de Associação e tem em sua Base de Dados registros de que pessoas que
buscam a Palavra_1 geralmente buscam também a `Palavra_2`, a `Palavra_3`, e
assim por diante.

Nesta primeira abordagem da extração de conhecimento a partir de uma
Base de Dados foi suficiente apenas um procedimento algoritmo, sem
necessidade de inferências. Nos próximos capítulos vamos mostrar que na
prática é comum nos depararmos com situações para as quais não se
conhece um algoritmo que produza o conhecimento necessário para uma
tomada de decisão. Para estes casos, será necessário pensar num
mecanismo de inferência que nos permita chegar à conclusão mais
plausível para determinada situação. Esse é o caso de sistemas
conhecidos como Sistemas Especialistas, que auxiliam por exemplo um
médico a fazer diagnóstico a partir dos sintomas do paciente. Como nem
sempre os sintomas declarados pelo paciente são compatíveis com
determinada doença, ou então porque o paciente omite determinados
sintomas importantes para o diagnóstico correto, o sistema precisa fazer
inferências comparando sua Base \[permanente\] de Conhecimento com os
sintomas declarados.

Regras de Associação frequentemente usam atributos nominais (por ex.,
temperatura elevada, amena, baixa) e mais raramente atributos numéricos
(por ex. $40^\circ\mathrm{C},\; 23^\circ\mathrm{C},\; 4^\circ\mathrm{C}$), porque algoritmos para
extração de Regras de Associação com atributos numéricos não costumam
apresentar bom desempenho em grandes Bases de Dados. Além disso, ao não
levar em conta por exemplo o preço de um artigo ou a quantidade de itens
vendidos em cada transação, as Regras de Associação geralmente se
transformam numa forma simplista de representação do conhecimento
extraído da Base de Dados.

No exemplo da Cesta de Artigos mostramos como gerar Regras de Associação
que indiquem venda casada dos artigos mais comum. Mas, frequentemente,
os especialistas em vendas não estão muito interessados nestes itens
porque a associação entre eles já é conhecida. Na realidade, estes
especialistas buscam pares de itens dos quais um deles é um produto
barato e o outro tem alta taxa de lucro. Nestes casos, lançar uma
superpromoção do produto barato faz com que as vendas do produto com
alta taxa de lucro aumente.

Em nossa Cesta de Artigos está implícito o padrão de associação entre
Queijo e Vinho. Talvez aí, numa campanha de inverno, cadeias de
supermercados possam fazer promoções de queijos com o único propósito de
vender mais vinhos. Mas como as vendas de ambos eram relativamente
baixas, esta regra não satisfez os critérios estabelecidos de
$\mathbf{SupMin}$ e $\mathbf{ConfMin}$. E, no entanto, é possivelmente este tipo
de informação a mais procurada. O que fazer para conseguir minerar as
pérolas de informação?

## Lista de Exercícios

1. ($20\%$) Explique com suas próprias palavras a importância do **Suporte
Mínimo ($\mathbf{SupMin}$)** e **Confiança Mínima (ConfMin)** para a geração de
**Regras de Associação**.

2. ($30\%$) Explique com suas próprias palavras o que é **Conjunto
Frequente** no contexto das **Regras de Associação**.

3. ($50\%$) Crie uma pequena **Cesta de Compras** (± 5 Exemplos) com itens
relacionados ao seu ambiente de trabalho, ou à área de seu TCC, ou a
qualquer outra área de seu interesse, e gere as **Regras de Associação**
no Weka. Anexe o respectivo arquivo "`.arff`", e um pequeno relatório
sobre a simulação.

## Referencias


QUINLAN, R.. **Induction of Decision Trees**. 1986.

WITTEN, I. H.; FRANK, E.. **Data Mining: Practical Machine Learning Tools and Techniques**. Morgan Kaufmann Publishers, 2005.

PADHY, N. P.. **Artificial Intelligence and Intelligent Systems**. Oxford University Press, 2010.

AGRAWAL, Rakesh; IMIELI{\'N}SKI, Tomasz; SWAMI, Arun. **Mining association rules between sets of items in large databases**. 1993.

*Referencia nao encontrada para: relation*

*Referencia nao encontrada para: attribute*

*Referencia nao encontrada para: data*

HAN, J.; KAMBER, M.. **Data Mining: Concepts and Techniques**. Morgan Kaufmann Publishers, 2008.

TAN, P.N.; STEINBACH, M.; KUMAR, V.. **Introdução ao Data Mining Mineração de Dados**. Editora Ciência Moderna Ltda., 2009.

GOLDSCHMIDT, R.; PASSOS, E.. **Data Mining: Um Guia Prático**. Elsevier, 2005.