# Alunos:

### Carlos Eduardo Fontaneli

In [1]:
import pandas as pd
from efficient_apriori import apriori

## Importando métodos e bibliotecas necessárias

- `Pandas` para leitura dos dados e formatação deles como dataframes;
- `apriori` algoritmo de regras de associação;

## Lendo os dados

Dados relativos a um modelo desenvolvido para avaliar aplicações de estudantes para escolas de enfermagem. Dessa forma, o conjunto de dados possui 8 atributos e uma classse, a qual será desconsiderada para a aplicação do algoritmo de regras de associação. Os dados foram lidos de um arquivo com extensão `.csv` para o formate `dataframe`.

In [2]:

data = pd.read_csv("nursery_data.csv", header = None, names = ['parents', 'has_nurs', 'form', 'children', 'housing', 'finance', 'social', 'health', 'class']) # fonte http://archive.ics.uci.edu/ml/datasets/Nursery

data.head()

Unnamed: 0,parents,has_nurs,form,children,housing,finance,social,health,class
0,usual,proper,complete,1,convenient,convenient,nonprob,recommended,recommend
1,usual,proper,complete,1,convenient,convenient,nonprob,priority,priority
2,usual,proper,complete,1,convenient,convenient,nonprob,not_recom,not_recom
3,usual,proper,complete,1,convenient,convenient,slightly_prob,recommended,recommend
4,usual,proper,complete,1,convenient,convenient,slightly_prob,priority,priority


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12960 entries, 0 to 12959
Data columns (total 9 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   parents   12960 non-null  object
 1   has_nurs  12960 non-null  object
 2   form      12960 non-null  object
 3   children  12960 non-null  object
 4   housing   12960 non-null  object
 5   finance   12960 non-null  object
 6   social    12960 non-null  object
 7   health    12960 non-null  object
 8   class     12960 non-null  object
dtypes: object(9)
memory usage: 911.4+ KB


## Processamento dos dados

Para aplicar o algoritmo `apriori` é necessário transformar os dados em listas de tuplas. Assim sendo, acessa-se cada linha do `dataframe`, iterando sobre todas as colunas, exceto a última que é relatica a classe, colocando-se cada elemento numa lista que será adicionada no final a outra lista. Ademais, a coluna de classe é ignorada, pois o algoritmo não busca fazer uma classifição dos dados e sim extrair possíveis regras de associação.

In [4]:
t_list = []

for i in range(len(data)):
  l_in = []
  for j in range(8):
    s = str(data.values[i, j])
    if (s != 'nan'): # ignora casos onde não há dados
      l_in.append(s)
  t_list.append(l_in)
  
t_list

[['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'nonprob',
  'recommended'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'nonprob',
  'priority'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'nonprob',
  'not_recom'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'slightly_prob',
  'recommended'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'slightly_prob',
  'priority'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'slightly_prob',
  'not_recom'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'problematic',
  'recommended'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'problematic',
  'priority'],
 ['usual',
  'proper',
  'complete',
  '1',
  'convenient',
  'convenient',
  'problematic',
  'not_recom'],
 ['usual',
  'proper',

## Execução do algoritmo apriori

Aqui extra-se os itemset e conjunto de regras possíveis de se encontrar nos dados. O suporte e a confiança mínimas foram configuradas para 20%, porque foram realizados testes progressivos e com esse valor o algoritmo é capaz de encontrar um número satisfatória de itemsets e regras para o conjunto de dados em questão.

In [5]:
itemsets, rules = apriori(t_list, min_support=0.2, min_confidence=0.2)

In [6]:
# Itemsets encontrados
itemsets

{1: {('usual',): 4320,
  ('proper',): 2592,
  ('complete',): 3240,
  ('1',): 3240,
  ('convenient',): 8640,
  ('nonprob',): 4320,
  ('recommended',): 4320,
  ('priority',): 4320,
  ('not_recom',): 4320,
  ('slightly_prob',): 4320,
  ('problematic',): 4320,
  ('inconv',): 6480,
  ('less_conv',): 4320,
  ('critical',): 6048,
  ('2',): 3240,
  ('3',): 3240,
  ('more',): 3240,
  ('completed',): 3240,
  ('incomplete',): 3240,
  ('foster',): 3240,
  ('less_proper',): 2592,
  ('improper',): 2592,
  ('very_crit',): 2592,
  ('pretentious',): 4320,
  ('great_pret',): 4320},
 2: {('convenient', 'critical'): 3456,
  ('convenient', 'great_pret'): 2880,
  ('convenient', 'nonprob'): 2880,
  ('convenient', 'not_recom'): 2880,
  ('convenient', 'pretentious'): 2880,
  ('convenient', 'priority'): 2880,
  ('convenient', 'problematic'): 2880,
  ('convenient', 'recommended'): 2880,
  ('convenient', 'slightly_prob'): 2880,
  ('convenient', 'usual'): 2880,
  ('critical', 'inconv'): 3024}}

In [7]:
# Regras encontradas
rules

[{critical} -> {convenient},
 {convenient} -> {critical},
 {great_pret} -> {convenient},
 {convenient} -> {great_pret},
 {nonprob} -> {convenient},
 {convenient} -> {nonprob},
 {not_recom} -> {convenient},
 {convenient} -> {not_recom},
 {pretentious} -> {convenient},
 {convenient} -> {pretentious},
 {priority} -> {convenient},
 {convenient} -> {priority},
 {problematic} -> {convenient},
 {convenient} -> {problematic},
 {recommended} -> {convenient},
 {convenient} -> {recommended},
 {slightly_prob} -> {convenient},
 {convenient} -> {slightly_prob},
 {usual} -> {convenient},
 {convenient} -> {usual},
 {inconv} -> {critical},
 {critical} -> {inconv}]

## Métricas das regras

A seguir apresenta-se as métricas de suporte, confiança, lift e convicção de cada regra encontrada.

In [8]:
for rule in rules:
  print(rule)

{critical} -> {convenient} (conf: 0.571, supp: 0.267, lift: 0.857, conv: 0.778)
{convenient} -> {critical} (conf: 0.400, supp: 0.267, lift: 0.857, conv: 0.889)
{great_pret} -> {convenient} (conf: 0.667, supp: 0.222, lift: 1.000, conv: 1.000)
{convenient} -> {great_pret} (conf: 0.333, supp: 0.222, lift: 1.000, conv: 1.000)
{nonprob} -> {convenient} (conf: 0.667, supp: 0.222, lift: 1.000, conv: 1.000)
{convenient} -> {nonprob} (conf: 0.333, supp: 0.222, lift: 1.000, conv: 1.000)
{not_recom} -> {convenient} (conf: 0.667, supp: 0.222, lift: 1.000, conv: 1.000)
{convenient} -> {not_recom} (conf: 0.333, supp: 0.222, lift: 1.000, conv: 1.000)
{pretentious} -> {convenient} (conf: 0.667, supp: 0.222, lift: 1.000, conv: 1.000)
{convenient} -> {pretentious} (conf: 0.333, supp: 0.222, lift: 1.000, conv: 1.000)
{priority} -> {convenient} (conf: 0.667, supp: 0.222, lift: 1.000, conv: 1.000)
{convenient} -> {priority} (conf: 0.333, supp: 0.222, lift: 1.000, conv: 1.000)
{problematic} -> {convenient} 