# Fouille d’itemsets et de règles d’association

In [1]:
from armining import itemset as its, associationrule as ar

## Prise en main du squelette Python
### Manipulation 1.
Construire un `ItemSet` ne contenant qu’un élément. Ajouter à cet `ItemSet` des éléments, un à un, à l’aide de la méthode `add` (héritée de la classe set) , puis afficher le contenu de l’ `ItemSet` ainsi que sa cardinalité.

In [2]:
its_0 = its.ItemSet("Madara")
for uchiha in ["Sasuke", "Itachi", "Shisui"]:
    its_0.add(uchiha)
    
print(f'Itemset: {its_0}\nCardinalité: {len(its_0)}')

Itemset: {'Itachi', 'Sasuke', 'Madara', 'Shisui'}
Cardinalité: 4


### Manupulation 2.
Importez, à l’aide de la fonction `readItemSets` du module `itemset`, les données contenues dans le fichier `"data/beer_diapers.txt"`.

In [3]:
dataset = its.readItemSets("data/beer_diapers.txt")
dataset

[{'Milk', 'Bread'},
 {'Beer', 'Diapers', 'Eggs', 'Bread'},
 {'Diapers', 'Coke', 'Milk', 'Beer'},
 {'Diapers', 'Milk', 'Beer', 'Bread'},
 {'Diapers', 'Coke', 'Milk', 'Bread'}]

### Manipulation 3.
Calculez, à l’aide de la méthode adaptée, le support de l’`ItemSet` créé à la Manipulation 1 dans le jeu de données de la Manipulation 2. Répétez l’expérience avec un `ItemSet` plus adapté aux données du fichier `"data/beer_diapers.txt"`.

In [4]:
its_0.support(dataset)
its_1 = its.ItemSet(('Bread', 'Beer'))
its_1.support(dataset)

2

### Manipulation 4.
Observez, pour quelques `ItemSet` de votre création, que la règle vue en cours selon laquelle si un `ItemSet` $I_1$ est inclus dans un autre `ItemSet` $I_2$ , alors on a support($I_1$) ≥ support($I_2$).

In [5]:
its_2 = its_1
its_2.add('Coke')

its_1.support(dataset) >= its_2.support(dataset)

True

### Manipulation 5.

Implémentez la méthode `associationRules` de la classe `AssociationRule` qui renvoie une liste de toutes les règles d’associations dérivées de l’`Itemset` fourni (on ne considèrera que les règles d’association dont le conséquent est de cardinalité 1 et l’antécédent de cardinalité $k−1$ où $k$ est la cardinalité de l’`ItemSet`).

In [6]:
ar_1 = ar.AssociationRule({},{})
ar_1.associationRules(its_2)

[({'Coke', 'Bread'}, {'Beer'}),
 ({'Beer', 'Bread'}, {'Coke'}),
 ({'Beer', 'Coke'}, {'Bread'})]

### Manipulation 6.
Pour un `ItemSet` de votre choix (de cardinalité au moins égale à 2), générez l’ensemble des règles d’association dérivées (à l’aide de la méthode `associationRules` implémentée à la question précédente) et calculez la confiance de chacune d’entre elles pour le jeu de données de la Manipulation 2

In [7]:
its_3 = its.ItemSet(['Beer', 'Diapers', 'Milk'])
ar_1.confidence(its_3, dataset)

[0.6666666666666666, 0.6666666666666666, 1.0]

## Implémentations des fonctions de fouille des règles d’association
### Manipulation 7.
Implémenter la fonction `allSingletons` prenant en premier argument un dataset et en second argument optionnel un seuil de support minimum, et qui renvoie une liste de tous les items contenus dans le dataset (sous forme d’une liste d’`ItemSet` singletons) ayant un support au moins égal au seuil fourni en second argument. Si ce second argument n’est pas fourni, tous les singletons sont renvoyés quel que soit leur support.

In [8]:
its.allSingletons(dataset, 2)

[{'Bread'}, {'Beer'}, {'Milk'}, {'Diapers'}, {'Coke'}]

### Manipulation 8.
Implémentez la fonction `candidateGeneration` qui prend en entrée la liste $L_k$ des `ItemSet` de taille $k$ et retourne la liste des `ItemSet` candidats de taille $k + 1$ tels que tous leurs sous-ItemSet de taille $k$ sont dans $L_k$. Notez pour cela qu’un `ItemSet` de l’ensemble de sortie ne peut être composé que comme l’union de deux ItemSet de $L_k$.  
Vérifiez sur la liste suivante que la valeur de retour de la fonction précédente est correcte : `[{'Beer', 'Diapers'}, {'Beer', 'Coke'}, {'Coke', 'Diapers'}, {'Beer', 'Milk'}]`

In [9]:
list_k = list(map(its.ItemSet, [{'Beer', 'Diapers'}, {
              'Beer', 'Coke'}, {'Coke', 'Diapers'}, {'Beer', 'Milk'}]))
its.candidateGeneration(list_k)

[{'Beer', 'Coke', 'Diapers'}]

### Manipulation 9.
Implémentez l’algorithme A priori de découverte d’`ItemSet` fréquents dans la fonction `aPriori` du module `itemset`. Cette fonction fera appel à celles développées lors des manipulations 7 et 8.

In [11]:
its.aPriori(list_k, 1)

[[{'Beer'}, {'Coke'}, {'Milk'}, {'Diapers'}],
 [{'Diapers', 'Milk'},
  {'Milk', 'Diapers'},
  {'Beer', 'Milk'},
  {'Coke', 'Milk'},
  {'Coke', 'Diapers'},
  {'Beer', 'Diapers'},
  {'Beer', 'Coke'}],
 [{'Beer', 'Coke', 'Diapers'},
  {'Beer', 'Coke', 'Milk'},
  {'Coke', 'Milk', 'Diapers'},
  {'Beer', 'Milk', 'Diapers'},
  {'Diapers', 'Coke', 'Milk'}],
 [{'Beer', 'Coke', 'Milk', 'Diapers'}]]