# Mesures d'intérêt des règles d'association

Cet exemple est inspiré et adapté de :  
Jiawei Han, Micheline Kamber, and Jian Pei. *Data Mining: Concepts and Techniques,* Third Edition. The Morgan Kaufmann Series in Data Management Systems (2011): 269-271.

Soit une base de transactions de la forme suivante :

client | café | lait
-------|------|-----
1      |    1 |    0
2      |    1 |    1
3      |    0 |    0
...    |  ... |  ...
1000   |    0 |    1

Pour simplifier l'exercice, ces informations sont représentées de manière synthétique en comptant :
- le nombre de clients achetant du café et du lait (*both*),
- le nombre de clients n'achetant que du café (*coffee*),
- le nombre de clients n'achetant que du lait (*milk*),
- le nombre de clients n'achetant ni lait ni café (*none*).

On considère alors les transactions des six points de vente (PDV) suivants :

PDV |  both | coffee | milk  | none
---:|------:|-------:|------:|-----:
  1 |  1000 |    100 |   100 | 10000
  2 |  1000 |    100 |   100 |    10
  3 |    10 |    100 |   100 | 10000
  4 |   100 |    100 |   100 | 10000
  5 |   100 |     10 |  1000 | 10000
  6 |   100 |      1 | 10000 | 10000


In [18]:
import numpy as np
import pandas as pd
sales = pd.DataFrame({'PDV':    [  '1',  '2',   '3',   '4',   '5',   '6'],
                      'both':   [ 1000, 1000,    10,   100,   100,   100],
                      'coffee': [  100,  100,   100,   100,    10,     1],
                      'milk':   [  100,  100,   100,   100,  1000, 10000],
                      'none':   [10000,   10, 10000, 10000, 10000, 10000]}).set_index('PDV')
sales

Unnamed: 0_level_0,both,coffee,milk,none
PDV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1000,100,100,10000
2,1000,100,100,10
3,10,100,100,10000
4,100,100,100,10000
5,100,10,1000,10000
6,100,1,10000,10000


## Le lift

**Q1** Calculer, pour chaque point de vente :
- P(coffee $\wedge$ milk)
- P(coffee)
- P(coffee | milk)
- P(milk)
- P(milk | coffee)
- le support, la confiance et le lift de la règle d'association coffee $\rightarrow$ milk

### Résultats attendus

Si vous voulez vérifier vos résultats, les valeurs à trouver pour le PDV no. 5 sont les suivantes.

|   PDV | P(coffee $\wedge$ milk) |  P(coffee) | P(coffee &#124; milk) |   P(milk) | P(milk &#124; coffee) |   support | confidence |     lift |
|------:|------------------------:|-----------:|----------------------:|----------:|----------------------:|----------:|-----------:|---------:|
|     5 |               0.0090009 | 0.00990099 |             0.0909091 | 0.0990099 |              0.909091 | 0.0090009 |   0.909091 |  9.18182 |

In [19]:
sales["total"] = sales["both"] + sales["milk"] + sales["coffee"] + sales["none"]
sales["sup(C)"] = sales["both"] + sales["coffee"]
sales["P(C)"] = sales["sup(C)"] / sales["total"]
sales["sup(M)"] = sales["both"] + sales["milk"]
sales["P(M)"] = sales["sup(M)"] / sales["total"]
sales["P(C|M)"] = sales["both"] / sales["sup(M)"]
sales["P(M|C)"] = sales["both"] / sales["sup(C)"]
sales["confiance"] = sales["P(M|C)"]
sales["support"] = sales["both"] / sales["total"]
sales["lift"] = sales["confiance"] / sales["P(M)"]
sales

Unnamed: 0_level_0,both,coffee,milk,none,total,sup(C),P(C),sup(M),P(M),P(C|M),P(M|C),confiance,support,lift
PDV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,1000,100,100,10000,11200,1100,0.098214,1100,0.098214,0.909091,0.909091,0.909091,0.089286,9.256198
2,1000,100,100,10,1210,1100,0.909091,1100,0.909091,0.909091,0.909091,0.909091,0.826446,1.0
3,10,100,100,10000,10210,110,0.010774,110,0.010774,0.090909,0.090909,0.090909,0.000979,8.438017
4,100,100,100,10000,10300,200,0.019417,200,0.019417,0.5,0.5,0.5,0.009709,25.75
5,100,10,1000,10000,11110,110,0.009901,1100,0.09901,0.090909,0.909091,0.909091,0.009001,9.181818
6,100,1,10000,10000,20101,101,0.005025,10100,0.502463,0.009901,0.990099,0.990099,0.004975,1.970493


### PDV 1 et 2

**Q2** Si l'on considère que le PDV no. 1 intègre les transactions de son bar et de sa sandwicherie et que le PDV no. 2 ne considère que les transactions de son bar, les transactions des deux PDV laissent-elles supposer des comportements significativement différents entre leurs consommateurs de café ?

## Mesures complémentaires

**Q3** Calculer les mesures suivantes, pour chaque point de vente :
- all_confidence
- max_confidence
- Kulczynski
- (cosine)
- imbalance ratio
- (leverage)
- (conviction)

### Résultats attendus

Si vous voulez vérifier vos résultats, les valeurs à trouver pour le PDV no. 5 sont les suivantes.

|   PDV |  all_conf. | max_conf. |     Kulc. |    cosine |       IR |  leverage | conviction |
|------:|-----------:|----------:|----------:|----------:|---------:|----------:|-----------:|
|     5 | 0.0909091  | 0.909091  | 0.5       | 0.28748   | 0.891892 | 0.0080206 |    9.91089 |

In [32]:
sales["all-conf"] = sales[["P(C|M)", "P(M|C)"]].min(axis=1)
sales["max-conf"] = sales[["P(C|M)", "P(M|C)"]].max(axis=1)
sales["Kulczynski"] = (sales["P(C|M)"] + sales["P(M|C)"])/2
sales["IR"] = abs(sales["sup(C)"]-sales["sup(M)"])/(sales["both"]+sales["coffee"]+sales["milk"])
sales
#Axis = 1 pour faire par ligne et par colonne

Unnamed: 0_level_0,both,coffee,milk,none,total,sup(C),P(C),sup(M),P(M),P(C|M),P(M|C),confiance,support,lift,all,all-conf,max-conf,Kulczynski,IR
PDV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
1,1000,100,100,10000,11200,1100,0.098214,1100,0.098214,0.909091,0.909091,0.909091,0.089286,9.256198,0.909091,0.909091,0.909091,0.909091,0.0
2,1000,100,100,10,1210,1100,0.909091,1100,0.909091,0.909091,0.909091,0.909091,0.826446,1.0,0.909091,0.909091,0.909091,0.909091,0.0
3,10,100,100,10000,10210,110,0.010774,110,0.010774,0.090909,0.090909,0.090909,0.000979,8.438017,0.090909,0.090909,0.090909,0.090909,0.0
4,100,100,100,10000,10300,200,0.019417,200,0.019417,0.5,0.5,0.5,0.009709,25.75,0.5,0.5,0.5,0.5,0.0
5,100,10,1000,10000,11110,110,0.009901,1100,0.09901,0.090909,0.909091,0.909091,0.009001,9.181818,0.090909,0.090909,0.909091,0.5,0.891892
6,100,1,10000,10000,20101,101,0.005025,10100,0.502463,0.009901,0.990099,0.990099,0.004975,1.970493,0.009901,0.009901,0.990099,0.5,0.989902


**Q5** Qu'indiquent les autres critères sur la qualité de la règle coffee $\rightarrow$ milk pour ce PDV ? Lesquels varient ?

### PDV 4, 5 et 6

Les PDV no. 4, 5 et 6 présentent des associations (coffee $\rightarrow$ milk) et (milk $\rightarrow$ coffee) de plus en plus déséquilibrées :  
la confiance de la règle coffee $\rightarrow$ milk &ndash; i.e. P(milk | coffee) &ndash; augmente alors que P(coffee | milk) diminue.  
C'est-à-dire que les buveurs de café prennent de plus en plus systématiquement du lait, alors que les buveurs de lait en général prennent de moins en moins de café.

**Q6** Comme les mesures lift, all_conf., max_conf, Kulc. et cosine sont symétriques, ces résultats ne donnent-ils pas des informations relativement contradictoires selon la règle d'association considérée : (coffee $\rightarrow$ milk) ou (milk $\rightarrow$ coffee) ?

**Q7** Les auteurs de (Han et al., 2011) recommandent de considérer à la fois la mesure de Kulczynski et l'imbalance ratio. Cette solution vous semble-t-elle raisonnable ?  
Plus précisément, si une mesure de Kulczynski est proche de 1, alors la règles est intéressante. Au contraire, si la mesure de Kulczynski est proche de 0.5, alors la règle n'est intéressante que si l'IR est élevé (proche de 1).

## Vérification avec mlxtend

Il est possible de *construire* des itemsets fréquents pour analyse. En particulier si vous manipulez des données agrégées.

**Q8** Construire, pour un des PDV, une DataFrame avec les informations de support des itemsets {café}, {lait} et {café, lait}.

In [38]:
#La il faut calculer fq

**Q9** Calculer les règles d'association sur cette DataFrame.

In [35]:
from mlxtend.frequent_patterns import association_rules

ModuleNotFoundError: No module named 'mlxtend'

In [36]:
association_rules(fq, [min]

SyntaxError: incomplete input (933942109.py, line 1)