# Analyse des notes du S3 (2021-2022)

Le fichier `S3_2022-2023.csv` contient les résultats (anonymisés) du S3 de l'année dernière. Nous allons essayer d'identifier des tendances sur les résultats.

Les cours du S3 (hors LV2) sont :

- CSA : calcul scientifique (a)
- CSB : calcul scientifique (b)
- CAS : contrôle automatique des systèmes
- CSI : conception de systèmes industriels
- MFL : mécanique des fluides
- MDS : mécanique des structures
- SDM : science des matériaux
- RAY : rayonnement
- EPS : éducation physique et sportive
- COM : communication professionnelle
- EED : énergie et environnement : les défis
- ANG : anglais
- STA : stage ouvrier

In [2]:
!pip install mlxtend

Collecting mlxtend
  Downloading mlxtend-0.23.1-py3-none-any.whl (1.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: mlxtend
Successfully installed mlxtend-0.23.1


In [1]:
import numpy as np
import pandas as pd
from mlxtend.frequent_patterns import apriori

In [2]:
s3 = pd.read_csv('S3_2022-2023.csv')
s3

Unnamed: 0,CSA,CSB,CAS,CSI,MFL,MDS,SDM,RAY,EPS,COM,EED,ANG,STA
0,16.30,13.57,14.7,19.5,16.38,17.23,15.73,13.34,15.5,18.0,17,16.00,17.15
1,16.60,16.29,13.7,19.5,16.38,14.69,16.08,15.68,14.0,18.0,11,17.50,16.50
2,20.00,15.57,15.7,18.2,14.62,14.00,15.31,11.29,14.5,16.5,12,16.00,16.50
3,17.10,14.61,16.0,19.4,13.15,16.54,15.73,12.68,14.5,19.0,11,14.86,16.93
4,14.90,15.32,16.6,19.1,13.69,15.08,14.77,14.12,13.0,18.0,12,17.70,17.00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
176,1.50,9.14,12.2,12.5,12.50,7.88,8.54,11.12,15.0,13.0,7,10.00,16.75
177,4.36,8.68,11.6,10.8,11.62,8.54,6.85,10.68,14.0,16.0,9,9.50,14.50
178,2.02,12.57,9.9,10.8,9.81,6.27,8.54,6.07,12.5,14.5,9,15.00,15.75
179,4.20,9.04,14.4,10.0,11.88,9.08,9.12,9.34,15.0,16.0,9,8.90,10.00


In [3]:
s3 = (s3.fillna(20) < 10)
s3.astype(int)

Unnamed: 0,CSA,CSB,CAS,CSI,MFL,MDS,SDM,RAY,EPS,COM,EED,ANG,STA
0,0,0,0,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
176,1,1,0,0,0,1,1,0,0,0,1,0,0
177,1,1,0,0,0,1,1,0,0,0,1,1,0
178,1,0,1,0,1,1,1,1,0,0,1,0,0
179,1,1,0,0,0,1,1,1,0,0,1,1,0


In [4]:
s3['cnt'] = s3.sum(axis=1)
s3 = s3.sort_values(by=["cnt"] + list(s3.columns), ascending=True).drop(columns=['cnt']).reset_index(drop=True)
sample = s3.tail(10)
sample.astype(int)

Unnamed: 0,CSA,CSB,CAS,CSI,MFL,MDS,SDM,RAY,EPS,COM,EED,ANG,STA
171,1,0,0,0,0,1,1,1,0,0,1,0,0
172,1,0,0,0,1,0,1,1,0,0,1,0,0
173,1,0,0,0,1,1,0,1,0,0,0,1,0
174,1,1,0,0,0,0,1,1,0,0,1,0,0
175,1,1,0,0,0,1,1,0,0,0,1,0,0
176,1,1,0,0,1,1,1,0,0,0,0,0,0
177,1,1,0,0,0,1,1,0,0,0,1,1,0
178,1,1,0,0,1,1,1,1,0,0,0,0,0
179,1,0,1,0,1,1,1,1,0,0,1,0,0
180,1,1,0,0,0,1,1,1,0,0,1,1,0


L'extrait suivant représente les échecs des dix élèves en ayant le plus, avec un seuil à 10 (l'absence de résultat est considérée comme une réussite).

|         |   CSA |   CSB |   CAS |   CSI |   MFL |   MDS |   SDM |   RAY |   EPS |   COM |   EED |   ANG |   STA |
|--------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|
| **171** |     1 |     0 |     0 |     0 |     0 |     1 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| **172** |     1 |     0 |     0 |     0 |     1 |     0 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| **173** |     1 |     0 |     0 |     0 |     1 |     1 |     0 |     1 |     0 |     0 |     0 |     1 |     0 |
| **174** |     1 |     1 |     0 |     0 |     0 |     0 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| **175** |     1 |     1 |     0 |     0 |     0 |     1 |     1 |     0 |     0 |     0 |     1 |     0 |     0 |
| **176** |     1 |     1 |     0 |     0 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |     0 |     0 |
| **177** |     1 |     1 |     0 |     0 |     0 |     1 |     1 |     0 |     0 |     0 |     1 |     1 |     0 |
| **178** |     1 |     1 |     0 |     0 |     1 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |     0 |
| **179** |     1 |     0 |     1 |     0 |     1 |     1 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| **180** |     1 |     1 |     0 |     0 |     0 |     1 |     1 |     1 |     0 |     0 |     1 |     1 |     0 |

## Itemsets fréquents

**Q1** Sur cet extrait, lister les index (i.e. les numéros d'élève entre 171 et 180) correspondant aux échecs suivants :

- CSA
- CSA, MDS
- CSA, MDS, EED
- CSA, MDS, EED, MFL
- CSA, MDS, EED, MFL, ANG

In [6]:
# Q1
for itemset in [{'CSA'}, {'CSA', 'MDS'}, {'CSA', 'MDS', 'EED'}, {'CSA', 'MDS', 'EED', 'MFL'}, {'CSA', 'MDS', 'EED', 'MFL', 'ANG'}]:
    print(f"{itemset}: {sample[(sample[list(itemset)] == 1).all(axis=1)].index.to_list()}")

{'CSA'}: [171, 172, 173, 174, 175, 176, 177, 178, 179, 180]
{'MDS', 'CSA'}: [171, 173, 175, 176, 177, 178, 179, 180]
{'MDS', 'CSA', 'EED'}: [171, 175, 177, 179, 180]
{'MDS', 'CSA', 'MFL', 'EED'}: [179]
{'MDS', 'CSA', 'EED', 'MFL', 'ANG'}: []


**Q2** En déduire les support (absolu et relatif) de ces cinq itemsets.

##### Q2 (Absolu - Relatif)
Sup(CSA) = 10 -- 1
Sup(CSA + MDS) = 8 -- 0.8
Sup(CSA + MDS + EED) = 5 -- 0.5
Sup(CSA + MDS + EED + MFL) = 1 -- 0.1
Sup(CSA + MDS + EED + MFL) = 0 -- 0

**Q3** En suivant l'algorithme Apriori, lister les itemsets fréquents pour un support minimum de 7, avec le support associé à chaque itemset.

In [30]:
#Q3
for itemset in [
    {'MDS'}, {'CSA'}, {'EED'}, {'RAY'}, {'SDM'}, # Q3 - 1
    {'MDS', 'CSA'}, {'MDS', 'SDM'}, {'CSA','EED'}, {'CSA','RAY'}, {'CSA','SDM'}, {'EED','SDM'}, # Q3 - 2
    {'MDS', 'CSA', 'SDM'}, {'CSA','SDM', 'EED'}, # Q3 - 3
    {'MDS', 'CSA', 'SDM', 'EED'}]: # Q3 - 4
    sup = fq[fq['itemsets'] == itemset]['support']
    if sup.size == 0:
        sup = 0
    else:
        sup = sup.iloc[0]
    print(f"{itemset}: {sup}")

{'MDS'}: 0.8
{'CSA'}: 1.0
{'EED'}: 0.7
{'RAY'}: 0.7
{'SDM'}: 0.9
{'MDS', 'CSA'}: 0.8
{'SDM', 'MDS'}: 0.7
{'CSA', 'EED'}: 0.7
{'RAY', 'CSA'}: 0.7
{'SDM', 'CSA'}: 0.9
{'SDM', 'EED'}: 0.7
{'SDM', 'MDS', 'CSA'}: 0.7
{'SDM', 'CSA', 'EED'}: 0.7
{'SDM', 'MDS', 'CSA', 'EED'}: 0


Pour chaque étapes, o, retire les liste d'itemset non fréquent. Pour la dernière étape, les deux itemsets restant ont 2 attributs communs (SDM et CSA) donc on passe à l'étape suivante.
Au total, on trouve 13 itemsets pour un seuil à 7.

**Q4** Lister les itemsets fréquents pour un support minimum de 8.

In [29]:
#Q4
for itemset in [
    {'MDS'}, {'CSA'}, {'SDM'}, # Q3 - 1
    {'MDS', 'CSA'}, {'CSA','SDM'}]:# Q3 - 2

    sup = fq[fq['itemsets'] == itemset]['support']
    if sup.size == 0:
        sup = 0
    else:
        sup = sup.iloc[0]
    print(f"{itemset}: {sup}")

{'MDS'}: 0.8
{'CSA'}: 1.0
{'SDM'}: 0.9
{'MDS', 'CSA'}: 0.8
{'SDM', 'CSA'}: 0.9


Donc on trouve 5 itemsets pour un seuil à 8.

**Q5** Vérifier vos réponses aux trois questions précédentes en les comparant avec celles calculés par la fonction `apriori` de la bibliothèque [mlxtend](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/).

In [34]:
# Q5
fq = apriori(sample, min_support=0.7, use_colnames=True)
fq

Unnamed: 0,support,itemsets
0,1.0,(CSA)
1,0.8,(MDS)
2,0.9,(SDM)
3,0.7,(RAY)
4,0.7,(EED)
5,0.8,"(MDS, CSA)"
6,0.9,"(SDM, CSA)"
7,0.7,"(RAY, CSA)"
8,0.7,"(CSA, EED)"
9,0.7,"(SDM, MDS)"


In [35]:
fq2 = apriori(sample, min_support=0.8, use_colnames=True)
fq2

Unnamed: 0,support,itemsets
0,1.0,(CSA)
1,0.8,(MDS)
2,0.9,(SDM)
3,0.8,"(MDS, CSA)"
4,0.9,"(SDM, CSA)"


**Q6** Lister les fréquents maximaux pour un support minimum de 0.7.

In [39]:
# Q6
def isstrictsubset(itemset, itemsets):
    for it in itemsets:
        if itemset < it:
            return True
    return False
fq = apriori(sample, min_support=0.7, use_colnames=True)
fq['max'] = fq['itemsets'].apply(lambda x: not isstrictsubset(x, fq['itemsets']))
maxfq = fq[fq['max']]
maxfq

Unnamed: 0,support,itemsets,max
7,0.7,"(RAY, CSA)",True
11,0.7,"(SDM, MDS, CSA)",True
12,0.7,"(SDM, CSA, EED)",True


**Q7** Lister les fréquents clos pour un support minimum de 0.7.

In [43]:
# Q7
fq = apriori(sample, min_support=0.7, use_colnames=True)
fq['closed'] = fq.apply(lambda x: not isstrictsubset(x['itemsets'], fq[fq['support'] == x['support']]['itemsets']), axis=1)
clfq = fq[fq['closed']]
clfq

Unnamed: 0,support,itemsets,closed
0,1.0,(CSA),True
5,0.8,"(MDS, CSA)",True
6,0.9,"(SDM, CSA)",True
7,0.7,"(RAY, CSA)",True
11,0.7,"(SDM, MDS, CSA)",True
12,0.7,"(SDM, CSA, EED)",True


**Q8** Donner deux itemsets comparables &ndash; c'est-à-dire dont le support de l'un est garanti d'être supérieur ou égal au support de l'autre &ndash; et deux itemsets incomparables &ndash; c'est-à-dire dont les supports ne sont pas liés par la relation de monotonie.

- Comparables: {CSA} et {CSA, MDS}
- Incomparables: {RAY} et {CSA, MDS} ou encore {CSA, MDS} et {RAY}

**Q9** Sur l'ensemble des notes du s3, comparer les temps d'exécution des fonctions `apriori`, `fpgrowth` et `fpmax`.  
Vous pourrez pour cela utiliser la commande [`%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit).

In [44]:
from mlxtend.frequent_patterns import fpgrowth, fpmax

In [47]:
# Q9
min_sup = 0.001
%timeit apriori(s3, min_support=min_sup)
%timeit fpgrowth(s3, min_support=min_sup)
%timeit fpmax(s3, min_support=min_sup)

3.55 ms ± 13 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
1.82 ms ± 33.6 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1.18 ms ± 7.63 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [48]:
a = fpgrowth(s3, min_support=min_sup)
a

Unnamed: 0,support,itemsets
0,0.281768,(10)
1,0.182320,(7)
2,0.287293,(5)
3,0.033149,(2)
4,0.602210,(0)
...,...,...
248,0.005525,"(1, 4, 7)"
249,0.016575,"(0, 1, 4, 5)"
250,0.005525,"(1, 4, 5, 7)"
251,0.005525,"(0, 1, 4, 7)"


**Q10** Vérifier que les résultats donnés par `apriori` et `fpgrowth` sont identiques.

In [49]:
# Q10
fq1 = apriori(s3, min_support=min_sup)
fq2 = fpgrowth(s3, min_support=min_sup)
fq1['itemsets'] = fq1['itemsets'].apply(lambda x: tuple(sorted(x)))
fq2['itemsets'] = fq2['itemsets'].apply(lambda x: tuple(sorted(x)))
fq1 = fq1.sort_values(by='itemsets').reset_index(drop=True)
fq2 = fq2.sort_values(by='itemsets').reset_index(drop=True)
fq1.equals(fq2)

True

**Q11** Quelle serait l'UE de 2, 3 ou 4 matières la plus difficile ?  
Ces résultats étaient-ils prévisibles en considérant uniquement le nombre d'échecs dans chaque matière ?

In [55]:
#Q11
s3.sum().sort_values(ascending=False)

CSA    109
MDS     52
EED     51
RAY     33
MFL     17
CSB     16
SDM     15
CAS      6
ANG      5
STA      1
CSI      0
EPS      0
COM      0
dtype: int64

In [51]:
fq = fpgrowth(s3, min_support=0.01, use_colnames=True)
fq['len'] = fq['itemsets'].apply(len)
fq['support (abs.)'] = (fq['support'] * len(s3)).astype(int)

In [53]:
# Pour 4 matières
fq[fq['len'] == 4].sort_values(by='support', ascending=False).head(10)

Unnamed: 0,support,itemsets,len,support (abs.)
84,0.033149,"(SDM, MDS, CSA, RAY)",4,6
77,0.027624,"(SDM, RAY, CSA, EED)",4,5
133,0.027624,"(MDS, CSB, CSA, EED)",4,5
112,0.027624,"(MDS, CSB, CSA, SDM)",4,5
78,0.027624,"(SDM, MDS, CSA, EED)",4,5
17,0.022099,"(MDS, CSA, RAY, EED)",4,4
120,0.022099,"(MDS, CSA, MFL, RAY)",4,4
104,0.022099,"(SDM, CSB, CSA, EED)",4,4
138,0.016575,"(MDS, CSB, CSA, RAY)",4,3
124,0.016575,"(MDS, CSA, MFL, EED)",4,3


In [54]:
# Pour 3 matières
fq[fq['len'] == 3].sort_values(by='support', ascending=False).head(10)

Unnamed: 0,support,itemsets,len,support (abs.)
11,0.093923,"(MDS, CSA, EED)",3,17
18,0.082873,"(MDS, CSA, RAY)",3,15
139,0.060773,"(MDS, CSB, CSA)",3,11
117,0.055249,"(MDS, CSA, MFL)",3,10
81,0.055249,"(SDM, MDS, CSA)",3,10
15,0.049724,"(RAY, CSA, EED)",3,9
82,0.044199,"(SDM, RAY, CSA)",3,8
74,0.038674,"(SDM, CSA, EED)",3,7
100,0.033149,"(SDM, CSB, CSA)",3,6
119,0.033149,"(RAY, CSA, MFL)",3,6


## Règles d'association

**Q12** Sur l'extrait des dix derniers relevés, calculer le support des itemsets suivants :

- ANG
- MDS
- ANG, MDS
- ANG, CSB, MDS
- ANG, CSB, MFL
- CSB, MFL, MDS

In [57]:
# Q12
for itemset in [
    {'ANG'}, {'MDS'},
    {'ANG', 'MDS'},
    {'ANG', 'CSB', 'MDS'}, {'ANG', 'CSB', 'MFL'},
    {'CSB', 'MFL', 'MDS'}]:
    sup = fq[fq['itemsets'] == itemset]['support']
    if sup.size == 0:
        sup = 0
    else:
        sup = sup.iloc[0]
    print(f"{itemset}: {sup}")

{'ANG'}: 0.3
{'MDS'}: 0.8
{'MDS', 'ANG'}: 0.3
{'MDS', 'CSB', 'ANG'}: 0.2
{'CSB', 'MFL', 'ANG'}: 0
{'MDS', 'CSB', 'MFL'}: 0.2


**Q13** En déduire la confiance des règles d'association suivantes :

- ANG $\rightarrow$ MDS
- MDS $\rightarrow$ ANG
- ANG, MDS $\rightarrow$ CSB
- MFL, CSB $\rightarrow$ ANG

In [60]:
# Q13
fq = fpgrowth(sample, min_support=0.1, use_colnames=True)
fq

Unnamed: 0,support,itemsets
0,1.0,(CSA)
1,0.9,(SDM)
2,0.8,(MDS)
3,0.7,(EED)
4,0.7,(RAY)
...,...,...
242,0.1,"(CAS, RAY, CSA, MFL, SDM, EED)"
243,0.1,"(CAS, MDS, CSA, RAY, MFL, SDM)"
244,0.1,"(CAS, MDS, CSA, MFL, SDM, EED)"
245,0.1,"(CAS, MDS, CSA, RAY, SDM, EED)"


**Q14** Vérifier vos réponses à la question Q13 en les comparant avec celles calculées par la fonction `association_rules` de la bibliothèque [mlxtend](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/).

In [62]:
from mlxtend.frequent_patterns import association_rules

In [64]:
#Q14
rl = association_rules(fq, min_threshold=0.1)

rl = pd.concat([rl[(rl['antecedents'] == x) & (rl['consequents'] == y)]
           for x, y in [
               ({'ANG'}, {'MDS'}),
               ({'MDS'}, {'ANG'}),
               ({'ANG', 'MDS'}, {'CSB'}),
               ({'MFL', 'CSB'}, {'ANG'})
           ]])
rl

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
895,(ANG),(MDS),0.3,0.8,0.3,1.0,1.25,0.06,inf,0.285714
894,(MDS),(ANG),0.8,0.3,0.3,0.375,1.25,0.06,1.12,1.0
1917,"(MDS, ANG)",(CSB),0.3,0.6,0.2,0.666667,1.111111,0.02,1.2,0.142857


**Q15** Ajouter à la DataFrame résultat les mesures de Kulczynski, all_confidence, max_confidence, cosine et IR.  
Vous pourrez utiliser la fonction de la cellule ci-dessous à appliquer à la DataFrame résultat de la fonction `association_rules`.

In [65]:
def compute_metrics(df):
    rl = df.copy()
    rl['Kulc'] = rl['support'] * (rl['antecedent support'] + rl['consequent support']) / (2 * rl['antecedent support'] * rl['consequent support'])
    rl['all'] = pd.concat([rl['support'] / rl['antecedent support'], rl['support'] / rl['consequent support']], axis=1).min(axis=1)
    rl['max'] = pd.concat([rl['support'] / rl['antecedent support'], rl['support'] / rl['consequent support']], axis=1).max(axis=1)
    rl['cos'] = rl['support'] / np.sqrt(rl['antecedent support'] * rl['consequent support'])
    rl['IR'] = np.abs(rl['antecedent support'] - rl['consequent support']) / (rl['antecedent support'] + rl['consequent support'] - rl['support'])
    return rl

In [1]:
def compute_measures(df):
    rl = df.copy()
    rl['Kulc'] = rl['support']*(rl['antecedent support']+rl['consequent support'])/(2*rl['antecedent support']*rl['consequent support'])
    rl['all'] = pd.concat([rl['confidence'], rl['support']/rl['consequent support']], axis=1).min(axis=1)
    rl['max'] = pd.concat([rl['confidence'], rl['support']/rl['consequent support']], axis=1).max(axis=1)
    rl['cos'] = rl['support']/np.sqrt(rl['antecedent support']*rl['consequent support'])
    rl['IR'] = np.abs(rl['antecedent support']-rl['consequent support'])/(rl['antecedent support']+rl['consequent support']-rl['support'])
    return rl

**Q16** Quelles sont, d'après la mesure de Kulczynski, les règles les plus intéressantes sur l'ensemble des résultats du s3 ?  
Pensez à ajuster les seuils de support et de confiance afin de filtrer les résultats peu significatifs.

**Q17** Existe-t-il des règles permettant de déduire avec une confiance de 100% l'échec en rayonnement ? En automatique ? En stage ?

## Lien entre les fréquents clos et maximaux et les règles d'association

**Q18** Calculer les règles pouvant être générées à partir des fréquents maximaux sur l'extrait des dix derniers relevés de note et un seuil de fréquence de 0.7.

**Q19** Vérifier vos résultats avec ceux générés par la bibliothèque `mlxtend`.

**Q20** Comparer les règles d'association générées sur la base des fréquents (Q3), des fréquents maximaux (Q6/Q18) et des fréquents clos (Q7).

**Q21** Compléter les valeurs de support des antecédents et conséquents sur la base des support des itemsets fréquents associés (clos ou maximaux).