# Analyse des notes du S3 (2021-2022)

Le fichier `S3_2021-2022.csv` contient les résultats (anonymisés) du S3 de l'année dernière. Nous allons essayer d'identifier des tendances sur les résultats.

Les cours du S3 (hors LV2) sont :

- CSA : calcul scientifique (a)
- CSB : calcul scientifique (b)
- AUT : automatique
- CSI : conception de systèmes industriels
- MFL : mécanique des fluides
- MDS : mécanique des structures
- SDM : science des matériaux
- RAY : rayonnement
- EPS : éducation physique et sportive
- COM : communication professionnelle
- EED : énergie et environnement : les défis
- ANG : anglais
- STA : stage ouvrier

In [None]:
import numpy as np
import pandas as pd

In [None]:
s3 = pd.read_csv('S3_2021-2022.csv')
s3

In [None]:
s3 = (s3.fillna(20) < 10)
s3.astype(int)

In [None]:
s3['cnt'] = s3.sum(axis=1)
s3 = s3.sort_values(by=["cnt"] + list(s3.columns), ascending=True).drop(columns=['cnt']).reset_index(drop=True)
sample = s3.tail(10)
sample.astype(int)

L'extrait suivant représente les échecs des dix élèves en ayant le plus, avec un seuil à 10 (l'absence de résultat est considérée comme une réussite).

|     |   CSA |   CSB |   AUT |   CSI |   MFL |   MDS |   SDM |   RAY |   EPS |   COM |   EED |   ANG |   STA |
|----:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|------:|
| 181 |     1 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |     0 |     0 |     0 |     0 |     0 |
| 182 |     0 |     0 |     1 |     0 |     1 |     1 |     0 |     1 |     0 |     0 |     1 |     0 |     0 |
| 183 |     0 |     1 |     0 |     0 |     0 |     1 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| 184 |     0 |     1 |     0 |     0 |     1 |     0 |     1 |     1 |     0 |     0 |     1 |     0 |     0 |
| 185 |     1 |     0 |     0 |     0 |     1 |     1 |     0 |     1 |     0 |     1 |     0 |     0 |     0 |
| 186 |     1 |     0 |     0 |     0 |     1 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |     0 |
| 187 |     1 |     0 |     1 |     0 |     0 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |     0 |
| 188 |     0 |     1 |     1 |     0 |     1 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |     0 |
| 189 |     1 |     0 |     0 |     0 |     1 |     1 |     1 |     1 |     1 |     0 |     0 |     0 |     0 |
| 190 |     1 |     1 |     1 |     0 |     1 |     0 |     1 |     1 |     0 |     0 |     0 |     1 |     0 |

## Itemsets fréquents

**Q1** Sur cet extrait, lister les index (i.e. les numéros d'élève entre 201 et 210) correspondant aux échecs suivants :

- CSA
- CSA, AUT
- CSA, AUT, MDS
- CSA, AUT, MDS, EED
- CSA, AUT, MDS, EED, MFL

**Q2** En déduire les support (absolu et relatif) de ces cinq itemsets.

**Q3** Quel est le support (absolu et relatif) des itemsets suivants :

- MFL
- MFL, MDS
- AUT, RAY, STA
- SDM, STA

**Q4** En suivant l'algorithme Apriori, lister les itemsets fréquents pour un support minimum de 5, avec le support associé à chaque itemset.

**Q5** Lister les itemsets fréquents pour un support minimum de 7.

**Q6** Vérifier vos réponses aux quatre questions précédentes en les comparant avec celles calculés par la fonction `apriori` de la bibliothèque [mlxtend](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/).

In [None]:
from mlxtend.frequent_patterns import apriori

**Q7** Lister les fréquents maximaux pour un support minimum de 0.5.

**Q8** Lister les fréquents clos pour un support minimum de 0.5.

**Q9** Donner deux itemsets comparables &ndash; c'est-à-dire dont le support de l'un est garanti d'être supérieur ou égal au support de l'autre &ndash; et deux itemsets incomparables &ndash; c'est-à-dire dont les supports ne sont pas liés par la relation de monotonie.

**Q10** Sur l'ensemble des notes du s3, comparer les temps d'exécution des fonctions `apriori`, `fpgrowth` et `fpmax`.  
Vous pourrez pour cela utiliser la commande [`%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit).

In [None]:
from mlxtend.frequent_patterns import fpgrowth, fpmax

**Q11** Vérifier que les résultats données par `apriori` et `fpgrowth` sont identiques.

**Q12** Quelle serait l'UE de 2, 3 ou 4 matières la plus difficile ?  
Ces résultats étaient-ils prévisibles en considérant uniquement le nombre d'échecs dans chaque matière ?

## Règles d'association

**Q13** Sur l'extrait des dix derniers relevés, calculer le support des itemsets suivants :

- AUT
- MDS
- SDM
- MDS, SDM
- AUT, SDM
- AUT, MDS
- AUT, MDS, SDM
- AUT, MDS, CSA
- AUT CSA, MDS, SDM

**Q14** En déduire la confiance des règles d'association suivantes :

- MDS $\rightarrow$ SDM
- AUT $\rightarrow$ SDM
- AUT, MDS $\rightarrow$ SDM
- AUT, CSA, MDS $\rightarrow$ SDM

**Q15** Calculer le lift, le leverage et la conviction des règles d'association précédentes.

**Q16** Calculer les mesures de Kulczynski, all_confidence, max_confidence, cosine et IR pour ces règles d'association.

**Q17** Vérifier vos réponses aux questions Q14 et Q15 en les comparant avec celles calculés par la fonction `association_rules` de la bibliothèque [mlxtend](http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/association_rules/).

In [None]:
from mlxtend.frequent_patterns import association_rules

**Q18** Ajouter à la DataFrame résultat les mesures de Kulczynski, all_confidence, max_confidence, cosine et IR.  
Vous pourrez généraliser cet ajout en définissant une fonction de traitement sur la DataFrame résultat de la fonction `association_rules`, pour un usage futur par exemple.

In [None]:
def compute_measures(df):
    rl = df.copy()
    rl['Kulc'] = rl['support']*(rl['antecedent support']+rl['consequent support'])/(2*rl['antecedent support']*rl['consequent support'])
    rl['all'] = pd.concat([rl['confidence'], rl['support']/rl['consequent support']], axis=1).min(axis=1)
    rl['max'] = pd.concat([rl['confidence'], rl['support']/rl['consequent support']], axis=1).max(axis=1)
    rl['cos'] = rl['support']/np.sqrt(rl['antecedent support']*rl['consequent support'])
    rl['IR'] = np.abs(rl['antecedent support']-rl['consequent support'])/(rl['antecedent support']+rl['consequent support']-rl['support'])
    return rl

**Q19** Quelles sont, d'après la mesure de Kulczynski, les règles les plus intéressantes sur l'ensemble des résultats du s3 ?  
Pensez à ajuster les seuils de support et de confiance afin de filtrer les résultats peu significatifs.

**Q20** Existe-t-il des règles permettant de déduire avec une confiance de 100% l'échec en rayonnement ? En automatique ? En EPS ?

## Lien entre les fréquents clos et maximaux et les règles d'association

**Q21** Calculer les règles pouvant être générées à partir des fréquents maximaux sur l'extrait des dix derniers relevés de note et un seuil de fréquence de 0.6.

**Q22** Vérifier vos résultats avec ceux générés par la bibliothèque `mlxtend`.

**Q23** Comparer les règles d'association générées sur la base des fréquents (Q4), des fréquents maximaux (Q7/Q22) et des fréquents clos (Q8).

**Q24** Compléter les valeurs de support des antecédents et conséquents sur la base des support des itemsets fréquents associés (clos ou maximaux).