In [23]:
!git clone https://github.com/Hotsnown/seminaire-bordeaux-2022.git seminaire &> /dev/null
%pip install nbautoeval &> /dev/null
!git clone https://github.com/chinmusique/outcome-prediction.git &> /dev/null


In [32]:
import os
import json

import os, json
import pandas as pd

path_to_json = '/content/outcome-prediction/data/manual_annotation/'
json_files = [pos_json for pos_json in os.listdir(path_to_json) if pos_json.endswith('.json')]

# here I define my pandas Dataframe with the columns I want to get from the json
jsons_data = pd.DataFrame(columns=['content', 'role'])

# we need both the json and an index number so use enumerate()
for index, js in enumerate(json_files):
    with open(os.path.join(path_to_json, js)) as json_file:
        json_text = json.load(json_file)
        # here you need to know the layout of your json and each json has to have
        # the same structure (obviously not the structure I have here)
        if json_text['annotations'][0].get('content'):
          content = json_text['annotations'][0]['content']
          role = json_text['annotations'][-1]['role']
          # here I push a list of data into a pandas DataFrame at row given by 'index'
          jsons_data.loc[index] = [content, role]

# now that we have the pertinent json data in our DataFrame let's look at it
jsons_data.to_csv("outcome_prediction.csv")

### Évaluation d'un modèle de classification

### Agenda
* Quel est l'objectif de l'évaluation d'un modèle, et quelles sont les procédures d'évaluation les plus courantes ?
* Quel est l'usage de la précision de classification, et quelles sont ses limites ?
* Comment une matrice de confusion décrit-elle la performance d'un classificateur ?
* Quelles métriques peuvent être calculées à partir d'une matrice de confusion ?
* Comment pouvez-vous ajuster la performance d'un classificateur en changeant le seuil de classification ?
* Quel est le but d'une courbe ROC ?
* Comment l'aire sous la courbe (AUC) diffère-t-elle de la précision de la classification ?

### Examen de l'évaluation des modèles
* Besoin d'un moyen de choisir entre les modèles : différents types de modèles, paramètres de réglage et caractéristiques.
* Utiliser une procédure d'évaluation de modèle pour estimer la capacité d'un modèle à généraliser les données hors échantillon.
* Nécessite une métrique d'évaluation de modèle pour quantifier la performance du modèle.

### Procédures d'évaluation de modèles
1. Formation et test sur les mêmes données
    * Récompense les modèles trop complexes qui "surajustent" les données de formation et ne généralisent pas nécessairement.
2. Division Train/test
    * Divise l'ensemble de données en deux parties, de sorte que le modèle peut être formé et testé sur des données différentes.
    * Meilleure estimation de la performance hors échantillon, mais toujours une estimation à "haute variance".
    * Utile en raison de sa rapidité, de sa simplicité et de sa flexibilité.
3. Validation croisée K-fold
    * Créez systématiquement "K" séparations train/test et faites la moyenne des résultats ensemble.
    * Meilleure estimation des performances hors échantillon.
    * Fonctionne "K" fois plus lentement que la division train/test.

### Métriques d'évaluation du modèle
* Problèmes de régression : Erreur absolue moyenne, erreur quadratique moyenne, erreur quadratique moyenne.
* Problèmes de classification : Précision de la classification



### Précision de la classification

Jeu de données sur le diabète des Indiens Pima provenant du dépôt d'apprentissage automatique de l'UCI.

In [33]:
# read the data into a Pandas DataFrame
import pandas as pd
df = pd.read_csv("outcome_prediction.csv")

In [34]:
# print the first 5 rows of data
df.head()

Unnamed: 0.1,Unnamed: 0,content,role
0,0,Because CHAMPUS is not a party to this appeal ...,Complex
1,1,We affirm on all issues raised in the appeal a...,Affirm
2,2,"For the reasons that follow, we affirm.",Affirm
3,3,. We affirm.,Affirm
4,4,We reverse and remand for further proceedings ...,Reverse


Question : Peut-on prédire le statut diabétique d'un patient à partir de ses mesures de santé ?

In [41]:
# define X and y
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df["content"])
y = [0 if y == "Reverse" else 1 for y in df["role"]]

In [42]:
# split X and y into training and testing sets
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

In [43]:
# train a logistic regression model on the training set
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(X_train, y_train)

LogisticRegression()

In [44]:
# make class predictions for the testing set
y_pred_class = logreg.predict(X_test)

Précision de la classification : pourcentage de prédictions correctes

In [45]:
# calculate accuracy
from sklearn import metrics
print(metrics.accuracy_score(y_test, y_pred_class))

0.904


Précision nulle : précision qui pourrait être obtenue en prédisant toujours la classe la plus fréquente.

In [49]:
# examine the class distribution of the testing set (using a Pandas Series method)
y_test = pd.Series(y_test)

y_test.value_counts()

1    86
0    39
dtype: int64

In [50]:
# calculate the percentage of ones
y_test.mean()

0.688

In [51]:
# calculate the percentage of zeros
1 - y_test.mean()

0.31200000000000006

In [52]:
# calculate null accuracy (for binary classification problems coded as 0/1)
max(y_test.mean(), 1 - y_test.mean())

0.688

In [53]:
# calculate null accuracy (for multi-class classification problems)
y_test.value_counts().head(1) / len(y_test)

1    0.688
dtype: float64

Comparaison des valeurs de réponse réelles et prédites

In [54]:
# print the first 25 true and predicted responses
from __future__ import print_function
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [0 1 0 1 1 1 0 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 0 0]
Pred: [0 1 0 1 1 1 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 1 1 1 0]


Conclusion :

* La précision de la classification est la mesure de classification la plus facile à comprendre.
* Mais, elle ne vous indique pas la distribution sous-jacente des valeurs de réponse.
* Et elle ne vous dit pas quels "types" d'erreurs votre classificateur commet.

### Matrice de confusion (confusion matrix)

Tableau qui décrit la performance d'un modèle de classification

In [55]:
# IMPORTANT: first argument is true values, second argument is predicted values
print(metrics.confusion_matrix(y_test, y_pred_class))

[[29 10]
 [ 2 84]]


Chaque observation de l'ensemble de test est représentée dans une seule case.
Il s'agit d'une matrice 2x2 car il y a deux classes de réponses.
Le format présenté ici n'est pas universel

Terminologie de base

* Vrais positifs (TP) : nous avons correctement prédit qu'ils ont le diabète.
* Vrais négatifs (TN) : nous avons correctement prédit qu'ils ne sont pas diabétiques.
* Faux positifs (FP) : nous avons prédit à tort qu'ils sont diabétiques (une "erreur de type I").
* Faux négatifs (FN) : nous avons prédit à tort qu'ils ne sont pas diabétiques (une "erreur de type II").

In [56]:
# print the first 25 true and predicted responses
print('True:', y_test.values[0:25])
print('Pred:', y_pred_class[0:25])

True: [0 1 0 1 1 1 0 1 1 1 0 1 1 1 1 0 1 1 1 1 0 1 1 0 0]
Pred: [0 1 0 1 1 1 0 1 0 1 0 1 1 1 1 0 0 1 1 1 0 1 1 1 0]


In [57]:
# save confusion matrix and slice into four pieces
confusion = metrics.confusion_matrix(y_test, y_pred_class)
TP = confusion[1, 1]
TN = confusion[0, 0]
FP = confusion[0, 1]
FN = confusion[1, 0]

### Métriques calculées à partir d'une matrice de confusion

Précision de la classification : Globalement, combien de fois le classificateur est-il correct ?

In [58]:
print((TP + TN) / float(TP + TN + FP + FN))
print(metrics.accuracy_score(y_test, y_pred_class))

0.904
0.904


Erreur de classification : Globalement, combien de fois le classificateur est-il incorrect ?

Également connu sous le nom de "taux de classification erronée".

In [59]:
print((FP + FN) / float(TP + TN + FP + FN))
print(1 - metrics.accuracy_score(y_test, y_pred_class))

0.096
0.09599999999999997


Sensibilité : Lorsque la valeur réelle est positive, combien de fois la prédiction est-elle correcte ?

Dans quelle mesure le classificateur est-il "sensible" à la détection d'instances positives ?
Également connu sous le nom de "taux de vrais positifs" ou "rappel".

In [60]:
print(TP / float(TP + FN))
print(metrics.recall_score(y_test, y_pred_class))

0.9767441860465116
0.9767441860465116


Spécificité : Lorsque la valeur réelle est négative, combien de fois la prédiction est-elle correcte ?

Dans quelle mesure le classificateur est-il "spécifique" (ou "sélectif") pour prédire des instances positives ?

In [61]:
print(TN / float(TN + FP))

0.7435897435897436


Taux de faux positifs : Lorsque la valeur réelle est négative, combien de fois la prédiction est-elle incorrecte ?

In [62]:
print(FP / float(TN + FP))

0.2564102564102564


La précision : Lorsqu'une valeur positive est prédite, combien de fois la prédiction est-elle correcte ?

Quelle est la "précision" du classifieur lorsqu'il prédit des instances positives ?

In [63]:
print(TP / float(TP + FP))
print(metrics.precision_score(y_test, y_pred_class))

0.8936170212765957
0.8936170212765957


De nombreuses autres métriques peuvent être calculées : le score F1, le coefficient de corrélation de Matthews, etc.

Conclusion :

La matrice de confusion vous donne une image plus complète de la performance de votre classificateur.
Elle vous permet également de calculer diverses métriques de classification, et ces métriques peuvent guider votre sélection de modèle.
Sur quelles métriques devez-vous vous concentrer ?

Le choix de la métrique dépend de votre objectif commercial
Filtre anti-spam (la classe positive est "spam") : Optimisez la précision ou la spécificité car les faux négatifs (les spams vont dans la boîte de réception) sont plus acceptables que les faux positifs (les non-spams sont détectés par le filtre anti-spam).
Détecteur de transactions frauduleuses (la classe positive est "fraude") : Optimisez la sensibilité parce que les faux positifs (les transactions normales qui sont signalées comme pouvant être frauduleuses) sont plus acceptables que les faux négatifs (les transactions frauduleuses qui ne sont pas détectées).

1. Jour 1
    * Variables
        * [exercice1](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/1.%20variables/1.1%20helloworld.ipynb)
        * [exercice2](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/1.%20variables/1.2%20%C3%A9viter%20les%20errreurs%20de%20nommage.ipynb)
        * [mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/1.%20variables/1.3%20mini-project.ipynb#scrollTo=RPB2xCMdA6lV)
    * Strings
        * [exercice1](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/2.%20strings/2.1%20concat.ipynb)
        * [exercice2](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/2.%20strings/2.2%20string_methods.ipynb)
        * [mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/2.%20strings/2.3%20mini-project.ipynb)
    * Opérations
        * [exercice1](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/3.%20operations/3.1%20math.ipynb)
        * [exercice2](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/3.%20operations/3.2%20bool%C3%A9en.ipynb)
        * [mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour1/3.%20operations/3.3%20mini-project.ipynb)

2. Jour 2
    * Listes
        * [Définition](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.1%20Listes/2.1.1%20d%C3%A9finition%20liste.ipynb?hl=fr)
        * [Strings et listes](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.1%20Listes/2.1.2%20String%20as%20list%20of%20characters.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.1%20Listes/2.1.3%20mini-project.ipynb?hl=fr)
    * Fonctions
        * [Définition I](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.2%20Fonctions/2.2.1%20d%C3%A9finition%20fonctions.ipynb?hl=fr)
        * [Définition II](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.2%20Fonctions/2.2.2%20scope%20et%20fonctions%20imbriqu%C3%A9es.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.2%20Fonctions/2.2.3%20mini-project.ipynb?hl=fr) 
    * Librairies
        * [Pandas](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.3%20Librairies/2.3.1%20Pandas.ipynb?hl=fr)
        * [Matplotlib](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.3%20Librairies/2.3.2%20Matplotlib.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour2/2.3%20Librairies/2.3.3%20mini-project.ipynb?hl=fr) 
3. Jour 3
    * Introduction à la NLP
        * [Charger des un corpus](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.1%20what%20is%20nlp/3.1.1%20Accessing%20Text.ipynb?hl=fr)
        * [Traitement de texte dans Pandas](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.1%20what%20is%20nlp/3.1.2%20Working%20with%20text%20data%20in%20pandas.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.1%20what%20is%20nlp/3.1.3%20mini-project.ipynb?hl=fr)
    * Segmentation
        * [Segmentation de tokens](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.2%20Segmentation/3.2.1%20Token%20segmentation.ipynb?hl=fr)
        * [Segmentation de phrase](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.2%20Segmentation/3.2.2%20Sentence%20segmentation.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.2%20Segmentation/3.2.3%20mini-project.ipynb?hl=fr)
    * Nettoyage de texte
        * [Stopwords](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.3%20text%20cleaning.ipynb/3.3.1%20stopwords.ipynb?hl=fr)
        * [Normalisation](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.3%20text%20cleaning.ipynb/3.3.2%20Normalizing%20Text.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour3/3.3%20text%20cleaning.ipynb/3.3.3%20mini-project.ipynb?hl=fr)
4. Jour 4
    * Apprentissage supervisé
        * [Régression linéaire](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.1%20supervised%20learning/4.3.1%20linear%20regression.ipynb?hl=fr)
        * [Evaluation](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.1%20supervised%20learning/4.3.2%20evaluale.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.1%20supervised%20learning/4.3.3%20mini-project.ipynb?hl=fr)
    * Pré-traitement de texte
        * [Featurization de textes](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.2%20text%20preprocessing/4.2.1%20text%20featurization.ipynb?hl=fr)
        * [Featurization de labels](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.2%20text%20preprocessing/4.2.2%20label%20featurization.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.2%20text%20preprocessing/4.2.3%20mini-project.ipynb?hl=fr)
    * Classification de texte
        * [EDA](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.3%20text%20classification/4.1.1%20EDA.ipynb?hl=fr)
        * [Apprentissage supervisé textuel](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.3%20text%20classification/4.1.1%20EDA.ipynb?hl=fr)
        * [Mini-projet](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour4/4.3%20text%20classification/4.1.3%20mini-project.ipynb?hl=fr)
5. Jour 5
    * [Projet final](https://colab.research.google.com/github/Hotsnown/seminaire-bordeaux-2022/blob/master/exercices/jour5/final-project.ipynb?hl=fr)