# MathAData - Module Statistiques - 1


# Accouchement : alerter en cas de risque pour la santé du foetus


!!! abstract But du TP  
Dans ce Notebook, nous allons construire un algorithme qui aide les soignants lors de l'accouchement. Pour la santé du nouveau-né, on doit déterminer si l'état d'un foetus est **normal** ou **alarmant**. Pour cela on analyse le rythme cardiaque du foetus.  
!!!


!!! tip Exécuter une cellule  
Pour commencer, cliquez sur la cellule de code ci-dessous puis appuyez sur le bouton <span style="display: inline-block; margin: auto 1rem; vertical-align: middle">![executer.png](attachment:executer.png)</span> ou les touches <span style="display: inline-block; margin: auto 1rem; vertical-align: middle">![majentr.png](attachment:majentr.png)</span>.  
Lorsque le code aura été executé, un nombre apparaîtra entre les crochets sur la gauche : <span style="display: inline-block; margin: auto 1rem; vertical-align: middle">![cellule_executee.png](attachment:cellule_executee.png)</span>  
!!!
!!! warning  SOS <details><summary>  
   Rien ne se passe ? Ou tu veux récupérer tes réponses précédentes ? Clique ici  </summary>   
    
Clique sur le bouton **deux petites flèches**<span style="display: inline-block; margin: auto 1rem; vertical-align: middle">![rerun_button.png](attachment:rerun_button.png)</span>sur la barre d'outils en haut du notebook.  
![rerun_instruction_fr.png](attachment:rerun_instruction_fr.png)
Clique ensuite sur le bouton rouge "Relancer et exécuter toutes les cellules"
</details>  
!!!


In [None]:
from utilitaires_foetus import *
from utilitaires_S_STATS_moyenne_histogramme import *


## A. Rythme cardiaque du foetus


!!! abstract Qu'est ce qu'un **enregistrement du rythme cardiaque** ?  
Un **enregistrement du rythme cardiaque** donne la fréquence cardiaque en fonction du temps, exprimé en nombre de battements de coeur par minute.  
![animation_placeholder.png](attachment:animation_placeholder.png)  
Sur l'image ci-dessus chaque point représente la fréquence cardiaque à un instant donné.  
!!!


In [None]:
animation_battement()

validation_animation_battement()

!!! tip Base de données  
Nous avons environ 400 enregisterments.  
**Exécutez la cellule suivante** pour afficher la base de donnée. Vous pouvez cliquer sur une ligne pour afficher l'enregistrement correspondant et vous déplacer avec les flèches haut et bas du clavier.  
!!!


In [None]:
affichage_banque()

validation_execution()

!!! question 1) Combien de cas ALARMANTS y a-t-il parmi les 10 premiers cas ?
 **Remplacez les `...`** dans la cellule suivante par votre réponse **puis exécutez**.  
!!!


In [None]:
nombre_ALARMANT = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_nombre()

!!! question 2) Combien d'enregistrements contient la base de données au total ?
 **Remplacez les `...`** dans la cellule suivante par votre réponse **puis exécutez**.  
!!!


In [None]:
nombre_total_cas = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_nombre_total()

## B. Point de départ


!!! tip Fonctionnement d'un algorithme  
Un algorithme reçoit une donnée, effectue des opérations, et donne une réponse.  
![algo_blackbox.png](attachment:algo_blackbox.png)  
!!!
!!! abstract Algorithme fainéant : Renvoyer toujours Normal.   
LucIA ne veut pas se fatiguer et propose un algorithme très simple **qui renvoie toujours Normal**.  
!!!


In [None]:
import utilitaires_common

def algorithme(d):
    return "Normal"

validation_execution_algo_fixe()

!!! question 3) Que répond l'algorithme fainéant pour ces trois cas ?
![frise_trois_images_scale.png](attachment:frise_trois_images_scale.png)  
**Remplacez les `...`** dans la cellule suivante par votre réponse  **puis exécutez**.  
!!!


In [None]:
Reponse_Image_A = ...
Reponse_Image_B = ...
Reponse_Image_C = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_faineant()

!!! info Le pourcentage d'erreur : un moyen d'évaluer votre algorithme  
Voici la formule donnant la proportion d'erreur :  
  
$$\text{erreur} = \frac{\text{Nombre de cas mal classés}} {\text{Nombre total de cas}} $$  
Un cas mal classé est un enregistrement pour lequel l'algorithme a donné une estimation différente de la vraie classe de l'enregistrement :  
$$\hat r \neq r.$$  

Plus le pourcentage d'erreur de votre algorithme est bas meilleure est votre solution.


Remarque : 
Une proportion peut s'écrire en pourcentage en multipliant par 100%.

Par exemple si l'algorithme fait 4 erreurs sur 20 cas : 
$\text{erreur} = \frac{4}{20}=0,2=0,2\times100\% = 20\%$


!!!


## C. Le taux d'erreur


In [None]:
affichage_banque(showPredictions=True)

validation_execution_calcul_score()

!!! question 4) Quel est le pourcentage d'erreur de l'algorithme sur les 10 premiers cas ?
Calculez le pourcentage d'erreur de l'algorithme sur les 10 premiers cas.  
**Remplacez les `...`** dans la cellule suivante par votre réponse (uniquement le nombre sans le %) **puis exécutez**.  
!!!


In [None]:
erreur_10 = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_score_fixe()

!!! tip Taux d'erreur sur tous les cas  
**Exécutez la cellule suivante** pour calculer le pourcentage d'erreur sur l'ensemble des 400 enregistrements.  
!!!


In [None]:
calculer_score_etape_1()

## D. Les données numériques


!!! info Un enregistrement cardiaque pour un ordinateur ?  
Pour l'ordinateur, l'enregistrement cardiaque est une série de nombres. Nous avons 1 mesure par seconde c'est à dire que la $n$ième valeur correspond à la fréquence cardiaque  après $n$ secondes.  
Exécutez la cellule suivante pour afficher le tableau des valeurs de l'enregistrement ci-dessus.  
!!! 


In [None]:
affichage_tableau(d)
affichage_html(d)
validation_execution_affichage_tableau()

!!! question 5) Quelle est la fréquence cardiaque après 3 secondes ?
Regardez le tableau des valeurs de la fréquence cardiaque et indiquez dans la cellule suivante la valeur après 3 secondes.  
!!!


In [None]:
frequence = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_frequence()

!!! question 6) Quelles sont les différences entre un cas Normal et un cas ALARMANT ?
En regardant bien des enregistrements du rythme cardiaque, on voit que les foetus ayant un problème ont plus souvent des baisses de fréquence cardiaque ou des changements rapides.  
Exécutez la cellule suivante puis dites pour chaque enregistrement cardiaque quel cas est Normal et lequel est ALARMANT.  
!!!


In [None]:
exercice_classification()
validation_execution_exercice_classification()

In [None]:
# Exécutez cette cellule quand vous aurez terminé l'exercice
validation_exercice_classification()

## E. Calcul d'une caractéristique


!!! info Caractéristique d'un cas  
Pour diminuer notre erreur, notre algorithme doit maintenant utiliser l'enregistrement au lieu de répondre au hasard.  
![caracteristique.png](attachment:caracteristique.png)  
La caractéristique notée $x$ permet de résumer les données de l'enregistrement en une seule information.  
!!!


!!! info Mesurer les baisses de fréquence cardiaque  
Nous avons vu que les cas ALARMANTS ont plus de baisses de fréquence cardiaque. Nous allons mesurer ça avec une caractéristique : le pourcentage des points avec une fréquence cardiaque inférieure à 100, c'est à dire  
  
$$ Caractéristique\ x = \frac{Nombre\ de\ secondes\ avec\ une\ fréquence\ cardiaque\ <\ 100}{temps\ total} \times 100 \%$$  
  
**Exécutez la cellule suivante** pour voir un exemple.  
!!!


In [None]:
affichage_10_frequences()

validation_execution_affichage_10_frequences()

!!! question 7) Quelle serait la caractéristique $x$ pour cette série de 10 valeurs ?
Regardez le tableau et indiquez dans la cellule suivante la caractéristique que vous avez calculé.  
!!!


In [None]:
x = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_caracteristique()

## F. Classificateur


!!! info Classification  
La classification est la dernière étape de l'algorithme. On répond Normal ou ALARMANT en fonction de la caractéristique $x$.  
![classification.png](attachment:classification.png)  
**On compare $x$ à un seuil $t$** à définir : $\hat{r} = \left\{ \begin{array}{ll} Normal & \mbox{si $x \leq t$} \\ ALARMANT & \mbox{si $x > t$} \end{array} \right.$ (ou l'inverse selon les cas).  
!!!


In [None]:
affichage_banque(carac=1)
exercice_droite_carac()

validation_execution_affichage_classif()

!!! question 8) Placer les 10 premiers cas sur une droite
Cliquez sur la droite pour placer les cas avec leur caractéristique en abscisse. Vous pourrez éxécuter la cellule suivante quand vous aurez placé correctement les 10 premiers cas (dans l'ordre).  
!!!


In [None]:
validation_exercice_droite_carac()

!!! question 9) La caractéristique est-elle plus élevée pour les cas Normaux ou pour les cas ALARMANTS ?
Regardez les points sur la droite et indiquez dans la cellule suivante quelle classe (Normal ou ALARMANT) a souvent une plus petite caractéristique que l'autre et inversement.  
!!!


In [None]:
r_petite_caracteristique = ...
r_grande_caracteristique = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_ordre_caracteristique()

!!! question 10) Choisissez un seuil $t$.
Regardez à nouveau la droite et choisissez une valeur dite  **seuil** $t$ pour séparer les cas Normaux et les cas ALARMANTS.  
!!!


In [None]:
# Remplacez les ... avec la valeur que vous avez choisi
t = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_seuil()

!!! tip Fonction finale  
À partir de vos deux réponses précédentes, on peut coder la fonction `classification` :  
!!!


In [None]:
# Fonction répondant au problème en fonction de la caractéristique x de la donnée que l'on doit classer
def classification(x, t):
    # Comparaison de la caractéristique au seuil t
    if x <= t:
        return r_petite_caracteristique
    else:
        return r_grande_caracteristique
    
validation_execution_classif()

!!! abstract Notre algorithme est complet !  
Avec les quelques étapes précédentes, nous pouvons construire un algorithme complet :  
![full_algo.png](attachment:full_algo.png)  
En effet, nous sommes capable de calculer une caractéristique à partir de l'enregistrement, puis décider si le cas représente un cas Normal ou un cas ALARMANT en regardant cette caractéristique.
!!!


## G. Calcul de l'erreur d'entraînement pour ce paramètre


!!! tip Exécutez la cellule suivante  
Exécutez la cellule suivante pour réafficher les valeurs de la caractéristique pour les enregistrements de la base d'entraînement.  
!!!


In [None]:
affichage_banque(carac=1)
affichage_seuil()
validation_execution_affichage_score()

!!! question 11) Quel est votre pourcentage d'erreur sur les 10 premiers cas ?
Avec le seuil que tu as choisi, combien d'erreurs l'algorithme a-t-il fait sur les 10 premiers cas ? (voir tableau ci-dessus). En déduire le pourcentage d'erreur à compléter dans la cellule suivante.  
!!!


In [None]:
erreur_10 = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_score_seuil()

!!! tip Calculez votre erreur sur tout l'ensemble d'entraînement  
Exécutez la cellule suivante pour calculer votre pourcentage d'erreur avec la caractéristique et le seuil que vous avez choisi  
!!!


In [None]:
calculer_score_carac()

!!! abstract Améliorations  
Nous allons voir dans les prochaines étapes les différentes possibilités pour diminuer votre pourcentage d'erreur.  
!!!


## H. Analyse statistique pour optimiser le seuil $t$


!!! info Histogramme et répartition des valeurs de la caractéristique  
Pour trouver le meilleur seuil $t$, on peut analyser les valeurs de la caractéristique $x$ pour les cas Normaux et les cas ALARMANTS.  
**Exécutez la cellule suivante** pour visualiser la construction de cet histogramme.  
!!!


In [None]:
animation_histogramme()

validation_execution_animation_histogramme()

!!! tip Histogramme complet  
**Exécutez la cellule suivante** pour afficher l'histogramme complet en grand.  
L'histogramme indique le nombre de cas par classe pour chaque valeur de la caractéristique.  
!!!


In [None]:
afficher_histogramme()

validation_execution_afficher_histogramme()

!!! question 12) Quel histogramme correspond à quelle classe ?
Regardez les deux histogrammes et indiquez dans la cellule suivante lequel correspond à la classe Normal et lequel correspond à la classe ALARMANT.  
!!!


In [None]:
r_histogramme_orange = ...
r_histogramme_bleu = ...

validation_question_hist_1()

!!! question 13) Lecture des histogrammes
Combien y-a-t-il de cas Normaux qui ont une caractéristique entre 8 et 10 ?  
Et pour les cas ALARMANTS ?  
!!!


In [None]:
# Remplacez les ... par la valeur de votre réponse

nombre_Normal = ...

nombre_ALARMANT = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_hist_2()

!!! question 14) Histogrammes et erreur
Combien y-a-t-il de cas Normaux dont la caractéristique est inférieure strictement à 6 ?  
Et pour les cas ALARMANTS ?  
!!!


In [None]:
# Remplacez les ... par la valeur de votre réponse

nombre_Normal_inf_6 = ...

nombre_ALARMANT_inf_6 = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_hist_3()

!!! abstract Choix du seuil avec les histogrammes  
Grâce à l'histogramme, on peut choisir un seuil $t$ qui sépare les valeurs de $x$ des cas Normaux et des cas ALARMANTS.  
**Exécutez la cellule suivante** pour réafficher l'histogramme.  
!!!


In [None]:
afficher_histogramme(legend=True)

!!! question 15) Choisissez un seuil $t$.
Regardez l'histogramme et choisissez le meilleur seuil $t$ pour classer les cas Normaux et les cas ALARMANTS.  
Remplacer les `...` dans la cellule suivante avec votre réponse.  
!!!


In [None]:
t = ...

# NE PAS TOUCHER APRES CETTE LIGNE
validation_question_hist_seuil()

!!! tip Calculez votre nouvelle erreur  
**Exécutez la cellule ci-dessous** pour calculer votre nouveau taux d'erreur, cette fois avec la valeur de $t$ optimale  
!!!


In [None]:
calculer_score_hist_seuil()

## I. Amélioration de la caractéristique : faites mieux !


!!! abstract Comment faire mieux ?  
En optimisant le seuil, vous avez pu obtenir l'erreur la plus basse possible **en utilisant comme caractéristique celle que nous vous avons proposé.**  
Le seul moyen pour réduire encore le taux d'erreur est maintenant de trouver une meilleure caractéristique !  
!!!


### Intervale de fréquence cardiaque



!!! info Ajouter une autre valeur $v_{max}$  
En gardant la même stratégie, on peut changer la valeur $v_{min}$ minimum et ajouter une valeur $v_{max}$ maximum. La caractéristique est alors le pourcentage de valeurs au dessus de $v_{max}$ ou en dessous de $v_{min}$.  
!!!


!!! question 16) Choisissez votre intervale $[v_{min}, v_{max}]$
**Exécutez la cellule suivante** puis choisissez les valeurs $v_{min}$ et $v_{max}$.  
!!!  
!!! info Conseil  
N'oubliez pas que la caractéristique doit être la plus différente possible entre les cas Normaux et les cas ALARMANTS. Regardez les fréquences cardiaques qui sont atteintes presque uniquement par les cas ALARMANTS.  
!!!


In [None]:
afficher_customisation()

validation_execution_afficher_customisation()

!!! question 17) Choisissez les paramètres de classification
1. À partir des histogrammes, indiquez dans la cellule suivante quelle classe (Normal ou ALARMANT) a souvent une plus petite caractéristique que l'autre et inversement.  
2. À partir des histogrammes, choisissez un seuil $t$ pour séparer les cas Normaux et les cas ALARMANTS. Essayez d'obtenir l'erreur la plus basse possible !  
!!!


In [None]:
# Normal ou Alarmant ? 
r_petite_caracteristique = ...

r_grande_caracteristique = ...

# Choisis une valeur de seuil 
t = ...

# NE PAS TOUCHER APRES CETTE LIGNE
calculer_score_custom()

!!! abstract Fin du Notebook  
Dans ce notebook, vous avez :  
  
- Fait des opérations numériques sur des enregistrements cardiques.  
- Définit des caractéristiques pour passer de l'enregistrement à un seul nombre . 
- Fait une classification par seuil pour utiliser cette caractéristique afin de répondre à la question. 
- Optimisé le seuil $t$ pour minimiser votre erreur avec chaque caractéristique testée.
  
S'il vous reste du temps, vous pouvez continuer à tester des caractéristiques en répétant les étapes précédentes à partir de la définition de la fonction caractéristique.  
!!!


# I. Bravo tu as découvert la classification avec une caractéristique. L'activité est terminée. Mais peut-on faire mieux ? 
### Dans la suite de l'activité nous te proposons d'essayer de coder des caractéristiques ou d'inventer la tienne.



!!! bug  Précisions techniques (lecture facultative) <details><summary>  
  Pour information la base de données est légérement modifiée pour simplifier les fonctions utilisées. Clique ici pour en savoir plus.   </summary>   
    
Les données sont souvent lacunaires : cela signifie qu'il manque souvent des valeurs. Cela est du à plusieurs facteurs :  un appareil de mesure peut ne plus être alimenté en électricité ou simplement la mesure a été faite sur un temps plus court que prévu.
    
Dans la suite du notebook nous avons filtré pour ne garder que les données complètes et éviter d'utiliser des fonctions compliquées. C'est pourquoi la taille de la base de données peut varier. 
    
Concrètement dans les données il y des valeurs NaN ("Not a Number") et nous les enlevons avant que tu y appliques ta fonction.     
    
    [En savoir plus avec Wikipedia](https://fr.wikipedia.org/wiki/NaN)
    
</details>  
!!!
## L. L'étendue comme caractéristique


!!! question 18) L'étendue comme caractéristique
Complétez directement la fonction `caracteristique` pour que l'étendue d'un enregistrement stocké dans d soit calculée. La fonction doit renvoyer une seule valeur.  
!!!


In [None]:
def caracteristique(d):
    
    # Exemple pour utiliser l'étendue comme caractéristique.
    # Complètez le code en remplaçant les ... et en utilisant les fonction min et max
    
    minimum = min(d)
    maximum = ...
    etendue = ...
    
    
    return etendue



# NE PAS TOUCHER APRES CETTE LIGNE
import utilitaires_common
utilitaires_common.challenge.remplacer_d_train_sans_nan()
validation_caracteristique_etendue_et_affichage()

!!! question 19) Choisissez les paramètres de classification
1. À partir des histogrammes, indiquez dans la cellule suivante quelle classe (Normal ou ALARMANT) a souvent une plus petite caractéristique que l'autre et inversement.  
2. À partir des histogrammes, choisissez un seuil $t$ pour séparer les cas Normaux et les cas ALARMANTS. Essayez d'obtenir l'erreur la plus basse possible !  
!!!


In [None]:

r_petite_caracteristique = ...

r_grande_caracteristique = ...

t = ...

# NE PAS TOUCHER APRES CETTE LIGNE
calculer_score_code_etendue()

## J. Proposition libre


!!! question 20) Inventez votre propre caractéristique
Complétez directement la fonction `caracteristique` dans la cellule suivante avec votre idée. La fonction doit renvoyer une seule valeur.  
La suite peut être difficile si vous n'avez pas de connaissance en Python. Bravo d'être arrivé jusque là !   
!!!
!!! tip Exemple  
Vous pouvez essayer de coder une fonction  qui renvoie :   
-la moyenne des valeurs de l'enregistrement d.   
- ou l'écart type de la série des valeurs de l'enregistrement.  
- ou la somme des valeurs de l'enregistrement.  
!!!


In [None]:
def caracteristique(d):
    
    # Ajouter votre code ici. Votre fonction doit retourner seulement un nombre 
    
    
    
    return ...



# NE PAS TOUCHER APRES CETTE LIGNE
validation_caracteristique_libre_et_affichage()

!!! question 21) Choisissez les paramètres de classification
1. À partir des histogrammes, indiquez dans la cellule suivante quelle classe (Normal ou ALARMANT) a souvent une plus petite caractéristique que l'autre et inversement.  
2. À partir des histogrammes, choisissez un seuil $t$ pour séparer les cas Normaux et les cas ALARMANTS. Essayez d'obtenir l'erreur la plus basse possible !  
!!!


In [None]:
r_petite_caracteristique = ...
r_grande_caracteristique = ...

t = ...

# NE PAS TOUCHER APRES CETTE LIGNE
calculer_score_code_free()