**Disclaimer**: Ce projet est inspiré par la publication "Generalized logistic growth modeling of the COVID-19
pandemic in Asia" dans la revue "Infectious Disease Modelling" 5 (2020) p 502 à 509 par E. Aviv-Sharon, A. Aharoni.
Ce projet n'a pas été écrit par un épidémiologiste et ne présente qu'une étude **inspirée** par le papier ci-dessus. Dans ce papier, l'étude est plus complexe et rigoureuse. Ce projet n'a que vocation à vous faire travailler le langage python et à vous sensibiliser à certains biais possibles. Il n'a pas vocation à interprétation autres que celles proposées et certainement pas à proposer quelques analyses médicales que ce soient.

# Analyse d'une épidémie

## Lecture des données épidémiques de la Chine

Lire le fichier china.csv qui contient dans sa deuxième colonne le nombre de cas de covid journalier du 20/01/2020 au 24/02/2020, soit 35 jours au début de l'épidémie. La première colonne contient le nombre de jours comptés à partir du 20/01/2020.

## calcul du nombre de cas cumulés 

1. Vous devez tracer le nombre cumulé de cas  en fonction du nombre de jours écoulés à partir du 20/01/2020. Pour cela, vous pouvez créer une fonction cumulator qui à partir d'une liste (ou un tableau) renvoie une liste (ou un tableau) contenant les données cumulées.

2. Tracer avec des croix rouges l'évolution du nombre de cas cumulés en fonction du nombre de jours.

## modèle logistique généralisé (MLG)

Un modèle pouvant possiblement convenir pour ajuster ces données est le modèle logistique généralisé selon lequel

$$ Yc(t)=\dfrac{K}{(1+\mathrm{exp}(-r(t-t_m)))^{1/\alpha}} $$

Dans cette équation $Yc$ est le nombre de cas cumulés et $t$ le temps en jour. Les paramètres de cet ajustement sont $K$, $r$, $t_m$ et $\alpha$. 

1. Ecrire une fonction Y qui connaissant t ainsi que les paramètres d'ajustement renvoie la valeur de $Yc$

2. Pour mieux comprendre le rôle de ces paramètres, vous allez tracer pour 150 jours sur une même figure l'influence de chacun des paramètres les autres étant constants. Cette figure sera donc composée de 4 sous-figures. Vous prendrez comme valeurs de référence : $K=2000$, $r=0.25$,$t_m=20$ et $\alpha=1$

Vous ferez varier les valeurs des variables conformément au tableau ci-dessous :

| | min | max | nombre de valeurs|
| --- | --- | --- | --- |
| $K$ | 1000 | 5000 | 5 |
| $r$ | 0.1 | 0.5 | 5 |
| $t_m$ | 10 | 50 | 5 |
| $\alpha$ | 0.8 | 1.2 | 5 |


3. Trouver les paramètres d'ajustement par un MLG correspondant à l'évolution du nombre de cas cumulés en Chine. Il faut ajouter des contraintes sur les limites (bounds en anglais) pour les empécher d'être négatives. Il faut également initialiser le processus de recherche des paramètres par des valeurs bien choisies. Vous pouvez faire ce chois en comparant les 4 courbes que vous venez de tracer avec la courbe "expérimentale" pour la Chine.

4. Vous pourrez à partir de la valeur de $r$, calculer le fameux $R_0$ donné par les médias qui correspond au nombre de cas secondaires engendrés par une personne contaminée. Il est donné par la formule $R_0=\mathrm{exp}(rT)$ où $T$ où T est le temps moyen entre le début des symptômes pour le premier infecté et celui pour les seconds infectés. Dans l'étude concerné, $T=5.18$

5. Tracer sur le même graphique, l'évolution expérimentale (croix rouges) sur 35 jours et l'évolution ajustée sur 150 jours.

## Détermination du seuil à partir duquel on dépasse 99 % du nombre d'infectés potentiels

Si on considère $K$ comme la valeur maximale du nombre de personnes infectées au total. On voudrait savoir quand on atteint un cumul du nombre de cas égal à 0.99$K$.

## Détermination de la date de fin d'épidémie à partir de l'ajustement

Il a été défini que l'on peut considérer que l'épidémie est terminée quand aucun nouveau cas n'apparît durant plus de 3 mois consécutifs (soit environ 90 jours).

1. A partir de la courbe ajuster, contruire en diagramme barre l'évolution du nombre de cas journalier sur 150 jours.

2. En déduire la date théorique de fin d'épidémie. (même si votre calcul est approximatif, nous voulons un ordre d'idée ... nous faisons ici du python pas de l'épidémiologie de haut niveau)

## De l'influence des données sur les résultats d'un ajustement à vocation prédictive

Le fichier dataWonderland.csv contient des données pour un pays merveilleux appelé Wonderland. Il est au même format que celui de la Chine mais contient l'évolution sur 100 jours. Le but de cette partie est de s'intéresser à la robustesse de l'ajustement que l'on effectue et notamment de l'influence du nombre de jours d'épidémie servant à l'ajustement. Nous appellerons ce nombre de jours d'étude $n_j$

1. Lire les données et tracer le nombre de cas cumulés en fonction du nombre de jours avec des étoiles rouges.


2. Dans un premier temps, effectuer un ajustement de Y en ne considérant que ses 50 premières valeurs ($n_j=50$)
3. Tracer la comparaison "expérience"-modèle


4. En vous inspirant de la question précédente, tracer sur un même graphique les courbes d'ajustement pour des valeurs de $n_j$ allant de 20 à 60 avec un pas de 10. Vous veillerez à légender correctement votre figure afin de pouvoir l'analyser correctement.

5. Clairement, le nombre de jours qui servent à l'ajustement a un rôle important. Dans le cas du Wonderland, estimer la valeur de $n_j$ à partir de laquelle le moèle peut être considéré fiable. On pourra par exemple considérer que le modèle est fiable quand pour 2 valeurs successives de $n_j$ l'écart relatif entre les 2 valeurs successives de $K$ correspondantes est inférieur à 5 %. AIDE : Pour que cela marche, il faut ajouter l'option maxfev=10000 à l'appel de curve_fit.

6. tracer alors la courbe "expérimentale" et son ajustement.