# Notebook : Création d'une application Streamlit pour le suivi de l'épidémie de COVID-19

---
<img src="https://asset.brandfetch.io/idvDrMBg3m/idgDR62lX4.png" alt="Logo Data Rockstars" width="274" height="80">

### 🔒 Le contenu de ce document est confidentiel. 📝
_Le contenu de ce document est confidentiel et la copie ou la distribution est interdite._ 😶‍🌫️

📧 Pour toute question, veuillez nous contacter à [contact@datarockstars.ai](mailto:contact@datarockstars.ai)

---
# Le programme du notebook

**📖 Au programme**
- Data Visualisation
- Application Streamlit

**🎁 Les takeaways**
- Slides de cours
- Accès à la plateforme
- Notebooks
- Snippets penses bêtes de code que vous pouvez garder à vie

---

# Motivation
Dans un monde dominé par la technologie et les données, savoir créer des visualisations de données interactives est une compétence essentielle. Ce notebook est conçu pour initier les étudiants aux techniques de visualisation de données en utilisant Streamlit, une bibliothèque Python, et ngrok, un outil qui expose localement un port à Internet. L'objectif est de permettre aux étudiants de construire des applications web pour la présentation et l'analyse de données, et de partager facilement leurs travaux à travers le web. Ce sont des compétences clés pour quiconque souhaite travailler dans des domaines liés à la data science, à l'analyse de données, ou à toute autre discipline où la compréhension et la communication des informations de données sont cruciales.

**Conseil : N'hésitez pas à explorer au maximum les données et d'aller au-delà des questions formulées. La pratique est essentielle pour renforcer vos compétences en analyse de données.**

---

<div style="border:2px solid red; padding: 10px;">
    <p style="color: red;"><strong>⚠️ Soumettre votre challenge à la fin de chaque module ⚠️</strong></p>
    <ul>
        <li>💾 Avant de soumettre le lab, pensez à bien <strong> télécharger votre Jupyter notebook</strong> en cliquant sur <em>Fichier > Download.</em>.</li>
        <li>✏️ Seul le notebook <code>main.ipynb</code> sera sauvegardé et envoyé pour évaluation à vos professeurs. Si vous avez d'autres notebooks, ils ne seront <strong>pas comptabilisés. </strong></li>
        <li>🚫 Une fois que vous avez soumis votre travail, vous ne pourrez plus le modifier. Vous aurez cependant, la possibilité de faire une nouvelle tentative autant de fois que souhaité.</li>
    </ul>
    <p>Assurez-vous de vérifier vos fichiers avant de procéder !</p>
</div>

### Instruction

**Instruction 0 :** Prenez connaissance de ce qu'est Streamlit en consultant leur page officielle. Voici un [Cheat Sheet](https://cheat-sheet.streamlit.app/?ref=blog.streamlit.io) qui vous sera utile lors de ce TP.

De plus, avant de commencer, cliquez sur ce lien ci-dessous et téléchargez le dataset prévu pour le TP7 : https://drive.google.com/drive/folders/1p88KluT944ZPhFzsYctqK1dW6tUNn0Gr?usp=sharing.

Chargez-le à l'environnement de travail lié à ce Notebook pour continuer.

### Question 1

In [1]:
!pip install lxml streamlit pyngrok

Collecting lxml
  Using cached lxml-5.4.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (3.5 kB)
Collecting streamlit
  Downloading streamlit-1.45.0-py3-none-any.whl.metadata (8.9 kB)
Collecting pyngrok
  Using cached pyngrok-7.2.5-py3-none-any.whl.metadata (8.9 kB)
Collecting tenacity<10,>=8.1.0 (from streamlit)
  Using cached tenacity-9.1.2-py3-none-any.whl.metadata (1.2 kB)
Collecting toml<2,>=0.10.1 (from streamlit)
  Using cached toml-0.10.2-py2.py3-none-any.whl.metadata (7.1 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Using cached watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Using cached pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Using cached lxml-5.4.0-cp311-cp311-manylinux_2_28_x86_64.whl (4.9 MB)
Downloading streamlit-1.45.0-py3-none-any.whl (9.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m23.7 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h

❓ **Question 1 :** Importez les bibliothèques nécessaires pour notre projet :
- streamlit
- numpy
- pandas
- matplotlib
- seaborn

💭 **Remarque :** Streamlit est un outil pour créer rapidement des applications web pour vos projets de données.

In [2]:
# Votre code ici

import streamlit as st
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

<details>
  <summary>
    Indice 🔑
  </summary>
  Utilisez la commande `import` pour importer streamlit.
</details>


### Instructions

❓ **Instruction 2 :** Inscrivez-vous au site Internet ngrok et récupérez votre jeton d'authentification en cliquant sur [ce lien](https://dashboard.ngrok.com/get-started/your-authtoken). Le jeton se trouve sur la photo ci-dessous (masqué par un rectangle blanc).

💭 **Remarque :** Ngrok est un outil qui permet de créer un tunnel sécurisé vers Internet. Cela signifie que vous pouvez exposer un serveur web, une API, ou une autre application que vous exécutez localement (ici, sur une des machines de cette plateforme d'enseignement), à Internet, de manière sécurisée. C'est très utile pour partager votre travail avec d'autres personnes, faire des démonstrations en direct, ou tester des webhooks, sans avoir à déployer votre application sur un serveur public.

![Emplacement du jeton](img/image-1.png)

In [3]:
TOKEN_NGROK = "2wP8pm54zJVhMq0Z0vODFS8y66Z_5KaJvNP7NpyduoxFomhyc"

❓ **Instruction 3 :** Exécutez la cellule suivante pour démarrer ngrok et exposer l'application Streamlit à une URL publique.

In [4]:
from pyngrok import ngrok
ngrok.set_auth_token("2wP8pm54zJVhMq0Z0vODFS8y66Z_5KaJvNP7NpyduoxFomhyc")
# puis par exemple
public_url = ngrok.connect(8501)
print(public_url)

NgrokTunnel: "https://3f6c-34-65-247-95.ngrok-free.app" -> "http://localhost:8501"


In [33]:
from pyngrok import ngrok
import os

ngrok.set_auth_token("2wP8pm54zJVhMq0Z0vODFS8y66Z_5KaJvNP7NpyduoxFomhyc")

# Définir le port pour Streamlit
port = 8501

# Configurer et démarrer ngrok
public_url = ngrok.connect(port).public_url
print(f"Streamlit sera accessible publiquement en cliquant sur ce lien : {public_url}")

Streamlit sera accessible publiquement en cliquant sur ce lien : https://8880-34-65-247-95.ngrok-free.app


Pour information, à ce stade, vous avez configuré votre tunnel. C'est-à-dire que lorsque vous démarrerez votre application Streamlit, vous n'aurez plus qu'à cliquer sur le lien ci-dessus pour y accéder. A présent, lançons une application d'exemple : EDA_BASKETBALL.

In [None]:
print("Rappel : Cliquez ici pour accéder à l'application Streamlit :", public_url)
print("P.S : Appuyez sur l'icône 'Stop' plus haut pour arrêter l'exécution de cette cellule qui ne s'arrêtera pas tant que vous ne lui aurez pas ordonné.")
os.system(f"streamlit run data/eda_basketball.py --server.port {port}")

Rappel : Cliquez ici pour accéder à l'application Streamlit : https://8880-34-65-247-95.ngrok-free.app
P.S : Appuyez sur l'icône 'Stop' plus haut pour arrêter l'exécution de cette cellule qui ne s'arrêtera pas tant que vous ne lui aurez pas ordonné.

Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.


  You can now view your Streamlit app in your browser.

  Local URL: http://localhost:8501
  Network URL: http://10.56.0.57:8501
  External URL: http://34.65.247.95:8501



2025-05-02 10:47:47.077 Serialization of dataframe to Arrow table was unsuccessful. Applying automatic fixes for column types to make the dataframe Arrow-compatible.
Traceback (most recent call last):
  File "/opt/conda/lib/python3.11/site-packages/streamlit/dataframe_util.py", line 822, in convert_pandas_df_to_arrow_bytes
    table = pa.Table.from_pandas(df)
            ^^^^^^^^^^^^^^^^^^^^^^^^
  File "pyarrow/table.pxi", line 3874, in pyarrow.lib.Table.from_pandas
  File "/opt/conda/lib/python3.11/site-packages/pyarrow/pandas_compat.py", line 611, in dataframe_to_arrays
    arrays = [convert_column(c, f)
             ^^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.11/site-packages/pyarrow/pandas_compat.py", line 611, in <listcomp>
    arrays = [convert_column(c, f)
              ^^^^^^^^^^^^^^^^^^^^
  File "/opt/conda/lib/python3.11/site-packages/pyarrow/pandas_compat.py", line 598, in convert_column
    raise e
  File "/opt/conda/lib/python3.11/site-packages/pyarrow/pandas_comp

Cliquez sur le lien ci-dessus pour voir le contenu de l'application. Vous devriez obtenir l'écran ci-dessous : explorez un peu l'application pour voir l'étendu des possibilités offerte par la librairie Streamlit.

![Emplacement du jeton](img/app-view.png)

**P.S : Nous n'attendons pas de vous que vous sachiez configurer une machine virtuelle ni que vous créiez des tunnels à l'aide de ngrok ! Ainsi, prenez ce qui vient plus haut comme de la culture générale. De plus, vous n'aurez pas besoin de faire tout ça sur votre ordinateur pour lancer une application Streamlit : `streamlit run app.py` sera amplement suffisant.**

### Instruction

❓ **Instruction 4 :** Prenez connaissance du contenu du Dataset COVID fourni, téléchargé et chargé sur ce Notebook lors de l'étape 0. Appropriez-le vous un maximum en lisant le fichier README.md, en consultant les colonnes disponibles pour comprendre l'utilité de chacune des feuilles de calcul.

### Question

❓ **Question 5 :** En appliquant les recommandations des précédents travaux pratiques, chargez et nettoyez le dataset COVID téléchargé lors de l'étape 0 en détaillant les étapes du pré-traitement (actions mises en oeuvre et objectifs).

In [None]:
# Votre code ici

❓ **Question 6 :** Créez différents graphiques permettant d'extraire et de visualiser du savoir sur l'épidémie de COVID-19 à l'aide de Matplotlib ou Seaborn. Pour ce faire, vous pouvez choisir de tracer au moins 3 graphiques parmi ceux proposés ci-dessous.

A l'aide la feuille de calcul `country_wise_latest.csv`:
- Histogramme des cas confirmés par région de l'OMS.
- Graphique en barres des taux de mortalité et de guérison par pays.
- Courbes de progression des cas et des guérisons pour les pays suivants : France, Chine et un pays de votre choix.

A l'aide la feuille de calcul `covid_19_clean_complete.csv`:
- Cartographie de l'évolution des cas confirmés et des décès dans le temps.
- Courbes d'évolution temporelle des cas pour des pays spécifiques.
- Heatmap de l'accumulation des cas à l'échelle mondiale.

A l'aide de la feuille de calcul `day_wise.csv`:
- Courbe temporelle montrant l'évolution quotidienne des cas, des guérisons et des décès.
- Diagramme de l'évolution du taux de mortalité journalier.

A l'aide de la feuille de calcul `full_grouped.csv`:
- Comparaison de l'évolution de la pandémie dans différentes régions de l'OMS.
- Graphiques en barres empilées montrant la répartition quotidienne des nouveaux cas, des décès, et des guérisons par pays.

A l'aide de la feuille de calcul `usa_county_wise.csv`:
- Cartographie des cas et des décès par comté aux USA.
- Analyse de l'évolution des cas dans les principaux comtés ou états.

A l'aide de la feuille de calcul `worldometer_data.csv`:
- Diagramme circulaire de la répartition des cas actifs par continent.
- Graphiques en barres montrant la densité de tests par million d'habitants par pays.

In [None]:
# Votre code ici

### Question

❓ **Question 7 :** En vous inspirant du contenu du code Python `eda_basketball.py` (contenu dans le dossier `data`), complétez le code Python ci-dessous pour visualiser des charts sur une page web en vous basant sur le Dataset COVID. Le code Python sera nommé app.py et vous y ajouterez les éléments suivants :

- Les graphiques créés précédemment accompagnés de textes descriptifs et de titres.
- Widgets Streamlit, tels que des sélecteurs de dates, des sliders, ou des boutons radio, pour permettre aux utilisateurs de filtrer les données visualisées selon différents critères (par exemple, par date, pays, ou type de statistiques)
- Des commentaires et des textes explicatifs pour guider les utilisateurs sur la manière d'interagir avec les différentes fonctionnalités.
- Une barre latérale (si nécessaire) dont vous définirez une utilité.
- Une ou plusieurs images.
- Personnalisation des couleurs de polices, de fond, etc...

💭 **Remarques :**

- Streamlit utilise Pandas pour manipuler les données et pour afficher des graphiques.
- L'objectif est de partir d'une application n'affichant rien, de l'enrichir au fur et à mesure jusqu'à obtenir une page web pleine de visualisations et pratique à utiliser.
- Vous trouverez la documentation de Streamlit en cliquant sur [ce lien](https://docs.streamlit.io/library/get-started).

In [None]:
%%writefile app.py

import streamlit as st
import pandas as pd
import numpy as np

def main():
    st.write("""# Simple streamlit app""")
    ser1 = pd.Series(list('abcedfghijklmnopqrstuvwxyz'))
    ser2 = pd.Series(np.arange(26))
    df = pd.DataFrame({"alpha":ser1, "num":ser2}).reset_index()
    st.dataframe(df)
    st.write("""### Line Chart on Alpha Column """)
    st.line_chart(df.alpha)
    st.write("""### Line Chart on Num Column """)
    st.line_chart(df.num)

    # Votre code ici

if __name__ == '__main__':
    main()

Pour tester votre application, lancez la cellule suivante (il est possible que vous deviez redémarrer le noyau pour que cela fonctionne) :

In [None]:
print("Rappel : Cliquez ici pour accéder à l'application Streamlit :", public_url)
print("P.S : Appuyez sur l'icône 'Stop' plus haut pour arrêter l'exécution de cette cellule qui ne s'arrêtera pas tant que vous ne lui aurez pas ordonné.")
os.system(f"streamlit run app.py --server.port {port}")