# Extraction des données de pandémies - Partie 1

Ce notebook réalise la configuration initiale et l'extraction des données brutes depuis les fichiers CSV sources pour les pandémies COVID-19 et MPOX.

## 1. Configuration initiale

Importation des bibliothèques nécessaires et définition des chemins vers les fichiers sources.

In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuration de la visualisation
%matplotlib inline
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Définition des chemins vers les fichiers sources
chemin_base = Path().resolve().parent.parent if 'notebooks' in str(Path().resolve()) else Path().resolve().parent
dossier_donnees_brutes = chemin_base / "donnees" / "brutes"
dossier_donnees_intermediaires = chemin_base / "donnees" / "intermediaires"

# Affichage des chemins
print(f"Dossier des données brutes: {dossier_donnees_brutes}")
print(f"Dossier des données intermédiaires: {dossier_donnees_intermediaires}")

Dossier des données brutes: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\brutes
Dossier des données intermédiaires: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\intermediaires


## 2. Extraction des données

Chargement des fichiers CSV sources.

In [3]:
# Définition des chemins vers les fichiers sources
fichier_covid19 = dossier_donnees_brutes / "covid_19_clean_complete.csv"
fichier_mpox = dossier_donnees_brutes / "owid-monkeypox-data.csv"
fichier_worldometer = dossier_donnees_brutes / "worldometer_coronavirus_daily_data.csv"

# Vérification de l'existence des fichiers
fichiers = {
    "covid19": fichier_covid19,
    "mpox": fichier_mpox,
    "worldometer": fichier_worldometer
}

for nom, chemin in fichiers.items():
    if chemin.exists():
        print(f"Le fichier {nom} existe: {chemin}")
    else:
        print(f"ATTENTION: Le fichier {nom} n'existe pas: {chemin}")

Le fichier covid19 existe: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\brutes\covid_19_clean_complete.csv
Le fichier mpox existe: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\brutes\owid-monkeypox-data.csv
Le fichier worldometer existe: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\brutes\worldometer_coronavirus_daily_data.csv


In [4]:
# Chargement des données
print("Extraction des données en cours...")

donnees = {}

try:
    # Chargement des données COVID-19
    if fichier_covid19.exists():
        donnees["covid19"] = pd.read_csv(fichier_covid19)
        print(f"Données COVID-19 extraites: {donnees['covid19'].shape[0]} lignes, {donnees['covid19'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données COVID-19: fichier non trouvé")
    
    # Chargement des données MPOX
    if fichier_mpox.exists():
        donnees["mpox"] = pd.read_csv(fichier_mpox)
        print(f"Données MPOX extraites: {donnees['mpox'].shape[0]} lignes, {donnees['mpox'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données MPOX: fichier non trouvé")
    
    # Chargement des données Worldometer
    if fichier_worldometer.exists():
        donnees["worldometer"] = pd.read_csv(fichier_worldometer)
        print(f"Données Worldometer extraites: {donnees['worldometer'].shape[0]} lignes, {donnees['worldometer'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données Worldometer: fichier non trouvé")
    
    print("\nExtraction des données terminée avec succès!")
except Exception as e:
    print(f"Erreur lors de l'extraction des données: {e}")

Extraction des données en cours...
Données COVID-19 extraites: 49068 lignes, 10 colonnes
Données MPOX extraites: 33666 lignes, 15 colonnes
Données Worldometer extraites: 184787 lignes, 7 colonnes

Extraction des données terminée avec succès!


## 3. Exploration des données extraites - COVID-19

Affichage des informations sur les données COVID-19 extraites pour mieux comprendre leur structure.

In [5]:
# Exploration des données COVID-19
if "covid19" in donnees:
    print("\nDonnées COVID-19:")
    print(f"Dimensions: {donnees['covid19'].shape[0]} lignes, {donnees['covid19'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['covid19'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['covid19'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['covid19'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['covid19'].describe())


Données COVID-19:
Dimensions: 49068 lignes, 10 colonnes
Colonnes:
- Province/State
- Country/Region
- Lat
- Long
- Date
- Confirmed
- Deaths
- Recovered
- Active
- WHO Region

Aperçu des données:


Unnamed: 0,Province/State,Country/Region,Lat,Long,Date,Confirmed,Deaths,Recovered,Active,WHO Region
0,,Afghanistan,33.93911,67.709953,2020-01-22,0,0,0,0,Eastern Mediterranean
1,,Albania,41.1533,20.1683,2020-01-22,0,0,0,0,Europe
2,,Algeria,28.0339,1.6596,2020-01-22,0,0,0,0,Africa
3,,Andorra,42.5063,1.5218,2020-01-22,0,0,0,0,Europe
4,,Angola,-11.2027,17.8739,2020-01-22,0,0,0,0,Africa



Valeurs manquantes:


Province/State    34404
dtype: int64


Statistiques descriptives:


Unnamed: 0,Lat,Long,Confirmed,Deaths,Recovered,Active
count,49068.0,49068.0,49068.0,49068.0,49068.0,49068.0
mean,21.43373,23.528236,16884.9,884.17916,7915.713,8085.012
std,24.95032,70.44274,127300.2,6313.584411,54800.92,76258.9
min,-51.7963,-135.0,0.0,0.0,0.0,-14.0
25%,7.873054,-15.3101,4.0,0.0,0.0,0.0
50%,23.6345,21.7453,168.0,2.0,29.0,26.0
75%,41.20438,80.771797,1518.25,30.0,666.0,606.0
max,71.7069,178.065,4290259.0,148011.0,1846641.0,2816444.0


## 4. Exploration des données extraites - MPOX

Affichage des informations sur les données MPOX extraites pour mieux comprendre leur structure.

In [6]:
# Exploration des données MPOX
if "mpox" in donnees:
    print("\nDonnées MPOX:")
    print(f"Dimensions: {donnees['mpox'].shape[0]} lignes, {donnees['mpox'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['mpox'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['mpox'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['mpox'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['mpox'].describe())


Données MPOX:
Dimensions: 33666 lignes, 15 colonnes
Colonnes:
- location
- iso_code
- date
- total_cases
- total_deaths
- new_cases
- new_deaths
- new_cases_smoothed
- new_deaths_smoothed
- new_cases_per_million
- total_cases_per_million
- new_cases_smoothed_per_million
- new_deaths_per_million
- total_deaths_per_million
- new_deaths_smoothed_per_million

Aperçu des données:


Unnamed: 0,location,iso_code,date,total_cases,total_deaths,new_cases,new_deaths,new_cases_smoothed,new_deaths_smoothed,new_cases_per_million,total_cases_per_million,new_cases_smoothed_per_million,new_deaths_per_million,total_deaths_per_million,new_deaths_smoothed_per_million
0,Africa,OWID_AFR,2022-05-01,27.0,2.0,0.0,0.0,0.29,0.0,0.0,0.019,0.0,0.0,0.0014,0.0
1,Africa,OWID_AFR,2022-05-02,27.0,2.0,0.0,0.0,0.29,0.0,0.0,0.019,0.0,0.0,0.0014,0.0
2,Africa,OWID_AFR,2022-05-03,27.0,2.0,0.0,0.0,0.29,0.0,0.0,0.019,0.0,0.0,0.0014,0.0
3,Africa,OWID_AFR,2022-05-04,27.0,2.0,0.0,0.0,0.29,0.0,0.0,0.019,0.0,0.0,0.0014,0.0
4,Africa,OWID_AFR,2022-05-05,27.0,2.0,0.0,0.0,0.29,0.0,0.0,0.019,0.0,0.0,0.0014,0.0



Valeurs manquantes:


Series([], dtype: int64)


Statistiques descriptives:


Unnamed: 0,total_cases,total_deaths,new_cases,new_deaths,new_cases_smoothed,new_deaths_smoothed,new_cases_per_million,total_cases_per_million,new_cases_smoothed_per_million,new_deaths_per_million,total_deaths_per_million,new_deaths_smoothed_per_million
count,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0,33666.0
mean,1938.869809,1.708489,7.783728,0.012297,7.781165,0.01212,0.078259,19.725986,0.077846,8.1e-05,0.011195,8e-05
std,8459.303549,8.497967,63.686045,0.216703,49.289572,0.088667,0.923805,30.910935,0.394291,0.002657,0.041827,0.000991
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.68,0.0,0.0,0.0,0.0
50%,21.0,0.0,0.0,0.0,0.0,0.0,0.0,4.878,0.0,0.0,0.0,0.0
75%,257.0,0.0,0.0,0.0,0.57,0.0,0.0,29.36225,0.025,0.0,0.0,0.0
max,87376.0,140.0,1802.0,12.0,1089.14,1.71,91.808,183.615,17.443,0.22683,0.58738,0.03176


## 5. Exploration des données extraites - Worldometer

Affichage des informations sur les données Worldometer extraites pour mieux comprendre leur structure.

In [7]:
# Exploration des données Worldometer
if "worldometer" in donnees:
    print("\nDonnées Worldometer:")
    print(f"Dimensions: {donnees['worldometer'].shape[0]} lignes, {donnees['worldometer'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['worldometer'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['worldometer'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['worldometer'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['worldometer'].describe())


Données Worldometer:
Dimensions: 184787 lignes, 7 colonnes
Colonnes:
- date
- country
- cumulative_total_cases
- daily_new_cases
- active_cases
- cumulative_total_deaths
- daily_new_deaths

Aperçu des données:


Unnamed: 0,date,country,cumulative_total_cases,daily_new_cases,active_cases,cumulative_total_deaths,daily_new_deaths
0,2020-2-15,Afghanistan,0.0,,0.0,0.0,
1,2020-2-16,Afghanistan,0.0,,0.0,0.0,
2,2020-2-17,Afghanistan,0.0,,0.0,0.0,
3,2020-2-18,Afghanistan,0.0,,0.0,0.0,
4,2020-2-19,Afghanistan,0.0,,0.0,0.0,



Valeurs manquantes:


daily_new_cases            10458
active_cases               18040
cumulative_total_deaths     6560
daily_new_deaths           26937
dtype: int64


Statistiques descriptives:


Unnamed: 0,cumulative_total_cases,daily_new_cases,active_cases,cumulative_total_deaths,daily_new_deaths
count,184787.0,174329.0,166747.0,178227.0,157850.0
mean,725108.9,2987.633285,62392.83,13886.0,39.831834
std,3681471.0,17803.232663,395564.1,60495.21,181.10277
min,0.0,-322.0,-14321.0,0.0,-39.0
25%,1099.0,0.0,60.0,24.0,0.0
50%,17756.0,58.0,1386.0,304.0,1.0
75%,223808.5,728.0,14620.5,4111.0,12.0
max,84209470.0,909610.0,17935430.0,1026646.0,5093.0


## Sauvegarde des données extraites

Sauvegarde des DataFrames dans des fichiers CSV intermédiaires pour l'étape de transformation.

In [8]:
# Sauvegarde des données extraites
print("Sauvegarde des données extraites...")

try:
    for nom, df in donnees.items():
        chemin_fichier = dossier_donnees_intermediaires / f"{nom}_extrait.csv"
        df.to_csv(chemin_fichier, index=False)
        print(f"Données {nom} sauvegardées: {chemin_fichier}")
    
    print("\nSauvegarde des données terminée avec succès!")
except Exception as e:
    print(f"Erreur lors de la sauvegarde des données: {e}")

Sauvegarde des données extraites...
Données covid19 sauvegardées: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\intermediaires\covid19_extrait.csv
Données mpox sauvegardées: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\intermediaires\mpox_extrait.csv
Données worldometer sauvegardées: C:\Users\Saint\IdeaProjects\ETL_Simple_Project\ETL_Projet_Pandemies\donnees\intermediaires\worldometer_extrait.csv

Sauvegarde des données terminée avec succès!


## Conclusion de la partie 1

Dans cette première partie, nous avons réalisé la configuration initiale et l'extraction des données brutes depuis les fichiers CSV sources. Les données ont été chargées, explorées et sauvegardées dans des fichiers CSV intermédiaires pour l'étape de transformation.

Dans la partie 2, nous allons visualiser ces données pour mieux comprendre leur structure et leur contenu.