## 1. Configuration initiale

Importation des bibliothèques nécessaires et définition des chemins vers les fichiers sources.

In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

# Configuration de la visualisation
%matplotlib inline
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Définition des chemins vers les fichiers sources
chemin_base = Path().resolve().parent.parent if 'notebooks' in str(Path().resolve()) else Path().resolve().parent
dossier_donnees_brutes = chemin_base / "donnees" / "brutes"
dossier_donnees_intermediaires = chemin_base / "donnees" / "intermediaires"

# Affichage des chemins
print(f"Dossier des données brutes: {dossier_donnees_brutes}")
print(f"Dossier des données intermédiaires: {dossier_donnees_intermediaires}")

## 2. Extraction des données

Chargement des fichiers CSV sources.

In [None]:
# Définition des chemins vers les fichiers sources
fichier_covid19 = dossier_donnees_brutes / "covid_19_clean_complete.csv"
fichier_mpox = dossier_donnees_brutes / "owid-monkeypox-data.csv"
fichier_worldometer = dossier_donnees_brutes / "worldometer_coronavirus_daily_data.csv"

# Vérification de l'existence des fichiers
fichiers = {
    "covid19": fichier_covid19,
    "mpox": fichier_mpox,
    "worldometer": fichier_worldometer
}

for nom, chemin in fichiers.items():
    if chemin.exists():
        print(f"Le fichier {nom} existe: {chemin}")
    else:
        print(f"ATTENTION: Le fichier {nom} n'existe pas: {chemin}")

In [None]:
# Chargement des données
print("Extraction des données en cours...")

donnees = {}

try:
    # Chargement des données COVID-19
    if fichier_covid19.exists():
        donnees["covid19"] = pd.read_csv(fichier_covid19)
        print(f"Données COVID-19 extraites: {donnees['covid19'].shape[0]} lignes, {donnees['covid19'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données COVID-19: fichier non trouvé")
    
    # Chargement des données MPOX
    if fichier_mpox.exists():
        donnees["mpox"] = pd.read_csv(fichier_mpox)
        print(f"Données MPOX extraites: {donnees['mpox'].shape[0]} lignes, {donnees['mpox'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données MPOX: fichier non trouvé")
    
    # Chargement des données Worldometer
    if fichier_worldometer.exists():
        donnees["worldometer"] = pd.read_csv(fichier_worldometer)
        print(f"Données Worldometer extraites: {donnees['worldometer'].shape[0]} lignes, {donnees['worldometer'].shape[1]} colonnes")
    else:
        print(f"Impossible de charger les données Worldometer: fichier non trouvé")
    
    print("\nExtraction des données terminée avec succès!")
except Exception as e:
    print(f"Erreur lors de l'extraction des données: {e}")

## 3. Exploration des données extraites - COVID-19

Affichage des informations sur les données COVID-19 extraites pour mieux comprendre leur structure.

In [None]:
# Exploration des données COVID-19
if "covid19" in donnees:
    print("\nDonnées COVID-19:")
    print(f"Dimensions: {donnees['covid19'].shape[0]} lignes, {donnees['covid19'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['covid19'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['covid19'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['covid19'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['covid19'].describe())

## 4. Exploration des données extraites - MPOX

Affichage des informations sur les données MPOX extraites pour mieux comprendre leur structure.

In [None]:
# Exploration des données MPOX
if "mpox" in donnees:
    print("\nDonnées MPOX:")
    print(f"Dimensions: {donnees['mpox'].shape[0]} lignes, {donnees['mpox'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['mpox'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['mpox'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['mpox'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['mpox'].describe())

## 5. Exploration des données extraites - Worldometer

Affichage des informations sur les données Worldometer extraites pour mieux comprendre leur structure.

In [None]:
# Exploration des données Worldometer
if "worldometer" in donnees:
    print("\nDonnées Worldometer:")
    print(f"Dimensions: {donnees['worldometer'].shape[0]} lignes, {donnees['worldometer'].shape[1]} colonnes")
    print("Colonnes:")
    for col in donnees['worldometer'].columns:
        print(f"- {col}")
    print("\nAperçu des données:")
    display(donnees['worldometer'].head())
    
    # Vérification des valeurs manquantes
    valeurs_manquantes = donnees['worldometer'].isnull().sum()
    print("\nValeurs manquantes:")
    display(valeurs_manquantes[valeurs_manquantes > 0])
    
    # Statistiques descriptives
    print("\nStatistiques descriptives:")
    display(donnees['worldometer'].describe())

## Sauvegarde des données extraites

Sauvegarde des DataFrames dans des fichiers CSV intermédiaires pour l'étape de transformation.

In [None]:
# Sauvegarde des données extraites
print("Sauvegarde des données extraites...")

try:
    for nom, df in donnees.items():
        chemin_fichier = dossier_donnees_intermediaires / f"{nom}_extrait.csv"
        df.to_csv(chemin_fichier, index=False)
        print(f"Données {nom} sauvegardées: {chemin_fichier}")
    
    print("\nSauvegarde des données terminée avec succès!")
except Exception as e:
    print(f"Erreur lors de la sauvegarde des données: {e}")