# Partie 1 : Extraction des Données

Ce notebook présente le processus d'extraction des données brutes pour notre projet ETL sur les pandémies. Nous allons extraire les données de différentes sources CSV et JSON pour les préparer à la phase de transformation.

## Importation des bibliothèques nécessaires

In [None]:
import pandas as pd
import numpy as np
import os
import json
import glob
from datetime import datetime
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration pour afficher plus de colonnes
pd.set_option('display.max_columns', None)

## Définition des chemins de fichiers

In [None]:
# Répertoire des données brutes
raw_data_dir = './Donnees Brutes/'

# Chemins des fichiers de données
covid_data_path = os.path.join(raw_data_dir, 'covid_19_clean_complete.csv')
monkeypox_data_path = os.path.join(raw_data_dir, 'owid-monkeypox-data.csv')
worldometer_data_path = os.path.join(raw_data_dir, 'worldometer_coronavirus_daily_data.csv')

## Extraction des données COVID-19

In [None]:
def extract_covid_data():
    """
    Fonction pour extraire les données COVID-19 du fichier CSV
    """
    try:
        # Chargement des données
        df = pd.read_csv(covid_data_path)
        
        # Affichage des premières lignes pour vérification
        print(f"Données COVID-19 chargées avec succès. Forme: {df.shape}")
        
        return df
    except Exception as e:
        print(f"Erreur lors de l'extraction des données COVID-19: {e}")
        return None

## Extraction des données Monkeypox

In [None]:
def extract_monkeypox_data():
    """
    Fonction pour extraire les données Monkeypox du fichier CSV
    """
    try:
        # Chargement des données
        df = pd.read_csv(monkeypox_data_path)
        
        # Affichage des premières lignes pour vérification
        print(f"Données Monkeypox chargées avec succès. Forme: {df.shape}")
        
        return df
    except Exception as e:
        print(f"Erreur lors de l'extraction des données Monkeypox: {e}")
        return None

## Extraction des données Worldometer

In [None]:
def extract_worldometer_data():
    """
    Fonction pour extraire les données Worldometer du fichier CSV
    """
    try:
        # Chargement des données
        df = pd.read_csv(worldometer_data_path)
        
        # Affichage des premières lignes pour vérification
        print(f"Données Worldometer chargées avec succès. Forme: {df.shape}")
        
        return df
    except Exception as e:
        print(f"Erreur lors de l'extraction des données Worldometer: {e}")
        return None

## Extraction des données JSON (si disponibles)

In [None]:
def extract_json_data(file_path):
    """
    Fonction pour extraire les données d'un fichier JSON
    """
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        # Conversion en DataFrame
        df = pd.json_normalize(data)
        
        print(f"Données JSON chargées avec succès depuis {file_path}. Forme: {df.shape}")
        
        return df
    except Exception as e:
        print(f"Erreur lors de l'extraction des données JSON: {e}")
        return None

## Exécution des fonctions d'extraction

In [None]:
# Extraction des données COVID-19
covid_df = extract_covid_data()

# Affichage des premières lignes
if covid_df is not None:
    display(covid_df.head())
    print("\nInformations sur les colonnes:")
    display(covid_df.info())
    print("\nStatistiques descriptives:")
    display(covid_df.describe())

In [None]:
# Extraction des données Monkeypox
monkeypox_df = extract_monkeypox_data()

# Affichage des premières lignes
if monkeypox_df is not None:
    display(monkeypox_df.head())
    print("\nInformations sur les colonnes:")
    display(monkeypox_df.info())
    print("\nStatistiques descriptives:")
    display(monkeypox_df.describe())

In [None]:
# Extraction des données Worldometer
worldometer_df = extract_worldometer_data()

# Affichage des premières lignes
if worldometer_df is not None:
    display(worldometer_df.head())
    print("\nInformations sur les colonnes:")
    display(worldometer_df.info())
    print("\nStatistiques descriptives:")
    display(worldometer_df.describe())

## Sauvegarde des données extraites

In [None]:
# Création du répertoire de sortie dans la partie Transformation
output_dir = '../Partie-02-Transformation/Donnees Brutes/'
os.makedirs(output_dir, exist_ok=True)

# Sauvegarde des données extraites
if covid_df is not None:
    covid_df.to_csv(os.path.join(output_dir, 'covid_19_clean_complete.csv'), index=False)
    print("Données COVID-19 sauvegardées avec succès.")
    
if monkeypox_df is not None:
    monkeypox_df.to_csv(os.path.join(output_dir, 'owid-monkeypox-data.csv'), index=False)
    print("Données Monkeypox sauvegardées avec succès.")
    
if worldometer_df is not None:
    worldometer_df.to_csv(os.path.join(output_dir, 'worldometer_coronavirus_daily_data.csv'), index=False)
    print("Données Worldometer sauvegardées avec succès.")

## Résumé de l'extraction

Dans ce notebook, nous avons :
1. Extrait les données COVID-19 du fichier CSV
2. Extrait les données Monkeypox du fichier CSV
3. Extrait les données Worldometer du fichier CSV
4. Créé une fonction pour extraire des données JSON (si nécessaire)
5. Sauvegardé les données extraites pour la phase de transformation

La prochaine étape consistera à transformer ces données brutes pour les rendre exploitables dans notre base de données.