# Partie 2 : Transformation des Données (Version 2)

Ce notebook présente le processus de transformation des données brutes pour notre projet ETL sur les pandémies. Nous allons nettoyer, agréger, normaliser et supprimer les doublons des données extraites dans la phase précédente.

Cette version corrige les erreurs potentielles et prépare les données selon le schéma de la base de données défini dans `epiviz.sql`.

## Importation des bibliothèques nécessaires

In [None]:
import pandas as pd
import numpy as np
import os
import re
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Ignorer les avertissements
warnings.filterwarnings('ignore')

# Configuration pour afficher plus de colonnes
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

## Chargement des données brutes

In [None]:
# Répertoire des données brutes
raw_data_dir = './Donnees Brutes/'

# Répertoire de sortie pour les données transformées
output_dir = '../Partie-03-Chargement/donnees_nettoyees/'
os.makedirs(output_dir, exist_ok=True)

# Chemins des fichiers de données
covid_data_path = os.path.join(raw_data_dir, 'covid_19_clean_complete.csv')
monkeypox_data_path = os.path.join(raw_data_dir, 'owid-monkeypox-data.csv')
worldometer_data_path = os.path.join(raw_data_dir, 'worldometer_coronavirus_daily_data.csv')

# Chargement des données avec gestion d'erreurs
def load_data(file_path, description):
    try:
        df = pd.read_csv(file_path, low_memory=False)
        print(f"Données {description} chargées avec succès. Forme: {df.shape}")
        return df
    except Exception as e:
        print(f"Erreur lors du chargement des données {description}: {e}")
        return None

# Chargement des données
covid_df = load_data(covid_data_path, "COVID-19")
monkeypox_df = load_data(monkeypox_data_path, "Monkeypox")
worldometer_df = load_data(worldometer_data_path, "Worldometer")

## Examen des données chargées

In [None]:
# Fonction pour examiner un DataFrame
def examine_dataframe(df, name):
    if df is None:
        print(f"Le DataFrame {name} n'a pas pu être chargé.")
        return
    
    print(f"\n=== Examen du DataFrame {name} ===")
    print(f"Dimensions: {df.shape}")
    print("\nPremières lignes:")
    display(df.head())
    print("\nInformations sur les colonnes:")
    display(df.info())
    print("\nStatistiques descriptives:")
    display(df.describe())
    print("\nValeurs manquantes par colonne:")
    display(df.isna().sum())

# Examen des DataFrames
examine_dataframe(covid_df, "COVID-19")
examine_dataframe(monkeypox_df, "Monkeypox")
examine_dataframe(worldometer_df, "Worldometer")