In [9]:
# Cell 1: Imports
import pandas as pd
from pathlib import Path


In [10]:
# Cell 2: Chargement des 3 campagnes IQVIA
print("🚀 INGESTION DES DONNÉES IQVIA (2022-2025)")
print("=" * 50)

# Chemin vers les données
base_path = Path("/Users/mawensalignat-moandal/Documents/Engineering/school/S3/hackaton/vaccination-predictive-lab/data/raw/iqvia")

print("📂 Chargement des campagnes 2022-2025...")

# 1. Campagne 2022-2023
campagne_2022 = pd.read_csv(base_path / "2022/campagne-2022.csv")
couverture_2022 = pd.read_csv(base_path / "2022/couverture-2022.csv")
doses_2022 = pd.read_csv(base_path / "2022/dose-acte-2022.csv")

# 2. Campagne 2023-2024
campagne_2023 = pd.read_csv(base_path / "2023/campagne-2023.csv")
couverture_2023 = pd.read_csv(base_path / "2023/couverture-2023.csv")
doses_2023 = pd.read_csv(base_path / "2023/dose-acte-2023.csv")

# 3. Campagne 2024-2025
campagne_2024 = pd.read_csv(base_path / "2024/campagne-2024.csv")
couverture_2024 = pd.read_csv(base_path / "2024/couverture-2024.csv")
doses_2024 = pd.read_csv(base_path / "2024/dose-acte-2024.csv")

print(f"✅ 2022-2023 : Campagne {campagne_2022.shape}, Couverture {couverture_2022.shape}, Doses {doses_2022.shape}")
print(f"✅ 2023-2024 : Campagne {campagne_2023.shape}, Couverture {couverture_2023.shape}, Doses {doses_2023.shape}")
print(f"✅ 2024-2025 : Campagne {campagne_2024.shape}, Couverture {couverture_2024.shape}, Doses {doses_2024.shape}")

🚀 INGESTION DES DONNÉES IQVIA (2022-2025)
📂 Chargement des campagnes 2022-2025...
✅ 2022-2023 : Campagne (5, 5), Couverture (52, 5), Doses (1056, 6)
✅ 2023-2024 : Campagne (5, 5), Couverture (52, 5), Doses (1076, 6)
✅ 2024-2025 : Campagne (5, 5), Couverture (52, 5), Doses (964, 6)


In [11]:
# Cell 3: Fusion des 3 campagnes
print("\n🔗 Fusion des 3 campagnes...")

# Fusion des campagnes
df_campagne = pd.concat([campagne_2022, campagne_2023, campagne_2024], ignore_index=True)
df_couverture = pd.concat([couverture_2022, couverture_2023, couverture_2024], ignore_index=True)
df_doses = pd.concat([doses_2022, doses_2023, doses_2024], ignore_index=True)

# Conversion des dates
df_campagne['date'] = pd.to_datetime(df_campagne['date'])
df_doses['date'] = pd.to_datetime(df_doses['date'])

print(f"✅ Fusion terminée :")
print(f"   📊 Campagne : {df_campagne.shape}")
print(f"   📊 Couverture : {df_couverture.shape}")
print(f"   📊 Doses : {df_doses.shape}")


🔗 Fusion des 3 campagnes...
✅ Fusion terminée :
   📊 Campagne : (15, 5)
   📊 Couverture : (156, 5)
   📊 Doses : (3096, 6)


In [12]:
# Cell 4: Nettoyage et renommage
print("\n🧹 Nettoyage...")

# Renommage des colonnes
df_campagne.columns = ['campagne', 'date', 'variable', 'valeur', 'cible']
df_couverture.columns = ['region', 'code_region', 'variable', 'groupe_age', 'valeur']
df_doses.columns = ['campagne', 'date', 'jour', 'variable', 'groupe_age', 'valeur']

print("✅ Colonnes renommées")



🧹 Nettoyage...
✅ Colonnes renommées


In [13]:
# Cell 5: Sauvegarde avec "_cleaned"
print("\n💾 Sauvegarde...")

df_campagne.to_csv("../../data/cleaned/iqvia_campagne_cleaned.csv", index=False)
df_couverture.to_csv("../../data/cleaned/iqvia_couverture_cleaned.csv", index=False)
df_doses.to_csv("../../data/cleaned/iqvia_doses_cleaned.csv", index=False)

print("✅ Données IQVIA 2022-2025 sauvegardées :")
print("   📁 iqvia_campagne_cleaned.csv")
print("   📁 iqvia_couverture_cleaned.csv")
print("   📁 iqvia_doses_cleaned.csv")


💾 Sauvegarde...
✅ Données IQVIA 2022-2025 sauvegardées :
   📁 iqvia_campagne_cleaned.csv
   📁 iqvia_couverture_cleaned.csv
   📁 iqvia_doses_cleaned.csv


In [14]:
# Cell 6: Validation des périodes
print("\n📅 VALIDATION DES PÉRIODES")
print("=" * 35)

print(f"📅 Campagne - Période : {df_campagne['date'].min()} à {df_campagne['date'].max()}")
print(f"📅 Doses - Période : {df_doses['date'].min()} à {df_doses['date'].max()}")
print(f"🗺️ Régions : {df_couverture['region'].nunique()}")
print(f"👥 Groupes d'âge : {df_doses['groupe_age'].nunique()}")

print(f"\n📊 Campagnes disponibles :")
for campagne in df_campagne['campagne'].unique():
    count = len(df_campagne[df_campagne['campagne'] == campagne])
    print(f"   🗓️ {campagne}: {count} observations")

print(f"\n📊 Variables disponibles :")
for variable in df_campagne['variable'].unique():
    print(f"   📈 {variable}")



📅 VALIDATION DES PÉRIODES
📅 Campagne - Période : 2023-02-28 00:00:00 à 2025-01-28 00:00:00
📅 Doses - Période : 2021-10-22 00:00:00 à 2025-01-28 00:00:00
🗺️ Régions : 13
👥 Groupes d'âge : 2

📊 Campagnes disponibles :
   🗓️ 2022-2023: 5 observations
   🗓️ 2023-2024: 5 observations
   🗓️ 2024-2025: 5 observations

📊 Variables disponibles :
   📈 ACTE(VGP)
   📈 DOSES(J07E1)
   📈 UNIVERS
   📈 PHARMACIES
   📈 POURCENTAGE


In [15]:
# Cell 7: Aperçu des données
print("\n🔍 APERÇU DES DONNÉES FUSIONNÉES")
print("=" * 40)

print("📊 Campagne :")
display(df_campagne.head())

print("\n📊 Couverture :")
display(df_couverture.head())

print("\n📊 Doses :")
display(df_doses.head())


🔍 APERÇU DES DONNÉES FUSIONNÉES
📊 Campagne :


Unnamed: 0,campagne,date,variable,valeur,cible
0,2022-2023,2023-02-28,ACTE(VGP),5373898,4475890
1,2022-2023,2023-02-28,DOSES(J07E1),11219443,11178955
2,2022-2023,2023-02-28,UNIVERS,20834,21078
3,2022-2023,2023-02-28,PHARMACIES,16766,16356
4,2022-2023,2023-02-28,POURCENTAGE,81,78



📊 Couverture :


Unnamed: 0,region,code_region,variable,groupe_age,valeur
0,11 - ILE-DE-France,11,ACTE(VGP),moins de 65 ans,266
1,11 - ILE-DE-France,11,DOSES(J07E1),moins de 65 ans,478
2,24 - CENTRE-VAL-DE-LOIRE,24,ACTE(VGP),moins de 65 ans,276
3,24 - CENTRE-VAL-DE-LOIRE,24,DOSES(J07E1),moins de 65 ans,569
4,27 - BOURGOGNE-FRANCHE-COMTE,27,ACTE(VGP),moins de 65 ans,225



📊 Doses :


Unnamed: 0,campagne,date,jour,variable,groupe_age,valeur
0,2021-2022,2021-10-22,1,ACTE(VGP),65 ans et plus,117217
1,2021-2022,2021-10-22,1,DOSES(J07E1),65 ans et plus,567525
2,2021-2022,2021-10-22,1,ACTE(VGP),moins de 65 ans,24537
3,2021-2022,2021-10-22,1,DOSES(J07E1),moins de 65 ans,111876
4,2021-2022,2021-10-23,2,ACTE(VGP),65 ans et plus,42728


In [16]:
# Cell 8: Statistiques par campagne
print("\n📈 STATISTIQUES PAR CAMPAGNE")
print("=" * 35)

for campagne in df_campagne['campagne'].unique():
    print(f"\n🗓️ {campagne}:")
    campagne_data = df_campagne[df_campagne['campagne'] == campagne]
    
    for variable in campagne_data['variable'].unique():
        valeur = campagne_data[campagne_data['variable'] == variable]['valeur'].iloc[0]
        cible = campagne_data[campagne_data['variable'] == variable]['cible'].iloc[0]
        print(f"   📈 {variable}: {valeur:,} (cible: {cible:,})")

print("\n🎉 INGESTION IQVIA TERMINÉE !")
print("=" * 40)
print("✅ 3 campagnes de vaccination chargées (2022-2025)")
print("✅ Données nettoyées et sauvegardées")
print("✅ Prêt pour l'exploration et la modélisation")


📈 STATISTIQUES PAR CAMPAGNE

🗓️ 2022-2023:
   📈 ACTE(VGP): 5,373,898 (cible: 4,475,890)
   📈 DOSES(J07E1): 11,219,443 (cible: 11,178,955)
   📈 UNIVERS: 20,834 (cible: 21,078)
   📈 PHARMACIES: 16,766 (cible: 16,356)
   📈 POURCENTAGE: 81 (cible: 78)

🗓️ 2023-2024:
   📈 ACTE(VGP): 5,645,127 (cible: 5,373,898)
   📈 DOSES(J07E1): 10,510,433 (cible: 11,219,443)
   📈 UNIVERS: 20,585 (cible: 20,834)
   📈 PHARMACIES: 16,946 (cible: 16,766)
   📈 POURCENTAGE: 83 (cible: 81)

🗓️ 2024-2025:
   📈 ACTE(VGP): 6,554,867 (cible: 5,615,413)
   📈 DOSES(J07E1): 10,835,299 (cible: 10,469,756)
   📈 UNIVERS: 20,286 (cible: 20,579)
   📈 PHARMACIES: 17,892 (cible: 16,927)
   📈 POURCENTAGE: 89 (cible: 83)

🎉 INGESTION IQVIA TERMINÉE !
✅ 3 campagnes de vaccination chargées (2022-2025)
✅ Données nettoyées et sauvegardées
✅ Prêt pour l'exploration et la modélisation
