In [3]:
!pip install matplotlib



In [24]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 🎯 Charger les données nettoyées
file_path = "covid19_data_cleaned.csv"
df = pd.read_csv(file_path)

# 🔍 Vérification des colonnes disponibles
print("🔹 Noms des colonnes :")
print(df.columns)

# 🧹 Suppression des espaces dans les noms de colonnes
df.columns = df.columns.str.strip()

# 👀 Aperçu des données nettoyées
print("\n🔹 Aperçu des données :")
print(df.head())

# 🛠 Vérification et gestion des valeurs manquantes
print("\n🔹 Vérification des valeurs manquantes :")
print(df.isnull().sum())

# Remplissage des valeurs manquantes (exemple : âge et cas)
if 'age' in df.columns:
    df['age'] = df['age'].fillna(df['age'].median())
if 'cases' in df.columns:
    df['cases'] = df['cases'].fillna(df['cases'].median())

# 🎯 1. Statistiques de base 
print("\n🔹 Statistiques descriptives :")
print(df.describe())

if 'age' in df.columns:
    print(f"\n📊 Moyenne d'âge : {df['age'].mean():.2f}")
    print(f"📊 Médiane d'âge : {df['age'].median():.2f}")
    print(f"📊 Étendue d'âge : {df['age'].min()} - {df['age'].max()} (Différence : {df['age'].max() - df['age'].min()})")

if 'cases' in df.columns:
    print(f"\n📊 Nombre total de cas : {df['cases'].sum()}")
    print(f"📊 Nombre moyen de cas : {df['cases'].mean():.2f}")

# 📊 2. Visualisation des distributions
# 📌 Histogramme de l'âge
if 'age' in df.columns:
    plt.figure(figsize=(8, 5))
    plt.hist(df['age'], bins=20, color="blue", edgecolor="black", alpha=0.7)
    plt.title("Distribution des âges")
    plt.xlabel("Âge")
    plt.ylabel("Fréquence")
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.savefig("distribution_age.png", format="png")  # Enregistrer en PNG
    plt.show()  

🔹 Noms des colonnes :
Index(['USMER', 'MEDICAL_UNIT', 'SEX', 'PATIENT_TYPE', 'DATE_DIED', 'INTUBED',
       'PNEUMONIA', 'AGE', 'PREGNANT', 'DIABETES', 'COPD', 'ASTHMA', 'INMSUPR',
       'HIPERTENSION', 'OTHER_DISEASE', 'CARDIOVASCULAR', 'OBESITY',
       'RENAL_CHRONIC', 'TOBACCO', 'CLASIFFICATION_FINAL', 'ICU'],
      dtype='object')

🔹 Aperçu des données :
   USMER  MEDICAL_UNIT  SEX  PATIENT_TYPE   DATE_DIED  INTUBED  PNEUMONIA  \
0      2             1    1             1  03/05/2020       97          1   
1      2             1    2             1  03/06/2020       97          1   
2      2             1    2             2  09/06/2020        1          2   
3      2             1    1             1  12/06/2020       97          2   
4      2             1    2             1  21/06/2020       97          2   

   AGE  PREGNANT  DIABETES  ...  ASTHMA  INMSUPR  HIPERTENSION  OTHER_DISEASE  \
0   65         2         2  ...       2        2             1              2   
1   72      

In [26]:
if 'age' in df.columns:
    plt.figure(figsize=(8, 5))
    plt.hist(df['age'], bins=20, color="blue", edgecolor="black", alpha=0.7)
    plt.title("Distribution des âges")
    plt.xlabel("Âge")
    plt.ylabel("Fréquence")
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.savefig("distribution_age.png", format="png")  # Enregistrer en PNG
    plt.show()  # Afficher le graphique

In [28]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Charger les données nettoyées
file_path = "covid19_data_cleaned.csv"
df = pd.read_csv(file_path)

# Vérification des premières lignes
print("🔹 Aperçu des données nettoyées :")
print(df.head())

## 🔥 1. Pose de questions pertinentes 🔥 ##
questions = [
    "1️⃣ Quel est l'âge moyen des patients atteints du COVID-19 ?",
    "2️⃣ Y a-t-il une variation du nombre de cas selon les mois ?",
    "3️⃣ Quels pays ont enregistré le plus grand nombre de cas ?",
    "4️⃣ Existe-t-il une corrélation entre l'âge et la gravité des cas ?"
]
print("\n💡 Questions posées :")
for q in questions:
    print(q)

## 📊 2. Réponses aux questions 📊 ##

### 🟢 Question 1 : Âge moyen des patients ###
if 'age' in df.columns:
    age_mean = df['age'].mean()
    print(f"\n📌 Réponse 1 : L'âge moyen des patients atteints du COVID-19 est de {age_mean:.2f} ans.")

### 🟢 Question 2 : Variation des cas selon les mois ###
# Vérification et conversion de la colonne date
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])
    df['month'] = df['date'].dt.month  # Extraction du mois

    # Regroupement par mois et somme des cas
    cases_per_month = df.groupby('month')['cases'].sum()

    # Affichage du graphique
    plt.figure(figsize=(8, 5))
    sns.barplot(x=cases_per_month.index, y=cases_per_month.values, palette="viridis")
    plt.xlabel("Mois")
    plt.ylabel("Nombre total de cas")
    plt.title("📅 Répartition des cas de COVID-19 par mois")
    plt.show()

    print("\n📌 Réponse 2 : Le nombre de cas varie fortement selon les mois, avec un pic à certains moments de l'année.")

### 🟢 Question 3 : Pays avec le plus de cas ###
if 'country' in df.columns:
    top_countries = df.groupby('country')['cases'].sum().sort_values(ascending=False).head(10)

    # Affichage du graphique
    plt.figure(figsize=(8, 5))
    sns.barplot(x=top_countries.values, y=top_countries.index, palette="Reds_r")
    plt.xlabel("Nombre total de cas")
    plt.ylabel("Pays")
    plt.title("🌍 Top 10 des pays avec le plus de cas de COVID-19")
    plt.show()

    print("\n📌 Réponse 3 : Les pays les plus touchés sont principalement les grandes nations industrialisées.")

### 🟢 Question 4 : Corrélation entre âge et gravité des cas ###
if 'age' in df.columns and 'severity' in df.columns:
    plt.figure(figsize=(8, 6))
    sns.boxplot(x=df['severity'], y=df['age'], palette="coolwarm")
    plt.xlabel("Gravité du cas")
    plt.ylabel("Âge")
    plt.title("🔬 Corrélation entre l'âge et la gravité du COVID-19")
    plt.show()

    print("\n📌 Réponse 4 : Il semble y avoir une tendance où les cas graves concernent davantage les personnes âgées.")


🔹 Aperçu des données nettoyées :
   USMER  MEDICAL_UNIT  SEX  PATIENT_TYPE   DATE_DIED  INTUBED  PNEUMONIA  \
0      2             1    1             1  03/05/2020       97          1   
1      2             1    2             1  03/06/2020       97          1   
2      2             1    2             2  09/06/2020        1          2   
3      2             1    1             1  12/06/2020       97          2   
4      2             1    2             1  21/06/2020       97          2   

   AGE  PREGNANT  DIABETES  ...  ASTHMA  INMSUPR  HIPERTENSION  OTHER_DISEASE  \
0   65         2         2  ...       2        2             1              2   
1   72        97         2  ...       2        2             1              2   
2   55        97         1  ...       2        2             2              2   
3   53         2         2  ...       2        2             2              2   
4   68        97         1  ...       2        2             1              2   

   CARDIOVASCULAR

In [35]:
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])
    df['month'] = df['date'].dt.month  # Extraction du mois

    # Regroupement par mois et somme des cas
    cases_per_month = df.groupby('month')['cases'].sum()

    # Affichage du graphique
    plt.figure(figsize=(8, 5))
    sns.barplot(x=cases_per_month.index, y=cases_per_month.values, palette="viridis")
    plt.xlabel("Mois")
    plt.ylabel("Nombre total de cas")
    plt.title("📅 Répartition des cas de COVID-19 par mois")
    plt.show()