# PROJET FINAL: Analyse de données et machine learning avec Python

Il s'agit d'analyser les données collectées sur la pandémie du covid 19 qui sont dans un fichier au format csv (voir dossier *data*).

## Description du jeu du données:

### Contexte

La maladie à coronavirus (COVID-19) est une maladie infectieuse causée par un coronavirus récemment découvert. La plupart des personnes infectées par le virus COVID-19 souffriront d'une maladie respiratoire légère à modérée et se rétabliront sans nécessiter de traitement particulier. Les personnes âgées et celles qui présentent des problèmes médicaux sous-jacents tels que les maladies cardiovasculaires, le diabète, les maladies respiratoires chroniques et le cancer sont plus susceptibles de développer une maladie grave.

Pendant toute la durée de la pandémie, l'un des principaux problèmes auxquels les prestataires de soins de santé ont été confrontés est le manque de ressources médicales et d'un plan approprié pour les distribuer efficacement. En ces temps difficiles, être capable de prédire le type de ressources dont un individu pourrait avoir besoin au moment où il est testé positif ou même avant cela sera d'une aide immense pour les autorités car elles seront en mesure de se procurer et d'organiser les ressources nécessaires pour sauver la vie de ce patient.

L'objectif principal de ce projet est de construire un modèle d'apprentissage automatique qui, compte tenu des symptômes, de l'état et des antécédents médicaux d'un patient atteint du Covid-19, permettra de prédire si le patient est à haut risque ou non.

### Description du jeux de données

Le jeu de données a été fourni par le gouvernement mexicain. Cet ensemble de données contient un nombre énorme d'informations anonymes relatives aux patients, y compris les conditions préalables. L'ensemble de données brutes se compose de 21 caractéristiques uniques et de 1 048 576 patients uniques. Dans les caractéristiques booléennes, 1 signifie "oui" et 2 signifie "non". Les valeurs 97 et 99 indique des données manquantes.

Quelques informations sur les *features*:

- sex : femme ou homme
- age : du patient.
- classification : résultats du test covid. Les valeurs 1-3 signifient que le patient a été diagnostiqué avec un covid à différents degrés. 4 ou plus signifie que le patient n'est pas porteur du covid ou que le test n'est pas concluant.
- patient type: hospitalisé ou non hospitalisé.
- pneumonia : si le patient a déjà une inflammation lié à la pneumonie ou non.
- pregnancy : si la patiente est enceinte ou non.
- diabetes : indique si le patient est diabétique ou non.
- copd: indique si le patient est atteint ou non de bronchopneumopathie chronique obstructive.
- asthma : indique si le patient est asthmatique ou non.
- inmsupr : indique si le patient est immunodéprimé ou non.
- hypertension : si le patient est hypertendu ou non.
- cardiovascular : si le patient est atteint d'une maladie du cœur ou des vaisseaux sanguins.
- renal chronic : si le patient est atteint d'une maladie rénale chronique ou non.
- other disease : si le patient est atteint d'une autre maladie ou non.
- obesity : si le patient est obèse ou non.
- tobacco : si le patient est un fumeur.
- usmr : indique si le patient a traité des unités médicales de premier, deuxième ou troisième niveau.
- medical unit: type d'institution du système national de santé qui a dispensé les soins.
- intubed : indique si le patient a été relié au ventilateur.
- icu : indique si le patient a été admis dans une unité de soins intensifs.


## Étape 1 : Préparation et nettoyage des données
1. Chargez le jeu de données  dans un *dataframe* à l'aide de Pandas.
2. Explorez le nombre de lignes et de colonnes, les plages de valeurs, etc.
3. Traitez les données manquantes, incorrectes et invalides, doublons, etc.
4. Effectuez toute étape supplémentaire (analyse des dates, création de colonnes supplémentaires, fusion de plusieurs ensembles de données, etc.)

In [None]:
# Inserer autant de cellules que vous voulez dans ce notebook

# =====================================================
# QUESTION 1 : Chargement du jeu de données
# =====================================================
import pandas as pd
import numpy as np

chemin = r'C:\Users\VICTUS\Downloads\7-Projet Final-20260116T210903Z-1-001\7-Projet Final\data\covid19_data.csv'
df = pd.read_csv(chemin)

# =====================================================
# QUESTION 2 : Exploration des données
# =====================================================
print("-----------debut ------------")
print(f"Nombre de lignes : {df.shape[0]}")
print(f"Nombre de colonnes : {df.shape[1]}")

print(df.describe())
print("---------------fin------------------")



# =====================================================
# QUESTION 3 : Traitement des données manquantes
# =====================================================

# Colonnes à traiter (toutes sauf l'âge)
colonnes_a_traiter = df.columns.drop('AGE')

# Remplacer 97, 98, 99 par NaN
df[colonnes_a_traiter] = df[colonnes_a_traiter].replace([97, 98, 99], np.nan)

# Nombre de valeurs manquantes par colonne
print("Valeurs manquantes par colonne :")
print(df.isnull().sum())

# Suppression des colonnes avec trop de valeurs manquantes
df = df.drop(columns=['ICU', 'INTUBED'])

# Suppression des lignes restantes avec NaN
df = df.dropna()

print(f"Nombre de lignes après nettoyage : {df.shape[0]}")

# =====================================================
# QUESTION 4 : Étapes supplémentaires
# =====================================================

# -----------------------------------------------------
# 4.1 Création de la variable cible (high_risk)
# -----------------------------------------------------
# On considère un patient à haut risque s'il a une pneumonie
# ET s'il est hospitalisé

df['high_risk'] = ((df['PNEUMONIA'] == 1) & (df['PATIENT_TYPE'] == 1)).astype(int)

# Vérifier la répartition de la variable cible
print("Répartition de la variable high_risk :")
print(df['high_risk'].value_counts())

print("\nPourcentage de chaque classe :")
print(df['high_risk'].value_counts(normalize=True) * 100)



# -----------------------------------------------------
# 4.2 Vérification rapide des variables explicatives
# -----------------------------------------------------

print("\nAperçu des variables explicatives :")
print(df.head())



# -----------------------------------------------------
# 4.3 Séparation des données (X = features, y = cible)
# -----------------------------------------------------

# y = variable à prédire
y = df['high_risk']

# X = toutes les colonnes sauf la cible
X = df.drop(columns=['high_risk'])

print("\nDimensions de X :", X.shape)
print("Dimensions de y :", y.shape)



# -----------------------------------------------------
# 4.4 Sauvegarde du jeu de données final
# -----------------------------------------------------

df.to_csv("covid19_final_ready.csv", index=False)

print("\n Etape 1 terminée : dataset prêt pour le Machine Learning")



## Etape 2:  Effectuer une analyse exploratoire et une visualisation
1. Calculez la moyenne, la somme, l'étendue et d'autres statistiques intéressantes pour les colonnes numériques.
2. Explorez les distributions des colonnes numériques à l'aide d'histogrammes, etc.
3. Explorez les relations entre les colonnes à l'aide d'une matrice des corrélations entre les *features* (voir visualisation avec heatmap)
4. Notez les résultats intéressants de l'analyse exploratoire.


In [None]:
# =====================================================
# ETAPE 2 : Analyse exploratoire et visualisation
# =====================================================

# =====================================================
# IMPORTATIONS ET STYLE GLOBAL
# =====================================================

import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib as mpl

# Style général
sns.set_theme(style="whitegrid")

# Police Century Gothic
mpl.rcParams['font.family'] = 'Century Gothic'

# Taille globale des titres
mpl.rcParams['axes.titlesize'] = 16
mpl.rcParams['axes.labelsize'] = 12

# =====================================================
# QUESTION 1 : Statistiques descriptives
# =====================================================

print("Statistiques descriptives globales :")
print(df.describe())

# Moyenne de l'âge
print("\nMoyenne de l'âge :", df['AGE'].mean())

# Étendue de l'âge
etendue_age = df['AGE'].max() - df['AGE'].min()
print("Étendue de l'âge :", etendue_age)

# Nombre total de patients à haut risque
print("\nNombre total de patients à haut risque :")
print(df['high_risk'].sum())

# =====================================================
# QUESTION 2 : Distributions (Histogrammes stylisés)
# =====================================================

# -------- Histogramme de l'âge --------
plt.figure(figsize=(10, 6))
plt.hist(
    df['AGE'],
    bins=30,
    color="#F0C7FF",          
    edgecolor="#000000",      
    alpha=0.85
)

plt.title("Distribution de l'âge des patients", fontweight='bold')
plt.xlabel("Âge")
plt.ylabel("Nombre de patients")
plt.grid(axis='y', alpha=0.3)
plt.show()

# -------- Histogramme High Risk --------
plt.figure(figsize=(8, 5))
plt.hist(
    df['high_risk'],
    bins=2,
    color="#F7BEF2",          
    edgecolor="#000000",      
    alpha=0.85
)

plt.title("Répartition des patients à haut risque", fontweight='bold')
plt.xlabel("High Risk (0 = Non, 1 = Oui)")
plt.ylabel("Nombre de patients")
plt.xticks([0, 1])
plt.grid(axis='y', alpha=0.3)
plt.show()

# =====================================================
# QUESTION 3 : Matrice de corrélation (Heatmap stylée)
# =====================================================

# Calcul de la matrice de corrélation
correlation_matrix = df.corr(numeric_only=True)

# Dégradé violet → bleu
cmap_custom = sns.color_palette(
    ["#DFCBE6", "#D9C1FF", "#CFC0E9", "#B5D0F0", "#C99AC5"],
    as_cmap=True
)

plt.figure(figsize=(14, 10))
sns.heatmap(
    correlation_matrix,
    annot=True,
    fmt=".2f",
    cmap=cmap_custom,
    linewidths=0.5,
    square=True,
    cbar_kws={"shrink": 0.8}
)

plt.title("Matrice de corrélation entre les variables", fontweight='bold')
plt.show()

# =====================================================
# QUESTION 4 : Observations de l'analyse exploratoire
# =====================================================
# les resultat
# - Variables fortement corrélées
# - Impact potentiel de l'âge, ICU, comorbidités
# - Déséquilibre éventuel de la variable high_risk


## Etape 3: Posez des questions sur les données et répondez-y.
1. Posez au moins 4 questions intéressantes sur votre ensemble de données.
2. Répondez aux questions soit en calculant les résultats à l'aide de Numpy/Pandas, soit en traçant des graphiques à l'aide de Matplotlib/Seaborn.
3. Créez de nouvelles colonnes, fusionnez plusieurs ensembles de données et effectuez des regroupements/agrégations si nécessaire.
4. Chaque fois que vous utilisez une fonction de bibliothèque de Pandas/Numpy/Matplotlib, etc., expliquez brièvement ce qu'elle fait.

In [None]:
# Inserer autant de cellules que vous voulez dans ce notebook
# =====================================================
# QUESTION 1 : Posons au moins 4 questions
# =====================================================

# 1- Quel est l’âge moyen des patients à haut risque comparé aux patients à faible risque ?
# 2- Quelle est la proportion de patients à haut risque ?
# 3- Les patients atteints de pneumonie sont-ils plus souvent à haut risque ?
# 4-Les patients diabétiques sont-ils plus à risque que les autres ?

# =====================================================
# QUESTION 2 : Répondons au question en calculant
# =====================================================

# Q1
# Âge moyen selon le niveau de risque
age_moyen_par_risque = df.groupby('high_risk')['AGE'].mean()
print(age_moyen_par_risque)
#Les patients à haut risque ont en moyenne un âge plus élevé que les patients à faible risque, ce qui confirme que l’âge est un facteur important.

# Q2
# Proportion de patients à haut risque
proportion_risque = df['high_risk'].value_counts(normalize=True) * 100
print(proportion_risque)
#La majorité des patients sont à faible risque, tandis qu’une proportion plus réduite présente un risque élevé.

# Q3
# Taux de patients à haut risque selon la pneumonie
pneumonie_risque = df.groupby('PNEUMONIA')['high_risk'].mean() * 100
print(pneumonie_risque)
# Les patients atteints de pneumonie présentent un taux de risque élevé plus important que ceux qui n’en souffrent pas.

# Q4
# Comparaison du risque selon le diabète
diabete_risque = df.groupby('DIABETES')['high_risk'].mean() * 100
print(diabete_risque)
# Le diabète semble être associé à une augmentation du risque élevé chez les patients COVID-19.

# =====================================================
# QUESTION 3 : Création
# =====================================================

# Création de groupes d'âge
df['AGE_GROUP'] = pd.cut(
    df['AGE'],
    bins=[0, 30, 50, 70, 120],
    labels=['Jeunes', 'Adultes', 'Seniors', 'Très âgés']
)

# Risque par groupe d'âge
risque_par_age = df.groupby('AGE_GROUP')['high_risk'].mean() * 100
print(risque_par_age)
#Le risque augmente clairement avec l’âge, les groupes Seniors et Très âgés étant les plus exposés.

# =====================================================
# QUESTION 4 : Eplication
# =====================================================

#

high_risk
0    41.329950
1    45.020732
Name: AGE, dtype: float64
high_risk
0    97.909972
1     2.090028
Name: proportion, dtype: float64
PNEUMONIA
1.0    19.502022
2.0     0.000000
Name: high_risk, dtype: float64
DIABETES
1.0    3.060724
2.0    1.962641
Name: high_risk, dtype: float64


ValueError: Bin labels must be one fewer than the number of bin edges

## Étape 4 : résumez vos déductions et rédigez une conclusion.
1. Rédigez un résumé de ce que vous avez appris de l'analyse.
2. Incluez les idées et les graphiques intéressants des sections précédentes.
3. Partagez des idées de travaux futurs sur le même sujet en utilisant d'autres ensembles de données pertinents.

In [None]:
# Inserer autant de cellules que vous voulez dans ce notebook

### Étape 5: Faites des prédictions
1. Divisez le jeux de données (80% entrainement: 20% test)
2. Comparer les résultats de classifications de 4 modèles de machine learning (regression linéaire, *random forest*, *Naive Bayes*, SVM) suivant les trois critères: *recall*, *accuracy*, *precision*

In [None]:
# Inserer autant de cellules que vous voulez dans ce notebook

# <span style="color:red">DATE LIMITE DE SOUMISSION DU PROJET: 16/01/2026  à    23H59 GMT </span>     

### <span style="color:red"> Adresse: amanvon.atta@inphb.ci</span>