# Prise en main du dataset - Heart Failure

**Auteur:** Sandie Cabon  
**Date:** 02 février 2026

Ce notebook permet d'explorer et d'analyser le jeu de données sur l'insuffisance cardiaque.

## Import des bibliothèques

In [None]:
import pandas as pd
from helping_functions_et import infer_column_types
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Configuration (NE PAS MODIFIER)

In [None]:
print("############### CHARGEMENT DES DONNÉES #####################")

# close older figures
plt.close("all")

# load heart failure dataset
dataset = pd.read_csv("heart_failure_dataset.csv")

# apply good type to dataframe (custom function)
dataset = infer_column_types(dataset)

random_state = 12
np.random.seed(12)

## II. Prise en main du jeu de données

### Instructions

1. Combien d'observations contient le jeu de données ?
2. Préciser les variables du jeu de données ainsi que leurs types.
3. Quelle est la variable cible ? Combien de patients sont décédés ? Combien de patients ont survécu ?
4. Commenter le contenu de chacune des variables pour les patients décédés et pour les survivants en rapportant les graphes de visualisation (boxplot, histplot…) ou les valeurs qui vous ont permis de répondre.
   - a. Est-ce que les proportions sont balancées ?
   - b. Que peut-on dire des distributions (dispersion, symétrie, variabilité, outliers, balancement…) ? Est-ce que les distributions sont similaires pour les deux groupes ?
   - c. Est-ce que les valeurs observées vous semblent cohérentes avec vos connaissances sur ces variables ?
   - d. Le jeu de données est-il complet ? Combien d'observations sont complètes ? Quel est le pourcentage de données manquante par variable ?
   - e. Les variables sont-elles corrélées entre elles ou avec la cible ?

### Contenu du jeu de données

In [None]:
print("############ II. PRISE EN MAIN JEU DE DONNEES ############")

print("\n # Contenu #")
# Nombre d'observations et de variables présentes dans le jeu de données
# aide : utiliser la fonction len()
n_obs = ... 
n_var = ...

print(
    f"\nLe jeu de données contient {n_obs} observations et {n_var} variables.")

### Variables et types

In [None]:
print("\n # Variable et types # \n")
# Affichage des variables avec leurs types dans la console
# aide : utiliser l'attribut "dtypes" du dataframe
for idx, feat_name in enumerate(dataset.columns):
    var_type = ...
    print(f"{feat_name}: {var_type}")

### Variable cible

In [None]:
# compléter avec le nom de la variable cible
target_feat = ...
print("\n # Variable cible #")
print(f"\nLa variable cible est : {target_feat}")

# compléter avec le label associé aux décédés
n_decedes = len(dataset[dataset[target_feat] == ... ])
n_survivants = n_obs - n_decedes

print(f"{n_decedes} patients sont décédés.")
print(f"{n_survivants} patients ont survécu.")

### Visualisation des répartitions et distributions
aide : https://python-graph-gallery.com/ propose un ensemble de façons de visualiser des données ainsi que des exemples, choisissez ceux qui vous paraissent pertinents.


In [2]:
print("\n # Affichage des repartitions, distributions... #")
# Generer des graphes de visualisation (density, boxplot, violinplot, barplot...)
# compléter ici






 # Affichage des repartitions, distributions... #


### Données manquantes

In [None]:
print("\n # Données manquantes #")

print('\n --> sur le jeu entier')
# compléter pour obtenir le nombre d'observation avec au moins une valeur manquante
# sur l'ensemble du dataset
# aide : utiliser la fonction isna(), any(axis=1) et sum() du dataframe

n_with_one_missing = ...

print("%s observations sur %s ont au moins une valeur manquante (%.2f%%)" %
      (n_with_one_missing, n_obs, n_with_one_missing/n_obs*100))

In [None]:
print('\n --> par variable')
# compléter pour obtenir le nombre de données manquantes par variable
# aide : utiliser les fonctions isna() et sum() du dataframe
for feat_name in list(dataset.columns):
    n_missing_number = ... 
    percent_missing = round(n_missing_number/n_obs*100, 2)
    print(f"{feat_name}: {percent_missing} %")

### Corrélation entre variables

In [None]:
print("\n # Correlation #")
# aide : utiliser la fonction corr() de DataFrame

corr_matrix = ...

plt.figure()
sns.heatmap(corr_matrix, annot=True)
plt.show()