In [1]:
# Importing necessary libraries for data cleaning
import pandas as pd

# Loading the dataset
data = pd.read_csv("/home/hassan/Desktop/HeartDiseaseAnalysis/data/HeartDisease.csv")

# 1. Création des groupes d'âge

In [2]:
# Définition des intervalles d'âge et des étiquettes de groupe
age_bins = [0, 29, 39, 49, 59, 69, 79, 89]
age_labels = ['<30', '30-39', '40-49', '50-59', '60-69', '70-79', '80+']
data['age_group'] = pd.cut(data['age'], bins=age_bins, labels=age_labels)
print("Groupes d'âge ajoutés avec succès.")

Groupes d'âge ajoutés avec succès.


In [3]:
data

Unnamed: 0,age,sex,chest_pain_type,resting_blood_pressure,cholestoral,fasting_blood_sugar,rest_ecg,Max_heart_rate,exercise_induced_angina,oldpeak,slope,vessels_colored_by_flourosopy,thalassemia,target,age_group
0,52,Male,Typical angina,125,212,Lower than 120 mg/ml,ST-T wave abnormality,168,No,1.0,Downsloping,Two,Reversable Defect,0,50-59
1,53,Male,Typical angina,140,203,Greater than 120 mg/ml,Normal,155,Yes,3.1,Upsloping,Zero,Reversable Defect,0,50-59
2,70,Male,Typical angina,145,174,Lower than 120 mg/ml,ST-T wave abnormality,125,Yes,2.6,Upsloping,Zero,Reversable Defect,0,70-79
3,61,Male,Typical angina,148,203,Lower than 120 mg/ml,ST-T wave abnormality,161,No,0.0,Downsloping,One,Reversable Defect,0,60-69
4,62,Female,Typical angina,138,294,Greater than 120 mg/ml,ST-T wave abnormality,106,No,1.9,Flat,Three,Fixed Defect,0,60-69
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1020,59,Male,Atypical angina,140,221,Lower than 120 mg/ml,ST-T wave abnormality,164,Yes,0.0,Downsloping,Zero,Fixed Defect,1,50-59
1021,60,Male,Typical angina,125,258,Lower than 120 mg/ml,Normal,141,Yes,2.8,Flat,One,Reversable Defect,0,60-69
1022,47,Male,Typical angina,110,275,Lower than 120 mg/ml,Normal,118,Yes,1.0,Flat,One,Fixed Defect,0,40-49
1023,50,Female,Typical angina,110,254,Lower than 120 mg/ml,Normal,159,No,0.0,Downsloping,Zero,Fixed Defect,1,50-59


# 2. Création des catégories de cholestérol

In [4]:
# Définition des intervalles de cholestérol et des étiquettes
cholesterol_bins = [0, 200, 240, 600]  # Standard values for desirable, borderline, and high
cholesterol_labels = ['Desirable', 'Borderline High', 'High']
data['cholesterol_category'] = pd.cut(data['cholestoral'], bins=cholesterol_bins, labels=cholesterol_labels)
print("Catégories de cholestérol ajoutées avec succès.")

Catégories de cholestérol ajoutées avec succès.


In [5]:
data

Unnamed: 0,age,sex,chest_pain_type,resting_blood_pressure,cholestoral,fasting_blood_sugar,rest_ecg,Max_heart_rate,exercise_induced_angina,oldpeak,slope,vessels_colored_by_flourosopy,thalassemia,target,age_group,cholesterol_category
0,52,Male,Typical angina,125,212,Lower than 120 mg/ml,ST-T wave abnormality,168,No,1.0,Downsloping,Two,Reversable Defect,0,50-59,Borderline High
1,53,Male,Typical angina,140,203,Greater than 120 mg/ml,Normal,155,Yes,3.1,Upsloping,Zero,Reversable Defect,0,50-59,Borderline High
2,70,Male,Typical angina,145,174,Lower than 120 mg/ml,ST-T wave abnormality,125,Yes,2.6,Upsloping,Zero,Reversable Defect,0,70-79,Desirable
3,61,Male,Typical angina,148,203,Lower than 120 mg/ml,ST-T wave abnormality,161,No,0.0,Downsloping,One,Reversable Defect,0,60-69,Borderline High
4,62,Female,Typical angina,138,294,Greater than 120 mg/ml,ST-T wave abnormality,106,No,1.9,Flat,Three,Fixed Defect,0,60-69,High
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1020,59,Male,Atypical angina,140,221,Lower than 120 mg/ml,ST-T wave abnormality,164,Yes,0.0,Downsloping,Zero,Fixed Defect,1,50-59,Borderline High
1021,60,Male,Typical angina,125,258,Lower than 120 mg/ml,Normal,141,Yes,2.8,Flat,One,Reversable Defect,0,60-69,High
1022,47,Male,Typical angina,110,275,Lower than 120 mg/ml,Normal,118,Yes,1.0,Flat,One,Fixed Defect,0,40-49,High
1023,50,Female,Typical angina,110,254,Lower than 120 mg/ml,Normal,159,No,0.0,Downsloping,Zero,Fixed Defect,1,50-59,High


# 3. Création d'une nouvelle caractéristique binaire : "Hypertension"

In [6]:
# Si la pression artérielle au repos est supérieure à 130 (seuil commun pour l'hypertension)
data['hypertension'] = data['resting_blood_pressure'].apply(lambda x: 1 if x > 130 else 0)
print("Caractéristique binaire 'Hypertension' ajoutée avec succès.")

Caractéristique binaire 'Hypertension' ajoutée avec succès.


# 4. Création d'une nouvelle caractéristique pour les personnes âgées

In [7]:
# Ajouter une colonne binaire pour marquer les individus de 60 ans et plus
data['senior'] = data['age'].apply(lambda x: 1 if x >= 60 else 0)
print("Caractéristique binaire 'Senior' ajoutée avec succès.")

Caractéristique binaire 'Senior' ajoutée avec succès.


# 5. Création de la caractéristique "Heart_rate_level"

In [8]:
# Catégorisation de la fréquence cardiaque maximale
heart_rate_bins = [0, 100, 140, 180, 250]
heart_rate_labels = ['Low', 'Normal', 'High', 'Very High']
data['heart_rate_level'] = pd.cut(data['Max_heart_rate'], bins=heart_rate_bins, labels=heart_rate_labels)
print("Caractéristique 'Heart_rate_level' ajoutée avec succès.")

Caractéristique 'Heart_rate_level' ajoutée avec succès.


# Vérification

In [9]:
# Vérification des nouvelles colonnes ajoutées
print("\nAperçu des premières lignes avec les nouvelles caractéristiques ajoutées :")
print(data.head())


Aperçu des premières lignes avec les nouvelles caractéristiques ajoutées :
   age     sex chest_pain_type  resting_blood_pressure  cholestoral  \
0   52    Male  Typical angina                     125          212   
1   53    Male  Typical angina                     140          203   
2   70    Male  Typical angina                     145          174   
3   61    Male  Typical angina                     148          203   
4   62  Female  Typical angina                     138          294   

      fasting_blood_sugar               rest_ecg  Max_heart_rate  \
0    Lower than 120 mg/ml  ST-T wave abnormality             168   
1  Greater than 120 mg/ml                 Normal             155   
2    Lower than 120 mg/ml  ST-T wave abnormality             125   
3    Lower than 120 mg/ml  ST-T wave abnormality             161   
4  Greater than 120 mg/ml  ST-T wave abnormality             106   

  exercise_induced_angina  oldpeak        slope vessels_colored_by_flourosopy  \
0      

In [10]:
# Aperçu des types de données pour vérifier les nouvelles colonnes
print("\nTypes de données après ajout des nouvelles caractéristiques :")
print(data.dtypes)


Types de données après ajout des nouvelles caractéristiques :
age                                 int64
sex                                object
chest_pain_type                    object
resting_blood_pressure              int64
cholestoral                         int64
fasting_blood_sugar                object
rest_ecg                           object
Max_heart_rate                      int64
exercise_induced_angina            object
oldpeak                           float64
slope                              object
vessels_colored_by_flourosopy      object
thalassemia                        object
target                              int64
age_group                        category
cholesterol_category             category
hypertension                        int64
senior                              int64
heart_rate_level                 category
dtype: object
