In [2]:
%pip install pandas scikit-learn

Collecting pandas
  Using cached pandas-2.3.3-cp311-cp311-win_amd64.whl.metadata (19 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting numpy>=1.23.2 (from pandas)
  Downloading numpy-2.3.4-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.9 kB ? eta -:--:--
     ---------------------------------------- 60.9/60.9 kB 3.4 MB/s eta 0:00:00
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.2-cp311-cp311-win_amd64.whl.metadata (60 kB)
     ---------------------------------------- 0.0/60.8 kB ? eta -:--:--
     ---------------------------------------- 60.8/60.8 kB 3.2 MB/s eta 0:00:00
Collecting joblib>=1.2.0 (from scikit-learn)
  Using cached joblib-1.5.2-p


[notice] A new release of pip is available: 24.0 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd


In [5]:
diabetes = pd.read_csv("data/dataset-diabete.csv")
heart = pd.read_csv("data/heart.csv")
kidney = pd.read_csv("data/kidney_disease.csv")
hyper = pd.read_csv("data/Hypertension_data.csv")

In [6]:
diabetes.head()

Unnamed: 0.1,Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,0,6,148,72,35,0,33.6,0.627,50
1,1,1,85,66,29,0,26.6,0.351,31
2,2,8,183,64,0,0,23.3,0.672,32
3,3,1,89,66,23,94,28.1,0.167,21
4,4,0,137,40,35,168,43.1,2.288,33


In [16]:
diabetes.columns

Index(['Unnamed: 0', 'Pregnancies', 'Glucose', 'BloodPressure',
       'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age'],
      dtype='object')

| 🧱 Colonne                   | 💬 Signification médicale                    | 🎯 Utile pour diagnostic ? | 🏷️ Nom standardisé pour fusion | 🧠 Commentaire                                                                                          |
| ---------------------------- | -------------------------------------------- | -------------------------- | ------------------------------- | ------------------------------------------------------------------------------------------------------- |
| **Unnamed: 0**               | Index automatique (numéro de ligne)          | 🚫 Non                     | *(supprimer)*                   | Généré automatiquement, inutile.                                                                        |
| **Pregnancies**              | Nombre de grossesses (utile pour les femmes) | ⚠️ Facultatif              | `pregnancies`                   | Spécifique à la population féminine, tu peux le garder mais il ne s’applique pas à toutes les maladies. |
| **Glucose**                  | Niveau de glucose dans le sang (mg/dL)       | ✅ Oui                      | `glucose`                       | Indicateur clé du diabète et du métabolisme.                                                            |
| **BloodPressure**            | Pression artérielle (mmHg)                   | ✅ Oui                      | `bp`                            | Indicateur général de santé cardiovasculaire et rénale.                                                 |
| **SkinThickness**            | Épaisseur du pli cutané (mm)                 | ⚠️ Moyennement utile       | `skin_thickness`                | Représente la masse grasse. Peut être ignoré si les autres datasets ne l’ont pas.                       |
| **Insulin**                  | Niveau d’insuline (mu U/ml)                  | ✅ Oui                      | `insulin`                       | Important pour détecter le diabète. Peut avoir beaucoup de zéros.                                       |
| **BMI**                      | Indice de masse corporelle                   | ✅ Oui                      | `bmi`                           | Indicateur fort de risque de diabète / cœur.                                                            |
| **DiabetesPedigreeFunction** | Probabilité héréditaire de diabète           | ⚠️ Spécifique              | `pedigree`                      | Indique prédisposition génétique au diabète. Spécifique, donc pas idéal pour fusion.                    |
| **Age**                      | Âge du patient                               | ✅ Oui                      | `age`                           | Indispensable pour tous les diagnostics.                                                                |


In [7]:
diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Unnamed: 0                768 non-null    int64  
 1   Pregnancies               768 non-null    int64  
 2   Glucose                   768 non-null    int64  
 3   BloodPressure             768 non-null    int64  
 4   SkinThickness             768 non-null    int64  
 5   Insulin                   768 non-null    int64  
 6   BMI                       768 non-null    float64
 7   DiabetesPedigreeFunction  768 non-null    float64
 8   Age                       768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [18]:

# Supprimer l’index inutile
diabetes = diabetes.drop(columns=['Unnamed: 0'])

# Renommer les colonnes pour correspondre au format standard
diabetes.rename(columns={
    'Pregnancies': 'pregnancies',
    'Glucose': 'glucose',
    'BloodPressure': 'bp',
    'SkinThickness': 'skin_thickness',
    'Insulin': 'insulin',
    'BMI': 'bmi',
    'DiabetesPedigreeFunction': 'pedigree',
    'Age': 'age'
}, inplace=True)

# Ajouter la colonne type de maladie
diabetes['disease_type'] = 'diabetes'

# Garder les colonnes principales pour fusion
cols_to_keep = ['age', 'bp', 'glucose', 'bmi', 'disease_type']
diabetes= diabetes[cols_to_keep]

# Sauvegarder le dataset nettoyé
diabetes.to_csv("data/diabetes_clean.csv", index=False)

print(diabetes.head())


   age  bp  glucose   bmi disease_type
0   50  72      148  33.6     diabetes
1   31  66       85  26.6     diabetes
2   32  64      183  23.3     diabetes
3   21  66       89  28.1     diabetes
4   33  40      137  43.1     diabetes


In [8]:
heart.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,52,1,0,125,212,0,1,168,0,1.0,2,2,3,0
1,53,1,0,140,203,1,0,155,1,3.1,0,0,3,0
2,70,1,0,145,174,0,1,125,1,2.6,0,0,3,0
3,61,1,0,148,203,0,1,161,0,0.0,2,1,3,0
4,62,0,0,138,294,1,1,106,0,1.9,1,3,2,0


In [19]:
heart.columns

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')

| 🧱 Colonne   | 💬 Signification médicale                        | 🎯 Utile pour diagnostic global ? | 🏷️ Nom standardisé pour fusion | 💡 Commentaire                                                     |
| ------------ | ------------------------------------------------ | --------------------------------- | ------------------------------- | ------------------------------------------------------------------ |
| **age**      | Âge du patient                                   | ✅ Oui                             | `age`                           | Indispensable, très corrélé aux maladies chroniques.               |
| **sex**      | Sexe (1 = homme, 0 = femme)                      | ⚙️ Oui                            | `sex`                           | Peut être conservé, utile pour certaines maladies (diabète, cœur). |
| **cp**       | Type de douleur thoracique (0–3)                 | ⚠️ Spécifique au cœur             | *(optionnel)*                   | Utile uniquement pour les maladies cardiaques.                     |
| **trestbps** | Pression artérielle au repos (mmHg)              | ✅ Oui                             | `bp`                            | Équivalent à `BloodPressure` du dataset diabète.                   |
| **chol**     | Taux de cholestérol sérique (mg/dL)              | ✅ Oui                             | `cholesterol`                   | Indicateur important de risque cardiovasculaire.                   |
| **fbs**      | Sucre à jeun > 120 mg/dL (1 = vrai, 0 = faux)    | ✅ Oui                             | `glucose_high` ou `glucose`     | Représente une mesure de glucose indirecte.                        |
| **restecg**  | Résultats électrocardiographiques au repos       | ⚠️ Spécifique                     | *(optionnel)*                   | Ne sera pas présent dans d’autres datasets.                        |
| **thalach**  | Fréquence cardiaque maximale atteinte            | ✅ Oui                             | `heart_rate_max`                | Mesure utile pour la santé cardiaque générale.                     |
| **exang**    | Angine induite par exercice (1 = oui, 0 = non)   | ⚠️ Spécifique                     | *(optionnel)*                   | Très spécifique au cœur.                                           |
| **oldpeak**  | Dépression ST induite par exercice (mm)          | ⚠️ Spécifique                     | *(optionnel)*                   | Spécifique à l’effort cardiaque.                                   |
| **slope**    | Pente du segment ST                              | ⚠️ Spécifique                     | *(optionnel)*                   | Ne sera pas utile hors contexte cardiaque.                         |
| **ca**       | Nombre de vaisseaux majeurs colorés (0–3)        | ⚠️ Spécifique                     | *(optionnel)*                   | Seulement pour maladies cardiaques.                                |
| **thal**     | Résultat du test de thalassémie                  | ⚠️ Spécifique                     | *(optionnel)*                   | Spécifique au dataset cœur.                                        |
| **target**   | Présence de maladie cardiaque (1 = oui, 0 = non) | ✅ Oui                             | `target`                        | La variable cible.                                                 |


| Colonne standard | Source / calcul                                                |
| ---------------- | -------------------------------------------------------------- |
| `age`            | `age`                                                          |
| `bp`             | `trestbps`                                                     |
| `cholesterol`    | `chol`                                                         |
| `glucose`        | `fbs * 120` *(approximation : 0→0, 1→120)*                     |
| `bmi`            | `NaN` *(sera rempli plus tard si fusion avec dataset qui l’a)* |
| `disease_type`   | `"heart_disease"`                                              |


In [9]:
heart.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1025 entries, 0 to 1024
Data columns (total 14 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1025 non-null   int64  
 1   sex       1025 non-null   int64  
 2   cp        1025 non-null   int64  
 3   trestbps  1025 non-null   int64  
 4   chol      1025 non-null   int64  
 5   fbs       1025 non-null   int64  
 6   restecg   1025 non-null   int64  
 7   thalach   1025 non-null   int64  
 8   exang     1025 non-null   int64  
 9   oldpeak   1025 non-null   float64
 10  slope     1025 non-null   int64  
 11  ca        1025 non-null   int64  
 12  thal      1025 non-null   int64  
 13  target    1025 non-null   int64  
dtypes: float64(1), int64(13)
memory usage: 112.2 KB


In [20]:

# Renommer les colonnes principales
heart.rename(columns={
    'trestbps': 'bp',
    'chol': 'cholesterol',
    'fbs': 'glucose_indicator',
    'target': 'target'
}, inplace=True)

# Créer la colonne glucose approximative
heart['glucose'] = heart['glucose_indicator'] * 120  # 0 => 0, 1 => 120 mg/dL

# Ajouter la colonne BMI (non disponible ici)
heart['bmi'] = None

# Ajouter la colonne type de maladie
heart['disease_type'] = 'heart_disease'

# Garder les colonnes principales pour la fusion
cols_to_keep = ['age', 'bp', 'cholesterol', 'glucose', 'bmi', 'disease_type']
heart = heart[cols_to_keep]

# Sauvegarder le dataset nettoyé
heart.to_csv("data/heart_clean.csv", index=False)

print(heart.head())


   age   bp  cholesterol  glucose   bmi   disease_type
0   52  125          212        0  None  heart_disease
1   53  140          203      120  None  heart_disease
2   70  145          174        0  None  heart_disease
3   61  148          203        0  None  heart_disease
4   62  138          294      120  None  heart_disease


In [10]:
kidney.head()

Unnamed: 0,id,age,bp,sg,al,su,rbc,pc,pcc,ba,...,pcv,wc,rc,htn,dm,cad,appet,pe,ane,classification
0,0,48.0,80.0,1.02,1.0,0.0,,normal,notpresent,notpresent,...,44,7800,5.2,yes,yes,no,good,no,no,ckd
1,1,7.0,50.0,1.02,4.0,0.0,,normal,notpresent,notpresent,...,38,6000,,no,no,no,good,no,no,ckd
2,2,62.0,80.0,1.01,2.0,3.0,normal,normal,notpresent,notpresent,...,31,7500,,no,yes,no,poor,no,yes,ckd
3,3,48.0,70.0,1.005,4.0,0.0,normal,abnormal,present,notpresent,...,32,6700,3.9,yes,no,no,poor,yes,yes,ckd
4,4,51.0,80.0,1.01,2.0,0.0,normal,normal,notpresent,notpresent,...,35,7300,4.6,no,no,no,good,no,no,ckd


In [21]:
kidney.columns

Index(['id', 'age', 'bp', 'sg', 'al', 'su', 'rbc', 'pc', 'pcc', 'ba', 'bgr',
       'bu', 'sc', 'sod', 'pot', 'hemo', 'pcv', 'wc', 'rc', 'htn', 'dm', 'cad',
       'appet', 'pe', 'ane', 'classification'],
      dtype='object')

| 🧱 Colonne         | 💬 Signification médicale            | 🎯 Utile pour diagnostic global ? | 🏷️ Nom standardisé pour fusion | 💡 Commentaire                                                      |
| ------------------ | ------------------------------------ | --------------------------------- | ------------------------------- | ------------------------------------------------------------------- |
| **id**             | Identifiant patient                  | 🚫 Non                            | *(supprimer)*                   | Simple index, inutile pour l’analyse.                               |
| **age**            | Âge du patient                       | ✅ Oui                             | `age`                           | Indispensable, présent dans tous les datasets.                      |
| **bp**             | Pression artérielle (mmHg)           | ✅ Oui                             | `bp`                            | Très utile, comparable à `trestbps` (cœur).                         |
| **sg**             | Densité spécifique de l’urine        | ⚠️ Spécifique                     | *(optionnel)*                   | Indicateur rénal, pas généralisable.                                |
| **al**             | Albumine (protéine dans l’urine)     | ⚠️ Moyennement utile              | *(optionnel)*                   | Indique une atteinte rénale.                                        |
| **su**             | Sucre (dans l’urine)                 | ✅ Oui                             | `glucose`                       | Peut être assimilé à une mesure indirecte du glucose.               |
| **rbc**            | Globules rouges                      | ⚠️ Spécifique                     | *(optionnel)*                   | Indique une atteinte rénale ou urinaire.                            |
| **pc**             | Cellules épithéliales dans l’urine   | ⚠️ Spécifique                     | *(optionnel)*                   | Moins utile globalement.                                            |
| **pcc**            | Cellules pyocytaires (infection)     | ⚠️ Spécifique                     | *(optionnel)*                   | Infection urinaire / inflammation.                                  |
| **ba**             | Bactéries dans l’urine               | ⚠️ Spécifique                     | *(optionnel)*                   | Spécifique aux infections urinaires.                                |
| **bgr**            | Taux de glucose dans le sang (mg/dL) | ✅ Oui                             | `glucose`                       | Très utile — correspond directement à “Glucose” du dataset diabète. |
| **bu**             | Urée sanguine                        | ⚠️ Spécifique                     | *(optionnel)*                   | Indicateur rénal.                                                   |
| **sc**             | Créatinine sérique                   | ✅ Oui                             | `creatinine`                    | Indicateur clé du fonctionnement rénal.                             |
| **sod**            | Sodium sanguin                       | ⚠️ Spécifique                     | *(optionnel)*                   | Électrolyte, utile mais souvent manquant ailleurs.                  |
| **pot**            | Potassium sanguin                    | ⚠️ Spécifique                     | *(optionnel)*                   | Même chose, pas généralisable.                                      |
| **hemo**           | Hémoglobine                          | ⚙️ Moyennement utile              | `hemoglobin`                    | Liée à la santé générale, utile si présente ailleurs.               |
| **pcv**            | Volume de cellules packées           | ⚠️ Spécifique                     | *(optionnel)*                   | Rarement présent dans autres datasets.                              |
| **wc**             | Globules blancs                      | ⚠️ Spécifique                     | *(optionnel)*                   | Inflammation / infection.                                           |
| **rc**             | Globules rouges (comptage)           | ⚠️ Spécifique                     | *(optionnel)*                   | Rarement présent ailleurs.                                          |
| **htn**            | Hypertension (yes/no)                | ✅ Oui                             | `hypertension`                  | Lié à la pression et au cœur.                                       |
| **dm**             | Diabète (yes/no)                     | ✅ Oui                             | `diabetes_history`              | Historique utile pour diagnostic global.                            |
| **cad**            | Maladie coronarienne (yes/no)        | ✅ Oui                             | `coronary_disease`              | Indique atteinte cardiovasculaire.                                  |
| **appet**          | Appétit (good/poor)                  | ⚙️ Faiblement utile               | *(optionnel)*                   | Peut être ignoré.                                                   |
| **pe**             | Œdème (yes/no)                       | ⚠️ Spécifique                     | *(optionnel)*                   | Spécifique aux reins.                                               |
| **ane**            | Anémie (yes/no)                      | ✅ Oui                             | `anemia`                        | Indicateur général de santé.                                        |
| **classification** | Cible (ckd / notckd)                 | ✅ Oui                             | `target`                        | Variable cible (maladie rénale).                                    |


In [12]:
kidney.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 26 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id              400 non-null    int64  
 1   age             391 non-null    float64
 2   bp              388 non-null    float64
 3   sg              353 non-null    float64
 4   al              354 non-null    float64
 5   su              351 non-null    float64
 6   rbc             248 non-null    object 
 7   pc              335 non-null    object 
 8   pcc             396 non-null    object 
 9   ba              396 non-null    object 
 10  bgr             356 non-null    float64
 11  bu              381 non-null    float64
 12  sc              383 non-null    float64
 13  sod             313 non-null    float64
 14  pot             312 non-null    float64
 15  hemo            348 non-null    float64
 16  pcv             330 non-null    object 
 17  wc              295 non-null    obj

In [22]:
import pandas as pd
import numpy as np

# Renommer les colonnes pour harmonisation
kidney.rename(columns={
    'bgr': 'glucose',
    'sc': 'creatinine',
    'hemo': 'hemoglobin',
    'htn': 'hypertension',
    'dm': 'diabetes_history',
    'ane': 'anemia',
    'classification': 'target'
}, inplace=True)

# Nettoyer les valeurs (yes/no → 1/0)
for col in ['hypertension', 'diabetes_history', 'anemia']:
    kidney[col] = kidney[col].replace({'yes': 1, 'no': 0, 'ckd': 1, 'notckd': 0})

# Ajouter la colonne type de maladie
kidney['disease_type'] = 'kidney_disease'

# Garder les colonnes utiles pour la fusion
cols_to_keep = ['age', 'bp', 'glucose', 'creatinine', 'hemoglobin', 'hypertension', 'diabetes_history', 'anemia', 'disease_type']
kidney = kidney[cols_to_keep]

# Sauvegarder la version nettoyée
kidney.to_csv("data/kidney_clean.csv", index=False)

print(kidney.head())


    age    bp  glucose  creatinine  hemoglobin  hypertension diabetes_history  \
0  48.0  80.0    121.0         1.2        15.4           1.0                1   
1   7.0  50.0      NaN         0.8        11.3           0.0                0   
2  62.0  80.0    423.0         1.8         9.6           0.0                1   
3  48.0  70.0    117.0         3.8        11.2           1.0                0   
4  51.0  80.0    106.0         1.4        11.6           0.0                0   

   anemia    disease_type  
0     0.0  kidney_disease  
1     0.0  kidney_disease  
2     1.0  kidney_disease  
3     1.0  kidney_disease  
4     0.0  kidney_disease  


  kidney[col] = kidney[col].replace({'yes': 1, 'no': 0, 'ckd': 1, 'notckd': 0})


In [13]:
hyper.head()

Unnamed: 0,education,age,BMI,currentSmoker,prevalentHyp,heartRate
0,4,33,21.61,1,0,75
1,2,34,23.88,2,0,73
2,1,34,21.5,1,0,75
3,3,34,20.81,2,0,78
4,3,34,29.04,1,0,63


In [24]:
hyper.columns

Index(['education', 'age', 'BMI', 'currentSmoker', 'prevalentHyp',
       'heartRate'],
      dtype='object')

| 🧱 Colonne        | 💬 Signification médicale        | 🎯 Utile pour diagnostic global ? | 🏷️ Nom standardisé pour fusion | 💡 Commentaire                                                                  |
| ----------------- | -------------------------------- | --------------------------------- | ------------------------------- | ------------------------------------------------------------------------------- |
| **education**     | Niveau d’éducation du patient    | ⚠️ Faiblement utile               | *(optionnel)*                   | Facteur socio-économique, peu pertinent pour le modèle immédiat.                |
| **age**           | Âge du patient                   | ✅ Oui                             | `age`                           | Indispensable, déjà utilisé dans tous les datasets.                             |
| **BMI**           | Indice de masse corporelle       | ✅ Oui                             | `bmi`                           | Déjà présent dans diabète, utile pour toutes maladies.                          |
| **currentSmoker** | Fumeur actuel (1 = oui, 2 = non) | ⚠️ Moyennement utile              | *(optionnel)*                   | Facteur de risque cardiovasculaire, mais pas présent dans les autres datasets.  |
| **prevalentHyp**  | Hypertension (0 = non, 1 = oui)  | ✅ Oui                             | `hypertension`                  | Colonne principale pour détecter l’hypertension.                                |
| **heartRate**     | Fréquence cardiaque              | ⚙️ Moyennement utile              | `heart_rate`                    | Utile comme indicateur général, peut harmoniser avec `thalach` du dataset cœur. |


In [14]:
hyper.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1007 entries, 0 to 1006
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   education      1007 non-null   int64  
 1   age            1007 non-null   int64  
 2   BMI            1007 non-null   float64
 3   currentSmoker  1007 non-null   int64  
 4   prevalentHyp   1007 non-null   int64  
 5   heartRate      1007 non-null   int64  
dtypes: float64(1), int64(5)
memory usage: 47.3 KB


In [25]:

# Renommer les colonnes principales pour harmonisation
hyper.rename(columns={
    'BMI': 'bmi',
    'prevalentHyp': 'hypertension',
    'heartRate': 'heart_rate'
}, inplace=True)

# Convertir hypertension en int (0/1)
hyper['hypertension'] = hyper['hypertension'].astype(int)

# Ajouter la colonne type de maladie
hyper['disease_type'] = 'hypertension'

# Garder les colonnes utiles pour la fusion
cols_to_keep = ['age', 'bmi', 'hypertension', 'heart_rate', 'disease_type']
hyper = hyper[cols_to_keep]

# Sauvegarder le dataset nettoyé
hyper.to_csv("data/hypertension_clean.csv", index=False)

print(hyper.head())


   age    bmi  hypertension  heart_rate  disease_type
0   33  21.61             0          75  hypertension
1   34  23.88             0          73  hypertension
2   34  21.50             0          75  hypertension
3   34  20.81             0          78  hypertension
4   34  29.04             0          63  hypertension


In [26]:

df1 = pd.read_csv("data/diabetes_clean.csv")
df2 = pd.read_csv("data/heart_clean.csv")
df3 = pd.read_csv("data/kidney_clean.csv")
df4 = pd.read_csv("data/hypertension_clean.csv")

# Fusionner tous les datasets
df_final = pd.concat([df1, df2, df3, df4], ignore_index=True)

# Sauvegarder le dataset final
df_final.to_csv("data/medical_diagnostic_dataset.csv", index=False)

print(df_final.head())
print(df_final['disease_type'].value_counts())


    age    bp  glucose   bmi disease_type  cholesterol  creatinine  \
0  50.0  72.0    148.0  33.6     diabetes          NaN         NaN   
1  31.0  66.0     85.0  26.6     diabetes          NaN         NaN   
2  32.0  64.0    183.0  23.3     diabetes          NaN         NaN   
3  21.0  66.0     89.0  28.1     diabetes          NaN         NaN   
4  33.0  40.0    137.0  43.1     diabetes          NaN         NaN   

   hemoglobin  hypertension diabetes_history  anemia  heart_rate  
0         NaN           NaN              NaN     NaN         NaN  
1         NaN           NaN              NaN     NaN         NaN  
2         NaN           NaN              NaN     NaN         NaN  
3         NaN           NaN              NaN     NaN         NaN  
4         NaN           NaN              NaN     NaN         NaN  
disease_type
heart_disease     1025
hypertension      1007
diabetes           768
kidney_disease     400
Name: count, dtype: int64


In [27]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3200 entries, 0 to 3199
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   age               3191 non-null   float64
 1   bp                2181 non-null   float64
 2   glucose           2149 non-null   float64
 3   bmi               1775 non-null   float64
 4   disease_type      3200 non-null   object 
 5   cholesterol       1025 non-null   float64
 6   creatinine        383 non-null    float64
 7   hemoglobin        348 non-null    float64
 8   hypertension      1405 non-null   float64
 9   diabetes_history  398 non-null    object 
 10  anemia            399 non-null    float64
 11  heart_rate        1007 non-null   float64
dtypes: float64(10), object(2)
memory usage: 300.1+ KB
