# Global Health Statistics - Kaggle

### À propos du Dataset
Cet ensemble de données fournit des statistiques complètes sur la santé mondiale, en se concentrant sur diverses maladies, traitements et résultats. Les données couvrent plusieurs pays et années, offrant des informations précieuses pour la recherche en santé, les études épidémiologiques et les applications d'apprentissage automatique. L'ensemble de données comprend des informations sur la prévalence, l'incidence et les taux de mortalité des maladies majeures, ainsi que sur l'efficacité des traitements et de l'infrastructure de soins de santé.

## Descriptions des colonnes
Country : Le nom du pays où les données de santé ont été enregistrées.

Year : L'année au cours de laquelle les données ont été collectées.

Disease name : Le nom de la maladie ou de l'état de santé suivi.

Disease Category : La catégorie de la maladie (par exemple, infectieuse, non transmissible).

Prevalence Rate (%) : Le pourcentage de la population touchée par la maladie.

Incidence Rate (%) : Le pourcentage de cas nouveaux ou de cas nouvellement diagnostiqués.

Mortality Rate (%) : Le pourcentage de la population touchée qui meurt de la maladie.

Age Group : La tranche d'âge la plus touchée par la maladie.

Gender : Le(s) sexe(s) affecté(s) par la maladie (Homme, Femme, les deux).

Population Affected : Le nombre total d'individus touchés par la maladie.

Healthcare Access (%) : Le pourcentage de la population ayant accès aux soins de santé.

Doctors per 1000 : Le nombre de médecins pour 1000 personnes.

Hospital Beds per 1000 : Le nombre de lits d'hôpitaux disponibles pour 1000 personnes.

Treatment Type : La principale méthode de traitement de la maladie (par exemple, les médicaments, la chirurgie).

Average Treatment Cost (USD) : Le coût moyen du traitement de la maladie en USD.

Availability of Vaccines/Treatment : Si des vaccins ou des traitements sont disponibles.

Recovery Rate (%) : Le pourcentage de personnes qui se remettent de la maladie.

DALYs : Années de vie ajustées au handicap, une mesure du fardeau de la maladie.

Improvement in 5 Years (%) : L'amélioration des résultats de la maladie au cours des cinq dernières années.

Per Capita Income (USD) : Le revenu moyen par personne dans le pays.

Education Index : Le niveau moyen d'éducation dans le pays.

Urbanization Rate (%) : Le pourcentage de la population vivant dans les zones urbaines.

In [3]:
import pandas as pd
import streamlit as st

df = pd.read_csv("../ProjetDM/data/healthstatistics.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 22 columns):
 #   Column                              Non-Null Count    Dtype  
---  ------                              --------------    -----  
 0   Country                             1000000 non-null  object 
 1   Year                                1000000 non-null  int64  
 2   Disease Name                        1000000 non-null  object 
 3   Disease Category                    1000000 non-null  object 
 4   Prevalence Rate (%)                 1000000 non-null  float64
 5   Incidence Rate (%)                  1000000 non-null  float64
 6   Mortality Rate (%)                  1000000 non-null  float64
 7   Age Group                           1000000 non-null  object 
 8   Gender                              1000000 non-null  object 
 9   Population Affected                 1000000 non-null  int64  
 10  Healthcare Access (%)               1000000 non-null  float64
 11  Doctors per 

In [42]:
cat_cols = [
    "Country",
    "Disease Name",
    "Disease Category",
    "Age Group",
    "Gender",
    "Treatment Type",
    "Availability of Vaccines/Treatment"
]

for col in cat_cols:
    df[col] = df[col].astype(str).str.strip().str.title()
    df[col] = df[col].astype("category")
 #### Mettre les collonnes catégorielles en category pour optimiser la place

In [44]:
print("Plage temporelle :", df["Year"].min(), "→", df["Year"].max())


Plage temporelle : 2000 → 2024


In [45]:
df.isna().sum() ### le Dataset est propre, aucune erreur

Country                               0
Year                                  0
Disease Name                          0
Disease Category                      0
Prevalence Rate (%)                   0
Incidence Rate (%)                    0
Mortality Rate (%)                    0
Age Group                             0
Gender                                0
Population Affected                   0
Healthcare Access (%)                 0
Doctors per 1000                      0
Hospital Beds per 1000                0
Treatment Type                        0
Average Treatment Cost (USD)          0
Availability of Vaccines/Treatment    0
Recovery Rate (%)                     0
DALYs                                 0
Improvement in 5 Years (%)            0
Per Capita Income (USD)               0
Education Index                       0
Urbanization Rate (%)                 0
dtype: int64

In [6]:
df.groupby("Country")["Mortality Rate (%)"].describe()

  df.groupby("Country")["Mortality Rate (%)"].describe()


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Argentina,49798.0,5.043,2.864172,0.1,2.56,5.03,7.53,10.0
Australia,49953.0,5.0531,2.860372,0.1,2.58,5.05,7.53,10.0
Brazil,49687.0,5.062834,2.863032,0.1,2.58,5.08,7.55,10.0
Canada,50114.0,5.039311,2.857012,0.1,2.57,5.02,7.53,10.0
China,50066.0,5.052353,2.851567,0.1,2.58,5.05,7.51,10.0
France,49943.0,5.071906,2.856287,0.1,2.6,5.09,7.545,10.0
Germany,50176.0,5.062364,2.855536,0.1,2.6,5.07,7.54,10.0
India,49760.0,5.048486,2.849508,0.1,2.58,5.06,7.5,10.0
Indonesia,49756.0,5.050057,2.864195,0.1,2.59,5.02,7.53,10.0
Italy,49839.0,5.033974,2.857321,0.1,2.56,5.04,7.5,10.0


In [7]:
df.groupby("Disease Name")["Recovery Rate (%)"].mean()

  df.groupby("Disease Name")["Recovery Rate (%)"].mean()


Disease Name
Alzheimer'S Disease    74.538244
Asthma                 74.452923
Cancer                 74.446244
Cholera                74.562658
Covid-19               74.478060
Dengue                 74.487542
Diabetes               74.517525
Ebola                  74.463872
Hepatitis              74.575893
Hiv/Aids               74.503783
Hypertension           74.566580
Influenza              74.480686
Leprosy                74.502096
Malaria                74.433181
Measles                74.525884
Parkinson'S Disease    74.510787
Polio                  74.406516
Rabies                 74.465487
Tuberculosis           74.496974
Zika                   74.524676
Name: Recovery Rate (%), dtype: float64

In [8]:
df.groupby(["Country","Disease Name"]).size().reset_index(name="Count")

  df.groupby(["Country","Disease Name"]).size().reset_index(name="Count")


Unnamed: 0,Country,Disease Name,Count
0,Argentina,Alzheimer'S Disease,2453
1,Argentina,Asthma,2550
2,Argentina,Cancer,2455
3,Argentina,Cholera,2462
4,Argentina,Covid-19,2600
...,...,...,...
395,Usa,Parkinson'S Disease,2478
396,Usa,Polio,2555
397,Usa,Rabies,2480
398,Usa,Tuberculosis,2470


In [18]:
(
    df.groupby(["Country", "Disease Name"])
      .size()
      .reset_index(name="Count")
      .sort_values(["Country", "Count"], ascending=[True, False,])
      .groupby("Country")
      .head(5)
)


  df.groupby(["Country", "Disease Name"])
  .groupby("Country")


Unnamed: 0,Country,Disease Name,Count
4,Argentina,Covid-19,2600
11,Argentina,Influenza,2576
1,Argentina,Asthma,2550
18,Argentina,Tuberculosis,2543
14,Argentina,Measles,2535
...,...,...,...
392,Usa,Leprosy,2587
393,Usa,Malaria,2563
396,Usa,Polio,2555
388,Usa,Hepatitis,2525


In [31]:
print("STATISTIQUES DES VARIABLES NUMÉRIQUES :")
df.describe().T

STATISTIQUES DES VARIABLES NUMÉRIQUES :


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Year,1000000.0,2011.996999,7.217287,2000.0,2006.0,2012.0,2018.0,2024.0
Prevalence Rate (%),1000000.0,10.047992,5.740189,0.1,5.09,10.04,15.01,20.0
Incidence Rate (%),1000000.0,7.555005,4.298947,0.1,3.84,7.55,11.28,15.0
Mortality Rate (%),1000000.0,5.049919,2.859427,0.1,2.58,5.05,7.53,10.0
Population Affected,1000000.0,500735.427363,288660.116648,1000.0,250491.25,501041.0,750782.0,1000000.0
Healthcare Access (%),1000000.0,74.987835,14.436345,50.0,62.47,75.0,87.49,100.0
Doctors per 1000,1000000.0,2.747929,1.299067,0.5,1.62,2.75,3.87,5.0
Hospital Beds per 1000,1000000.0,5.245931,2.742865,0.5,2.87,5.24,7.62,10.0
Average Treatment Cost (USD),1000000.0,25010.313665,14402.279227,100.0,12538.0,24980.0,37493.0,50000.0
Recovery Rate (%),1000000.0,74.496934,14.155168,50.0,62.22,74.47,86.78,99.0


In [None]:
print("Nombre de pays :", df["Country"].nunique())
print("Nombre de maladies :", df["Disease Name"].nunique())
print("Catégories de maladies :")
print(df["Disease Category"].value_counts())


Nombre de pays : 20
Nombre de maladies : 20
Catégories de maladies :
Disease Category
Metabolic         91332
Parasitic         91178
Autoimmune        91153
Genetic           91153
Neurological      91000
Cardiovascular    90968
Viral             90910
Infectious        90764
Respiratory       90588
Bacterial         90509
Chronic           90445
Name: count, dtype: int64


In [36]:
print("\nCorrélation Access ↔ Mortalité :\n")
print(df[["Healthcare Access (%)", "Mortality Rate (%)"]].corr())


Corrélation Access ↔ Mortalité :

                       Healthcare Access (%)  Mortality Rate (%)
Healthcare Access (%)               1.000000            0.000077
Mortality Rate (%)                  0.000077            1.000000


In [37]:
print("\nCorrélation Income ↔ Recovery :\n")
print(df[["Per Capita Income (USD)", "Recovery Rate (%)"]].corr())


Corrélation Income ↔ Recovery :

                         Per Capita Income (USD)  Recovery Rate (%)
Per Capita Income (USD)                 1.000000           0.000287
Recovery Rate (%)                       0.000287           1.000000


In [38]:
print("\nCorrélation Education ↔ DALYs :\n")
print(df[["Education Index", "DALYs"]].corr())


Corrélation Education ↔ DALYs :

                 Education Index   DALYs
Education Index           1.0000 -0.0005
DALYs                    -0.0005  1.0000


In [39]:
print("\nTOP 10 pays les plus touchés :\n")
print(df.groupby("Country")["Population Affected"].sum().sort_values(ascending=False).head(10))


TOP 10 pays les plus touchés :

Country
Russia          25297058048
Germany         25251120468
South Africa    25226532937
South Korea     25098293076
Uk              25086885602
Canada          25083919918
Mexico          25075327337
Usa             25046576121
Nigeria         25029926771
China           25018303352
Name: Population Affected, dtype: int64


  print(df.groupby("Country")["Population Affected"].sum().sort_values(ascending=False).head(10))


In [40]:
print("\nTOP 10 maladies les plus mortelles :\n")
print(df.groupby("Disease Name")["Mortality Rate (%)"].mean().sort_values(ascending=False).head(10))


TOP 10 maladies les plus mortelles :

Disease Name
Parkinson'S Disease    5.069338
Cancer                 5.068933
Rabies                 5.063906
Influenza              5.057569
Zika                   5.056438
Hepatitis              5.054698
Alzheimer'S Disease    5.054600
Diabetes               5.054599
Malaria                5.054245
Covid-19               5.053743
Name: Mortality Rate (%), dtype: float64


  print(df.groupby("Disease Name")["Mortality Rate (%)"].mean().sort_values(ascending=False).head(10))


In [41]:
print("\nCoût moyen par catégorie :\n")
print(df.groupby("Disease Category")["Average Treatment Cost (USD)"].mean().sort_values(ascending=False))


Coût moyen par catégorie :

Disease Category
Autoimmune        25124.453381
Respiratory       25066.355632
Infectious        25021.655117
Cardiovascular    25019.609335
Chronic           25019.360949
Neurological      25017.514703
Genetic           24991.234814
Parasitic         24972.076740
Metabolic         24964.149170
Viral             24959.072181
Bacterial         24958.060657
Name: Average Treatment Cost (USD), dtype: float64


  print(df.groupby("Disease Category")["Average Treatment Cost (USD)"].mean().sort_values(ascending=False))
