# **ESTADÍSTICAS SALUD GLOBAL**

Este conjunto de datos ofrece estadísticas completas sobre la salud global, con un enfoque en diversas enfermedades, tratamientos y resultados. Los datos abarcan múltiples países y años. Me gustaría hacer un análisis de estos datos para ver tipos de enfermedades por país y región del mundo y por sexo, teniendo también en cuenta el acceso a la Sanidad en cada uno de los países, dónde viven, y también hacer una comparativa por continentes.

In [1]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
os.chdir(r"/content/sample_data/")
df = pd.read_csv("Global_Health_Statistics.csv")

In [3]:
df.head()

Unnamed: 0,Country,Year,Disease Name,Disease Category,Prevalence Rate (%),Incidence Rate (%),Mortality Rate (%),Age Group,Gender,Population Affected,...,Hospital Beds per 1000,Treatment Type,Average Treatment Cost (USD),Availability of Vaccines/Treatment,Recovery Rate (%),DALYs,Improvement in 5 Years (%),Per Capita Income (USD),Education Index,Urbanization Rate (%)
0,Italy,2013,Malaria,Respiratory,0.95,1.55,8.42,0-18,Male,471007.0,...,7.58,Medication,21064.0,No,91.82,4493.0,2.16,16886.0,0.79,86.02
1,France,2002,Ebola,Parasitic,12.46,8.63,8.75,61+,Male,634318.0,...,5.11,Surgery,47851.0,Yes,76.65,2366.0,4.82,80639.0,0.74,45.52
2,Turkey,2015,COVID-19,Genetic,0.91,2.35,6.22,36-60,Male,154878.0,...,3.49,Vaccination,27834.0,Yes,98.55,41.0,5.81,12245.0,0.41,40.2
3,Indonesia,2011,Parkinson's Disease,Autoimmune,4.68,6.29,3.99,0-18,Other,446224.0,...,8.44,Surgery,144.0,Yes,67.35,3201.0,2.22,49336.0,0.49,58.47
4,Italy,2013,Tuberculosis,Genetic,0.83,13.59,7.01,61+,Male,472908.0,...,5.9,Medication,8908.0,Yes,50.06,2832.0,6.93,47701.0,0.5,48.14


Se revisa el tipo de datos del DF y si hay valores faltantes.



**Country:** Nombre del país donde se registraron los datos de salud.

**Year:** Año en que se recopilaron los datos.

**Disease Name:** Nombre de la enfermedad o condición de salud analizada.

**Disease Category:** Categoría de la enfermedad (por ejemplo, Infecciosa, No transmisible).

**Prevalence Rate (%):** Porcentaje de la población afectada por la enfermedad.

**Incidence Rate (%):** Porcentaje de casos nuevos o recién diagnosticados.

**Mortality Rate (%):** Porcentaje de la población afectada que fallece a causa de la enfermedad.

**Age Group:** Rango de edad más afectado por la enfermedad.

**Gender:** Género(s) afectados por la enfermedad (Masculino, Femenino, Ambos).

**Population Affected:** Número total de personas afectadas por la enfermedad.

**Healthcare Access (%):** Porcentaje de la población con acceso a servicios de salud.

**Doctors per 1000:** Número de médicos por cada 1000 habitantes.

**Hospital Beds per 1000**: Número de camas hospitalarias disponibles por cada 1000 habitantes.

**Treatment Type:** Método principal de tratamiento para la enfermedad (por ejemplo, Medicación, Cirugía).

**Average Treatment Cost (USD)**: Costo promedio del tratamiento en dólares estadounidenses.

**Availability of Vaccines/Treatment:** Disponibilidad de vacunas o tratamientos.

**Recovery Rate (%):** Porcentaje de personas que se recuperan de la enfermedad.

**DALYs:** Años de vida ajustados por discapacidad, una medida de la carga de enfermedad.

**Improvement in 5 Years (%):** Porcentaje de mejora en los resultados de salud en los últimos cinco años.

**Per Capita Income (USD):** Ingreso promedio por persona en el país.

**Education Index:** Nivel educativo promedio en el país.

**Urbanization Rate (%):** Porcentaje de la población que vive en zonas urbanas.









In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 78022 entries, 0 to 78021
Data columns (total 22 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Country                             78022 non-null  object 
 1   Year                                78022 non-null  int64  
 2   Disease Name                        78022 non-null  object 
 3   Disease Category                    78022 non-null  object 
 4   Prevalence Rate (%)                 78022 non-null  float64
 5   Incidence Rate (%)                  78022 non-null  float64
 6   Mortality Rate (%)                  78022 non-null  float64
 7   Age Group                           78021 non-null  object 
 8   Gender                              78021 non-null  object 
 9   Population Affected                 78021 non-null  float64
 10  Healthcare Access (%)               78021 non-null  float64
 11  Doctors per 1000                    78021

No hay valores faltantes

Reviso si los tipos de cada una de las variables son correctos, para corregirlo en caso de que no lo sean.


Primero quiero ver el tipo de enfermedades que se están analizando y dentro de la categoría de enfermedad qué enfermedades se contemplan.

In [5]:
df["Disease Category"].unique()

array(['Respiratory', 'Parasitic', 'Genetic', 'Autoimmune', 'Bacterial',
       'Cardiovascular', 'Neurological', 'Chronic', 'Metabolic',
       'Infectious', 'Viral'], dtype=object)

In [6]:
df["Disease Name"].unique()

array(['Malaria', 'Ebola', 'COVID-19', "Parkinson's Disease",
       'Tuberculosis', 'Dengue', 'Rabies', 'Cholera', 'Leprosy', 'Cancer',
       'Diabetes', 'Measles', 'Zika', "Alzheimer's Disease", 'Polio',
       'Hypertension', 'Asthma', 'HIV/AIDS', 'Influenza', 'Hepatitis'],
      dtype=object)

Obtengo la cantidad de países reflejados en este estudio y cuáles son:

In [7]:
df["Country"].unique()

array(['Italy', 'France', 'Turkey', 'Indonesia', 'Saudi Arabia', 'USA',
       'Nigeria', 'Australia', 'Canada', 'Mexico', 'China',
       'South Africa', 'Japan', 'UK', 'Russia', 'Brazil', 'Germany',
       'India', 'Argentina', 'South Korea'], dtype=object)

In [29]:
df["Country"].nunique()

20

Son **20** países, 5 en Europa, 7 en Asia, 5 en América , 2 en África y 1 en Oceanía. Voy a hacer 5 listas agrupando los países por continente pero no sé si puedo sacar buenas conclusiones, ya que el continente africano no queda bien reflejado al no incluir a Egipto, que tiene una gran población y relevancia dentro del mismo.

Creo un diccionario con estos nuevos datos que quiero añadir:

In [30]:
continentes = {
    "USA": "América",
    "Canada": "América",
    "Mexico": "América",
    "Brazil": "América",
    "Argentina": "América",

    "Turkey": "Asia",
    "Indonesia": "Asia",
    "Saudi Arabia": "Asia",
    "China": "Asia",
    "Japan": "Asia",
    "India": "Asia",
    "South Korea": "Asia",
    "Russia": "Asia",


    "Germany": "Europa",
    "France": "Europa",
    "UK": "Europa",
    "Italy": "Europa",

    "South Africa": "África",
    "Nigeria": "África",

    "Australia": "Oceanía"
}
continentes

{'USA': 'América',
 'Canada': 'América',
 'Mexico': 'América',
 'Brazil': 'América',
 'Argentina': 'América',
 'Turkey': 'Asia',
 'Indonesia': 'Asia',
 'Saudi Arabia': 'Asia',
 'China': 'Asia',
 'Japan': 'Asia',
 'India': 'Asia',
 'South Korea': 'Asia',
 'Russia': 'Asia',
 'Germany': 'Europa',
 'France': 'Europa',
 'UK': 'Europa',
 'Italy': 'Europa',
 'South Africa': 'África',
 'Nigeria': 'África',
 'Australia': 'Oceanía'}

Creo un dataframe incluyendo los continentes con sus países correspondientes

In [31]:
df["Continente"] = df["Country"].map(continentes)

In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 23 columns):
 #   Column                              Non-Null Count    Dtype  
---  ------                              --------------    -----  
 0   Country                             1000000 non-null  object 
 1   Year                                1000000 non-null  int64  
 2   Disease Name                        1000000 non-null  object 
 3   Disease Category                    1000000 non-null  object 
 4   Prevalence Rate (%)                 1000000 non-null  float64
 5   Incidence Rate (%)                  1000000 non-null  float64
 6   Mortality Rate (%)                  1000000 non-null  float64
 7   Age Group                           1000000 non-null  object 
 8   Gender                              1000000 non-null  object 
 9   Population Affected                 1000000 non-null  int64  
 10  Healthcare Access (%)               1000000 non-null  float64
 11  Doctors per 

En primer lugar analizo las enfermedades más comunes, por número de casos y asociado a la categoría de enfermedad.

In [None]:
enfermedades_comunes = df.groupby("Disease Category")["Disease Name"].value_counts().sort_values(ascending=False)
enfermedades_comunes

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Disease Category,Disease Name,Unnamed: 2_level_1
Autoimmune,Influenza,962
Metabolic,Dengue,957
Viral,Leprosy,952
Infectious,Malaria,948
Bacterial,Leprosy,947
...,...,...
Neurological,Asthma,827
Parasitic,Hypertension,821
Genetic,Measles,820
Parasitic,Alzheimer's Disease,812


Quiero ver **la distribución de enfermedades más comunes** en cada **país** analizado.

In [None]:
enfermedad_comun_pais=df.groupby(["Country","Disease Category"])["Disease Name"].value_counts().sort_values(ascending=False)
enfermedad_comun_pais

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count
Country,Disease Category,Disease Name,Unnamed: 3_level_1
Italy,Infectious,Cancer,289
Russia,Autoimmune,Hepatitis,283
China,Cardiovascular,Leprosy,279
France,Viral,Alzheimer's Disease,276
South Africa,Metabolic,Measles,276
...,...,...,...
Germany,Neurological,Measles,186
Indonesia,Genetic,Hypertension,185
Russia,Cardiovascular,Zika,185
France,Respiratory,Malaria,184


In [None]:
enfermedad_comun_continente=df.groupby(["Continente","Disease Category"])["Disease Name"].value_counts().sort_values(ascending=False)
enfermedad_comun_continente


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,count
Continente,Disease Category,Disease Name,Unnamed: 3_level_1
Asia,Metabolic,Tuberculosis,1959
Asia,Infectious,COVID-19,1903
Asia,Genetic,HIV/AIDS,1897
Asia,Viral,Dengue,1893
Asia,Metabolic,Asthma,1892
...,...,...,...
Oceanía,Autoimmune,Polio,200
Oceanía,Autoimmune,Diabetes,200
Oceanía,Bacterial,Hypertension,198
Oceanía,Neurological,Influenza,198


In [None]:
enfermedades_comunes = df.groupby("Disease Category")["Disease Name"].value_counts().unstack()
enfermedades_comunes

Disease Name,Alzheimer's Disease,Asthma,COVID-19,Cancer,Cholera,Dengue,Diabetes,Ebola,HIV/AIDS,Hepatitis,Hypertension,Influenza,Leprosy,Malaria,Measles,Parkinson's Disease,Polio,Rabies,Tuberculosis,Zika
Disease Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Autoimmune,4534,4623,4562,4526,4650,4582,4604,4465,4563,4587,4484,4687,4549,4472,4544,4569,4475,4403,4639,4635
Bacterial,4486,4534,4439,4417,4543,4479,4504,4487,4461,4667,4515,4523,4590,4707,4521,4615,4547,4510,4482,4482
Cardiovascular,4538,4492,4548,4615,4563,4605,4585,4582,4491,4526,4452,4596,4586,4540,4553,4614,4488,4657,4388,4549
Chronic,4442,4570,4573,4598,4508,4500,4529,4470,4505,4518,4528,4472,4560,4516,4431,4447,4592,4530,4504,4652
Genetic,4378,4605,4605,4564,4637,4572,4563,4578,4682,4573,4513,4440,4571,4519,4434,4545,4585,4643,4595,4551
Infectious,4530,4574,4569,4586,4493,4538,4476,4548,4575,4445,4403,4604,4689,4548,4504,4437,4659,4498,4503,4585
Metabolic,4578,4654,4647,4612,4628,4671,4614,4528,4555,4571,4511,4443,4520,4573,4571,4508,4523,4539,4586,4500
Neurological,4700,4445,4557,4600,4466,4494,4630,4500,4640,4536,4485,4576,4455,4564,4642,4497,4484,4631,4531,4567
Parasitic,4482,4511,4680,4664,4657,4691,4482,4554,4555,4488,4501,4511,4547,4588,4466,4535,4560,4593,4513,4600
Respiratory,4470,4624,4617,4459,4520,4534,4498,4465,4689,4528,4528,4466,4465,4451,4573,4522,4497,4526,4534,4622
