# **ESTADÍSTICAS SALUD GLOBAL**

Este conjunto de datos ofrece estadísticas completas sobre la salud global, con un enfoque en diversas enfermedades, tratamientos y resultados. Los datos abarcan múltiples países y años. Me gustaría hacer un análisis de estos datos para ver tipos de enfermedades por país y región del mundo y por sexo, teniendo también en cuenta el acceso a la Sanidad en cada uno de los países.

In [8]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [9]:
os.chdir(r"/content/sample_data/")
df = pd.read_csv("Global_Health_Statistics.csv")

In [10]:
df.head()

Unnamed: 0,Country,Year,Disease Name,Disease Category,Prevalence Rate (%),Incidence Rate (%),Mortality Rate (%),Age Group,Gender,Population Affected,...,Hospital Beds per 1000,Treatment Type,Average Treatment Cost (USD),Availability of Vaccines/Treatment,Recovery Rate (%),DALYs,Improvement in 5 Years (%),Per Capita Income (USD),Education Index,Urbanization Rate (%)
0,Italy,2013,Malaria,Respiratory,0.95,1.55,8.42,0-18,Male,471007,...,7.58,Medication,21064,No,91.82,4493,2.16,16886,0.79,86.02
1,France,2002,Ebola,Parasitic,12.46,8.63,8.75,61+,Male,634318,...,5.11,Surgery,47851,Yes,76.65,2366,4.82,80639,0.74,45.52
2,Turkey,2015,COVID-19,Genetic,0.91,2.35,6.22,36-60,Male,154878,...,3.49,Vaccination,27834,Yes,98.55,41,5.81,12245,0.41,40.2
3,Indonesia,2011,Parkinson's Disease,Autoimmune,4.68,6.29,3.99,0-18,Other,446224,...,8.44,Surgery,144,Yes,67.35,3201,2.22,49336,0.49,58.47
4,Italy,2013,Tuberculosis,Genetic,0.83,13.59,7.01,61+,Male,472908,...,5.9,Medication,8908,Yes,50.06,2832,6.93,47701,0.5,48.14


Se revisa el tipo de datos del DF y si hay valores faltantes.



**Country:** Nombre del país donde se registraron los datos de salud.

**Year:** Año en que se recopilaron los datos.

**Disease Name:** Nombre de la enfermedad o condición de salud analizada.

**Disease Category:** Categoría de la enfermedad (por ejemplo, Infecciosa, No transmisible).

**Prevalence Rate (%):** Porcentaje de la población afectada por la enfermedad.

**Incidence Rate (%):** Porcentaje de casos nuevos o recién diagnosticados.

**Mortality Rate (%):** Porcentaje de la población afectada que fallece a causa de la enfermedad.

**Age Group:** Rango de edad más afectado por la enfermedad.

**Gender:** Género(s) afectados por la enfermedad (Masculino, Femenino, Ambos).

**Population Affected:** Número total de personas afectadas por la enfermedad.

**Healthcare Access (%):** Porcentaje de la población con acceso a servicios de salud.

**Doctors per 1000:** Número de médicos por cada 1000 habitantes.

**Hospital Beds per 1000**: Número de camas hospitalarias disponibles por cada 1000 habitantes.

**Treatment Type:** Método principal de tratamiento para la enfermedad (por ejemplo, Medicación, Cirugía).

**Average Treatment Cost (USD)**: Costo promedio del tratamiento en dólares estadounidenses.

**Availability of Vaccines/Treatment:** Disponibilidad de vacunas o tratamientos.

**Recovery Rate (%):** Porcentaje de personas que se recuperan de la enfermedad.

**DALYs:** Años de vida ajustados por discapacidad, una medida de la carga de enfermedad.

**Improvement in 5 Years (%):** Porcentaje de mejora en los resultados de salud en los últimos cinco años.

**Per Capita Income (USD):** Ingreso promedio por persona en el país.

**Education Index:** Nivel educativo promedio en el país.

**Urbanization Rate (%):** Porcentaje de la población que vive en zonas urbanas.









In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000000 entries, 0 to 999999
Data columns (total 22 columns):
 #   Column                              Non-Null Count    Dtype  
---  ------                              --------------    -----  
 0   Country                             1000000 non-null  object 
 1   Year                                1000000 non-null  int64  
 2   Disease Name                        1000000 non-null  object 
 3   Disease Category                    1000000 non-null  object 
 4   Prevalence Rate (%)                 1000000 non-null  float64
 5   Incidence Rate (%)                  1000000 non-null  float64
 6   Mortality Rate (%)                  1000000 non-null  float64
 7   Age Group                           1000000 non-null  object 
 8   Gender                              1000000 non-null  object 
 9   Population Affected                 1000000 non-null  int64  
 10  Healthcare Access (%)               1000000 non-null  float64
 11  Doctors per 

No hay valores faltantes

Reviso si los tipos de cada una de las variables son correctos, para corregirlo en caso de que no lo sean.


Primero quiero ver el tipo de enfermedades que se están analizando y dentro de la categoría de enfermedad qué enfermedades se contemplan.

In [12]:
df["Disease Category"].unique()

array(['Respiratory', 'Parasitic', 'Genetic', 'Autoimmune', 'Bacterial',
       'Cardiovascular', 'Neurological', 'Chronic', 'Metabolic',
       'Infectious', 'Viral'], dtype=object)

In [14]:
df["Disease Name"].unique()

array(['Malaria', 'Ebola', 'COVID-19', "Parkinson's Disease",
       'Tuberculosis', 'Dengue', 'Rabies', 'Cholera', 'Leprosy', 'Cancer',
       'Diabetes', 'Measles', 'Zika', "Alzheimer's Disease", 'Polio',
       'Hypertension', 'Asthma', 'HIV/AIDS', 'Influenza', 'Hepatitis'],
      dtype=object)

Obtengo la cantidad de países reflejados en este estudio y cuáles son:

In [17]:
df["Country"].unique()

array(['Italy', 'France', 'Turkey', 'Indonesia', 'Saudi Arabia', 'USA',
       'Nigeria', 'Australia', 'Canada', 'Mexico', 'China',
       'South Africa', 'Japan', 'UK', 'Russia', 'Brazil', 'Germany',
       'India', 'Argentina', 'South Korea'], dtype=object)

In [18]:
df["Country"].nunique()

20

Son **20** países, 5 en Europa, 7 en Asia, 5 en América , 2 en África y 1 en Oceanía. Voy a hacer 5 listas agrupando los países por continente pero no sé si puedo sacar buenas conclusiones, ya que el continente africano no queda bien reflejado al no incluir a Egipto, que tiene una gran población y relevancia dentro del mismo.

In [24]:
América=["USA","Canada","Mexico","Brazil","Argentina"]
Asia=["Turkey","Indonesia","Saudi Arabia","China","Japan","India","South Korea"]
África=["South Africa","Nigeria"]
Europa=["Germany","France","United Kingdom","Italy","Spain"]
Oceanía=["Australia"]

Quiero ver en  primer lugar **la distribución de enfermedades más comunes** en cada **país** analizado.

In [33]:
enfermedad_comun_pais=df.groupby(["Country","Disease Category"])["Disease Name"].value_counts().unstack()
enfermedad_comun_pais

Unnamed: 0_level_0,Disease Name,Alzheimer's Disease,Asthma,COVID-19,Cancer,Cholera,Dengue,Diabetes,Ebola,HIV/AIDS,Hepatitis,Hypertension,Influenza,Leprosy,Malaria,Measles,Parkinson's Disease,Polio,Rabies,Tuberculosis,Zika
Country,Disease Category,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Argentina,Autoimmune,250,231,244,220,220,213,231,217,248,214,221,266,221,218,229,232,223,202,245,217
Argentina,Bacterial,203,220,229,234,244,213,245,225,219,234,212,221,225,221,213,233,234,225,230,225
Argentina,Cardiovascular,219,239,219,228,229,231,210,232,191,210,233,222,230,197,232,214,217,219,233,230
Argentina,Chronic,237,242,214,204,202,218,199,238,232,238,241,245,206,237,230,227,219,208,227,259
Argentina,Genetic,228,234,263,238,217,213,213,213,235,217,236,218,215,238,237,204,229,255,258,208
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
USA,Metabolic,247,238,251,186,234,232,230,225,210,265,216,207,235,226,217,211,213,231,224,204
USA,Neurological,255,213,207,226,212,228,218,226,226,247,211,225,230,231,222,249,217,223,236,249
USA,Parasitic,200,235,242,210,264,230,229,244,236,220,240,208,220,214,248,252,228,241,222,249
USA,Respiratory,221,217,213,229,209,254,225,236,229,241,203,234,219,238,204,234,247,213,222,216


In [28]:
enfermedades_comunes = (
    df.groupby("Disease Category")["Disease Name"]
    .value_counts()
    .sort_values(ascending=False)
)
enfermedades_comunes

Unnamed: 0_level_0,Unnamed: 1_level_0,count
Disease Category,Disease Name,Unnamed: 2_level_1
Bacterial,Malaria,4707
Neurological,Alzheimer's Disease,4700
Parasitic,Dengue,4691
Respiratory,HIV/AIDS,4689
Infectious,Leprosy,4689
...,...,...
Bacterial,Cancer,4417
Infectious,Hypertension,4403
Autoimmune,Rabies,4403
Cardiovascular,Tuberculosis,4388


In [30]:
enfermedades_comunes = df.groupby("Disease Category")["Disease Name"].value_counts().unstack()
enfermedades_comunes

Disease Name,Alzheimer's Disease,Asthma,COVID-19,Cancer,Cholera,Dengue,Diabetes,Ebola,HIV/AIDS,Hepatitis,Hypertension,Influenza,Leprosy,Malaria,Measles,Parkinson's Disease,Polio,Rabies,Tuberculosis,Zika
Disease Category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
Autoimmune,4534,4623,4562,4526,4650,4582,4604,4465,4563,4587,4484,4687,4549,4472,4544,4569,4475,4403,4639,4635
Bacterial,4486,4534,4439,4417,4543,4479,4504,4487,4461,4667,4515,4523,4590,4707,4521,4615,4547,4510,4482,4482
Cardiovascular,4538,4492,4548,4615,4563,4605,4585,4582,4491,4526,4452,4596,4586,4540,4553,4614,4488,4657,4388,4549
Chronic,4442,4570,4573,4598,4508,4500,4529,4470,4505,4518,4528,4472,4560,4516,4431,4447,4592,4530,4504,4652
Genetic,4378,4605,4605,4564,4637,4572,4563,4578,4682,4573,4513,4440,4571,4519,4434,4545,4585,4643,4595,4551
Infectious,4530,4574,4569,4586,4493,4538,4476,4548,4575,4445,4403,4604,4689,4548,4504,4437,4659,4498,4503,4585
Metabolic,4578,4654,4647,4612,4628,4671,4614,4528,4555,4571,4511,4443,4520,4573,4571,4508,4523,4539,4586,4500
Neurological,4700,4445,4557,4600,4466,4494,4630,4500,4640,4536,4485,4576,4455,4564,4642,4497,4484,4631,4531,4567
Parasitic,4482,4511,4680,4664,4657,4691,4482,4554,4555,4488,4501,4511,4547,4588,4466,4535,4560,4593,4513,4600
Respiratory,4470,4624,4617,4459,4520,4534,4498,4465,4689,4528,4528,4466,4465,4451,4573,4522,4497,4526,4534,4622


In [None]:
enfermedades_por_año = df.groupby('Año')['Quantity'].sum()
ventas_por_año.plot(x="Año",ylabel="Quantity",kind='bar', color='red')
plt.title('Ventas Totales por Año')
plt.show()

In [None]:
distribucion_ticket_type = df["ticket_type"].value_counts()
distribucion_ticket_type.plot(x="ticket_type",ylabel="Quantity",kind='bar', color='red')
plt.title('Distribucion Ticket Type')
plt.show()

In [21]:
enfermedades_por_pais= df.groupby(["Country", "Disease Category"])["Disease Name"].sum().unstack()
enfermedades_por_pais.plot(kind='bar', stacked=True, color=['green', 'orange', 'blue', 'red'], figsize=(10, 6))
plt.title("Enfermedades por país", fontsize=14)
plt.xlabel("País", fontsize=12)
plt.ylabel("Disease Name", fontsize=12)

TypeError: no numeric data to plot

In [None]:
mes_con_mas_ventas = ventas_mes.idxmax()
mes_con_menos_ventas = ventas_mes.idxmin()
cantidad_mas_ventas = ventas_mes.max()
cantidad_menos_ventas = ventas_mes.min()
print(mes_con_mas_ventas)
print(mes_con_menos_ventas)
print(cantidad_mas_ventas)
print(cantidad_menos_ventas)