# 0. Presentación

En este cuaderno se realiza la etapa del ***Proceso KDD de Selección de Datos*** en este caso, aplicándola sobre los diferentes conjuntos de datos abiertos de la OMS, para el análisis de datos en su vertiente de estudiar cuales son las causas de la expansión de las enfermedades infecciosas en la sociedad actual.

In [None]:
# Carga y manipulación de datos
from google.colab import files
import io
 
# Librería para manipular DataFrames
import pandas as pd

# 1. Creación de dataframe vacío

Creamos un dataframe vacío para ir almacenando en él los datos correspondientes.

In [None]:
df = pd.DataFrame()

Ahora, se va a proceder a trabajar con los diferentes datasets del Data Lake, con el objetivo de encontrar una tarjeta de datos que sirva como entrada para los algoritmos a realizar después. Debido a la gran cantidad de bases de datos, se le asignarán unos identificadores para trabajar de forma organizada.

# 2. Fallecidos a causa de enfermedades infecciosas durante la infancia (enf_inf)





In [None]:
## Carga de Datos
enf_inf_1 = pd.read_csv('Infecciones_Agudas_Vias_Respiratorias.csv', sep=',') ## Infecciones agudas en las vías respiratorias
enf_inf_2 = pd.read_csv('Sepsis.csv', sep=',') ## Sepsis
enf_inf_3 = pd.read_csv('Meningitis_encefalitis.csv', sep=',') ## Meningitis y encefalitis
enf_inf_4 = pd.read_csv('Malaria.csv', sep=',') ## Malaria
enf_inf_5 = pd.read_csv('Sarampion.csv', sep=',') ## Sarampión
enf_inf_6 = pd.read_csv('VIH.csv', sep=',') ## VIH
enf_inf_7 = pd.read_csv('Diarrea.csv', sep=',') ## Diarrea

In [None]:
def preproceso_enf(dataset):
  dataset = dataset.drop(['2000.1','2001.1','2002.1','2003.1','2004.1','2005.1','2006.1','2007.1','2008.1',
                      '2009.1','2010.1','2011.1','2012.1','2013.1','2014.1','2015.1','2016.1','2017.1',
                      '2000','2001','2002','2003','2004','2005','2006','2007','2008',
                      '2009','2010','2011','2012','2013','2014','2015','2016','2017'], axis=1)
  dataset = dataset.drop([0,1,2], axis=0)

  for column in dataset:
    if column != "Unnamed: 0":
      dataset[column] = dataset[column].astype(str).astype(int)

  num_years = len(dataset.columns) - 1 # Columna con nombre de países.
  dataset['Total'] = dataset.sum(axis=1)
  dataset['Media'] = dataset['Total'] / num_years
  
  return dataset

enf_inf_1 = preproceso_enf(enf_inf_1)
enf_inf_2 = preproceso_enf(enf_inf_2)
enf_inf_3 = preproceso_enf(enf_inf_3)
enf_inf_4 = preproceso_enf(enf_inf_4)
enf_inf_5 = preproceso_enf(enf_inf_5)
enf_inf_6 = preproceso_enf(enf_inf_6)
enf_inf_7 = preproceso_enf(enf_inf_7)

In [None]:
### Al tener el mismo número de países y ordenados igual, para rellenar los datos, basta con hacer lo siguiente:
df['Pais'] = enf_inf_1['Unnamed: 0']
df['Total Fallecidos Vias Respiratorias'] = enf_inf_1['Total']
df['Media Fallecidos Vias Respiratorias'] = enf_inf_1['Media']
df['Total Fallecidos Sepsis'] = enf_inf_2['Total']
df['Media Fallecidos Sepsis'] = enf_inf_2['Media']
df['Total Fallecidos Meningitis Encefalitis'] = enf_inf_3['Total']
df['Media Fallecidos Meningitis Encefalitis'] = enf_inf_3['Media']
df['Total Fallecidos Malaria'] = enf_inf_4['Total']
df['Media Fallecidos Malaria'] = enf_inf_4['Media']
df['Total Fallecidos Sarampion'] = enf_inf_5['Total']
df['Media Fallecidos Sarampion'] = enf_inf_5['Media']
df['Total Fallecidos VIH'] = enf_inf_6['Total']
df['Media Fallecidos VIH'] = enf_inf_6['Media']
df['Total Fallecidos Diarrea'] = enf_inf_7['Total']
df['Media Fallecidos Diarrea'] = enf_inf_7['Media']

# 3. Índices de vacunación (vac)

In [None]:
## Carga de Datos
vac_1 = pd.read_csv('PolioInmunizationCoveragePerCountry.csv', sep=',') ## Polio
vac_2 = pd.read_csv('PneumococcalConjugateInmunizationPerCountry.csv', sep=',') ## Conjugado neumocócico
vac_3 = pd.read_csv('MeaslesFirstDosePerCountry.csv', sep=',') ## Sarampión 1º Dosis
vac_4 = pd.read_csv('MeaslesSecondDosePerCountry.csv', sep=',') ## Sarampión 2º Dosis
vac_5 = pd.read_csv('HepatitisBInmunizationCoveragePerCountry.csv', sep=',') ## Hepatitis B
vac_6 = pd.read_csv('HaemophilusInfluenzaeBInmunizationPerCountry.csv', sep=',') ## Haemophilus influenzae tipo b
vac_7 = pd.read_csv('DiphtheriaTetanusToxoidAndTertussisInmunizationPerCountry.csv', sep=',') ## Difteria
vac_8 = pd.read_csv('BCGInmunizationPerCountry.csv', sep=',') ## Bacilo Calmette-Guérin

In [None]:
def preproceso_vac(dataset):
  dataset = dataset.drop([0], axis=0)

  num_years = len(dataset.columns)
  dataset['Total'] = dataset.sum(axis=1)
  dataset['Media'] = dataset['Total'] / num_years
  
  return dataset

vac_1 = preproceso_vac(vac_1)
vac_2 = preproceso_vac(vac_2)
vac_3 = preproceso_vac(vac_3)
vac_4 = preproceso_vac(vac_4)
vac_5 = preproceso_vac(vac_5)
vac_6 = preproceso_vac(vac_6)
vac_7 = preproceso_vac(vac_7)
vac_8 = preproceso_vac(vac_8)

In [None]:
## Al no contar con el mismo número de países y por tanto, cambiar el orden, para rellenar los datos se requiere lo siguiente:
def rellenar_vac(dataset,nombre_columna):
  df[nombre_columna] = 'NaN' # Crear nueva columna con valor predeterminado NaN.
  for i in dataset.index:
    for y in df.index:
      if dataset['Unnamed: 0'][i] == df['Pais'][y]:
        df[nombre_columna][y] = dataset['Media'][i]

  return df

df = rellenar_vac(vac_1,'Vacunación contra la poliomielitis entre los niños de 1 año (%)')
df = rellenar_vac(vac_2,'Vacunación de antineumocócicas conjugadas en niños de 1 año (%)')
df = rellenar_vac(vac_3,'Vacunación de la primera dosis contra el sarampión (%)')
df = rellenar_vac(vac_4,'Vacunación de la segunda dosis contra el sarampión (%)')
df = rellenar_vac(vac_5,'Vacunación contra la hepatitis B entre los niños de 1 año (%)')
df = rellenar_vac(vac_6,'Vacunación contra Hib entre niños de 1 año (%)')
df = rellenar_vac(vac_7,'Vacunación contra la tos ferina y el toxoide tetánico diftérico en niños de 1 año (%)')
df = rellenar_vac(vac_8,'Vacunación con BCG en niños de 1 año (%)')

# 4. Infraestructuras y personal sanitario (inf_per)

In [None]:
## Carga de Datos
inf_per_1 = pd.read_csv('HealthInfrastructurePerCountry.csv', sep=',') # Infraestructura sanitarias
inf_per_2 = pd.read_csv('HealthWorkerDensityPerCountry.csv', sep=',') # Personal sanitario
inf_per_3 = pd.read_csv('HospistalBedsPerCountry.csv', sep=',') # Camas de hospital

## Infraestructuras sanitarias

In [None]:
inf_per_1_groupBy = inf_per_1.groupby('Country').mean()
inf_per_1_groupBy

Unnamed: 0_level_0,Year,Total density per 100 000 population: Health posts,Total density per 100 000 population: Health centres,Total density per 100 000 population: District/rural hospitals,Total density per 100 000 population: Provincial hospitals,Total density per 100 000 population: Specialized hospitals,Total density per 100 000 population: Hospitals
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Afghanistan,2011.5,2.910,1.205,0.180,0.100,0.085,0.37
Albania,2011.5,13.015,,0.720,0.345,0.280,1.36
Angola,2010.0,,,,0.000,0.000,
Antigua and Barbuda,2011.5,,,,,111.590,1.11
Armenia,2011.5,7.850,0.530,1.780,1.550,0.625,4.03
...,...,...,...,...,...,...,...
Uruguay,2011.5,17.710,1.180,,3.540,0.415,3.93
Vanuatu,2011.5,121.935,15.850,1.625,0.410,0.410,2.37
Yemen,2011.5,11.450,4.785,2.075,0.905,0.010,2.97
Zambia,2011.5,1.245,8.790,0.315,0.130,0.035,0.45


In [None]:
lista_centrossanitarios = []

for i in df.index:
  encontrado = False
  for y in inf_per_1_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_centrossanitarios.append(inf_per_1_groupBy['Total density per 100 000 population: Health centres'][y])
      encontrado = True

  if encontrado == False:
      lista_centrossanitarios.append('NaN')

df['Centros de salud (Densidad por 100000 hab.)'] = lista_centrossanitarios

In [None]:
lista_hospitales = []

for i in df.index:
  encontrado = False
  for y in inf_per_1_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_hospitales.append(inf_per_1_groupBy['Total density per 100 000 population: Hospitals'][y])
      encontrado = True

  if encontrado == False:
      lista_hospitales.append('NaN')

df['Hospitales (Densidad por 100000 hab.)'] = lista_hospitales

## Personal Sanitario

In [None]:
inf_per_2_groupBy = inf_per_2.groupby('Country').mean()
inf_per_2_groupBy

Unnamed: 0_level_0,Year,Medical doctors (per 10 000 population),Nursing and midwifery personnel (per 10 000 population),Dentists (per 10 000 population),Pharmacists (per 10 000 population)
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,2011.312500,2.322167,3.563000,0.178625,0.339308
Albania,2003.296296,13.587417,43.983167,4.426250,4.477278
Algeria,2010.833333,13.764200,20.264800,3.143000,2.541250
Andorra,2002.928571,28.841154,31.692286,6.042286,9.236786
Angola,2009.666667,1.168000,7.249600,0.043333,0.253000
...,...,...,...,...,...
Venezuela (Bolivarian Republic of),2008.250000,18.387500,14.675250,3.475000,
Viet Nam,2009.076923,6.880167,10.424308,,2.640333
Yemen,2011.000000,3.481600,7.338556,0.215500,0.582250
Zambia,2010.545455,0.734286,7.861857,0.139429,0.359500


In [None]:
lista_doctores = []

for i in df.index:
  encontrado = False
  for y in inf_per_2_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_doctores.append(inf_per_2_groupBy['Medical doctors (per 10 000 population)'][y])
      encontrado = True

  if encontrado == False:
      lista_doctores.append('NaN')

df['Doctores medicos (por 10000 hab.)'] = lista_doctores

In [None]:
lista_enfermeros = []

for i in df.index:
  encontrado = False
  for y in inf_per_2_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_enfermeros.append(inf_per_2_groupBy['Nursing and midwifery personnel (per 10 000 population)'][y])
      encontrado = True

  if encontrado == False:
      lista_enfermeros.append('NaN')

df['Enfermeros y personal de parto (por 10000 hab.)'] = lista_enfermeros

In [None]:
lista_farmaceuticos = []

for i in df.index:
  encontrado = False
  for y in inf_per_2_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_farmaceuticos.append(inf_per_2_groupBy['Pharmacists  (per 10 000 population)'][y])
      encontrado = True

  if encontrado == False:
      lista_farmaceuticos.append('NaN')

df['Farmaceuticos (por 10000 hab.)'] = lista_farmaceuticos

## Camas de hospital

In [None]:
inf_per_3_groupBy = inf_per_3.groupby('Country').mean()
inf_per_3_groupBy

Unnamed: 0_level_0,Year,Hospital beds (per 10 000 population)
Country,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,2008.500000,4.322222
Albania,2006.384615,30.523077
Algeria,2009.500000,18.000000
Angola,2005.000000,8.000000
Antigua and Barbuda,2014.333333,30.983333
...,...,...
Venezuela (Bolivarian Republic of),2014.600000,8.340000
Viet Nam,2007.000000,26.925000
Yemen,2008.500000,6.672222
Zambia,2009.000000,19.500000


In [None]:
lista_camas = []

for i in df.index:
  encontrado = False
  for y in inf_per_3_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_camas.append(inf_per_3_groupBy['Hospital beds (per 10 000 population)'][y])
      encontrado = True

  if encontrado == False:
      lista_camas.append('NaN')

df['Camas de hospital (por 10000 hab.)'] = lista_camas

# 5. Bases de datos relacionadas con el peso (peso)


In [None]:
## Carga de Datos
peso_1 = pd.read_csv('LowBirthWeightByCountry.csv', sep=',') # Bajo peso al nacer.
peso_2 = pd.read_csv('Anemia0to5YearsByCountry.csv', sep=',') # Anemia desde los 0 a 5 años.
peso_3 = pd.read_csv('ExclusiveBreastfeedingPerCountry.csv', sep=',') # Leche materna.
peso_4 = pd.read_csv('Thinness5to9YearsPerCountry.csv', sep=',') # Delgadez extrema de 5 a 9 años.

## Bajo peso al nacer

In [None]:
peso_1_groupBy = peso_1.groupby('Country').mean()
peso_1_groupBy

Unnamed: 0_level_0,Year,Low birth weight (in thousands),Low birth weight prevalence (%)
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Albania,2007.5,1.83750,4.71250
Algeria,2007.5,58.81875,7.45625
Andorra,2007.5,0.05625,7.45625
Angola,2007.5,164.94375,16.62500
Antigua and Barbuda,2007.5,0.16250,9.21875
...,...,...,...
Vanuatu,2007.5,0.70625,11.00000
Venezuela (Bolivarian Republic of),2007.5,51.90625,8.69375
Viet Nam,2007.5,127.85000,8.59375
Zambia,2007.5,67.06250,12.43125


In [None]:
lista_bajo_peso = []

for i in df.index:
  encontrado = False
  for y in peso_1_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_bajo_peso.append(peso_1_groupBy['Low birth weight prevalence (%)'][y])
      encontrado = True

  if encontrado == False:
      lista_bajo_peso.append('NaN')

df['Niños con bajo peso al nacer(%)'] = lista_bajo_peso

## Anemia desde los 0 a 5 años

In [None]:
peso_2 = peso_2.drop([0], axis = 0)
peso_2

num_years = len(peso_2) - 1 # Columna con nombre de países.
peso_2['Total'] = peso_2.sum(axis=1)
peso_2['Media'] = peso_2['Total'] / num_years


df['Prevalencia de anemia en niños menores de 5 años (%)'] = 'NaN' # Crear nueva columna con valor predeterminado NaN.
for i in peso_2.index:
  for y in df.index:
    if peso_2['Unnamed: 0'][i] == df['Pais'][y]:
        df['Prevalencia de anemia en niños menores de 5 años (%)'][y] = peso_2['Media'][i]

## Leche Materna

In [None]:
peso_3_groupBy = peso_3.groupby('Country').mean()
peso_3_groupBy

Unnamed: 0_level_0,Infants exclusively breastfed for the first six months of life (%)
Country,Unnamed: 1_level_1
Afghanistan,43.100000
Albania,15.600000
Algeria,14.966667
Angola,37.400000
Argentina,32.000000
...,...
Venezuela (Bolivarian Republic of),7.100000
Viet Nam,18.383333
Yemen,13.025000
Zambia,36.583333


In [None]:
lista_leche_materna = []

for i in df.index:
  encontrado = False
  for y in peso_3_groupBy.index.values:
    if y == df["Pais"][i]:
      lista_leche_materna.append(peso_3_groupBy['Infants exclusively breastfed for the first six months of life (%)'][y])
      encontrado = True

  if encontrado == False:
      lista_leche_materna.append('NaN')

df['Niños amamantados en sus primeros 6 meses de vida (%)'] = lista_leche_materna

# 6. Bases de datos relacionadas con contaminación e higiene (cont)

In [None]:
## Carga de Datos
cont_1 = pd.read_csv('AirPollutionPerCountry.csv', sep=',') # Polución del aire.
cont_2 = pd.read_csv('WaterAndHygienePerCountry.csv', sep=',') # Agua potable insalubre, saneamiento e higiene de manos. 

## Polución del aire

In [None]:
lista_polucion = []

for i in df.index:
  encontrado = False
  for y in cont_1.index:
    if cont_1["Unnamed: 0"][y] == df["Pais"][i]:
      lista_polucion.append(cont_1['Concentrations of fine particulate matter (PM2.5)'][y])
      encontrado = True

  if encontrado == False:
      lista_polucion.append('NaN')

df['Concentracion de partículas finas (polucion) en el aire'] = lista_polucion

## Agua potable insalubre, saneamiento e higiene de manos

In [None]:
lista_dalys_higiene = []

for i in df.index:
  encontrado = False
  for y in cont_2.index:
    if cont_2["Unnamed: 0"][y] == df["Pais"][i]:
      lista_dalys_higiene.append(cont_2["Water, sanitation and hygiene attributable DALYs ('000) in children under 5 years"][y])
      encontrado = True

  if encontrado == False:
      lista_dalys_higiene.append('NaN')

df['DALY debido al agua, saneamiento e higiene en niños menores de 5 años'] = lista_dalys_higiene

In [None]:
lista_muertes_higiene = []

for i in df.index:
  encontrado = False
  for y in cont_2.index:
    if cont_2["Unnamed: 0"][y] == df["Pais"][i]:
      lista_muertes_higiene.append(cont_2["Water, sanitation and hygiene attributable deaths ('000) in children under 5 years"][y])
      encontrado = True

  if encontrado == False:
      lista_muertes_higiene.append('NaN')

df['Muertes debido al agua, saneamiento e higiene en niños menores de 5 años'] = lista_muertes_higiene

# 7. Base de datos resultante

El resultado tras llevar a cabo este proceso de selección de datos se plasma en el siguiente dataframe, que cuenta con 194 registros, que hacen referencia a diferentes países, y 35 columnas.

In [None]:
df

Unnamed: 0,Pais,Total Fallecidos Vias Respiratorias,Media Fallecidos Vias Respiratorias,Total Fallecidos Sepsis,Media Fallecidos Sepsis,Total Fallecidos Meningitis Encefalitis,Media Fallecidos Meningitis Encefalitis,Total Fallecidos Malaria,Media Fallecidos Malaria,Total Fallecidos Sarampion,Media Fallecidos Sarampion,Total Fallecidos VIH,Media Fallecidos VIH,Total Fallecidos Diarrea,Media Fallecidos Diarrea,Vacunación contra la poliomielitis entre los niños de 1 año (%),Vacunación de antineumocócicas conjugadas en niños de 1 año (%),Vacunación de la primera dosis contra el sarampión (%),Vacunación de la segunda dosis contra el sarampión (%),Vacunación contra la hepatitis B entre los niños de 1 año (%),Vacunación contra Hib entre niños de 1 año (%),Vacunación contra la tos ferina y el toxoide tetánico diftérico en niños de 1 año (%),Vacunación con BCG en niños de 1 año (%),Centros de salud (Densidad por 100000 hab.),Hospitales (Densidad por 100000 hab.),Doctores medicos (por 10000 hab.),Enfermeros y personal de parto (por 10000 hab.),Farmaceuticos (por 10000 hab.),Camas de hospital (por 10000 hab.),Niños con bajo peso al nacer(%),Prevalencia de anemia en niños menores de 5 años (%),Niños amamantados en sus primeros 6 meses de vida (%),Concentracion de partículas finas (polucion) en el aire,"DALY debido al agua, saneamiento e higiene en niños menores de 5 años","Muertes debido al agua, saneamiento e higiene en niños menores de 5 años"
3,Afghanistan,342325,19018.055556,132422,7356.777778,87773,4876.277778,1839,102.166667,64128,3562.666667,256,14.222222,196793,10932.944444,37.9756,28.0769,37.8049,21.0476,26.4375,23.9667,37.3171,42.4146,1.205,0.37,2.322167,3.563000,0.339308,4.32222,,7.42649,43.1,53.2,2139966,62200
4,Albania,1709,94.944444,232,12.888889,347,19.277778,0,0.000000,2,0.111111,8,0.444444,199,11.055556,93.9756,68.1538,91.4146,87.2857,79.1562,36.2,94.2195,91.5854,,1.36,13.587417,43.983167,4.477278,30.5231,4.7125,3.8027,15.6,17.9,4284,116
5,Algeria,57438,3191.000000,34367,1909.277778,5136,285.333333,0,0.000000,7048,391.555556,209,11.611111,25187,1399.277778,78.5366,25.5385,73.2927,87.3333,45.4062,37.4,75.6341,82.5854,,,13.764200,20.264800,2.541250,18,7.45625,5.31189,14.9667,35.2,114938,3139
6,Andorra,0,0.000000,0,0.000000,0,0.000000,0,0.000000,0,0.000000,0,0.000000,0,0.000000,54.2683,43.4615,54.0244,54.6667,64.0312,68.4667,54.2683,,,,28.841154,31.692286,9.236786,,7.45625,1.70162,,9.9,3,0
7,Angola,477166,26509.222222,102661,5703.388889,73790,4099.444444,194517,10806.500000,38396,2133.111111,37764,2098.000000,360353,20019.611111,28.0488,25.2308,43.1707,7.71429,20.9062,22.3,33.439,51.122,,,1.168000,7.249600,0.253000,8,16.625,9.08054,37.4,27.9,1308451,37920
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
192,Venezuela (Bolivarian Republic of),21296,1183.111111,20060,1114.444444,2918,162.111111,362,20.111111,2,0.111111,624,34.666667,14745,819.166667,73.0732,2.38462,70.6829,19.0476,43.375,44.0667,64.2195,86.3902,,,18.387500,14.675250,,8.34,8.69375,4.47297,7.1,15.8,36820,857
193,Viet Nam,101760,5653.333333,26736,1485.333333,10556,586.444444,441,24.500000,16538,918.777778,4372,242.888889,58593,3255.166667,75.3659,,75.0488,53.6667,46.625,28.6667,74.1951,79.1463,,,6.880167,10.424308,2.640333,26.925,8.59375,5.48919,18.3833,29.7,189463,4905
194,Yemen,181798,10099.888889,64507,3583.722222,21755,1208.611111,9806,544.777778,16662,925.666667,583,32.388889,104175,5787.500000,51.0244,46,49.3171,28.619,39.0312,34.7667,52,54.1707,4.785,2.97,3.481600,7.338556,0.582250,6.67222,,12.2919,13.025,45.0,448442,12890
195,Zambia,150437,8357.611111,45546,2530.333333,25204,1400.222222,74649,4147.166667,16217,900.944444,112542,6252.333333,104496,5805.333333,73.2927,40.0769,75.4634,15.8571,40.125,45.5667,74.2195,87.561,8.79,0.45,0.734286,7.861857,0.359500,19.5,12.4313,9.05946,36.5833,24.7,372317,10541


# 8. Exportación de datos

Por último, convertimos el dataframe en un archivo CSV, para poder descargarlo.

In [None]:
df.to_csv('oms_data.csv')