# Extracción de Datos Fuentes Externas

## Importación de librerias

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings("ignore")

## Indicador Gasto Social

### Extraccion de datos

* Indicador: Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)
* ID para extracción: 3126
* Fuente : https://statistics.cepal.org/portal/cepalstat/index.html?lang=es
* URL API: https://statistics.cepal.org/portal/cepalstat/open-data.html?lang=es

In [2]:
# Fuente externa - CEPAL
df_gasto_social= pd.read_excel("datasets_extraccion_fuentes_externas/gasto_social_cepal.xlsx")
df_gasto_social.head()

Unnamed: 0,indicator,Cobertura institucional,País__ESTANDAR,Clasificación de las funciones del gobierno por división,Años__ESTANDAR,value,unit,notes_ids,source_id
0,Gasto público social según la clasificación po...,Gobierno Central,Argentina,Gasto social,1990,7055.659236,En moneda nacional a precios corrientes,,1635
1,Gasto público social según la clasificación po...,Gobierno Central,Argentina,Gasto social,1991,18537.00203,En moneda nacional a precios corrientes,,1635
2,Gasto público social según la clasificación po...,Gobierno Central,Argentina,Gasto social,1993,21534.5,En moneda nacional a precios corrientes,,1635
3,Gasto público social según la clasificación po...,Gobierno Central,Argentina,Gasto social,1992,21688.87885,En moneda nacional a precios corrientes,,1635
4,Gasto público social según la clasificación po...,Gobierno Central,Argentina,Gasto social,1994,25661.3,En moneda nacional a precios corrientes,,1635


### Limpieza de datos

In [3]:
# Elimino las columnas no necesarias
df_gasto_social = df_gasto_social.drop("Cobertura institucional", axis=1) 
df_gasto_social = df_gasto_social.drop("Clasificación de las funciones del gobierno por división", axis=1) 
df_gasto_social = df_gasto_social.drop("unit", axis=1) 
df_gasto_social = df_gasto_social.drop("notes_ids", axis=1) 
df_gasto_social.head()

Unnamed: 0,indicator,País__ESTANDAR,Años__ESTANDAR,value,source_id
0,Gasto público social según la clasificación po...,Argentina,1990,7055.659236,1635
1,Gasto público social según la clasificación po...,Argentina,1991,18537.00203,1635
2,Gasto público social según la clasificación po...,Argentina,1993,21534.5,1635
3,Gasto público social según la clasificación po...,Argentina,1992,21688.87885,1635
4,Gasto público social según la clasificación po...,Argentina,1994,25661.3,1635


In [4]:
# Reordeno las columnas
orden_columnas = ['País__ESTANDAR', 'source_id', "Años__ESTANDAR",'value']  # Define el nuevo orden de las columnas
df_gasto_social = df_gasto_social[orden_columnas]  
df_gasto_social


Unnamed: 0,País__ESTANDAR,source_id,Años__ESTANDAR,value
0,Argentina,1635,1990,7.055659e+03
1,Argentina,1635,1991,1.853700e+04
2,Argentina,1635,1993,2.153450e+04
3,Argentina,1635,1992,2.168888e+04
4,Argentina,1635,1994,2.566130e+04
...,...,...,...,...
603,Venezuela (República Bolivariana de),1658,2010,1.182412e+08
604,Venezuela (República Bolivariana de),1658,2011,1.824783e+08
605,Venezuela (República Bolivariana de),1658,2012,2.358414e+08
606,Venezuela (República Bolivariana de),1658,2013,3.605167e+08


In [7]:
# Cambio nombres de algunas columnas en el df, para que coincida con el df de WB.
df_gasto_social.rename(columns={"País__ESTANDAR": "País"}, inplace=True)
df_gasto_social.rename(columns={"Años__ESTANDAR": "Año"}, inplace=True)
df_gasto_social.rename(columns={"value": "Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)"}, inplace=True)
df_gasto_social


Unnamed: 0,País,source_id,Año,Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)
0,Argentina,1635,1990,7.055659e+03
1,Argentina,1635,1991,1.853700e+04
2,Argentina,1635,1993,2.153450e+04
3,Argentina,1635,1992,2.168888e+04
4,Argentina,1635,1994,2.566130e+04
...,...,...,...,...
603,Venezuela (República Bolivariana de),1658,2010,1.182412e+08
604,Venezuela (República Bolivariana de),1658,2011,1.824783e+08
605,Venezuela (República Bolivariana de),1658,2012,2.358414e+08
606,Venezuela (República Bolivariana de),1658,2013,3.605167e+08


In [8]:
Cantidad_de_ceros = df_gasto_social.eq(0).sum()
Cantidad_de_ceros

País                                                                                                                0
source_id                                                                                                           0
Año                                                                                                                 0
Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)    0
dtype: int64

In [9]:
df_gasto_social.describe()

Unnamed: 0,source_id,Año,Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)
count,608.0,608.0,608.0
mean,1666.347039,2007.277961,7407174.0
std,58.502084,8.64512,34978870.0
min,1635.0,1990.0,1.426145
25%,1640.0,2001.0,6033.0
50%,1647.0,2008.0,35524.03
75%,1655.0,2014.0,772663.4
max,1834.0,2021.0,568759300.0


In [10]:
# Procedo a dejar las columnas necesarias para hacer merge con el dataset de WB.
df_gasto_social = df_gasto_social.drop("source_id", axis=1) 
df_gasto_social.head()

Unnamed: 0,País,Año,Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)
0,Argentina,1990,7055.659236
1,Argentina,1991,18537.00203
2,Argentina,1993,21534.5
3,Argentina,1992,21688.87885
4,Argentina,1994,25661.3


In [14]:
df_gasto_social['Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)'] = df_gasto_social['Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)'].astype(int)

In [15]:
df_gasto_social

Unnamed: 0,País,Año,Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes)
0,Argentina,1990,7055
1,Argentina,1991,18537
2,Argentina,1993,21534
3,Argentina,1992,21688
4,Argentina,1994,25661
...,...,...,...
603,Venezuela (República Bolivariana de),2010,118241241
604,Venezuela (República Bolivariana de),2011,182478254
605,Venezuela (República Bolivariana de),2012,235841376
606,Venezuela (República Bolivariana de),2013,360516721


## Indicador Niveles de Glucosa

* Indicador: Prevalence of raised blood glucose/diabetes in adults (%)
* ID para extracción: 36
* Fuente : https://opendata.paho.org/es/indicadores-basicos/tablero-de-los-indicadores-basicos
* URL API: https://ghoapi.azureedge.net/api

### Extracción de datos

In [19]:
# Fuente externa - World Health Organization
df_glucosa= pd.read_excel("datasets_extraccion_fuentes_externas/glucose.xlsx")
df_glucosa.head()

Unnamed: 0,paho_indicator_id,SpatialDimType,SpatialDim,SpatialDim_en,SpatialDim_es,TimeDimType,TimeDim,Prevalence of raised blood glucose/diabetes in adults (%),data_source_specific,data_provider_specific,data_secondary_source,source_url
0,36,COUNTRY,ATG,Antigua and Barbuda,Antigua y Barbuda,YEAR,1995,6.8,The Global Health Observatory,World Health Organization,PAHO Core Indicators,https://ghoapi.azureedge.net/api
1,36,COUNTRY,ARG,Argentina,Argentina,YEAR,1995,7.8,The Global Health Observatory,World Health Organization,PAHO Core Indicators,https://ghoapi.azureedge.net/api
2,36,COUNTRY,BHS,Bahamas,Bahamas,YEAR,1995,9.5,The Global Health Observatory,World Health Organization,PAHO Core Indicators,https://ghoapi.azureedge.net/api
3,36,COUNTRY,BRB,Barbados,Barbados,YEAR,1995,8.1,The Global Health Observatory,World Health Organization,PAHO Core Indicators,https://ghoapi.azureedge.net/api
4,36,COUNTRY,BLZ,Belize,Belice,YEAR,1995,8.5,The Global Health Observatory,World Health Organization,PAHO Core Indicators,https://ghoapi.azureedge.net/api


In [20]:
df_glucosa.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 700 entries, 0 to 699
Data columns (total 12 columns):
 #   Column                                                     Non-Null Count  Dtype  
---  ------                                                     --------------  -----  
 0   paho_indicator_id                                          700 non-null    int64  
 1   SpatialDimType                                             700 non-null    object 
 2   SpatialDim                                                 700 non-null    object 
 3   SpatialDim_en                                              700 non-null    object 
 4   SpatialDim_es                                              700 non-null    object 
 5   TimeDimType                                                700 non-null    object 
 6   TimeDim                                                    700 non-null    int64  
 7   Prevalence of raised blood glucose/diabetes in adults (%)  700 non-null    float64
 8   data_sourc

In [21]:
df_glucosa.describe()

Unnamed: 0,paho_indicator_id,TimeDim,Prevalence of raised blood glucose/diabetes in adults (%)
count,700.0,700.0,700.0
mean,36.0,2004.5,8.461714
std,0.0,5.770404,1.738076
min,36.0,1995.0,4.8
25%,36.0,1999.75,7.2
50%,36.0,2004.5,8.3
75%,36.0,2009.25,9.5
max,36.0,2014.0,14.5


### Limpieza de datos

In [22]:
# Procedo a dejar las columnas necesarias para hacer merge con el dataset de WB.
df_glucosa = df_glucosa.drop("paho_indicator_id", axis=1) 
df_glucosa = df_glucosa.drop("SpatialDimType", axis=1) 
df_glucosa = df_glucosa.drop("SpatialDim_en", axis=1) 
df_glucosa = df_glucosa.drop("SpatialDim", axis=1)
df_glucosa = df_glucosa.drop("TimeDimType", axis=1) 
df_glucosa = df_glucosa.drop("data_source_specific", axis=1) 
df_glucosa = df_glucosa.drop("data_provider_specific", axis=1) 
df_glucosa = df_glucosa.drop("data_secondary_source", axis=1) 
df_glucosa = df_glucosa.drop("source_url", axis=1) 
df_glucosa.head()

Unnamed: 0,SpatialDim_es,TimeDim,Prevalence of raised blood glucose/diabetes in adults (%)
0,Antigua y Barbuda,1995,6.8
1,Argentina,1995,7.8
2,Bahamas,1995,9.5
3,Barbados,1995,8.1
4,Belice,1995,8.5


In [23]:
# Cambio nombres de algunas columnas en el df, para que coincida con el df de WB.
df_glucosa.rename(columns={"SpatialDim_es": "Country"}, inplace=True)
df_glucosa.rename(columns={"TimeDim": "Year"}, inplace=True)
df_glucosa.head()

Unnamed: 0,Country,Year,Prevalence of raised blood glucose/diabetes in adults (%)
0,Antigua y Barbuda,1995,6.8
1,Argentina,1995,7.8
2,Bahamas,1995,9.5
3,Barbados,1995,8.1
4,Belice,1995,8.5


In [37]:
df_glucosa.columns = ['País', 'Año', 'Prevalence of raised blood glucose/diabetes in adults (%)']

In [38]:
df_glucosa

Unnamed: 0,País,Año,Prevalence of raised blood glucose/diabetes in adults (%)
0,Antigua y Barbuda,1995,6.8
1,Argentina,1995,7.8
2,Bahamas,1995,9.5
3,Barbados,1995,8.1
4,Belice,1995,8.5
...,...,...,...
695,Suriname,2014,12.3
696,Trinidad y Tabago,2014,11.7
697,Estados Unidos de América,2014,7.3
698,Uruguay,2014,9.5


## Indicador Obesidad

### Extracción de datos

In [25]:
# Fuente externa - United Nations Statistics Division (UNSD),
df_obesidad= pd.read_excel("datasets_extraccion_fuentes_externas/obese_United_Nations_Statistics_Division.xlsx")
df_obesidad.head()

Unnamed: 0,indicator_id,"Proportion of adults who are obese, 20 years old and over ,by sex",ref_area_desc,iso3,sex_desc,Unnamed: 5,Unnamed: 6,time_period
0,I555b0f6a,1.0,Afghanistan,AFG,Both sexes or no breakdown by sex,,,1990
1,I555b0f6a,1.1,Afghanistan,AFG,Both sexes or no breakdown by sex,,,1991
2,I555b0f6a,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,,,1992
3,I555b0f6a,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,,,1993
4,I555b0f6a,1.3,Afghanistan,AFG,Both sexes or no breakdown by sex,,,1994


### Limpieza de datos

In [26]:
# Elimino las columnas no necesarias
df_obesidad = df_obesidad.drop("indicator_id", axis=1) 
df_obesidad = df_obesidad.drop("Unnamed: 5", axis=1) 
df_obesidad = df_obesidad.drop("Unnamed: 6", axis=1) 
df_obesidad.head()

Unnamed: 0,"Proportion of adults who are obese, 20 years old and over ,by sex",ref_area_desc,iso3,sex_desc,time_period
0,1.0,Afghanistan,AFG,Both sexes or no breakdown by sex,1990
1,1.1,Afghanistan,AFG,Both sexes or no breakdown by sex,1991
2,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,1992
3,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,1993
4,1.3,Afghanistan,AFG,Both sexes or no breakdown by sex,1994


In [27]:
# Cambio nombres de algunas columnas en el df, para que coincida con el df de WB.
df_obesidad.rename(columns={"ref_area_desc": "Country"}, inplace=True)
df_obesidad.rename(columns={"time_period": "Year"}, inplace=True)
df_obesidad.rename(columns={"iso3": "Country_Code"}, inplace=True)
df_obesidad.rename(columns={"sex_desc": "Gender"}, inplace=True)
df_obesidad

Unnamed: 0,"Proportion of adults who are obese, 20 years old and over ,by sex",Country,Country_Code,Gender,Year
0,1.0,Afghanistan,AFG,Both sexes or no breakdown by sex,1990
1,1.1,Afghanistan,AFG,Both sexes or no breakdown by sex,1991
2,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,1992
3,1.2,Afghanistan,AFG,Both sexes or no breakdown by sex,1993
4,1.3,Afghanistan,AFG,Both sexes or no breakdown by sex,1994
...,...,...,...,...,...
15385,3.1,Zimbabwe,ZWE,Male,2012
15386,3.2,Zimbabwe,ZWE,Male,2013
15387,3.4,Zimbabwe,ZWE,Male,2014
15388,3.5,Zimbabwe,ZWE,Male,2015


In [28]:
# Reordeno las columnas
orden_columnas = ["Country", "Country_Code" ,"Year","Proportion of adults who are obese, 20 years old and over ,by sex","Gender" ]  # Define el nuevo orden de las columnas
df_obesidad = df_obesidad[orden_columnas]  
df_obesidad

Unnamed: 0,Country,Country_Code,Year,"Proportion of adults who are obese, 20 years old and over ,by sex",Gender
0,Afghanistan,AFG,1990,1.0,Both sexes or no breakdown by sex
1,Afghanistan,AFG,1991,1.1,Both sexes or no breakdown by sex
2,Afghanistan,AFG,1992,1.2,Both sexes or no breakdown by sex
3,Afghanistan,AFG,1993,1.2,Both sexes or no breakdown by sex
4,Afghanistan,AFG,1994,1.3,Both sexes or no breakdown by sex
...,...,...,...,...,...
15385,Zimbabwe,ZWE,2012,3.1,Male
15386,Zimbabwe,ZWE,2013,3.2,Male
15387,Zimbabwe,ZWE,2014,3.4,Male
15388,Zimbabwe,ZWE,2015,3.5,Male


In [29]:
# Filtro los paises de la OEA, pero sin Caribe
Countries =["ARG","BRA","CAN","CHL","COL","CRI","CUB","DOM","ECU","SLV","GTM",
        "GUY","HTI","HND","JAM","MEX","NIC","PAN","PRY","PER","TTO","URY"]
df_obesidad_filtrado = df_obesidad[df_obesidad["Country_Code"].isin(Countries)]
df_obesidad_filtrado

Unnamed: 0,Country,Country_Code,Year,"Proportion of adults who are obese, 20 years old and over ,by sex",Gender
162,Argentina,ARG,1990,16.6,Both sexes or no breakdown by sex
163,Argentina,ARG,1991,17.0,Both sexes or no breakdown by sex
164,Argentina,ARG,1992,17.4,Both sexes or no breakdown by sex
165,Argentina,ARG,1993,17.8,Both sexes or no breakdown by sex
166,Argentina,ARG,1994,18.2,Both sexes or no breakdown by sex
...,...,...,...,...,...
15196,Uruguay,URY,2012,23.1,Male
15197,Uruguay,URY,2013,23.6,Male
15198,Uruguay,URY,2014,24.2,Male
15199,Uruguay,URY,2015,24.8,Male


In [30]:
# Cuentos los nulos
df_obesidad_filtrado.isnull().sum()

Country                                                              0
Country_Code                                                         0
Year                                                                 0
Proportion of adults who are obese, 20 years old and over ,by sex    0
Gender                                                               0
dtype: int64

In [31]:
# Renombro las columnas del df, para que al momento de hacer la unión con el dataset de WB, coinicidan los nombres.
# Cambiar nombres de las columnas
df_obesidad_filtrado = df_obesidad_filtrado.rename(columns={'Country': 'País', 'Proportion of adults who are obese, 20 years old and over ,by sex': 'Proportion of adults who are obese', 'Year': "Año"})

In [32]:
# Procedo a dejar las columnas necesarias para hacer merge con el dataset de WB.
df_obesidad_filtrado = df_obesidad_filtrado.drop("Country_Code", axis=1) 
df_obesidad_filtrado = df_obesidad_filtrado.drop("Gender", axis=1) 
df_obesidad_filtrado.head()

Unnamed: 0,País,Año,Proportion of adults who are obese
162,Argentina,1990,16.6
163,Argentina,1991,17.0
164,Argentina,1992,17.4
165,Argentina,1993,17.8
166,Argentina,1994,18.2


In [33]:
df_obesidad_filtrado

Unnamed: 0,País,Año,Proportion of adults who are obese
162,Argentina,1990,16.6
163,Argentina,1991,17.0
164,Argentina,1992,17.4
165,Argentina,1993,17.8
166,Argentina,1994,18.2
...,...,...,...
15196,Uruguay,2012,23.1
15197,Uruguay,2013,23.6
15198,Uruguay,2014,24.2
15199,Uruguay,2015,24.8


## Concatenando los tres indicadores

In [39]:
df_database_externa = pd.concat([df_gasto_social, df_glucosa, df_obesidad_filtrado], ignore_index=True)

In [40]:
df_database_externa

Unnamed: 0,País,Año,Gasto público social según la clasificación por funciones del gobierno (en moneda nacional a precios corrientes),Prevalence of raised blood glucose/diabetes in adults (%),Proportion of adults who are obese
0,Argentina,1990,7055.0,,
1,Argentina,1991,18537.0,,
2,Argentina,1993,21534.0,,
3,Argentina,1992,21688.0,,
4,Argentina,1994,25661.0,,
...,...,...,...,...,...
3085,Uruguay,2012,,,23.1
3086,Uruguay,2013,,,23.6
3087,Uruguay,2014,,,24.2
3088,Uruguay,2015,,,24.8


## Exportando el dataframe resultante

In [41]:
df_database_externa.to_csv('df_database_externa.csv', index=False)