# Objetivos de Desarrollo Sostenible 
## En este pequeño proyecto buscamos graficar diferentes indicadores que pueden estar relacionados. Para elegir los indicadores nos hemos basado en la data disponible y también en las metas propuestas por los Objetivos de Desarrollo Sostenible. 
### Hemos utilizado la data accesible en el Banco Mundial de Datos: 
#### 1) Educación: Porcentaje de matricula a nivel secundario
#### 2) Desnutricion : Anemia en niños de 6 a 59 meses 
#### 3) Felicidad : Libertad para tomar decisiones en la vida / Soporte social / Generosidad 
#### 4) Políticas de inclusión: 1 nivel bajo hasta 6 nivel alto de políticas de inclusión
#### 5) Ingreso: Variable nominal sobre el nivel de ingreso en cada país (solo tenemos del año 2015)

##### Para hacer los graficos y ver su relación, nos basaremos en el año 2015 para luego compararlo con el año 2018

In [344]:
import pandas as pd
import altair as alt
import wbgapi as wb

In [345]:
na_values = [".."]

EDUCACION= r"C:\Users\Antuane\Github_folder\Ejercicios-Phyton\Trabajo-Final\matricula-edu.csv"

edu_sec= pd.read_csv(EDUCACION, sep=',', na_values = na_values)

DESNUTRICION= r"C:\Users\Antuane\Github_folder\Ejercicios-Phyton\Trabajo-Final\anemia-ninos.csv"

des_anem= pd.read_csv(DESNUTRICION, sep=',',na_values = na_values)

POLINCLUSION= r"C:\Users\Antuane\Github_folder\Ejercicios-Phyton\Trabajo-Final\polinclu.csv"

pol_inclu= pd.read_csv(POLINCLUSION, sep=',',na_values = na_values)

INGRESO= r"C:\Users\Antuane\Github_folder\Ejercicios-Phyton\Trabajo-Final\ingreso.csv"

ingreso_rangos= pd.read_csv(INGRESO, sep=',',na_values = na_values)

FELICIDAD= r"C:\Users\Antuane\Github_folder\Ejercicios-Phyton\Trabajo-Final\world-happiness-report.csv"

fel_all= pd.read_csv(FELICIDAD,na_values = na_values)

### Para empezar limpiaremos las cinco bases de datos solo conservando el año 2015  
###### Limpiamos la base de datos 1) cambiando el nombre de las columnas; 2) eliminando las NAS;  y 3) se modifica los valores para poder unir las bases de datos

In [346]:
#Educación 
edu_sec_lst = ['Country Code', 'Country Name','2015 [YR2015]']

edu_sec_2015= edu_sec[edu_sec_lst]  
#Nos quedamos con los datos que necesitamos del data frame de educación solo del año 2015

In [347]:
edu_sec_2015.columns = ['codigo', 'pais','educa2015'] # 1) cambiando el nombre de las columnas; 
edu_sec_2015 = edu_sec_2015[edu_sec_2015['educa2015'].notna()] #2)eliminamos los valores perdidos
edu_sec_2015 = edu_sec_2015.reset_index(drop=True) ### Reseteamos el indice
edu_sec_2015 = edu_sec_2015[0:123] #Seleccionamos los datos que son países
edu_sec_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 123 entries, 0 to 122
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   codigo     123 non-null    object 
 1   pais       123 non-null    object 
 2   educa2015  123 non-null    float64
dtypes: float64(1), object(2)
memory usage: 3.0+ KB


###### Hacemos lo mismo con los demás data frames

In [348]:
#Anemia en niños de 6 a 59 meses des_anem
des_anem_lst = ['Country Code', 'Country Name','2015 [YR2015]']

des_anem_2015= des_anem[des_anem_lst] 
des_anem_2015.columns = ['codigo', 'pais','anemia2015'] # 1) cambiando el nombre de las columnas; 
des_anem_2015 = des_anem_2015[des_anem_2015['anemia2015'].notna()] #2)eliminamos los valores perdidos
des_anem_2015 = des_anem_2015.reset_index(drop=True) ### Reseteamos el indice
des_anem_2015 = des_anem_2015[0:190] #Seleccionamos los datos que son países
des_anem_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 190 entries, 0 to 189
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   codigo      190 non-null    object 
 1   pais        190 non-null    object 
 2   anemia2015  190 non-null    float64
dtypes: float64(1), object(2)
memory usage: 4.6+ KB


In [349]:
#Políticas de inclusión social van desde 1 a 6 pol_inclu
pol_inclu_lst = ['Country Code', 'Country Name','2015 [YR2015]']
pol_inclu_2015= pol_inclu[pol_inclu_lst] 
pol_inclu_2015.columns = ['codigo', 'pais','polinclu2015'] # 1) cambiando el nombre de las columnas; 
pol_inclu_2015 = pol_inclu_2015[pol_inclu_2015['polinclu2015'].notna()] #2)eliminamos los valores perdidos
pol_inclu_2015 = pol_inclu_2015.reset_index(drop=True) ### Reseteamos el indice
pol_inclu_2015 = pol_inclu_2015[0:76]
pol_inclu_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   codigo        76 non-null     object 
 1   pais          76 non-null     object 
 2   polinclu2015  76 non-null     float64
dtypes: float64(1), object(2)
memory usage: 1.9+ KB


In [350]:
import numpy as np

In [351]:
pol_inclu_2015['Niveldepolinclu']=np.where(pol_inclu_2015['polinclu2015']<3,'Bajo','Alto')
pol_inclu_2015.head(2) #Se hace una variable dicotomica para dividir entre ALTO y BAJO la frecuencia de políticas de inclusión 
# Siendo bajo todos los valores MENORES a 3 y alto todos los valores MAYORES a 3 

Unnamed: 0,codigo,pais,polinclu2015,Niveldepolinclu
0,AFG,Afghanistan,2.6,Bajo
1,BGD,Bangladesh,3.5,Alto


In [352]:
#Ingresos divididos entre valores nominales ingreso_rangos
ingreso_rangos_lst = ['Country Code', 'Country Name','Income_Group']
ingreso_rangos_2015= ingreso_rangos[ingreso_rangos_lst] 
ingreso_rangos_2015.columns = ['codigo', 'pais','ingreso2015'] # 1) cambiando el nombre de las columnas; 
ingreso_rangos_2015 = ingreso_rangos_2015[ingreso_rangos_2015['ingreso2015'].notna()] #2)eliminamos los valores perdidos
ingreso_rangos_2015 = ingreso_rangos_2015.reset_index(drop=True) ### Reseteamos el indice

In [353]:
ingreso_rangos_2015['Valores'] = 0
ingreso_rangos_2015.loc[ingreso_rangos_2015["ingreso2015"].isin(['Ingreso alto',
                                 'Ingreso mediano alto', 'Países de ingreso mediano bajo', 'Países de ingreso bajo' ]), "Valores"] = 1

In [354]:
ingreso_rangos_2015F = ingreso_rangos_2015[ingreso_rangos_2015['Valores'] == 1]

In [355]:
ingreso_rangos_2015F['ingreso2015'].value_counts() #Se eliminaron los datos que no pertenecian a los países

Ingreso alto                      82
Ingreso mediano alto              56
Países de ingreso mediano bajo    50
Países de ingreso bajo            29
Name: ingreso2015, dtype: int64

In [356]:
ingreso_rangos_2015F = ingreso_rangos_2015F.reset_index(drop=True)

In [357]:
#Felicidad: Se busca tomar tres variables de la base de datos de felicidad
fel_all_lst = ['Country name','year', 'Social support', 'Freedom to make life choices', 'Generosity']
fel_all_3= fel_all[fel_all_lst] 
fel_all_3.columns = ['pais', 'year','soportesocial','libertad', 'generosidad'] # 1) cambiando el nombre de las columnas; 

In [358]:
fel_all_2015= fel_all_3[fel_all_3['year'] == 2015]

In [359]:
fel_all_2015 = fel_all_2015[fel_all_2015['soportesocial'].notna()] #2)eliminamos los valores perdidos
fel_all_2015 = fel_all_2015[fel_all_2015['libertad'].notna()] 
fel_all_2015 = fel_all_2015[fel_all_2015['generosidad'].notna()] 
fel_all_2015 = fel_all_2015.reset_index(drop=True) ### Reseteamos el indice
fel_all_2015.head(3)

Unnamed: 0,pais,year,soportesocial,libertad,generosidad
0,Afghanistan,2015,0.529,0.389,0.08
1,Albania,2015,0.639,0.704,-0.081
2,Argentina,2015,0.926,0.881,-0.174


In [360]:
#Tenemos que multiplicar los valores por 100 para que este en relación con las otras variables, 
#también se debe eliminar la variable "año"
fel_all_2015['soportesocial'] = fel_all_2015['soportesocial'] * 100
fel_all_2015['libertad'] = fel_all_2015['libertad'] * 100
fel_all_2015['generosidad'] = fel_all_2015['generosidad'] * 100
fel_all_2015.head(3)

Unnamed: 0,pais,year,soportesocial,libertad,generosidad
0,Afghanistan,2015,52.9,38.9,8.0
1,Albania,2015,63.9,70.4,-8.1
2,Argentina,2015,92.6,88.1,-17.4


In [361]:
fel_all_lstF = ['pais','soportesocial', 'libertad', 'generosidad']
fel_all_2015F= fel_all_2015[fel_all_lstF]

### Ahora juntaremos las bases de datos 

##### Merge entre la base de datos de educación y anemia
Merge 1: edu_sec_2015 +
des_anem_2015

Merge 2: pol_inclu_2015 +
ingreso_rangos_2015F

Merge 3: Merge 1 + Merge 2

Merge 4: Merge 3 + fel_all_2015

In [362]:
resultado_merge_1 = pd.merge(edu_sec_2015,
                     des_anem_2015,
                    left_on = 'codigo',
                    right_on = 'codigo',
                    how = 'inner')

In [363]:
merge_1_lst = ['codigo', 'pais_x','educa2015','anemia2015']
resultado_merge_1= resultado_merge_1[merge_1_lst] 
resultado_merge_1.columns = ['codigo', 'pais','educa2015','anemia2015']

In [364]:
resultado_merge_2 = pd.merge(pol_inclu_2015,
                     ingreso_rangos_2015F,
                    left_on = 'codigo',
                    right_on = 'codigo',
                    how = 'inner')

In [365]:
merge_2_lst = ['codigo', 'pais_x', 'polinclu2015','Niveldepolinclu','ingreso2015']
resultado_merge_2= resultado_merge_2[merge_2_lst] 
resultado_merge_2.columns = ['codigo', 'pais', 'polinclu2015','Niveldepolinclu','ingreso2015']

In [366]:
resultado_merge_3 = pd.merge(resultado_merge_1,
                     resultado_merge_2,
                    left_on = 'codigo',
                    right_on = 'codigo',
                    how = 'inner')
resultado_merge_3.head(2)

Unnamed: 0,codigo,pais_x,educa2015,anemia2015,pais_y,polinclu2015,Niveldepolinclu,ingreso2015
0,AFG,Afghanistan,45.43273,43.7,Afghanistan,2.6,Bajo,Países de ingreso bajo
1,BGD,Bangladesh,59.13634,43.8,Bangladesh,3.5,Alto,Países de ingreso mediano bajo


In [367]:
merge_3_lst = ['pais_x','educa2015','anemia2015','Niveldepolinclu','ingreso2015']
resultado_merge_3= resultado_merge_3[merge_3_lst] 
resultado_merge_3.columns = ['pais', 'educa2015','anemia2015','Niveldepolinclu','ingreso2015']

In [368]:
resultado_merge_4 = pd.merge(resultado_merge_3,
                     fel_all_2015F,
                    left_on = 'pais',
                    right_on = 'pais',
                    how = 'inner')
resultado_merge_4.head(2)

Unnamed: 0,pais,educa2015,anemia2015,Niveldepolinclu,ingreso2015,soportesocial,libertad,generosidad
0,Afghanistan,45.43273,43.7,Bajo,Países de ingreso bajo,52.9,38.9,8.0
1,Bangladesh,59.13634,43.8,Alto,Países de ingreso mediano bajo,60.1,81.5,-6.8


In [369]:
resultado_merge_4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23 entries, 0 to 22
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   pais             23 non-null     object 
 1   educa2015        23 non-null     float64
 2   anemia2015       23 non-null     float64
 3   Niveldepolinclu  23 non-null     object 
 4   ingreso2015      23 non-null     object 
 5   soportesocial    23 non-null     float64
 6   libertad         23 non-null     float64
 7   generosidad      23 non-null     float64
dtypes: float64(5), object(3)
memory usage: 1.6+ KB


## Graficos 
##### En esta sección haremos algunos graficos para poder ver como se distribuian las variables 

In [370]:
def tema_final():
    font = "Rubric"
    labelFont = "Garamond"
    sourceFont = "Calibri"
    
    return {
        "config" : {
             "title": {'font': font, 
                       'fontSize': 15,
                       'fontWeight': 300,
                       'offset':0,
                       'anchor':'left'},
             "axis": {
                  "labelFont": font,
                  "titleFont": font,
                  "domainColor": 'white'
             },
             "header": {
                  "labelFont": font,
                  "titleFont": font
             },
             "legend": {
                  "labelFont": labelFont,
                  "titleFont": labelFont,
                  "symbolType": 'circle',
                  "padding": 1
                  
             }
             ,
             'background': '#66ff99'             
        }
    }

alt.themes.register('mitema', tema_final)
alt.themes.enable('mitema')

ThemeRegistry.enable('mitema')

In [371]:
resultado_merge_4.head(4)

Unnamed: 0,pais,educa2015,anemia2015,Niveldepolinclu,ingreso2015,soportesocial,libertad,generosidad
0,Afghanistan,45.43273,43.7,Bajo,Países de ingreso bajo,52.9,38.9,8.0
1,Bangladesh,59.13634,43.8,Alto,Países de ingreso mediano bajo,60.1,81.5,-6.8
2,Benin,46.58049,72.0,Alto,Países de ingreso mediano bajo,43.4,73.3,-2.7
3,Bhutan,63.7082,47.2,Alto,Países de ingreso mediano bajo,84.8,83.0,27.7


In [372]:
alt.Chart(resultado_merge_4, height = 500, width = 800).mark_point().encode(
    x = alt.X("anemia2015:Q", title="Prevalencia de anemia en niños"),
    y = alt.Y("educa2015:Q", title= "Taza de matricula a nivel secundario"),
    color = alt.Color("Niveldepolinclu"),
    size = alt.Size("soportesocial")
    ).interactive().properties(
    title={
      "text": ["Educación y Salud"], 
      "subtitle": ["La relación entre salud y educación",
                   "Fuente: Happiness Report y Banco Mundial"],
      "color": "Black",
      "subtitleColor": "Red"
    })

#### Mientras mayor es la educación se puede ver que hay menor prevalencia de anemia. En este grafico solo podemos ver que hay una aparente relación para un estudio más amplio sería necesario hace una prueba de correlación. Adiconalmente, hemos incluido las variables dicotomica sobre el nivel de las políticas de inclusión; en el grafico no se muestra una clara relación entre estas variables dado que haria falta una mayor base de datos. 

In [373]:
def tema_f():
    font = "Rubric"
    labelFont = "Garamond"
    sourceFont = "Calibri"
    
    return {
        "config" : {
             "title": {'font': font, 
                       'fontSize': 15,
                       'fontWeight': 300,
                       'offset':0,
                       'anchor':'left'},
             "axis": {
                  "labelFont": font,
                  "titleFont": font,
                  "domainColor": 'white'
             },
             "header": {
                  "labelFont": font,
                  "titleFont": font
             },
             "legend": {
                  "labelFont": labelFont,
                  "titleFont": labelFont,
                  "symbolType": 'circle',
                  "padding": 1
                  
             }
             ,
             'background': '#ccffcc'             
        }
    }

alt.themes.register('tema2', tema_f)
alt.themes.enable('tema2')

ThemeRegistry.enable('tema2')

In [374]:

bars = alt.Chart(resultado_merge_4).mark_bar().encode(
    x='libertad:Q',
    y="pais:N"
)

text = bars.mark_text(
    align='left',
    baseline='middle',
    dx=3  # Nudges text to right so it doesn't appear on top of the bar
).encode(
    text='libertad:Q'
)

(bars + text).properties(height=900)

In [375]:
resultado_merge_4["libertad"].max()

98.0

In [376]:
resultado_merge_4["libertad"].min()

38.9

In [377]:
bars1 = alt.Chart(resultado_merge_4).mark_bar().encode(
    x="anemia2015:Q",
    y="pais:N"
)

text1 = bars.mark_text(
    align='left',
    baseline='middle',
    dx=3  # Nudges text to right so it doesn't appear on top of the bar
).encode(

)

(bars1 + text1).properties(height=900)


#### En estos últimos graficos hemos visto que se relaciona las variables de libertad y anemia respectivamente. En la variable de libertad se pudo ver que habia un mayor indice de libertad en países como Uzbekistan mientras se reduce en países como Afganistan. Por otro lado, en relación a la variable de salud infantil, podemos ver que es contrario a la variable de libertad, ya que justo en Uzbekistan se ve una menor tasa de prevalencia de la anemia. Podemos concluir que la salud puede estar bastante ligada a la percepción de libertad. Al no ser una investigación amplia no se puede llegar a una conclusión certera pues puede que exista que estemos obviando una variable relevante en el estudio. 

##### Autores: Andres Bereche 20182720 / Antuané Vera 20155972