# Trabajo Final - Estudio descriptivo de la pobreza monetaria en América Latina con énfasis en Perú
#### Nombre:
Fabio Manual Salas Núñez Borja
#### Código: 
20185062

**Fuente de datos**:https://www.kaggle.com/mathurinache/extreme-poverty 

**Contexto**: Existen distintas aproximaciones a la medición de la pobreza monetaria en el mundo. Una de las más reconocidas es la de "one dollar a day" del Banco Mundial. Dicha aproximación daría cuenta de una condición de privación extrema en la mayoría de países del mundo. No obstante, ¿Qué ocurre cuando trabajamos a partir de una definición de pobreza enfocada en los países desarrollados y la aplicamos para un conjunto más amplio de países? Este trabajo considera la aplicación de una línea de pobreza "30 dollars a day" en diversos países (incluídos países en vía de desarrollo) para entender la situación global respecto a una de las formas de medir la pobreza existentes.Resulta que alrededor del 85% de la población mundial vive con menos de $30 al día, es decir, alrededor de 6.5 billones de personas. Asimismo, este trabajo hace uso de la data del Reporte de Felicidad para entender cómo es que la condición de pobreza bajo la línea considerada se relaciona con variables como el Ladder Score. 



In [2]:
import os 
import pandas as pd
import altair as alt
import numpy as np

In [3]:
os.chdir('G:\\CURSOS DE EXTENSIÓN\\Q-LAB PUCP\\Introducción a Python\\Notebooks')
os.getcwd()

'G:\\CURSOS DE EXTENSIÓN\\Q-LAB PUCP\\Introducción a Python\\Notebooks'

Antes de abrir la base notamos en la carpeta descargada que el formato del archivo es "Archivo de valores separados por comas de Microsoft Excel". Esto nos invita a aplicar el siguiente comando y las espeficicaciones concomitantes:

In [191]:
poverty_df= pd.read_csv("poverty_share_less_30pd.csv", sep=',')
poverty_df.head(39)

Unnamed: 0,Entity,Code,Year,$30.00 per day - share of population below poverty line
0,Albania,ALB,1981,99.91247
1,Albania,ALB,1982,99.91247
2,Albania,ALB,1983,99.91247
3,Albania,ALB,1984,99.91247
4,Albania,ALB,1985,99.91247
5,Albania,ALB,1986,99.91247
6,Albania,ALB,1987,99.91247
7,Albania,ALB,1988,99.91247
8,Albania,ALB,1989,99.91247
9,Albania,ALB,1990,99.91247


No es conveniente permanecer con un nombre largo para las variables. Y el nombre largo por antonomasia para una variable es: "$30.00 per day - share of population below poverty line"

In [197]:
change= {'$30.00 per day - share of population below poverty line': 'share_UPL'}
poverty_df.rename(columns = change, inplace = True)
poverty_df.head(2)

Unnamed: 0,Entity,Code,Year,share_UPL
0,Albania,ALB,1981,99.91247
1,Albania,ALB,1982,99.91247


Es interesante notar que el % de personas por debajo de la línea de pobreza de $30 no ha cambiado sustancialmente en Albania a lo largo de casi 4 décadas. Luego veremos que esto es común entre los países en vías de desarrollo

In [104]:
poverty_df.columns #Encontramos variables como Entity -que hace referencia al país- Code -código de identificación del mismo-, 
#año de disponibilidad de la información y, por último, el share de la población que se encuentra por debajo de la poverty line

Index(['Entity', 'Code', 'Year', 'share_UPL'], dtype='object')

In [105]:
poverty_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6942 entries, 0 to 6941
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Entity     6942 non-null   object 
 1   Code       6395 non-null   object 
 2   Year       6942 non-null   int64  
 3   share_UPL  6942 non-null   float64
dtypes: float64(1), int64(1), object(2)
memory usage: 217.1+ KB


In [163]:
poverty_df.isna().mean().round(4)*100
#Notamos que el 7.88% de las observaciones en Code son missing

Entity       0.00
Code         7.88
Year         0.00
share_UPL    0.00
dtype: float64

In [192]:
#Para facilitar el análisis, eliminamos los missing
poverty_df=poverty_df.dropna()
poverty_df.isna().sum()

Entity                                                     0
Code                                                       0
Year                                                       0
$30.00 per day - share of population below poverty line    0
dtype: int64

También podemos crear una función que me permita filtrar la base por año rápidamente

In [193]:
def filtrieren_y(Jahr, base):
    '''
    Filtra la base de datos según año
    Insumo (year, base): 
        year: año buscado
        base: nombre de la base de datos
    Producto (output):
        resultado: Base de datos con observaciones de un año específico
    '''
    conditio1 = base['Year']== Jahr
    return base[conditio1]

In [139]:
filtrieren_y(1998, poverty_df).head(3)

Unnamed: 0,Entity,Code,Year,share_UPL
17,Albania,ALB,1998,99.91546
56,Algeria,DZA,1998,99.87924
95,Angola,AGO,1998,99.01599


In [194]:
def filtrieren_g(Land, base):
    '''
    Filtra la base de datos según año
    Insumo (Land, base): 
        Land: nombre del país (str)
        base: nombre de la base de datos
    Producto (output):
        resultado: Base de datos con observaciones para un país específico
    '''
    conditio1 = base['Entity']== Land
    return base[conditio1]

In [126]:
filtrieren_g('Peru', poverty_df).head(2)

Unnamed: 0,Entity,Code,Year,share_UPL
4836,Peru,PER,1981,91.40349
4837,Peru,PER,1982,92.27765


Luego podemos juntar ambos filtros en una sola función para conocer el % de personas en condición de pobreza extrema en un país y año determinado

In [195]:
def super_filtro(Land, year, base):
    '''
    Combina un filtro geográfico con uno temporal y devuelve una base de datos
    Insumo (Land, year, base): 
        Land: nombre del país (str)
        year: año buscado
        base: nombre de la base de datos
    Producto (output):
    '''
    d1= filtrieren_g(Land, base)
    d2=filtrieren_y(year, d1)
    return d2

In [142]:
super_filtro('Peru', 1999, poverty_df)

Unnamed: 0,Entity,Code,Year,share_UPL
4854,Peru,PER,1999,95.37842


In [143]:
poverty_df[['Code']].value_counts()
#En el contexto de una serie de tiempo, podemos notar que no existe un mismo número de registros para todos los países. Es decir
#no contamos con el mismo rango de años para información del % de poblacón por debajo de la línea de pobreza en todos los países

Code    
AGO         39
NLD         39
MUS         39
MWI         39
MYS         39
            ..
OWID_KOS    20
TLS         20
NRU         16
SSD         12
SOM          9
Length: 168, dtype: int64

In [112]:
poverty_df[["share_UPL"]].describe()
#Entre el grupo de países considerados, el % promedio de personas por debajo de la línea de pobreza es de 87.48. Aunque este %
#parece variar sustancialmente entre países (desv. estándar de 23)

Unnamed: 0,share_UPL
count,6395.0
mean,87.038315
std,23.555543
min,0.0
25%,89.87433
50%,98.24892
75%,99.76236
max,99.99


In [144]:
p1 = poverty_df['Entity'] == "Peru"
poverty_df[p1]

Unnamed: 0,Entity,Code,Year,share_UPL
4836,Peru,PER,1981,91.40349
4837,Peru,PER,1982,92.27765
4838,Peru,PER,1983,93.35268
4839,Peru,PER,1984,93.34152
4840,Peru,PER,1985,93.35268
4841,Peru,PER,1986,92.0102
4842,Peru,PER,1987,91.35317
4843,Peru,PER,1988,93.98109
4844,Peru,PER,1989,96.57663
4845,Peru,PER,1990,97.20717


In [172]:
filtrieren_g('Peru',poverty_df).dtypes

Entity        object
Code          object
Year           int64
share_UPL    float64
dtype: object

Veamos cómo ha evolucionado el % de personas en condición de pobreza en Perú

In [202]:
alt.Chart(filtrieren_g('Peru',poverty_df), title="Evolución del % de la población en condición de pobreza monetaria (menos de $30 al día)").mark_line().encode(
    x = alt.X("Year", scale=alt.Scale(domain=[1980, 2019])),
    y = alt.Y("share_UPL", scale=alt.Scale(domain=[80, 100]))
             ).interactive()


Parece que a partir de 1987 el % de la población bajo la condición de pobreza considerada aumenta sustancialmente. Esto puede deberse al evento crítico de hiperinflación que experimentó nuestro país. Dado que las personas en condición de pobreza no cuentan con muchos bienes de capital, tienen la mayor parte de su riqueza en forma líquida, por ende, pueden verse más afectados por el alza generalizada de precios. A partir de 1995 parece haber una reducción importante -si bien fluctuante- del % de población en condición de pobreza. 

Ahora podemos comenzar el análisis complementario de la base del Reporte de Felicidad 

In [177]:
happy_all = pd.read_csv("whr.csv", sep=',')
happy_21 = pd.read_csv("whr_2021.csv", sep=',')
happy_21

Unnamed: 0,Country name,Regional indicator,Ladder score,Standard error of ladder score,upperwhisker,lowerwhisker,Logged GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Ladder score in Dystopia,Explained by: Log GDP per capita,Explained by: Social support,Explained by: Healthy life expectancy,Explained by: Freedom to make life choices,Explained by: Generosity,Explained by: Perceptions of corruption,Dystopia + residual
0,Finland,Western Europe,7.842,0.032,7.904,7.780,10.775,0.954,72.000,0.949,-0.098,0.186,2.43,1.446,1.106,0.741,0.691,0.124,0.481,3.253
1,Denmark,Western Europe,7.620,0.035,7.687,7.552,10.933,0.954,72.700,0.946,0.030,0.179,2.43,1.502,1.108,0.763,0.686,0.208,0.485,2.868
2,Switzerland,Western Europe,7.571,0.036,7.643,7.500,11.117,0.942,74.400,0.919,0.025,0.292,2.43,1.566,1.079,0.816,0.653,0.204,0.413,2.839
3,Iceland,Western Europe,7.554,0.059,7.670,7.438,10.878,0.983,73.000,0.955,0.160,0.673,2.43,1.482,1.172,0.772,0.698,0.293,0.170,2.967
4,Netherlands,Western Europe,7.464,0.027,7.518,7.410,10.932,0.942,72.400,0.913,0.175,0.338,2.43,1.501,1.079,0.753,0.647,0.302,0.384,2.798
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
144,Lesotho,Sub-Saharan Africa,3.512,0.120,3.748,3.276,7.926,0.787,48.700,0.715,-0.131,0.915,2.43,0.451,0.731,0.007,0.405,0.103,0.015,1.800
145,Botswana,Sub-Saharan Africa,3.467,0.074,3.611,3.322,9.782,0.784,59.269,0.824,-0.246,0.801,2.43,1.099,0.724,0.340,0.539,0.027,0.088,0.648
146,Rwanda,Sub-Saharan Africa,3.415,0.068,3.548,3.282,7.676,0.552,61.400,0.897,0.061,0.167,2.43,0.364,0.202,0.407,0.627,0.227,0.493,1.095
147,Zimbabwe,Sub-Saharan Africa,3.145,0.058,3.259,3.030,7.943,0.750,56.201,0.677,-0.047,0.821,2.43,0.457,0.649,0.243,0.359,0.157,0.075,1.205


Podemos unir ambas bases para contar globalmente con el indicador regional

In [178]:
happy = pd.merge(happy_all[happy_all['year'] == 2019],
                  happy_21[['Country name', "Regional indicator" ]],
                  on = "Country name",
                  how  = "inner",
                 indicator = True)

In [179]:
#Haremos un merge de ambas bases de datos para explorar la relación entre los niveles de pobreza bajo una línea de $30 y variables relevantes como
#la esperanza de vida o la libertad para tomar decisiones

#Pero, en primero lugar, debemos contar con un sólo nombre para las mismas variables en cada base
new_nombre = {'Entity': 'Country name', 'Year': 'year'}
poverty_df.rename(columns = new_nombre, inplace = True)
poverty_df.head(2)

Unnamed: 0,Country name,Code,year,share_UPL
0,Albania,ALB,1981,99.91247
1,Albania,ALB,1982,99.91247


Tomamos como nuestra base principal a "happy" y la fusionamos con la base trabajada de "poverty_df". Sólo queremos preservar aquellas observaciones que tienen estrictamente en común.

In [153]:
happy.shape

(144, 13)

In [156]:
poverty_df.shape

(6395, 4)

In [181]:
dfmerge = pd.merge(happy,
                     poverty_df,
                    left_on = ['Country name', 'year'],
                    right_on = ['Country name', 'year'],
                    how = 'inner')
dfmerge

Unnamed: 0,Country name,year,Life Ladder,Log GDP per capita,Social support,Healthy life expectancy at birth,Freedom to make life choices,Generosity,Perceptions of corruption,Positive affect,Negative affect,Regional indicator,_merge,Code,share_UPL
0,Albania,2019,4.995,9.544,0.686,69.0,0.777,-0.099,0.914,0.681,0.274,Central and Eastern Europe,both,ALB,98.89066
1,Algeria,2019,4.745,9.337,0.803,66.1,0.385,0.005,0.741,0.585,0.215,Middle East and North Africa,both,DZA,98.98599
2,Armenia,2019,5.488,9.522,0.782,67.2,0.844,-0.172,0.583,0.598,0.430,Commonwealth of Independent States,both,ARM,99.53208
3,Australia,2019,7.234,10.815,0.943,73.9,0.918,0.121,0.430,0.770,0.202,North America and ANZ,both,AUS,17.99878
4,Austria,2019,7.195,10.939,0.964,73.3,0.903,0.060,0.457,0.774,0.205,Western Europe,both,AUT,17.44017
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
121,Uzbekistan,2019,6.154,8.853,0.915,65.4,0.970,0.304,0.511,0.845,0.220,Commonwealth of Independent States,both,UZB,99.78410
122,Vietnam,2019,5.467,8.992,0.848,68.1,0.952,-0.126,0.788,0.751,0.186,Southeast Asia,both,VNM,96.36357
123,Yemen,2019,4.197,,0.870,57.5,0.651,,0.798,0.543,0.213,Middle East and North Africa,both,YEM,99.94615
124,Zambia,2019,3.307,8.155,0.638,55.8,0.811,0.077,0.832,0.743,0.394,Sub-Saharan Africa,both,ZMB,99.51594


In [184]:
merge_lac =dfmerge[dfmerge['Regional indicator'] == "Latin America and Caribbean"]
merge_lac_2019=merge_lac[merge_lac['year']==2019]
merge_lac_2019

Unnamed: 0,Country name,year,Life Ladder,Log GDP per capita,Social support,Healthy life expectancy at birth,Freedom to make life choices,Generosity,Perceptions of corruption,Positive affect,Negative affect,Regional indicator,_merge,Code,share_UPL
10,Bolivia,2019,5.674,9.074,0.784,63.9,0.881,-0.086,0.857,0.751,0.419,Latin America and Caribbean,both,BOL,92.55256
13,Brazil,2019,6.451,9.592,0.899,66.6,0.83,-0.062,0.762,0.761,0.337,Latin America and Caribbean,both,BRA,82.85525
19,Chile,2019,5.942,10.095,0.869,70.0,0.659,-0.103,0.86,0.809,0.337,Latin America and Caribbean,both,CHL,77.36503
21,Colombia,2019,6.35,9.598,0.873,68.0,0.822,-0.172,0.854,0.822,0.322,Latin America and Caribbean,both,COL,90.8363
23,Costa Rica,2019,6.998,9.885,0.906,71.5,0.927,-0.146,0.836,0.848,0.303,Latin America and Caribbean,both,CRI,78.05648
27,Dominican Republic,2019,6.004,9.821,0.884,66.1,0.877,-0.123,0.746,0.784,0.264,Latin America and Caribbean,both,DOM,89.74587
28,Ecuador,2019,5.809,9.339,0.808,68.8,0.83,-0.115,0.839,0.811,0.374,Latin America and Caribbean,both,ECU,91.76371
30,El Salvador,2019,6.455,9.08,0.764,66.4,0.877,-0.109,0.682,0.871,0.271,Latin America and Caribbean,both,SLV,95.23341
41,Guatemala,2019,6.262,9.064,0.774,65.1,0.901,-0.062,0.773,0.859,0.311,Latin America and Caribbean,both,GTM,96.48196
43,Honduras,2019,5.93,8.653,0.797,67.4,0.846,0.063,0.815,0.85,0.279,Latin America and Caribbean,both,HND,97.15784


El World Happines Report hace uso de una Escalera de Cantril para dar cuenta de niveles de satisfacción con la vida por parte de los encuestados: la escala va de a 0 (peor vida posible) hasta 10 (mejor vida posible)

In [207]:
alt.Chart(merge_lac_2019, title="Relación entre Percepción de Satisfacción con la vida y Share de la población viviendo en pobreza monetaria en América Latina").mark_circle().encode(
    x = alt.X("share_UPL", scale=alt.Scale(domain=[65, 100])),
    y = alt.Y("Life Ladder", scale=alt.Scale(domain=[5, 8])),
    color = 'Country name',
    tooltip = ["Country name", "Life Ladder"]
             ).interactive()


Al menos en el contexto de los países de América Latina, los países con los mayores niveles de pobreza monetaria (bajo $30) son también los países donde se registran los menores niveles de satisfacción con la vida. Aunque, como se evidencia en el caso de Brazil y El Salvador -ambos países tienen niveles similares de satisfacción con la vida pero cuentan con diferentes share de su población viviendo en condición de pobreza-, existen otros facores que pueden afectar la percepción de satisfacción con la vida de las personas.

In [214]:
alt.Chart(dfmerge, title="Relación entre Percepción de Satisfacción con la vida y Share de la población viviendo en pobreza monetaria en el mundo").mark_point().encode(
    x = alt.X("share_UPL", scale=alt.Scale(domain=[0, 100])),
    y = alt.Y("Life Ladder", scale=alt.Scale(domain=[2, 9])),
    color = "Regional indicator"
    ).interactive()

En el mundo notamos una relación similar a la observada para AL. Los países con menores niveles de pobreza también tienden a ser aquellos con mayor percepción de satisfacción con la vida. Este resultado puede parecer trivial, pero debemos tomar en cuenta que otros factores pueden determinar o explicar la percepción de felicidad de las personas. Por ejemplo,los niveles de corrpución percibidos, el acceso a redes de protección social o la percepción de violencia.Por otro lado, el panorama en las distintas regiones en cuanto a esta relación es diverso:

In [221]:
alt.Chart(dfmerge, title="Relación entre Percepción de Satisfacción con la vida y Share de la población viviendo en pobreza monetaria en el mundo").mark_point().encode(
    x = alt.X("share_UPL", scale=alt.Scale(domain=[0, 100])),
    y = alt.Y("Life Ladder", scale=alt.Scale(domain=[2, 9])),
    color = "Regional indicator",
    column = alt.Column("Regional indicator")
    ).interactive()