# Anexo técnico

Este documento constituye la base sobre la que se construyeron las gráficas, estadísticas y proyecciones presentadas en la semana de estudios del 2021. Este archivo está escrito en Python con formato de Jupyter para facilitar la entrada y salida de los datos. El análisis de datos se lleva a cabo usando `pandas`. Los gráficos se producen directamente en el núcleo de Jupyter mediante `matplotlib`. Para ajustar modelos de regresión se utiliza `statsmodels`.

Las bases de datos proceden en su mayor parte del INEGI. Los datos se leen de dichas bases de datos a partir de copias locales extraídas en noviembre y diciembre de 2020 directamente de las fuentes oficiales.

In [None]:
# Importar paquetes requeridos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib as matplotlib
import statsmodels.formula.api as smf
plt.close('all')

# Configuración de los gráficos ('True' para alta resolución)
calidad_publicacion = False

if calidad_publicacion:
    matplotlib.rcParams['figure.dpi']= 300
else:
    matplotlib.rcParams['figure.dpi']= 60

%config InlineBackend.figure_format = 'retina'
plt.style.use('seaborn-talk')

## Análisis de las series anuales y trimestrales del PIB

El primer análisis es el del producto interno bruto. Para ello empleamos la serie `pib_trimestral`, que contiene observaciones trimestrales del producto interno bruto a precios constantes (2013), desde el primer trimestre de 1993 hasta el tercer trimestre de 2020:

In [None]:
# Cargar base de datos del PIB
pib_trimestral = pd.read_excel('pib.xlsx', engine = 'openpyxl')
pib_trimestral = pib_trimestral.set_index('periodo')

pib_trimestral.head()

La serie `pib_trimestral` contiene observaciones del PIB trimestral *anualizado* de México. Esto quiere decir que cada observación se debe dividir por 4 para obtener el PIB del trimestre. Por tanto, para obtener el PIB anual se debe calcular el promedio de los correspondientes valores trimestrales. Esta nueva serie se llama `pib_anual`:

In [None]:
# Agrupar por periodo y calcular la media:
pib_anual = pib_trimestral.copy()
pib_anual = pib_anual.groupby('periodo')
pib_anual = pib_anual.mean()

# Eliminar la columna 'trimestre' que ya no es necesaria:
pib_anual.pop('trimestre')

pib_anual.head()

In [None]:
plt.plot(pib_anual['pib'])
plt.xlabel('Periodo')
plt.ylabel('Producto interno bruto anual ($M)')
plt.xlim(min(pib_anual.index),max(pib_anual.index))
plt.axvline(x = 1994, color = 'r') # 1994
plt.axvline(x = 2008, color = 'r') # 2008
plt.axvline(x = 2019, color = 'r') # 2019
plt.axvline(x = 2017, color = 'g') # Donald Trump (2017)
plt.axvline(x = 2018, color = 'g') # López Obrador (2018)

**Observaciones**:
* Hay tres caídas significativas del PIB anual, en los siguientes años: 1994 (crisis del tequila), 2008 (crisis financiera de EEUU) y 2019 (coronavirus).
* La magnitud de la recesión ocasionada por la pandemia del coronavirus es significativamente mayor que las otras dos.
* La recesión del coronavirus fue precedida por un periodo de crecimiento nulo (ligeramente negativo de hecho), que coincide con el inicio del gobierno actual (2018, segunda línea verde). Observamos que incluso después de la toma de posesión de Donald Trump (2017, primera línea verde), el país experimentó un crecimiento a la misma tasa media que los años anteriores.

En general, pensamos que el crecimiento del PIB guarda una correlación positiva con el crecimiento de la población. Por eso, para utilizar el PIB como una medida del crecimiento económico más objetiva es útil eliminar este efecto calculando el PIB per cápita (notamos que puede haber crecimiento de población y contracción del producto simultáneamente en el corto plazo).

Usaremos la serie `poblacion` que contiene información de la población de México registrada en los censos quinquenales:

In [None]:
# Cargar base de datos de la población
poblacion = pd.read_excel('poblacion.xlsx', engine = 'openpyxl')
poblacion = poblacion.set_index('periodo')
plt.plot(poblacion['poblacion'], 'o')
plt.xlabel('Periodo')
plt.ylabel('Población')
plt.xlim(min(poblacion.index),max(poblacion.index))

Debido a que la información no es anual, es necesario estimar la población en los periodos intercensales. La forma más sencilla de hacerlo es mediante una estimación (interpolación) lineal entre los periodos censales. Dadas dos observaciones (en censos consecutivos) $p_t$ y $p_{t+k}$ de la población, la estimación para $p_r$ (donde $t \leq r \leq t+k$) estará dada por:

$$p_r = p_t + \frac{p_{t+k} - p_t}{k} (r-t)$$

In [None]:
# Límites para estimar la población
periodo_inicial = min(poblacion.index)
periodo_final = max(pib_anual.index)

estimados = dict()

# Algoritmo de estimación:
for periodo in range(periodo_inicial, periodo_final + 1):
    if periodo in poblacion.index:
        estimados[periodo] = poblacion.loc[periodo].poblacion
    else:
        obs_1 = periodo
        obs_2 = periodo
        if periodo > max(poblacion.index):
            obs_1 = max(poblacion.index[:-1])
            obs_2 = max(poblacion.index)
        else:
            while obs_1 not in poblacion.index:
                obs_1 = obs_1 -1
            while obs_2 not in poblacion.index:
                obs_2 = obs_2 + 1
        estimacion = poblacion.loc[obs_1].poblacion + (poblacion.loc[obs_2].poblacion - poblacion.loc[obs_1].poblacion) / (obs_2 - obs_1) * (periodo - obs_1)
        estimacion = int(estimacion)
        estimados[periodo] = estimacion

# Data frame final con las estimaciones:
poblacion_estimada = pd.DataFrame({'periodo': estimados.keys(), 'poblacion': estimados.values()})
poblacion_estimada = poblacion_estimada.set_index('periodo')

Verificamos (gráficamente) que la estimación intercensal sea congruente con los datos

In [None]:
plt.plot(poblacion['poblacion'], 'o')
plt.plot(poblacion_estimada['poblacion'])
plt.legend(loc = 0, labels = ['Población observada (censal)', 'Población estimada (intercensal)'])
plt.xlabel('Periodo')
plt.ylabel('Población')

Finalmente podemos calcular el PIB real per cápita:

In [None]:
# Unir los datos de población estimada a los del PIB anual
pib_anual = pd.merge(pib_anual, poblacion_estimada, how='inner', on='periodo')

# Calcular PIB anual per cápita y convertirlo de millones a miles:
pib_anual['per_capita'] = (pib_anual['pib'] / pib_anual['poblacion']) * 1000

In [None]:
plt.plot(pib_anual['per_capita'])
plt.xlabel('Periodo')
plt.ylabel('PIB per cápita ($K)')
plt.xlim(min(pib_anual.index),max(pib_anual.index))
plt.axvline(x = 1994, color = 'r') # 1994
plt.axvline(x = 2008, color = 'r') # 2008
plt.axvline(x = 2019, color = 'r') # 2019
plt.axvline(x = 2017, color = 'g') # Donald Trump (2017)
plt.axvline(x = 2018, color = 'g') # López Obrador (2018)

Observamos que en este gráfico aparece una nueva ligera recesión en el año 2000, que corresponde al efecto conjunto de la crisis punto com y un aumento moderado en la tasa de natalidad.

In [None]:
# Tasa de crecimiento del PIB anual:
pib_anual['pib_tasa'] = 100 * (pib_anual['pib'] - pib_anual['pib'].shift(1)) / pib_anual['pib'].shift(1)
pib_anual['pib_tasa'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento anual del PIB (%)')
plt.axhline(y = 0, linewidth = '0.7', color = 'k')

En esta gráfica podemos apreciar la magnitud de los decrecimientos: la crisis del coronavirus ha provocado un descenso del 10% anual en el PIB en 2020, prácticamente el doble que en las crisis anteriores.

In [None]:
# Tasa de crecimiento del PIB trimestral:
pib_trimestral['pib_tasa'] = 100 * (pib_trimestral['pib'] - pib_trimestral['pib'].shift(4)) / pib_trimestral['pib'].shift(4)
pib_trimestral['pib_tasa_continua'] = 100 * (pib_trimestral['pib'] - pib_trimestral['pib'].shift(1)) / pib_trimestral['pib'].shift(1)

# Datos en formato largo
pib_trimestral_l = pib_trimestral.copy()
pib_trimestral_l = pib_trimestral_l.pivot(columns = 'trimestre', values = ['pib', 'pib_tasa', 'pib_tasa_continua'])

In [None]:
pib_trimestral_l['pib_tasa_continua'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento del PIB trimestral r/a anterior (%)')
plt.axhline(y = 0, linewidth = '0.7', color = 'k')
plt.legend(title = 'Trimestre', loc = 0)

Si bien el producto continúa en niveles bajos, observamos que el tercer trimestre de 2020 hubo un crecimiento del 10% respecto al segundo trimestre, lo que puede indicar el inicio de la recuperación. Sin embargo, los efectos a largo plazo pueden ser profundos.

## Análisis de las series compuestas del PIB (componentes de la demanda agregada)

Para un análisis más detallado, es útil considerar la descomposición del producto en sus respectivos componentes de demanda: consumo privado, gasto público, inversión (formación de capital fijo más variación de inventarios) y exportaciones netas (exportaciones menos importaciones). Para este análisis usamos la base de datos de oferta y utilización trimestral. Esta base no incluye la observación correspondiente al tercer trimestre del 2020.

In [None]:
# Cargar base de datos del PIB compuesto
pibc_trimestral = pd.read_excel('pib_comp.xlsx', engine = 'openpyxl')
pibc_trimestral = pibc_trimestral.set_index('periodo')

pibc_trimestral.head()

Igual que en el caso del PIB sin componer, calculamos el producto anual:

In [None]:
# Agrupar por periodo y calcular la media
pibc_anual = pibc_trimestral.copy()
pibc_anual = pibc_anual.groupby('periodo')
pibc_anual = pibc_anual.mean()

# Eliminar la columna 'trimestre' que ya no es necesaria
pibc_anual.pop('trimestre')

pibc_anual.head()

Si el cálculo es correcto esperamos que se cumpla la identidad contable:

$$ Y = C + I + G + EX - IM + \epsilon$$

donde $Y$ es el PIB (del lado de la oferta), mientras que el lado de la demanda es la suma del consumo ($C$), la inversión ($I$), el gasto público ($G$), las exportaciones ($EX$), las importaciones ($IM$) y la llamada "discrepancia estadística" $\epsilon$. Verificamos que sea así:

In [None]:
# Obtener la suma de los componentes del lado de la demanda
oferta = pibc_anual['consumo'] + pibc_anual['inversion'] + pibc_anual['gasto'] + pibc_anual['exportaciones'] - pibc_anual['importaciones'] + pibc_anual['discrepancia']

# Obtener la diferencia entre el PIB (oferta) y la demanda, que debe ser cero:
diferencia = round(pibc_anual['pib'] - oferta)

# Diferencia máxima y mínima:
(max(diferencia), min(diferencia))

Como las diferencias máxima y mínima son ambas cero, entonces todas las observaciones de la base de datos cumplen la identidad contable anterior. Por lo tanto el cálculo del PIB anual es correcto. A continuación calculamos las tasas de crecimiento del PIB y cada uno de sus componentes:

In [None]:
# Tasa de crecimiento de los componentes del PIB trimestral, respecto al trimestre del año anterior
pibc_trimestral['pib_tasa'] = (pibc_trimestral['pib'] - pibc_trimestral['pib'].shift(4)) / pibc_trimestral['pib'].shift(4)
pibc_trimestral['importaciones_tasa'] = 100 * (pibc_trimestral['importaciones'] - pibc_trimestral['importaciones'].shift(1)) / pibc_trimestral['importaciones'].shift(1)
pibc_trimestral['consumo_tasa'] = 100 * (pibc_trimestral['consumo'] - pibc_trimestral['consumo'].shift(1)) / pibc_trimestral['consumo'].shift(1)
pibc_trimestral['gasto_tasa'] = 100 * (pibc_trimestral['gasto'] - pibc_trimestral['gasto'].shift(1)) / pibc_trimestral['gasto'].shift(1)
pibc_trimestral['inversion_tasa'] = 100 * (pibc_trimestral['inversion'] - pibc_trimestral['inversion'].shift(1)) / pibc_trimestral['inversion'].shift(1)
pibc_trimestral['exportaciones_tasa'] = 100 * (pibc_trimestral['exportaciones'] - pibc_trimestral['exportaciones'].shift(1)) / pibc_trimestral['exportaciones'].shift(1)

# Datos del PIB trimestral en formato largo
pibc_trimestral_l = pibc_trimestral.copy()
pibc_trimestral_l = pibc_trimestral_l.pivot(columns = 'trimestre',
                                            values = ['pib_tasa', 'importaciones_tasa', 'consumo_tasa', 'gasto_tasa' , 'inversion_tasa', 'exportaciones_tasa'])

# Cálculo de las tasas de crecimiento de los componentes del PIB anual:
pibc_anual['importaciones_tasa'] = 100 * (pibc_anual['importaciones'] - pibc_anual['importaciones'].shift(1)) / pibc_anual['importaciones'].shift(1)
pibc_anual['consumo_tasa'] = 100 * (pibc_anual['consumo'] - pibc_anual['consumo'].shift(1)) / pibc_anual['consumo'].shift(1)
pibc_anual['gasto_tasa'] = 100 * (pibc_anual['gasto'] - pibc_anual['gasto'].shift(1)) / pibc_anual['gasto'].shift(1)
pibc_anual['inversion_tasa'] = 100 * (pibc_anual['inversion'] - pibc_anual['inversion'].shift(1)) / pibc_anual['inversion'].shift(1)
pibc_anual['exportaciones_tasa'] = 100 * (pibc_anual['exportaciones'] - pibc_anual['exportaciones'].shift(1)) / pibc_anual['exportaciones'].shift(1)

In [None]:
pibc_trimestral_l['pib_tasa'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento del PIB anual (vs. trimestre anterior, %)')
plt.legend(title = 'Trimestre', loc = 0)
plt.axhline(y = 0, linewidth = '0.7', color = 'k')

In [None]:
pibc_trimestral_l['consumo_tasa'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento del consumo anual (vs. trimestre anterior, %)')
plt.legend(title = 'Trimestre', loc = 0)
plt.axhline(y = 0, linewidth = '0.7', color = 'k')

In [None]:
pibc_trimestral_l['inversion_tasa'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento de la inversión anual (vs. trimestre anterior, %)')
plt.legend(title = 'Trimestre', loc = 0)
plt.axhline(y = 0, linewidth = '0.7', color = 'k')

In [None]:
pibc_trimestral_l['gasto_tasa'].plot.bar()
plt.xlabel('Periodo')
plt.ylabel('Crecimiento del gasto público anual (vs. trimestre anterior, %)')
plt.legend(title = 'Trimestre', loc = 0)
plt.axhline(y = 0, linewidth = '0.7', color = 'k')

Finalmente, la pregunta a responder es la siguiente: ¿qué componentes explican mayoritariamente la variación del PIB, especialmente los movimientos recesivos recientes?

In [None]:
pibc_anual[['consumo_tasa', 'inversion_tasa', 'gasto_tasa']].plot.bar()
plt.legend(title = 'Tasas de crecimiento por componente', loc = 0, labels = ['Consumo', 'Inversión', 'Gasto'])
plt.axhline(y = 0, linewidth = '0.7', color = 'k')
plt.xlabel('Periodo')
plt.ylabel('Tasa de crecimiento anual del PIB (por componente)')

## Análisis de las series de desocupación y población económicamente activa

El primer objetivo consiste en buscar una relación análoga a la ley de Okun: tratamos de verificar si en México se observa una correlación negativa entre el producto y el nivel de desempleo. Las bases de datos proceden de la ENOE. El primer paso será expresar las tasas de desempleo (que se encuentran de forma mensual) como tasas trimestrales, para compararlas con la serie del PIB trimestral.

In [None]:
# Cargar base de datos de desocupación (desempleo)
desempleo = pd.read_excel('desocupacion.xlsx', engine = 'openpyxl')

desempleo.head()

In [None]:
# Función para convertir de mes a trimestre
def mes_a_trimestre(fila):
    if fila['mes'] in (1, 2, 3):
        return 1
    elif fila['mes'] in (4, 5, 6):
        return 2
    elif fila['mes'] in (7, 8, 9):
        return 3
    elif fila['mes'] in (10, 11, 12):
        return 4
    else:
        return 0

# Insertar columna con el trimestre
desempleo['trimestre'] = desempleo.apply(mes_a_trimestre, axis = 1)

# Calcular la tasa media de desempleo por trimestre
periodo_i = min(desempleo['periodo'])
periodo_f = max(desempleo['periodo'])

periodos = []
trimestres = []
tasas = []

for periodo in range(periodo_i, periodo_f + 1):
    trimestre_i = min(desempleo.query(f'periodo == {periodo}')['trimestre'])
    trimestre_f = max(desempleo.query(f'periodo == {periodo}')['trimestre'])
    for trimestre in range(trimestre_i, trimestre_f + 1):
        periodos.append(periodo)
        trimestres.append(trimestre)
        tasas.append(np.mean(desempleo.query(f'periodo == {periodo} & trimestre == {trimestre}')['desocupacion']))

# Guardar en un data frame nuevo
desempleo_trimestral = pd.DataFrame({'periodo': periodos, 'trimestre': trimestres, 'desocupacion': tasas})
desempleo_trimestral = desempleo_trimestral.set_index('periodo')

# Calcular tasas de cambio de la tasa de desempleo
desempleo_trimestral['desocupacion_tasa'] = 100 * (desempleo_trimestral['desocupacion'] - desempleo_trimestral['desocupacion'].shift(4)) / desempleo_trimestral['desocupacion'].shift(4)
desempleo_trimestral['desocupacion_tasa_continua'] = 100 * (desempleo_trimestral['desocupacion'] - desempleo_trimestral['desocupacion'].shift(1)) / desempleo_trimestral['desocupacion'].shift(1)

# Nuevo data frame con la información del PIB y el desempleo
mexico = pd.merge(desempleo_trimestral, pib_trimestral, how = 'inner', on = ['periodo', 'trimestre'])
mexico = mexico.set_index('trimestre', append = True)

In [None]:
mexico.plot.scatter(x = 'desocupacion_tasa_continua', y = 'pib_tasa_continua')
plt.xlabel('Crecimiento de la tasa de desempleo trimestral (%)')
plt.ylabel('Crecimiento del PIB trimestral (%)')
plt.axhline(y = 0, linewidth = '0.7', color = 'k')
plt.axvline(x = 0, linewidth = '0.7', color = 'k')

La mayor densidad de puntos en los cuadrantes I y III indica una relación negativa, (no necesariamente lineal ni perfectamente continua) entre el PIB y el desempleo. Esta es la llamada "ley de Okun".

In [None]:
mexico['pib'].plot()
plt.ylabel('Producto interno bruto trimestral ($M)')
mexico['desocupacion'].plot(secondary_y = True)
plt.ylabel('Tasa de desempleo trimestral (%)')
plt.axvline(x = mexico.index.get_loc((2008,4)), color = 'r') # 2008
plt.axvline(x = mexico.index.get_loc((2019,4)), color = 'r') # 2019
plt.axvline(x = mexico.index.get_loc((2018,4)), color = 'g') # López Obrador (2018)

**Observaciones**
* Las crisis de 2008 y 2019 muestran elevaciones muy significativas en el nivel de desempleo.
* La tasa de desempleo se encontraba descendiendo desde su nivel máximo en el tercer trimestre de 2009 (6%) hasta el inicio del año 2020, donde creció de un nivel debajo del 3.5% a ubicarse encima del 5%.
* Los datos de la ENOE están disponibles hasta octubre de 2020, por lo que no conocemos aún la tasa de desempleo de los últimos dos meses del año.

In [None]:
# Ajustar modelo de regresión del crecimiento de la tasa de desempleo trimestral sobre la tasa de crecimiento del PIB trimestral
modelo_okun = smf.ols('desocupacion_tasa_continua ~pib_tasa_continua', data = mexico)
modelo_okun = modelo_okun.fit()

print(modelo_okun.summary())

Una regresión simple muestra que por cada punto porcentual que disminuye la tasa de crecimiento del PIB, la tasa de desempleo disminuye en 1.5 puntos porcentuales.

In [None]:
mexico['desocupacion'].plot()
plt.xlabel('Periodo')
plt.ylabel('Tasa de desempleo trimestral (%)')
plt.axvline(x = mexico.index.get_loc((2008,4)), color = 'r') # 2008
plt.axvline(x = mexico.index.get_loc((2019,4)), color = 'r') # 2019
plt.axvline(x = mexico.index.get_loc((2018,4)), color = 'g') # López Obrador (2018)
plt.axhline(y = np.mean(mexico['desocupacion']), linewidth = '1.0', color = 'grey')

## Análisis de la medida de pobreza multidimensional

In [None]:
# Cargar base de datos del CONEVAL (desempleo)
pobreza = pd.read_excel('pobreza.xlsx', engine = 'openpyxl')
pobreza = pobreza.set_index('periodo')

pobreza.head()

Buscamos encontrar una relación entre la pobreza multidimensional medida por el CONEVAL y la evolución del PIB anual.

In [None]:
# Unir data frames de pobreza y PIB anual
pobreza = pd.merge(pobreza, pib_anual, how = 'inner', on = 'periodo')

In [None]:
pobreza['pobreza'].plot(ylim = (40, 60))
plt.ylabel('Personas en pobreza (M)')
pobreza['pib'].plot(secondary_y = True)
plt.ylabel('Producto interno bruto anual ($M)')

Observamos que no hay relación aparente entre el PIB y la cantidad de personas pobres. Es importante considerar el factor demográfico, por lo que buscaremos si hay una relación corrigiendo por el crecimiento poblacional, relacionando la *proporción* de personas pobres y el PIB *per cápita*.

In [None]:
pobreza['pobreza_p'].plot(ylim = (40, 50))
plt.ylabel('Personas en pobreza (% población total)')
pobreza['per_capita'].plot(secondary_y = True)
plt.ylabel('Producto interno bruto anual per cápita ($K)')

Al corregir por el tamaño de la población, una relación negativa entre PIB y pobreza se vuelve aparente. Una gráfica de dispersión lo hace más evidente:

In [None]:
pobreza.plot.scatter(x = 'per_capita', y = 'pobreza_p')

A continuación estimamos una regresión lineal simple mediante mínimos cuadrados ordinarios de la proporción de población en pobreza sobre el PIB per cápita:

In [None]:
# Ajustar modelo de regresión del porcentaje de población en pobreza sobre el PIB per cápita
modelo_pobreza = smf.ols('pobreza_p ~ per_capita', data = pobreza)
modelo_pobreza = modelo_pobreza.fit()

print(modelo_pobreza.summary())

Empleando la regresión, proyectamos la proporción de población en pobreza estimada para 2020:

In [None]:
# Nuevo data frame para proyección de pobreza en 2020
pobreza_ext = pobreza.copy()
pobreza_ext = pobreza_ext[['pobreza_p', 'per_capita']]

# Proyección de pobreza para 2020
pib_2020 = pib_anual.query('periodo == 2020')['per_capita'][2020]
pobreza_2020 = modelo_pobreza.params['per_capita'] * pib_2020 + modelo_pobreza.params['Intercept']

# Añadir al data frame
pobreza_ext = pobreza_ext.append(pd.DataFrame({'per_capita': {2020: pib_2020}, 'pobreza_p': {2020: pobreza_2020}}))

In [None]:
pobreza_ext.loc[:2018]['pobreza_p'].plot(ylim = (40, 50))
pobreza_ext.loc[2018:2020]['pobreza_p'].plot(ylim = (40, 50), style = ":k")
plt.axhline(y = pobreza_2020, linewidth = '1.0', color = 'grey')
plt.xlabel('Periodo')
plt.ylabel('Personas en pobreza (% población total)')
pobreza_ext['per_capita'].plot(secondary_y = True)
plt.ylabel('Producto interno bruto anual per cápita ($K)')

In [None]:
# Calcular cambios intertemporales
pobreza['pobreza_c'] = pobreza['pobreza'] - pobreza['pobreza'].shift(1)
pobreza['pobrezam_c'] = pobreza['pobrezam'] - pobreza['pobrezam'].shift(1)
pobreza['pobrezae_c'] = pobreza['pobrezae'] - pobreza['pobrezae'].shift(1)

In [None]:
pobreza

In [None]:
pobreza[['pobrezam', 'pobrezae']].plot.bar(stacked = True)
plt.legend(title = 'Personas en pobreza', loc = 3, labels = ['Moderada', 'Extrema'])
plt.xlabel('Periodo')
plt.ylabel('Personas (M)')

In [None]:
pobreza[['pobrezam_p', 'pobrezae_p']].plot.bar(stacked = True)
plt.legend(title = 'Porcentaje de población en pobreza', loc = 3, labels = ['Moderada', 'Extrema'])
plt.xlabel('Periodo')
plt.ylabel('Porcentaje de población (%)')

In [None]:
pd.DataFrame(pobreza.query("periodo > 2008")[['pobrezam_c', 'pobrezae_c']]).plot.bar()
plt.legend(title = 'Personas en pobreza', loc = 0, labels = ['Moderada', 'Extrema'])
plt.axhline(y = 0, linewidth = '0.7', color = 'k')
plt.xlabel('Periodo')
plt.ylabel('Personas respecto al año anterior (M)')

In [None]:
pobreza.columns

In [None]:
pobreza[['vivienda_p', 'servicios_p']].plot.bar(legend = False)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la población con carencias (%)')

In [None]:
pobreza[['rezago_p', 'salud_p', 'ss_p']].plot.bar(legend = False)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la población con carencias (%)')

## Análisis de las características de los hogares

In [None]:
# (!) NOTA
#     En esta celda se cargan microdatos de la ENIGH; puede tardar algunos minutos en ejecutarse debido al tamaño del archivo.

# Cargar base de microdatos de características de los hogares de la ENIGH 2018
enigh18 = pd.read_excel('hogares_enigh_2018.xlsx', engine = 'openpyxl')

In [None]:
# Eliminar espacios erróneos en la base de datos
for columna in enigh18.columns:
    enigh18[columna] = enigh18[columna].replace(' ', '')
    enigh18[columna] = pd.to_numeric(enigh18[columna])

In [None]:
# Cargar diccionario de datos para interpretar las preguntas de los microdatos
diccionario_hogares = pd.read_excel('diccionario_hogares_enigh_2018.xlsx', engine = 'openpyxl')

In [None]:
# Determinar el tamaño de la muestra de la ENIGH
muestra_enigh = len(enigh18.query("foliohog != ''"))

In [None]:
# Estimación del número de hogares en 2018

# Cargar base de datos de hogares censales
hogares = pd.read_excel('hogares.xlsx', engine = 'openpyxl')

hogares.plot.scatter(x = 'periodo', y = 'hogares', style = '-g')
plt.xlabel('Periodo')
plt.ylabel('Número de hogares')

In [None]:
modelo_hogares = smf.ols('hogares ~ periodo', data = hogares)
modelo_hogares = modelo_hogares.fit()

print(modelo_pobreza.summary())

In [None]:
# Hogares proyectados para 2018
hogares_2018 = 2018 * modelo_hogares.params['periodo'] + modelo_hogares.params['Intercept']
hogares_2018 = round(hogares_2018)

print(hogares_2018)

In [None]:
# Análisis de variables binarias
for i in diccionario_hogares.query("tipo == 'bin'").index:
    print(diccionario_hogares.query("tipo == 'bin'").loc[i]['descripcion'])
    nombre_variable = diccionario_hogares.query("tipo == 'bin'").loc[i]['variable']
    positivos = len(enigh18.query(nombre_variable + " == 1"))
    negativos = len(enigh18.query(nombre_variable + " == 2"))
    resultado_global = round(100 * positivos / muestra_enigh, 2)
    resultado_local = round(100 * positivos / (positivos + negativos), 2)
    print('Porcentajes: ' + str(resultado_global) + '(sobre el total) - ' + str(resultado_local) + ' (sobre lo respondido)')
    print('Valores absolutos: ' + str(hogares_2018 * resultado_global / 100) + '(sobre el total) - ' + str(hogares_2018 * resultado_local / 100) + ' (sobre lo respondido)\n')

In [None]:
# Análisis de variables numéricas
for i in diccionario_hogares.query("tipo == 'num'").index:
    print(diccionario_hogares.query("tipo == 'num'").loc[i]['descripcion'])
    nombre_variable = diccionario_hogares.query("tipo == 'num'").loc[i]['variable']
    minimo = np.min(enigh18[nombre_variable])
    maximo = np.max(enigh18[nombre_variable])
    media = round(np.mean(enigh18[nombre_variable]), 2)
    print('Mínimo: ' + str(minimo) + ' / Máximo: ' + str(maximo) + ' / Media: ' + str(media) + '\n')

## Análisis de la distribución de los ingresos

In [None]:
# Cargar base de datos de participación del 1% más rico en el ingreso nacional
percentil_1_internacional = pd.read_excel('percentil_1_internacional.xlsx', engine = 'openpyxl')
percentil_1_internacional = percentil_1_internacional.set_index('pais')

In [None]:
percentil_1_internacional['participacion'].plot.barh()
plt.xlabel('Participación del 1% más rico en el ingreso nacional (%)')
plt.ylabel('País')

In [None]:
percentil_1_internacional['per_capita'].plot.barh()
plt.xlabel('PIB per cápita ($USD con PPP de 2010)')
plt.ylabel('País')

In [None]:
# Cargar base de datos de países y regiones seleccionadas de la World Income Database
wid = pd.read_excel('wid.xlsx', engine = 'openpyxl')
wid = wid.set_index('year')

# Convertir en porcentajes
for col in wid.columns:
    wid[col] = 100 * wid[col]

In [None]:
wid[['world_0_50', 'world_50_90', 'world_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (Mundial)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['latam_0_50', 'latam_50_90', 'latam_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (Latinoamérica)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['mexico_0_50', 'mexico_50_90', 'mexico_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (México)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['eeuu_0_50', 'eeuu_50_90', 'eeuu_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (EEUU)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['weurope_0_50', 'weurope_50_90', 'weurope_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (Europa occ.)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['africa_0_50', 'africa_50_90', 'africa_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (África)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['chile_0_50', 'chile_50_90', 'chile_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (Chile)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
wid[['spain_0_50', 'spain_50_90', 'spain_90_100']].plot.bar(stacked = True)
plt.xlabel('Periodo')
plt.ylabel('Proporción de la participación en el PIB (España)')
plt.legend(loc = 2, labels = ['Percentiles 0 - 50', 'Percentiles 50 - 90', 'Percentiles 90 - 100'])

In [None]:
# Cargar base de datos de países y regiones seleccionadas de la World Income Database para el periodo más reciente (2019)
wid2 = pd.read_excel('wid2.xlsx', engine = 'openpyxl')
wid2 = wid2.set_index('pais')

# Convertir en porcentajes
for col in wid2.columns:
    wid2[col] = 100 * wid2[col]

In [None]:
wid2[['0_50', '50_90', '90_100']].sort_values('90_100').plot.barh(stacked = True, legend = False)
plt.xlabel('Proporción de la participación en el PIB por percentil de ingreso')
plt.ylabel('País o región')

In [None]:
wid2[['0_50', '50_90', '90_99', '99_100']].sort_values('99_100').plot.barh(stacked = True, legend = False)
plt.xlabel('Proporción de la participación en el PIB por percentil de ingreso')
plt.ylabel('País o región')

In [None]:
wid2[['0_50', '50_90', '90_99', '99_100']].sort_values('99_100', ascending = False)

In [None]:
# Cargar base de datos de deciles de ingreso (2018)
deciles = pd.read_excel('deciles.xlsx', engine = 'openpyxl')
deciles = deciles.set_index('decil')

In [None]:
deciles.plot.bar(legend = False)
plt.xlabel('Deciles de hogares')
plt.ylabel('Ingreso corriente trimestral promedio por decil ($MXN)')

In [None]:
# Veces que el decil I cabe en el decil X
print(deciles.loc['X']['ingreso'] / deciles.loc['I']['ingreso'])

In [None]:
# Veces que el decil IX cabe en el decil X
print(deciles.loc['X']['ingreso'] / deciles.loc['IX']['ingreso'])

In [None]:
# Línea de pobreza en 2018 (por persona, valores urbanos)
linea_pobreza = 2996.41
linea_pobrezae = 1500.84

# Tamaño promedio del hogar en el país
tamano_hogar = 3.7

# Líneas de pobreza en 2018 (por hogar, valores rurales)
linea_pobreza_h = linea_pobreza * tamano_hogar
linea_pobrezae_h = linea_pobrezae * tamano_hogar

In [None]:
deciles.plot.bar(legend = False)
plt.xlabel('Deciles de hogares')
plt.ylabel('Ingreso corriente trimestral promedio por decil ($MXN)')
plt.axhline(y = linea_pobreza_h, color = 'r')