In [3]:
import numpy as np
import pandas as pd 

# Plantilla número 1 

Es necesario ajustar las definiciones, las fuentes de los datos y posiblemente definiciones si la ENEMDU tiene una dimensión geográfica y temporal al mismo tiempo

In [None]:
data = pd.read_csv('datos/enemdu2012.csv') # para datos csv
data = pd.read_stata('datos/archivo.dta') # para bases de stata
data = pd.read_spss('datos/archivo.sav') # pasa spss

In [8]:
data = pd.read_csv('data_rs.csv')

## Revisar los datos

In [9]:
data.describe

<bound method NDFrame.describe of       Unnamed: 0    avisoid  empresaid avisofechapublicacion  avisovacante  \
0         127316   363504.0       8240            2008-12-01           4.0   
1        1937566  3352756.0       9641            2017-12-12           1.0   
2          66650   297354.0     580702            2008-07-17           1.0   
3         773090  1195593.0      10768            2012-05-07           1.0   
4        1232289  2209754.0     704890            2014-06-11           1.0   
...          ...        ...        ...                   ...           ...   
7995     2547516  4208322.0      41958            2021-03-18           1.0   
7996     3025716  5324450.0       2203            2022-09-27           5.0   
7997     2930504  5202002.0     915899            2022-05-26           1.0   
7998     2878486  5144540.0     746865            2022-03-30           1.0   
7999     2840056  5104060.0     628064            2022-02-15           1.0   

      mostrarsueldo  avisoexp

## Corregimos los valores de ser necesario

In [17]:
# Llenar valores perdidos con un dato (0)
data['avisoexperiencia'] = data['avisoexperiencia'].fillna(0)

## Calculamos ingreso bruto por persona

In [None]:
data['ingr_b'] = data['p26'] + data['p45']
data['ingr_b'].mean()

## Deflactamos el ingreso

In [None]:
# Cargamos los datos del ipc mensual de Ecuador para el año usado
ipc = np.array([16, 15, 58, 96, 85, 45])
# Elegimos el año base
ipcb = 100

In [None]:
# Asigna el IPC a cada mes
data['ipc'] = data['mes'].map(lambda x: ipc[x-1])

# Calculamos el deflactor
data['def'] = data['ipc']/ipcb
data['ingr_r'] = data['ingr_b'] * data['def']

## Calculo ingreso de los hogares

In [None]:
data['ingr_h'] = data.groupby('identificador hogares')['ingr_r'].transform('sum')

## Sacamos edades negativas, mayores a 100 años y menores de 10

In [None]:
data = data.loc[(data['edad'] > 10) & (data['edad'] < 100)]

## Ingreso descontando cargas familiares

Utilizando la metodología del autor dividimos el ingreso del hogar para la escala $(A_{i}+kC_{i})^{s}$ donde $A_{i}$ es al número de adultos, $C_{i}$ es el número de niños en el hogar $i$. $k$ es el costo en recursos de cada niño y $s$ busca reflejar las restricciones

In [None]:
k = 0.4
s = 0.9

In [None]:
# Si es necesario calcular el número de niños
data['es_nino'] = data['edad'] < 10

data['ninos'] = data.groupby('identificador hogares')['es_nino'].transform('sum')

# Si es necesario calcular el número de adultos
data['es_adulto'] = data['edad'] > 10

data['adultos'] = data.groupby('identificador hogares')['es_adulto'].transform('sum')

In [None]:
data['escala'] = (data['adultos'] + k * data['ninos']) ** s

In [None]:
data['ingr_t'] = data['ingr_h'] / data['escala']

## Umbrales de pobreza

Incluimos los índices de pobreza si es posible a nivel regional para luego poder utilizar de mejor forma el factor de expansión

In [None]:
pobr = np.array(300, 400, 500)

# Asigna el umbral a cada región
data['umbral'] = data['región'].map(lambda x: pobr[x])

## Cálculo del índice de pobreza de Foster, Greer y Thorbecke

Para calcular un ínidce de pobreza se utiliza a Foster, Greer y Thorbecke (1984), ya que satisface algunas caracterísitcas de distribución que son positivas e igual a las enunciadas por Sen, el autor usa el mismo índice.

$FGT_{\alpha} = \frac{1}{N}\sum_{i=1}^{H}\left(\frac{z-y_{i}}{z}\right)^{\alpha} $

Donde $z$ es el umbral de pobreza, $N$ es el número de personas en la economía, $H$ es el número de pobres (personas debajo de la línea de pobreza) $y_{i}$ es el ingreso de cada individuo. Mientras mayor es el valor de $\alpha$ mayor es el peso de los individuos más pobres, mayor $FGT$ mayor pobreza en la economía.

In [None]:
# Buscamos a los que están por debajo del umbral de pobreza
data['pobres'] = (data['ingr_t'] - data['umbral']) < 0

# Cantidad de pobres por región
data['pobres_region'] = data.groupby('identificador_region')['pobres'].transform('sum')

# Cantidad de personas por región
data['personas'] = data.groupby('identificador_region')['identificador persona'].transform('sum')

In [8]:
# Cálculo del FGT para alpha 0,1 y 2 dependiendo de las dimensiones de la ENEMDU...

## Calculo del índice de desigualdad de Atkinson

Vamos a calcular el índice de desigualdad de atkinson con un parámetro $\epsilon$ de aversión a la desigualdad y un $\mu$ que es igual a la media de los ingresos individuales, con la siguiente fórmula.

$A = 1-\frac{1}{\mu}\left(\frac{1}{N}\sum_{i=1}^{N}y^{1-\epsilon}\right)^{1/(1-\epsilon}$

Donde $y_{i}$ es el ingreso individual y $\mu$ es el ingreso medio

In [None]:
# Ingreso promedio por región
data['mu'] = data.groupby('identificador_region')['ingr_t'].transform('mean')

In [9]:
# Cálculo del A para epsilon 0.25, 0.5 y 0.75 dependiendo de las dimensiones de la ENEMDU...