In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Definimos path
pathdata = '/home/daniu/Documentos/fundar/indice-mercado-trabajo-ingresos/'
pathdata = '/Users/danielarisaro/Documents/Fundar/indice-mercado-trabajo-ingresos/'
pathdata = '/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/'

In [3]:
df_people_pool = pd.read_csv(pathdata + 'data_output/Base_pool_individuos_solo_con_replicas_actuales.csv', low_memory=False, index_col=0)
df_houses_pool = pd.read_csv(pathdata + 'data_output/Base_pool_hogares_solo_con_replicas_actuales.csv', low_memory=False, index_col=0)

## T1. Actividad productiva
### Indicador: Ratio M/V en tasa de empleo

In [4]:
def actividad_productiva(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):
    
    """
    Calcula la actividad productiva, a partir de la proporción de tasas de empleo entre hombres y mujeres, junto con los errores asociados.

    Args:
        df (DataFrame): DataFrame de entrada que contiene los datos de la EPH.
        tipo (str): Tipo de encuesta de la EPH, 'Aglomerado' o 'Urbano'. Por defecto: 'Aglomerado'.
        base (str): Tipo de base de la EPH, 'Individual' o 'Hogar'. Por defecto: 'Individual'.
        confidence_level (float): Nivel de confianza para el cálculo de errores. Por defecto: 0.95.

    Returns:
        tasa (DataFrame): DataFrame con las tasas de empleo (M/V) desglosadas por Aglomerado o Provincia. Expresado en % [0-100]
        size (DataFrame): DataFrame con los numeros de observaciones utilizados para calcular tasas de empleo (M/V). Expresado en valores absolutos
        ratio (DataFrame): DataFrame con las proporciones de tasas de empleo (M/V). Expresado en % [0-100]
        error (DataFrame): DataFrame con los errores asociados a las proporciones. Expresado en % [0-100]. 
                            LI: Limite inferior, LS: Limite superior, ME: Margen de error, ER: Error relativo (CV)


    """
    if not all(col in df.columns for col in ['CH04', 'CH06', 'ESTADO', 'PONDERA_new']):
        raise ValueError("El DataFrame de entrada debe contener las siguientes columnas: 'CH04', 'CH06', 'ESTADO', 'PONDERA_new'")

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    numerador = df_temp[df_temp['ESTADO'] == 1].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)
    denominador = df_temp.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_temp[df_temp['ESTADO'] == 1].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Mujer']
    p2 = tasa['Varon']
    n1 = size['N_m']
    n2 = size['N_v']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Actividad productiva'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

In [5]:
tasa, size, ratio, error = actividad_productiva(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
empleo = pd.concat([tasa, size, ratio, error], axis=1)

## T2. Busqueda de trabajo
### Indicador: Ratio V/M en tasa de desempleo

In [6]:
def busqueda_trabajo(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):
    
    """
    Calcula la actividad productiva, a partir de la proporción de tasas de desempleo entre hombres y mujeres, junto con los errores asociados.

    Args:
        df (DataFrame): DataFrame de entrada que contiene los datos de la EPH.
        tipo (str): Tipo de encuesta de la EPH, 'Aglomerado' o 'Urbano'. Por defecto: 'Aglomerado'.
        base (str): Tipo de base de la EPH, 'Individual' o 'Hogar'. Por defecto: 'Individual'.
        confidence_level (float): Nivel de confianza para el cálculo de errores. Por defecto: 0.95.

    Returns:
        tasa (DataFrame): DataFrame con las tasas de desempleo (M/V) desglosadas por Aglomerado o Provincia. Expresado en % [0-100]
        size (DataFrame): DataFrame con los numeros de observaciones utilizados para calcular tasas de desempleo (M/V). Expresado en valores absolutos
        ratio (DataFrame): DataFrame con las proporciones de tasas de desempleo (M/V). Expresado en % [0-100]
        error (DataFrame): DataFrame con los errores asociados a las proporciones. Expresado en % [0-100]. 
                            LI: Limite inferior, LS: Limite superior, ME: Margen de error, ER: Error relativo (CV)


    """
    if not all(col in df.columns for col in ['CH04', 'CH06', 'ESTADO', 'PONDERA_new']):
        raise ValueError("El DataFrame de entrada debe contener las siguientes columnas: 'CH04', 'CH06', 'ESTADO', 'PONDERA_new'")

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    numerador = df_temp[df_temp['ESTADO'] == 2].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)
    df_estado = df_temp[(df_temp['ESTADO'] == 1) | (df_temp['ESTADO'] == 2)]
    denominador = df_estado.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_temp[df_temp['ESTADO'] == 2].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Varon']
    p2 = tasa['Mujer']
    n1 = size['N_v']
    n2 = size['N_m']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Búsqueda de trabajo'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

In [7]:
tasa, size, ratio, error = busqueda_trabajo(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
desempleo = pd.concat([tasa, size, ratio, error], axis=1)

## T3. Acceso a derechos laborales
### Ratio M/V en tasa de empleo asalariado con descuento jubilatorio

In [8]:
def acceso_derechos_laborales(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):
    
    """
    Calcula el acceso a derechos laborales, a partir de la proporción de tasa de registro de la relación laboral entre hombres y mujeres junto con los errores asociados.

    Args:
        df (DataFrame): DataFrame de entrada que contiene los datos de la EPH.
        tipo (str): Tipo de encuesta de la EPH, 'Aglomerado' o 'Urbano'. Por defecto: 'Aglomerado'.
        base (str): Tipo de base de la EPH, 'Individual' o 'Hogar'. Por defecto: 'Individual'.
        confidence_level (float): Nivel de confianza para el cálculo de errores. Por defecto: 0.95.

    Returns:
        tasa (DataFrame): DataFrame con las tasas de registro (M/V) desglosadas por Aglomerado o Provincia. Expresado en % [0-100]
        size (DataFrame): DataFrame con los numeros de observaciones utilizados para calcular tasas de registro (M/V). Expresado en valores absolutos
        ratio (DataFrame): DataFrame con las proporciones de tasas de registro (M/V). Expresado en % [0-100]
        error (DataFrame): DataFrame con los errores asociados a las proporciones. Expresado en % [0-100]. 
                            LI: Limite inferior, LS: Limite superior, ME: Margen de error, ER: Error relativo (CV)


    """
    if not all(col in df.columns for col in ['CH04', 'CH06', 'ESTADO', 'PONDERA_new']):
        raise ValueError("El DataFrame de entrada debe contener las siguientes columnas: 'CH04', 'CH06', 'ESTADO', 'PONDERA_new'")

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    df_estado = df_temp[(df_temp['ESTADO'] == 1) & (df_temp['CAT_OCUP'] == 3)]          # personas ocupadas asalariadas
    numerador = df_estado[df_estado['PP07H']==1].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    denominador = df_estado.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_estado[df_estado['PP07H']==1].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Mujer']
    p2 = tasa['Varon']
    n1 = size['N_m']
    n2 = size['N_v']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Acceso a derechos laborales'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

In [9]:
tasa, size, ratio, error = acceso_derechos_laborales(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
empleo_asalariado_con_descuento = pd.concat([tasa, size, ratio, error], axis=1)

In [10]:
df_temp = df_people_pool.query('CH06 >= 16 & CH06 < 65')
df_estado = df_temp[(df_temp['ESTADO'] == 1) & (df_temp['CAT_OCUP'] == 3)]      # Personas ocupadas asalariadas

resultados = df_estado.groupby(['CH04', 'PP07H', 'PP07I'])['PONDERA_new']\
            .sum().unstack(level='CH04', fill_value=0)                          # Filtrar y contar las combinaciones por género

resultados.columns = ['Varones', 'Mujeres']                                     # Renombrar las columnas y restablecer los índices

resultados = resultados.reset_index()

resultados['Total Fila'] = resultados['Varones'] + resultados['Mujeres']

resultados['Combinación'] = resultados.apply(lambda row: f"PP07H == {row['PP07H']} y PP07I == {row['PP07I']}", axis=1)

resultados.loc['Total Col'] = resultados.sum(numeric_only=True, axis=0)

resultados.loc[:, '% Varones'] = resultados['Varones']/resultados.loc['Total Col', 'Varones'] * 100
resultados.loc[:, '% Mujeres'] = resultados['Mujeres']/resultados.loc['Total Col', 'Mujeres'] * 100

resultados = resultados[['Combinación', 'Varones', '% Varones', 'Mujeres', '% Mujeres', 'Total Fila']]

tabla_pob_ocupada_asalariada = resultados.style.format({                            # Aplicar formato a los valores en la tabla
    'Varones': '{:,.0f}',
    '% Varones': '{:,.2f}',
    'Mujeres': '{:,.0f}',
    '% Mujeres': '{:,.2f}',
    'Total Fila': '{:,.0f}'
})

tabla_pob_ocupada_asalariada

Unnamed: 0,Combinación,Varones,% Varones,Mujeres,% Mujeres,Total Fila
0,PP07H == 1.0 y PP07I == 0.0,4451936,63.75,3397674,60.31,7849610
1,PP07H == 2.0 y PP07I == 0.0,27918,0.4,13121,0.23,41039
2,PP07H == 2.0 y PP07I == 1.0,277412,3.97,252810,4.49,530222
3,PP07H == 2.0 y PP07I == 2.0,2209098,31.64,1965206,34.88,4174304
4,PP07H == 2.0 y PP07I == 9.0,16529,0.24,4650,0.08,21180
Total Col,,6982893,100.0,5633461,100.0,12616354


## T4. Participación en el trabajo remunerado
### Ratio M/V en las horas trabajadas remuneradas

In [11]:
def participacion_trabajo_remunerado(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):
    
    """
    Calcula el acceso a derechos laborales, a partir de la proporción en las horas trabajadas remuneradas entre hombres y mujeres junto con los errores asociados.

    Args:
        df (DataFrame): DataFrame de entrada que contiene los datos de la EPH.
        tipo (str): Tipo de encuesta de la EPH, 'Aglomerado' o 'Urbano'. Por defecto: 'Aglomerado'.
        base (str): Tipo de base de la EPH, 'Individual' o 'Hogar'. Por defecto: 'Individual'.
        confidence_level (float): Nivel de confianza para el cálculo de errores. Por defecto: 0.95.

    Returns:
        tasa (DataFrame): DataFrame con las horas trabajadas remuneradas (M/V) desglosadas por Aglomerado o Provincia. Expresado en % [0-100]
        size (DataFrame): DataFrame con los numeros de observaciones utilizados para calcular las horas trabajadas remuneradas (M/V). Expresado en valores absolutos
        ratio (DataFrame): DataFrame con las proporciones de las horas trabajadas remuneradas (M/V). Expresado en % [0-100]
        error (DataFrame): DataFrame con los errores asociados a las proporciones. Expresado en % [0-100]. 
                            LI: Limite inferior, LS: Limite superior, ME: Margen de error, ER: Error relativo (CV)


    """
    if not all(col in df.columns for col in ['CH04', 'CH06', 'ESTADO', 'PONDERA_new']):
        raise ValueError("El DataFrame de entrada debe contener las siguientes columnas: 'CH04', 'CH06', 'ESTADO', 'PONDERA_new'")

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')
    df_estado = df_temp[(df_temp['ESTADO'] == 1)]          # personas ocupadas
    df_estado['PP3F_TOT'] = df_estado['PP3F_TOT'].str.replace(',', '.').astype(float) 

    df_estado['Horas'] = pd.NaT

    mask_999 = (df_estado['PP3E_TOT'] == 999) & (df_estado['PP3F_TOT'] == 999)
    mask_pp3f_999 = (df_estado['PP3F_TOT'] == 999) & (df_estado['PP3E_TOT'] != 999)
    mask_pp3e_999 = (df_estado['PP3E_TOT'] == 999) & (df_estado['PP3F_TOT'] != 999)

    df_estado['Horas'] = np.where(mask_999, pd.NaT,
                                np.where(mask_pp3f_999, df_estado['PP3E_TOT'],
                                        np.where(mask_pp3e_999, df_estado['PP3F_TOT'],
                                                    np.maximum(df_estado['PP3E_TOT'], df_estado['PP3F_TOT'])
                                                )
                                        )
                                )

    df_selected = df_estado[(df_estado['Horas'] > 0) & (~df_estado['Horas'].isna())][['CH04', var, 'Horas', 'PONDERA_new']]
    df_selected['Multiplication'] = df_selected['Horas'] * df_selected['PONDERA_new']
    numerador = df_selected.groupby(['CH04', var])['Multiplication'].sum().unstack(level=0)
    denominador = df_selected.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)
    tasa = numerador.div(denominador, fill_value=np.nan)    
    tasa.columns = ['Varon', 'Mujer']

    size = df_estado[(df_estado['Horas']>0) & (df_estado['Horas']!=np.nan)].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    df_selected['Deviation'] = df_selected['Horas'] - df_selected.groupby(['CH04', var])['Horas'].transform('mean')
    df_selected['Weighted_Deviation'] = df_selected['PONDERA_new'] * df_selected['Deviation']**2
    weighted_variance = df_selected.groupby(['CH04', var])['Weighted_Deviation'].sum() / df_selected.groupby(['CH04', var])['PONDERA_new'].sum()

    weighted_std = np.sqrt(weighted_variance.astype('float')).unstack(level=0)
    weighted_std.columns = ['Varon', 'Mujer']

    standard_error = np.sqrt((weighted_std['Mujer']**2 / size['N_m']) + (weighted_std['Varon']**2 / size['N_v']))

    degrees_of_freedom = size['N_m'] + size['N_v'] - 2
    t = stats.t.ppf((1 + confidence_level) / 2, df=degrees_of_freedom)
    margin_of_error = t * standard_error
    
    ratio = (tasa['Mujer'] / tasa['Varon']).to_frame()
    ratio.rename(columns={0: 'Participacion trabajo remunerado'}, inplace=True)

    lower_bound = tasa['Mujer'] / tasa['Varon'] - margin_of_error
    upper_bound = tasa['Mujer'] / tasa['Varon'] + margin_of_error
    relative_standard_error = margin_of_error / (tasa['Mujer'] / tasa['Varon'])

    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa, size, ratio*100, error

In [12]:
tasa, size, ratio, error = participacion_trabajo_remunerado(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
horas_remuneradas = pd.concat([tasa, size, ratio, error], axis=1)

In [27]:
insercion_laboral = (empleo['Actividad productiva'] + desempleo['Búsqueda de trabajo'] + \
                    empleo_asalariado_con_descuento['Acceso a derechos laborales'] + \
                    horas_remuneradas['Participacion trabajo remunerado']) / 4

## Pluriempleo

In [13]:
df_temp = df_people_pool.query('CH06 >= 16 & CH06 < 65')
df_estado = df_temp[(df_temp['ESTADO'] == 1) & (df_temp['CAT_OCUP'] != 1)& (df_temp['CAT_OCUP'] != 4)]          # personas ocupadas cuentapropistas, obreros o empleados

# Filtrar y contar las combinaciones por género
resultados = df_estado.groupby(['CH04', 'CAT_OCUP', 'PP03C'])['PONDERA_new'].sum().unstack(level='CH04', fill_value=0)

resultados.columns = ['Varones', 'Mujeres']
resultados = resultados.reset_index()

resultados['Total Fila'] = resultados['Varones'] + resultados['Mujeres']
resultados['Combinación'] = resultados.apply(lambda row: f"CAT_OCUP == {row['CAT_OCUP']}, PP03C == {row['PP03C']}", axis=1)

resultados.loc['Total Col'] = resultados.sum(numeric_only=True, axis=0)
resultados.loc[:, '% Varones'] = resultados['Varones']/resultados.loc['Total Col', 'Varones'] * 100
resultados.loc[:, '% Mujeres'] = resultados['Mujeres']/resultados.loc['Total Col', 'Mujeres'] * 100

resultados = resultados[['Combinación', 'Varones', '% Varones', 'Mujeres', '% Mujeres', 'Total Fila']]

# Aplicar formato a los valores en la tabla
tabla_pob_ocupada = resultados.style.format({
    'Varones': '{:,.0f}',
    '% Varones': '{:,.2f}',
    'Mujeres': '{:,.0f}',
    '% Mujeres': '{:,.2f}',
    'Total Fila': '{:,.0f}'
})

tabla_pob_ocupada

# [P21 mean M y V, TOT_P12 mean M y V]

Unnamed: 0,Combinación,Varones,% Varones,Mujeres,% Mujeres,Total Fila
0,"CAT_OCUP == 2.0, PP03C == 0.0",24561,0.26,16184,0.23,40744
1,"CAT_OCUP == 2.0, PP03C == 1.0",2224770,23.76,1391233,19.34,3616002
2,"CAT_OCUP == 2.0, PP03C == 2.0",133009,1.42,151403,2.11,284412
3,"CAT_OCUP == 3.0, PP03C == 0.0",223539,2.39,262284,3.65,485822
4,"CAT_OCUP == 3.0, PP03C == 1.0",6201214,66.22,4571237,63.56,10772451
5,"CAT_OCUP == 3.0, PP03C == 2.0",558140,5.96,799941,11.12,1358081
Total Col,,9365232,100.0,7192281,100.0,16557513


### Analisis dfs

In [14]:
# cod_provincia
dict_cod_provincia = {2: "CABA",
 6: "Buenos Aires",
 10: "Catamarca",
 14: "Córdoba",
 18: "Corrientes",
 22: "Chaco",
 26: "Chubut",
 30: "Entre Ríos",
 34: "Formosa",
 38: "Jujuy",
 42: "La Pampa",
 46: "La Rioja",
 50: "Mendoza",
 54: "Misiones",
 58: "Neuquén",
 62: "Río Negro",
 66: "Salta",
 70: "San Juan",
 74: "San Luis",
 78: "Santa Cruz",
 82: "Santa Fe",
 86: "Santiago del Estero",
 90: "Tucumán",
 94: "TdF"}

In [15]:
empleo.index = empleo.index.map(dict_cod_provincia)
desempleo.index = desempleo.index.map(dict_cod_provincia)
empleo_asalariado_con_descuento.index = empleo_asalariado_con_descuento.index.map(dict_cod_provincia)
horas_remuneradas.index = horas_remuneradas.index.map(dict_cod_provincia)

### Cargo cosas para plots

In [16]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from plotly.offline import plot

In [17]:
# Definimos colores fundar
fundar_colores_primarios = ['#7BB5C4', '#9FC1AD', '#D3D3E0',  '#8d9bff', '#FF9750', '#FFD900',]
fundar_colores_secundarios = ['#B5E0EA', '#B3B3B3', '#848279', '#AFA36E', '#5D896F', '#9C9CBC', '#E27124']
fundar_white = '#F5F5F5'
fundar_black = '#151515'

### Analisis consistencia T2
ESTADO == 3

In [18]:
# Inactividad
def inactividad(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    numerador = df_temp[df_temp['ESTADO'] == 3].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)
    denominador = df_temp.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_temp[df_temp['ESTADO'] == 3].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Varon']
    p2 = tasa['Mujer']
    n1 = size['N_v']
    n2 = size['N_m']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Inactividad'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

In [19]:
tasa, size, ratio, error = inactividad(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
ratio_inactividad = pd.concat([tasa, size, ratio, error], axis=1)


Unnamed: 0_level_0,Varon,Mujer,N_v,N_m,Inactividad,LI,LS,ME,ER
PROVINCIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2,15.764308,24.910792,131,228,63.283043,54.889256,71.67683,8.393787,13.26388
6,17.212656,37.113052,1014,2193,46.378982,43.29892,49.459043,3.080062,6.641073
10,26.62566,42.521526,359,645,62.616896,56.661974,68.571818,5.954922,9.510089
14,14.916865,38.001539,430,947,39.253318,34.682162,43.824474,4.571156,11.645273
18,23.454232,49.132665,322,654,47.736536,41.728354,53.744717,6.008181,12.586128
22,22.672399,53.108063,280,653,42.691067,36.469879,48.912255,6.221188,14.572577
26,22.534744,42.165967,384,718,53.442967,47.919343,58.966592,5.523625,10.33555
30,21.887972,42.574016,450,1010,51.411574,46.523433,56.299715,4.888141,9.507861
34,31.324823,66.728604,405,900,46.94362,41.477276,52.409965,5.466345,11.644489
38,23.430055,42.66152,435,897,54.920816,49.790629,60.051003,5.130187,9.341061


In [20]:
# Create bar traces
bar_trace1 = go.Bar(
    x=empleo.index,
    y=desempleo['Búsqueda de trabajo'],
    name='Desempleo',
    marker_color=fundar_colores_primarios[0]
)

bar_trace2 = go.Bar(
    x=empleo.index,
    y=ratio_inactividad['Inactividad'],
    name='Inactividad',
    marker_color=fundar_colores_primarios[1]
)

# Create a layout
layout = go.Layout(
    title='Desempleo e Inactividad',
    barmode='group',
    plot_bgcolor='rgba(0,0,0,0)'
)

# Create a Figure
fig = go.Figure(data=[bar_trace1, bar_trace2], layout=layout)

fig.add_shape(
    type='line',
    x0=empleo.index[0],
    y0=100,
    x1=empleo.index[-1],
    y1=100,
    line=dict(
        color='black',
        width=1,
        dash='dash'
    ),
)
#fig.update_yaxes(range=[0, 200])

# Save the plot as an HTML file
file_path = '/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/'
filename = 'desempleo_e_inactividad.html'
plot(fig, filename=file_path + filename, auto_open=False)


'/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/desempleo_e_inactividad.html'

### Analisis consistencia T3
PP07G2 == 1 Aguinaldo
PP07G4 == 1 OS

In [21]:
# T3 bis. 
def acceso_aguinaldo(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    df_estado = df_temp[(df_temp['ESTADO'] == 1) & (df_temp['CAT_OCUP'] == 3)]          # personas ocupadas asalariadas
    numerador = df_estado[df_estado['PP07G2']==1].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    denominador = df_estado.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_estado[df_estado['PP07H']==1].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Mujer']
    p2 = tasa['Varon']
    n1 = size['N_m']
    n2 = size['N_v']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Acceso a aguinaldo'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

def acceso_obra_social(df, tipo='Aglomerado', base='Individual', confidence_level=0.95):

    if tipo == 'Aglomerado':
        var = 'AGLOMERADO'
    elif tipo == 'Urbano':
        var = 'PROVINCIA'

    df_temp = df.query('CH06 >= 16 & CH06 < 65')

    df_estado = df_temp[(df_temp['ESTADO'] == 1) & (df_temp['CAT_OCUP'] == 3)]          # personas ocupadas asalariadas
    numerador = df_estado[df_estado['PP07G4']==1].groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    denominador = df_estado.groupby(['CH04', var])['PONDERA_new'].sum().unstack(level=0)

    tasa = numerador.div(denominador, fill_value=np.nan)
    tasa.columns = ['Varon', 'Mujer']

    size = df_estado[df_estado['PP07H']==1].groupby(['CH04', var]).size().unstack(level=0)
    size.columns = ['N_v', 'N_m']

    p1 = tasa['Mujer']
    p2 = tasa['Varon']
    n1 = size['N_m']
    n2 = size['N_v']
    ratio = (p1 / p2).to_frame()
    ratio.rename(columns={0: 'Acceso a OS'}, inplace=True)

    # Calculate the standard error of the proportion ratio
    standard_error = np.sqrt(((1 / n1) * (p1 * (1 - p1))) + ((1 / n2) * (p2 * (1 - p2))))

    z = stats.norm.ppf((1 + confidence_level) / 2)
    margin_of_error = z * standard_error
    lower_bound = p1/p2 - margin_of_error
    upper_bound = p1/p2 + margin_of_error

    relative_standard_error = margin_of_error/(p1/p2)
    error = pd.concat([lower_bound, upper_bound, margin_of_error, relative_standard_error], axis=1)
    error.columns = ['LI', 'LS', 'ME', 'ER']

    return tasa*100, size, ratio*100, error*100

In [22]:
tasa, size, ratio, error = acceso_aguinaldo(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
empleo_asalariado_con_aguinaldo = pd.concat([tasa, size, ratio, error], axis=1)
tasa, size, ratio, error = acceso_obra_social(df_people_pool, tipo='Urbano', base='Individual', confidence_level=0.95)
empleo_asalariado_con_obra_social = pd.concat([tasa, size, ratio, error], axis=1)

In [23]:
# Create bar traces
bar_trace1 = go.Bar(
    x=empleo.index,
    y=empleo_asalariado_con_descuento['Acceso a derechos laborales'],
    name='Descuento jubilatorio',
    marker_color=fundar_colores_primarios[0]
)

bar_trace2 = go.Bar(
    x=empleo.index,
    y=empleo_asalariado_con_aguinaldo['Acceso a aguinaldo'],
    name='Aguinaldo',
    marker_color=fundar_colores_primarios[1]
)

bar_trace3 = go.Bar(
    x=empleo.index,
    y=empleo_asalariado_con_obra_social['Acceso a OS'],
    name='Obra Social',
    marker_color=fundar_colores_primarios[2]
)


# Create a layout
layout = go.Layout(
    title='Accesos a derechos laborales',
    barmode='group',
    plot_bgcolor='rgba(0,0,0,0)'
)

# Create a Figure
fig = go.Figure(data=[bar_trace1, bar_trace2, bar_trace3], layout=layout)

fig.add_shape(
    type='line',
    x0=empleo.index[0],
    y0=100,
    x1=empleo.index[-1],
    y1=100,
    line=dict(
        color='black',
        width=1,
        dash='dash'
    ),
)
fig.update_yaxes(range=[0, 150])

# Save the plot as an HTML file
file_path = '/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/'
filename = 'consistencia_accesos_laborales.html'
plot(fig, filename=file_path + filename, auto_open=False)


'/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/consistencia_accesos_laborales.html'

### Plot insercion laboral

In [25]:

# Define the error bars for each trace
error_y1 = dict(
    type='data',
    symmetric=False,
    array=empleo['LS'] - empleo['Actividad productiva'],
    arrayminus=empleo['Actividad productiva'] - empleo['LI'],
    visible=True,
    color=fundar_black,
    thickness=0.7
)

error_y2 = dict(
    type='data',
    symmetric=False,
    array=desempleo['LS'] - desempleo['Búsqueda de trabajo'],
    arrayminus=desempleo['Búsqueda de trabajo'] - desempleo['LI'],
    visible=True,
    color=fundar_black,
    thickness=0.7
)

error_y3 = dict(
    type='data',
    symmetric=False,
    array=empleo_asalariado_con_descuento['LS'] - empleo_asalariado_con_descuento['Acceso a derechos laborales'],
    arrayminus=empleo_asalariado_con_descuento['Acceso a derechos laborales'] - empleo_asalariado_con_descuento['LI'],
    visible=True,
    color=fundar_black,
    thickness=0.7
)

error_y4 = dict(
    type='data',
    symmetric=False,
    array=horas_remuneradas['LS'] - horas_remuneradas['Participacion trabajo remunerado'],
    arrayminus=horas_remuneradas['Participacion trabajo remunerado'] - horas_remuneradas['LI'],
    visible=True,
    color=fundar_black,
    thickness=0.7
)

# Create bar traces with error bars
bar_trace1 = go.Bar(
    x=empleo.index,
    y=empleo['Actividad productiva'],
    name='T1. Actividad productiva',
    marker_color=fundar_colores_primarios[0],
    error_y=error_y1
)

bar_trace2 = go.Bar(
    x=empleo.index,
    y=desempleo['Búsqueda de trabajo'],
    name='T2. Búsqueda de trabajo',
    marker_color=fundar_colores_primarios[1],
    error_y=error_y2
)

bar_trace3 = go.Bar(
    x=empleo.index,
    y=empleo_asalariado_con_descuento['Acceso a derechos laborales'],
    name='T3. Acceso a derechos laborales',
    marker_color=fundar_colores_primarios[2],
    error_y=error_y3
)

bar_trace4 = go.Bar(
    x=empleo.index,
    y=horas_remuneradas['Participacion trabajo remunerado'],
    name='T4. Participacion trabajo remunerado',
    marker_color=fundar_colores_primarios[3],
    error_y=error_y4
)


# Create scatter traces for the points
scatter_trace1 = go.Scatter(
    x=empleo.index,
    y=empleo['ER'],
    name='T1. ER',
    mode='markers',
    marker=dict(
        color=fundar_black,
        size=8
    ),
    yaxis='y2'
)

scatter_trace2 = go.Scatter(
    x=empleo.index,
    y=desempleo['ER'],
    name='T2. ER',
    mode='markers',
    marker=dict(
        color=fundar_black,
        size=8
    ),
    yaxis='y2'
)

scatter_trace3 = go.Scatter(
    x=empleo.index,
    y=empleo_asalariado_con_descuento['ER'],
    name='T3. ER',
    mode='markers',
    marker=dict(
        color=fundar_black,
        size=8
    ),
    yaxis='y2'
)

scatter_trace4 = go.Scatter(
    x=empleo.index,
    y=horas_remuneradas['ER'],
    name='T4. ER',
    mode='markers',
    marker=dict(
        color=fundar_black,
        size=8
    ),
    yaxis='y2'
)
# Create a layout
layout = go.Layout(
    title='Insercion laboral',
    barmode='group',
    plot_bgcolor='rgba(0,0,0,0)',
    legend=dict(y=1.1, orientation='h'),
    yaxis=dict(title='Actividad', range=[0, 170]),
    scattermode="group",
    yaxis2=dict(title='ER', overlaying='y', side='right', range=[0, 70])
)

fig = go.Figure(data=[bar_trace1, bar_trace2, bar_trace3, bar_trace4,
                      scatter_trace1, scatter_trace2, scatter_trace3, scatter_trace4],
                layout=layout)

fig.add_shape(
    type='line',
    x0=empleo.index[0],
    y0=100,
    x1=empleo.index[-1],
    y1=100,
    line=dict(
        color='black',
        width=1,
        dash='dash'
    ),
)

# Save the plot as an HTML file
file_path = '/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/'
filename = 'insercion_laboral.html'
plot(fig, filename=file_path + filename, auto_open=False)

'/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/insercion_laboral.html'

In [30]:
# Sort the data in descending order
sorted_data = insercion_laboral.sort_values(ascending=False)

# Create bar trace
bar_trace1 = go.Bar(
    x=sorted_data.index,
    y=sorted_data,
    name='Descuento jubilatorio',
    marker_color=fundar_colores_primarios[0]
)

# Create a layout
layout = go.Layout(
    title='Indicador componente insercion laboral',
    barmode='group',
    plot_bgcolor='rgba(0,0,0,0)'
)

# Create a Figure
fig = go.Figure(data=[bar_trace1], layout=layout)

fig.add_shape(
    type='line',
    x0=sorted_data.index[0],
    y0=100,
    x1=sorted_data.index[-1],
    y1=100,
    line=dict(
        color='black',
        width=1,
        dash='dash'
    ),
)
fig.update_yaxes(range=[0, 150])

# Save the plot as an HTML file
file_path = '/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/'
filename = 'componente_insercion_laboral.html'
plot(fig, filename=file_path + filename, auto_open=False)


'/home/daniufundar/Documents/Fundar/indice-mercado-trabajo-ingresos/figs/componente_insercion_laboral.html'