## Primera aproximación para el análisis flujo de trabajadores en la región del Biobio
#### Nicolás Núñez

### Introducción

El Insitituto Nacional de Estadísticas ([INE](https://www.ine.gob.cl)), es el organismo encargado de producir las estadísticas oficiales del país, las cuales principalmente son fundamentales para que el Estado implemente políticas públicas que vayan en beneficio de la población, donde las personas tanto del ámbito público como privado puedan tomar decisiones basadas en información.





### Flujos brutos de mercado laboral

Los flujos brutos del mercado laboral representan la dinámica de los individuos en edad de trabajar, pues
es posible caracterizar a través de estos flujos los distintos estados laborales. Este enfoque es utilizado a
menudo con otros indicadores económicos y laborales con el fin de entender el comportamiento del mercado
laboral, pues con ellos es posible cuantificar tanto la participación laboral y ocupación como indicadores
de desempleo y estadísticas de stocks de población.

En Chile, se considera que una persona está en edad de trabajar (PET) si tiene al menos 15 años, y a su
vez dicha población se caracteriza en función de su ocupación, lo que se ve representado en el siguiente
diagrama

<figure>
<img src='https://drive.google.com/uc?id=1pnIaGykG2r7WV6gc3Tk5PlEhuAcpDl97'/>
<figcaption> Clasificación de la Población Económicamente Activa e Inactiva,  Nueva Encuesta Nacional de Empleo, 2010, INE.</figcaption>
</figure>

Dicha información es recopilada a través [Encuesta Nacional del Empleo (ENE)](https://www.ine.gob.cl/estadisticas/sociales/mercado-laboral/ocupacion-y-desocupacion) realizada por el Instituto
Nacional de Estadísticas de Chile, siguiendo una rigurosa metodología
en la cual se puede encontrar
información que caracteriza cada categoría.
En primera instancia, se considera la clasificación de la Población Económicamente Activa (PEA) a través
de los estados Ocupados (E), Desocupados (U) e Inactivos (N), dinámica que queda representada en el
siguiente esquema

<figure>
<img src='https://drive.google.com/uc?id=1jihHNQUODUB5o-L-zHtXfB648o6P0_kD'/>
<figcaption> Flujos Brutos y Estados Laborales de la Fuerza de Trabajo. </figcaption>
</figure>

Para el análisis de los flujos brutos se replicará lo realizado en [[1]](#ref1), y se considerará la ecuación de
probabilidad definida en [[2, págs. 10-11]](#ref2), que en forma general est´a dado por:
<a name="eq1"></a>$$
P_{i,j} =
\dfrac{F_{i,j}}{S_i} \qquad \forall i, j ∈ \{E, U, N\} ,\tag{1}
$$
donde $F_{i,j}$ es el flujo de trabajadores del estado $i$ en el tiempo $t$ al estado $j$ en el tiempo $t + 1$, y $S_i$ es el
stock inicial de trabajadores del estado $i$ al inicio del tiempo $t$.

### Análisis Estadístico

Con el fin de complementar la información recopilada en la Encuesta Nacional de Empleo (ENE) realizada
por el Instituto Nacional de Estadísticas de Chile (INE) y enfocándonos en un mejor entendimiento de la
dinámica de la fuerza de trabajo de la región del Biobío, se procederá a realizar un análisis de los flujos de
trabajadores entre cada estado laboral (Ocupado, Desocupado e Inactivo) entre dos momentos de tiempo.

#### Consideraciones

El análisis mencionado se realizará en base a las Encuesta Nacional del Empleo realizadas entre los años
2010 y 2011, en particular considerando las bases anualizadas, para las cuales una división temporal de
trimestres calendario permitirá tener instantes consecutivos a estudiar, esto es

- **Trimestre I** : Meses Enero, Febrero y Marzo del año correspondiente.
- **Trimestre II** : Meses Abril, Mayo y Junio del año correspondiente.
- **Trimestre III** : Meses Julio, Agosto y Septiembre del año correspondiente.
- **Trimestre IV** : Meses Octubre, Noviembre y Diciembre del año correspondiente.

El cálculo de las probabilidades regidas por la ecuación [(1)](#eq1) entre cada trimestre y su trimestre siguiente
se realizará bajo las siguientes condiciones:

- Se considerará sólo los datos perteneciente a la población en edad de trabajar (PET) que haya sido
encuestada en ambos trimestres, seguimiento el cual se hará a través del identificador personal `idrph`.

- Las cantidades $F_{i,j}$ y $S_i$ para cada $i, j \in \{E, U, N\}$, serán las cantidades descritas en [(1)](#eq1) que han
sido encuestadas y no la proyección de estas en la población regional.

Considerar además la notación a usar:

- EE: Probabilidad de que un encuestado ocupado en el tiempo $t$ siga ocupado en el tiempo $t + 1$.
- EU: Probabilidad de que un encuestado ocupado en el tiempo $t$ se encuentre desocupado en el tiempo
$t + 1$.
- EN: Probabilidad de que un encuestado ocupado en el tiempo $t$ se encuentre inactivo en el tiempo
$t + 1$.
- UE: Probabilidad de que un encuestado desocupado en el tiempo $t$ se encuentre ocupado en el tiempo
$t + 1$.
- UU: Probabilidad de que un encuestado desocupado en el tiempo $t$ siga desocupado en el tiempo
$t + 1$.
- UN: Probabilidad de que un encuestado desocupado en el tiempo $t$ se encuentre inactivo en el tiempo
$t + 1$.
- NE: Probabilidad de que un encuestado inactivo en el tiempo $t$ se encuentre ocupado en el tiempo
$t + 1$.
- NU: Probabilidad de que un encuestado inactivo en el tiempo $t$ se encuentre desocupado en el tiempo
$t + 1$.
- NN: Probabilidad de que un encuestado inactivo en el tiempo $t$ siga inactivo en el tiempo $t + 1$.

#### Taza de desempleo

Bajo la notación anterior, además se considerá la taza de desempleo, la cual está dada por

$$
u_t = \dfrac{1}{1+\dfrac{(\text{NE}  +   \text{NU}  )* \text{UE}   +  \text{NE}   *  \text{UN}  }{(   \text{NE} +  \text{NU}  )*\text{EU}   +   \text{NU}  *  \text{EN} }}
$$

### Implementación

In [1]:
# Librerias
import pandas as pd
import numpy as np

In [10]:
# Links de las base de datos públicas
url = 'https://www.ine.gob.cl/docs/default-source/ocupacion-y-desocupacion'+\
    '/bbdd/bases-anuales/formato-csv/ano-'

# Ruta de los archivos
# (Modificar en caso de ser necesario)
path = '/content/drive/Othercomputers/Mi PC/Práctica INE/Scripts/Data/ano-'

# Diccionario para guardar la información
data = {}

# Lectura de datos
years = range(2010, 2012)

for i in years:
    data[i] = pd.read_csv(
        path+str(i)+'.csv', # url+str(i)+'.csv' (Opcional)
        encoding='latin1',
        sep=';',
        decimal=',',
        header=0,
        low_memory=False)

    # Filtro para la población a estudiar
    data[i] = data[i][
        (data[i]['region']==8) &     # Region del biobio
        (data[i]['edad']>=15)]       # Edad para trabajar

    # Mapeo de estado
    mapeo = {
        1:'E', 2:'U', 3:'N'
    }
    data[i]['activ'] = data[i]['activ'].map(mapeo)

In [19]:
# Análisis del flujo de trabajadores

transiciones = {}
valores = []
nombres = [
    'Desde',
    'Hacia',
    'E->E',
    'E->U',
    'E->N',
    'U->E',
    'U->U',
    'U->N',
    'N->E',
    'N->U',
    'N->N',
    'Tasa de desempleo'
]

for i,y in enumerate(years):
    # Cantidad de flujos por año
    J = 2 if y==years[-1] else 3

    for j in range(0,J+1):
        row = []
        # Creación de los DataFrame por trimestres
        if j<3:
            tri_ant = data[y][
                (3*j < data[y]['mes_central']) &
                (3*(j+1)+1 >  data[y]['mes_central'])
            ]
            tri = data[y][
                (3*(j+1) < data[y]['mes_central']) &
                (3*(j+2)+1 > data[y]['mes_central'])
            ]
            row.append(f"{y}-{j+1}")
            row.append(f"{y}-{j+2}")
        else:
            tri_ant = tri
            tri = data[years[i+1]][
                (0 < data[years[i+1]]['mes_central']) &
                (4 > data[years[i+1]]['mes_central'])
            ]
            row.append(str(y)+'-'+str(j+1))
            row.append(str(years[i+1])+'-'+str(1))

        # Unión de los trimestres consecutivos por el identificador idrph
        # y filtro de las columnas de interés
        merged = pd.merge(tri_ant, tri, on='idrph', how='inner')[[
            'idrph', 'activ_x', 'cae_especifico_x',
            'activ_y', 'cae_especifico_y', 'fact_anual_x'
        ]]

        # Guardado de matriz de transición entre trimestres
        transiciones[row[0]] = pd.crosstab(
            merged['activ_x'], merged['activ_y'], normalize='index')
        transiciones[row[0]] = transiciones[row[0]].rename_axis(
            "Actividad inicial", axis='index').rename_axis(
                "Actividad final", axis='columns')

        # Cambio de los datos para tabla
        row.extend(transiciones[row[0]].values.reshape(-1))

        # Agregar la tasa de desempleo
        row.append(
            1/(
                1 + (
                    (row[8] + row[9])*row[5] + row[8]*row[7]
                    )/(
                    (row[8] + row[9])*row[4] + row[-2]*row[4]
                )
            )
        )

        valores.append(row)

modelo = pd.DataFrame(data=valores, columns=nombres)

### Despliege de los resultados

Las matrices de transición, la cual representan la cadena de Markov asociada al flujo entre periodos quedan desplegadas a continuación.

In [20]:
for key, value in zip(transiciones.keys(), transiciones.values()):
    print(f"Transición desde {key}:")
    display(value)
    print("\n\n")

Transición desde 2010-1:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.830823,0.118552,0.050625
N,0.111073,0.847189,0.041739
U,0.400552,0.337017,0.262431





Transición desde 2010-2:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.873842,0.082353,0.043805
N,0.111464,0.854647,0.033889
U,0.466993,0.242054,0.290954





Transición desde 2010-3:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.875708,0.086085,0.038208
N,0.116492,0.845288,0.03822
U,0.5,0.238426,0.261574





Transición desde 2010-4:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.862265,0.100926,0.036808
N,0.111656,0.848584,0.03976
U,0.415865,0.324519,0.259615





Transición desde 2011-1:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.870002,0.099155,0.030843
N,0.114234,0.856883,0.028884
U,0.44289,0.307692,0.249417





Transición desde 2011-2:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.859763,0.099754,0.040483
N,0.085707,0.880514,0.033779
U,0.380697,0.281501,0.337802





Transición desde 2011-3:


Actividad final,E,N,U
Actividad inicial,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,0.887986,0.087642,0.024372
N,0.107243,0.86409,0.028666
U,0.428928,0.289277,0.281796







De igual forma, la información anterior puede ser tabulada considerando todos los periodos, lo cual hace más directo el ver si hay tendencias claras en el movimiento entre estados de los trabajadores, lo cual se complementa con las estadísticas correspondientes.

In [5]:
display(modelo)

Unnamed: 0,Desde,Hacia,E->E,E->U,E->N,U->E,U->U,U->N,N->E,N->U,N->N,Tasa de desempleo
0,2010-1,2010-2,0.830823,0.050625,0.118552,0.400552,0.262431,0.337017,0.111073,0.041739,0.847189,0.189507
1,2010-2,2010-3,0.873842,0.043805,0.082353,0.466993,0.290954,0.242054,0.111464,0.033889,0.854647,0.134657
2,2010-3,2010-4,0.875708,0.038208,0.086085,0.5,0.261574,0.238426,0.116492,0.03822,0.845288,0.136427
3,2010-4,2011-1,0.862265,0.036808,0.100926,0.415865,0.259615,0.324519,0.111656,0.03976,0.848584,0.162827
4,2011-1,2011-2,0.870002,0.030843,0.099155,0.44289,0.249417,0.307692,0.114234,0.028884,0.856883,0.147546
5,2011-2,2011-3,0.859763,0.040483,0.099754,0.380697,0.337802,0.281501,0.085707,0.033779,0.880514,0.180072
6,2011-3,2011-4,0.887986,0.024372,0.087642,0.428928,0.281796,0.289277,0.107243,0.028666,0.86409,0.139034


In [7]:
display(modelo.describe().loc[['mean', 'std'], :])

Unnamed: 0,E->E,E->U,E->N,U->E,U->U,U->N,N->E,N->U,N->N,Tasa de desempleo
mean,0.86577,0.037878,0.096352,0.433704,0.277655,0.288641,0.108267,0.034991,0.856742,0.155724
std,0.018005,0.00854,0.012318,0.040492,0.030069,0.038153,0.010351,0.005143,0.012332,0.022159


### Observaciones y reflexiones caso de uso

**Observación:** Lo anterior es la primera aproximación de lo realizado en una de mis prácticas profesionales realizadas para el Instituto Nacional de Estadísticas. La poca cantidad de años a considerar es netamente por las limitaciones técnicas de `colaboratory`, dado que los archivos tienen un tamaño considerable, y el código de igual manera funcionaría al variar la variable `years` con los años consecutivos necesarios a considerar.

**Reflexión:** Si bien el caso de uso es una primera aproximación para entender un movimiento tan complejo con herramientas básicas de la estadística, de igual manera es un claro ejemplo de los alcances y ventajas que tiene `python` para la obtención y preparación de datos tabulados.

Esta implementación, que hace uso principalmente de los objetos `DataFrame` y una de las principales librerías para su manejo `pandas`, da un idea de la potencia y facilidad del lenguaje para el análisis estádistico.

En mi caso particular, el adaptar códigos realizados durante mi pregrado desde [R](https://www.r-project.org) a Python, me ha permitido, además de recordar un poco del primero, asimilar el alcance que tiene éste último en el trabajo con los datos.

### Bibliografía

<a name="ref1"></a>[1]: Luis Fernando Aguado Quintero. *Flujos del mercado laboral: un análisis descriptivo*. Semestre económico, 2005.

<a name="ref2"></a>[2]: Brian Silverstone. *Some aspects of labour market flows in new zealand 1986-2001*. Working Paper in
Economics 2/01, Department of Economics, University of Waikato, 2001.