# **ENOE $^N$: Un Análisis Geoespacial de la Informalidad en México (2022)**

---

## **Metodología para la medición de Informalidad**

Con base en *Conociendo la base de datos de la ENOE. Datos ajustados a proyecciones de población 2010. (2020)*, INEGI.


> **Resumen de la base de datos de la ENOE**: Por cada vivienda existe uno o más registros de hogares, para cada hogar con entrevista completa (más
adelante se defi ne entrevista completa) se cuenta con el registro de las características sociodemográfi cas
de cada residente, es decir, cada hogar tiene a sus residentes en la tabla de sociodemográfico (SDEM)
y para cada residente con edad de 12 años cumplidos ó más se cuenta con un registro del Cuestionario
de Ocupación y Empleo, el cual se almacena en las tablas COE1 (de batería 1 a 5) y COE2 (de batería
6 a la última).

Basándose en lo anterior, se concluye que es posible identificar a los **residentes de un hogar** en la tabla de **caracteristicas sociodemográficas** (`SDEM`) dentro de la base de datos de la **ENOE**. Es importante señalar que cada **fila/registro** dentro de esta última, corresponde a las cáracteristicas de una única persona. Sin embargo, se puede conocer la **Frecuencia absoluta expandida** i.e. el número de personas que cuentan con las mismas mediante el **factor de expansión** en el **campo/columna** `FAC`.

> “El factor de expansión es el coeficiente que le otorga determinado peso en la muestra en función de su representatividad de otros tantos casos 
similares a él tomando en cuenta su estrato socioeconómico y lugar de residencia”.

$$ registro_i \times FAC = \text{Frecuencia absoluta expandida} \tag{1}$$

> **Nota**: En la nueva base de datos **ENOE $^N$**, la variable `FAC` es reemplazada por `fac_tri` y `fac_mes`

En términos técnicos, es posible identificar a la población en el **sector informal** al filtrar por los registros que, en el campo de **Tipo de Unidad Económica 2** (`TUE2`) de la tabla `SDEM` cuenten con un valor de **5**.

```SQL

* Con esta sentencia se obtiene a la población económicamente activa.
SUM FAC FOR R_DEF=’00’ AND (C_RES=1 OR C_RES=3) AND (EDA>=’15’ AND EDA<=’98’) AND
CLASE1=1

* Para calcular los indicadores estratégicos e.g. Población en informalidad, se les aplica
* el pre-criterio siguiente:
R_DEF=’00’ AND (C_RES=’1’ OR C_RES=’3’) AND (EDA>=’15’ AND EDA<=’98’)

* Con esta se identificaría a la población en el sector informal
SELECT sum FAC FROM SDEM ... AND TUE2 = 5
```

Dando continuidad a la parte técnica, algo que se destaca es que, además del filtro de `TUE=5`, el cuál nos permite identificar personas dentro del **sector informal**, otras variables y criterios son empleados para encontrar a estos residentes: `R_DEF`, `C_RES` y `EDA`. El **INEGI** los describe como:

- > `R_DEF`: Existe un campo en la tabla HOGARES con el nombre “R_DEF” que almacena el resultado definitivo
de la entrevista del hogar, una ENTREVISTA COMPLETA se determina cuando en el campo “R_DEF”
almacena el valor ‘00’ (doble cero). Todo valor diferente a 00, es considerado como NO ENTREVISTA (ver documento de captación CARACTERISTICAS SOCIODEMOGRAFICAS en el apartado resultados de la entrevista).

- > `C_RES`:  En la tabla SOCIODEMOGRÁFICO existe el campo “C_RES”, que determina la condición de residencia
del ocupante del hogar. Si el valor que almacena este campo es 1, se trata de un residente habitual; si el
valor es 2, se trata de ausente definitivo; si el valor es 3, es un nuevo residente. Para mayor información
ver documento metodológico de la ENOE.

- > `EDA`:  En el campo “EDA”, se almacenan los años cumplidos. Si la edad del residente es de 12 años y más y
además tiene un 1 o un 3 en el campo “C_RES”, debe de existir un registro en la tabla CUESTIONARIO
DE OCUPACIÓN Y EMPLEO, si no cumple con estas características se termina su secuencia en la tabla
SOCIODEMOGRÁFICO.

Con base en lo anterior, se concluye que para que **un residente** sea considerado para calcular **indicadores estratégicos** es necesario que este: **1)** cuente con **entrevista completa** (`R_DEF = '00'`), **2)** sea **residente habitual** o **nuevo** (`C_RES` = '1' OR `C_RES` = '3'), y **3)** su edad se encuentre dentro de los **15** y **98** años (`EDA` >= '15' AND `EDA` <= '98').

Para calcular la **tasa de desocupación en el sector informal**, utilizado como un **acercamiento y comparativo** de la **informalidad** a nivel **entidad federativa** y **municipio**, se utiliza la formula definida por la **INEGI** dentro de su documento *Conociendo la base de datos de la ENOE (2020)*, (p.27):

**VIII.-Tasa de ocupación en el sector informal**

```SQL
Universo: R_DEF=00 y C_RES=1 ó 3 y edad=15-98
```

$$ TOSI = \frac{POSI}{PO} \times 100 \tag{2}$$

**Donde**:
- **POSI**: Población ocupada en el sector informal (`TUE2=5`)
- **PO**: Población ocupada (`Clase2 = 1`)

## **Fuentes**

- INEGI. (2020). *Cómo se hace la ENOE. Métodos y Procedimientos*. https://www.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/nueva_estruc/702825190613.pdf
- INEGI. (2020). *Conociendo la base de datos de la ENOE. Datos ajustados a proyecciones de población 2010.*. https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/doc/con_basedatos_proy2010.pdf
- INEGI. (2021). *Encuesta Nacional de Ocupación y Empleo Nueva Edición (ENOE $^N$) Estructura de la base de datos*. https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/doc/enoe_n_321_fd_c_bas_amp.pdf 
- [TBC](https://www.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/metodologias/ENOE/ENOE2014/informal_laboral/702825060459.pdf)

### **Bases de datos**
- Conjunto de datos + metadatos: https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/datosabiertos/2022/conjunto_de_datos_enoen_2022_1t_csv.zip
- Conjunto de datos simplificado (solo tablas en excel): https://www.inegi.org.mx/programas/enoe/15ymas/#Microdatos

### **Benchmark del 1er trimestre**
- Encuesta Nacional de Ocupación y Empleo (Nueva Edición) ENOE N. Resultados del primer trimestre de 2022. https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/doc/enoe_n_presentacion_ejecutiva_trim1_2022.pdf
- Comunicado de Prensa. Encuesta Nacional de Ocupación y Empleo, Nueva Edición. Primer Trimestre de 2022. https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/doc/enoe_n_nota_tecnica_trim1_2022.pdf

# **TO DO**:

- Elaborar mapas para ubicar la informalidad en México
- Ubicar las localidades/municipios con mayor porcentaje de población en el sector informal
- Identificar las zonas rurales y urbanas con mayor porcentaje de población en el sector informal
- Analizar características socioeconómicas relevantes por región y presentarlas en los mapas
    - `SEX` Proporción hombre - mujer (poblacion total en localidad) **CHECK**
    - **calcular** Tasa de participacion **CHECK**
    - **calcular** Tasa de ocupación informal **CHECK**
    - `EDA` **Edad** ¿cuál es la mediana y promedio de edad? la desviación estandar de la edad pude decirnos algo? **CHECK**
        - 00: Menores de 1 años
        - 01-96: Número de años cumplidos del integrante del hogar
        - 97: 97 años y más
        - 98: Edad no especificada para mayores (12 años y más)
        - 99: Edad no especificada para menores de (00 a 11 años)
    - `N_HIJ` **Número de hijos nacidos**
        - 00: Ninguno
        - 01-25: Número de hijos
        - 99: No especificado
    - `E_CON` **Estado Conyugal**: el estar casado tiene relacion con la informalidad?
        - 1: Vive con su pareja en unión libre
        - 2: Está separado(a)
        - 3: Está divorciado(a)
        - 4: Está viudo(a)
        - 5: Esta casado(a)
        - 6: Está soltero(a)
        - 9: No sabe
    - `RAMA_EST1` **Clasificación de la población ocupada según sector de actividad-Totales**sector total (primario, secundario, ...)
        - 1: Primario
        - 2: Secundario
        - 3: Terciario
        - 4: No especificado
    - `ANIOS_ESC:num` **años de escolaridad**
        - 1 - 24: De uno hasta 24 años de escolaridad
        - 99: No especificado
    - `HRSOCUP:num` **horas trabajadas en la semana**
        - 1 - 168
    - `INGOCUP:num` Ingreso mensual
        - 1-999998
    - `ING_X_HRS`: Promedio de ingreso por hora trabajada
        - 11 enteros y punto y 5 decimales
    - **NICE2HAVE** POBREZA ENT-MUN


Automatizacion
1. Calcular los subdataframes de variables socioeconomicas para un trimestre
2. Calcular los subdataframes de variabls socioeconomicas para todos los trimestres
3. Juntar subdataframes trimestrales y obtener el promedio por variable socioeconomica
4. Juntar los promedios de variables socioeconomicas en un mismo dataframe

**NUEVO**
- Incluir **TODOS** los agregados de los trimestres, con una columna de `trimestre`
- Haz un groupby ('mun', 'ent') y calcula el promedio de los trimsestres
- Obten el dataframe final

In [153]:
import pandas as pd # Manipulación de datos
import geopandas as gpd # Manipulación geospacial de datos
import numpy as np # Python numerico
import matplotlib.pyplot as plt # Visualizacion de datos

import requests # Peticiones web
import os # Manipulacion del Sistema Operativo
import re # Regular expressions

from zipfile import ZipFile # Zipfile manipulacion

import warnings
warnings.filterwarnings('ignore')

In [154]:
# Lista para identificar un municipio junto con su entidad federativa
LOC_INDEX = ['ent', 'mun']
VAR_INT = LOC_INDEX + ['fac_tri', 'sex', 'eda', 'n_hij', 'e_con', 'rama_est1', 'anios_esc', 'hrsocup', 'ingocup', 'ing_x_hrs']

In [155]:
def get_fac_value_aggfunc(df: pd.DataFrame, value: str, fac: str, aggfuncs: dict = {'mean': np.mean, 'median': np.median, 'std': np.std}):
    """Retorna los valores agregados de un valor con factor de expansión
    
    # Argumentos
    df: pd.DataFrame
        El dataframe donde se encuentra la data
    value: str
        El nombre de la columna/valor a multiplicar
    fac: str
        El nombre de la columna con el factor de expansion
    aggfuncs: dict (default = {'mean': np.mean, 'median': np.median, 'std': np.std})
    
    # Return
    aggfunc_values: dict
        Diccionario con el nombre del valor agregado como llave, y el valor agregado como valor
    """
    values = []
    aggfunc_values = {}

    # Itera sobre cada una de las filas
    for ix, row in df[[value, fac]].iterrows():
        values += [row[value]] * int(row[fac])

    # Regresa un numpy array con los valores
    values =  np.array(values)

    # Itera sobre cada una de las funciones de agregacion y 
    # retorna los resultados
    for aggfunc_name, aggfunc in aggfuncs.items():
        aggfunc_values[aggfunc_name] = aggfunc(values)

    return aggfunc_values


def get_fac_value_aggfunc_groupby(df: pd.DataFrame, groupby: str | list | tuple, value: str, fac: str,
                                  aggfuncs: dict = {'mean': np.mean, 'median': np.median, 'std': np.std},
                                  suffix: str | bool = True):
    """Agrupa un dataframe mediante una llave y obten valores agregados por factor
    
    # Argumentos
    df: pd.DataFrame
        El dataframe por ser agrupado y agregado
    groupby: str | list | tuple
        La llave para agrupar un dataframe en subdataframes
    value: str
        El nombre de la columna/valor a multiplicar
    fac: str
        El nombre de la columna con el factor de expansion
    aggfuncs: dict (default = {'mean': np.mean, 'median': np.median, 'std': np.std})

    # Return
    grouped_by_df: pd.DataFrame
        Dataframe indexado con los valores agregados por factor
    """

    # Define una lista en blanco para agregar los valores
    # del agrupamiento
    grouped_by_values = []

    # Agrupa por el groupby
    grouped_by = df.groupby(groupby)

    # Itera sobre cada uno de los indices y sub dataframes agrupados
    for ix, grouped_df in list(grouped_by):

        # Obten los valores agregados multiplicados por su factor
        aggfunc_values = get_fac_value_aggfunc(grouped_df, value, fac, aggfuncs)

        # Genera un diccionario que combine los diccionarios del indice +
        # los resultados agregados
        grouped_df_values = dict(zip(groupby, ix)) | aggfunc_values

        # Agrega a la lista de grouped_by_values los resultados del
        # subdataframe
        grouped_by_values.append(grouped_df_values)

    # Genera un nuevo dataframe y determina como indice, el groupby
    # inicial
    grouped_by_df = pd.DataFrame(grouped_by_values).set_index(groupby)

    # Valida si suffix is None, entonces usa como sufijo del nombre
    # de las columnas agregadas, el string de value

    # Valida si se quiere agregar sufijo a las columnas
    if suffix:
        if type(suffix) is not bool:
            value = suffix

        # Renombra las columnas con el nuevo valor de sufijo
        grouped_by_df.rename(columns={col: f'{value}_{col}' for col in grouped_by_df.columns}, inplace = True)    

    # Regresa el dataframe
    return grouped_by_df

Para facilitar el acceso a los archivos y el replicar este **jupyter notebook**, se descargan los datos de la ENOE $^N$ de forma automatizada.

In [128]:
# Define una lista con los links de los zipFiles que contienen las tablas de la base de datos
# de la enoen
enoen_links = [
    'https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/microdatos/enoe_n_2022_trim1_csv.zip',
    'https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/microdatos/enoe_n_2022_trim2_csv.zip',
    'https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/microdatos/enoe_n_2022_trim3_csv.zip',
    'https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/microdatos/enoe_n_2022_trim4_csv.zip'
]


# Itera sobre cada uno de lis links de los trimestres de la enoeN 2022 y descarga
# los archivos si aun no estan
enoe_n_path = 'data/enoe_n_2022/'
for trim, enoen_link in enumerate(enoen_links, start = 1):
    current_trim = f'enoe_n_2022_{trim}t'

    # Valida si no se encuentra la tabla de sociodemograficos del trimestre
    if not f'ENOEN_SDEMT{trim}22.csv' in os.listdir(enoe_n_path):
        print(f'[*] \'{current_trim}\' no fue encontrado. Descargando los archivos :)')

        # Haz un web request al INEGI para descargar la data
        enoen = requests.get(enoen_link)
        enoen_zip = f'{current_trim}.zip'

        # Abre un zipfile y escribe el contenido del web request
        open(enoen_zip, 'wb').write(enoen.content)

        # Extrae las tablas dentro del zipfile del trimstre
        with ZipFile(enoen_zip, 'r') as zObject:
            zObject.extractall(enoe_n_path)

        # Elimina el zip file, y solo quedate con las tablas
        os.remove(enoen_zip)

        print(f'[*] \'{enoen_zip}\' ha sido descargado y descomprimido en \'{enoe_n_path}\'\n')

    else:
        print(f'[*] {current_trim} ya fue descargado :)')

[*] enoe_n_2022_1t ya fue descargado :)
[*] enoe_n_2022_2t ya fue descargado :)
[*] enoe_n_2022_3t ya fue descargado :)
[*] enoe_n_2022_4t ya fue descargado :)


Extra los datos **geográficos** del **INEGI**

In [129]:
geo_data_path = 'data/mg_sep2019_integrado'

# Intenta listar el folder con la data geografica
try:
    os.listdir(geo_data_path)
    print('[*] La data geográfica ya esta descargada :)')
except:
    # Crea el folder
    os.mkdir(geo_data_path)
    print(f'[*] Creando el directorio \'{geo_data_path}\'')

    # Descarga los archivos
    print('[*] Descargando la data geográfica...')
    r = requests.get('http://internet.contenidos.inegi.org.mx/contenidos/productos/prod_serv/contenidos/espanol/bvinegi/productos/geografia/marcogeo/889463776079/mg_sep2019_integrado.zip')
    open('mg_sep2019_integrado.zip', 'wb').write(r.content)
    
    # Extrae solo los datos del conjunto de datos para mun y ent
    with ZipFile('mg_sep2019_integrado.zip', 'r') as zipObject:
        filenames = [filename for filename in zipObject.namelist() if '00mun' in filename or '00ent' in filename]
        for filename in filenames:
            print(f'[*] Extrayendo \'{filename}\' en \'{geo_data_path}\'')
            zipObject.extract(filename, 'data/')
    
    # Una vez extraidos los archivos, elimina el zip file
    os.remove('mg_sep2019_integrado.zip')

[*] La data geográfica ya esta descargada :)


## **Importa los datos**

Para este trabajo, en esencia, se utilizará la tabla de **demográficos** de la base de de datos de la ENOE $^N$.

```python
# Genera una lista para guardar los dataframes de demograficos
sdemts = []

# Itera sobre cada uno de los archivos correspondientes a la tabla
# de demograficos
for file in [file for file in os.listdir(enoe_n_path) if 'SDEMT' in file]:
    print(f'[*] Leyendo \'{file}\'...')

    # Abre el archivo
    sdmet = pd.read_csv(os.path.join(enoe_n_path, file), encoding = 'latin_1')

    # Extrae el trimestre al que corresponde
    sdmet['trim'] = re.findall('[\d]', file)[0]

    # Guardalo en la lista de sdemts
    sdemts.append(sdmet)

# Concatena los dataframes en uno mismo
sdemts = pd.concat(sdemts, ignore_index=True)

# Imprime la información del dataframe
print(sdemts.info(), end = '\n'*2)

# Imprime el head del dataframe
sdemts.head()
```

In [130]:
# Importa el trimestre 1 para recon
df = pd.read_csv('data/enoe_n_2022/ENOEN_SDEMT122.csv', encoding = 'latin_1',
                 dtype = {'r_def':'str', 'c_res':'str', 'eda':'str', 'sex':'str'}) # Reemplaza el tipo de dato de variables que seran importantes para filtrar

# Reemplaza valores nulos ' ' en la base de datos con np.NaN
df.replace({' ':np.nan}, inplace = True)

# Muestra el head del dataframe
df.head()

Unnamed: 0,r_def,loc,mun,est,est_d_tri,est_d_men,ageb,t_loc_tri,t_loc_men,cd_a,...,scian,t_tra,emp_ppal,tue_ppal,trans_ppal,mh_fil2,mh_col,sec_ins,tipo,mes_cal
0,0,,2,10,122,,0,1,,1,...,6,1,2,2,0,3,2,2,1,96
1,0,,2,10,122,,0,1,,1,...,12,1,2,2,0,3,2,2,1,96
2,0,,2,10,122,,0,1,,1,...,12,1,2,2,0,3,6,4,1,96
3,0,,2,10,122,,0,1,,1,...,5,1,2,2,0,3,2,2,1,96
4,0,,10,30,124,113.0,0,1,1.0,1,...,14,1,2,2,0,3,2,2,2,1


> Para el uso de las variables (precodificadas) se debe aplicar el siguiente criterio: `R_DEF = 0 AND C_RES 1 or 3 AND EDA >= 15 <= 98`

In [131]:
# Haz un query/busqueda con los siguientes filtros
df = df.query("r_def == '0' and (c_res == '1' or c_res == '3') and (eda >= '15' and eda <= '98') ")

# Muestra el head del dataframe
df.head()

Unnamed: 0,r_def,loc,mun,est,est_d_tri,est_d_men,ageb,t_loc_tri,t_loc_men,cd_a,...,scian,t_tra,emp_ppal,tue_ppal,trans_ppal,mh_fil2,mh_col,sec_ins,tipo,mes_cal
0,0,,2,10,122,,0,1,,1,...,6,1,2,2,0,3,2,2,1,96
1,0,,2,10,122,,0,1,,1,...,12,1,2,2,0,3,2,2,1,96
2,0,,2,10,122,,0,1,,1,...,12,1,2,2,0,3,6,4,1,96
3,0,,2,10,122,,0,1,,1,...,5,1,2,2,0,3,2,2,1,96
4,0,,10,30,124,113.0,0,1,1.0,1,...,14,1,2,2,0,3,2,2,2,1


In [132]:
# Mustra la estadistica descriptiva del sobre variables de interes
df[VAR_INT].replace(' ', np.nan).astype('float64').describe()

Unnamed: 0,ent,mun,fac_tri,sex,eda,n_hij,e_con,rama_est1,anios_esc,hrsocup,ingocup,ing_x_hrs
count,353440.0,350362.0,353440.0,353440.0,353440.0,161996.0,306126.0,353440.0,353440.0,353440.0,353440.0,353440.0
mean,16.29212,39.940955,323.864557,1.524253,36.732724,2.156998,4.427102,1.29186,8.962412,20.512769,2842.4352,16.771815
std,9.276879,56.71894,397.731806,0.499412,20.826899,2.450145,1.796532,1.37238,6.434168,24.292902,5665.089082,41.346563
min,1.0,1.0,13.0,1.0,2.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,8.0,6.0,109.0,1.0,21.0,0.0,4.0,0.0,6.0,0.0,0.0,0.0
50%,16.0,22.0,179.0,2.0,35.0,2.0,5.0,0.0,9.0,0.0,0.0,0.0
75%,24.0,49.0,406.0,2.0,52.0,3.0,6.0,3.0,12.0,45.0,5000.0,25.0
max,32.0,570.0,20679.0,2.0,98.0,99.0,9.0,4.0,99.0,168.0,233067.0,3255.81395


**Notas**:
- `eda`: Para la **edad** se cree necesario filtrar la variable, excluyendo `=98` edad no especificada para mayores (12 años y más) o reemplazando los valores con `np.nan`. Esto debido a que este último valor podría considerarse una **variable categórica**, misma que pude meter ruido a la **estadística**, con el riesgo de no considerar a esta población **no especificada**
- `n_hij`: Para la variable de **números de hijos nacidos**, será necesario remover `=99`: No especificado para evitar **ruido en la estadística**.
- `e_con`: Para el **estado conyugal** es posible hacer una **variable dummy** que indique que está casado `=5`, pero manteniendo los `np.nan`, pues estos pueden representar a personas **no necesariamente** capaces de tener un **estado conyugal** e.g. **menores de edad**.
- `rama_est1`: Para la **rama de sector total** aún se mantiene `4: No especificado`.
- `anios_esc`: Sera necesario que al considerar la variable **años de escolaridad** `anios_esc`, se filtre para **NO** contar con valores `=99`. Es decir, no especificado. O reemplazar con `np.nan`

## **Calcula tasas y variables de interés**

### **Tasa de hombres en la población**

Calcula la proporción de hombres respecto a la población del municipio (`prop_pob_hombre`).

In [133]:
# Calcular la proporcion de hombre-mujer
# 1 corresponde a hombre; 2 mujer
prop_sex = df.pivot_table(
    index = LOC_INDEX,
    columns = 'sex',
    values = 'fac_tri',
    aggfunc = 'sum'
)

# Proporcion de poblacion hombre
prop_sex['prop_pob_hombre'] = prop_sex['1'] / prop_sex.sum(axis = 1)
prop_sex

Unnamed: 0_level_0,sex,1,2,prop_pob_hombre
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,380243,431722,0.468300
1,2,6915,6775,0.505113
1,3,8104,9068,0.471931
1,4,3204,3649,0.467532
1,5,45823,49206,0.482200
...,...,...,...,...
32,54,32408,36258,0.471966
32,55,5940,7425,0.444444
32,56,60432,71791,0.457046
32,7,4692,4600,0.504950


### **Tasa de participación**

Calcula la **tasa de participación** de los municipios.

$$TP = \frac{PEA}{P15yMAS} \times 100$$

Donde:
- **PEA**: Población Económicamente Activa (`Clase1 = 1`)
- **P15yMAS**: Población de 15 años y más (`EDA = 15 a 98`)

In [134]:
# Es Población Ecónomicamente Activa
df['es_pea'] = np.where((df['clase1'] == 1), 1, 0)

# Identifica a la población de 15 y mas (menos igual 98)
df['es_p15_y_mas'] = np.where((df['eda'] >= '15') & (df['eda'] <= '98'), 1, 0)

# Debido a que existen registros con clase1 == 0, hay que filtrar
# solo por clase1 == 1 or clase1 == 2 para poder obtener los mismos
# calculos que en el reporte del INEGI (58.7% a nivel nacional)
t_particip = df.query("clase1 == 1 or clase1 == 2").pivot_table(
    index = LOC_INDEX,
    values = 'fac_tri',
    columns = 'es_pea',
    aggfunc = 'sum',
)

# Define una nueva columna con la tasa de participacion
t_particip['tasa_participacion'] = t_particip[1] / t_particip.sum(axis = 1)

# Muestra el dataframe
t_particip

Unnamed: 0_level_0,es_pea,0,1,tasa_participacion
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,284213,416278,0.594266
1,2,4535,6835,0.601143
1,3,6726,6971,0.508944
1,4,2670,3115,0.538462
1,5,32385,46856,0.591310
...,...,...,...,...
32,54,31340,24774,0.441494
32,55,6210,5940,0.488889
32,56,44766,69142,0.606999
32,7,4048,4140,0.505618


In [135]:
# Mustra la estadistica descriptiva
t_particip['tasa_participacion'].describe()

count    1136.000000
mean        0.577083
std         0.089709
min         0.194444
25%         0.526316
50%         0.586257
75%         0.632344
max         0.907407
Name: tasa_participacion, dtype: float64

### **Tasa de ocupación en el sector informal**

$$ TOSI = \frac{POSI}{PO} \times 100$$

**Donde**:
- **POSI**: Población ocupada en el sector informal (`TUE2=5`)
- **PO**: Población ocupada (`Clase2 = 1`)

In [136]:
# Crea una columna que identifique si es del sector informal
df['es_sector_informal'] = np.where(df['tue2'] == 5, 1, 0)

# Clasificación de la población ocupada y desocupada; disponible y no disponible]
# 2. Población desocupada
df['es_poblacion_ocupada'] = np.where(df['clase2'] == 1, 1, 0)

# Calcula la tasa TOSI, 28.3% a nivel nacional
tosi = df.query("clase2 == 1").pivot_table(
    index = LOC_INDEX,
    columns = 'es_sector_informal',
    values = 'fac_tri',
    aggfunc = 'sum'
)

# Calcula la tasa de ocupacion en el sector informal
tosi['tasa_ocup_sector_informal'] = tosi[1] / tosi.sum(axis = 1)

tosi

Unnamed: 0_level_0,es_sector_informal,0,1,tasa_ocup_sector_informal
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,321697.0,80079.0,0.199313
1,2,4320.0,2060.0,0.322884
1,3,4231.0,2644.0,0.384582
1,4,2314.0,801.0,0.257143
1,5,33389.0,12315.0,0.269451
...,...,...,...,...
32,54,18558.0,5147.0,0.217127
32,55,4590.0,945.0,0.170732
32,56,53209.0,12966.0,0.195935
32,7,3404.0,736.0,0.177778


In [137]:
# Muestra la estadistica descriptiva
tosi.describe()

es_sector_informal,0,1,tasa_ocup_sector_informal
count,1136.0,1124.0,1124.0
mean,35062.724472,13942.034698,0.310361
std,69606.580673,25227.632601,0.139873
min,190.0,192.0,0.023256
25%,7204.5,2935.25,0.2097
50%,14886.0,6304.5,0.29444
75%,28974.5,13485.5,0.393004
max,761976.0,275763.0,0.87234


### **Población Ocupada**

A partir de este punto, se hará un enfoque en conocer los atributos/caracteristicas de **solo la poblacíon ocupada**

In [138]:
# Define el dataframe de población ocupada
poc = df.query('clase2 == 1')[VAR_INT]

# Muestra el dataframe con el head
poc.head()

Unnamed: 0,ent,mun,fac_tri,sex,eda,n_hij,e_con,rama_est1,anios_esc,hrsocup,ingocup,ing_x_hrs
0,9,2,1977,1,42,,6,3,16,32,16000,116.27907
1,9,2,1977,2,26,0.0,6,3,17,32,0,0.0
2,9,2,1977,2,28,0.0,6,3,16,32,0,0.0
3,9,2,1977,2,29,0.0,6,2,16,32,0,0.0
4,9,10,2129,2,60,2.0,3,3,9,40,0,0.0


### **Edad de la Población Ocupada**

Calcula la **media, mediana y desviación estándar** de la **edad de la Población Ocupada**.

- `eda`: Para la **edad** se cree necesario filtrar la variable, excluyendo `=98` edad no especificada para mayores (12 años y más) o reemplazando los valores con `np.nan`. Esto debido a que este último valor podría considerarse una **variable categórica**, misma que pude meter ruido a la **estadística**, con el riesgo de no considerar a esta población **no especificada**.

En este caso se filtra, el reemplazar con `np.nan`, al final serían excluidos, siguiendo una lógica similar al filtrado.

In [139]:
# Calcula metricas agregadas de la edad sobre la Población ocupada
edad_poc = get_fac_value_aggfunc_groupby(poc.astype({'eda':'float64'}).query('eda < 98'),
                                         LOC_INDEX, 'eda', 'fac_tri')

# Muestra el dataframe
edad_poc

Unnamed: 0_level_0,Unnamed: 1_level_0,eda_mean,eda_median,eda_std
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,39.370178,39.0,13.549731
1,2,38.300940,37.0,13.760161
1,3,39.050618,38.0,15.382807
1,4,41.085714,39.0,15.986372
1,5,36.699501,35.0,13.093634
...,...,...,...,...
32,54,37.909428,36.0,15.060069
32,55,41.268293,45.0,16.520533
32,56,40.733510,40.0,13.965664
32,7,47.066667,49.0,17.512408


In [140]:
# Imprime la estadistica descriptiva
edad_poc.describe()

Unnamed: 0,eda_mean,eda_median,eda_std
count,1136.0,1136.0,1136.0
mean,40.453633,39.485915,14.509404
std,3.384314,4.47984,2.064275
min,31.153846,25.0,0.0
25%,38.200302,37.0,13.234549
50%,40.144217,39.0,14.341861
75%,42.374418,42.0,15.727136
max,57.066667,58.0,22.296213


### **Número de hijos de la Población Ocupada**

Calcula la **media, mediana y desviación estándar** de la **edad de la Población Ocupada**.

- `n_hij`: Para la variable de **números de hijos nacidos**, será necesario remover `=99`: No especificado para evitar **ruido en la estadística**.

In [142]:
# Primero haz un filtro sobre poblacion ocupada y numero de hijos nacidos < 99
poc_n_hij = poc.query('n_hij < "99"').astype({'n_hij':'float64'})

# Muestra la estadisctica descriptiva inicial
poc_n_hij['n_hij'].describe()

count    71633.000000
mean         1.846607
std          1.706353
min          0.000000
25%          0.000000
50%          2.000000
75%          3.000000
max         25.000000
Name: n_hij, dtype: float64

In [143]:
# Calcula las metricas por entidad y municipio
poc_n_hij = get_fac_value_aggfunc_groupby(poc_n_hij, groupby = ['ent', 'mun'],
                                          value = 'n_hij', fac = 'fac_tri')

# Muestra los resultados
poc_n_hij

Unnamed: 0_level_0,Unnamed: 1_level_0,n_hij_mean,n_hij_median,n_hij_std
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,1.780245,2.0,1.707814
1,2,1.756152,2.0,1.334804
1,3,2.120268,1.0,2.454822
1,4,2.428571,2.0,1.840586
1,5,1.905433,2.0,1.943884
...,...,...,...,...
32,54,1.780732,2.0,1.740926
32,55,2.000000,1.0,2.152110
32,56,1.905544,2.0,1.658983
32,7,5.000000,4.5,2.549510


In [144]:
# Muestra la estadistica descriptiva
poc_n_hij.describe()

Unnamed: 0,n_hij_mean,n_hij_median,n_hij_std
count,1131.0,1131.0,1131.0
mean,2.16581,1.970822,1.741792
std,0.766708,0.892465,0.693611
min,0.0,0.0,0.0
25%,1.714286,2.0,1.367135
50%,2.044405,2.0,1.627206
75%,2.477208,2.0,2.042858
max,9.0,9.0,6.220129


### **Estado Conyugal de la Población Ocupada**


In [150]:
# Define una nueva variable sobre el dataframe de poc
poc['es_casado'] = np.where(poc['e_con'] == '5', 1, 0)

# Obten el numero de personas ocupadas y con estado conyugal = casado
poc_e_con = poc.pivot_table(
    index = LOC_INDEX,
    values = 'fac_tri',
    columns = 'es_casado',
    aggfunc = 'sum'
)

# Obten la tasa de poblacion ocupada casada
poc_e_con['tasa_casado'] = poc_e_con[1].divide(poc_e_con.sum(axis = 1))

poc_e_con

Unnamed: 0_level_0,es_casado,0,1,tasa_casado
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1,215968.0,185808.0,0.462467
1,2,3410.0,2970.0,0.465517
1,3,3335.0,3540.0,0.514909
1,4,1602.0,1513.0,0.485714
1,5,22221.0,23483.0,0.513806
...,...,...,...,...
32,54,11344.0,12361.0,0.521451
32,55,2430.0,3105.0,0.560976
32,56,37039.0,29136.0,0.440287
32,7,1656.0,2484.0,0.600000


In [152]:
# Obten la estadistica descriptiva
poc_e_con.describe()

es_casado,0,1,tasa_casado
count,1133.0,1132.0,1132.0
mean,29905.588703,19098.118375,0.409918
std,58776.326568,34721.249214,0.126607
min,326.0,271.0,0.055556
25%,6336.0,4093.75,0.332204
50%,12502.0,8512.0,0.407044
75%,25200.0,17069.75,0.493888
max,606594.0,368806.0,1.0


### **Identifica el sector económico total con mayor proporción de ocupación**

In [175]:
# Indentifica cada uno de los sectores economicos y el numero de personas
# que pertenecen a dicho sector
poc_sec_econ = poc.pivot_table(
    index = LOC_INDEX,
    values = 'fac_tri',
    columns = 'rama_est1',
    aggfunc = 'sum'
)


# Primero calcula el porcentaje del total de poblacion
# de cada uno de los sectores economicos
poc_sec_econ['sec_econ_predominante'] = poc_sec_econ.apply(lambda loc: poc_sec_econ.columns[loc.argmax()], axis = 1)
poc_sec_econ['sec_econ_predominante_perc'] = poc_sec_econ.apply(lambda loc: loc[loc['sec_econ_predominante']] / np.sum(loc[[1, 2, 3, 4]]), axis = 1)

poc_sec_econ

Unnamed: 0_level_0,rama_est1,1,2,3,4,sec_econ_predominante,sec_econ_predominante_perc
ent,mun,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1,1,1922.0,121705.0,277181.0,968.0,3,0.689889
1,2,735.0,2585.0,3060.0,,3,0.479624
1,3,712.0,1898.0,4265.0,,3,0.620364
1,4,178.0,1424.0,1513.0,,3,0.485714
1,5,704.0,16293.0,28707.0,,3,0.628107
...,...,...,...,...,...,...,...
32,54,13466.0,7311.0,2928.0,,1,0.568066
32,55,1890.0,675.0,2970.0,,3,0.536585
32,56,685.0,12894.0,52412.0,184.0,3,0.792021
32,7,3128.0,552.0,460.0,,1,0.755556
