<a href="https://colab.research.google.com/github/Walt9819/factores-impacto-desempleo-mexico/blob/main/Python/FactoresDeImpactoEnDesempleoMX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# BEDU - Santander
## *Módulo 2. Procesamiento de Datos con Python*

**Equipo 18**

Integrantes:
- Irene López [ver perfil](https://www.linkedin.com/in/irene-lopez-rodriguez/)
- Laura Lozano [ver perfil](https://www.linkedin.com/in/laura-lozano-bautista/)
- Enrique Rodríguez [ver perfil](https://www.linkedin.com/in/enrique-rodriguez97/)
- Walter Rosales [ver perfil]()



# Tema: **Impacto del confinamineto en el sector restaurantero y de alojamiento en México**

## Identificación del problema
La pandemia de COVID-19 en México trajo consigo desempleo e inactividad, ya sea por incompatibilidad de los horarios personales con el trabajo en línea, recortes administrativos o falta de herramientas tecnológicas. Asimismo, las personas que se mantuvieron ocupadas durante este periodo vieron un cambio en la calidad de su empleo, pues los costos económicos de las medidas sanitarias que las autoridades tomaron se vieron reflejados en la reducción de la oferta laboral (implicando así una mayor carga laboral para los empleados que permanecieron en las empresas), una menor capacidad utilizada y el funcionamiento de las cadenas de valor.

En los Pre-Criterios 2021 de la SHCP se menciona que los sectores que se vieron afectados de manera más inmediata y persistente son los servicios de alojamiento, esparcimiento, comercio, transporte, y aquellos sectores mayormente dependientes del turismo local y foráneo. Por otra parte, el comercio electrónico y los servicios de telecomunicaciones y tecnologías de la información, así como la venta de productos farmacéuticos se vieron favorecidos por el aumento de la demanda de sus productos y servicios. 

Según estimaciones de la Cámara Nacional de la Industrial Restaurantera y de Alimentos Condimentados (CANIRAC), para finales de 2020 se acumuló una pérdida  de 450 mil empleos en la industria restaurantera, de los 2.1 millones que mantenía dicho sector a inicio de año. También prevé que el 50% del sector restaurantero tendrá dificultad para negociar deudas por crédito o pagos de nóminas, debido al impacto que ha provocado el cierre de establecimientos, reducción de horarios y aforo. Entre los estados más afectados por la pérdida de empleo se encuentran: Ciudad de México, Estado de México, Baja California, Chihuahua y Sonora, además, no se descarta que la cifra se incremente en caso de endurecerse las medidas de confinamiento.


## Objetivo
> Analizar la situación del empleo en México durante el 2020 en los sectores de la actividad económica, haciendo especial énfasis en las condiciones laborales del sector restaurantero y de alojamiento.


## Preguntas de investigación
*	¿Cómo son las condiciones laborales de las personas que permanecieron en la ocupación durante la pandemia de COVID-19? 
*	¿Qué pasó con los trabajadores de los sectores más afectados? 
*	¿Cuál fue la condición laboral más precarizada en el sector restaurantero y de alojamiento?
*	¿Qué parte de la estructura productiva fue la más golpeada: micros, pequeñas, medianas o grandes empresas?


## Recolección de datos

La fuente de datos para estre proyecto es la ENOE -para el segundo trimestre de 2020 se utiliza a la ETOE- del INEGI, para el periodo del primer trimestre al cuarto trimestre del 2020.


**VARIABLES**: Para conocer la codificación de las variables disponibles en el Cuestionario Sociodemográfico de la ENOE, revisar la siguiente documentación https://www.inegi.org.mx/contenidos/programas/enoe/15ymas/doc/fd_c_bas_amp_15ymas.pdf

**NOTA:** solo descargar si no están los datos disponibles en el directorio de trabajo o si se desean actualizar los datos para incluir más trimestres de diferentes años

In [None]:
# Correr sólo una vez
!pip3 install zipfile38
!pip3 install dbfread



In [None]:
import requests, sys, io # lectura desde URL
import zipfile38 as zipfile # apoyos para lecturas de ZIP

import pandas as pd # usar dataframes
import os # manipulación de archivos en el sistema

from dbfread import DBF # lectura de archivos .dbf

# Lectura de los archivos del cuestionario sociodemográfico de la ENOE
zips = ["SDEMT0420", "SDEMT0520", "SDEMT0620", "SDEMT120", "enoen_sdemt320", "SDEMT420"]

for zip in zips:
  r = requests.get(f"https://github.com/Walt9819/factores-impacto-desempleo-mexico/blob/main/R/Project/enoe_sdem/{zip}.zip?raw=true")
  z = zipfile.ZipFile(io.BytesIO(r.content))
  z.extractall("")


# Columnas a leer
columnas = ["SEX", "EDA", "NIV_INS", "RAMA_EST2", "CLASE2", "PER", "DUR_EST", "ING7C", "MEDICA5C", "EMPLE7C"]

# Conjunto de datos a llenar
data = pd.DataFrame()


# Leer todos los archivos `.dbf`
for file in os.listdir():
    if file.endswith(".dbf"):
      table = DBF(file, load=True)
      print(f"Load {file} succesfully\nTransforming data..")
      table = pd.DataFrame(iter(table))
      print("Adding data to main dataframe...")
      data = data.append(table[columnas])

# Sólo nos quedamos con las personas ocupadas (codificado como 1)

data = data.drop(data[data['CLASE2']>1].index)

#Export to data
data.to_csv("data_enoe_amp.csv", encoding="utf-8", index=False) # exportar a un CVS (de forma local)

Load ENOEN_SDEMT420.dbf succesfully
Transforming data..
Adding data to main dataframe...
Load SDEMT0520.dbf succesfully
Transforming data..
Adding data to main dataframe...
Load SDEMT0620.dbf succesfully
Transforming data..
Adding data to main dataframe...
Load SDEMT120.dbf succesfully
Transforming data..
Adding data to main dataframe...
Load enoen_sdemt320.dbf succesfully
Transforming data..
Adding data to main dataframe...
Load SDEMT0420.dbf succesfully
Transforming data..
Adding data to main dataframe...


In [None]:
from google.colab import files
files.download("data_enoe_amp.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## Análisis exploratorio de datos

In [2]:
import pandas as pd

In [3]:
# Lectura de datos y creación de DataFrame
df = pd.read_csv("https://github.com/Walt9819/factores-impacto-desempleo-mexico/blob/main/Python/data/data_enoe_amp.csv?raw=true", encoding="utf-8")

df

Unnamed: 0,SEX,EDA,NIV_INS,RAMA_EST2,CLASE2,PER,DUR_EST,ING7C,MEDICA5C,EMPLE7C
0,2.0,8.0,1,0,0,420,0,0,0,0
1,2.0,46.0,4,7,1,420,4,2,1,2
2,1.0,46.0,4,7,1,420,2,1,1,1
3,2.0,1.0,0,0,0,420,0,0,0,0
4,1.0,4.0,0,0,0,420,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...
287226,,,0,0,0,220,0,0,0,0
287227,,,0,0,0,220,0,0,0,0
287228,2.0,12.0,0,0,0,220,0,0,0,0
287229,,,0,0,0,220,0,0,0,0


In [4]:
# Tamaño de DataFrame: 287,231 registros y 10 columnas
df.shape

(287231, 10)

In [5]:
# Primeros registros
df.head

<bound method NDFrame.head of         SEX   EDA  NIV_INS  RAMA_EST2  ...  DUR_EST  ING7C  MEDICA5C  EMPLE7C
0       2.0   8.0        1          0  ...        0      0         0        0
1       2.0  46.0        4          7  ...        4      2         1        2
2       1.0  46.0        4          7  ...        2      1         1        1
3       2.0   1.0        0          0  ...        0      0         0        0
4       1.0   4.0        0          0  ...        0      0         0        0
...     ...   ...      ...        ...  ...      ...    ...       ...      ...
287226  NaN   NaN        0          0  ...        0      0         0        0
287227  NaN   NaN        0          0  ...        0      0         0        0
287228  2.0  12.0        0          0  ...        0      0         0        0
287229  NaN   NaN        0          0  ...        0      0         0        0
287230  NaN   NaN        0          0  ...        0      0         0        0

[287231 rows x 10 columns]>

In [None]:
# Últimos registros
df.tail

<bound method NDFrame.tail of         SEX   EDA  NIV_INS  RAMA_EST2  ...  DUR_EST  ING7C  MEDICA5C  EMPLE7C
0       2.0   8.0        1          0  ...        0      0         0        0
1       2.0  46.0        4          7  ...        4      2         1        2
2       1.0  46.0        4          7  ...        2      1         1        1
3       2.0   1.0        0          0  ...        0      0         0        0
4       1.0   4.0        0          0  ...        0      0         0        0
...     ...   ...      ...        ...  ...      ...    ...       ...      ...
287226  NaN   NaN        0          0  ...        0      0         0        0
287227  NaN   NaN        0          0  ...        0      0         0        0
287228  2.0  12.0        0          0  ...        0      0         0        0
287229  NaN   NaN        0          0  ...        0      0         0        0
287230  NaN   NaN        0          0  ...        0      0         0        0

[287231 rows x 10 columns]>

In [6]:
# Tipos de datos
df.dtypes

SEX          float64
EDA          float64
NIV_INS        int64
RAMA_EST2      int64
CLASE2         int64
PER            int64
DUR_EST        int64
ING7C          int64
MEDICA5C       int64
EMPLE7C        int64
dtype: object

## Limpieza de datos

In [7]:
# Cambio de nombre de columnas
df.columns

Index(['SEX', 'EDA', 'NIV_INS', 'RAMA_EST2', 'CLASE2', 'PER', 'DUR_EST',
       'ING7C', 'MEDICA5C', 'EMPLE7C'],
      dtype='object')

In [8]:
df.columns = ['sexo', 'edad', 'niv_educ', 'sector', 'ocu', 'periodo', 'jor_lab',
       'niv_ing', 'inst_salud', 'uni_eco']
df.columns

Index(['sexo', 'edad', 'niv_educ', 'sector', 'ocu', 'periodo', 'jor_lab',
       'niv_ing', 'inst_salud', 'uni_eco'],
      dtype='object')

In [9]:
# Identificar valores con NaN
df.isna().sum()

sexo          14065
edad          14065
niv_educ          0
sector            0
ocu               0
periodo           0
jor_lab           0
niv_ing           0
inst_salud        0
uni_eco           0
dtype: int64

In [10]:
 # Eliminar filas con NaN

df = df.dropna(axis=0, how='any')

## Transformación de datos

In [11]:
# Transformacion de datos float a int

df['sexo'] = df['sexo'].astype(int)
df['edad'] = df['edad'].astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [12]:
# Filtros:

# Personas que están ocupadas

ocupadas = df['ocu']==1

# Personas que están en edad de trabajar, es decir, a los mayores de 15 años y menores de 65 años

mayores_15 = df['edad']>=15
menores_65 = df['edad']<=65

# Nivel educativo especificado

filtro_niv_educ = df['niv_educ']<5

# Jornada laboral especificada

filtro_jor_lab = df['jor_lab']<6

# Nivel de ingresos  especificado

filtro_niv_ing = df['niv_ing']<7

# Acceso a institución de salud especificado

filtro_inst_salud = df['inst_salud']<5

# Tamaño de la unidad económica especificada

filtro_uni_eco = df['uni_eco']<7


# Unión de filtros

df = df[ocupadas & mayores_15 & menores_65 & filtro_niv_educ & filtro_jor_lab & filtro_niv_ing & filtro_inst_salud & filtro_uni_eco]


In [13]:
df

Unnamed: 0,sexo,edad,niv_educ,sector,ocu,periodo,jor_lab,niv_ing,inst_salud,uni_eco
1,2,46,4,7,1,420,4,2,1,2
2,1,46,4,7,1,420,2,1,1,1
9,1,40,4,8,1,420,4,4,4,6
10,2,41,4,3,1,420,2,1,1,1
13,2,49,3,10,1,420,3,1,1,1
...,...,...,...,...,...,...,...,...,...,...
287151,2,24,4,10,1,220,1,2,1,2
287154,1,39,3,11,1,220,1,3,3,6
287155,1,25,1,4,1,220,3,1,1,2
287156,2,39,3,6,1,220,5,2,4,2


In [21]:
# Etiquetas de variables

# Sector
codigo_sector = {
    1 : 'Agropecuario',
    2 : 'Mineria y electricidad',
    3 : 'Manufactura', 
    4 : 'Construcción',
    5 : 'Comercio',
    6 : 'Restaurantes y servicios de alojamiento',
    7 : 'Transportes, comunicaciones, correo y almacenamiento',
    8 : 'Servicios profesionales, financieros y corporativos',
    9 : 'Servicios sociales',
    10 : 'Servicios diversos',
    11 : 'Gobierno y organismos internacionales'
}

df['sector_label'] = df['sector'].map(codigo_sector)

# Nivel educativo
codigo_educ = {
    1 : 'Primaria incompleta',
    2 : 'Primaria completa',
    3 : 'Secundaria completa', 
    4 : 'Media superior',
}

df['educacion_label'] = df['niv_educ'].map(codigo_educ)

# Jornada laboral
codigo_jor = {
    1 : 'Ausentes temporales con población ocupada vínculo laboral',
    2 : 'Menos de 15 horas',
    3 : 'De 15 a 34 horas', 
    4 : 'De 35 a 48 horas',
    5 : 'Más de 48 horas'
}

df['jornada_label'] = df['jor_lab'].map(codigo_jor)

# Nivel de ingresos
codigo_ingresos = {
    1 : 'Hasta un salario mínimo',
    2 : 'Más de 1 hasta 2 salarios mínimos',
    3 : 'Más de 2 hasta 3 salarios mínimos',
    4 : 'Más de 3 hasta 5 salarios mínimos',
    5 : 'Más de 5 salarios mínimos',
    6 : 'No recibe ingresos'
}

df['ingresos_label'] = df['niv_ing'].map(codigo_ingresos)


# Institucion de salud
codigo_salud = {
    1 : 'Sin prestaciones',
    2 : 'Solo acceso a instituciones de salud',
    3 : 'Acceso de instituciones de salud y otras prestaciones',
    4 : 'No tiene acceso a instituciones de salud, pero si a otras prestaciones'
}

df['inst_salud_label'] = df['inst_salud'].map(codigo_salud)


# Tamaño unidad económica
codigo_unidad = {
    1 : 'Micro',
    2 : 'Micro',
    3 : 'Micro',
    4 : 'Pequeña',
    5 : 'Pequeña',
    6 : 'Mediana-Grande',
}

df['uni_eco_label'] = df['uni_eco'].map(codigo_unidad)

In [22]:
df

Unnamed: 0,sexo,edad,niv_educ,sector,ocu,periodo,jor_lab,niv_ing,inst_salud,uni_eco,sector_label,educacion_label,jornada_label,ingresos_label,inst_salud_label,uni_eco_label
1,2,46,4,7,1,420,4,2,1,2,"Transportes, comunicaciones, correo y almacena...",Media superior,De 35 a 48 horas,Más de 1 hasta 2 salarios mínimos,Sin prestaciones,Micro
2,1,46,4,7,1,420,2,1,1,1,"Transportes, comunicaciones, correo y almacena...",Media superior,Menos de 15 horas,Hasta un salario mínimo,Sin prestaciones,Micro
9,1,40,4,8,1,420,4,4,4,6,"Servicios profesionales, financieros y corpora...",Media superior,De 35 a 48 horas,Más de 3 hasta 5 salarios mínimos,"No tiene acceso a instituciones de salud, pero...",Mediana-Grande
10,2,41,4,3,1,420,2,1,1,1,Manufactura,Media superior,Menos de 15 horas,Hasta un salario mínimo,Sin prestaciones,Micro
13,2,49,3,10,1,420,3,1,1,1,Servicios diversos,Secundaria completa,De 15 a 34 horas,Hasta un salario mínimo,Sin prestaciones,Micro
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
287151,2,24,4,10,1,220,1,2,1,2,Servicios diversos,Media superior,Ausentes temporales con población ocupada vínc...,Más de 1 hasta 2 salarios mínimos,Sin prestaciones,Micro
287154,1,39,3,11,1,220,1,3,3,6,Gobierno y organismos internacionales,Secundaria completa,Ausentes temporales con población ocupada vínc...,Más de 2 hasta 3 salarios mínimos,Acceso de instituciones de salud y otras prest...,Mediana-Grande
287155,1,25,1,4,1,220,3,1,1,2,Construcción,Primaria incompleta,De 15 a 34 horas,Hasta un salario mínimo,Sin prestaciones,Micro
287156,2,39,3,6,1,220,5,2,4,2,Restaurantes y servicios de alojamiento,Secundaria completa,Más de 48 horas,Más de 1 hasta 2 salarios mínimos,"No tiene acceso a instituciones de salud, pero...",Micro


## Gráficas

In [None]:
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Ejemplo gráfica de barras: https://matplotlib.org/stable/gallery/lines_bars_and_markers/barchart.html#sphx-glr-gallery-lines-bars-and-markers-barchart-py
# 1. Gráfica de barras: Ocupación por sector y por trimestre


# Ejemplo gráfica de barras horizontal: https://matplotlib.org/stable/gallery/lines_bars_and_markers/horizontal_barchart_distribution.html#sphx-glr-gallery-lines-bars-and-markers-horizontal-barchart-distribution-py

# 2. Sectores y nivel de ingreso (Por trimestres)


# 3. Sector y jornada laboral (Por trimestres)


# Ejemplo de gráfica de pie: https://matplotlib.org/stable/gallery/pie_and_polar_charts/pie_features.html#sphx-glr-gallery-pie-and-polar-charts-pie-features-py
# 4. Pie: Acceso a instituciones de salud sólo del sector restaurantero (por trismestres)


# 5. Gráfica de barras: Número de empleados por cada tamaño de unidad económica del sector restaurantero (por trismestres)
