## Caso Estudio: Diferencia de las Tasas de Ocupación por género en Chile
_por Nicolás Cavieres_

### **Resumen**

En general y a lo largo de la última década, Chile ha avanzado en disminuir la barrera de genero presente en la participación laboral. Éstos avances no han sido homogeneos a lo largo de las Regiones que componen éste país y se han vísto afectados en éstos últimos 4 años por la pandemia del Covid-19.
En éste estudio se analizará la evidencia sobre la brecha de genero en las Tasas de Ocupación a lo largo de Chile. Primero con una visión general de las diferencias de las Tasas de Ocupación para los años comprendidos desde el 2010 al 2023. Segundo, profundizando en las Regiones que han tenido comportamientos que no siguen la tendencia general del País o tengan algún comportamiento de interés. Y tercero, con el desarrollo de un mapa interactivo que permita a los usuarios el poder visualizar como ha cambiado la distribución de ésta inequidad en las Tasas de Ocupación a lo largo de las Regiones de Chile. 

### **Acerca del Estudio.**

#### Base de datos.
Para el estudio se utilizará la base de datos proporcionada por el Instituto Nacional de Estadística (*INE*).

[Banco de Datos](https://bancodatosene.ine.cl/)

*Fuente Open Source con Licencia Creative Commons*

#### Metodología de encuesta.
Se podrá acceder a todos los datos disponibles como resultado de la Encuesta Nacional de Empleo.

[Ver Formato de Encuesta](https://bancodatosene.ine.cl/Pdf/Cuestionario%20ENE%202016_v20160429.pdf)

Pero al haber antecedentes de que el cambio de metodología ha generado distintos resultados para los cálculos, se filtrarán los datos según la metodología usada (2002 vs 2017). [(ver ejemplo de Ñuble)](https://regiones.ine.cl/documentos/default-source/region-xvi/estadisticas-r16/documentos-de-trabajo/an%C3%A1lisis-de-los-principales-indicadores-de-la-ene---impacto-del-nuevo-m%C3%A9todo-de-calibraci%C3%B3n-de-los-factores-de-expansi%C3%B3n-9249.pdf?sfvrsn=34914876_4
).

[Fundamentos de la nueva metodología](https://www.ine.gob.cl/docs/default-source/documentos-de-trabajo/documento-de-trabajo-fundamentos-de-la-nueva-calibraci%C3%B3n-de-los-factores-de-expansi%C3%B3n-en-la-ene.pdf?sfvrsn=3de3a0e1_4
)

> Cito: "En los últimos años se ha puesto en entredicho los principales resultados que coyunturalmente reporta la Encuesta Nacional de Empleo. El principal argumento señala que, la desactualización del marco muestral que utiliza la encuesta, imposibilita incorporar el reciente, pero importante influjo migratorio que ha experimentado Chile y, por tanto, los resultados de la encuesta tampoco incorporan los efectos que dicho fenómeno ha tenido sobre el mercado laboral, llevando a que las cifras entregadas por la encuesta presenten sesgos en alguna dirección, generando la subestimación de algunos indicadores y la sobrestimación de otros."

La busqueda de reducir los sesgos podría producir diferencias si utilizamos las proyecciones en base a la metodología 2002 y 2017, por lo que se dejarán fuera del analisis las proyecciones en base a la metodología 2002.

#### Busqueda de datos.
Los datos de interés estarán contenidos en las siguientes variables:
* Región = Nombre de la Región 
* Value = Tasa de Ocupacion (%)
* Sexo: 
  * _T = Total
  * M = Mujeres
  * H = Hombres
* Trimestre Móvil = Año Meses
* Indicador = Metodología

Más información en el enlace:
[Definición de las Variables.](https://bancodatosene.ine.cl/pdf/Diccionario%20de%20variables%20Banco%20de%20Datos%20ENE_v20160429.pdf)

### **Enfoque del Estudio**

La UNESCO define a la participación en la fuerza de trabajo como un elemento fundamental para el empoderamiento social y económico de las personas y de sus comunidades, ya que les ofrece más opciones y recursos, así como una mayor autonomía para realizar la vida que desean [(click para ver el informe)](https://es.unesco.org/creativity/sites/creativity/files/digital-library/cdis/Iguldad%20de%20genero.pdf).
Y dentro de los estudios realizados por la OCDE, dentro de los 4 países peor evaluados en la tasa de participación de las Mujeres en la fuerza laboral, está Chile [(click para ver el estudio)](https://www.pwc.co.uk/economic-services/WIWI/pwc-women-in-work-2019-final-web.pdf).
Queremos enfocar éste estudio para responder pocas, pero importantes preguntas.
* ¿Existe un comportamiento común para todas las Regiones de Chile en la disminución de ésta brecha?
* ¿Todas las Regiones han tenido una disminución de ésta brecha?
* ¿Ha sido ésta disminución constante en todas las Regiones?
* ¿Existe una distribución geográfica para la inequidad en Chile?
* ¿Ha cambiado ésta distribución a lo largo del tiempo?

### **Manipulación de datos.**

Se descargará la base de dato del Banco de Datos del INE para el periodo disponible en la pagina web (2002-2023) y se respaldará con el nombre de "Tasa_ocupacion_todos_2010_2023.csv".

A continuación se podrá seguir el guión para la manipulación de datos, comenzando con la instalación de las librerías necesarias para éste estudio.

In [None]:
install.packages("plotly")
library(plotly)
install.packages("tidyr")
library(tidyr)
install.packages("dplyr")
library(dplyr)
install.packages("ggplot2")
library(ggplot2)

Se respaldan nuestros archivos en el directorio "Study_files" y nuestra base de datos original en la variable "Tasa_todos".

In [None]:
setwd("Study_files")
Tasa_todos <- read.csv("Tasa_ocupacion_todos_2010_2023.csv")

Se verifican los nombres de las columnas y el resumen de nuestra base de dato.

In [None]:
colnames(Tasa_todos)
head(Tasa_todos)
summary(Tasa_todos)

Se puede asumir que el INE proveerá una base de datos confiables, pero por protocolo se comprueba la presencia celdas vacías o valores NA.
_(Si el output es False, no se encontraron problemas.)_

In [None]:
Tasa_todos <- subset(Tasa_todos, select = -c(Flag.Codes, Flags))
any(is.na(Tasa_todos[,1:9]))

Se crea una nueva variable (Tasa_todos_2017) con los datos que corresponden a las proyecciones en base a la metodología corregida (2017) y se visualiza esta nueva base de datos filtrada.

In [None]:
Tasa_todos_2017 <- Tasa_todos[Tasa_todos$Indicador == "Tasa de ocupación (proyecciones base 2017)",]

colnames(Tasa_todos_2017)
head(Tasa_todos_2017)
summary(Tasa_todos_2017)

Se exporta esta base de datos para tener un respaldo.


In [None]:
write.csv(Tasa_todos_2017, file = "Tasa_todos_2017.csv", row.names = FALSE)

Se separa la columna de Trimestre Móvil en dos columnas, una para el Año y otra para el Periodo de Meses.

In [None]:
Tasa_todos_2017 <- Tasa_todos_2017 %>%
  separate(col = Trimestre.Móvil, into = c("Año", "Periodo_Meses"), sep = " ")

El valor de las Tasas de Ocupación se agrupa en un valor promedio, retornando un valor promedio para cada año. De ésta forma se podrá hacer referencia a las Tasas de Ocupación Anuales y no a las Tasas de Ocupación por Trimestre Movil.

In [None]:
Tasa_todos_2017_avg <- Tasa_todos_2017 %>%
  group_by(Año, Región, Sexo) %>%
  summarize(Avg_Value = mean(Value))

head(Tasa_todos_2017_avg)
summary(Tasa_todos_2017_avg)
View(Tasa_todos_2017_avg)

Si los valores de la columna "Año" son leídos como typo string, se cambian a tipo int para no tener problemas de compatibilidad.

In [None]:
Tasa_todos_2017_avg$Año <- as.integer(as.character(Tasa_todos_2017_avg$Año))
head(Tasa_todos_2017_avg)

Para calcular la diferencia entre la Tasa de Ocupación de Hombres y la Tasa de Ocupación de Mujeres se crea una nueva variable (Diferencia_Hombres_Mujeres). Ésta variable tiene un valor en puntos porcentuales, por lo que hay que considerar que cada tasa de ocupación calcula el porcentaje de la población que se encuentra trabajando activamente, con respecto al total de la población en edad de trabajar. De ninguna manera representa cantidades absolutas (ejemplo: TOH = TOM = 60%, ésta igualdad no asegura que existe la misma cantidad de hombres y mujeres trabajando activamente)
Los datos se guardan en la variable Diferencia_genero_2017 y son los que se ocuparán para visualizar como se acercan o distancian las Tasas de Ocupación para Hombres y Mujeres.

In [None]:
Diferencia_genero_2017 <- Tasa_todos_2017_avg %>%
  filter(Sexo != "Ambos sexos") %>%
  group_by(Año, Región) %>%
  summarize(Diferencia_Hombres_Mujeres = Avg_Value[Sexo == "Hombres"] -
              Avg_Value[Sexo == "Mujeres"])

View(Diferencia_genero_2017)
write.csv(Diferencia_genero_2017, "Diferencia_genero_2017.csv", row.names = FALSE)

Si se siguen las recomendaciones del sitio web [Data to Viz](https://www.data-to-viz.com/) se puede suponer que:
* La mejor forma de graficar los cambios entre Regiones es un gráfico de barras.
* La mejor forma de graficar los cambios en un período de tiempo es el grafico lineal.
* La mejor forma de encontrar hallazgos en nuestros datos es un gráfico lineal 3D.
* Un mapa interactivo es una buena herramienta para que los usuarios puedan llegar por si mismos, a conclusiones similares al estudio.

### **Análisis.**

El código a continuación representa un gráfico de lineas que muestra la variación de las Tasas de Ocupación para el total del País, donde cada color de linea representa una variable distinta para el Sexo (T, M, H).

In [None]:
ggplot(Tasa_todos_2017_avg %>% filter(Región == "Total país"), aes(x = Año, y = Avg_Value, color = Sexo, group = Sexo)) + 
  geom_line() +
  scale_color_manual(values = c("black", "blue", "#ff0000")) +
  labs(x = "Año", y = "Tasa", color = "Sexo", subtitle = "Valores para el total del país") +
  ggtitle("Tasa de Ocupación periodo 2010-2023") +
  theme(plot.title = element_text(hjust = 0.5))

Se observa un cambio de tendencia a la baja en la Diferencia entre las Tasas de Ocupación para el período 2018-2020, para los valores que representan el total del País. 
Para saber que Región ha tenido una mayor diferencia en promedio a lo largo de los años se calcula el promedio de los valores por Región, para el periodo de tiempo completo (2010-2023).

In [None]:
total_avg_2010_2023 <- Diferencia_genero_2017 %>% 
  group_by(Región) %>% 
  summarize(avg_diff = mean(Diferencia_Hombres_Mujeres))

View(total_avg_2010_2023)

En el gráfico final se incluirán las Regiones con los valores máximos y mínimos de éste gráfico, datos que se buscamos de dos formas:
  * Agregando etiquetas en el gráfico
  * Manipulando la base de datos.

In [None]:
# Gráfico de barras con etiquetas
ggplot(total_avg_2010_2023, aes(x = Región, y = avg_diff)) +
  geom_bar(stat = "identity", fill = "darkblue") +
  geom_text(aes(label = ifelse(avg_diff == max(avg_diff), round(avg_diff,2), "")), 
            vjust = -1, size = 3) +
  geom_text(aes(label = ifelse(avg_diff == min(avg_diff), round(avg_diff,2), "")), 
            vjust = -1, size = 3) +
  labs(x = "Región", y = "Diferencia promedio", title = "Promedio de la diferencia entre Hombres y Mujeres",
       subtitle = "Periodo 2010-2023, proyecciones base 2017") +
  ggtitle("Diferencia Hombres-Mujeres por Región") +
  theme(plot.title = element_text(hjust = 0.5),
        plot.subtitle = element_text(hjust = 0.5),
        axis.text.x = element_text(angle = 45, vjust = 0.5, size = 5)) +
  scale_y_continuous(expand = expansion(mult = c(0.2, 0.2)))

In [None]:
# Busqueda por base de datos
# Busqueda de los valores máximos y mínimos
max_avg <- max(total_avg_2010_2023$avg_diff)
min_avg <- min(total_avg_2010_2023$avg_diff)
# Busqueda de las Regiones a las que corresponden esos valores
max_reg <- total_avg_2010_2023$Región[which.max(total_avg_2010_2023$avg_diff)]
min_reg <- total_avg_2010_2023$Región[which.min(total_avg_2010_2023$avg_diff)]

# Guardamos los valores en vectores para confirmar que coinciden
min_avg_Region <- c(min_avg, min_reg)
max_avg_Region <- c(max_avg, max_reg)

# Retornamos los valores que nos interesan.
cat(min_avg_Region)
cat(max_avg_Region)

##### Gráfico Linea 3D.

El objetivo de éste grafico es buscar puntos de interés que escapen la tendencia general, así como comparar el comportamiento de la Diferencia de Tasas de Ocupación de cada Región a lo largo del tiempo.

Usamos un color para cada año, retiramos la etiqueta de Regiones para que no interfiera con nuestra visual y las agregamos en la función de desplazamiento del ratón.
También especificamos que los años deben ser secuenciados en 1 unidad y agregamos los colores suficientes a la paleta de colores "Dark2" que viene integrada con nuestra biblioteca, para abarcar el número de años en el gráfico.
Si aún así es dificil visualizar los datos, pensemos que cada linea es una representación de Chile, y cada color representa el mapa de Chile en un Año distinto.

In [None]:
# Paleta de colores
library(RColorBrewer)
# Define a palette with 8 dark colors
pal <- brewer.pal(8, "Dark2")
# Add 6 more colors by interpolating between adjacent colors
pal <- colorRampPalette(pal)(14)

Diferencia_genero_2017 %>%
  plot_ly(x = ~Región, y = ~Año, z = ~Diferencia_Hombres_Mujeres,
          type = "scatter3d", mode = "lines", line = list(width = 2),
          color = ~as.factor(Año),
          colors = pal) %>%
  layout(scene = list(xaxis = list(title = "Región", showticklabels = FALSE, 
                                   ticktext = ~Región, 
                                   tickvals = ~Región),
                      yaxis = list(title = "Año", tickmode = "array",
                                   tickvals = seq(2005, 2030, by = 1)),
                      zaxis = list(title = "Diferencia en ptos %")))


Se puede aseverar de éste gráfico que:
* La Región de Atacama tiene la diferencia de Tasas de Ocupación historica más alta para el periodo 2010-2023.
* El valor más bajo para la diferencia de Tasas de Ocupación para el periodo 2010-2023 es en la Región de Aysen del Gral. Carlos Ibáñez del Campo.
* Hay una marcada tendencia en la variación de la diferencia de Tasas de Ocupación en todas las Regiones para el periodo de tiempo 2019-2020
* El valor más alto para la diferencia de Tasas de Ocupación para el periodo 2018-2023 es en la Región de Ñuble.

Agregamos marcadores relacionados a éstos hallazgos en el gráfico, para que sea más fácil ver los hallazgos de éste gráfico.

In [None]:
Diferencia_genero_2017 %>%
  plot_ly(x = ~Región, y = ~Año, z = ~Diferencia_Hombres_Mujeres,
          type = "scatter3d", mode = "lines", line = list(width = 2),
          color = ~as.factor(Año),
          colors = pal) %>%
  layout(scene = list(xaxis = list(title = "Región", showticklabels = FALSE),
                      yaxis = list(title = "Año", tickmode = "array",
                                   tickvals = seq(2005, 2030, by = 1)),
                      zaxis = list(title = "Diferencia en ptos %"))) %>%
  add_trace(x = c("Región de Ñuble"), y = c(2020), z = c(26.256), 
            type = "scatter3d", mode = "markers",
            marker = list(color = "black", size = 8),
            text = "x == Región de Ñuble y ==2020 z == 26.256") %>%
  add_trace(x = c("Región de Antofagasta"), y = c(2013), z = c(33.40739),
            type = "scatter3d", mode = "markers",
            marker = list(color = "black", size = 8),
            text = "x == Región de Antofagasta y ==2013 z == 33.40739") %>%
  add_trace(x = c("Región de Aysén del Gral. Carlos Ibáñez del Campo"), y = c(2018), z = c(14.21345),
            type = "scatter3d", mode = "markers",
            marker = list(color = "black", size = 8),
            text = "x == Región de Ayzén del Gral. Carlos Ibáñez del Campo y ==2018 z == 14.21345")

![image_name](Study_files/Side3D.png)
![image_name](Study_files/Front3D.png)


Para entender mejor el comportamiento de las Regiones relacionadas a éstos puntos de interes, delimitaremos éste gráfico a las Región de interés y los valores totales del País en un sistema 2D.

Nuestras Regiones de interés son:
* 1. Región de Antofagasta
* 2. Región de Aysén del Gral. Carlos Ibañez del Campo
* 3. Región de Atacama
* 4. Región de Ñuble
* 5. Total País

In [None]:
regions_interest<-c("Región de Antofagasta", "Región de Aysén del Gral. Carlos Ibáñez del Campo", 
                      "Región de Atacama", "Región de Ñuble", "Total país")

filtered_data <- filter(Diferencia_genero_2017, Región %in% regions_interest)

options(repr.plot.width=10, repr.plot.height=5)

ggplot(filtered_data, aes(x = Año, y = Diferencia_Hombres_Mujeres, color = Región)) +
  geom_line() +
  geom_point() +
  scale_x_continuous(breaks = seq(2006, 2026, 1)) +
  labs(title = "Diferencia de género en años",
       x = "Año",
       y = "Diferencia de Hombres y Mujeres")

Agregamos los puntos que corresponden a los valores guardados en el gráfico 3D.

In [None]:
options(repr.plot.width=10, repr.plot.height=5)

# Create markers data frame
markers_data <- data.frame(Región = c("Región de Ñuble", "Región de Antofagasta", "Región de Aysén del Gral. Carlos Ibáñez del Campo"),
                            Diferencia_Hombres_Mujeres = c(26.256, 33.40739, 14.21345),
                            Año = c(2020, 2013, 2018))

# Create plot
ggplot(filtered_data, aes(x = Año, y = Diferencia_Hombres_Mujeres, color = Región)) +
  geom_line() +
  geom_text(data = markers_data, aes(x = Año, y = Diferencia_Hombres_Mujeres + 1, label = paste(Región, Diferencia_Hombres_Mujeres, sep = ": ")), size = 3, vjust = -0.5, color = "black") +
  geom_point(data = markers_data, aes(x = Año, y = Diferencia_Hombres_Mujeres, color = Región), size = 5) +
  scale_x_continuous(breaks = seq(2006, 2026, 1)) +
  labs(title = "Diferencia de género en años",
       x = "Año",
       y = "Diferencia de Hombres y Mujeres")

### **Conclusiones.**

* En general, todas las Regiones de Chile han tenido una disminución en la diferencia de Tasas de Ocupación para Hombres y Mujeres a lo largo del periodo 2010-2023
* La Región de Ñuble ha tenido una baja disminución de la diferencia de Tasas de Ocupación en comparación a las otras Regiones de Chile.
* Las Regiones del norte de Chile han tenido una buena disminución desde sus valores iniciales para la diferencia en las Tasas de Ocupación entre Hombres y Mujeres.
* Hay una marcada tendencia en todas las Regiones de Chile, aumentando la diferencia en las Tasas de Ocupación entre Hombres y Mujeres, para el periodo de años que coincide con la pandemia Covid-19 en Chile (Marzo 2020 - Septiembre 2021 - [Información del Minsal](https://www.gob.cl/pasoapaso/)).
* La pandemia Covid-19 en Chile aumentó la diferencia en las Tasas de Ocupación entre Hombres y Mujeres.
* Al año 2023, la Región con mayor inequidad en la Tasa de Ocupación es la Región de Ñuble.

### **Futuros Análisis.**

La inequidad de genero debe ser abordada como un problema con multiples dimensiones, por ésto sería interesante contrastar la variación de la diferencia de las Tasas de Ocupación con otras variables como gasto Fiscal en la disminución de la brecha de genero para cada Región, porcentaje de escolaridad, indicadores de violencia de género, etc.

Es conocido que a nivel mundial, la inequidad de género aumentó como consecuencia de las secuelas económicas y de la Salud de las personas de la Pandemia Covid-19.
>Cito: "los resultados de la cuarta encuesta de violencia contra las mujeres dados a conocer por el Ministerio de la Mujer y de la Equidad de Género, en el indicador de “violencia general vida”, presentó un aumento estadísticamente significativo entre las mediciones de 2017 y 2020, pasando de un 38,2% a un 41,4%" -Julia Fawaz, Chile 2022- [enlace de la noticia](http://noticias.ubiobio.cl/2020/10/09/centro-de-estudios-nuble-realizo-conversatorio-distanciadas-pero-unidas-contra-la-violencia/)

Es importante que se pueda generar un abordaje dinámico a la Equidad de Género, que permita redestinar y adaptar los esfuerzos del País hacia las Regiones más afectadas o con una menor capacidad de hacer frente a éste problema.

Por éso en el siguiente archivo se ha creado un Mapa interactivo, que grafica de forma dinámica ésta inequidad en las Tasas de Ocupación y permite a los usuarios identificarse con los problemas que hemos analizado en éste estudio.