<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/EDA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

# **Análisis de Equidad de Género en el Mercado Laboral Colombiano**

# Abstract

Este estudio analiza la equidad de género en el mercado laboral colombiano utilizando datos de la Gran Encuesta Integrada de Hogares (GEIH) de octubre de 2022. Se examinaron variables como ingresos laborales, tiempo laborado, género y tipo de contrato. Los resultados indican una gran variabilidad en los ingresos y el tiempo laborado entre jóvenes adultos de 18 a 28 años en Colombia. A pesar de la dispersión en los datos, no se encontraron pruebas estadísticas suficientes para afirmar que el ingreso promedio de estos jóvenes es menor al salario mínimo. Además, se observó que los hombres tienen una mayor representación en el mercado laboral formal en comparación con las mujeres. Sin embargo, en términos de ingresos y tiempo laborado, no se encontraron diferencias significativas entre géneros. Estos hallazgos sugieren la existencia de desafíos en la equidad de género en el acceso a oportunidades laborales, pero no necesariamente en la remuneración.


# Introducción

En Colombia, como en muchas partes del mundo, la equidad de género en el ámbito laboral es un tema de relevante interés social y económico. Diferencias en los ingresos entre hombres y mujeres pueden ser indicativas de disparidades subyacentes en oportunidades, acceso a la educación y discriminación en el lugar de trabajo. Este proyecto busca examinar la posible existencia de brechas salariales entre géneros en el mercado laboral colombiano, utilizando datos recientes de la Gran Encuesta Integrada de Hogares (GEIH) administrada por el DANE en octubre de 2022.

# Objetivos

## Objetivo General:

Analizar los datos de la GEIH para identificar evidencias significativas de diferencias en los ingresos laborales entre hombres y mujeres en Colombia.

## Objetivos Específicos:

1. Describir las características demográficas y socioeconómicas de la muestra laboral.
2. Estimar la diferencia media de ingresos entre hombres y mujeres.
3. Determinar la significancia estadística de las diferencias observadas.
4. Interpretar los resultados en el contexto de la literatura económica y social existente.

# Metodología

Para el desarrollo de este estudio se empleará un enfoque cuantitativo descriptivo y analítico. Se utilizarán técnicas estadísticas para comparar los ingresos medios y medianos entre hombres y mujeres y se realizarán pruebas de hipótesis para evaluar la significancia de las diferencias encontradas. El procesamiento y análisis de datos se llevarán a cabo mediante la plataforma Google Colab, utilizando Python y sus bibliotecas de análisis de datos como Pandas, NumPy y SciPy.

# Descripción de la Base de Datos

La base de datos proviene de la Gran Encuesta Integrada de Hogares del DANE, específicamente del mes de octubre de 2022. La muestra final, después de la limpieza de datos, cuenta con 27631 personas adultas jóvenes (entre los 18 y 28 años), con ingresos menor al salario de un congresista (33 SMLV) y con un tiempo laboral menor a 90 meses. Las variables son:

- ID: Identificador único para cada encuestado.
- DPTO: Código del departamento.
- SEXO: Género del encuestado, donde 1 representa masculino y 2 femenino.
- EDAD: Edad del encuestado en años.
- NIV_EDUC: Nivel educativo del encuestado, con una escala donde 1 puede indicar educación primaria y los números más altos representan niveles superiores de educación.
- CONTRATO: Si la persona tiene (1) o no (2) un contrato formal
- TIEMPO_LAB: Tiempo en el último empleo medido en meses.
- INGLABO: Ingresos laborales del encuestado en pesos colombianos.

Cada registro en la base de datos corresponde a un individuo encuestado y su información respectiva en las variables mencionadas.

# Preliminares

## Carga de Base de Datos e Importación de Librerías Necesarias

In [None]:
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as stats
import matplotlib.pyplot as plt
import plotly.express as px
from scipy.stats import shapiro

In [None]:
# Ruta del archivo Excel en tu Google Drive
ruta_archivo = '/content/drive/MyDrive/Bases/BaseAlejandra.csv'

# Cargar el archivo Excel en un DataFrame de Pandas
data = pd.read_csv(ruta_archivo)

# Mostrar las primeras filas para entender la estructura
data.head()

In [None]:
# Información general sobre el DataFrame
info = data.info()

In [None]:
# Valores nulos
valores_nulos = data.isnull().sum()
valores_nulos

# Estadísticas Descriptivas Globales

En promedio, los jóvenes adultos entre 18 y 28 años han trabajado 18.29 meses, con una desviación estándar de 19.44 meses, evidenciando una gran variabilidad en la experiencia laboral. La mayoría ha trabajado un año o menos, como lo indica la mediana de 12 meses, pero algunos han acumulado hasta 7 años y medio de trabajo, lo que podría reflejar tanto precocidad en la incorporación al mercado laboral como la posibilidad de trabajos concurrentes o sucesivos durante este periodo de vida.

Los ingresos laborales de estos jóvenes adultos tienen un promedio de 1,057,697.83 COP, pero con una dispersión casi tan alta como el promedio (1,037,946.50 COP), lo que muestra una diferencia significativa en los ingresos entre individuos. La mediana de 1,000,000 COP sugiere que la mitad de los jóvenes percibe hasta este monto, mientras que un máximo reportado de 30,000,000 COP indica la presencia de jóvenes con ingresos laborales excepcionales en el grupo.

En promedio, los jóvenes adultos en la encuesta tienen alrededor de 24 años, con una dispersión baja de apenas 3 años.


In [None]:
# Suponiendo que 'data' es tu DataFrame y 'EDAD' es la columna con la información de la edad.
data = data[(data['EDAD'] >= 18) & (data['EDAD'] <= 28) & (data['TIEMPO_LAB'] <=90) & (data['INGLABO']<=33000000)]

# Estadísticas descriptivas para 'TIEMPO_LAB' y 'INGLABO'
estadisticas_descriptivas = data[['TIEMPO_LAB', 'INGLABO', 'EDAD']].describe()
estadisticas_descriptivas


Estadísticamente se puede observar en el gráfico que la mayoría de las personas en esta población joven tienen un tiempo laborado de pocos meses, con una tendencia hacia tiempos laborados más cortos. Sin embargo, hay individuos que son excepciones con tiempos laborados significativamente más altos. El hecho de que los datos sean multimodales y sesgados positivamente puede sugerir que hay diferentes patrones o factores que influyen en el tiempo laborado.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['TIEMPO_LAB'], bins=30, kde=True, ax=ax1)
ax1.set_title('Distribución de Tiempo Laborado')
ax1.set_xlabel('Tiempo en Meses')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['TIEMPO_LAB'], ax=ax2)
ax2.set_title('Tiempo Laborado')
ax2.set_xlabel('Tiempo en Meses')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()



Los siguientes gráficos indican que la población estudiada tiene una gran mayoría con ingresos bajos, con una dispersión muy pequeña para la mitad central de la población. Sin embargo, hay unos pocos casos con ingresos extremadamente altos, lo que produce una gran asimetría en la distribución total de ingresos. Esto puede indicar una gran desigualdad en la distribución de ingresos dentro de la muestra analizada.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['INGLABO'], bins=50, kde=True, ax=ax1)
ax1.set_title('Distribución de Ingresos Laborales')
ax1.set_xlabel('Ingresos Laborales en COP')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['INGLABO'], ax=ax2)
ax2.set_title('Ingresos Laborales')
ax2.set_xlabel('Ingresos Laborales en COP')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()

Respecto a la edad, existe una asimetría negativa, sugiriendo que las edades de la muestra analizada se concentran ligeramente en los valores más altos de la distribución. Recordemos que, por objetivos del estudio, se acotó la edad entre 18 y 28 años.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['EDAD'], bins=50, kde=True, ax=ax1)
ax1.set_title('Distribución de la Edad')
ax1.set_xlabel('Edad en Años')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['EDAD'], ax=ax2)
ax2.set_title('Edad')
ax2.set_xlabel('Edad en Años')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()

La edad, el tiempo laborado y los ingresos, no están correlacionadas fuertemente, por lo menos no linealmente como lo indica la matriz.

In [None]:
correlation_matrix = data[['EDAD', 'TIEMPO_LAB', 'INGLABO']].corr()

# Mostrar la matriz de correlación
print(correlation_matrix)

El gráfico de pastel muestra la distribución por sexo de los encuestados en la muestra laboral de Colombia, con un 57.1% de participantes masculinos y un 42.9% de participantes femeninos. Esta distribución indica que hay una mayor representación masculina en la fuerza laboral dentro de la población estudiada. Este desbalance en la participación por género puede ser relevante al analizar las diferencias en los ingresos laborales entre hombres y mujeres y podría reflejar dinámicas subyacentes en el mercado laboral colombiano que afectan la equidad de género en términos de oportunidades de empleo y condiciones laborales.

In [None]:
# Diagrama de torta para Sexo
sex_counts = data['SEXO'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(sex_counts, labels=['Masculino', 'Femenino'], autopct='%1.1f%%', startangle=140)
plt.title('Distribución por Sexo')
plt.show()

El gráfico de pastel muestra la distribución del tipo de contrato de los encuestados en la muestra laboral de Colombia, con un 70.4% de los individuos teniendo un contrato formal y un 29.6% trabajando sin contrato. Este dato es relevante en el análisis de la equidad de género en el ámbito laboral, ya que la existencia de un contrato formal puede influir en la estabilidad laboral y, por ende, en los ingresos. La brecha entre aquellos con y sin contrato sugiere que casi un tercio de la muestra podría estar en empleos más precarios o informales, lo cual podría afectar de manera desproporcionada a uno de los géneros y ser un factor importante en la existencia de disparidades salariales.

In [None]:
# Diagrama de torta para Contrato
contract_counts = data['CONTRTATO'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(contract_counts, labels=['Con contrato', 'Sin contrato'], autopct='%1.1f%%', startangle=140)
plt.title('Distribución por Tipo de Contrato')
plt.show()

La tabla cruzada en porcentajes muestra que, en la muestra estudiada, un mayor porcentaje de hombres (37.9%) tiene contrato laboral en comparación con las mujeres (32.48%), y esta tendencia se mantiene entre quienes no tienen contrato, siendo los hombres sin contrato (19.19%) más que las mujeres en la misma situación (10.43%). En total, los hombres representan el 57.09% de la muestra, mientras que las mujeres constituyen el 42.91%. Esto sugiere que, dentro de esta población joven adulta colombiana, los hombres tienen una mayor presencia en el mercado laboral formal. A la vez, más de dos tercios de la muestra total (70.38%) tienen contratos de trabajo, lo que refleja una inclinación hacia la formalidad laboral en esta cohorte.

In [None]:
tabla_cruzada = pd.crosstab(data['SEXO'], data['CONTRTATO'])

# Calculamos los porcentajes respecto al total general
tabla_porcentaje = (tabla_cruzada / tabla_cruzada.sum().sum()) * 100

# Opcionalmente, si queremos agregar los porcentajes marginales (por filas y columnas)
# Podemos hacerlo de la siguiente manera:
tabla_porcentaje_marginal = pd.crosstab(data['SEXO'], data['CONTRTATO'], normalize='all') * 100
tabla_porcentaje_marginal['Total'] = tabla_porcentaje_marginal.sum(axis=1)
tabla_porcentaje_marginal.loc['Total'] = tabla_porcentaje_marginal.sum()

# Renombrar las filas y columnas para mayor claridad
tabla_porcentaje_marginal.index = ['Masculino', 'Femenino', 'Total']
tabla_porcentaje_marginal.columns = ['Con contrato', 'Sin contrato', 'Total']

# Imprimir la tabla cruzada con porcentajes
tabla_porcentaje_marginal


El gráfico de barras y la tabla, muestran la distribución del nivel educativo en una muestra de la población, destacándose que la mayoría de los encuestados ha alcanzado la educación media académica (Bachillerato clásico) con un 41%, seguido por un relevante 19.9% que ha completado la educación universitaria. Los niveles de maestría y doctorado tienen una representación mínima, con solo el 0.3% y el 0% respectivamente, indicando una baja proporción de individuos con estudios de posgrado en la muestra. Esto sugiere que, en esta muestra específica, la educación superior no universitaria (técnica, tecnológica) y la educación media son los niveles educativos más comunes.

In [None]:
educ_counts = data['NIV_EDUC'].value_counts().sort_index()

# Creamos el DataFrame con la descripción de las categorías
categorias_descripcion = pd.DataFrame({
    'Categoría': [
        1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 99
    ],
    'Descripción': [
        'Ninguno',
        'Preescolar',
        'Básica primaria (1o - 5o)',
        'Básica secundaria (6o - 9o)',
        'Media académica (Bachillerato clásico)',
        'Media técnica (Bachillerato técnico)',
        'Normalista',
        'Técnica profesional',
        'Tecnológica',
        'Universitaria',
        'Especialización',
        'Maestría',
        'Doctorado',
        'No sabe, no informa'
    ]
})

# Calculamos el porcentaje de cada categoría
total = educ_counts.sum()
categorias_descripcion['Frecuencia'] = categorias_descripcion['Categoría'].map(educ_counts)  # Mapeamos las frecuencias
categorias_descripcion['Porcentaje'] = (categorias_descripcion['Frecuencia'] / total) * 100

# Eliminamos la fila donde la categoría es 'No sabe, no informa' si no deseas incluirlo
categorias_descripcion = categorias_descripcion[categorias_descripcion['Categoría'] != 99]

# Ordenamos el DataFrame por categoría si es necesario
categorias_descripcion = categorias_descripcion.sort_values(by='Categoría')

# Mostramos la tabla
print(categorias_descripcion)


In [None]:
# Configuramos el tamaño del gráfico
plt.figure(figsize=(10,8))

# Creamos el gráfico de barras
plt.bar(categorias_descripcion['Descripción'], categorias_descripcion['Porcentaje'])

# Añadir título y etiquetas a los ejes
plt.title('Porcentaje de Nivel Educativo')
plt.xlabel('Nivel Educativo')
plt.ylabel('Porcentaje (%)')

# Mejora la visualización girando las etiquetas del eje x
plt.xticks(rotation=90)

# Mostrar valores en las barras
for i, v in enumerate(categorias_descripcion['Porcentaje']):
    plt.text(i, v + 0.5, "{:.1f}%".format(v), ha='center')

# Ajusta subtramas para que las etiquetas no se corten
plt.tight_layout()

# Mostrar gráfico
plt.show()


# Inferencia

## Normalidad de las variables

Los resultados de la prueba de Shapiro-Wilk para los ingresos laborales indican lo siguiente:

- Estadístico de Prueba: 0.5771
- Valor p: 0.0000

Dado que el valor p (0.0000) es significativamente menor que el nivel de significancia alpha (generalmente establecido en 0.05), podemos concluir que los ingresos laborales no siguen una distribución normal.

In [None]:
# Prueba de normalidad para ingresos laborales
ingresos_laborales = data['INGLABO']
stat_ingresos, p_ingresos = shapiro(ingresos_laborales)

print("Prueba de Shapiro-Wilk para Ingresos Laborales:")
print(f"Estadístico de Prueba: {stat_ingresos:.4f}")
print(f"Valor p: {p_ingresos:.4f}")


Los resultados de la prueba de Shapiro-Wilk para el tiempo laborado indican lo siguiente:

- Estadístico de Prueba: 0.8142
- Valor p: 0.0000

Dado que el valor p (0.0000) es significativamente menor que el nivel de significancia alpha (generalmente establecido en 0.05), podemos concluir que el tiempo laborado tampoco sigue una distribución normal.

In [None]:
# Prueba de normalidad para tiempo laborado
tiempo_laborado = data['TIEMPO_LAB']
stat_tiempo, p_tiempo = shapiro(tiempo_laborado)

print("\nPrueba de Shapiro-Wilk para Tiempo Laborado:")
print(f"Estadístico de Prueba: {stat_tiempo:.4f}")
print(f"Valor p: {p_tiempo:.4f}")


**Nota**:

Aunque ambas variables no sigan una distribución normal, por el teorema central del límite podemos asumir normalidad para los promedios, ya que sobre ellos es que realizaremos inferencia.

## Intervalos de Confianza y Pruebas de Hipótesis

En este caso, no conocemos la varianza poblacional. Por lo tanto, usaremos la distribución $T$. Todas las pruebas se harán con una significancia del $5\%$.



## Intervalo de Confianza para el Ingreso Laboral Medio en Jóvenes Adultos

Con un nivel de confianza del 95%, podemos decir que la media de ingresos laborales en la población de jóvenes adultos se estima entre $1,032,337.85$ y $1,083,057.80$ pesos colombianos.

In [None]:
# Extraer los datos de ingresos laborales
ingresos = data['INGLABO']

# Calcular las estadísticas descriptivas de la variable completa
media_ingresos = ingresos.mean()
std_ingresos = ingresos.std()
n_ingresos = len(ingresos)

# Nivel de confianza
confianza = 0.95

# Calcular el error estándar de la media
std_error_media = std_ingresos / (n_ingresos ** 0.5)

# Calcular el valor crítico de Z
z_critico = stats.norm.ppf(1 - (1 - confianza) / 2)

# Calcular el intervalo de confianza para la media de ingresos laborales
intervalo_confianza = (media_ingresos - z_critico * std_error_media, media_ingresos + z_critico * std_error_media)

# Crear una tabla con los resultados
resultados_ingresos = pd.DataFrame({
    'Media de Ingresos Laborales': [media_ingresos],
    'Error Estándar de la Media': [std_error_media],
    'Valor Z Alpha/2': [z_critico],
    'Intervalo de Confianza': [intervalo_confianza]
})

# Mostrar la tabla
print(resultados_ingresos)


### Prueba de Hipotesis Para El Ingreso Promedio

Es de especial interés determinar, ya que para el año 2022 el salario mínimo se estableció en $1'000000$, si el ingreso promedio de los jóvenes es menor a 1 SMLV.

Al realizar la prueba, se puede apreciar que no existe suficiente evidencia estadística para determinar que el ingreso promedio de los jóvenes está por debajo del salario mínimo.

Se debe aclarar que la distribución es asimétrica positiva ya que presenta valores atípicos muy grandes.

In [None]:
# Valor de referencia
valor_referencia = 1000000  # Valor de referencia (1,000,000 pesos colombianos)

# Extraer los datos de ingresos laborales
ingresos = data['INGLABO']

# Realizar la prueba de hipótesis
resultado_prueba = stats.ttest_1samp(ingresos, valor_referencia, alternative='less')

# Extraer el estadístico de prueba y el valor p
estadistico_prueba = resultado_prueba.statistic
valor_p = resultado_prueba.pvalue

# Nivel de confianza
confianza = 0.95

# Comprobar si rechazamos la hipótesis nula
if valor_p < (1 - confianza):
    print("Rechazamos la hipótesis nula.")
else:
    print("No podemos rechazar la hipótesis nula.")

# Mostrar el estadístico de prueba y el valor p
print(f"Estadístico de Prueba: {estadistico_prueba}")
print(f"Valor p: {valor_p}")


### Intervalo de Confianza para el Tiempo Laboral Medio en Jóvenes Adultos

Con un nivel de confianza del $95\%$, podemos decir que la media de tiempo laboral en la población se estima entre 17.820 y 18.770 meses. Esto significa que podemos estar 95% seguros de que la verdadera media de tiempo laboral en la población está dentro de este intervalo.


In [None]:
# Extraer los datos de tiempo laboral
tiempo_lab = data['TIEMPO_LAB']

# Calcular las estadísticas descriptivas de la variable completa
media_tiempo_lab = tiempo_lab.mean()
std_tiempo_lab = tiempo_lab.std()
n_tiempo_lab = len(tiempo_lab)

# Nivel de confianza
confianza = 0.95

# Calcular el error estándar de la media
std_error_media = std_tiempo_lab / (n_tiempo_lab ** 0.5)

# Calcular el valor crítico de Z
z_critico = stats.norm.ppf(1 - (1 - confianza) / 2)

# Calcular el intervalo de confianza para la diferencia de medias
intervalo_confianza = (media_tiempo_lab - z_critico * std_error_media, media_tiempo_lab + z_critico * std_error_media)

# Crear una tabla con los resultados
resultados_tiempo_lab = pd.DataFrame({
    'Media de Tiempo Laboral': [media_tiempo_lab],
    'Error Estándar de la Media': [std_error_media],
    'Valor Z Alpha/2': [z_critico],
    'Intervalo de Confianza': [intervalo_confianza]
})

# Mostrar la tabla
print(resultados_tiempo_lab)


### Intervalo para Diferencia de Medias para Ingreso Laboral por Género

En el gráfico se omitieron los datos atípicos para tener un mejor panorama de la distribución. Aunque el comportamiento de la distribución de las mujeres es un poco más disperso respecto a los hombres, parece no existir diferencias.

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='SEXO', y='INGLABO', data=data, showfliers=False)
plt.xlabel('Sexo')
plt.ylabel('Ingresos Laborales')
plt.title('Ingresos Laborales por Sexo (Sin Valores Atípicos)')
plt.xticks([0, 1], ['Hombres', 'Mujeres'])  # Etiquetas en el eje x

# Mostrar el boxplot
plt.show()

Se puede observar que el intervalo contiene el $0$, es decir, no hay suficiente evidencia estadística para indicar que los ingresos promedios entre hombres y mujeres, entre 18 y 28 años, son diferente con una confianza del $95\%$.

In [None]:
# Dividir los datos en dos grupos: hombres y mujeres
ingresos_hombres = data[data['SEXO'] == 1]['INGLABO']
ingresos_mujeres = data[data['SEXO'] == 2]['INGLABO']

# Calcular las estadísticas descriptivas de cada grupo
media_hombres = ingresos_hombres.mean()
media_mujeres = ingresos_mujeres.mean()
std_hombres = ingresos_hombres.std()
std_mujeres = ingresos_mujeres.std()
n_hombres = len(ingresos_hombres)
n_mujeres = len(ingresos_mujeres)

# Calcular la diferencia de medias
diferencia_medias = media_hombres - media_mujeres

# Calcular el error estándar de la diferencia de medias
std_error_diferencia = ((std_hombres ** 2) / n_hombres + (std_mujeres ** 2) / n_mujeres) ** 0.5

# Calcular el estadístico t y los grados de libertad
grados_libertad = n_hombres + n_mujeres - 2  # Grados de libertad
t_stat = diferencia_medias / std_error_diferencia

# Nivel de confianza
confianza = 0.95

# Calcular el intervalo de confianza para la diferencia de medias
intervalo_confianza = stats.t.interval(confianza, loc=diferencia_medias, scale=std_error_diferencia, df=grados_libertad)

# Crear una tabla con los resultados
resultados = pd.DataFrame({
    'Diferencia de Medias': [diferencia_medias],
    'Error Estándar': [std_error_diferencia],
    'Límite Inferior': [intervalo_confianza[0]],
    'Límite Superior': [intervalo_confianza[1]]
})

# Mostrar la tabla
print(resultados)


### Prueba de Hipótesis Para Diferencia de Medias Para Ingresos Según el Género

Se puede observar que el valor del estadístico de prueba es menor al $Z$ crítico, por lo tanto, se concluye que no hay suficiente evidencia estadística para determinar que los ingresos promedios entre hombres y mujeres difieren significativamente.

In [None]:
# Realizar la prueba de hipótesis (prueba t para muestras independientes)
t_stat, p_valor = stats.ttest_ind(ingresos_hombres, ingresos_mujeres, equal_var=False)

# Definir el nivel de significancia
nivel_significancia = 0.05

# Calcular el valor crítico de Z (para una prueba bilateral)
z_critico = stats.norm.ppf(1 - nivel_significancia / 2)

# Calcular la diferencia de medias
diferencia_medias = ingresos_hombres.mean() - ingresos_mujeres.mean()

# Crear una tabla con los resultados
resultados_hipotesis = pd.DataFrame({
    'Diferencia de Medias': [diferencia_medias],
    'Estadístico de Prueba (t)': [t_stat],
    'Valor Crítico de Z': [z_critico],
    'Valor p': [p_valor]
})

# Mostrar la tabla
print(resultados_hipotesis)


### Intervalo para Diferencia de Medias para Tiempo Laboral por Género

Gráficamente, a diferencia del ingreso, podemos ver que en el tiempo laboral en los hombres es mayor ligeramente al tiempo promedio de las mujeres.

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='SEXO', y='TIEMPO_LAB', data=data, showfliers=False)
plt.xlabel('Sexo')
plt.ylabel('Ingresos Laborales')
plt.title('Ingresos Laborales por Sexo (Sin Valores Atípicos)')
plt.xticks([0, 1], ['Hombres', 'Mujeres'])  # Etiquetas en el eje x

# Mostrar el boxplot
plt.show()

Ahora bien, el intervalo es estrictamente positivo, lo que nos indica que el tiempo promedio de los hombres es mayor al de las mujeres con una confianza del $95\%$ de confianza.

In [None]:
# Dividir los datos en dos grupos: hombres y mujeres
tiempo_hombres = data[data['SEXO'] == 1]['TIEMPO_LAB']
tiempo_mujeres = data[data['SEXO'] == 2]['TIEMPO_LAB']

# Calcular las estadísticas descriptivas de cada grupo
media_hombres = tiempo_hombres.mean()
media_mujeres = tiempo_mujeres.mean()
std_hombres = tiempo_hombres.std()
std_mujeres = tiempo_mujeres.std()
n_hombres = len(tiempo_hombres)
n_mujeres = len(tiempo_mujeres)

# Calcular la diferencia de medias
diferencia_medias = media_hombres - media_mujeres

# Calcular el error estándar de la diferencia de medias
std_error_diferencia = ((std_hombres ** 2) / n_hombres + (std_mujeres ** 2) / n_mujeres) ** 0.5

# Calcular el estadístico t y los grados de libertad
grados_libertad = n_hombres + n_mujeres - 2  # Grados de libertad
t_stat = diferencia_medias / std_error_diferencia

# Nivel de confianza
confianza = 0.95

# Calcular el intervalo de confianza para la diferencia de medias
intervalo_confianza = stats.t.interval(confianza, loc=diferencia_medias, scale=std_error_diferencia, df=grados_libertad)

# Crear una tabla con los resultados
resultados_tiempo_lab = pd.DataFrame({
    'Diferencia de Medias': [diferencia_medias],
    'Error Estándar': [std_error_diferencia],
    'Límite Inferior': [intervalo_confianza[0]],
    'Límite Superior': [intervalo_confianza[1]]
})

# Mostrar la tabla
print(resultados_tiempo_lab)

### Prueba de Hipótesis Para Diferencia de Medias Para Tiempo Laboral Según el Género

Dado que el p-valor es menor que la significancia, se puede concluir bajo un 5% de significancia, que existen diferencias significativas en el tiempo promedio entre hombres y mujeres entre los 18 y 28 años.

In [None]:
# Realizar la prueba de hipótesis (prueba t para muestras independientes)
t_stat, p_valor = stats.ttest_ind(tiempo_hombres, tiempo_mujeres, equal_var=False)

# Definir el nivel de significancia
nivel_significancia = 0.05

# Calcular el valor crítico de Z (para una prueba bilateral)
z_critico = stats.norm.ppf(1 - nivel_significancia / 2)

# Calcular la diferencia de medias
diferencia_medias = ingresos_hombres.mean() - ingresos_mujeres.mean()

# Crear una tabla con los resultados
resultados_hipotesis = pd.DataFrame({
    'Diferencia de Medias': [diferencia_medias],
    'Estadístico de Prueba (t)': [t_stat],
    'Valor Crítico de Z': [z_critico],
    'Valor p': [p_valor]
})

# Mostrar la tabla
print(resultados_hipotesis)

# Conclusiones

1. Existe una amplia variabilidad en los ingresos laborales y el tiempo laborado entre jóvenes adultos en Colombia, lo que refleja diferentes trayectorias y condiciones en el mercado laboral.

2. A pesar de la dispersión en los ingresos, no se encontraron pruebas estadísticas suficientes para concluir que el ingreso promedio de estos jóvenes está por debajo del salario mínimo, lo que sugiere que la mayoría de ellos perciben ingresos superiores a este umbral.

3. Se observa una representación desigual de género en el mercado laboral, con una mayor proporción de hombres que tienen contratos formales en comparación con las mujeres, lo que podría indicar desafíos en la equidad de género en términos de acceso a empleos estables.

4. A pesar de las diferencias en la representación de género en el mercado laboral, no se encontraron diferencias significativas en los ingresos laborales y el tiempo laborado entre hombres y mujeres, lo que sugiere que las disparidades pueden estar relacionadas con otros factores más allá del género.