<a href="https://colab.research.google.com/github/bonillahermes/Data_Science_Projects/blob/main/EDA10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hermes Yate Bonilla
**Data Scientist**
---

**Contact:**
- **Email:** [bonillahermes@gmail.com](mailto:bonillahermes@gmail.com)
- **LinkedIn:** [linkedin.com/in/bonillahermes](https://www.linkedin.com/in/bonillahermes/)
- **GitHub:** [github.com/bonillahermes](https://github.com/bonillahermes)
- **Webpage:** [bonillahermes.com](https://bonillahermes.com/)
---

# **Análisis de Equidad de Género en el Mercado Laboral Colombiano**

# Abstract

Este estudio analiza la equidad de género en el mercado laboral colombiano utilizando datos de la Gran Encuesta Integrada de Hogares (GEIH) de octubre de 2022. Se examinaron variables como ingresos laborales, tiempo laborado, género y tipo de contrato. Los resultados indican una gran variabilidad en los ingresos y el tiempo laborado entre jóvenes adultos de 18 a 28 años en Colombia. A pesar de la dispersión en los datos, no se encontraron pruebas estadísticas suficientes para afirmar que el ingreso promedio de estos jóvenes es menor al salario mínimo. Además, se observó que los hombres tienen una mayor representación en el mercado laboral formal en comparación con las mujeres. Sin embargo, en términos de ingresos y tiempo laborado, no se encontraron diferencias significativas entre géneros. Estos hallazgos sugieren la existencia de desafíos en la equidad de género en el acceso a oportunidades laborales, pero no necesariamente en la remuneración.


# Introducción

En Colombia, como en muchas partes del mundo, la equidad de género en el ámbito laboral es un tema de relevante interés social y económico. Diferencias en los ingresos entre hombres y mujeres pueden ser indicativas de disparidades subyacentes en oportunidades, acceso a la educación y discriminación en el lugar de trabajo. Este proyecto busca examinar la posible existencia de brechas salariales entre géneros en el mercado laboral colombiano, utilizando datos recientes de la Gran Encuesta Integrada de Hogares (GEIH) administrada por el DANE en octubre de 2022.

# Objetivos

## Objetivo General:

Analizar los datos de la GEIH para identificar evidencias significativas de diferencias en los ingresos laborales entre hombres y mujeres en Colombia.

## Objetivos Específicos:

1. Describir las características demográficas y socioeconómicas de la muestra laboral.
2. Estimar la diferencia media de ingresos entre hombres y mujeres.
3. Determinar la significancia estadística de las diferencias observadas.
4. Interpretar los resultados en el contexto de la literatura económica y social existente.

# Metodología

Para el desarrollo de este estudio se empleará un enfoque cuantitativo descriptivo y analítico. Se utilizarán técnicas estadísticas para comparar los ingresos medios y medianos entre hombres y mujeres y se realizarán pruebas de hipótesis para evaluar la significancia de las diferencias encontradas. El procesamiento y análisis de datos se llevarán a cabo mediante la plataforma Google Colab, utilizando Python y sus bibliotecas de análisis de datos como Pandas, NumPy y SciPy.

# Descripción de la Base de Datos

La base de datos proviene de la Gran Encuesta Integrada de Hogares del DANE, específicamente del mes de octubre de 2022. La muestra final, después de la limpieza de datos, cuenta con 27631 personas adultas jóvenes (entre los 18 y 28 años), con ingresos menor al salario de un congresista (33 SMLV) y con un tiempo laboral menor a 90 meses. Las variables son:

- ID: Identificador único para cada encuestado.
- DPTO: Código del departamento.
- SEXO: Género del encuestado, donde 1 representa masculino y 2 femenino.
- EDAD: Edad del encuestado en años.
- NIV_EDUC: Nivel educativo del encuestado, con una escala donde 1 puede indicar educación primaria y los números más altos representan niveles superiores de educación.
- CONTRATO: Si la persona tiene (1) o no (2) un contrato formal
- TIEMPO_LAB: Tiempo en el último empleo medido en meses.
- INGLABO: Ingresos laborales del encuestado en pesos colombianos.

Cada registro en la base de datos corresponde a un individuo encuestado y su información respectiva en las variables mencionadas.

# Preliminares

## Carga de Base de Datos e Importación de Librerías Necesarias

In [None]:
from google.colab import drive

# Monta tu Google Drive
drive.mount('/content/drive')

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import scipy.stats as stats
import matplotlib.pyplot as plt
import plotly.express as px
from scipy.stats import shapiro
from scipy.stats import norm

In [None]:
# Ruta del archivo Excel en tu Google Drive
ruta_archivo = '/content/drive/MyDrive/Bases/BaseHermes.csv'

# Cargar el archivo Excel en un DataFrame de Pandas
data = pd.read_csv(ruta_archivo, sep=';')

# Mostrar las primeras filas para entender la estructura
data.head()

In [None]:
# Información general sobre el DataFrame
info = data.info()

In [None]:
# Valores nulos
valores_nulos = data.isnull().sum()
valores_nulos

# Estadísticas Descriptivas Globales

En promedio, los jóvenes adultos entre 18 y 28 años han trabajado 18.29 meses, con una desviación estándar de 19.44 meses, evidenciando una gran variabilidad en la experiencia laboral. La mayoría ha trabajado un año o menos, como lo indica la mediana de 12 meses, pero algunos han acumulado hasta 7 años y medio de trabajo, lo que podría reflejar tanto precocidad en la incorporación al mercado laboral como la posibilidad de trabajos concurrentes o sucesivos durante este periodo de vida.

Los ingresos laborales de estos jóvenes adultos tienen un promedio de 1,057,697.83 COP, pero con una dispersión casi tan alta como el promedio (1,037,946.50 COP), lo que muestra una diferencia significativa en los ingresos entre individuos. La mediana de 1,000,000 COP sugiere que la mitad de los jóvenes percibe hasta este monto, mientras que un máximo reportado de 30,000,000 COP indica la presencia de jóvenes con ingresos laborales excepcionales en el grupo.

En promedio, los jóvenes adultos en la encuesta tienen alrededor de 24 años, con una dispersión baja de apenas 3 años.


In [None]:
data = data[(data['EDAD'] >= 18) & (data['EDAD'] <= 26) & (data['TIEMPO_LAB'] <= 140) & (data['INGLABO'] <= 30000000)]
print(data.shape)

# Calculando el coeficiente de variación para cada columna
def coeficiente_variacion(df, column):
    media = df[column].mean()
    desv_std = df[column].std()
    cv = (desv_std / media) * 100
    return cv

cv_tiempo_lab = coeficiente_variacion(data, 'TIEMPO_LAB')
cv_inglabo = coeficiente_variacion(data, 'INGLABO')
cv_edad = coeficiente_variacion(data, 'EDAD')

# Imprimir los coeficientes de variación
print(f"Coeficiente de Variación de TIEMPO_LAB: {cv_tiempo_lab}%")
print(f"Coeficiente de Variación de INGLABO: {cv_inglabo}%")
print(f"Coeficiente de Variación de EDAD: {cv_edad}%")

La tabla presenta las estadísticas descriptivas para tres variables cuantitativas de interés: edad, tiempo laboral y ingresos laborales. Con un total de 4971 observaciones, la edad media de la muestra es de 23 años, con una desviación estándar relativamente baja de 2 años, lo que indica una concentración de edades alrededor de la media. El coeficiente de variación del 11% refleja una homogeneidad en la distribución de edades dentro de la muestra.

En cuanto al tiempo laboral, la media es de 18 meses, pero con una desviación estándar de 21 meses, se observa una alta variabilidad en el tiempo de empleo de los encuestados. Esta variabilidad se enfatiza con un coeficiente de variación del 117%, lo que sugiere una dispersión considerable en la experiencia laboral de la población estudiada.

Respecto a los ingresos laborales, el promedio se sitúa en 975,813 pesos colombianos, aunque la desviación estándar es casi igual a la media, indicando una amplia gama de ingresos entre los encuestados. Esto se ve reflejado en el coeficiente de variación del 94%, lo cual implica una heterogeneidad significativa en los ingresos. El rango de ingresos es amplio, desde personas sin ingresos laborales hasta individuos que ganan 30,000,000 pesos, lo que puede reflejar diferencias en el tipo de empleo, la industria, o la educación.

In [None]:
variables_cuantitativas = ['EDAD', 'TIEMPO_LAB', 'INGLABO']

# Obtener estadísticas descriptivas
estadisticas_descriptivas = data[variables_cuantitativas].describe()

# Calcular el coeficiente de variación para cada variable cuantitativa y añadirlo al DataFrame de estadísticas descriptivas
coef_var = data[variables_cuantitativas].std() / data[variables_cuantitativas].mean()
estadisticas_descriptivas.loc['coef_var'] = coef_var * 100  # Multiplicar por 100 para obtener el porcentaje

# Imprimir la tabla actualizada con el coeficiente de variación
print(round(estadisticas_descriptivas))



In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


# Calculamos la matriz de correlación para las variables seleccionadas.
matriz_correlacion = data[variables_cuantitativas].corr()

# Configuramos el estilo visual de seaborn para los gráficos.
sns.set(style="white")

# Creamos la figura de matplotlib.
plt.figure(figsize=(10, 8))

# Dibujamos el mapa de calor con la matriz de correlación.
# 'annot=True' añade las etiquetas de los valores de correlación en cada celda del mapa de calor.
# 'fmt=".2f"' formatea los números flotantes a 2 decimales.
# 'cmap' define el mapa de colores a utilizar.
sns.heatmap(matriz_correlacion, annot=True, fmt=".2f", cmap='coolwarm')

# Añadimos un título al gráfico.
plt.title('Diagrama de Correlación entre Variables Cuantitativas')

# Mostramos el gráfico.
plt.show()


Estadísticamente se puede observar en el gráfico que la mayoría de las personas en esta población joven tienen un tiempo laborado de pocos meses, con una tendencia hacia tiempos laborados más cortos. Sin embargo, hay individuos que son excepciones con tiempos laborados significativamente más altos. El hecho de que los datos sean multimodales y sesgados positivamente puede sugerir que hay diferentes patrones o factores que influyen en el tiempo laborado.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['TIEMPO_LAB'], bins=30, kde=True, ax=ax1)
ax1.set_title('Distribución de Tiempo Laborado')
ax1.set_xlabel('Tiempo en Meses')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['TIEMPO_LAB'], ax=ax2)
ax2.set_title('Tiempo Laborado')
ax2.set_xlabel('Tiempo en Meses')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()



Los siguientes gráficos indican que la población estudiada tiene una gran mayoría con ingresos bajos, con una dispersión muy pequeña para la mitad central de la población. Sin embargo, hay unos pocos casos con ingresos extremadamente altos, lo que produce una gran asimetría en la distribución total de ingresos. Esto puede indicar una gran desigualdad en la distribución de ingresos dentro de la muestra analizada.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['INGLABO'], bins=50, kde=True, ax=ax1)
ax1.set_title('Distribución de Ingresos Laborales')
ax1.set_xlabel('Ingresos Laborales en COP')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['INGLABO'], ax=ax2)
ax2.set_title('Ingresos Laborales')
ax2.set_xlabel('Ingresos Laborales en COP')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()

Respecto a la edad, existe una asimetría negativa, sugiriendo que las edades de la muestra analizada se concentran ligeramente en los valores más altos de la distribución. Recordemos que, por objetivos del estudio, se acotó la edad entre 18 y 28 años.

In [None]:
plt.figure(figsize=(20, 6))

# Crea una grilla de 1 fila y 2 columnas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 6))

# Histograma de INGLABO en el primer eje
sns.histplot(data['EDAD'], bins=50, kde=True, ax=ax1)
ax1.set_title('Distribución de la Edad')
ax1.set_xlabel('Edad en Años')
ax1.set_ylabel('Frecuencia')

# Diagrama de caja de INGLABO en el segundo eje
sns.boxplot(x=data['EDAD'], ax=ax2)
ax2.set_title('Edad')
ax2.set_xlabel('Edad en Años')

# Muestra la figura con ambos gráficos
plt.tight_layout()
plt.show()

La edad, el tiempo laborado y los ingresos, no están correlacionadas fuertemente, por lo menos no linealmente como lo indica la matriz.

In [None]:
correlation_matrix = data[['EDAD', 'TIEMPO_LAB', 'INGLABO']].corr()

# Mostrar la matriz de correlación
print(correlation_matrix)

El gráfico de pastel muestra la distribución por sexo de los encuestados en la muestra laboral de Colombia, con un 57.1% de participantes masculinos y un 42.9% de participantes femeninos. Esta distribución indica que hay una mayor representación masculina en la fuerza laboral dentro de la población estudiada. Este desbalance en la participación por género puede ser relevante al analizar las diferencias en los ingresos laborales entre hombres y mujeres y podría reflejar dinámicas subyacentes en el mercado laboral colombiano que afectan la equidad de género en términos de oportunidades de empleo y condiciones laborales.

In [None]:
# Diagrama de torta para Sexo
sex_counts = data['SEXO'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(sex_counts, labels=['Masculino', 'Femenino'], autopct='%1.1f%%', startangle=140)
plt.title('Distribución por Sexo')
plt.show()

El gráfico de pastel muestra la distribución del tipo de contrato de los encuestados en la muestra laboral de Colombia, con un 70.4% de los individuos teniendo un contrato formal y un 29.6% trabajando sin contrato. Este dato es relevante en el análisis de la equidad de género en el ámbito laboral, ya que la existencia de un contrato formal puede influir en la estabilidad laboral y, por ende, en los ingresos. La brecha entre aquellos con y sin contrato sugiere que casi un tercio de la muestra podría estar en empleos más precarios o informales, lo cual podría afectar de manera desproporcionada a uno de los géneros y ser un factor importante en la existencia de disparidades salariales.

In [None]:
# Diagrama de torta para Contrato
contract_counts = data['CONTRTATO'].value_counts()
plt.figure(figsize=(8, 8))
plt.pie(contract_counts, labels=['Con contrato', 'Sin contrato'], autopct='%1.1f%%', startangle=140)
plt.title('Distribución por Tipo de Contrato')
plt.show()

La tabla cruzada en porcentajes muestra que, en la muestra estudiada, un mayor porcentaje de hombres (37.9%) tiene contrato laboral en comparación con las mujeres (32.48%), y esta tendencia se mantiene entre quienes no tienen contrato, siendo los hombres sin contrato (19.19%) más que las mujeres en la misma situación (10.43%). En total, los hombres representan el 57.09% de la muestra, mientras que las mujeres constituyen el 42.91%. Esto sugiere que, dentro de esta población joven adulta colombiana, los hombres tienen una mayor presencia en el mercado laboral formal. A la vez, más de dos tercios de la muestra total (70.38%) tienen contratos de trabajo, lo que refleja una inclinación hacia la formalidad laboral en esta cohorte.

In [None]:
tabla_cruzada = pd.crosstab(data['SEXO'], data['CONTRTATO'])

# Calculamos los porcentajes respecto al total general
tabla_porcentaje = (tabla_cruzada / tabla_cruzada.sum().sum()) * 100

# Opcionalmente, si queremos agregar los porcentajes marginales (por filas y columnas)
# Podemos hacerlo de la siguiente manera:
tabla_porcentaje_marginal = pd.crosstab(data['SEXO'], data['CONTRTATO'], normalize='all') * 100
tabla_porcentaje_marginal['Total'] = tabla_porcentaje_marginal.sum(axis=1)
tabla_porcentaje_marginal.loc['Total'] = tabla_porcentaje_marginal.sum()

# Renombrar las filas y columnas para mayor claridad
tabla_porcentaje_marginal.index = ['Masculino', 'Femenino', 'Total']
tabla_porcentaje_marginal.columns = ['Con contrato', 'Sin contrato', 'Total']

# Imprimir la tabla cruzada con porcentajes
tabla_porcentaje_marginal


El gráfico de barras y la tabla, muestran la distribución del nivel educativo en una muestra de la población, destacándose que la mayoría de los encuestados ha alcanzado la educación media académica (Bachillerato clásico) con un 41%, seguido por un relevante 19.9% que ha completado la educación universitaria. Los niveles de maestría y doctorado tienen una representación mínima, con solo el 0.3% y el 0% respectivamente, indicando una baja proporción de individuos con estudios de posgrado en la muestra. Esto sugiere que, en esta muestra específica, la educación superior no universitaria (técnica, tecnológica) y la educación media son los niveles educativos más comunes.

In [None]:
educ_counts = data['NIV_EDUC'].value_counts().sort_index()

# Creamos el DataFrame con la descripción de las categorías
categorias_descripcion = pd.DataFrame({
    'Categoría': [
        1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 99
    ],
    'Descripción': [
        'Ninguno',
        'Preescolar',
        'Básica primaria (1o - 5o)',
        'Básica secundaria (6o - 9o)',
        'Media académica (Bachillerato clásico)',
        'Media técnica (Bachillerato técnico)',
        'Normalista',
        'Técnica profesional',
        'Tecnológica',
        'Universitaria',
        'Especialización',
        'Maestría',
        'Doctorado',
        'No sabe, no informa'
    ]
})

# Calculamos el porcentaje de cada categoría
total = educ_counts.sum()
categorias_descripcion['Frecuencia'] = categorias_descripcion['Categoría'].map(educ_counts)  # Mapeamos las frecuencias
categorias_descripcion['Porcentaje'] = (categorias_descripcion['Frecuencia'] / total) * 100

# Eliminamos la fila donde la categoría es 'No sabe, no informa' si no deseas incluirlo
categorias_descripcion = categorias_descripcion[categorias_descripcion['Categoría'] != 99]

# Ordenamos el DataFrame por categoría si es necesario
categorias_descripcion = categorias_descripcion.sort_values(by='Categoría')

# Mostramos la tabla
print(categorias_descripcion)


In [None]:
# Configuramos el tamaño del gráfico
plt.figure(figsize=(10,8))

# Creamos el gráfico de barras
plt.bar(categorias_descripcion['Descripción'], categorias_descripcion['Porcentaje'])

# Añadir título y etiquetas a los ejes
plt.title('Porcentaje de Nivel Educativo')
plt.xlabel('Nivel Educativo')
plt.ylabel('Porcentaje (%)')

# Mejora la visualización girando las etiquetas del eje x
plt.xticks(rotation=90)

# Mostrar valores en las barras
for i, v in enumerate(categorias_descripcion['Porcentaje']):
    plt.text(i, v + 0.5, "{:.1f}%".format(v), ha='center')

# Ajusta subtramas para que las etiquetas no se corten
plt.tight_layout()

# Mostrar gráfico
plt.show()


## Tamaño de Muestra Etapa I

In [None]:
# Estableciendo los valores dados
S_squared = 128
N = data.shape[0]
print(N)

# El valor Z para un nivel de confianza del 95%
Z = norm.ppf(0.975)

# Margen de error para un año
EM = 1  # Un año de margen de error

# Calculando el tamaño de muestra necesario para un margen de error de un año
n_1 = (Z**2 * S_squared ) / (EM**2 + (Z**2 * S_squared ) / N)

# Mostrar el tamaño
print(f"El tamaño de muestra necesario para un margen de error de 1 año es: {n_1:.2f}")


## Tamaño de Muestra Etapa II

In [None]:
# Estableciendo los valores dados
S_squared = 128
N = 448

# El valor Z para un nivel de confianza del 95%
Z = norm.ppf(0.975)

# Margen de error para un año
EM = 1  # Un año de margen de error

# Calculando el tamaño de muestra necesario para un margen de error de un año
n_1 = (Z**2 * S_squared ) / (EM**2 + (Z**2 * S_squared ) / N)

# Mostrar el tamaño
print(f"El tamaño de muestra necesario para un margen de error de 1 año es: {n_1:.2f}")

## Obtención de muestra

In [None]:
# Definir la semilla para la replicabilidad
random_state = 1

# Definir el número de submuestras que quieres crear
numero_de_submuestras = 11  # Ajusta este número según sea necesario

# Crear un DataFrame vacío para almacenar todas las submuestras
todas_las_submuestras = pd.DataFrame()

# Generar las submuestras y almacenarlas
for i in range(numero_de_submuestras):
    submuestra = data.sample(n=448, replace=False, random_state=random_state+i)
    todas_las_submuestras = todas_las_submuestras.append(submuestra)

# Eliminar duplicados en caso de que un individuo aparezca en más de una submuestra
todas_las_submuestras = todas_las_submuestras.drop_duplicates()

# Asegurarse de que hay suficientes individuos únicos para la muestra final
if todas_las_submuestras.shape[0] < 235:
    raise ValueError("No hay suficientes individuos únicos para la muestra final.")

# Tomar una muestra final de 235 individuos de la unión de todas las submuestras
muestra_final = todas_las_submuestras.sample(n=235, replace=False, random_state=random_state)

# Mostrar las primeras filas de la muestra final para verificar
print(muestra_final.head())

# Opcional: Guardar la muestra final en un archivo CSV
# muestra_final.to_csv('muestra_final_235.csv', index=False)


In [None]:
muestra_final.shape[0]
# Mostrar las primeras filas para entender la estructura
muestra_final.head()

In [None]:
variables_cuanti = ['EDAD', 'TIEMPO_LAB', 'INGLABO']

# Obtener estadísticas descriptivas
estadisticas_descriptivas = muestra_final[variables_cuanti].describe()

# Calcular el coeficiente de variación para cada variable cuantitativa y añadirlo al DataFrame de estadísticas descriptivas
coef_var = muestra_final[variables_cuanti].std() / muestra_final[variables_cuanti].mean()
estadisticas_descriptivas.loc['coef_var'] = coef_var * 100  # Multiplicar por 100 para obtener el porcentaje

# Imprimir la tabla actualizada con el coeficiente de variación
print(round(estadisticas_descriptivas))

In [None]:
# Calcula la proporción de cada sexo en el DataFrame y multiplica por 100 para obtener porcentajes
proporciones_sexo = data['SEXO'].value_counts(normalize=True) * 100

# Convierte las proporciones a DataFrame para una mejor presentación y agrega una columna de nombres
tabla_proporciones_sexo = pd.DataFrame(proporciones_sexo).reset_index()
tabla_proporciones_sexo.columns = ['Sexo', 'Proporción (%)']

# Imprime la tabla de proporciones
print(tabla_proporciones_sexo)

# Si deseas guardar esta tabla en un archivo CSV, descomenta la siguiente línea:
# tabla_proporciones_sexo.to_csv('proporciones_sexo.csv', index=False)


In [None]:
# Calcula la proporción de cada sexo en el DataFrame y multiplica por 100 para obtener porcentajes
proporciones_sexo = muestra_final['SEXO'].value_counts(normalize=True) * 100

# Convierte las proporciones a DataFrame para una mejor presentación y agrega una columna de nombres
tabla_proporciones_sexo = pd.DataFrame(proporciones_sexo).reset_index()
tabla_proporciones_sexo.columns = ['Sexo', 'Proporción (%)']

# Imprime la tabla de proporciones
print(tabla_proporciones_sexo)

# Si deseas guardar esta tabla en un archivo CSV, descomenta la siguiente línea:
# tabla_proporciones_sexo.to_csv('proporciones_sexo.csv', index=False)

In [None]:
import pandas as pd
import scipy.stats as stats


# Calcula la media y el error estándar de la media (SEM) para la variable 'EDAD'
edad_mean = muestra_final['EDAD'].mean()
edad_sem = stats.sem(muestra_final['EDAD'])

# Calcula el intervalo de confianza del 95% para la media de 'EDAD'
ci_edad = stats.t.interval(0.95, df=len(muestra_final['EDAD'])-1, loc=edad_mean, scale=edad_sem)

# Calcula la media y el error estándar de la media (SEM) para la variable 'INGLABO'
inglabo_mean = muestra_final['INGLABO'].mean()
inglabo_sem = stats.sem(muestra_final['INGLABO'])

# Calcula el intervalo de confianza del 95% para la media de 'INGLABO'
ci_inglabo = stats.t.interval(0.95, df=len(muestra_final['INGLABO'])-1, loc=inglabo_mean, scale=inglabo_sem)

# Calcula la proporción de mujeres (suponiendo que '2' representa femenino) y su intervalo de confianza
prop_mujeres = muestra_final[muestra_final['SEXO'] == 2].shape[0] / muestra_final.shape[0]
# El error estándar para la proporción
se_prop_mujeres = np.sqrt(prop_mujeres * (1 - prop_mujeres) / muestra_final.shape[0])
# Calcula el intervalo de confianza del 95% para la proporción de mujeres
ci_prop_mujeres = stats.norm.interval(0.95, loc=prop_mujeres, scale=se_prop_mujeres)

(ci_edad, ci_inglabo, ci_prop_mujeres)


In [None]:
# Separar los datos por sexo
data_hombres = muestra_final[muestra_final['SEXO'] == 1]['INGLABO']
data_mujeres = muestra_final[muestra_final['SEXO'] == 2]['INGLABO']

# Calcular las medias y los errores estándar para cada grupo
media_hombres = data_hombres.mean()
media_mujeres = data_mujeres.mean()
std_hombres = data_hombres.std()
std_mujeres = data_mujeres.std()
n_hombres = len(data_hombres)
n_mujeres = len(data_mujeres)

# Calcular el error estándar de la diferencia de medias
std_error_diff = np.sqrt(std_hombres**2 / n_hombres + std_mujeres**2 / n_mujeres)

# Calcular el intervalo de confianza para la diferencia de medias
confianza = 0.95
z_score = stats.norm.ppf(1 - (1 - confianza) / 2)
ci_diff = z_score * std_error_diff

# Intervalo de confianza para la diferencia de medias
ci_lower = (media_hombres - media_mujeres) - ci_diff
ci_upper = (media_hombres - media_mujeres) + ci_diff

(ci_lower, ci_upper)
