# **Inteligencia Artificial con Aplicaciones en Economía I**

- 👩‍🏫 **Profesora:** [Lina María Castro](https://www.linkedin.com/in/lina-maria-castro)  
- 📧 **Email:** [lmcastroco@gmail.com](mailto:lmcastroco@gmail.com)  
- 🎓 **Universidad:** Universidad Externado de Colombia - Facultad de Economía

# **Parte práctica parcial: Preparación y limpieza de datos**🧹

**IMPORTANTE**: Guarda una copia de este notebook en tu Google Drive o computador.

**Nombre estudiante:**

**Forma de entrega**

Jupyter Notebook publicado en su cuenta de Github con el nombre “Practica_limpieza_nombre_apellido_estudiante.ipynb”. Máximo a las 9 a.m., debes enviar link del notebook al correo lina.castro6@uexternado.edu.co, de lo contrario, no será tenido en cuenta.

**Instrucciones Generales**

- Puedes utilizar tus apuntes y notebooks y entrar al repositorio del curso. Sin embargo, **NO puedes utilizar IA para desarrollar tus respuestas**. **En caso de descubrir que estás usando IA** para el desarrollo de los ejercicios, **tu nota** de este segundo parcial **será cero**.
- Completa el código en las celdas marcadas con `### TU CÓDIGO AQUÍ ###`. Puedes añadir más celdas si lo requieres.
- Después de cada punto, ejecuta la celda de `assert` que se proporciona. Si no aparece ningún error, ¡tu respuesta es correcta!
- No modifiques las celdas de `assert` ni las celdas de Markdown.

**Objetivos de Aprendizaje**

1. **Aplicar técnicas de importación y consolidación de múltiples fuentes de datos** utilizando la librería `pandas`.
2.  **Ejecutar un proceso completo de limpieza de datos**, incluyendo el manejo de valores nulos, duplicados y la estandarización de tipos de datos.
3.  **Preparar un conjunto de datos real (GEIH del DANE)** para un análisis económico, sentando las bases para futuros modelos de machine learning.

# Ejercicio 1: Importar y unir datos (20%)

El DANE publica los microdatos de la GEIH mensualmente. Tu primera tarea es cargar los datos de los primeros seis meses de 2025 y armar una sola base.

**Los archivos necesarios los encuentras en el repositorio del curso, carpeta "datasets", carpeta "geih_2025".**

1. Usa un ciclo "for" para abrir los archivos CSV, ten en cuenta que estas bases usan como separador ";" y encoding='latin1'. La variable 'DPTO' y 'RAMA4D_R4' debes cargarlas como string.

In [1]:
!pip install xlrd openpyxl



In [2]:
!pip install pandas



In [3]:
import numpy as np
import pandas as pd

In [4]:
# Que muestre todas las columnas
pd.options.display.max_columns = None
# En los dataframes, mostrar los float con dos decimales
pd.options.display.float_format = '{:,.2f}'.format

In [5]:
import glob

In [6]:
### TU CÓDIGO AQUÍ ###
lista_dfs = []
archivos = ['df_abr.csv', 'df_ene.csv', 'df_feb.csv', 'df_jun.csv', 'df_mar.csv', 'df_may.csv']

for archivo in archivos:
    try:
        temp = pd.read_csv(archivo, encoding ='latin-1', dtype=str, sep=';')
        lista_dfs.append(temp)


    except Exception as e:
        print(f"Error leyendo {archivo}: {e}")

2. Une todos los dataframes para obtener una base de la GEIH con toda la información de enero a junio de 2025. El nuevo dataframe debe llamarse `df_geih`

In [7]:
### TU CÓDIGO AQUÍ ###
df_geih = pd.concat(lista_dfs, axis=0, ignore_index=True)

3. Reinicia el índice de `df_geih`. Asegúrate de que el índice antiguo no se añada como una nueva columna.

In [8]:
### TU CÓDIGO AQUÍ ###


In [9]:
# Celda de verificación (no modificar)
assert df_geih.shape[0] == 408423, f"Error en las filas. Se esperaban 408423, pero se encontraron {df_geih.shape[0]}."
assert df_geih.shape[1] == 245, f"Error en las columnas. Se esperaban 245, pero se encontraron {df_geih.shape[1]}."
print("¡Las dimensiones del DataFrame son correctas! ✅")
assert 'index' not in df_geih.columns, "El índice antiguo no debe ser una columna."
assert df_geih.index.is_unique, "El índice debe ser único después de reiniciarlo."
print(f"¡Punto 1 completado con éxito! ✅ El DataFrame consolidado tiene {df_geih.shape[0]} filas y {df_geih.shape[1]} columnas.")

¡Las dimensiones del DataFrame son correctas! ✅
¡Punto 1 completado con éxito! ✅ El DataFrame consolidado tiene 408423 filas y 245 columnas.


# Ejercicio 2:  Seleccionar y renombrar columnas (5%)

La GEIH contiene cientos de variables. Para nuestro análisis del mercado laboral, nos enfocaremos en un subconjunto.

Adicionalmente, los nombres de las columnas en la GEIH son códigos. Para hacer el análisis más intuitivo, vamos a renombrarlas.

1. Crea un nuevo DataFrame llamado `df_empleo` que contenga únicamente las columnas que están en la lista `columnas_interes`.

In [10]:
columnas_interes = ['DIRECTORIO', 'SECUENCIA_P', 'ORDEN', 'MES', 'CLASE', 'DPTO', 'FEX_C18', 'PT', 'P3271', 'P6040', 'P6080', 'P3043', 'OCI', 'P6430', 'RAMA4D_R4', 'INGLABO']

In [11]:
### TU CÓDIGO AQUÍ ###
df_empleo = df_geih[columnas_interes]

In [12]:
# Celda de verificación (no modificar)
assert len(df_empleo.columns) == 16, "El número de columnas es incorrecto."
assert all(col in df_empleo.columns for col in columnas_interes), "Faltan columnas o los nombres son incorrectos."
print("¡Selección de columnas completada con éxito! ✅")
print("Dimensiones del nuevo DataFrame:", df_empleo.shape)

¡Selección de columnas completada con éxito! ✅
Dimensiones del nuevo DataFrame: (408423, 16)


2. Renombra las columnas del DataFrame `df_empleo` utilizando el diccionario `mapa_nombres`.

In [13]:
mapa_nombres = {
'DIRECTORIO': 'id_vivienda',
'SECUENCIA_P': 'id_hogar',
'ORDEN': 'id_persona',
'MES': 'mes',
'CLASE': 'clase',
'DPTO': 'departamento',
'FEX_C18': 'factor_expansion',
'PT': 'poblacion_total',
'P3271': 'sexo',
'P6040': 'edad',
'P6080': 'grupo_etnico',
'P3043': 'nivel_educativo',
'OCI': 'ocupados',
'P6430': 'categoria_ocupacional',
'RAMA4D_R4': 'cod_ciiu',
'INGLABO': 'ingreso_laboral'}

In [14]:
### TU CÓDIGO AQUÍ ###
df_empleo.rename(columns=mapa_nombres, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_empleo.rename(columns=mapa_nombres, inplace=True)


In [15]:
# Celda de verificación (no modificar)
nombres_nuevos_esperados = list(mapa_nombres.values())
condicion_exitosa = all(col in df_empleo.columns for col in nombres_nuevos_esperados)
assert condicion_exitosa, "No todas las columnas esperadas se encuentran en el DataFrame. Revisa el diccionario o la operación de renombrado."
print("¡Verificación exitosa! Todas las columnas fueron renombradas correctamente. ✅")
print("¡Punto 2 completado con éxito! ✅")

¡Verificación exitosa! Todas las columnas fueron renombradas correctamente. ✅
¡Punto 2 completado con éxito! ✅


# Ejercicio 3: Revisión de duplicados (5%)

Un paso crucial en la limpieza es asegurar que no haya observaciones duplicadas que puedan sesgar nuestro análisis.

1. Verifica si hay filas duplicadas en `df_empleo`.

In [16]:
### TU CÓDIGO AQUÍ ###
df_empleo[df_empleo.duplicated(keep=False)]

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral


2. Cuenta cuántas filas duplicadas existen.

In [17]:
### TU CÓDIGO AQUÍ ###
df_empleo.duplicated().sum()

np.int64(0)

3. Elimina las filas duplicadas, si las hay.

In [None]:
### TU CÓDIGO AQUÍ ###
#No hay ;)))

4. Verifica si hay filas duplicadas específicamente en las columnas 'id_vivienda', 'id_hogar', 'id_persona'.

In [18]:
### TU CÓDIGO AQUÍ ###
df_empleo[df_empleo.duplicated(subset=['id_vivienda', 'id_hogar', 'id_persona'], keep=False)]

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral


In [19]:
# Celda de verificación (no modificar)
assert df_empleo.duplicated().sum() == 0, "Aún existen filas duplicadas."
print("¡Punto 3 completado con éxito! ✅")

¡Punto 3 completado con éxito! ✅


# Ejercicio 4: Valores faltantes (5%)

Los datos del mundo real raramente están completos. Aquí, trataremos los valores faltantes en la columna de ingresos.


1. Calcula el número de valores nulos (`NaN`) en la columna `ingreso_laboral` **antes** de cualquier modificación.

In [20]:
### TU CÓDIGO AQUÍ ###
len(df_empleo)
df_empleo.isna().sum()

Unnamed: 0,0
id_vivienda,0
id_hogar,0
id_persona,0
mes,0
clase,0
departamento,0
factor_expansion,0
poblacion_total,0
sexo,0
edad,0


2. En la GEIH, un ingreso faltante a menudo significa que la persona no reportó ingresos o no aplica (ej. no trabaja). Una estrategia común es imputar estos valores con `0`. Rellena los valores `NaN` en la columna `ingreso_laboral` con `0`.

In [21]:
### TU CÓDIGO AQUÍ ###
df_empleo = df_empleo.fillna(0)
df_empleo.tail()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral
408418,8238894,1,3,5,1,66,1871.2363422,1,2,14,6,0.0,0.0,0.0,0,0.0
408419,8238894,1,4,5,1,66,1871.2363422,1,2,11,6,0.0,0.0,0.0,0,0.0
408420,8238894,1,5,5,1,66,1871.2363422,1,1,9,6,0.0,0.0,0.0,0,0.0
408421,8238894,1,6,5,1,66,1871.2363422,1,1,70,6,0.0,1.0,4.0,5511,1200000.0
408422,8238895,1,1,5,1,66,576.94859161,1,1,22,6,5.0,1.0,1.0,5224,1400000.0


In [22]:
# Celda de verificación (no modificar)
assert df_empleo['ingreso_laboral'].isnull().sum() == 0, "La columna 'ingreso_laboral' todavía tiene valores nulos."
print("¡Punto 4 completado con éxito! ✅")

¡Punto 4 completado con éxito! ✅


# Ejercicio 5: Decodificar variables (20%)



Las variables categóricas a menudo necesitan ser "traducidas" para hacerlas más entendibles para el análisis.

1. Usa los siguientes diccionarios para reemplazar los códigos numéricos por etiquetas de texto en las siguientes columnas: 'clase', 'sexo', 'grupo_etnico', 'nivel_educativo' y 'categoria_ocupacional'. Muestra los conteos de las nuevas categorías usando `.value_counts()` para verificar el cambio en cada una de las columnas.

In [23]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [89]:
dic_clase = {'1': 'Cabeceras', '2': 'Centros poblados y rural disperso'}
dic_sexo = {'1': 'Hombre', '2': 'Mujer'}
dic_etnico = {'1': 'Indígena', '2': 'Gitano (Rom)', '3': 'Raizal del archipiélago', '4': 'Palenquero',
              '5': 'Negro, mulato (afrodescendiente)', '6': 'Ninguno de los anteriores'}
dic_nivel_educativo = {'1.0': 'Ninguno', '2.0': 'Educación media', '3.0': 'Educación media',
                       '4.0': 'Educación media', '5.0': 'Técnica profesional', '6.0': 'Tecnológica',
                       '7.0': 'Universitaria', '8.0': 'Especialización', '9.0': 'Maestría',
                       '10.0': 'Doctorado', '99.0': 'No sabe, no informa'}
dic_cat_ocu = {'1.0': 'Asalariado', '2.0': 'Asalariado', '3.0': 'Asalariado',
               '8.0': 'Asalariado', '4.0': 'Independiente', '5.0': 'Independiente',
               '9.0': 'Independiente', '6.0': 'Trabajador sin remuneración',
               '7.0': 'Trabajador sin remuneración'}

In [90]:
df_empleo

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral
0,8173631,1,1,4,2,08,444.98992841,1,1,41,6,1.0,1.0,4.0,5619,700000.0
1,8173631,1,2,4,2,08,444.98992841,1,2,37,5,1.0,1.0,4.0,4541,320000.0
2,8173631,1,3,4,2,08,444.98992841,1,1,17,6,1.0,0,0,0,0
3,8173631,1,4,4,2,08,444.98992841,1,1,11,6,0,0,0,0,0
4,8173631,1,5,4,2,08,444.98992841,1,2,10,6,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
408418,8238894,1,3,5,1,66,1871.2363422,1,2,14,6,0,0,0,0,0
408419,8238894,1,4,5,1,66,1871.2363422,1,2,11,6,0,0,0,0,0
408420,8238894,1,5,5,1,66,1871.2363422,1,1,9,6,0,0,0,0,0
408421,8238894,1,6,5,1,66,1871.2363422,1,1,70,6,0,1.0,4.0,5511,1200000.0


In [91]:
df_empleo3=df_empleo.copy()
df_empleo3

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral
0,8173631,1,1,4,2,08,444.98992841,1,1,41,6,1.0,1.0,4.0,5619,700000.0
1,8173631,1,2,4,2,08,444.98992841,1,2,37,5,1.0,1.0,4.0,4541,320000.0
2,8173631,1,3,4,2,08,444.98992841,1,1,17,6,1.0,0,0,0,0
3,8173631,1,4,4,2,08,444.98992841,1,1,11,6,0,0,0,0,0
4,8173631,1,5,4,2,08,444.98992841,1,2,10,6,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
408418,8238894,1,3,5,1,66,1871.2363422,1,2,14,6,0,0,0,0,0
408419,8238894,1,4,5,1,66,1871.2363422,1,2,11,6,0,0,0,0,0
408420,8238894,1,5,5,1,66,1871.2363422,1,1,9,6,0,0,0,0,0
408421,8238894,1,6,5,1,66,1871.2363422,1,1,70,6,0,1.0,4.0,5511,1200000.0


In [92]:
### TU CÓDIGO AQUÍ ###
df_empleo3['clase'] = df_empleo3['clase'].replace(dic_clase)

In [93]:
df_empleo3['sexo'] = df_empleo3['sexo'].replace(dic_sexo)
df_empleo3['grupo_etnico'] = df_empleo3['grupo_etnico'].replace(dic_etnico)


In [94]:
df_empleo3['nivel_educativo'] = df_empleo3['nivel_educativo'].replace(dic_nivel_educativo)
df_empleo3['categoria_ocupacional'] = df_empleo3['categoria_ocupacional'].replace(dic_cat_ocu)
display(df_empleo3.head())

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0


In [88]:
df_empleo3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408423 entries, 0 to 408422
Data columns (total 16 columns):
 #   Column                 Non-Null Count   Dtype 
---  ------                 --------------   ----- 
 0   id_vivienda            408423 non-null  object
 1   id_hogar               408423 non-null  object
 2   id_persona             408423 non-null  object
 3   mes                    408423 non-null  object
 4   clase                  408423 non-null  object
 5   departamento           408423 non-null  object
 6   factor_expansion       408423 non-null  object
 7   poblacion_total        408423 non-null  object
 8   sexo                   408423 non-null  object
 9   edad                   408423 non-null  object
 10  grupo_etnico           408423 non-null  object
 11  nivel_educativo        408423 non-null  object
 12  ocupados               408423 non-null  object
 13  categoria_ocupacional  408423 non-null  object
 14  cod_ciiu               408423 non-null  object
 15  

In [95]:
df_empleo3.value_counts(dropna=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,Unnamed: 15_level_0,count
id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,Unnamed: 16_level_1
8283062,1,3,6,Cabeceras,94,32.850300328,1,Mujer,26,Indígena,Educación media,0,0,0,0,1
8086872,1,1,1,Centros poblados y rural disperso,13,2184.7522833,1,Mujer,54,Ninguno de los anteriores,0,1.0,Asalariado,9700,1040000.0,1
8086874,1,1,1,Centros poblados y rural disperso,13,1208.4902112,1,Mujer,79,"Negro, mulato (afrodescendiente)",0,0,0,0,0,1
8086874,1,2,1,Centros poblados y rural disperso,13,1208.4902112,1,Hombre,60,"Negro, mulato (afrodescendiente)",0,1.0,Independiente,0113,700000.0,1
8086874,1,3,1,Centros poblados y rural disperso,13,1208.4902112,1,Hombre,59,"Negro, mulato (afrodescendiente)",0,1.0,Asalariado,0141,1450000.0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8086878,1,1,1,Centros poblados y rural disperso,13,2370.2804669,1,Hombre,32,"Negro, mulato (afrodescendiente)",Técnica profesional,1.0,Independiente,4711,800000.0,1
8086877,1,3,1,Centros poblados y rural disperso,13,2507.271381,1,Mujer,10,"Negro, mulato (afrodescendiente)",0,0,0,0,0,1
8086877,1,2,1,Centros poblados y rural disperso,13,2507.271381,1,Hombre,40,Ninguno de los anteriores,0,1.0,Asalariado,6820,1300000.0,1
8086877,1,1,1,Centros poblados y rural disperso,13,2507.271381,1,Mujer,45,"Negro, mulato (afrodescendiente)",0,1.0,Asalariado,9700,1500000.0,1


In [96]:
# Celda de verificación (no modificar)
mapeos_a_verificar = {
    'clase': dic_clase,
    'sexo': dic_sexo,
    'grupo_etnico': dic_etnico,
    'nivel_educativo': dic_nivel_educativo,
    'categoria_ocupacional': dic_cat_ocu
}
for columna, diccionario in mapeos_a_verificar.items():
    es_numerica = pd.api.types.is_numeric_dtype(df_empleo3[columna])
    assert not es_numerica, f"La columna '{columna}' todavía tiene un tipo de dato numérico. El reemplazo falló."
    valor_texto_ejemplo = list(diccionario.values())[0]
    categorias_unicas = df_empleo3[columna].unique()
    assert valor_texto_ejemplo in categorias_unicas, f"No se encontró el valor '{valor_texto_ejemplo}' en la columna '{columna}'."
    valor_numerico_ejemplo = list(diccionario.keys())[0]
    assert valor_numerico_ejemplo not in categorias_unicas, f"El código numérico '{valor_numerico_ejemplo}' todavía existe en la columna '{columna}'."
print("¡Verificación completada con éxito! ✅ Todas las columnas categóricas fueron transformadas correctamente.")

¡Verificación completada con éxito! ✅ Todas las columnas categóricas fueron transformadas correctamente.


2. Utiliza el archivo "2025-01-14 Correlativa CIIU Rev4.xlsx", hoja 'CIIU 2022', para agregar al df_empleo las descripciones de los códigos CIIU a 4 dígitos. En df_empleo la columna con los códigos CIIU se llama 'cod_ciiu'. Si se agregan nuevas columnas al dataframe, distintas a la descripción del CIIU, debes borrarlas.

In [102]:
### TU CÓDIGO AQUÍ ###
df_corr = pd.read_excel('2025-01-14 Correlativa CIIU Rev4.xlsx', sheet_name='CIIU 2022', dtype=str)
df_corr.head()

Unnamed: 0,RAMA4D_R4,DESCRIPCION_CIIU
0,0,Desconocido
1,10,Actividad Personas Naturales
2,20,Actividad Personas Naturales
3,81,Actividad Personas Naturales
4,82,Actividad Personas Naturales


In [103]:
df_empleo4=df_empleo3.merge(df_corr, left_on='cod_ciiu', right_on='RAMA4D_R4', how='left')
df_empleo4.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,RAMA4D_R4,DESCRIPCION_CIIU
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,5619.0,Otros tipos de expendio de comidas preparadas ...
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,4541.0,"Comercio de motocicletas y de sus partes, piez..."
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0,,
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0,,


In [104]:
df_empleo4.drop(columns=['RAMA4D_R4'], inplace=True)

In [106]:
# Celda de verificación (no modificar)
assert 'DESCRIPCION_CIIU' in df_empleo4.columns, \
    f"La columna '{'DESCRIPCION_CIIU'}' no se encontró. Revisa el nombre que le diste a la nueva columna."
assert df_empleo4['DESCRIPCION_CIIU'].notna().sum() > 0, \
    f"La columna '{'DESCRIPCION_CIIU'}' está completamente vacía. Verifica las llaves del merge."
print("✅ Verificación del merge exitosa.")

✅ Verificación del merge exitosa.


3. Utiliza el archivo "2025-01-14 Divipola.xlsx", hoja 'Departamentos', para agregar al df_empleo los nombres de los departamentos. En df_empleo la columna con los códigos Divipola de los departamentos se llama 'departamento'. Si se agregan nuevas columnas al dataframe, distintas al nombre del departamento, debes borrarlas.

In [141]:
### TU CÓDIGO AQUÍ ###
df_DIV = pd.read_excel('2025-01-14 DIVIPOLA.xlsx', sheet_name='Departamentos', dtype=str, skiprows=9)
df_DIV.head()

Unnamed: 0,Código,Nombre
0,5,ANTIOQUIA
1,8,ATLÁNTICO
2,11,"BOGOTÁ, D.C."
3,13,BOLÍVAR
4,15,BOYACÁ


In [164]:
df_empleo5=df_empleo4.merge(df_DIV, left_on='departamento', right_on='Código', how='left')
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,DESCRIPCION_CIIU,Código,Nombre
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,Otros tipos de expendio de comidas preparadas ...,8,ATLÁNTICO
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,"Comercio de motocicletas y de sus partes, piez...",8,ATLÁNTICO
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,8,ATLÁNTICO
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.98992841,1,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0,,8,ATLÁNTICO
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.98992841,1,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0,,8,ATLÁNTICO


In [165]:
df_empleo5.drop(columns=['Código'], inplace=True)

In [166]:
# Celda de verificación (no modificar)
assert 'Nombre' in df_empleo5.columns, \
    f"La columna '{'Nombre'}' no se encontró. Revisa el nombre que le diste a la nueva columna."
assert df_empleo5['Nombre'].notna().sum() > 0, \
    f"La columna '{'Nombre'}' está completamente vacía. Verifica las llaves del merge."
print("✅ Verificación del merge exitosa.")
assert df_empleo5.shape[0] == 408423, f"Error en las filas. Se esperaban 408423, pero se encontraron {df_empleo.shape[0]}."
assert df_empleo5.shape[1] == 18, f"Error en las columnas. Se esperaban 18, pero se encontraron {df_empleo.shape[1]}."
print("¡Las dimensiones del DataFrame son correctas! ✅")
print("\n¡Punto 5 completado con éxito! ✅")

✅ Verificación del merge exitosa.
¡Las dimensiones del DataFrame son correctas! ✅

¡Punto 5 completado con éxito! ✅


# Ejercicio 6: Crear nuevas variables y reorganizar columnas (10%)

La GEIH cuenta con un factor de expansión que permite extrapolar los datos de los encuestados a totales para la población colombiana. Usar este factor de expansión, permite calcular la población total del país, la población en edad de trabajar, el número de ocupados, el número de desempleados, entre otros datos.

1. Crea una nueva columna llamada "fex", la cual corresponderá a la columna 'factor_expansion' dividida en 6 (se divide en 6, ya que estamos tomando el dato de 6 meses).

In [147]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

In [167]:
df_empleo5['factor_expansion']=df_empleo5['factor_expansion'].astype(float)

In [168]:
### TU CÓDIGO AQUÍ ###
df_empleo5['fex'] = df_empleo5['factor_expansion'] / 6
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,DESCRIPCION_CIIU,Nombre,fex
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.99,1,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,Otros tipos de expendio de comidas preparadas ...,ATLÁNTICO,74.16
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.99,1,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,"Comercio de motocicletas y de sus partes, piez...",ATLÁNTICO,74.16
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.99,1,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,ATLÁNTICO,74.16
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.99,1,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.99,1,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16


2. Crea una nueva columna llamada 'poblacion_total_ex', la cual corresponderá a la columna 'poblacion_total' multiplicada por la columna 'fex'.

In [169]:
df_empleo5['poblacion_total']=df_empleo5['poblacion_total'].astype(float)

In [170]:
### TU CÓDIGO AQUÍ ###
df_empleo5['poblacion_total_ex'] = df_empleo5['poblacion_total'] * df_empleo5['fex']
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,DESCRIPCION_CIIU,Nombre,fex,poblacion_total_ex
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,Otros tipos de expendio de comidas preparadas ...,ATLÁNTICO,74.16,74.16
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,"Comercio de motocicletas y de sus partes, piez...",ATLÁNTICO,74.16,74.16
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16


3. Crea una nueva columna llamada 'ocupados_ex', la cual corresponderá a la columna 'ocupados' multiplicada por la columna 'fex'.

In [172]:
df_empleo5['ocupados']=df_empleo5['ocupados'].astype(float)

In [173]:
### TU CÓDIGO AQUÍ ###
df_empleo5['ocupados_ex'] = df_empleo5['ocupados'] * df_empleo5['fex']
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,DESCRIPCION_CIIU,Nombre,fex,poblacion_total_ex,ocupados_ex
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,41,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,Otros tipos de expendio de comidas preparadas ...,ATLÁNTICO,74.16,74.16,74.16
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,37,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,"Comercio de motocicletas y de sus partes, piez...",ATLÁNTICO,74.16,74.16,74.16
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,17,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,11,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,10,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0


4. Crea una nueva columna llamada 'joven', la cual debe decir 'Población joven' si la persona encuestada tiene entre 15 y 28 años (15 y 28 incluidos). De lo contrario, debe decir 'Resto de población'.

In [174]:
### TU CÓDIGO AQUÍ ###
def joven(edad):
    if edad >= 15 and edad <= 28:
        return 'Población joven'
    else:
        return 'Resto de población'

In [176]:
df_empleo5['edad']=df_empleo5['edad'].astype(float)

In [177]:
df_empleo5['joven'] = df_empleo5['edad'].apply(joven)
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,factor_expansion,poblacion_total,sexo,edad,grupo_etnico,nivel_educativo,ocupados,categoria_ocupacional,cod_ciiu,ingreso_laboral,DESCRIPCION_CIIU,Nombre,fex,poblacion_total_ex,ocupados_ex,joven
0,8173631,1,1,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,41.0,Ninguno de los anteriores,Ninguno,1.0,Independiente,5619,700000.0,Otros tipos de expendio de comidas preparadas ...,ATLÁNTICO,74.16,74.16,74.16,Resto de población
1,8173631,1,2,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,37.0,"Negro, mulato (afrodescendiente)",Ninguno,1.0,Independiente,4541,320000.0,"Comercio de motocicletas y de sus partes, piez...",ATLÁNTICO,74.16,74.16,74.16,Resto de población
2,8173631,1,3,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,17.0,Ninguno de los anteriores,Ninguno,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0,Población joven
3,8173631,1,4,4,Centros poblados y rural disperso,8,444.99,1.0,Hombre,11.0,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0,Resto de población
4,8173631,1,5,4,Centros poblados y rural disperso,8,444.99,1.0,Mujer,10.0,Ninguno de los anteriores,0,0.0,0,0,0.0,,ATLÁNTICO,74.16,74.16,0.0,Resto de población


5. Reorganiza las columnas con el siguiente orden: 'id_vivienda', 'id_hogar', 'id_persona', 'mes', 'clase', 'departamento', 'Nombre', 'factor_expansion', 'fex', 'poblacion_total', 'poblacion_total_ex', 'sexo', 'edad', 'joven', 'grupo_etnico', 'nivel_educativo', 'ocupados', 'ocupados_ex', 'categoria_ocupacional', 'cod_ciiu', 'DESCRIPCION_CIIU', 'ingreso_laboral'

In [178]:
### TU CÓDIGO AQUÍ ###
df_empleo5=df_empleo5[['id_vivienda', 'id_hogar', 'id_persona', 'mes', 'clase', 'departamento', 'Nombre', 'factor_expansion', 'fex', 'poblacion_total', 'poblacion_total_ex', 'sexo', 'edad', 'joven', 'grupo_etnico', 'nivel_educativo', 'ocupados', 'ocupados_ex', 'categoria_ocupacional', 'cod_ciiu', 'DESCRIPCION_CIIU', 'ingreso_laboral']]

In [179]:
df_empleo5.head()

Unnamed: 0,id_vivienda,id_hogar,id_persona,mes,clase,departamento,Nombre,factor_expansion,fex,poblacion_total,poblacion_total_ex,sexo,edad,joven,grupo_etnico,nivel_educativo,ocupados,ocupados_ex,categoria_ocupacional,cod_ciiu,DESCRIPCION_CIIU,ingreso_laboral
0,8173631,1,1,4,Centros poblados y rural disperso,8,ATLÁNTICO,444.99,74.16,1.0,74.16,Hombre,41.0,Resto de población,Ninguno de los anteriores,Ninguno,1.0,74.16,Independiente,5619,Otros tipos de expendio de comidas preparadas ...,700000.0
1,8173631,1,2,4,Centros poblados y rural disperso,8,ATLÁNTICO,444.99,74.16,1.0,74.16,Mujer,37.0,Resto de población,"Negro, mulato (afrodescendiente)",Ninguno,1.0,74.16,Independiente,4541,"Comercio de motocicletas y de sus partes, piez...",320000.0
2,8173631,1,3,4,Centros poblados y rural disperso,8,ATLÁNTICO,444.99,74.16,1.0,74.16,Hombre,17.0,Población joven,Ninguno de los anteriores,Ninguno,0.0,0.0,0,0,,0.0
3,8173631,1,4,4,Centros poblados y rural disperso,8,ATLÁNTICO,444.99,74.16,1.0,74.16,Hombre,11.0,Resto de población,Ninguno de los anteriores,0,0.0,0.0,0,0,,0.0
4,8173631,1,5,4,Centros poblados y rural disperso,8,ATLÁNTICO,444.99,74.16,1.0,74.16,Mujer,10.0,Resto de población,Ninguno de los anteriores,0,0.0,0.0,0,0,,0.0


In [181]:
# Celda de verificación (no modificar)
orden_esperado = [
    'id_vivienda', 'id_hogar', 'id_persona', 'mes', 'clase',
    'departamento', 'Nombre', 'factor_expansion', 'fex',
    'poblacion_total', 'poblacion_total_ex', 'sexo', 'edad', 'joven',
    'grupo_etnico', 'nivel_educativo', 'ocupados', 'ocupados_ex',
    'categoria_ocupacional', 'cod_ciiu', 'DESCRIPCION_CIIU', 'ingreso_laboral'
]
orden_actual = df_empleo5.columns.tolist()
assert orden_actual == orden_esperado, \
    f"""El orden de las columnas es incorrecto.
    - Orden Esperado: {orden_esperado}
    - Orden Encontrado: {orden_actual}"""
assert df_empleo5.shape[0] == 408423, f"Error en las filas. Se esperaban 408423, pero se encontraron {df_empleo.shape[0]}."
assert df_empleo5.shape[1] == 22, f"Error en las columnas. Se esperaban 22, pero se encontraron {df_empleo.shape[1]}."
print("¡Las dimensiones del DataFrame son correctas! ✅")
print("\n¡Punto 6 completado con éxito! ✅")

¡Las dimensiones del DataFrame son correctas! ✅

¡Punto 6 completado con éxito! ✅


# Ejercicio 7: Cambiar tipo de dato (5%)



Para realizar cálculos y análisis correctamente, las columnas deben tener el tipo de dato adecuado (numérico, categórico, etc.).

1.  Muestra en pantalla los tipos de datos actuales de `df_empleo`.

In [182]:
### TU CÓDIGO AQUÍ ###
df_empleo5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408423 entries, 0 to 408422
Data columns (total 22 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   id_vivienda            408423 non-null  object 
 1   id_hogar               408423 non-null  object 
 2   id_persona             408423 non-null  object 
 3   mes                    408423 non-null  object 
 4   clase                  408423 non-null  object 
 5   departamento           408423 non-null  object 
 6   Nombre                 408423 non-null  object 
 7   factor_expansion       408423 non-null  float64
 8   fex                    408423 non-null  float64
 9   poblacion_total        408423 non-null  float64
 10  poblacion_total_ex     408423 non-null  float64
 11  sexo                   408423 non-null  object 
 12  edad                   408423 non-null  float64
 13  joven                  408423 non-null  object 
 14  grupo_etnico           408423 non-nu

2.  Las siguientes columnas representan categorías: 'clase', 'departamento', 'Nombre', 'sexo', 'joven', 'grupo_etnico', 'nivel_educativo', 'categoria_ocupacional', 'cod_ciiu', 'DESCRIPCION_CIIU'. Conviértelas al tipo `category` para optimizar el uso de memoria y facilitar análisis futuros.

In [195]:
### TU CÓDIGO AQUÍ ###
df_empleo5['clase']=df_empleo5['clase'].astype('category')
df_empleo5['departamento']=df_empleo5['departamento'].astype('category')
df_empleo5['Nombre']=df_empleo5['Nombre'].astype('category')
df_empleo5['sexo']=df_empleo5['sexo'].astype('category')
df_empleo5['joven']=df_empleo5['joven'].astype('category')
df_empleo5['grupo_etnico']=df_empleo5['grupo_etnico'].astype('category')
df_empleo5['nivel_educativo']=df_empleo5['nivel_educativo'].astype('category')
df_empleo5['categoria_ocupacional']=df_empleo5['categoria_ocupacional'].astype('category')
df_empleo5['cod_ciiu']=df_empleo5['cod_ciiu'].astype('category')
df_empleo5['DESCRIPCION_CIIU']=df_empleo5['DESCRIPCION_CIIU'].astype('category')

In [196]:
df_empleo5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 408423 entries, 0 to 408422
Data columns (total 22 columns):
 #   Column                 Non-Null Count   Dtype   
---  ------                 --------------   -----   
 0   id_vivienda            408423 non-null  object  
 1   id_hogar               408423 non-null  object  
 2   id_persona             408423 non-null  object  
 3   mes                    408423 non-null  object  
 4   clase                  408423 non-null  category
 5   departamento           408423 non-null  category
 6   Nombre                 408423 non-null  category
 7   factor_expansion       408423 non-null  float64 
 8   fex                    408423 non-null  float64 
 9   poblacion_total        408423 non-null  float64 
 10  poblacion_total_ex     408423 non-null  float64 
 11  sexo                   408423 non-null  category
 12  edad                   408423 non-null  float64 
 13  joven                  408423 non-null  category
 14  grupo_etnico        

In [198]:
# Celda de verificación (no modificar)
columnas_categoricas_esperadas = [
    'clase', 'departamento', 'Nombre', 'sexo', 'joven', 'grupo_etnico',
    'nivel_educativo', 'categoria_ocupacional', 'cod_ciiu',
    'DESCRIPCION_CIIU'
]
for columna in columnas_categoricas_esperadas:
    assert columna in df_empleo5.columns, \
        f"La columna '{columna}' no fue encontrada en el DataFrame."
    es_categoria = pd.api.types.is_categorical_dtype(df_empleo5[columna])
    assert es_categoria, \
        f"La columna '{columna}' no fue convertida al tipo 'category'. Su tipo actual es {df_empleo5[columna].dtype}."
print("¡Verificación completada con éxito! ✅ Todas las columnas especificadas son del tipo 'category'.")
print("\n¡Punto 7 completado con éxito! ✅")

¡Verificación completada con éxito! ✅ Todas las columnas especificadas son del tipo 'category'.

¡Punto 7 completado con éxito! ✅


# Ejercicio 8: Ordenar el dataframe (5%)

1. Ordena el dataframe por la columna "edad" de mayor a menor. Observa la columna 'edad' y escribe en una celda de markdown cuál fue la edad mínima y la edad máxima de las personas que respondieron la encuesta de la GEIH.

In [201]:
### TU CÓDIGO AQUÍ ###
df_empleo5=df_empleo5.sort_values(by='edad', ascending=False)
df_empleo5.describe()

Unnamed: 0,factor_expansion,fex,poblacion_total,poblacion_total_ex,edad,ocupados,ocupados_ex
count,408423.0,408423.0,408423.0,408423.0,408423.0,408423.0,408423.0
mean,762.99,127.17,1.0,127.17,36.32,0.43,57.55
std,1084.62,180.77,0.0,180.77,22.25,0.5,140.49
min,7.27,1.21,1.0,1.21,0.0,0.0,0.0
25%,155.2,25.87,1.0,25.87,18.0,0.0,0.0
50%,317.46,52.91,1.0,52.91,34.0,0.0,0.0
75%,917.63,152.94,1.0,152.94,54.0,1.0,43.34
max,17668.83,2944.8,1.0,2944.8,106.0,1.0,2944.8


Escribe tu análisis aquí:
- la media fue de 36,32 años la edad minima fue de 0 años y el maximo de 106 años
- De lo anterior encontramos que los datos tienen problemas de registro sobre todo porque esos datos 0 que afectan el comportamiento de la media. Cabe aclarar que pese a eso encontramos una muestra con una distribucion normal con muy poca asimetria porque la media y la mediana son valores muy similares y que mayor mente la mayor parte de la poblacion encuestada se encuentra por debajo de los 54 años, asumiendo que esos valores maximos cercanos al 104 son valores atipicos.


In [203]:
# Celda de verificación (no modificar)
es_descendiente = df_empleo5['edad'].is_monotonic_decreasing
assert es_descendiente, "La columna 'edad' no está ordenada correctamente de mayor a menor."
print("\n¡Punto 8 completado con éxito! ✅")


¡Punto 8 completado con éxito! ✅


# Ejercicio 9: Groupby (20%)

Agrupar los datos por categorías, nos permite realizar análisis más profundos y obtener insights valiosos, que a simple vista no vemos en la base de datos.

1. Crea un nuevo dataframe llamado "df_sexo" donde se agrupe por 'sexo' y se calcule la suma de las columnas 'poblacion_total_ex' y 'ocupados_ex'. Crea una nueva columna que se llame 'porcentaje_ocupados' donde dividas las columna 'ocupados_ex' sobre 'poblacion_total_ex'. Al final usa reset_index() para convertir las categorías de sexo en una columna.

In [206]:
### TU CÓDIGO AQUÍ ###
df_sexo=df_empleo5.groupby('sexo').agg({'poblacion_total_ex': 'sum', 'ocupados_ex': 'sum'}).reset_index()
df_sexo['porcentaje_ocupados'] = df_sexo['ocupados_ex'] / df_sexo['poblacion_total_ex']
df_sexo

Unnamed: 0,sexo,poblacion_total_ex,ocupados_ex,porcentaje_ocupados
0,Hombre,25255111.0,13797363.08,0.55
1,Mujer,26682244.83,9707731.65,0.36


In [207]:
# Celda de verificación (no modificar)
import numpy as np
dimensiones_esperadas = (2, 4)
assert df_sexo.shape == dimensiones_esperadas, \
    f"Las dimensiones son incorrectas. Se esperaba {dimensiones_esperadas}, pero se encontró {df_sexo.shape}. ¿Aplicaste .reset_index()?"
assert 'sexo' in df_sexo.columns, \
    "La columna 'sexo' no se encontró. ¿Olvidaste usar .reset_index() al final?"
assert not isinstance(df_sexo.index, pd.Index) or df_sexo.index.name != 'sexo', \
    "El índice del DataFrame sigue siendo 'sexo'. Asegúrate de haber aplicado .reset_index()."
print("¡Verificación completada con éxito! ✅")

¡Verificación completada con éxito! ✅


2. Crea un nuevo dataframe llamado "df_educacion" donde se agrupe por 'nivel_educativo' y se calcule la suma de las columnas 'poblacion_total_ex' y 'ocupados_ex'. Crea una nueva columna que se llame 'porcentaje_ocupados' donde dividas las columna 'ocupados_ex' sobre 'poblacion_total_ex'. Al final usa reset_index() para convertir las categorías de nivel educativo en una columna.

In [212]:
### TU CÓDIGO AQUÍ ###
df_educacion=df_empleo5.groupby('nivel_educativo').agg({'poblacion_total_ex': 'sum', 'ocupados_ex': 'sum'}).reset_index()
df_educacion['porcentaje_ocupados'] = df_educacion['ocupados_ex'] / df_educacion['poblacion_total_ex']
df_educacion

Unnamed: 0,nivel_educativo,poblacion_total_ex,ocupados_ex,porcentaje_ocupados
0,0,26531531.92,7591827.41,0.29
1,Doctorado,46649.18,39950.47,0.86
2,Educación media,14327525.06,8605757.92,0.6
3,Especialización,965236.3,777759.47,0.81
4,Maestría,448666.05,386964.59,0.86
5,Ninguno,1710908.13,348733.89,0.2
6,"No sabe, no informa",94.78,37.6,0.4
7,Tecnológica,1392852.75,1040969.57,0.75
8,Técnica profesional,2781981.33,1953369.02,0.7
9,Universitaria,3731910.34,2759724.79,0.74


In [213]:
# --- Celda de Verificación (No modificar) ---
import numpy as np
n_niveles_educativos = df_empleo5['nivel_educativo'].nunique()
dimensiones_esperadas = (n_niveles_educativos, 4)
assert df_educacion.shape == dimensiones_esperadas, \
    f"Las dimensiones son incorrectas. Se esperaba {dimensiones_esperadas} (filas, columnas), pero se encontró {df_educacion.shape}."
columnas_esperadas = {'nivel_educativo', 'poblacion_total_ex', 'ocupados_ex', 'porcentaje_ocupados'}
assert set(df_educacion.columns) == columnas_esperadas, \
    f"Los nombres de las columnas no son correctos. Se esperaban {columnas_esperadas}."
assert 'nivel_educativo' in df_educacion.columns, \
    "La columna 'nivel_educativo' no se encontró. ¿Olvidaste usar .reset_index() al final?"
print("¡Verificación completada con éxito! ✅")

¡Verificación completada con éxito! ✅


3. En una celda de Markdown escribe qué conclusiones puedes sacar de la información obtenida en df_sexo y df_educacion.

Escribe tu análisis aquí:
## DF_SEXO
- De esta base encontramos informacion relevante que afirmaa que el 55% de la poblacion ocupada es masculina y el 36% femenina.
- lo anterior puede llegar a ser preocupante cuando analizamos la poblacion total y encontramos que hay mas mujeres que hombres, lo cual quiere decir 9% que no esta ocupado esta conformado mayor mente por mujeres
## DF_EDUCACION
- De esta base de datos se encontro que existe varias consideraciones
1. En promedio las personas con mejor grado de escolaridad (doctorado y maestria) tienen mas oportunidades labores con un 86% para ambos grupos en la tasa de ocupacion.
2. En ese orden de ideas las personas sin un nivel de educacion no tienen oportunidades laborales en el mercado con una tasa del 20% de ocupacion.
3. a medida que el trabajador incrementa sus años de educacion incrementa sus oportunidades como se aprecia en la base de datos.
4. El gruezo de la poblacion total tiene un nivel de educacion media, mientras que son muy pocos los trabajadores que cuentan con un nivel de educacion superior a un pregrado. Dando señales de altos niveles de desigualdad en la sociedad.

In [216]:
# Celda de verificación (no modificar)
print("\n¡Punto 9 completado con éxito! ✅")


¡Punto 9 completado con éxito! ✅


# Ejercicio 10: Exportar datos (5%)

Muchas veces requerimos exportar los resultados de nuestros análisis a Excel para compartir la información con otras personas.

Exporta los dataframes df_sexo y df_educacion a un Excel llamado 'Analisis_ocupados.xlsx'. Cada dataframe debe quedar en una hoja diferente. La hoja de 'df_sexo' se debe llamar 'sexo' y la hoja de 'df_educacion' se debe llamar 'educacion'.

In [217]:
### TU CÓDIGO AQUÍ ###
df_sexo.to_excel('Analisis_ocupados.xlsx', sheet_name='sexo')
df_educacion.to_excel('Analisis_ocupados.xlsx', sheet_name='educacion')

In [218]:
# Celda de verificación (no modificar)
import os
import pandas as pd
nombre_archivo = 'Analisis_ocupados.xlsx'
assert os.path.exists(nombre_archivo), \
    f"No se encontró el archivo '{nombre_archivo}'. ¿Lo exportaste con el nombre correcto?"
try:
    xls = pd.ExcelFile(nombre_archivo)
    nombres_hojas_encontrados = xls.sheet_names
    nombres_hojas_esperados = ['sexo', 'educacion']
    assert set(nombres_hojas_encontrados) == set(nombres_hojas_esperados), \
        f"Los nombres de las hojas no son correctos. Se esperaban {nombres_hojas_esperados} pero se encontraron {nombres_hojas_encontrados}."
    print("¡Verificación completada con éxito! ✅")
except Exception as e:
    print(f"Ocurrió un error al verificar el archivo: {e}")
print("\n¡Punto 10 completado con éxito! ✅")

Ocurrió un error al verificar el archivo: Los nombres de las hojas no son correctos. Se esperaban ['sexo', 'educacion'] pero se encontraron ['educacion'].

¡Punto 10 completado con éxito! ✅
