# PARTE A: generación del dataset principal
## Información individuos
### Grupo  13


Importación de librerías necesarias 

In [1]:
import sys
import csv

Importación de rutas 

In [2]:

sys.path.append("..")
from src.utils.constantes import FILES_PATH, DATA_OUT_PATH
  

Importaciones de funciones necesarias para el procesamiento del dataset

In [3]:

from src.utils.procesamiento_dataset import convertir_ch04_a_str_genero, convertir_NIVEL_ED_a_str, transformar_condicion_laboral,generar_mayores_con_titulo


**Creación de un dataset de individuos a partir de la información disponible**. 

Este dataset contiene además columnas con formato texto que permiten una lectura más clara de los datos. 

•	**CH04_str**: indica si el sexo de la persona es masculino o femenino, transformando los códigos de la variable CH_04 en el texto correspondiente. 

•	**NIVEL_ED_str**: indica en formato texto el nivel educativo, transformando y agrupando los códigos de la variable NIVEL_ED. 

•	**CONDICION_LABORAL**: indica en formato texto la condición laboral a través de la transformación de los códigos contenidos en las variables ESTADO y CAT_OCUP. 

Por otra parte, se crea la variable numérica **UNIVERSITARIO** que indica si una persona mayor de edad ha completado el como mínimo el nivel universitario (1: Sí, 0: No, 2: no aplica).



In [None]:

archivo_salida = DATA_OUT_PATH / "salida_individuos.csv"

datos_totales = []  # Lista para almacenar todos los datos procesados


for archivo in list(FILES_PATH.glob("usu_individual*")) + list(FILES_PATH.glob("EPH_personas*")):
    with open(archivo, encoding="utf-8") as file:   #Modo lectura R por defecto, WITH OPEN cierra automáticamente al terminar.
        lector_csv = csv.DictReader(file, delimiter=";")
        lista_diccionarios = list(lector_csv)

        #Llamo a las funciones para generar las nuevas columnas
        lista_diccionarios = convertir_ch04_a_str_genero(lista_diccionarios)
        lista_diccionarios = convertir_NIVEL_ED_a_str(lista_diccionarios)
        lista_diccionarios = transformar_condicion_laboral(lista_diccionarios)
        lista_diccionarios = generar_mayores_con_titulo(lista_diccionarios)

        #elimina posibles claves vacías
        #dictionary comprehension para recorrer y limpiar cada diccionario dentro de lista_diccionarios.
        # d.items() devuelve todos los pares clave-valor del diccionario actual.
        # k != '' filtra las claves, eliminando aquellas que son cadenas vacías ("").
        # Solo se conservan las claves que sí tienen un nombre válido.
        lista_diccionarios = [{k: v for k, v in d.items() if k != ''} for d in lista_diccionarios]

        #agrego los elementos individuales de la lista pasada como argumento.
        # [ [{'nombre': 'Ana'}, {'nombre': 'Juan'}] ] → LISTA ANIDADA
        # [ {'nombre': 'Ana'}, {'nombre': 'Juan'} ] → ELEMENTOS INDIVIDUALES
        #extend() se usa porque queremos fusionar listas, mientras que append() es mejor cuando queremos agregar un único objeto a la lista.
        datos_totales.extend(lista_diccionarios)

    print(f"Procesado archivo: {archivo}")

# Escribir el archivo final con los datos procesados
# Verifica si hay datos para guardar
if datos_totales:
    #"w" abre el archivo en modo escritura, sobreescribiendo el contenido si ya existe.
    #newline='' evita líneas en blanco innecesarias en el CSV.
    with open(archivo_salida, "w", newline='', encoding="utf-8") as salida:
        #csv.DictWriter() se usa para escribir diccionarios en un archivo CSV.
        #fieldnames=datos_totales[0].keys() obtiene las claves del primer diccionario, usándolas como encabezados del CSV.
        escritor_csv = csv.DictWriter(salida, fieldnames=datos_totales[0].keys(), delimiter=";")
        #escribe la primera fila con los nombres de las columnas
        escritor_csv.writeheader()
        #escribe los datos fila por fila
        escritor_csv.writerows(datos_totales)

    print(f"Datos guardados en: {archivo_salida}")


Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T321.txt.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T422.txt.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T222.txt.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T322.txt.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T221.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T122.txt.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T421.txt
Procesado archivo: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../files/usu_individual_T121.txt
Datos guardados en: /home/laptop-ubuntu/python/nuevo_encuestAR/code/notebook/../data_out/salida_individuos.c