### **Definir el directorio de trabajo con Google Colab**

Define el directorio de trabajo como la carpeta `data`.
Este directorio debe contener el archivo de datos original en formato comprimido `raw_data/Tomas.zip` y los diccionarios de datos `datatypes_dictionaries/dtypes_tomas` y `datatypes_dictionaries/dtypes_vars_toma`.

In [None]:
import os
import sys
from google.colab import drive 
# Enlazar a la carpeta 'data'
drive.mount('/content/drive')
os.chdir('/content/drive/MyDrive/Colab Notebooks/ICBF/data')
sys.path.insert(0, '../scripts/0_utils')
!pwd

Mounted at /content/drive
/content/drive/MyDrive/Colab Notebooks/ICBF/data


### **Preprocesamiento del archivo por fragmentos**
Toma el archivo `Tomas.zip` (863 MB), originalmente codificados en formato `utf-16le`, del directorio `raw_data` y lo subdivide en `n` = 100 fragmentos, de ~60076 registros cada uno. Requiere el diccionario de datos del archivo `tomas_datatypes.json` con la estructura de datos predefinida.

#### **1. Lectura**
Lee todas las columnas columnas de cada fragmento, desde la fila que indica `particion[i]` hasta la fila que indica `particion[i + 1] - 1`, en un dataframe llamado `tom`.

#### **2. Preprocesamiento inicial**
Preprocesa este dataframe:
- Reemplaza la `'H '` de *hombre* por `'M'` de *masculino* y la `'M '` de *mujer* por `'F'` de *femenino* en la variable `Sexo`.
- Reemplaza comas por puntos en las columnas que según el diccionario de datos deben ser de valores flotantes.
- Corrige algunos errores ortográficos en las variables de `Estado`: Tilde en *desnutrición*, solo mayúscula inicial (formato oración).
- Reemplaza algunas fechas absurdas (>2800) encontradas para que puedan ser transformadas en tipo `datetime64`.
- Asigna el tipo adecuado a cada variable para mejorar el manejo de memoria.

#### **3. Segmentación en dataframes complementarios**

- **Datos por beneficiario**: Identificadores y primeras columnas, asociadas al beneficiario.

- **Datos de la Dirección de Primera Infancia**: Extrae los valores de las columnas asociadas a las tomas nutricionales `Toma1` a `Toma4` (realizadas por la Dirección de Primera Infancia) a otro dataframe llamado `tom_DPI`, con los datos apilados por toma.

- **Datos de la Dirección de Nutrición**: Genera una lista booleana `existen_tomas_N` que indica si existen o no datos no nulos en las columnas asociadas a las tomas nutricionales `Toma1N` a `Toma12N` (realizadas por la Dirección de Nutrición) y extrae estos valores a otro dataframe llamado `tom_DN`, con los datos apilados por toma.

- **Datos normalizados**: Los valores de las tomas nutricionales tomadas por ambas direcciones se apilan por tomas agregando un identificador por cada toma `IdToma` y se concatenan.

#### **Guardado**
Guarda los dataframes preprocesados en un formato binario comprimido `parquet`, que permite guardar la estructura de los tipos de datos, en el directorio `data_chunks`.
- Guarda el dataframe `tom_DN` completo en `TomasDNpre_#.parquet`.
- Guarda las primeras 98 columnas del dataframe `tom` (tomas nutricionales realizadas por la Dirección de Primera Infancia) en `TomasDPIpre_#.parquet`.

In [None]:
# Librerias relevantes
import pandas as pd
import json
import numpy as np
import time
from utils import replace_log

In [None]:
# Reemplazo de datos para asegurar su correcto procesamiento
# Reemplaza ',' por '.' en columnas de valores decimales
reemplazo_float = {',': '.'}
# Reemplaza 'M ' y 'f' por 'F', 'H ' por 'M' e 'I ' por 'I' en la columna 'Sexo'
reemplazo_sexo = {'M ': 'F',
                  'f':  'F',
                  'H ': 'M', 
                  'I ': 'I'}
# Corrige ortografía en las columnas de estado nutricional
reemplazo_estado = {'nutrici.n': 'nutrición',
                    ' Sobrepeso': ' sobrepeso',
                    ' Aguda': ' aguda',
                    ' Moderada': ' moderada'}
# Reemplaza las fechas absurdas (>2800) por su equivalente más probable                     
reemplazo_fecha = {'^2[89]': '20'}
 
# Abre los diccionarios con la estructura de datos definida
with open('datatypes_dictionaries/dtypes_tomas.json', 'r') as file:
  dtypes_tom = json.load(file)
with open('datatypes_dictionaries/dtypes_vars_toma.json', 'r') as file:
  dtypes_vars_toma = json.load(file)
 
# Nombres de las columnas
col_names = list(dtypes_tom.keys())
cols_var_toma = list(dtypes_vars_toma.keys())
# Columnas de identificadores: 'Registro', 'Vigencia', 'Id', 'IdBeneficiario'
cols_id = col_names[:4]
# Columnas propias del beneficiario
cols_beneficiario = col_names[:19]
# Columnas propias de cada toma nutricional
cols_tomas = cols_id + col_names[19:]
# Columnas propias de las tomas nutricionales de la Dirección de Primera Infancia
cols_DPI = cols_id + col_names[19:99]
# Columnas propias de las tomas nutricionales de la Dirección de Nutrición
cols_DN =  cols_id + col_names[99:]
 
# Columnas de variables tipo flotante
cols_float = [col for col in col_names if dtypes_tom[col] == 'float32']
# Columnas de la variable 'Toma': 'Toma1'... 'Toma12N'
cols_toma = [col for col in col_names if col[:4] == 'Toma']
# Columnas de variables tipo fecha
cols_fecha = [col for col in col_names if col[:5] == 'Fecha']
# Columnas de variables de estado nutricional: 'Estado...T1'... 'Estado...T12N'
# ('EstadoTallaEdad', 'EstadoPesoEdad',  'EstadoPesoTalla',  'EstadoIMC')
cols_estado = [col for col in col_names if col[:6] == 'Estado']

# Número total de registros, de fragmentos y número de registros en cada fragmento
n_registros = 6007562
n = 100
registros_fragmento = n_registros // n + 1
# Lista de números inicio y finalización de cada fragmento
# (El primer registro está en la fila 0, el último registro está en la fila 6007561)
particion = [registros_fragmento * i for i in range(n)] + [n_registros]

# Lista de fragmentos con tomas de la Dirección Nutricional
con_tomas_DN = list()
# Lista de reportes de cambios realizados
log = list()

In [None]:
t0 = time.time()
# Para cada fragmento definido que empiece en particion[i] a particion[i + 1] - 1:
for i in range(n):
  # 1. Lee el fragmento completo
  # La tabla original no incluye la variable 'Registro'
  tom = pd.read_csv('raw_data/Tomas.zip', sep = '|', encoding = 'utf-16le', header = 0,
                    skiprows = range(particion[i]), nrows = particion[i + 1] - particion[i], 
                    names=col_names[1:])
  print(f'Fragmento {i + 1}/{n} leído: {time.time() - t0:.2f} s.')
  
  # 2. Preprocesamiento inicial del dataframe
  tom = tom.reset_index().rename(columns={'index': 'Registro'})
  # Asigna un número de registro (fila) adecuado, según la tabla original
  tom['Registro'] = pd.Series(range(particion[i], particion[i + 1]))
  # Realiza los reemplazos de valores descritos
  # Corrige ',' por '.' en columnas de valores decimales que no hayan sido leídas como tales
  for col in cols_float:
    if str(tom[col].dtypes)[:5] != 'float':
      tom[col] = tom[col].replace(reemplazo_float, regex = True)
  # Corrige las fechas absurdas en columnas de tipo fecha que no estén vacías
  for col in cols_fecha:
    if tom[col].notnull().sum() > 0:
      tom[col] = replace_log(tom, col, col_id='Registro', map=reemplazo_fecha, log=log)
  tom['Sexo'] = tom['Sexo'].replace(reemplazo_sexo, regex = False)
  tom[cols_estado] = tom[cols_estado].replace(reemplazo_estado, regex = True)
  # Asigna a las variables categóricas codificadas por enteros, el tipo de datos entero, 
  # para prevenir que se guarden como flotantes
  tom[cols_toma] = tom[cols_toma].astype('UInt16')
  tom['Vigencia'] = tom['Vigencia'].astype('UInt16')
  tom['CodigoPaisNacimiento'] = tom['CodigoPaisNacimiento'].astype('UInt16')
  # Asignar a cada variable según su tipo de acuerdo al diccionario de datos
  for col in col_names:
    tom[col] = tom[col].astype(dtypes_tom[col])
  print(f'Fragmento {i + 1}/{n} preprocesado: {time.time() - t0:.2f} s.')
  
  # 3. Segmentación en dataframes complementarios
  # Extraer los datos del beneficiario
  tom_beneficiario = tom[cols_beneficiario]
  # Extraer los registros que tienen alguna toma de cada dirección
  # (D. de Primera Infancia y D. de Nutrición)
  existen_tomas_DN = tom[cols_DN[4:]].notna().sum(axis='columns') > 0
  existen_tomas_DPI = tom[cols_DPI[4:]].notna().sum(axis='columns') > 0
  tom_DN = tom[cols_DN][existen_tomas_DN].reset_index(drop = True)
  # Descartar las variables de las tomas de la D. de Nutrición
  tom_DPI = tom[cols_DPI][existen_tomas_DPI].reset_index(drop = True)
  print(f'Fragmento {i + 1}/{n} extraídos {len(tom_DN)} registros de la D.N.:'+
        f'{time.time() - t0:.2f} s.')
  
  # 4. Normalización de las tomas nutricionales
  # Apilamiento (melt) guardando el identificador de la fila
  melted_DPI = tom_DPI.melt(id_vars = cols_id)
  # A cada [variable, valor] le asigna la toma según el sufijo de variable
  melted_DPI['toma'] = melted_DPI['variable'].str.extract(r'(\d+N*$)')
  # A cada [variable, valor] le asigna el nombre de variable apropiado (sin sufijos)
  melted_DPI['variable'] = melted_DPI['variable'].str.replace(r'T*\d+N*', '', regex=True)
  # Desapilamiento (pivot) para que los valores del mismo registro y toma se ubiquen en la misma fila
  pivot_DPI = melted_DPI.pivot(index=cols_id + ['toma'], columns='variable', values='value')
  # Remueve los valores que tienen un valor faltante en 'Toma' (toma nutricional faltante)
  pivot_DPI = pivot_DPI.dropna(subset=['Toma']).reset_index(drop=False)
  pivot_DPI['Toma'] = pivot_DPI['toma']
  # Asigna a todas las filas 'AntecedentePremadurez': '-' y 'Direccion': 'Primera Infancia'
  pivot_DPI['AntecedentePremadurez'] = pd.Series(['-'] * len(pivot_DPI))
  pivot_DPI['Direccion'] = pd.Series(['Primera Infancia'] * len(pivot_DPI))
  # Reordena las columnas
  pivot_DPI = pivot_DPI[cols_var_toma]
  if len(tom_DN) > 0:
    # Apilamiento (melt) guardando el identificador de la fila
    melted_DN = tom_DN.melt(id_vars = cols_id)
    # A cada [variable, valor] le asigna la toma según el sufijo de variable
    melted_DN['toma'] = melted_DN['variable'].str.extract(r'(\d+N*$)')
    # A cada [variable, valor] le asigna el nombre de variable apropiado (sin sufijos)
    melted_DN['variable'] = melted_DN['variable'].str.replace(r'T*\d+N*', '', regex=True)
    # Desapilamiento (pivot) para que los valores del mismo registro y toma se ubiquen en la misma fila
    pivot_DN = melted_DN.pivot(index=cols_id + ['toma'], columns='variable', values='value')
    # Remueve los valores que tienen un valor faltante en 'Toma' (toma nutricional faltante)
    pivot_DN = pivot_DN.dropna(subset=['Toma']).reset_index(drop=False)
    pivot_DN['Toma'] = pivot_DN['toma']
    # Asigna a todas las filas 'Direccion': 'Nutrición'
    pivot_DN['Direccion'] = pd.Series(['Nutrición'] * len(pivot_DN))
    # Reordena las columnas
    pivot_DN = pivot_DN[cols_var_toma]
    # Concatena la información de las tomas de ambas direcciones
    tom_melted = pivot_DPI.append(pivot_DN)
  else:
    tom_melted = pivot_DPI
  # Asigna cada columna al tipo de dato que le corresponde
  for col in tom_melted.columns:
    tom_melted[col] = tom_melted[col].astype(dtypes_vars_toma[col])
  print(f'Fragmento {i + 1}/{n} normalizado: {time.time() - t0:.2f} s.')
  
  # 5. Guardado de archivos
  # Guardar los dataframes preprocesado en un archivo .parquet
  tom_beneficiario.to_parquet(f'data_chunks/tomas_beneficiario/tomas_beneficiario_{i + 1}.parquet')
  tom_melted.to_parquet(f'data_chunks/tomas_normalizado/tomas_normalizado_{i + 1}.parquet')
  tom_DPI.to_parquet(f'data_chunks/direccion_primera_infancia/tomas_DPI_{i + 1}.parquet')
  # Guarda el dataframe con tomas de la Direccion de Nutrición solo si hay algún registro
  if (len(tom_DN) > 0):
    con_tomas_DN.append(i)
    tom_DN.to_parquet(f'data_chunks/direccion_nutricion/tomas_DN_{i + 1}.parquet')
  print(f'Fragmento {i + 1}/{n} guardado: {time.time() - t0:.2f} s.')  
  # Elimina los dataframes temporales
  del tom
  del tom_beneficiario
  del tom_DPI
  del tom_DN
  del tom_melted
print(f'Se extrajeron registros de {len(con_tomas_DN)}/{n} fragmentos: {time.time() - t0:.2f} s.')

Fragmento 1/100 leído: 5.09 s.
Fragmento 1/100 preprocesado: 22.51 s.
Fragmento 1/100 extraídos 0 registros de la D.N.: 22.69 s.
Fragmento 1/100 normalizado: 47.92 s.
Fragmento 1/100 guardado: 51.73 s.
Fragmento 2/100 leído: 55.03 s.
Fragmento 2/100 preprocesado: 72.04 s.
Fragmento 2/100 extraídos 0 registros de la D.N.: 72.21 s.
Fragmento 2/100 normalizado: 97.53 s.
Fragmento 2/100 guardado: 99.10 s.
Fragmento 3/100 leído: 103.42 s.
Fragmento 3/100 preprocesado: 120.68 s.
Fragmento 3/100 extraídos 0 registros de la D.N.: 120.86 s.
Fragmento 3/100 normalizado: 146.14 s.
Fragmento 3/100 guardado: 147.61 s.
Fragmento 4/100 leído: 152.78 s.
Fragmento 4/100 preprocesado: 169.96 s.
Fragmento 4/100 extraídos 0 registros de la D.N.: 170.14 s.
Fragmento 4/100 normalizado: 195.28 s.
Fragmento 4/100 guardado: 196.70 s.
Fragmento 5/100 leído: 202.76 s.
Fragmento 5/100 preprocesado: 220.16 s.
Fragmento 5/100 extraídos 0 registros de la D.N.: 220.33 s.
Fragmento 5/100 normalizado: 245.67 s.
Fragmen

  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 7/100 leído: 306.20 s.
Fragmento 7/100 preprocesado: 323.60 s.
Fragmento 7/100 extraídos 0 registros de la D.N.: 323.80 s.
Fragmento 7/100 normalizado: 348.97 s.
Fragmento 7/100 guardado: 350.30 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 8/100 leído: 359.04 s.
Fragmento 8/100 preprocesado: 377.14 s.
Fragmento 8/100 extraídos 19 registros de la D.N.: 377.32 s.
Fragmento 8/100 normalizado: 401.93 s.
Fragmento 8/100 guardado: 404.48 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 9/100 leído: 414.56 s.
Fragmento 9/100 preprocesado: 442.01 s.
Fragmento 9/100 extraídos 21 registros de la D.N.: 442.19 s.
Fragmento 9/100 normalizado: 467.40 s.
Fragmento 9/100 guardado: 469.34 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 10/100 leído: 479.93 s.
Fragmento 10/100 preprocesado: 498.28 s.
Fragmento 10/100 extraídos 18 registros de la D.N.: 498.46 s.
Fragmento 10/100 normalizado: 523.65 s.
Fragmento 10/100 guardado: 525.63 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 11/100 leído: 537.28 s.
Fragmento 11/100 preprocesado: 559.10 s.
Fragmento 11/100 extraídos 22 registros de la D.N.: 559.28 s.
Fragmento 11/100 normalizado: 584.47 s.
Fragmento 11/100 guardado: 586.53 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 12/100 leído: 598.88 s.
Fragmento 12/100 preprocesado: 618.92 s.
Fragmento 12/100 extraídos 22 registros de la D.N.: 619.10 s.
Fragmento 12/100 normalizado: 643.90 s.
Fragmento 12/100 guardado: 646.04 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 13/100 leído: 659.36 s.
Fragmento 13/100 preprocesado: 682.12 s.
Fragmento 13/100 extraídos 24 registros de la D.N.: 682.30 s.
Fragmento 13/100 normalizado: 707.47 s.
Fragmento 13/100 guardado: 709.52 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 14/100 leído: 723.72 s.
Fragmento 14/100 preprocesado: 744.66 s.
Fragmento 14/100 extraídos 28 registros de la D.N.: 744.85 s.
Fragmento 14/100 normalizado: 770.33 s.
Fragmento 14/100 guardado: 772.23 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 15/100 leído: 787.54 s.
Fragmento 15/100 preprocesado: 813.76 s.
Fragmento 15/100 extraídos 22 registros de la D.N.: 813.95 s.
Fragmento 15/100 normalizado: 839.62 s.
Fragmento 15/100 guardado: 841.59 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 16/100 leído: 857.49 s.
Fragmento 16/100 preprocesado: 877.29 s.
Fragmento 16/100 extraídos 10 registros de la D.N.: 877.47 s.
Fragmento 16/100 normalizado: 903.46 s.
Fragmento 16/100 guardado: 905.56 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 17/100 leído: 922.27 s.
Fragmento 17/100 preprocesado: 941.68 s.
Fragmento 17/100 extraídos 7 registros de la D.N.: 941.87 s.
Fragmento 17/100 normalizado: 966.75 s.
Fragmento 17/100 guardado: 968.79 s.
Fragmento 18/100 leído: 986.25 s.
Fragmento 18/100 preprocesado: 1003.68 s.
Fragmento 18/100 extraídos 0 registros de la D.N.: 1003.86 s.
Fragmento 18/100 normalizado: 1029.34 s.
Fragmento 18/100 guardado: 1030.92 s.
Fragmento 19/100 leído: 1048.93 s.
Fragmento 19/100 preprocesado: 1066.19 s.
Fragmento 19/100 extraídos 0 registros de la D.N.: 1066.37 s.
Fragmento 19/100 normalizado: 1090.75 s.
Fragmento 19/100 guardado: 1092.15 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 20/100 leído: 1111.08 s.
Fragmento 20/100 preprocesado: 1128.08 s.
Fragmento 20/100 extraídos 0 registros de la D.N.: 1128.26 s.
Fragmento 20/100 normalizado: 1153.24 s.
Fragmento 20/100 guardado: 1154.72 s.
Fragmento 21/100 leído: 1174.48 s.
Fragmento 21/100 preprocesado: 1191.74 s.
Fragmento 21/100 extraídos 0 registros de la D.N.: 1191.92 s.
Fragmento 21/100 normalizado: 1216.92 s.
Fragmento 21/100 guardado: 1218.31 s.
Fragmento 22/100 leído: 1238.84 s.
Fragmento 22/100 preprocesado: 1255.86 s.
Fragmento 22/100 extraídos 0 registros de la D.N.: 1256.04 s.
Fragmento 22/100 normalizado: 1281.19 s.
Fragmento 22/100 guardado: 1282.68 s.
Fragmento 23/100 leído: 1303.92 s.
Fragmento 23/100 preprocesado: 1321.26 s.
Fragmento 23/100 extraídos 0 registros de la D.N.: 1321.44 s.
Fragmento 23/100 normalizado: 1345.78 s.
Fragmento 23/100 guardado: 1347.34 s.
Fragmento 24/100 leído: 1369.54 s.
Fragmento 24/100 preprocesado: 1386.68 s.
Fragmento 24/100 extraídos 0 registros de la D.N.: 

  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 26/100 leído: 1505.88 s.
Fragmento 26/100 preprocesado: 1523.16 s.
Fragmento 26/100 extraídos 0 registros de la D.N.: 1523.34 s.
Fragmento 26/100 normalizado: 1548.61 s.
Fragmento 26/100 guardado: 1550.16 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 27/100 leído: 1575.25 s.
Fragmento 27/100 preprocesado: 1594.05 s.
Fragmento 27/100 extraídos 17 registros de la D.N.: 1594.23 s.
Fragmento 27/100 normalizado: 1619.00 s.
Fragmento 27/100 guardado: 1621.04 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 28/100 leído: 1647.27 s.
Fragmento 28/100 preprocesado: 1669.78 s.
Fragmento 28/100 extraídos 366 registros de la D.N.: 1669.96 s.
Fragmento 28/100 normalizado: 1695.24 s.
Fragmento 28/100 guardado: 1697.12 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 29/100 leído: 1723.82 s.
Fragmento 29/100 preprocesado: 1742.78 s.
Fragmento 29/100 extraídos 652 registros de la D.N.: 1742.96 s.
Fragmento 29/100 normalizado: 1768.74 s.
Fragmento 29/100 guardado: 1770.75 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 30/100 leído: 1798.35 s.
Fragmento 30/100 preprocesado: 1820.34 s.
Fragmento 30/100 extraídos 36 registros de la D.N.: 1820.53 s.
Fragmento 30/100 normalizado: 1845.81 s.
Fragmento 30/100 guardado: 1847.95 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 31/100 leído: 1876.30 s.
Fragmento 31/100 preprocesado: 1896.65 s.
Fragmento 31/100 extraídos 34 registros de la D.N.: 1896.83 s.
Fragmento 31/100 normalizado: 1922.32 s.
Fragmento 31/100 guardado: 1924.30 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 32/100 leído: 1953.89 s.
Fragmento 32/100 preprocesado: 1975.49 s.
Fragmento 32/100 extraídos 44 registros de la D.N.: 1975.68 s.
Fragmento 32/100 normalizado: 2000.49 s.
Fragmento 32/100 guardado: 2002.46 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 33/100 leído: 2032.59 s.
Fragmento 33/100 preprocesado: 2053.28 s.
Fragmento 33/100 extraídos 33 registros de la D.N.: 2053.46 s.
Fragmento 33/100 normalizado: 2079.14 s.
Fragmento 33/100 guardado: 2081.40 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 34/100 leído: 2112.84 s.
Fragmento 34/100 preprocesado: 2131.95 s.
Fragmento 34/100 extraídos 20 registros de la D.N.: 2132.14 s.
Fragmento 34/100 normalizado: 2157.76 s.
Fragmento 34/100 guardado: 2159.62 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 35/100 leído: 2191.99 s.
Fragmento 35/100 preprocesado: 2212.40 s.
Fragmento 35/100 extraídos 13 registros de la D.N.: 2212.59 s.
Fragmento 35/100 normalizado: 2237.33 s.
Fragmento 35/100 guardado: 2239.40 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 36/100 leído: 2272.42 s.
Fragmento 36/100 preprocesado: 2291.42 s.
Fragmento 36/100 extraídos 16 registros de la D.N.: 2291.61 s.
Fragmento 36/100 normalizado: 2316.99 s.
Fragmento 36/100 guardado: 2319.00 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 37/100 leído: 2352.71 s.
Fragmento 37/100 preprocesado: 2372.90 s.
Fragmento 37/100 extraídos 29 registros de la D.N.: 2373.09 s.
Fragmento 37/100 normalizado: 2398.39 s.
Fragmento 37/100 guardado: 2400.23 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 38/100 leído: 2434.84 s.
Fragmento 38/100 preprocesado: 2455.57 s.
Fragmento 38/100 extraídos 27 registros de la D.N.: 2455.75 s.
Fragmento 38/100 normalizado: 2480.63 s.
Fragmento 38/100 guardado: 2482.71 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 39/100 leído: 2518.58 s.
Fragmento 39/100 preprocesado: 2547.47 s.
Fragmento 39/100 extraídos 29 registros de la D.N.: 2547.65 s.
Fragmento 39/100 normalizado: 2572.61 s.
Fragmento 39/100 guardado: 2574.57 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 40/100 leído: 2611.13 s.
Fragmento 40/100 preprocesado: 2644.50 s.
Fragmento 40/100 extraídos 230 registros de la D.N.: 2644.68 s.
Fragmento 40/100 normalizado: 2670.45 s.
Fragmento 40/100 guardado: 2672.44 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 41/100 leído: 2709.76 s.
Fragmento 41/100 preprocesado: 2731.25 s.
Fragmento 41/100 extraídos 1779 registros de la D.N.: 2731.43 s.
Fragmento 41/100 normalizado: 2758.16 s.
Fragmento 41/100 guardado: 2760.42 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 42/100 leído: 2798.94 s.
Fragmento 42/100 preprocesado: 2820.42 s.
Fragmento 42/100 extraídos 1950 registros de la D.N.: 2820.61 s.
Fragmento 42/100 normalizado: 2847.82 s.
Fragmento 42/100 guardado: 2849.93 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 43/100 leído: 2890.41 s.
Fragmento 43/100 preprocesado: 2911.49 s.
Fragmento 43/100 extraídos 1951 registros de la D.N.: 2911.67 s.
Fragmento 43/100 normalizado: 2939.02 s.
Fragmento 43/100 guardado: 2941.18 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 44/100 leído: 2981.56 s.
Fragmento 44/100 preprocesado: 3002.66 s.
Fragmento 44/100 extraídos 2241 registros de la D.N.: 3002.85 s.
Fragmento 44/100 normalizado: 3030.42 s.
Fragmento 44/100 guardado: 3032.66 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 45/100 leído: 3074.24 s.
Fragmento 45/100 preprocesado: 3095.55 s.
Fragmento 45/100 extraídos 2028 registros de la D.N.: 3095.74 s.
Fragmento 45/100 normalizado: 3123.28 s.
Fragmento 45/100 guardado: 3125.54 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 46/100 leído: 3168.05 s.
Fragmento 46/100 preprocesado: 3189.35 s.
Fragmento 46/100 extraídos 2181 registros de la D.N.: 3189.53 s.
Fragmento 46/100 normalizado: 3217.45 s.
Fragmento 46/100 guardado: 3219.53 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 47/100 leído: 3263.52 s.
Fragmento 47/100 preprocesado: 3284.93 s.
Fragmento 47/100 extraídos 2071 registros de la D.N.: 3285.12 s.
Fragmento 47/100 normalizado: 3312.68 s.
Fragmento 47/100 guardado: 3314.99 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 48/100 leído: 3359.82 s.
Fragmento 48/100 preprocesado: 3381.73 s.
Fragmento 48/100 extraídos 2078 registros de la D.N.: 3381.92 s.
Fragmento 48/100 normalizado: 3409.55 s.
Fragmento 48/100 guardado: 3411.76 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 49/100 leído: 3457.98 s.
Fragmento 49/100 preprocesado: 3479.51 s.
Fragmento 49/100 extraídos 1633 registros de la D.N.: 3479.71 s.
Fragmento 49/100 normalizado: 3507.54 s.
Fragmento 49/100 guardado: 3509.98 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 50/100 leído: 3557.50 s.
Fragmento 50/100 preprocesado: 3579.24 s.
Fragmento 50/100 extraídos 1825 registros de la D.N.: 3579.42 s.
Fragmento 50/100 normalizado: 3606.91 s.
Fragmento 50/100 guardado: 3609.37 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 51/100 leído: 3657.00 s.
Fragmento 51/100 preprocesado: 3678.27 s.
Fragmento 51/100 extraídos 1767 registros de la D.N.: 3678.46 s.
Fragmento 51/100 normalizado: 3706.14 s.
Fragmento 51/100 guardado: 3708.32 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 52/100 leído: 3757.26 s.
Fragmento 52/100 preprocesado: 3778.41 s.
Fragmento 52/100 extraídos 2114 registros de la D.N.: 3778.60 s.
Fragmento 52/100 normalizado: 3806.40 s.
Fragmento 52/100 guardado: 3808.51 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 53/100 leído: 3858.70 s.
Fragmento 53/100 preprocesado: 3880.43 s.
Fragmento 53/100 extraídos 2202 registros de la D.N.: 3880.63 s.
Fragmento 53/100 normalizado: 3908.53 s.
Fragmento 53/100 guardado: 3910.82 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 54/100 leído: 3962.39 s.
Fragmento 54/100 preprocesado: 3984.29 s.
Fragmento 54/100 extraídos 2053 registros de la D.N.: 3984.48 s.
Fragmento 54/100 normalizado: 4012.81 s.
Fragmento 54/100 guardado: 4015.07 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 55/100 leído: 4067.39 s.
Fragmento 55/100 preprocesado: 4088.92 s.
Fragmento 55/100 extraídos 1921 registros de la D.N.: 4089.11 s.
Fragmento 55/100 normalizado: 4116.83 s.
Fragmento 55/100 guardado: 4119.13 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 56/100 leído: 4172.54 s.
Fragmento 56/100 preprocesado: 4194.16 s.
Fragmento 56/100 extraídos 2130 registros de la D.N.: 4194.35 s.
Fragmento 56/100 normalizado: 4222.10 s.
Fragmento 56/100 guardado: 4224.48 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 57/100 leído: 4279.20 s.
Fragmento 57/100 preprocesado: 4301.17 s.
Fragmento 57/100 extraídos 1693 registros de la D.N.: 4301.36 s.
Fragmento 57/100 normalizado: 4329.51 s.
Fragmento 57/100 guardado: 4331.54 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 58/100 leído: 4387.31 s.
Fragmento 58/100 preprocesado: 4409.42 s.
Fragmento 58/100 extraídos 1962 registros de la D.N.: 4409.60 s.
Fragmento 58/100 normalizado: 4436.85 s.
Fragmento 58/100 guardado: 4439.15 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 59/100 leído: 4495.92 s.
Fragmento 59/100 preprocesado: 4517.47 s.
Fragmento 59/100 extraídos 1798 registros de la D.N.: 4517.67 s.
Fragmento 59/100 normalizado: 4544.71 s.
Fragmento 59/100 guardado: 4546.98 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 60/100 leído: 4604.75 s.
Fragmento 60/100 preprocesado: 4625.73 s.
Fragmento 60/100 extraídos 1934 registros de la D.N.: 4625.93 s.
Fragmento 60/100 normalizado: 4653.43 s.
Fragmento 60/100 guardado: 4655.63 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 61/100 leído: 4714.13 s.
Fragmento 61/100 preprocesado: 4736.03 s.
Fragmento 61/100 extraídos 2127 registros de la D.N.: 4736.22 s.
Fragmento 61/100 normalizado: 4763.88 s.
Fragmento 61/100 guardado: 4766.16 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 62/100 leído: 4826.10 s.
Fragmento 62/100 preprocesado: 4847.80 s.
Fragmento 62/100 extraídos 2054 registros de la D.N.: 4847.99 s.
Fragmento 62/100 normalizado: 4875.94 s.
Fragmento 62/100 guardado: 4878.19 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 63/100 leído: 4939.30 s.
Fragmento 63/100 preprocesado: 4961.13 s.
Fragmento 63/100 extraídos 2013 registros de la D.N.: 4961.33 s.
Fragmento 63/100 normalizado: 4988.81 s.
Fragmento 63/100 guardado: 4991.16 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 64/100 leído: 5053.03 s.
Fragmento 64/100 preprocesado: 5076.18 s.
Fragmento 64/100 extraídos 548 registros de la D.N.: 5076.37 s.
Fragmento 64/100 normalizado: 5102.85 s.
Fragmento 64/100 guardado: 5104.95 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 65/100 leído: 5168.04 s.
Fragmento 65/100 preprocesado: 5191.16 s.
Fragmento 65/100 extraídos 475 registros de la D.N.: 5191.35 s.
Fragmento 65/100 normalizado: 5217.41 s.
Fragmento 65/100 guardado: 5219.38 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 66/100 leído: 5282.81 s.
Fragmento 66/100 preprocesado: 5305.35 s.
Fragmento 66/100 extraídos 486 registros de la D.N.: 5305.53 s.
Fragmento 66/100 normalizado: 5331.71 s.
Fragmento 66/100 guardado: 5333.54 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 67/100 leído: 5398.05 s.
Fragmento 67/100 preprocesado: 5418.99 s.
Fragmento 67/100 extraídos 492 registros de la D.N.: 5419.17 s.
Fragmento 67/100 normalizado: 5445.40 s.
Fragmento 67/100 guardado: 5447.68 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 68/100 leído: 5513.28 s.
Fragmento 68/100 preprocesado: 5533.78 s.
Fragmento 68/100 extraídos 649 registros de la D.N.: 5533.96 s.
Fragmento 68/100 normalizado: 5560.84 s.
Fragmento 68/100 guardado: 5562.96 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 69/100 leído: 5630.44 s.
Fragmento 69/100 preprocesado: 5650.88 s.
Fragmento 69/100 extraídos 698 registros de la D.N.: 5651.06 s.
Fragmento 69/100 normalizado: 5677.27 s.
Fragmento 69/100 guardado: 5679.59 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 70/100 leído: 5747.32 s.
Fragmento 70/100 preprocesado: 5768.14 s.
Fragmento 70/100 extraídos 2272 registros de la D.N.: 5768.33 s.
Fragmento 70/100 normalizado: 5796.21 s.
Fragmento 70/100 guardado: 5798.20 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 71/100 leído: 5867.41 s.
Fragmento 71/100 preprocesado: 5887.54 s.
Fragmento 71/100 extraídos 2612 registros de la D.N.: 5887.72 s.
Fragmento 71/100 normalizado: 5915.63 s.
Fragmento 71/100 guardado: 5917.74 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 72/100 leído: 5987.70 s.
Fragmento 72/100 preprocesado: 6009.10 s.
Fragmento 72/100 extraídos 2544 registros de la D.N.: 6009.29 s.
Fragmento 72/100 normalizado: 6037.13 s.
Fragmento 72/100 guardado: 6039.44 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 73/100 leído: 6110.05 s.
Fragmento 73/100 preprocesado: 6132.81 s.
Fragmento 73/100 extraídos 2584 registros de la D.N.: 6133.01 s.
Fragmento 73/100 normalizado: 6160.84 s.
Fragmento 73/100 guardado: 6163.03 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 74/100 leído: 6235.02 s.
Fragmento 74/100 preprocesado: 6256.13 s.
Fragmento 74/100 extraídos 2586 registros de la D.N.: 6256.32 s.
Fragmento 74/100 normalizado: 6284.19 s.
Fragmento 74/100 guardado: 6286.29 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 75/100 leído: 6359.08 s.
Fragmento 75/100 preprocesado: 6380.24 s.
Fragmento 75/100 extraídos 2567 registros de la D.N.: 6380.43 s.
Fragmento 75/100 normalizado: 6408.42 s.
Fragmento 75/100 guardado: 6410.41 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 76/100 leído: 6485.22 s.
Fragmento 76/100 preprocesado: 6506.84 s.
Fragmento 76/100 extraídos 2572 registros de la D.N.: 6507.04 s.
Fragmento 76/100 normalizado: 6535.32 s.
Fragmento 76/100 guardado: 6537.67 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 77/100 leído: 6612.61 s.
Fragmento 77/100 preprocesado: 6635.23 s.
Fragmento 77/100 extraídos 2571 registros de la D.N.: 6635.43 s.
Fragmento 77/100 normalizado: 6663.61 s.
Fragmento 77/100 guardado: 6665.72 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 78/100 leído: 6741.37 s.
Fragmento 78/100 preprocesado: 6761.96 s.
Fragmento 78/100 extraídos 2742 registros de la D.N.: 6762.16 s.
Fragmento 78/100 normalizado: 6790.37 s.
Fragmento 78/100 guardado: 6792.41 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 79/100 leído: 6868.90 s.
Fragmento 79/100 preprocesado: 6891.80 s.
Fragmento 79/100 extraídos 894 registros de la D.N.: 6892.00 s.
Fragmento 79/100 normalizado: 6918.73 s.
Fragmento 79/100 guardado: 6920.69 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 80/100 leído: 6997.78 s.
Fragmento 80/100 preprocesado: 7017.36 s.
Fragmento 80/100 extraídos 358 registros de la D.N.: 7017.55 s.
Fragmento 80/100 normalizado: 7044.23 s.
Fragmento 80/100 guardado: 7046.21 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 81/100 leído: 7125.03 s.
Fragmento 81/100 preprocesado: 7148.73 s.
Fragmento 81/100 extraídos 337 registros de la D.N.: 7148.91 s.
Fragmento 81/100 normalizado: 7175.16 s.
Fragmento 81/100 guardado: 7177.55 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 82/100 leído: 7256.95 s.
Fragmento 82/100 preprocesado: 7277.62 s.
Fragmento 82/100 extraídos 454 registros de la D.N.: 7277.80 s.
Fragmento 82/100 normalizado: 7303.86 s.
Fragmento 82/100 guardado: 7305.84 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 83/100 leído: 7386.55 s.
Fragmento 83/100 preprocesado: 7407.99 s.
Fragmento 83/100 extraídos 408 registros de la D.N.: 7408.17 s.
Fragmento 83/100 normalizado: 7435.02 s.
Fragmento 83/100 guardado: 7436.99 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 84/100 leído: 7519.33 s.
Fragmento 84/100 preprocesado: 7539.38 s.
Fragmento 84/100 extraídos 538 registros de la D.N.: 7539.56 s.
Fragmento 84/100 normalizado: 7565.44 s.
Fragmento 84/100 guardado: 7567.53 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 85/100 leído: 7650.51 s.
Fragmento 85/100 preprocesado: 7670.91 s.
Fragmento 85/100 extraídos 712 registros de la D.N.: 7671.10 s.
Fragmento 85/100 normalizado: 7697.62 s.
Fragmento 85/100 guardado: 7699.68 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 86/100 leído: 7784.05 s.
Fragmento 86/100 preprocesado: 7805.17 s.
Fragmento 86/100 extraídos 504 registros de la D.N.: 7805.36 s.
Fragmento 86/100 normalizado: 7832.08 s.
Fragmento 86/100 guardado: 7834.33 s.


  interactivity=interactivity, compiler=compiler, result=result)


Fragmento 87/100 leído: 7918.66 s.
Fragmento 87/100 preprocesado: 7939.64 s.
Fragmento 87/100 extraídos 157 registros de la D.N.: 7939.82 s.
Fragmento 87/100 normalizado: 7965.93 s.
Fragmento 87/100 guardado: 7967.96 s.
Fragmento 88/100 leído: 8053.37 s.
Fragmento 88/100 preprocesado: 8066.54 s.
Fragmento 88/100 extraídos 0 registros de la D.N.: 8066.71 s.
Fragmento 88/100 normalizado: 8092.64 s.
Fragmento 88/100 guardado: 8094.12 s.
Fragmento 89/100 leído: 8180.31 s.
Fragmento 89/100 preprocesado: 8193.16 s.
Fragmento 89/100 extraídos 0 registros de la D.N.: 8193.35 s.
Fragmento 89/100 normalizado: 8219.12 s.
Fragmento 89/100 guardado: 8220.73 s.
Fragmento 90/100 leído: 8308.38 s.
Fragmento 90/100 preprocesado: 8321.12 s.
Fragmento 90/100 extraídos 0 registros de la D.N.: 8321.31 s.
Fragmento 90/100 normalizado: 8346.12 s.
Fragmento 90/100 guardado: 8347.90 s.
Fragmento 91/100 leído: 8436.89 s.
Fragmento 91/100 preprocesado: 8449.66 s.
Fragmento 91/100 extraídos 0 registros de la D.N.

In [None]:
t0 = time.time()
print('\nUnión de los fragmentos normalizados')
tom_normalizado = pd.DataFrame(columns = cols_var_toma)
# Toma cada archivo de tomas normalizado
for i in range(n):
  # Lee cada archivo en un dataframe y lo concatena al dataframe completo
  tom = pd.read_parquet(f'data_chunks/tomas_normalizado/tomas_normalizado_{i + 1}.parquet')
  tom_normalizado = tom_normalizado.append(tom)
  del tom
  if (i + 1) % 10 == 0:
    print(f'Partes {i + 1}/{n} unidas: {time.time() - t0:.2f} s.')
# Ordena las tomas por 'IdBeneficiario' y fecha de la toma
tom = tom.sort_values(['IdBeneficiario', 'FechaValoracionNutricional', 'Toma'])
# Genera un consecutivo de la toma nutricional 'IdToma'
tom = tom.reset_index(drop=True).reset_index().rename(columns={'index': 'IdToma'})
for col in tom_normalizado.columns:
  tom_normalizado[col] = tom_normalizado[col].astype(dtypes_vars_toma[col])
# Guarda el dataframe a un nuevo archivo .parquet
tom_normalizado.to_parquet('preprocessed_data/tomas_normalizado.parquet')
print(f'Archivo listo: {time.time() - t0:.2f} s.')


Unión de los fragmentos con muestras de la Dirección de Primera Infancia
Partes 10/100 unidas: 3.91 s.
Partes 20/100 unidas: 16.12 s.
Partes 30/100 unidas: 35.49 s.
Partes 40/100 unidas: 62.80 s.
Partes 50/100 unidas: 98.20 s.
Partes 60/100 unidas: 141.43 s.
Partes 70/100 unidas: 197.49 s.
Partes 80/100 unidas: 263.95 s.
Partes 90/100 unidas: 338.53 s.
Partes 100/100 unidas: 423.53 s.
Archivo listo: 463.37 s.


In [None]:
t0 = time.time()
print('\nUnión de los fragmentos con datos del beneficiario')
tom_beneficiario = pd.DataFrame(columns = cols_beneficiario)
# Toma cada archivo de tomas normalizado
for i in range(n):
  # Lee cada archivo en un dataframe y lo concatena al dataframe completo
  tom = pd.read_parquet(f'data_chunks/tomas_beneficiario/tomas_beneficiario_{i + 1}.parquet')
  tom_beneficiario = tom_beneficiario.append(tom)
  del tom
  if (i + 1) % 10 ==0:
    print(f'Partes {i + 1}/{n} unidas: {time.time() - t0:.2f} s.')
# Evita la repetición de índices
tom_beneficiario = tom_beneficiario.reset_index(drop = True)
for col in tom_beneficiario.columns:
  tom_beneficiario[col] = tom_beneficiario[col].astype(dtypes_tom[col])
# Guarda el dataframe a un nuevo archivo .parquet
tom_beneficiario.to_parquet('preprocessed_data/tomas_beneficiario.parquet')
print(f'Archivo listo: {time.time() - t0:.2f} s.')


Unión de los fragmentos con datos del beneficiario
Partes 10/100 unidas: 1.33 s.
Partes 20/100 unidas: 4.28 s.
Partes 30/100 unidas: 9.30 s.
Partes 40/100 unidas: 15.52 s.
Partes 50/100 unidas: 22.78 s.
Partes 60/100 unidas: 31.58 s.
Partes 70/100 unidas: 41.69 s.
Partes 80/100 unidas: 53.21 s.
Partes 90/100 unidas: 66.11 s.
Partes 100/100 unidas: 80.43 s.
Archivo listo: 89.09 s.


### **Unión de los fragmentos homólogos**
Une los `n` = 100 fragmentos preprocesados `TomasDPIpre_#.parquet`, `TomasDNpre_#.parquet`, `Tomas_beneficiario_#.parquet` y `tomas_normalizado_#.parquet` de los subdirectorios del directorio `data_chunks` y en archivos únicos. Requiere el diccionario de datos del archivo `tomas_datatypes.json` con la estructura de datos definida.

####**Inicialización**
Define un dataframe vacío llamado `tom_DPI_complete`, asignándole los nombres de las columnas, según las primeras 98 llaves del diccionario de datos en el archivo `tomas_datatypes.json` del directorio `datatypes_dictionaries`.

####**Lectura**
Lee cada uno de los fragmentos `TomasDPIpre_#.parquet`
del directorio `data_chunks` en un dataframe llamado `tom`, asignándole los nombres de las columnas, según las primeras 98 llaves del diccionario de datos en el archivo `tomas_datatypes.json`.

#### **Unión**
Concatena el dataframe `tom` al dataframe `tom_DPI_complete` y lo borra.

#### **Preprocesamiento**
- Asigna el tipo adecuado a cada variable.
- Reinicia los índices para evitar repeticiones.

#### **Guardado**
Guarda el dataframe completo `tom_DPI_complete` en el archivo de formato binario comprimido `TomasDPIpre.parquet` (473 MB) en el directorio `preprocessed_data`.

In [None]:
t0 = time.time()
print('\nUnión de los fragmentos con muestras de la Dirección de Primera Infancia')
tom_DPI_complete = pd.DataFrame(columns = cols_DPI)
# Toma cada archivo de tomas tomadas por la D. de Nutrición
for i in range(n):
  # Lee cada archivo en un dataframe y lo concatena al dataframe completo
  tom = pd.read_parquet(f'data_chunks/direccion_primera_infancia/tomas_DPI_{i + 1}.parquet')
  tom_DPI_complete = tom_DPI_complete.append(tom)
  del tom
  if (i + 1) % 10 == 0:
    print(f'Partes {i + 1}/{n} unidas: {time.time() - t0:.2f} s.')
# Evita la repetición de índices
tom_DPI_complete = tom_DPI_complete.reset_index(drop = True)
# Asignar a cada variable según su tipo de acuerdo al diccionario de datos
for col in tom_DPI_complete.columns:
  tom_DPI_complete[col] = tom_DPI_complete[col].astype(dtypes_tom[col])
# Guarda el dataframe a un nuevo archivo .parquet
tom_DPI_complete.to_parquet('preprocessed_data/tomas_DPI.parquet')
print(f'Archivo listo: {time.time() - t0:.2f} s.')


Unión de los fragmentos con muestras de la Dirección de Primera Infancia
Partes 10/100 unidas: 7.15 s.
Partes 20/100 unidas: 22.43 s.
Partes 30/100 unidas: 46.86 s.
Partes 40/100 unidas: 79.88 s.
Partes 50/100 unidas: 122.96 s.
Partes 60/100 unidas: 174.18 s.
Partes 70/100 unidas: 235.18 s.
Partes 80/100 unidas: 307.87 s.
Partes 90/100 unidas: 394.85 s.
Partes 100/100 unidas: 502.98 s.
Archivo listo: 538.61 s.


In [None]:
import os.path
t0 = time.time()
print('\nUnión de los fragmentos con muestras de la Dirección de Nutrición')
tom_DN_complete = pd.DataFrame(columns = cols_DN)
# Toma cada archivo de tomas tomadas por la D. de Nutrición
for i in con_tomas_DN:
  if os.path.isfile(f'data_chunks/direccion_nutricion/tomas_DN_{i + 1}.parquet'):
    # Lee cada archivo en un dataframe y lo concatena al dataframe completo
    tom = pd.read_parquet(f'data_chunks/direccion_nutricion/tomas_DN_{i + 1}.parquet')
    tom_DN_complete = tom_DN_complete.append(tom)
    del tom
    if (i + 1) % 10 == 0:
      print(f'Partes {i + 1}/{n} unidas: {time.time() - t0:.2f} s.')
# Evita la repetición de índices
tom_DN_complete = tom_DN_complete.reset_index(drop = True)
for col in tom_DN_complete.columns:
  tom_DN_complete[col] = tom_DN_complete[col].astype(dtypes_tom[col])
# Guarda el dataframe a un nuevo archivo .parquet
tom_DN_complete.to_parquet('preprocessed_data/tomas_DN.parquet')
print(f'Archivo listo: {time.time() - t0:.2f} s.')


Unión de los fragmentos con muestras de la Dirección de Nutrición
Partes 10/100 unidas: 0.53 s.
Partes 30/100 unidas: 2.06 s.
Partes 40/100 unidas: 3.57 s.
Partes 50/100 unidas: 6.64 s.
Partes 60/100 unidas: 11.93 s.
Partes 70/100 unidas: 18.84 s.
Partes 80/100 unidas: 27.39 s.
Archivo listo: 35.59 s.


In [None]:
t0 = time.time()
print('\nReporte de cambios')
# Escribe un archivo con los cambios generados
with open('log_files/log_tomas_1.json', 'w') as log_file:
  log_file.write('Preprocesamiento_Tomas:\n')
  for line in log:
    log_file.write('\t' + line + '\n')
print(f'Archivo listo: {time.time() - t0:.2f} s.')


Reporte de cambios
Archivo listo: 57.04 s.


In [None]:
tomc = pd.read_parquet('data_chunks/tomas_normalizado/tomas_normalizado_94.parquet')
tom = pd.read_parquet('data_chunks/tomas_beneficiario/tomas_beneficiario_94.parquet')
tom.info(), tom.memory_usage().sum()/1e6 #10.8M 212 M

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60076 entries, 0 to 60075
Data columns (total 19 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   Registro                        60076 non-null  UInt32        
 1   Vigencia                        60076 non-null  int64         
 2   IdBeneficiario                  60076 non-null  UInt32        
 3   Id                              26655 non-null  UInt32        
 4   Tipo                            0 non-null      float64       
 5   FechaNacimiento                 60076 non-null  datetime64[ns]
 6   Sexo                            60076 non-null  category      
 7   CodigoPaisNacimiento            60076 non-null  int64         
 8   PaisNacimiento                  60076 non-null  category      
 9   PresentaDiscapacidad            60076 non-null  category      
 10  ZonaUbicacion                   60075 non-null  category      
 11  Gr

(None, 4.087592)

In [None]:
tom_beneficiario = pd.read_parquet('preprocessed_data/tomas_beneficiario.parquet')
tom_beneficiario.info(), tom_beneficiario.memory_usage().sum()/1e6 #6M 349 MB

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6007561 entries, 0 to 6007560
Data columns (total 19 columns):
 #   Column                          Dtype         
---  ------                          -----         
 0   Registro                        UInt32        
 1   Vigencia                        int64         
 2   IdBeneficiario                  UInt32        
 3   Id                              UInt32        
 4   Tipo                            category      
 5   FechaNacimiento                 datetime64[ns]
 6   Sexo                            category      
 7   CodigoPaisNacimiento            float64       
 8   PaisNacimiento                  category      
 9   PresentaDiscapacidad            category      
 10  ZonaUbicacion                   category      
 11  GrupoEtnico                     category      
 12  MesesLactanciaMaternaExclusiva  UInt8         
 13  MesesLactanciaMaternaTotal      UInt8         
 14  PesoAlNacer                     float32       
 15

(None, 366.468909)

In [None]:
tom_DPI = pd.read_parquet('preprocessed_data/tomas_DPI.parquet')
tom_DPI.info(), tom_DPI.memory_usage().sum()/1e6 #10.8M 212 M 78004

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5931324 entries, 0 to 5931323
Data columns (total 84 columns):
 #   Column                            Dtype         
---  ------                            -----         
 0   Registro                          UInt32        
 1   Vigencia                          int64         
 2   IdBeneficiario                    UInt32        
 3   Id                                UInt32        
 4   Toma1                             float64       
 5   ServicioT1                        category      
 6   FechaValoracionNutricionalT1      datetime64[ns]
 7   EdadMesesT1                       float32       
 8   FechaMedicionPerimetroBraquialT1  datetime64[ns]
 9   MedicionPerimetroBraquialT1       float32       
 10  PesoT1                            float32       
 11  TallaT1                           float32       
 12  ZScoreTallaEdadT1                 float32       
 13  ZScorePesoEdadT1                  float32       
 14  ZScorePesoTallaT1 

(None, 1892.102332)

In [None]:
tom_DN = pd.read_parquet('preprocessed_data/tomas_DN.parquet')
tom_DN.info(), tom_DN.memory_usage().sum()/1e6 #10.8M 212 M

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 78004 entries, 0 to 78003
Columns: 245 entries, Registro to AntecedentePremadurezT12N
dtypes: UInt32(3), UInt8(24), category(81), datetime64[ns](28), float32(96), float64(12), int64(1)
memory usage: 63.7 MB


(None, 66.789728)