### HU.2022.BICODE.BIGDATA.MPDESNUT.001

#### Base, exploración de datos y modelación probabilística de la reincidencia en desnutrición aguda, en niños de 0 a 5 años 

###### Complejidad:	Alta
###### Descripción:	
Desde las direcciones de Primera Infancia y Nutrición del ICBF, se requiere contar con el desarrollo de un modelo probabilístico que permita a partir de los análisis de los datos y de las fuentes asociadas a eventos de desnutrición aguda, predecir la probabilidad de reincidencia de desnutrición aguda, de aquellos niños y niñas que presentan esta condición y logran su recuperación y a partir de éste, determinar si pueden o no reincidir en desnutrición aguda moderada o aguda severa.

##### A.	Criterios relacionados con la conformación de la base y la construcción de la variable objetivo

El modelo desarrollado deberá ser enfocado en los tipos de desnutrición aguda moderada y desnutrición aguda severa, específica de la población objeto de análisis (niños y niñas de rango de 0 a 5 años), por debajo de la línea z-2 o z-3 de peso talla para la longitud/talla.

Para la identificación de este tipo de Desnutrición se debe tener en cuenta los siguientes parámetros, con los cuales deberá construirse la variable objetivo:  
  
  > Desnutrición Aguda Moderada   Peso/Talla (P/T)   < -2 a <= -3  
  > Desnutrición Aguda Severa      Peso/Talla (P/T)   < -3 

	
•	Para la medición y construcción de la variable objetivo a modelar, deben enlistarse los servicios donde el niño fue atendido y/o participa en seguimiento del proceso:   

  >	Dirección de Primera Infancia  
  >	Dirección de Nutrición

•	Para la selección de los registros con desnutrición aguda se debe tener en cuenta los siguientes criterios:  

  >	Solo tomar aquellos registros con flag cero (0)  
  >	Registros cuya edad en meses al momento de la valoración sea de 0 a 59 meses  
  >	Registros cuyo sexo sea diferente a Intersexual (I)  
  >	Registros cuya información en Variable Diagnostico Discapacidad: es diferente de Sindromedown, acondroplasia, parálisis cerebral  
  >	Comparando las tallas de la toma que se está revisando y la anterior: si la anterior es inferior, no tomar esos registros  
  >	No tener en cuenta aquellos registros que, a la fecha de valoración, el beneficiario tenga menos de 40 semanas.  

•	La variable objetivo deberá contener los tres (3) momentos de evolución en las mediciones antropométricas que intervienen en la definición de reincidencia:
  
  > Una primera identificación de desnutrición aguda.  
  > Una segunda medición que indica que la situación de desnutrición aguda fue superada.  
  > Una tercera medición que indica que de nuevo existe desnutrición aguda.  
  
•	La variable objetivo deberá estar atada a una ventana de tiempo de observación trimestral o semestral, según como se defina que hay mayor fortaleza en la calidad de los datos. 
•	Así mismo, el modelo deberá realizar estimaciones en el marco de esa misma ventana temporal elegida.

•	Las observaciones de mediciones antropométricas deberán surtir un proceso de estandarización entre Nutrición y Primera Infancia, dado que en uno u otros servicios se realizan de forma mensual o trimestral. Por lo tanto, deberá decidirse si, en el caso de las mediciones mensuales, se tomaría la primera, segunda o tercera medición. La recomendación técnica apunta hacia tomar la primera medición del trimestre en la que se identifique la desnutrición aguda, como punto inicial para la variable objetivo.

•	Deberá conformarse una primera base histórica con suficientes registros que permitan realizar la modelación de manera adecuada, dividiendo los sets entre entrenamiento, comprobación y validación.

Importar librerías

In [0]:
import os, shutil, sys
import pandas as pd

Definir punto de montaje para extraer los datos del DataLake.   
> Contenedor icbf-bronze, base de datos RubOnline

### Conexion con los datos
##### INS, SISBEN,Indicadores Externos, Cuéntame (RubOnline) y DANE

In [0]:
dbfsPath = "dbfs:/mnt/bronze/icbf-rubonline"
path = os.listdir(f"{dbfsPath.replace('dbfs:','/dbfs/')}")

In [0]:
#Cortes Consolidados INS
BASE_CONFIRMADOS_BICF = "dbfs:/mnt/gold/icbf-datalakegai/Externas/INS/CONSOLIDADOS/BASE_CONFIRMADOS_BICF.parquet"
BASE_CONFIRMADOS_BICF = spark.read.parquet(BASE_CONFIRMADOS_BICF)

BASE_CONFIRMADOS_ICBF = "dbfs:/mnt/gold/icbf-datalakegai/Externas/INS/CONSOLIDADOS/BASE_CONFIRMADOS_ICBF.parquet"
BASE_CONFIRMADOS_ICBF = spark.read.parquet(BASE_CONFIRMADOS_ICBF)

BASE_EVENTO_113 = "dbfs:/mnt/gold/icbf-datalakegai/Externas/INS/CONSOLIDADOS/BASE_EVENTO_113.parquet"
BASE_EVENTO_113 = spark.read.parquet(BASE_EVENTO_113)

BASE_PROBABLES = "dbfs:/mnt/gold/icbf-datalakegai/Externas/INS/CONSOLIDADOS/BASE_PROBABLES.parquet"
BASE_PROBABLES = spark.read.parquet(BASE_PROBABLES)

In [0]:
BASE_CONFIRMADOS_BICF.columns

In [0]:
BASE_PROBABLES.columns

> Se enlistan las tablas (parquet) que se van a utilizar para este proceso.

In [0]:
listTables = [  
    
#Nutricion + Beneficiario
    "ben.infogrupoetnico",
    "ben.grupoetnico",
    "ben.regimenseguridadsocial",
    "ben.infoadicionaldiscapacidad",
    "ben.condiciondiscapacidad",
    "ben.saludnutricion",
    "ben.infogrupoetnico",
    "ben.grupoetnico",
    "ben.regimenseguridadsocial",
    "ben.infoadicionaldiscapacidad",
    "ben.condiciondiscapacidad",
    "ben.serviciovigenciasaludnutricion",
    "ben.atencionbeneficiario",
    "ben.tipobeneficiario",
    "ben.indicadornutricion",
    "ben.beneficiario",
    "con.serviciocontratado",

#Globales    
    
    "global.serviciovigencia",
    "global.tiposdocumentos",
    "global.sexo",
    "global.direccionesicbf",
        
#Demográficos
    
    "div.pais",
    "div.departamento",
    "div.municipio",
    "div.comuna",
    "div.barrio",
    "div.veredas",
    "div.rancheria"
]

> Función para montar las tablas:

In [0]:
notExists = []

for file in listTables: 
    newFile = file.split('.')[0] + '_' + file.split('.')[1] + '.parquet'
    tableName = newFile.replace('.parquet','')
    if newFile not in path: 
        notExists.append(file)
    else: 
        spark.read.parquet(f"{dbfsPath}/{newFile}").createOrReplaceTempView(f"{tableName}")
print(f"Las tablas: {notExists} no pudieron ser creadas")

In [0]:
ins_cortes = spark.read.parquet("dbfs:/mnt/gold/icbf-gai/BasesComplementariasModeloProbabilistico/INS_CORTES.parquet",inferSchema="true",header="True")
ins_cortes.createOrReplaceTempView("ins_cortes")
#sisben = spark.read.format("delta").load("dbfs:/mnt/gold/icbf-datalakegai/Externas/DNP/Sisben_III_Consolidado/")
#
sisben = spark.read.options(header=True,delimiter='|').csv("dbfs:/mnt/gold/icbf-datalakegai/Externas/DNP/sisben4/cortes/2022/20220331/Sisben_20220331.csv")
sisben.createOrReplaceTempView("sisben")

In [0]:
len(sisben.columns)
len(ins_cortes.columns)
display(ins_cortes)
#INS_pri_ape_

INS_num_ide_,INS_cod_eve,INS_fec_not,INS_semana,INS_año,INS_cod_pre,INS_cod_sub,INS_pri_nom_,INS_seg_nom_,INS_pri_ape_,INS_seg_ape_,INS_tip_ide_,INS_edad_,INS_uni_med_,INS_nacionali_,INS_nombre_nacionalidad,INS_sexo_,INS_cod_pais_o,INS_cod_dpto_o,INS_cod_mun_o,INS_area_,INS_localidad_,INS_vereda_,INS_bar_ver_,INS_dir_res_,INS_ocupacion_,INS_tip_ss_,INS_cod_ase_,INS_per_etn_,INS_nom_grupo_,INS_estrato,INS_gp_discapa,INS_gp_desplaz,INS_gp_migrant,INS_gp_carcela,INS_gp_gestan,INS_gp_indigen,INS_gp_pobicbf,INS_gp_mad_com,INS_gp_desmovi,INS_gp_psiquia,INS_gp_vic_vio,INS_gp_otros,INS_fuente,INS_cod_dpto_r,INS_cod_mun_r,INS_fec_con_,INS_ini_sin_,INS_tip_cas_,INS_pac_hos_,INS_fec_hos_,INS_con_fin_,INS_fec_def_,INS_ajuste_,INS_telefono_,INS_fecha_nto_,INS_fec_arc_xl,INS_nom_dil_f_,INS_tel_dil_f_,INS_fec_aju_,INS_nit_upgd,INS_version,INS_pri_nom_ma,INS_seg_nom_ma,INS_pri_ape_ma,INS_seg_ape_ma,INS_tip_ide_ma,INS_num_ide_ma,INS_niv_educat,INS_menores,INS_peso_nac,INS_talla_nac,INS_edad_ges,INS_t_lechem,INS_e_complem,INS_crec_dllo,INS_esq_vac,INS_carne_vac,INS_peso_act,INS_talla_act,INS_per_braqui,INS_imc,INS_zscore_pt,INS_clas_peso,INS_zscore_te,INS_clas_talla,INS_edema,INS_delgadez,INS_piel_rese,INS_hiperpigm,INS_cambios_cabello,INS_palidez,INS_ruta_atenc,INS_nom_eve,INS_nom_upgd,INS_ndep_proce,INS_nmun_proce,INS_ndep_resi,INS_nmun_resi,INS_ndep_notif,INS_nmun_notif,INS_nreg,INS_EDAD_MESES,INS_CONCATENAR
,113.0,2019-01-05,1.0,2019.0,5400190000.0,15.0,SIXTO,FINOL,CORONA,,MS,1.0,1.0,,,M,862.0,1.0,850.0,3.0,,9999999 SIN INFORMACION,,BARRIO NUEVO ESCOBAL ASENTAMIENTO YUKPA,9999.0,N,,1.0,YUKPA,1.0,2.0,2.0,1.0,2.0,,2.0,2.0,,2.0,2.0,2.0,2.0,1.0,54.0,1.0,2019-01-04,2018-07-01,4.0,2.0,- -,1.0,- -,0.0,0000,2017-11-06,2019-05-22,MAYLEM MÉNDEZ VERA,3183955853,2019-01-05,540019000015.0,SIVIGILA - 2018 -18.1.5$0$1.3,DIONISTA,,CORONA,,AS,AS,5.0,2.0,0.0,0.0,0.0,9.0,3.0,2.0,2.0,2.0,4.2,59.0,8.8,12.07,-3.8632,1.0,-7.386,1.0,2.0,1.0,1.0,2.0,1.0,1.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,ACCION CONTRA EL HAMBRE,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,NORTE SANTANDER,CUCUTA,NORTE SANTANDER,CUCUTA,1428.0,28.51194389655929,
1.0,113.0,2019-02-18,8.0,2019.0,2000101794.0,1.0,DELLIA,,IZQUIERDO,ARROYO,MS,1.0,1.0,170.0,COLOMBIA,F,170.0,20.0,1.0,1.0,,,ASENTAMIENTO SEIVAN,ASENTAMIENTO SEIVAN,9999.0,N,,1.0,YUKPA,,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,20.0,1.0,2019-02-18,2019-02-13,4.0,1.0,2019-02-18,1.0,- -,7.0,SIN INFORMACION,2017-04-30,2019-05-22,EDGARDO MAESTRE,3202469415,2019-04-05,9006010527.0,SIVIGILA - 2018 -18.1.5$0$2.2,SEWIA,,ARROYO,BILLAFAÑA,CC,1133601023,5.0,1.0,0.0,0.0,0.0,0.0,0.0,2.0,3.0,2.0,8.4,80.0,12.0,13.13,-2.1232,2.0,-1.195,2.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,UNIDAD PEDIATRICA SIMION BOLIVAR,CESAR,VALLEDUPAR,CESAR,VALLEDUPAR,CESAR,VALLEDUPAR,7160.0,8.382642998027599,
2.0,113.0,2019-06-15,24.0,2019.0,5400190000.0,13.0,URIEL,,RODRIGUEZ,GUTIERREZ,MS,,,862.0,VENEZUELA,M,170.0,54.0,1.0,1.0,CUCUTA,,VALLES DEL RODEO,VALLES DEL RODEO MZ B CASA 2,9999.0,N,,6.0,,2.0,2.0,2.0,1.0,2.0,,2.0,2.0,,2.0,2.0,2.0,2.0,1.0,54.0,1.0,2019-06-15,2019-06-01,4.0,2.0,- -,1.0,- -,0.0,3209889518,2017-06-26,2019-06-19,GUSTAVO GONZALEZ,5784980,2019-06-17,540019000013.0,SIVIGILA - 2018 -18.1.5$0$2.3,KATIUSCA,ALEXANDRA,GUTIERREZ,,CE,18699527,4.0,1.0,2960.0,49.0,38.0,0.0,10.0,2.0,3.0,2.0,10.0,87.0,0.0,13.21,-2.3123,2.0,0.0197,3.0,2.0,1.0,2.0,2.0,2.0,2.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,AMERICARES IPS BOCONO,NORTE SANTANDER,CUCUTA,NORTE SANTANDER,CUCUTA,NORTE SANTANDER,CUCUTA,11133.0,23.635765943458203,
3.0,113.0,2019-02-22,8.0,2019.0,8100190001.0,0.0,JESUS,ESNEIDER,ROA,CASTRO,MS,3.0,1.0,862.0,VENEZUELA,M,862.0,1.0,850.0,1.0,,,GUASDUALITO,GUASDUALITO VENEZUELA,9999.0,I,,6.0,,1.0,2.0,2.0,1.0,2.0,,2.0,2.0,,2.0,2.0,2.0,2.0,1.0,1.0,850.0,2019-02-22,- -,4.0,2.0,- -,1.0,- -,0.0,NO REFIERE,2015-12-17,2019-05-22,VANESSA HERNANDEZ,3103164260,2019-02-25,8921201151.0,SIVIGILA - 2018 -18.1.5$0$0.2,LAURA,SORELIS,CASTRO,GALINDEZ,AS,VE26351032,2.0,2.0,3700.0,47.0,37.0,0.0,6.0,2.0,2.0,1.0,10.0,91.0,0.0,12.08,-3.5518,1.0,-1.6787,2.0,2.0,1.0,1.0,1.0,1.0,1.0,2.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,FUNDACION AMERICARES,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,ARAUCA,ARAUCA,3663.0,38.2314266929652,
6.0,113.0,2019-01-22,4.0,2019.0,5481001073.0,1.0,KEILY,EDIMAR,BARGAS,MORALES,MS,3.0,1.0,,,F,170.0,54.0,810.0,1.0,ZULIA MARACAIBO,,MARACAIBO,CDI EL POLIDEPORTIVO,9999.0,N,,6.0,,1.0,2.0,2.0,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,54.0,810.0,2019-01-10,2019-01-10,4.0,2.0,- -,1.0,- -,0.0,SIN INFORMACION,2015-12-18,2019-05-22,ADRIANA ROJAS,3203667151,2019-01-26,8070088679.0,SIVIGILA - 2018 -18.1.5$0$1.3,CARMEN,,SANTIAGO,CLAVIJO,CC,16721685,2.0,7.0,2500.0,46.0,40.0,11.0,9.0,2.0,1.0,2.0,10.0,87.0,16.5,13.21,-2.0185,2.0,-2.2686,1.0,2.0,1.0,1.0,2.0,2.0,1.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,EMPRESA SOCIAL DEL ESTADO HOSPITAL REGIONAL NORTE,NORTE SANTANDER,TIBU,NORTE SANTANDER,TIBU,NORTE SANTANDER,TIBU,2298.0,37.1794871794872,
13.0,113.0,2019-05-27,22.0,2019.0,4403500718.0,1.0,JOSE,,VIERA,GONZALES,MS,,,862.0,VENEZUELA,M,170.0,44.0,35.0,2.0,,,,CUIDAD ALBANIA,9999.0,N,,6.0,,1.0,2.0,2.0,1.0,2.0,,2.0,2.0,,2.0,2.0,2.0,2.0,1.0,44.0,35.0,2019-05-27,2019-05-25,4.0,2.0,- -,1.0,- -,0.0,3007445967,2017-12-30,2019-06-05,JOSE ROSADO,3173975178,2019-06-05,8250025257.0,SIVIGILA - 2018 - 18.1.5,CRISBEL,YULIETH,GONZALES,SILVA,CE,27207056,2.0,1.0,3000.0,49.0,42.0,16.0,8.0,2.0,1.0,1.0,8.3,77.0,13.5,14.0,-2.1827,2.0,-1.2426,2.0,2.0,1.0,2.0,2.0,2.0,2.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,ESE HOSPITAL SAN RAFAEL DE ALBANIA,GUAJIRA,ALBANIA,GUAJIRA,ALBANIA,GUAJIRA,ALBANIA,9811.0,16.863905325443795,
28.0,113.0,2019-03-10,11.0,2019.0,4484700332.0,1.0,ISAIA,DANIEL,BORJA,GONZALEZ,RC,11.0,2.0,,,M,170.0,44.0,847.0,1.0,URIBIA,,LAS MERCEDES INVASION,BARRIO LAS MERCEDES LA INVASION,9999.0,N,,1.0,WAYUU,1.0,2.0,2.0,2.0,2.0,,2.0,2.0,,2.0,2.0,2.0,1.0,1.0,44.0,847.0,2019-03-10,2019-03-03,4.0,2.0,- -,1.0,- -,0.0,SIN INFORMACION,2018-03-25,2019-05-22,KEYLIN DE LA ESPREILLA,3152564785,2019-03-11,8000617659.0,SIVIGILA - 2018 -18.1.5$0$0.3,GREOSMERY,DEL CARMEN,GONZALEZ,,CC,32031059,2.0,1.0,3500.0,52.0,39.0,8.0,5.0,2.0,1.0,1.0,8.0,76.0,12.0,13.85,-2.4044,2.0,0.6273,3.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,HOSPITAL NUESTRA SEÑORA DEL PERPETUO SOCORRO,GUAJIRA,URIBIA,GUAJIRA,URIBIA,GUAJIRA,URIBIA,4801.0,12.4753451676529,
31.0,113.0,2019-04-29,18.0,2019.0,5487400973.0,1.0,DAINELIS,YONEIVIS,ESCALONA,HERNANDEZ,MS,2.0,1.0,862.0,VENEZUELA,F,862.0,1.0,850.0,1.0,ESTADO ARAGUA,,VALLE DEL TUCUTUNEMO,CENTRO DE ATENCION TRANSITORIO DEL MIGRANTE,9999.0,N,,6.0,,1.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,1.0,1.0,54.0,874.0,2019-04-29,2019-04-17,4.0,2.0,- -,1.0,- -,0.0,SIN INFORMACION,2017-04-01,2019-05-22,MAYLE MENDEZ,3183955853,2019-04-30,8070046313.0,SIVIGILA - 2018 -18.1.5$0$2.1,DIANA,CAMILA,HERNANDEZ,HERNANDEZ,CE,20650734,2.0,2.0,2800.0,48.0,39.0,18.0,6.0,2.0,2.0,2.0,7.9,83.9,10.3,11.22,-3.9936,1.0,-0.5627,3.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,ESE HOSPITAL LOCAL JORGE CRISTO SAHIUM VILLA DEL R,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,NORTE SANTANDER,VILLA DEL ROSARIO,NORTE SANTANDER,VILLA DEL ROSARIO,1309.0,24.9178172255095,
34.0,113.0,2019-08-08,32.0,2019.0,5400190000.0,11.0,EYMAR,LEONEL,ROMERO,OSORIO,MS,,,862.0,VENEZUELA,M,862.0,1.0,850.0,1.0,TACHIRA,,9999999 SIN INFORMACION,LA FRIA CALLE 13,9999.0,N,,6.0,,1.0,2.0,2.0,1.0,2.0,,2.0,2.0,,2.0,2.0,2.0,2.0,1.0,1.0,850.0,2019-08-08,2019-08-08,4.0,2.0,- -,1.0,- -,0.0,041449772327,2018-12-19,2019-08-14,MERCEDES MERCADO,3214413570,2019-08-12,809500646.0,SIVIGILA - 2018 -18.1.5$0$2.4,EYMAR,,ROMERO,,MS,ACTA 34,5.0,1.0,3000.0,51.0,38.0,7.0,6.0,2.0,2.0,2.0,7.0,70.0,12.5,14.29,-2.3232,2.0,0.3848,3.0,2.0,1.0,2.0,2.0,2.0,2.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,CRUZ ROJA COLOMBIANA,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,DEPTO DESCONOCIDO,VENEZUELA - SIN ESPECIFICACIÓN ADICIONAL DE LUGAR,NORTE SANTANDER,CUCUTA,16229.0,7.62656147271532,
44.0,113.0,2019-05-16,20.0,2019.0,4484700332.0,1.0,YASKEIBER,JOSE,IPUANA,,MS,2.0,1.0,170.0,COLOMBIA,M,170.0,44.0,847.0,3.0,,KUISA TAPARAJIN,,RANCHERIA KUISA,9999.0,N,,1.0,WAYUU,1.0,2.0,2.0,2.0,2.0,,2.0,2.0,,2.0,2.0,2.0,1.0,1.0,44.0,847.0,2019-05-16,2019-04-16,4.0,2.0,- -,1.0,- -,0.0,3106488081,2016-09-23,2019-05-22,KEILYN DE LAESPRIELLA,3116925980,2019-05-19,8000617659.0,SIVIGILA - 2018 -18.1.5$0$2.3,ANAIS,,IPUANA,,CC,1192819774,1.0,2.0,0.0,0.0,0.0,0.0,0.0,2.0,2.0,1.0,8.7,78.5,12.5,14.12,-2.0934,2.0,-4.0944,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,DESNUTRICIÓN AGUDA EN MENORES DE 5 AÑOS,HOSPITAL NUESTRA SEÑORA DEL PERPETUO SOCORRO,GUAJIRA,URIBIA,GUAJIRA,URIBIA,GUAJIRA,URIBIA,8428.0,26.188910804295432,


Importación de datos de tabla de indicadores externos más los metadatos para complementar la base principal

In [0]:
#========================================================

#             Tabla de indicadores externos

# COD   CICLO VITAL 

# 1     Primera Infancia 
# 2     Infancia
# 3     Adolescencia 
# 4     Infancia, niñez y adolescencia
# 5     Total Pobalción

#========================================================

# COD 
# TIPO         TIPO      
# ENTIDAD      ENTIDAD 
# TERRITORIAL  TERRITORIAL 

# 1            Municipio 
# 2            Departamento 
# 3            Nacional

#========================================================
consolidadoIndicadores = spark.read.parquet("dbfs:/mnt/gold/icbf-datalakegai/Internas/base indicadores/cortes/2021/CONSOLIDADO_INDICADORES_2019.parquet",inferSchema="true",header="True")
consolidadoIndicadores.createOrReplaceTempView("consolidadoIndicadores")

metadadatosIndicadores = spark.read.parquet("dbfs:/mnt/gold/icbf-datalakegai/Internas/base indicadores/cortes/2021/METADATOS INDICADORES.parquet",inferSchema="true",header="True")
metadadatosIndicadores.createOrReplaceTempView("metadadatosIndicadores")

Creación de DF de tabla de indicadores externos + metadatos de indicadores externos

In [0]:
TablaIndicadores = spark.sql("""
SELECT 
  --- Indicadores
   CI.TIPOENTIDADTERRITORIAL
  ,CI.CODDANEDEPARTAMENTO
  ,CI.CODDANEMUNICIPIO
  ,CI.CODINDICADOR
  ,CI.NOMBREINDICADOR
  ,CI.CICLOVITAL
  ,CI.RANGO
  ,CI.ANO
  ,CI.MES
  ,CI.VALOR 
  --- Metadatos
  ,MI.DIMENSION
  ,MI.PERIODICIDAD
  ,MI.SECTOR
  ,MI.DESCRIPCION
  ,MI.TIPODEVALOR
  ,MI.SUIN
  ,MI.PND
  ,MI.FUENTE  

FROM consolidadoIndicadores CI
LEFT JOIN metadadatosIndicadores MI 
ON MI.CODINDICADOR = CI.CODINDICADOR
""")
TablaIndicadores.createOrReplaceTempView("TablaIndicadores")

In [0]:
len(TablaIndicadores.columns)

Generamos un consolidado de la vigencia de los servicios de ben_ServicioVigenciaSaludNutricion

In [0]:
ServicioVigenciaSaludNutricion_t1 = spark.sql("""
select 
	 svsn.IdSaludNutricion,
	 svsn.IdServicioVigencia,
	 row_number() over (partition by svsn.IdSaludNutricion order by svsn.fechacrea desc) rno
from ben_ServicioVigenciaSaludNutricion svsn
""")
ServicioVigenciaSaludNutricion_t1.createOrReplaceTempView("ServicioVigenciaSaludNutricion_t1")

In [0]:
len(ServicioVigenciaSaludNutricion_t1.columns)

Filtrado de datos por incapaciadad S.D, Paralisis cerebral

In [0]:
#Estos son los discapacitados a excluir:
discapacidadExcluir = spark.sql("""
select 
    IdBeneficiario,
    UPPER(d.Descripcion)  Descripcionfrom 
FROM ben_condiciondiscapacidad d 
where 
    UPPER(d.Descripcion) like '%DOWN%'
    OR UPPER(d.Descripcion) like '%DAWN%'
    OR UPPER(d.Descripcion) like '%DAÇWM%'
    OR UPPER(d.Descripcion) like '%ACONDROPLASIA%'
    OR UPPER(d.Descripcion) like '%LISIS CEREBR%'
    OR UPPER(d.Descripcion) like '%LICIS CEREBRAL%'
    OR UPPER(d.Descripcion) like '%LISIS SEREBRAL%'
    OR UPPER(d.Descripcion) like '%LISIS CELEBRAL%'
""")
discapacidadExcluir.createOrReplaceTempView("discapacidadExcluir")

In [0]:
print("Total de posibles discapacidades a excluir: ",discapacidadExcluir.count())

Consolidado de discapacitados con exclusiones por c/u  de las atenciones: idbeneficiario | idatencionbeneficiario | presenta_discapacidad

In [0]:
discapacidad = spark.sql("""
select
    ad.idbeneficiario
	,ad.idatencionbeneficiario 
	,case 
		when count(ad.idbeneficiario) > 1 then 'SI'
		else 'NO'
	end as presenta_discapacidad
from ben_infoadicionaldiscapacidad ad
left join ben_condiciondiscapacidad as d 
on ad.idinfoadicionaldiscapacidad = d.idinfoadicionaldiscapacidad
where
    1=1
    and ad.requiereayudatecnica in ('S', 'N')                                                                ---57.057
    and ad.idbeneficiario not in (select distinct(IdBeneficiario) from discapacidadExcluir)                  ---56.636
group by ad.idbeneficiario,ad.idatencionbeneficiario 
""")
discapacidad.createOrReplaceTempView("discapacidad")

In [0]:
print("Total de discapacitados a excluir: ",discapacidad.count())

A continuación se genera la primera base, con los campos solicitados.

Los INNER JOIN permiten asegurar que las observaciones de ben_indicadorNutricion:

> Tenga un beneficiario relacionado en ben_Beneficiario.  
> Tengan datos complementarios de ben_SaludNutricion.  
> Tenga un servicio que si haya tenido vigencia en ServicioVigenciaSaludNutricion_t1.   
> Tenga un servicio vigente y que exista en global_ServicioVigencia.  

Esto pues en el ejercicio de consolidación se identificaron algunas particularidades y a través de estos cruces se asegura la congruencia de los registros.

Los LEFT JOIN permiten agregar datos complementarios a cada uno de los registros
> Datos sociodemográficos

> A continuación se detalla el primer proceso de filtrado de datos: Se excluyen beneficiarios no registrados, se excluyen tomas de beneficiarios que no registran en Salud Nutrición, se excluyen los registros que no tienen asociado un servicio que haya estado o que esté vigente en Cuéntame: ServicioVigenciaSaludNutricion y por último un filtro para que todos los servicios deben existir si o sí en el Global de Servicios

In [0]:
%sql
SELECT 
  COUNT(DISTINCT(nu.IdBeneficiario)) as Total_Beneficiarios_Unicos 
FROM ben_indicadorNutricion nu                                                                                                                                  ------ 7.664.133
INNER JOIN ben_Beneficiario be ON nu.IdBeneficiario = be.IdBeneficiario                                                                                         ------ 7.645.575  --> Se excluyen beneficiarios no registrados
INNER JOIN ben_SaludNutricion sn ON be.IdBeneficiario = sn.IdBeneficiario AND nu.IdSaludNutricion = sn.IdSaludNutricion                                         ------ 7.607.561  --> Se excluyen tomas de beneficiarios que no registran en Salud Nutrición
INNER JOIN ben_atencionbeneficiario a ON sn.idatencionbeneficiario = a.idatencionbeneficiario                                                                   ------ 7.597.529  --> Aseguramos que el niño pertenezca un servicio vigencia.
INNER JOIN con_serviciocontratado sc ON a.idserviciocontratado = sc.idserviciocontratado                                                                        ------ 7.597.529  --> Con esto aseguramos que el contrato tenga/haya tenido vigencia y un servicio
INNER JOIN global_serviciovigencia AS sv  ON SC.IdServicioVigencia=SV.IdServicioVigencia                                                                        ------ 7.597.529  --> Todos los servicios deben tener/tuvieron vigencia dentro del contrato

Total_Beneficiarios_Unicos
8114637


In [0]:
baseModelo_t1 = spark.sql("""
select 
	 year(sn.FechaValoracionNuricional) vigencia
	,nu.IdBeneficiario
	,case 
		when tba.nombretipobeneficiario is null or tba.nombretipobeneficiario = '0' then tbb.nombretipobeneficiario
		else tba.nombretipobeneficiario 
	end as tipobeneficiario
   
    ,DATE(be.FechaNacimiento) AS FechaNacimientoBeneficiario
    ,DATEDIFF(DATE(nu.FechaValoracion),DATE(be.FechaNacimiento)) as EdadBeneficiarioDias
    ,ROUND(DATEDIFF(DATE(NU.FechaValoracion),DATE(be.FechaNacimiento))/30,0) as EdadBeneficiarioMeses
    ,(YEAR(NU.FechaValoracion) - YEAR(be.FechaNacimiento))  AS EdadBeneficiarioAnios      
    ,CASE
        WHEN DATEDIFF(DATE(NU.FechaValoracion),DATE(be.FechaNacimiento)) < 280 THEN "< 40 Semanas"
        WHEN DATEDIFF(DATE(NU.FechaValoracion),DATE(be.FechaNacimiento)) >= 280 THEN "> 40 Semanas"
    ELSE "Validar"
    END AS SemanasBeneficiario    
    
	,td.CodDocumento
	,be.NumeroDocumento
	,be.PrimerNombre
	,be.SegundoNombre
	,be.PrimerApellido
	,be.SegundoApellido
	,be.FechaNacimiento
	,s.Codigo sexo
    ,s.Nombre NombreSexo
    ,(floor(datediff(be.fechanacimiento,sn.FechaValoracionNuricional)/30.4375)*-1) EdadMesesBenAlaTomaNut
    
	,pa.CodigoPais CodPaisNacimientoBeneficiario
    ,pa.NombrePais NombPaisNacimientoBeneficiario
	,PRB.CodigoPais CodPaisRasidenciaBen
    ,PRB.NombrePais NombPaisRasidenciaBen
    	
    ,DRB.CodigoDepartamento CodDepartamentoResidenciaBen
    ,DRB.NombreDepartamento NomDepartamentoResidenciaBen
    ,MRB.CodigoMunicipio CodMunicipResidenciaBen
    ,MRB.NombreMunicipio NomMunicipResidenciaBen
    
    ,CO.CodigoComuna CodComunaResidenciaBen
    ,CO.NombreComuna NomComunaResidenciaBen 
    
    ,BA.CodigoBarrio CodBarrioResidenciaBen
    ,BA.NombreBarrio NomBarrioResidenciaBen 

    ,VE.CodigoVereda CodVeredaResidenciaBen
    ,VE.NombreVereda NomVeredaResidenciaBen

    ,RB.IdRancheria CodRancheriaResidenciaBen
    ,RB.Nombre NomRancheriaResidenciaBen

    
    ,dis.presenta_discapacidad PresentaDiscapacidad
	,case 
		when be.ZonaUbicacion = 'C' then 'CABECERA'
		when be.ZonaUbicacion = 'R' then 'RESTO'
		else be.ZonaUbicacion
	end ZonaUbicacionBeneficiario
	,ge.Nombre GrupoEtnico
	,sn.LactanciaMaternaExclusiva MesesLactanciaMaternaExclusiva
	,sn.LactanciaMaternaTotal MesesLactanciaMaternaTotal
	,sn.PesoBeneficiarioAlNacer
	,sn.TallaBeneficiarioAlNacer
	,sn.AntecendentePremadurez 
	,sn.EdadGestacionarAlNacer
	,rss.Nombre RegimenSeguridadSocial
	,concat(year(sn.FechaValoracionNuricional),DATE_PART('month',sn.FechaValoracionNuricional)) Toma
	
    ,gdir.IdDireccionesICBF
    ,gdir.NombreDireccion as DireccionICBF
    ,sv.NombreServicio 
	
    ,sn.FechaValoracionNuricional
	,sn.FechaMedicionPerimetroBraquial 
	,sn.MedicionPerimetroBraquial
	,sn.peso
	,sn.Talla
	,nu.ZScoreTallaEdad
	,nu.ZScorePesoEdad
	,nu.ZScorePesoTalla
	,nu.ZScoreIMC
	,nu.EstadoTallaEdad
	,nu.EstadoPesoEdad 
	,nu.EstadoPesoTalla
	,nu.EstadoIMC
	,nu.Flag
	,sn.FechaCrea FechaRegistroSaludNutricion
	,sn.PresentaCarneVacunacion
	,sn.ControlesCrecimDesarrollo
--	,row_number() over(partition by nu.idbeneficiario order by sn.FechaValoracionNuricional) NoToma
FROM ben_indicadorNutricion nu                                                                                                                                  ------ 7.664.133
INNER JOIN ben_Beneficiario be ON nu.IdBeneficiario = be.IdBeneficiario                                                                                         ------ 7.645.575  --> Se excluyen beneficiarios no registrados
INNER JOIN ben_SaludNutricion sn ON be.IdBeneficiario = sn.IdBeneficiario AND nu.IdSaludNutricion = sn.IdSaludNutricion                                         ------ 7.607.561  --> Se excluyen tomas de beneficiarios que no registran en Salud Nutrición
INNER JOIN ben_atencionbeneficiario a ON sn.idatencionbeneficiario = a.idatencionbeneficiario                                                                   ------ 7.597.529  --> Aseguramos que el niño pertenezca un servicio vigencia.
INNER JOIN con_serviciocontratado sc ON a.idserviciocontratado = sc.idserviciocontratado                                                                        ------ 7.597.529  --> Con esto aseguramos que el contrato tenga/haya tenido vigencia y un servicio
INNER JOIN global_serviciovigencia AS sv  ON SC.IdServicioVigencia=SV.IdServicioVigencia                                                                        ------ 7.597.529  --> Todos los servicios deben tener/tuvieron vigencia dentro del contrato

LEFT JOIN DIV_Pais PRB on be.IdPaisResidencia=PRB.IdPais 
left join div_pais pa on be.IdPaisNacimiento = pa.IdPais
LEFT JOIN DIV_Departamento DRB on be.IdDepartamentoResidencia=DRB.IdDepartamento 
LEFT JOIN DIV_Municipio MRB on be.IdMunicipioResidencia=MRB.IdMunicipio
LEFT JOIN DIV_Comuna CO ON be.IdComuna=CO.IdComuna and MRB.IdMunicipio=CO.IdMunicipio     
LEFT JOIN DIV_Barrio BA  on be.IdBarrio = BA.IdBarrio
LEFT JOIN DIV_Veredas VE  on be.IdVereda = VE.IdVereda
LEFT JOIN DIV_Rancheria RB on be.IdRancheria=RB.IdRancheria

left join ben_AtencionBeneficiario ab on sn.IdAtencionBeneficiario = ab.IdAtencionBeneficiario 
left join ben_TipoBeneficiario tbb on be.IdTipoBeneficiario = tbb.IdTipoBeneficiario
left join ben_TipoBeneficiario tba on ab.IdTipoBeneficiario = tba.IdTipoBeneficiario
left join global_TiposDocumentos td on be.IdTipoDocumento = td.IdTipoDocumento
left join Global_Sexo s on be.IdSexo = s.IdSexo
left join global_direccionesicbf gdir on gdir.IdDireccionesICBF = sv.IdDireccionesICBF

-- Acá cruzamos los discapacitados cuya información en Variable Diagnostico Discapacidad: es diferente de Sindromedown, acondroplasia, parálisis cerebral
left join discapacidad dis on nu.IdBeneficiario = dis.IdBeneficiario and ab.IdAtencionBeneficiario = dis.IdAtencionBeneficiario
left join ben_infogrupoetnico ige on be.IdBeneficiario = ige.IdBeneficiario and ab.IdAtencionBeneficiario = ige.IdAtencionBeneficiario
left join ben_GrupoEtnico ge on ige.IdGrupoEtnico = ge.IdGrupoEtnico
left join ben_RegimenSeguridadSocial rss on sn.IdRegimenSeguridadSocial = rss.IdRegimenSeguridadSocial
""")
baseModelo_t1.createOrReplaceTempView("baseModelo_t1")

In [0]:
len(baseModelo_t1.columns)

Una vez generada la primera base se establecen filtros para asegurar lo indicado en los criterios de aceptación:

> IdDireccionesICBF IN (1,4)                     -- (1)Dirección de Primera Infancia  y (4) DireccionICBF: "Dirección de Nutrición"  
> Flag = 0                                       -- Flag = 0  
> EdadMesesBenAlaTomaNut BETWEEN 0 and 59        -- Beneficiarios de 0 a 59 meses  
> sexo not like ('I')                            -- Excluir Intersexuales  
> SemanasBeneficiario not like ('< 40 Semanas')  -- Excluir Beneficiarios que tengan menos de cuarenta semanas a la fecha de la toma de la muestra

In [0]:
baseModelo_t1 = spark.sql("""
select 
    vigencia as AnioToma,
 -- row_number() over(partition by idbeneficiario order by FechaValoracionNuricional) NoToma,
    nvl(lag(Talla) over (partition by idbeneficiario order by FechaValoracionNuricional),0) tallaMuestraAnterior,
    RegimenSeguridadSocial,
    Toma,
    IdDireccionesICBF,
    DireccionICBF,
    NombreServicio,
    IdBeneficiario,
    FechaNacimientoBeneficiario,
    EdadBeneficiarioDias,
    EdadBeneficiarioMeses,
    EdadBeneficiarioAnios,
    SemanasBeneficiario,
    CodDocumento,
    NumeroDocumento,
    PrimerNombre,
    SegundoNombre,
    PrimerApellido,
    SegundoApellido,
    tipobeneficiario,
    sexo,
    NombreSexo,
    EdadMesesBenAlaTomaNut,
    CodPaisNacimientoBeneficiario,
    NombPaisNacimientoBeneficiario,
    CodPaisRasidenciaBen,
    NombPaisRasidenciaBen,
    CodDepartamentoResidenciaBen,
    NomDepartamentoResidenciaBen,
    CodMunicipResidenciaBen,
    NomMunicipResidenciaBen,
    CodComunaResidenciaBen,
    NomComunaResidenciaBen,
    CodBarrioResidenciaBen,
    NomBarrioResidenciaBen,
    CodVeredaResidenciaBen,
    NomVeredaResidenciaBen,
    CodRancheriaResidenciaBen,
    NomRancheriaResidenciaBen,
    PresentaDiscapacidad,
    ZonaUbicacionBeneficiario,
    GrupoEtnico,
    MesesLactanciaMaternaExclusiva,
    MesesLactanciaMaternaTotal,
    PesoBeneficiarioAlNacer,
    TallaBeneficiarioAlNacer,
    AntecendentePremadurez,
    EdadGestacionarAlNacer,
    FechaValoracionNuricional,
    FechaMedicionPerimetroBraquial,
    MedicionPerimetroBraquial,
    peso,
    Talla,
    ZScoreTallaEdad,
    ZScorePesoEdad,
    ZScorePesoTalla,
    ZScoreIMC,
    EstadoTallaEdad,
    EstadoPesoEdad,
    EstadoPesoTalla,
    EstadoIMC,
    Flag,
    FechaRegistroSaludNutricion,
    PresentaCarneVacunacion,
    ControlesCrecimDesarrollo
  from baseModelo_t1  
where 
  IdDireccionesICBF IN (1,4)                         -- (1)Dirección de Primera Infancia  y (4) DireccionICBF: "Dirección de Nutrición"
  AND Flag = 0                                       -- Flag = 0
  AND EdadMesesBenAlaTomaNut BETWEEN 0 and 59        -- Beneficiarios de 0 a 59 meses
  AND sexo not like ('I')                            -- Excluir Intersexuales
  AND SemanasBeneficiario not like ('< 40 Semanas')  -- Excluir Beneficiarios que tengan menos de cuarenta semanas a la fecha de la toma de la muestra
ORDER BY                                             -- Ordernar por Beneficiario, Año Toma y N° Toma
  IdBeneficiario, 
  AnioToma
  --NoToma 
""")
baseModelo_t1.createOrReplaceTempView("baseModelo_t1")

In [0]:
len(baseModelo_t1.columns)

In [0]:
%sql
select 
  count(distinct(IdBeneficiario)) as DireccionICBF, 
  DireccionICBF
from baseModelo_t1 
group by DireccionICBF

DireccionICBF,DireccionICBF.1
6162382,Dirección de Primera Infancia
223472,Dirección de Nutrición


> Se valida que las tomas de la talla actual sea mayor o igual a la talla de la toma anterior

In [0]:
baseModelo_t1 = spark.sql("""
select 
    *
  from baseModelo_t1
  where talla >= tallaMuestraAnterior
  and AnioToma >=2017
""")
baseModelo_t1.createOrReplaceTempView("baseModelo_t1")

In [0]:
%sql
select 
  count(distinct(IdBeneficiario)) as TotalBenUnicos, 
  AnioToma
From baseModelo_t1 
group by AnioToma
order by AnioToma

TotalBenUnicos,AnioToma
1734605,2017
1772949,2018
1734837,2019
1019932,2020
1677386,2021
1311996,2022


> A continuación se detalla el segundo proceso de filtrado de datos: Incluir los beneficiarios que han tomado servicios de las direcciones (1)Dirección de Primera Infancia y (4)Dirección de Nutrición, excluir Beneficiarios que tengan menos de cuarenta semanas a la fecha de la toma de la muestra, excluir Intersexuales y excluir los beneficiarios cuyo rango de edad es superior a los 59 meses

Prueba para dos beneficiarios con más de una observación. En el segundo campo se evidencia el NoToma

In [0]:
%sql
--SELECT
--  * 
--FROM baseModelo_t1 
--WHERE idBeneficiario in (17013823, 18602100)

Se guarda esta base puesto que es el insumo principal de Beneficiario + Nutrición

In [0]:
baseModelo_t1 = spark.sql("""
select     
  row_number() over(partition by idbeneficiario order by FechaValoracionNuricional asc) NoToma,
  * 
from baseModelo_t1 
order by 
  idBeneficiario
  ,FechaValoracionNuricional asc
""")
baseModelo_t1.createOrReplaceTempView("baseModelo_t1")

In [0]:
%sql
--select * from baseModelo_t1 limit 1000

In [0]:
#---------------------------- Borrar Histórico ----------------------------------------#
dbfsWriteDelta1 = "dbfs:/mnt/gold/icbf-gai/BaseModeloProbabilistico/"
try:
    dbutils.fs.ls(dbfsWriteDelta1)
    print(" *** Borrando Directorio *** ")
    files = dbutils.fs.ls(dbfsWriteDelta1)
    for f in files:
        f.path
        dbutils.fs.rm(f.path, recurse=True)
except:
    print(" *** No Existe Directorio *** ")
    pass
  
#---------------------------- Directorio de Salida ------------------------------------#
print(" *** Guardando en DL *** ")
pathSave = dbfsWriteDelta1
nombreTabla = "dbo.baseModelo_t1"
baseModelo_t1.write \
.format("delta") \
.mode("overwrite") \
.option("overwriteSchema", "true") \
.save(f"{pathSave}") 
print(" *** Fin Guardado en el DataLake *** ")
spark.sql(f"CREATE TABLE IF NOT EXISTS {nombreTabla} USING DELTA LOCATION '{pathSave}/'")
print(" *** Fin Creación Tabla *** ")

Se toman los datos del beneficiario + los datos de la primera toma, se pivotean los campos por cada toma y se crea un DF por cada una.

In [0]:
%sql
select 
  count(1) as TotalRegistros,
  NoToma
from baseModelo_t1
where NoToma <=17
group by NoToma
order by NoToma

TotalRegistros,NoToma
4392521,1
3870011,2
3317520,3
2811404,4
2208325,5
1814501,6
1516513,7
1239888,8
950097,9
736929,10


In [0]:
len(baseModelo_t1.columns)
#row = baseModelo_t1.count()
#row

In [0]:
for toma in range(17):
    tomaReal = toma + 1
    if tomaReal != 1:
        print(f"-------- Inicio creacion tabla NoToma: {tomaReal}--------")
        tableName = f"Toma{tomaReal}"
        print(f"-- Paso1: Creacion dataframe Inicio -- ")
        globals()["Toma" + str(tomaReal)] = spark.sql(f"""
            select 
                 IdBeneficiario IdBeneficiarioT{tomaReal}
                ,Toma TomaT{tomaReal}
                ,NoToma NoTomaT{tomaReal}
                ,IdDireccionesICBF IdDireccionesICBFT{tomaReal}
                ,DireccionICBF DireccionICBFT{tomaReal}
                ,NombreServicio NombreServicioT{tomaReal}
                ,EdadBeneficiarioDias EdadBeneficiarioDiasT{tomaReal}
                ,FechaRegistroSaludNutricion FechaRegistroSaludNutricionT{tomaReal}
                ,FechaMedicionPerimetroBraquial FechaMedicionPerimetroBraquialT{tomaReal}
                ,MedicionPerimetroBraquial MedicionPerimetroBraquialT{tomaReal}
                ,peso pesoT{tomaReal}
                ,Talla TallaT{tomaReal}
                ,ZScoreTallaEdad ZScoreTallaEdadT{tomaReal}
                ,ZScorePesoEdad ZScorePesoEdadT{tomaReal}
                ,ZScorePesoTalla ZScorePesoTallaT{tomaReal}
                ,ZScoreIMC ZScoreIMCT{tomaReal}
                ,EstadoTallaEdad EstadoTallaEdadT{tomaReal}
                ,EstadoPesoEdad EstadoPesoEdadT{tomaReal}
                ,EstadoPesoTalla EstadoPesoTallaT{tomaReal}
                ,EstadoIMC EstadoIMCT{tomaReal}
                ,Flag FlagT{tomaReal}
                ,PresentaCarneVacunacion PresentaCarneVacunacionT{tomaReal}
                ,ControlesCrecimDesarrollo ControlesCrecimDesarrolloT{tomaReal}
            from baseModelo_t1
            where NoToma = {tomaReal}
           """) 
        print(f"-- Paso1: Creacion dataframe Fin ✓✓ ")
        print(f"-- Paso2: Creacion vista inicio ✓✓ ")
        globals()["Toma" + str(tomaReal)].createOrReplaceTempView(f"{tableName}")
        print(f"-- Paso2: Creacion vista inicio ✓✓ ")

Se toman los datos del DF1: 
> Datos Beneficiario + Datos Toma 1 + JOIN por cada una de las demás tomas nutricionales.

In [0]:
baseModeloSabana = spark.sql("""
select 
    IdBeneficiario,
    CodDocumento,
    NumeroDocumento,
    PrimerNombre,
    SegundoNombre,
    PrimerApellido,
    SegundoApellido,
    FechaNacimientoBeneficiario,
    sexo as sexoBeneficiario,
    NombreSexo,
    RegimenSeguridadSocial,
    CodPaisNacimientoBeneficiario,
    NombPaisNacimientoBeneficiario,
    CodPaisRasidenciaBen,
    NombPaisRasidenciaBen,
    CodDepartamentoResidenciaBen,
    NomDepartamentoResidenciaBen,
    CodMunicipResidenciaBen,
    NomMunicipResidenciaBen,
    CodComunaResidenciaBen,
    NomComunaResidenciaBen,
    CodBarrioResidenciaBen,
    NomBarrioResidenciaBen,
    CodVeredaResidenciaBen,
    NomVeredaResidenciaBen,
    CodRancheriaResidenciaBen,
    NomRancheriaResidenciaBen,
    PresentaDiscapacidad,
    ZonaUbicacionBeneficiario,
    GrupoEtnico,
    MesesLactanciaMaternaExclusiva,
    MesesLactanciaMaternaTotal,
    PesoBeneficiarioAlNacer,
    TallaBeneficiarioAlNacer,
    AntecendentePremadurez,
    EdadGestacionarAlNacer,
------------------------------------------------
    Toma TomaT1,
    NoToma NoTomaT1,
    IdDireccionesICBF IdDireccionesICBFT1,
    DireccionICBF DireccionICBFT1,
    NombreServicio NombreServicioT1,
    EdadBeneficiarioDias EdadBeneficiarioDiasT1,
    FechaRegistroSaludNutricion FechaRegistroSaludNutricionT1,
    FechaMedicionPerimetroBraquial FechaMedicionPerimetroBraquialT1,
    MedicionPerimetroBraquial MedicionPerimetroBraquialT1,
    peso pesoT1,
    Talla TallaT1,
    ZScoreTallaEdad ZScoreTallaEdadT1,
    ZScorePesoEdad ZScorePesoEdadT1,
    ZScorePesoTalla ZScorePesoTallaT1,
    ZScoreIMC ZScoreIMCT1,
    EstadoTallaEdad EstadoTallaEdadT1,
    EstadoPesoEdad EstadoPesoEdadT1,
    EstadoPesoTalla EstadoPesoTallaT1,
    EstadoIMC EstadoIMCT1,
    Flag FlagT1,
    PresentaCarneVacunacion PresentaCarneVacunacionT1,
    ControlesCrecimDesarrollo ControlesCrecimDesarrolloT1
------------------------------------------------
  ,t2.*
  ,t3.*
  ,t4.*
  ,t5.*
  ,t6.*
  ,t7.*
  ,t8.*
  ,t9.*
  ,t10.*
  ,t11.*
  ,t12.*
  ,t13.*
  ,t14.*
  ,t15.*
  ,t16.*
  ,t17.*
from baseModelo_t1 t1
    left join toma2 t2 on t1.idbeneficiario = t2.idbeneficiariot2
    left join toma3 t3 on t1.idbeneficiario = t3.idbeneficiariot3
    left join toma4 t4 on t1.idbeneficiario = t4.idbeneficiariot4
    left join toma5 t5 on t1.idbeneficiario = t5.idbeneficiariot5
    left join toma6 t6 on t1.idbeneficiario = t6.idbeneficiariot6
    left join toma7 t7 on t1.idbeneficiario = t7.idbeneficiariot7
    left join toma8 t8 on t1.idbeneficiario = t8.idbeneficiariot8
    left join toma9 t9 on t1.idbeneficiario = t9.idbeneficiariot9
    left join toma10 t10 on t1.idbeneficiario = t10.idbeneficiariot10
    left join toma11 t11 on t1.idbeneficiario = t11.idbeneficiariot11
    left join toma12 t12 on t1.idbeneficiario = t12.idbeneficiariot12
    left join toma13 t13 on t1.idbeneficiario = t13.idbeneficiariot13
    left join toma14 t14 on t1.idbeneficiario = t14.idbeneficiariot14
    left join toma15 t15 on t1.idbeneficiario = t15.idbeneficiariot15
    left join toma16 t16 on t1.idbeneficiario = t16.idbeneficiariot16
    left join toma17 t17 on t1.idbeneficiario = t17.idbeneficiariot17
where t1.NoToma = 1
""")
baseModeloSabana.createOrReplaceTempView("baseModeloSabana")

In [0]:
len(baseModeloSabana.columns)

In [0]:
%sql
SELECT * FROM baseModeloSabana limit 10

IdBeneficiario,CodDocumento,NumeroDocumento,PrimerNombre,SegundoNombre,PrimerApellido,SegundoApellido,FechaNacimientoBeneficiario,sexoBeneficiario,NombreSexo,RegimenSeguridadSocial,CodPaisNacimientoBeneficiario,NombPaisNacimientoBeneficiario,CodPaisRasidenciaBen,NombPaisRasidenciaBen,CodDepartamentoResidenciaBen,NomDepartamentoResidenciaBen,CodMunicipResidenciaBen,NomMunicipResidenciaBen,CodComunaResidenciaBen,NomComunaResidenciaBen,CodBarrioResidenciaBen,NomBarrioResidenciaBen,CodVeredaResidenciaBen,NomVeredaResidenciaBen,CodRancheriaResidenciaBen,NomRancheriaResidenciaBen,PresentaDiscapacidad,ZonaUbicacionBeneficiario,GrupoEtnico,MesesLactanciaMaternaExclusiva,MesesLactanciaMaternaTotal,PesoBeneficiarioAlNacer,TallaBeneficiarioAlNacer,AntecendentePremadurez,EdadGestacionarAlNacer,TomaT1,NoTomaT1,IdDireccionesICBFT1,DireccionICBFT1,NombreServicioT1,EdadBeneficiarioDiasT1,FechaRegistroSaludNutricionT1,FechaMedicionPerimetroBraquialT1,MedicionPerimetroBraquialT1,pesoT1,TallaT1,ZScoreTallaEdadT1,ZScorePesoEdadT1,ZScorePesoTallaT1,ZScoreIMCT1,EstadoTallaEdadT1,EstadoPesoEdadT1,EstadoPesoTallaT1,EstadoIMCT1,FlagT1,PresentaCarneVacunacionT1,ControlesCrecimDesarrolloT1,IdBeneficiarioT2,TomaT2,NoTomaT2,IdDireccionesICBFT2,DireccionICBFT2,NombreServicioT2,EdadBeneficiarioDiasT2,FechaRegistroSaludNutricionT2,FechaMedicionPerimetroBraquialT2,MedicionPerimetroBraquialT2,pesoT2,TallaT2,ZScoreTallaEdadT2,ZScorePesoEdadT2,ZScorePesoTallaT2,ZScoreIMCT2,EstadoTallaEdadT2,EstadoPesoEdadT2,EstadoPesoTallaT2,EstadoIMCT2,FlagT2,PresentaCarneVacunacionT2,ControlesCrecimDesarrolloT2,IdBeneficiarioT3,TomaT3,NoTomaT3,IdDireccionesICBFT3,DireccionICBFT3,NombreServicioT3,EdadBeneficiarioDiasT3,FechaRegistroSaludNutricionT3,FechaMedicionPerimetroBraquialT3,MedicionPerimetroBraquialT3,pesoT3,TallaT3,ZScoreTallaEdadT3,ZScorePesoEdadT3,ZScorePesoTallaT3,ZScoreIMCT3,EstadoTallaEdadT3,EstadoPesoEdadT3,EstadoPesoTallaT3,EstadoIMCT3,FlagT3,PresentaCarneVacunacionT3,ControlesCrecimDesarrolloT3,IdBeneficiarioT4,TomaT4,NoTomaT4,IdDireccionesICBFT4,DireccionICBFT4,NombreServicioT4,EdadBeneficiarioDiasT4,FechaRegistroSaludNutricionT4,FechaMedicionPerimetroBraquialT4,MedicionPerimetroBraquialT4,pesoT4,TallaT4,ZScoreTallaEdadT4,ZScorePesoEdadT4,ZScorePesoTallaT4,ZScoreIMCT4,EstadoTallaEdadT4,EstadoPesoEdadT4,EstadoPesoTallaT4,EstadoIMCT4,FlagT4,PresentaCarneVacunacionT4,ControlesCrecimDesarrolloT4,IdBeneficiarioT5,TomaT5,NoTomaT5,IdDireccionesICBFT5,DireccionICBFT5,NombreServicioT5,EdadBeneficiarioDiasT5,FechaRegistroSaludNutricionT5,FechaMedicionPerimetroBraquialT5,MedicionPerimetroBraquialT5,pesoT5,TallaT5,ZScoreTallaEdadT5,ZScorePesoEdadT5,ZScorePesoTallaT5,ZScoreIMCT5,EstadoTallaEdadT5,EstadoPesoEdadT5,EstadoPesoTallaT5,EstadoIMCT5,FlagT5,PresentaCarneVacunacionT5,ControlesCrecimDesarrolloT5,IdBeneficiarioT6,TomaT6,NoTomaT6,IdDireccionesICBFT6,DireccionICBFT6,NombreServicioT6,EdadBeneficiarioDiasT6,FechaRegistroSaludNutricionT6,FechaMedicionPerimetroBraquialT6,MedicionPerimetroBraquialT6,pesoT6,TallaT6,ZScoreTallaEdadT6,ZScorePesoEdadT6,ZScorePesoTallaT6,ZScoreIMCT6,EstadoTallaEdadT6,EstadoPesoEdadT6,EstadoPesoTallaT6,EstadoIMCT6,FlagT6,PresentaCarneVacunacionT6,ControlesCrecimDesarrolloT6,IdBeneficiarioT7,TomaT7,NoTomaT7,IdDireccionesICBFT7,DireccionICBFT7,NombreServicioT7,EdadBeneficiarioDiasT7,FechaRegistroSaludNutricionT7,FechaMedicionPerimetroBraquialT7,MedicionPerimetroBraquialT7,pesoT7,TallaT7,ZScoreTallaEdadT7,ZScorePesoEdadT7,ZScorePesoTallaT7,ZScoreIMCT7,EstadoTallaEdadT7,EstadoPesoEdadT7,EstadoPesoTallaT7,EstadoIMCT7,FlagT7,PresentaCarneVacunacionT7,ControlesCrecimDesarrolloT7,IdBeneficiarioT8,TomaT8,NoTomaT8,IdDireccionesICBFT8,DireccionICBFT8,NombreServicioT8,EdadBeneficiarioDiasT8,FechaRegistroSaludNutricionT8,FechaMedicionPerimetroBraquialT8,MedicionPerimetroBraquialT8,pesoT8,TallaT8,ZScoreTallaEdadT8,ZScorePesoEdadT8,ZScorePesoTallaT8,ZScoreIMCT8,EstadoTallaEdadT8,EstadoPesoEdadT8,EstadoPesoTallaT8,EstadoIMCT8,FlagT8,PresentaCarneVacunacionT8,ControlesCrecimDesarrolloT8,IdBeneficiarioT9,TomaT9,NoTomaT9,IdDireccionesICBFT9,DireccionICBFT9,NombreServicioT9,EdadBeneficiarioDiasT9,FechaRegistroSaludNutricionT9,FechaMedicionPerimetroBraquialT9,MedicionPerimetroBraquialT9,pesoT9,TallaT9,ZScoreTallaEdadT9,ZScorePesoEdadT9,ZScorePesoTallaT9,ZScoreIMCT9,EstadoTallaEdadT9,EstadoPesoEdadT9,EstadoPesoTallaT9,EstadoIMCT9,FlagT9,PresentaCarneVacunacionT9,ControlesCrecimDesarrolloT9,IdBeneficiarioT10,TomaT10,NoTomaT10,IdDireccionesICBFT10,DireccionICBFT10,NombreServicioT10,EdadBeneficiarioDiasT10,FechaRegistroSaludNutricionT10,FechaMedicionPerimetroBraquialT10,MedicionPerimetroBraquialT10,pesoT10,TallaT10,ZScoreTallaEdadT10,ZScorePesoEdadT10,ZScorePesoTallaT10,ZScoreIMCT10,EstadoTallaEdadT10,EstadoPesoEdadT10,EstadoPesoTallaT10,EstadoIMCT10,FlagT10,PresentaCarneVacunacionT10,ControlesCrecimDesarrolloT10,IdBeneficiarioT11,TomaT11,NoTomaT11,IdDireccionesICBFT11,DireccionICBFT11,NombreServicioT11,EdadBeneficiarioDiasT11,FechaRegistroSaludNutricionT11,FechaMedicionPerimetroBraquialT11,MedicionPerimetroBraquialT11,pesoT11,TallaT11,ZScoreTallaEdadT11,ZScorePesoEdadT11,ZScorePesoTallaT11,ZScoreIMCT11,EstadoTallaEdadT11,EstadoPesoEdadT11,EstadoPesoTallaT11,EstadoIMCT11,FlagT11,PresentaCarneVacunacionT11,ControlesCrecimDesarrolloT11,IdBeneficiarioT12,TomaT12,NoTomaT12,IdDireccionesICBFT12,DireccionICBFT12,NombreServicioT12,EdadBeneficiarioDiasT12,FechaRegistroSaludNutricionT12,FechaMedicionPerimetroBraquialT12,MedicionPerimetroBraquialT12,pesoT12,TallaT12,ZScoreTallaEdadT12,ZScorePesoEdadT12,ZScorePesoTallaT12,ZScoreIMCT12,EstadoTallaEdadT12,EstadoPesoEdadT12,EstadoPesoTallaT12,EstadoIMCT12,FlagT12,PresentaCarneVacunacionT12,ControlesCrecimDesarrolloT12,IdBeneficiarioT13,TomaT13,NoTomaT13,IdDireccionesICBFT13,DireccionICBFT13,NombreServicioT13,EdadBeneficiarioDiasT13,FechaRegistroSaludNutricionT13,FechaMedicionPerimetroBraquialT13,MedicionPerimetroBraquialT13,pesoT13,TallaT13,ZScoreTallaEdadT13,ZScorePesoEdadT13,ZScorePesoTallaT13,ZScoreIMCT13,EstadoTallaEdadT13,EstadoPesoEdadT13,EstadoPesoTallaT13,EstadoIMCT13,FlagT13,PresentaCarneVacunacionT13,ControlesCrecimDesarrolloT13,IdBeneficiarioT14,TomaT14,NoTomaT14,IdDireccionesICBFT14,DireccionICBFT14,NombreServicioT14,EdadBeneficiarioDiasT14,FechaRegistroSaludNutricionT14,FechaMedicionPerimetroBraquialT14,MedicionPerimetroBraquialT14,pesoT14,TallaT14,ZScoreTallaEdadT14,ZScorePesoEdadT14,ZScorePesoTallaT14,ZScoreIMCT14,EstadoTallaEdadT14,EstadoPesoEdadT14,EstadoPesoTallaT14,EstadoIMCT14,FlagT14,PresentaCarneVacunacionT14,ControlesCrecimDesarrolloT14,IdBeneficiarioT15,TomaT15,NoTomaT15,IdDireccionesICBFT15,DireccionICBFT15,NombreServicioT15,EdadBeneficiarioDiasT15,FechaRegistroSaludNutricionT15,FechaMedicionPerimetroBraquialT15,MedicionPerimetroBraquialT15,pesoT15,TallaT15,ZScoreTallaEdadT15,ZScorePesoEdadT15,ZScorePesoTallaT15,ZScoreIMCT15,EstadoTallaEdadT15,EstadoPesoEdadT15,EstadoPesoTallaT15,EstadoIMCT15,FlagT15,PresentaCarneVacunacionT15,ControlesCrecimDesarrolloT15,IdBeneficiarioT16,TomaT16,NoTomaT16,IdDireccionesICBFT16,DireccionICBFT16,NombreServicioT16,EdadBeneficiarioDiasT16,FechaRegistroSaludNutricionT16,FechaMedicionPerimetroBraquialT16,MedicionPerimetroBraquialT16,pesoT16,TallaT16,ZScoreTallaEdadT16,ZScorePesoEdadT16,ZScorePesoTallaT16,ZScoreIMCT16,EstadoTallaEdadT16,EstadoPesoEdadT16,EstadoPesoTallaT16,EstadoIMCT16,FlagT16,PresentaCarneVacunacionT16,ControlesCrecimDesarrolloT16,IdBeneficiarioT17,TomaT17,NoTomaT17,IdDireccionesICBFT17,DireccionICBFT17,NombreServicioT17,EdadBeneficiarioDiasT17,FechaRegistroSaludNutricionT17,FechaMedicionPerimetroBraquialT17,MedicionPerimetroBraquialT17,pesoT17,TallaT17,ZScoreTallaEdadT17,ZScorePesoEdadT17,ZScorePesoTallaT17,ZScoreIMCT17,EstadoTallaEdadT17,EstadoPesoEdadT17,EstadoPesoTallaT17,EstadoIMCT17,FlagT17,PresentaCarneVacunacionT17,ControlesCrecimDesarrolloT17
497007,SD,74E73D6482F042068657AEB9B5DAC90B44987,VICTOR,MANUEL,VILLA,FRANCO,2015-01-22,M,Mujer,AFILIADO REGIMEN CONTRIBUTIVO,170,Colombia,170,Colombia,5,Antioquia,5001,Medellin,500101.0,Popular,500101007.0,"Popular, Granizal",,,,,,CABECERA,NO SE AUTORECONOCE EN NINGUNO DE LOS ANTERIORES,6,6,,,,0.0,20182,1,1,Dirección de Primera Infancia,HOGARES INFANTILES - INSTITUCIONAL INTEGRAL,1110,2018-03-01T00:41:54.547+0000,1900-01-01T00:00:00.000+0000,0.0,12.6,90.9,-1.17,-0.79,-0.24,-0.11,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1922869,RC,1028893223,JUAN,SEBASTIAN,MARTINEZ,CRUZ,2012-10-15,H,Hombre,AFILIADO REGIMEN SUBSIDIADO,170,Colombia,170,Colombia,11,Bogota D.C.,11001,"Bogota, D.C.",1100108.0,Localidad Kennedy,1100108198.0,Roma,,,,,,CABECERA,,6,6,,,,0.0,20177,1,1,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - GRADO TRANSICIÓN CON ATENCIÓN INTEGRAL,1736,2017-08-30T17:29:50.917+0000,1900-01-01T00:00:00.000+0000,0.0,15.0,101.5,-1.51,-1.32,-0.62,-0.52,Riesgo de baja talla,Riesgo de peso bajo para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2338783,RC,1102149745,JAVIER,EDUARDO,TERAN,MEJIA,2012-12-12,H,Hombre,AFILIADO REGIMEN SUBSIDIADO,170,Colombia,170,Colombia,70,Sucre,70508,Ovejas,,,,,,,,,,CABECERA,,6,0,,,,,20171,1,1,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1498,2017-02-10T01:23:39.727+0000,,,16.6,106.0,0.47,0.02,-0.39,-0.44,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,1.0,2338783.0,20174.0,2.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1588.0,2017-05-26T10:19:35.870+0000,,,17.0,107.0,0.31,-0.02,-0.33,-0.34,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2338783.0,20178.0,3.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1696.0,2017-08-24T15:45:17.520+0000,1900-01-01T00:00:00.000+0000,0.0,18.0,108.0,0.09,0.16,0.11,0.15,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2338783.0,201711.0,4.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1787.0,2017-11-13T10:46:53.173+0000,1900-01-01T00:00:00.000+0000,0.0,19.0,110.0,0.16,0.35,0.29,0.37,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2680933,RC,1038136638,STEFANY,,HOLGUIN,MESA,2015-10-09,M,Mujer,AFILIADO REGIMEN SUBSIDIADO,170,Colombia,170,Colombia,5,Antioquia,5154,Caucasia,,,,,OTRO,OTRO,,,,RESTO,NO SE AUTORECONOCE EN NINGUNO DE LOS ANTERIORES,5,5,,,,,20182,1,1,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,853,2018-04-16T09:52:34.830+0000,2018-02-08T00:00:00.000+0000,14.3,10.7,85.5,-1.05,-1.15,-0.84,-0.75,Riesgo de baja talla,Riesgo de peso bajo para la edad,Peso adecuado para la talla,Adecuado para la edad,0,N,,2680933.0,20185.0,2.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,956.0,2018-07-04T17:16:05.700+0000,,,12.0,87.5,-1.18,-0.63,-0.02,0.14,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,20188.0,3.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1054.0,2018-10-02T10:31:10.340+0000,,,12.3,88.0,-1.63,-0.79,0.14,0.34,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,201811.0,4.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1138.0,2018-11-29T11:31:26.200+0000,2018-02-08T00:00:00.000+0000,14.3,12.8,91.0,-1.29,-0.76,-0.08,0.06,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,20193.0,5.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1253.0,2019-05-04T14:01:12.423+0000,2019-03-15T00:00:00.000+0000,15.5,13.0,93.5,-1.24,-1.01,-0.44,-0.34,Riesgo de baja talla,Riesgo de peso bajo para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,20195.0,6.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1314.0,2019-06-14T14:58:36.613+0000,,,13.5,93.5,-1.53,-0.89,-0.01,0.1,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,20198.0,7.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1419.0,2019-09-09T15:52:11.470+0000,2019-08-28T00:00:00.000+0000,16.0,14.0,96.0,-1.39,-0.91,-0.12,-0.06,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,2680933.0,201910.0,8.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1475.0,2019-12-11T09:04:42.510+0000,2019-10-23T00:00:00.000+0000,15.0,14.9,97.0,-1.39,-0.59,0.37,0.4,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,3.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3107936,RC,1020120824,DANNER,ANDRES,RODRIGUEZ,SERNA,2012-09-06,H,Hombre,AFILIADO REGIMEN SUBSIDIADO,170,Colombia,170,Colombia,5,Antioquia,5034,Andes,,,,,5034048,RIO CLARO,,,,RESTO,NO SE AUTORECONOCE EN NINGUNO DE LOS ANTERIORES,5,5,,,,,20174,1,1,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1669,2017-12-18T16:16:35.377+0000,2017-04-02T00:00:00.000+0000,14.3,14.0,98.0,-2.05,-1.71,-0.7,-0.53,Retraso en talla,Riesgo de peso bajo para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,1.0,3107936.0,20176.0,2.0,1.0,Dirección de Primera Infancia,SERVICIO ESPECIAL PARA LA PRIMERA INFANCIA - FAMILIAR INTEGRAL,1735.0,2017-12-18T16:19:21.840+0000,2017-06-07T00:00:00.000+0000,13.5,14.0,100.0,-1.84,-1.85,-1.14,-1.0,Riesgo de baja talla,Riesgo de peso bajo para la edad,Riesgo de desnutrición aguda,Adecuado para la edad,0.0,S,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3259392,RC,1059814002,MAXIMILIANO,,CASTRO,SOTELO,2013-05-10,H,Hombre,AFILIADO REGIMEN SUBSIDIADO,170,Colombia,170,Colombia,17,Caldas,17653,Salamina,,,,,,,,,,CABECERA,,6,6,,,,,20173,1,1,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1391,2017-03-16T11:23:36.513+0000,,,17.4,102.5,0.12,0.68,0.93,0.9,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,0.0,3259392.0,20175.0,2.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1473.0,2017-05-24T08:56:33.060+0000,1900-01-01T00:00:00.000+0000,0.0,17.65,103.5,-0.01,0.57,0.88,0.87,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,3259392.0,20178.0,3.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1567.0,2017-08-24T20:29:36.027+0000,1900-01-01T00:00:00.000+0000,0.0,17.95,106.5,0.28,0.45,0.41,0.41,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,3259392.0,201711.0,4.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1636.0,2017-11-04T21:32:41.380+0000,1900-01-01T00:00:00.000+0000,0.0,18.1,107.5,0.22,0.34,0.29,0.31,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,3259392.0,20182.0,5.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1728.0,2018-02-21T10:30:34.073+0000,1900-01-01T00:00:00.000+0000,0.0,18.1,108.1,-0.02,0.12,0.16,0.2,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3398030,RC,1080187029,IZABELLA,,SAAVEDRA,CHILA,2013-03-15,M,Mujer,AFILIADO REGIMEN CONTRIBUTIVO,170,Colombia,170,Colombia,41,Huila,41306,Gigante,,,,,,,,,,CABECERA,,6,12,,,,,20171,1,1,Dirección de Primera Infancia,HOGARES INFANTILES - INSTITUCIONAL INTEGRAL,1417,2017-02-22T14:43:29.053+0000,,,15.9,103.5,0.38,0.04,-0.26,-0.31,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,1.0,3398030.0,20176.0,2.0,1.0,Dirección de Primera Infancia,HOGARES INFANTILES - INSTITUCIONAL INTEGRAL,1539.0,2017-06-15T12:27:01.273+0000,,,16.7,104.7,0.11,0.07,0.01,-0.01,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,3398030.0,20178.0,3.0,1.0,Dirección de Primera Infancia,HOGARES INFANTILES - INSTITUCIONAL INTEGRAL,1609.0,2017-08-17T16:44:04.843+0000,1900-01-01T00:00:00.000+0000,0.0,17.9,107.2,0.37,0.38,0.21,0.22,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,3398030.0,201711.0,4.0,1.0,Dirección de Primera Infancia,HOGARES INFANTILES - INSTITUCIONAL INTEGRAL,1692.0,2017-11-16T10:21:50.123+0000,1900-01-01T00:00:00.000+0000,0.0,17.9,109.2,0.47,0.18,-0.23,-0.17,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,1.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3431820,RC,1103114624,MARIANA,,NAVARRO,DIAZ,2012-08-16,M,Mujer,,170,Colombia,170,Colombia,70,Sucre,70235,Galeras,7023501.0,Sin Informacion,7023501001.0,Sin Informacion,,,,,,CABECERA,,6,18,,,,,20171,1,1,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1615,2017-01-31T09:19:05.690+0000,,,16.0,101.0,-1.03,-0.42,0.34,0.29,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,0.0,3431820.0,20175.0,2.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1741.0,2017-05-23T20:20:37.800+0000,,,16.4,102.0,-1.27,-0.54,0.39,0.33,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,0.0,3431820.0,20177.0,3.0,1.0,Dirección de Primera Infancia,CDI SIN ARRIENDO - INSTITUCIONAL INTEGRAL,1783.0,2017-07-18T21:44:14.000+0000,1900-01-01T00:00:00.000+0000,0.0,16.8,103.0,-1.21,-0.46,0.44,0.37,Riesgo de baja talla,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3454320,RC,1051673953,ESTIBEN,JOSE,PACHECO,GOMEZ,2012-11-09,H,Hombre,,170,Colombia,170,Colombia,13,Bolívar,13468,Mompos,1346801.0,Sin Informacion,1346801001.0,Sin Informacion,,,,,,CABECERA,,6,0,,,,,20173,1,1,Dirección de Primera Infancia,HCB TRADICIONAL- COMUNITARIO (T),1573,2017-03-16T21:24:52.360+0000,,,17.0,107.0,0.37,0.02,-0.33,-0.34,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,0.0,3454320.0,20176.0,2.0,1.0,Dirección de Primera Infancia,HCB TRADICIONAL- COMUNITARIO (T),1666.0,2017-06-13T09:26:33.727+0000,,,17.6,109.0,0.43,0.06,-0.36,-0.34,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,0.0,3454320.0,20179.0,3.0,1.0,Dirección de Primera Infancia,HCB TRADICIONAL- COMUNITARIO (T),1757.0,2017-09-13T14:13:30.023+0000,1900-01-01T00:00:00.000+0000,0.0,17.0,110.0,0.28,-0.41,-0.99,-0.95,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3484053,RC,1104264806,YERLIS,SAIBET,BANQUEZ,MORA,2012-11-03,M,Mujer,,170,Colombia,170,Colombia,70,Sucre,70001,Sincelejo,,,,,OTRO,OTRO,,,,RESTO,,0,8,,,,,20174,1,1,Dirección de Primera Infancia,CDI CON ARRIENDO - INSTITUCIONAL INTEGRAL,1634,2017-05-16T10:28:50.170+0000,,,17.3,103.0,-0.66,0.08,0.75,0.69,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0,S,0.0,3484053.0,20177.0,2.0,1.0,Dirección de Primera Infancia,CDI CON ARRIENDO - INSTITUCIONAL INTEGRAL,1725.0,2017-08-04T15:59:06.563+0000,1900-01-01T00:00:00.000+0000,0.0,18.0,105.0,-0.57,0.14,0.75,0.69,Talla adecuada para la edad,Peso adecuado para la edad,Peso adecuado para la talla,Adecuado para la edad,0.0,S,2.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


Esta validación es con el objetivo de asegurar que existan tantos registros como beneficarios únicos.

In [0]:
%sql
SELECT 
  COUNT(1) as TotalRegistrosBase,                                 -- Total de Registros 4392521
  COUNT(DISTINCT(IdBeneficiario)) as TotalBeneficiariosBase       -- Total de Beneficiarios Únicos 4392521
FROM baseModeloSabana  

TotalRegistrosBase,TotalBeneficiariosBase
4392522,4392522


En éste punto ya tenemos la base de los beneficiarios con las observaciones en columnas, es decir beneficiario + t1 + t2 + ... + tn.  
> Vamos a depurar la base de SISBEN puesto que hay N. Documento que corresponde a más de una persona (Nombres + Apellidos).   
> Se genera una llave y se establece un row_number() para generar el conteo de las observaciones ordenadas por fecha: Concatenación de documen + ape1 (Documento + Apellido 1) por cada observación. Esto pues hay números de documento que corresponden a más de una persona.

In [0]:
len(baseModeloSabana.columns)

In [0]:
SisbenPartition = spark.sql("""
select 
    * 
from (
    select 
      *,
      row_number() over (partition by concat(num_documento,UPPER(pri_apellido)) order by fec_nacimiento desc) NumeroObs
    from sisben
    )
where NumeroObs = 1
""")
SisbenPartition.createOrReplaceTempView("SisbenPartition")

Acá evidenciamos que sí toma la llave y deja un registro único con la llave (Documento + Apellido 1)

In [0]:
%sql
SELECT                                                            
  COUNT(1) as TotalRegistrosBase,                                 -- Total de Registros 4392522 desde la Base Cuéntame
  COUNT(DISTINCT(IdBeneficiario)) as TotalBeneficiariosBase       -- Total de Beneficiarios Únicos 4392522 con INS y Sisben  IV
FROM baseModeloSabana 

Se integran las fuentes de:

> Base de modelo: RubOnline, Cuéntame

> Sisben: Base del SISBEN

> INS Cortes: Cortes del INS

# Cruce sabanas Sisben4 bm e INS sabana final

In [0]:
baseprueb = spark.sql("""
SELECT * FROM (
    SELECT
      bm.*,
      sis.*,
      ins.*,
      row_number() over (partition by idBeneficiario order by bm.FechaNacimientoBeneficiario desc) NumeroObsValu2
    FROM baseModeloSabana bm -- 110.425 Beneficiarios
    -- 
     
    --Acá cruzamos con INS:
    LEFT JOIN ins_cortes ins ON 
      CAST(ins.INS_num_ide_ as Int) = CAST(bm.NumeroDocumento as Int)  -- 110.425 Beneficiarios  -- 325 registros que cruzan con INS -- ahora son 372. Se validó el cruce OK. 

    --Acá cruzamos con SISBEN el (Documento + Apellido 1) de acuerdo a la regla que se planteó arriba:
    LEFT JOIN SisbenPartition sis on 
      CAST(sis.num_documento as Int) = CAST(bm.NumeroDocumento as Int)    
      AND UPPER(sis.pri_apellido) = UPPER(bm.PrimerApellido) -- 110.425 Beneficiarios -- 6.783 registros que cruzan con SISBEN ahora son 53.180 con la nueva llave. Se validó el cruce OK.
    
    
) WHERE NumeroObsValu2 = 1
""")
baseprueb.createOrReplaceTempView("baseprueb")

In [0]:
print(len(baseprueb))

#  se guarda la sabana final en formato delta

In [0]:
#---------------------------- Borrar Histórico ----------------------------------------#
#dbfsWriteDelta2 = "dbfs:/dbfs/gold"
dbfsWriteDelta2="dbfs:/mnt/gold/icbf-gai/BaseModeloProbabilisticosabana6/"
try:
    dbutils.fs.ls(dbfsWriteDelta2)
    print(" *** Borrando Directorio *** ")
    files = dbutils.fs.ls(dbfsWriteDelta2)
    for f in files:
        f.path
        dbutils.fs.rm(f.path, recurse=True)
except:
    print(" *** No Existe Directorio *** ")
    pass
#---------------------------- Directorio de Salida ------------------------------------#
print(" *** Guardando en el DataLake *** ")
pathSave = dbfsWriteDelta2
nombreTabla = "dbo.baseprueb"

baseprueb.write \
.format("delta") \
.mode("overwrite") \
.option("overwriteSchema", "true") \
.save(f"{pathSave}") 
print(" *** Guardado en el DataLake *** ")
spark.sql(f"CREATE TABLE IF NOT EXISTS {nombreTabla} USING DELTA LOCATION '{pathSave}/'")