# Factores de riesgo
Este proyecto se corresponde al trabajo final del curso de Data Science dictado por la Fundación YPF en el año 2024.

## Objetivos del notebook 

A partir del dataset en crudo del INDEC, obtendremos una version delimitada utilizando las columnas que nos sean utiles para trabajar alineandose con el objetivo general del proyecto. Las acciones a realizar para lograrlo son:

+ Delimitar los bloques tematicos
+ Crear columnas derivadas de otras
+ Renombrar todas las columnas del dataset
+ Determinar el tipo de variables

Luego, exportaremos un archivo CSV que servirá de entrada al EDA.

## Setup de archivos

__Importacion de librerias__

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn as skl
import seaborn as sns

from functools import reduce

from utils.funcions import *
from utils.codificaciones import *

__Importacion de base de datos__

In [2]:
friesgo_2018_raw = pd.read_csv('datasets/friesgo_2018_raw.txt', delimiter = '|')

## Analisis estructural del dataset raw

Se pretende conocer los datos generales acerca de la estructura del dataset raw (proveniente del INDEC) para poder tratarlo a posteriori de una manera adecuada

In [3]:
# Determino filas y columnas
friesgo_2018_raw.shape

(29224, 287)

In [4]:
# Obtengo las 5 primeras filas del dataset
friesgo_2018_raw.head()

Unnamed: 0,id,cod_provincia,region,tamanio_aglomerado,aglomerado,localidades_150,submuestra,bhcv01,bhcv02,bhcv03,...,glucemia_elevada,prevalencia_glucemia_elevada_combinada,findrisc,bimq06,bimq06_01,colesterol_elevado,prevalencia_colesterol_combinada,wf1p,wf2p,wf3p
0,1128639,2,1,1,1,1,1,3,2,1,...,,,2.0,,,,,2378,4464,0
1,1709939,2,1,1,1,1,0,1,4,1,...,,,,,,,,3588,0,0
2,6874130,2,1,1,1,1,0,3,2,1,...,,,,,,,,2740,0,0
3,10319375,2,1,1,1,1,1,3,1,1,...,,,,,,,,493,0,0
4,11140857,2,1,1,1,1,0,3,3,1,...,,,,,,,,2016,0,0


In [5]:
pd.set_option('display.max_columns',None)
print(friesgo_2018_raw.columns.tolist())


['id', 'cod_provincia', 'region', 'tamanio_aglomerado', 'aglomerado', 'localidades_150', 'submuestra', 'bhcv01', 'bhcv02', 'bhcv03', 'bhcv04', 'bhcv05', 'bhcv06', 'bhcv07', 'bhcv08', 'bhcv09', 'bhcv10', 'bhcv11', 'bhho01', 'bhho02', 'bhho03', 'cant_componentes', 'miembros_18', 'tipo_hogar', 'bhih01', 'bhih01_02', 'rango_ingreso', 'quintil_uc', 'imputado', 'bhih03', 'bhch03_j', 'bhch04_j', 'rango_edad_j', 'bhch05_j', 'nivel_instruccion_j', 'nivel_instruccion_agrupado_j', 'bhch10_01_j', 'bhch10_02_j', 'bhch10_03_j', 'bhch10_04_j', 'bhch10_05_j', 'bhch10_06_j', 'bhch10_99_j', 'cobertura_salud_j', 'bhsl01', 'bhsl02', 'bhsl03', 'bhsl04', 'bhsl05', 'bhsl06', 'condicion_actividad_j', 'bhch02', 'bhch03', 'bhch04', 'rango_edad', 'bhch05', 'nivel_instruccion', 'nivel_instruccion_agrupado', 'bhch10_01', 'bhch10_02', 'bhch10_03', 'bhch10_04', 'bhch10_05', 'bhch10_06', 'bhch10_99', 'cobertura_salud', 'bisl01', 'bisl02', 'bisl03', 'bisl04', 'bisl05', 'bisl06', 'condicion_actividad', 'bisg01', 'bisg0

## Busqueda y localizacion de columnas

In [3]:
#Busco el indice de una columna para dividir los bloques tematicos
# friesgo_2018_raw.columns.get_loc('cobertura_salud')

In [4]:
# Ubicacion
ubicacion_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, list(range(0,7))]).copy()
# USAR EL SIGUIENTE CODIGO :
# bloquetematico_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(inicio,final))]).copy()

In [5]:
# Caracteristicas del encuestado
# Busqueda de la columna a añadir que describe la situacion laboral del individuo
# friesgo_2018_raw.columns.get_loc('condicion_actividad')
caract_encuestado_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(51,66)) + [72]]).copy()

In [6]:
# Salud general

In [7]:
# Actividad fisica

In [8]:
# Tabaquismo
tabaquismo_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(98, 133))]).copy()

In [9]:
# Hipertension arterial

In [10]:
# Peso corporal

In [11]:
# Alimentacion
alimentacion_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(169,186))]).copy()

In [12]:
# Colesterol
colesterol_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(187,195))]).copy()

In [13]:
# Consumo de alcohol
consumo_alcohol_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(195,217))]).copy()

In [14]:
# Diabetes
diabetes_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(218, 236))]).copy()

In [15]:
# Mediciones atropometricas
mediciones_antropometricas_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(252, 273))]).copy()

In [16]:
# Mediciones bioquimicas
mediciones_bioquimicas_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(274, 283))]).copy()

## Tratamiento de columnas del dataset raw

### UBICACION

In [17]:
# filtrado de las columnas que me seran utiles
ubicacion = ubicacion_raw.filter(items=['id', 'cod_provincia', 'tamanio_aglomerado', 'submuestra'])

### CARACTERISTICAS DEL ENCUESTADO

In [18]:
# Renombro
caract_encuestado_raw.rename(columns = {
    'bhch02': 'relacion_jefeh',
    'bhch03': 'sexo',
    'bhch04': 'edad',
    'rango_edad': 'rango_etario',
    'bhch05': 'situacion_conyugal',
    'nivel_instruccion': 'nivel_educ',
    'nivel_instruccion_agrupado': 'nivel_eduG',
    'bhch10_01': 'obra_social',
    'bhch10_02': 'o_social_prep',
    'bhch10_03': 'o_soc_pre_vol',
    'bhch10_04': 'sem',
    'bhch10_05': 'asoc_prog_salud_estatal',
    'bhch10_06': 'no_asociado_nada',
    'bhch10_99': 'nosabe'
}, inplace= True)


In [19]:
#Filtrado de columnas necesarias
caract_encuestado = caract_encuestado_raw.filter(items=['id', 'sexo', 'edad','situacion_conyugal', 'nivel_educ', 'cobertura_salud'])

### SALUD GENERAL

### ACTIVIDAD FISICA

### TABAQUISMO

__Creación de nuevas columnas__

In [20]:
# Calculo de nueva columna cant_tipos_tabaco
# Crearemos una nueva columna cant_tipos_tabaco que contendra la cantidad de tipos de tabaco que la persona consume.

# Subconjunto de columnas donde queremos contar los 1s
columnas_subconjunto = ['bita09_01', 'bita09_02', 'bita09_03', 'bita09_04', 'bita09_05', 'bita09_06']

# Llamar a la función con el subconjunto de columnas
tabaquismo_raw.loc[:, 'cant_tipos_tabaco'] = calcular_tipos_tabaco(tabaquismo_raw, columnas_subconjunto)

__Renombre de columnas__

In [21]:
# Renombro columnas
tabaquismo_raw.rename(columns = {
    'bita01':               'es_fumador',                                       # var categorica
    'bita02':               'edad_fuma_primera_vez',                            # var numerica discreta
    'bita02_99':            'edad_fuma_primera_vez_ns_nc',                      # var numerica discreta
    'bita03':               'fumado_100_cigarrillos',                           # var categorica
    'bita04':               'periodicidad_fumador',                             # var ordinal
    'bita04_01':            'es_cigarrillo_armado',                             # var categorica
    'bita04_02':            'es_cigarrillo_paquete',                            # var categorica
    'bita05':               'marca_cigarrillos',                                # var categorica
    'bita06_a':             'tipo_paquete_comprado',                            # var categorica
    'bita06_b':             'cant_cigarrillos_comprados',                       # var numerica discreta
    'bita06_b_99':          'cant_cigarrillos_comprados_ns_nc',                 # var numerica discreta
    'bita06_c':             'cigarrillos_sabor',                                # var categorica
    'bita06_d':             'cigarrillos_tipo_capsula',                         # var categorica
    'bita07':               'dinero_pagado_ultima_compra_cigarrillos',          # var numerica discreta
    'bita07_99':            'dinero_pagado_ultima_compra_cigarrillos_ns_nc',    # var categorica
    'bita08':               'intento_dejar_fumar',                              # var categorica
    'bita09_01':            'es_fumador_cigarro_habano',                        # var categorica
    'bita09_02':            'es_fumador_cigarritos',                            # var categorica
    'bita09_03':            'es_fumador_pipa_comun',                            # var categorica
    'bita09_04':            'es_fumador_pipa_agua',                             # var categorica
    'bita09_05':            'es_fumador_tabaco_masticar',                       # var categorica
    'bita09_06':            'es_fumador_cigarrillo_electronico',                # var categorica
    'bita10_01':            'hubo_fumadores_casa',                              # var categorica
    'bita10_02':            'hubo_fumadores_trabajo',                           # var categorica
    'bita10_03':            'hubo_fumadores_escuela',                           # var categorica
    'bita10_04':            'hubo_fumadores_restaurant',                        # var categorica
    'bita10_05':            'hubo_fumadores_hospital',                          # var categorica
    'bita10_06':            'hubo_fumadores_otros_lugares',                     # var categorica
    'bita11':               'publicidad_comercios',                             # var categorica
    'bita12':               'publicidad_email',                                 # var categorica
    'bita13':               'suscripcion_cigarrera',                            # var categorica
    'bita14':               'vio_propaganda_riesgo_fumar',                      # var categorica
    'bita15':               'propaganda_piensa_dejar_fumar',                    # var categorica
    'bita16':               'acuerdo_impuesto_tabaco',                           # var categorica
    'consumo_tabaco_100':   'condicion_fumador'
}, inplace = True)

### HIPERTENSION ARTERIAL

### PESO CORPORAL

### ALIMENTACION

In [22]:
alimentacion_raw.rename(columns={
    'bial01': 'sal1',
    'bial02': 'sal2',
    'bial03': 'consumo_semanal_futas',
    'bial08': 'ranking_dieta',
    'promedio_fv_diario': 'media_fv_diaria'
}, inplace=True)

In [23]:
#creo una tabla auxiliar para poder iterar solo en las columnas de mi interes
columnas_sal = alimentacion_raw.iloc[:,[1,2]]

In [24]:
#creo una nueva columna que combine sal1 y sal2 para hacer una columna que mida el consumo de sal
consumo_sal = []
for row in columnas_sal.itertuples():
   suma = row.sal1 + row.sal2
   if (suma <= 50):
      consumo_sal.append(suma)
   elif (suma >= 100):
      consumo_sal.append(suma - 97)
   else:
      consumo_sal.append('valor no tomado en cuenta')

In [25]:
#inserto la columna nueva en la tabla original y le inserto los valores que calcule anteriormente
alimentacion_raw.insert(3, column='consumo_sal', value=consumo_sal)
alimentacion_raw.columns

Index(['id', 'sal1', 'sal2', 'consumo_sal', 'consumo_semanal_futas',
       'bial03_99', 'bial04', 'bial04_99', 'bial05', 'bial05_99', 'bial06',
       'bial06_99', 'bial07', 'ranking_dieta', 'bial09', 'bial10',
       'media_fv_diaria', 'consumo_fv', 'barreras_fyv'],
      dtype='object')

In [26]:
# filtro columnas
alimentacion = alimentacion_raw.filter(items=['id','consumo_sal', 'consumo_semanal_futas', 'ranking_dieta','media_fv_diaria'])
alimentacion.head()

Unnamed: 0,id,consumo_sal,consumo_semanal_futas,ranking_dieta,media_fv_diaria
0,1128639,5,7.0,2,4.0
1,1709939,4,7.0,2,6.43
2,6874130,2,5.0,2,2.86
3,10319375,3,3.0,2,1.43
4,11140857,4,7.0,2,1.43


### COLESTEROL

In [27]:
# Renombro las columnas 
colesterol_raw.rename( columns={
    'bico01': 'medido_colesterol',
    'bico02': 'fecha_med_colesterol',
    'bico03': 'colesterol_alto',
    'bico04': 'tratamiento_medico_col',
    'bico05_01': 'trat_habitos_col',
    'bico05_02': 'trat_farmac_col',
    'control_colesterol': 'autocontrol_col'
}, inplace= True)

In [28]:
colesterol = colesterol_raw.filter(items=['id','medido_colesterol','colesterol_alto','tratamiento_medico_col'])

### CONSUMO DE ALCOHOL

In [29]:
consumo_alcohol_raw

Unnamed: 0,id,bica01,bica02,bica03_01,bica03_02,bica03_99,bica04_01_b,bica04_01_c,bica04_02_b,bica04_02_c,...,bica05_01_b,bica05_01_c,bica05_02_b,bica05_02_c,bica05_03_b,bica05_03_c,bica05_04,bica06,bica07,consumo_regular_riesgo
0,1128639,1,1.0,1.0,,,1.0,,,98.0,...,3.0,,1.0,,,98.0,2.0,2.0,2,2.0
1,1709939,1,1.0,,1.0,,,98.0,1.0,,...,,98.0,,98.0,,98.0,2.0,2.0,2,2.0
2,6874130,1,2.0,,,,,,,,...,,,,,,,,,2,2.0
3,10319375,1,3.0,,,,,,,,...,,,,,,,,,1,2.0
4,11140857,1,1.0,1.0,,,1.5,,,98.0,...,,98.0,,98.0,,98.0,2.0,2.0,99,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29219,2092256226,1,1.0,1.0,,,6.0,,,98.0,...,12.0,,,98.0,,98.0,2.0,2.0,2,2.0
29220,2097771079,1,1.0,1.0,,,1.7,,1.0,,...,,98.0,,98.0,,98.0,2.0,2.0,1,2.0
29221,2101464264,2,,,,,,,,,...,,,,,,,,,1,2.0
29222,2116612011,2,,,,,,,,,...,,,,,,,,,1,2.0


In [30]:
# Renombro las columnas
consumo_alcohol_raw.rename( columns = {
    'bica01': 'ha_consumido_alc',
    'bica02': 'fecha_ult_cons',
    'bica03_01': 'freq_30_ds',
    'bica03_02': 'freq_30_dm',
    'bica03_99': 'freq_30_nsnc',
    'bica04_01_b': 'tragos_cerveza',
    'bica04_01_c': 'tragos_cerveza_notoma',
    'bica04_02_b': 'tragos_vino',
    'bica04_02_c': 'tragos_vino_notoma',
    'bica04_03_b': 'tragos_bebida_fuerte',
    'bica04_03_c': 'tragos_bebida_fuerte_notoma',
    'bica04_04': 'toma_otras_bebidas',
    'bica05_01_b': 'sobrecon_cant_cerveza',
    'bica05_01_c': 'sobrecon_cerv_notoma',
    'bica05_02_b': 'sobrecon_cant_vino',
    'bica05_02_c': 'sobrecon_vino_notoma',
    'bica05_03_b': 'sobrecon_cant_bebfuerte',
    'bica05_03_c': 'sobrecon_bebfuerte_notoma',
    'bica05_04': 'sobrecon_otrasb',
    'bica06': 'manejo_alcholizado30',
    'bica07': 'aprueba_aumento_imp_alchol'
}, inplace= True)

In [32]:
# Voy a comenzar filtrando solo los consumos dentro de 30 dias que son los que me importan
# asigno valor nan a los ns/nc
reemplazos = {
    99:np.nan
}
consumo_alcohol_raw['fecha_ult_cons'] = consumo_alcohol_raw['fecha_ult_cons'].replace(reemplazos)
consumo_alcohol_raw['ha_consumido_alc'] = consumo_alcohol_raw['ha_consumido_alc'].replace(reemplazos)


In [33]:
# Ahora voy a convertir la columna de dias a la semana a dias al mes y combinarlas en una'freq_30_dm 'freq_30_ds'
consumo_alcohol_raw.freq_30_ds = consumo_alcohol_raw.freq_30_ds * 4

In [34]:
consumo_alcohol_raw.head()

Unnamed: 0,id,ha_consumido_alc,fecha_ult_cons,freq_30_ds,freq_30_dm,freq_30_nsnc,tragos_cerveza,tragos_cerveza_notoma,tragos_vino,tragos_vino_notoma,...,sobrecon_cant_cerveza,sobrecon_cerv_notoma,sobrecon_cant_vino,sobrecon_vino_notoma,sobrecon_cant_bebfuerte,sobrecon_bebfuerte_notoma,sobrecon_otrasb,manejo_alcholizado30,aprueba_aumento_imp_alchol,consumo_regular_riesgo
0,1128639,1.0,1.0,4.0,,,1.0,,,98.0,...,3.0,,1.0,,,98.0,2.0,2.0,2,2.0
1,1709939,1.0,1.0,,1.0,,,98.0,1.0,,...,,98.0,,98.0,,98.0,2.0,2.0,2,2.0
2,6874130,1.0,2.0,,,,,,,,...,,,,,,,,,2,2.0
3,10319375,1.0,3.0,,,,,,,,...,,,,,,,,,1,2.0
4,11140857,1.0,1.0,4.0,,,1.5,,,98.0,...,,98.0,,98.0,,98.0,2.0,2.0,99,2.0


In [35]:
#uno las dos columnas en una nueva
consumo_alcohol_raw['consumo_mensual'] = consumo_alcohol_raw.freq_30_dm.combine_first(consumo_alcohol_raw.freq_30_ds)

In [36]:
# Filtro solo las columnas utiles en una tabla auxiliar, con esperanza de optimizar el proceso de creacion de la tabla de frecuencia de consumo
tabla_aux_ca = consumo_alcohol_raw.filter(items=['id','ha_consumido_alc', 'fecha_ult_cons','consumo_mensual'])
tabla_aux_ca.sample(5)

Unnamed: 0,id,ha_consumido_alc,fecha_ult_cons,consumo_mensual
14300,1144545361,1.0,1.0,1.0
9498,745910909,1.0,2.0,
7417,520253453,2.0,,
28069,1720566944,1.0,1.0,8.0
23217,1242790407,1.0,1.0,28.0


In [37]:
# Chequeo los valores que componen cada una de mis columnas
print(tabla_aux_ca.ha_consumido_alc.unique())
print(tabla_aux_ca.fecha_ult_cons.unique())
print(tabla_aux_ca.consumo_mensual.unique())

[ 1.  2. nan]
[ 1.  2.  3. nan]
[ 4.  1. nan 12.  2. 28. 30.  8. 20. 16.  7.  3.  6. 15. 10.  5. 24. 25.
  9. 13. 14. 26.]


In [38]:
def calcular_frecuencia_detallada(row):
    if row["ha_consumido_alc"] == 2:
        return 100
    elif row["ha_consumido_alc"] == 1:
        if pd.isna(row["fecha_ult_cons"]):
            return 404
        elif row["fecha_ult_cons"] == 3:
            return 200
        elif row["fecha_ult_cons"] == 2:
            return 300
        elif row["fecha_ult_cons"] == 1:
            if pd.isna(row['consumo_mensual']):
                return 404
            consumo_mensual = int(row['consumo_mensual'])
            if consumo_mensual >= 15:
                return 400
            else:
                return 500
    return 404

In [39]:
tabla_aux_ca['freq_cons_alc'] = tabla_aux_ca.apply(calcular_frecuencia_detallada, axis=1)
tabla_aux_ca.sample(5)

Unnamed: 0,id,ha_consumido_alc,fecha_ult_cons,consumo_mensual,freq_cons_alc
16957,502435252,1.0,2.0,,300
22759,277242896,1.0,1.0,8.0,500
12471,1626047949,1.0,3.0,,200
22870,509852780,1.0,1.0,4.0,500
2546,1127391204,1.0,2.0,,300


In [40]:
#agrego mi columna calculada y chekeada a la tabla de alcolismo
consumo_alcohol_raw = pd.merge(consumo_alcohol_raw,tabla_aux_ca, how='left',on='id')

__Ahora combino las columnas para los tipos de bebida__

In [41]:
# Primero defino una funcion, que como indica, transforma en 1 la columna correspondiente a los tragos de x bebidas, y en 0 las respuestas positivas a no toma x bebida y luego las combina en 1 para indicar si toma o no esa bebida

def combinar_y_transformar(col1, col2):
    transformacioncol1 = col1.apply(lambda x: 1 if pd.notna(x) else x)
    transformacioncol2 = col2.apply(lambda x: 0 if pd.notna(x) else x)
    combinacioncols = transformacioncol1.combine_first(transformacioncol2)
    return combinacioncols

In [42]:
# Creo una columna para cada bebida para indicar 1: si toma, 0: si no toma esa bebida
consumo_alcohol_raw['consumo_vino'] = combinar_y_transformar(consumo_alcohol_raw.tragos_vino,consumo_alcohol_raw.tragos_vino_notoma)
consumo_alcohol_raw['consumo_cerveza'] = combinar_y_transformar(consumo_alcohol_raw.tragos_cerveza,consumo_alcohol_raw.tragos_cerveza_notoma)
consumo_alcohol_raw['consumo_bebidas_fuertes'] = combinar_y_transformar(consumo_alcohol_raw.tragos_bebida_fuerte, consumo_alcohol_raw.tragos_bebida_fuerte_notoma)

In [43]:
# Reemplazo los valores 2 por 0, para que concuerden con las otras categorias (use 1 y 0 para facilitar calculos posteriores)
consumo_alcohol_raw['toma_otras_bebidas'] = consumo_alcohol_raw['toma_otras_bebidas'].replace(2,0)

__Voy a utilizar las siguientes columnas__
'id',''freq_cons_alc','consumo_vino', 'consumo_cerveza', 'consumo_bebidas_fuertes', 'toma_otras_bebidas'

In [44]:
# Defino la funcion para determiar si toma una o varias bebidas
def combinar_consumo(row):
    bebidas = []
    if row['consumo_vino'] == 1:
        bebidas.append(1)
    if row['consumo_cerveza'] == 1:
        bebidas.append(2)
    if row['consumo_bebidas_fuertes'] == 1:
        bebidas.append(3)
    if row['toma_otras_bebidas'] == 1:
        bebidas.append(4) 
    if len(bebidas) == 0:
        return np.nan
    elif len(bebidas) == 1:
        return bebidas[0]
    else:
        return 5

In [45]:
# Creo la columna con los tipos de bebidas 
consumo_alcohol_raw['tipo_bebida'] = consumo_alcohol_raw.apply(combinar_consumo, axis=1)

In [46]:
consumo_alcohol = consumo_alcohol_raw.filter(items=['id','freq_cons_alc','tipo_bebida'])

In [47]:
consumo_alcohol

Unnamed: 0,id,freq_cons_alc,tipo_bebida
0,1128639,500,2.0
1,1709939,500,1.0
2,6874130,300,
3,10319375,200,
4,11140857,500,2.0
...,...,...,...
29219,2092256226,500,2.0
29220,2097771079,500,5.0
29221,2101464264,100,
29222,2116612011,100,


### DIABETES

__Creación de nuevas columnas__

In [None]:
# Creo una nueva columna para diagnostico en cosanguineos
''' Resultados posibles
   bidi06_01  bidi06_02    diagnostico_cosanguineos
0        1.0        1.0        cosanguineo_primario
1        2.0        2.0        sin_antecedentes
2        NaN        1.0        cosanguineo_secundario
3        1.0        NaN        cosanguineo_primario
4        2.0        NaN        sin_antecedentes
5        NaN        2.0        sin_antecedentes
6        1.0        2.0        cosanguineo_primario
7        2.0        1.0        cosanguineo_secundario
8        NaN        NaN        ns_nc
'''
diabetes_raw['diagnostico_cosanguineos'] = np.where(
    diabetes_raw['bidi06_01'] == 1, 'cosanguineo_primario',
    np.where(
        (diabetes_raw['bidi06_01'] != 1) & (diabetes_raw['bidi06_02'] == 1), 'cosanguineo_secundario',
        np.where(
            (diabetes_raw['bidi06_01'] == 2) | (diabetes_raw['bidi06_02'] == 2), 'sin_antecedentes',
            'ns_nc'
        )
    )
)

__Renombre de columnas__

In [None]:
# Renombro columnas
diabetes_raw.rename(columns = {
    'bidi01':               'es_diabetico',                                     # var categorica
    'bidi02':               'es_diabetes_gestacional',                          # var categorica
    'bidi03':               'en_tratamiento_diabetes',                          # var categorica
    'bidi04_01':            'en_tratamiento_diabetes_insulina',                 # var categorica
    'bidi04_02':            'en_tratamiento_diabetes_otros',                    # var categorica
    'bidi04_03':            'en_tratamiento_diabetes_medicamentos',             # var categorica
    'bidi05':               'es_insulinodependiente',                           # var categorica
    'bidi06_01':            'diagnostico_diabetes_cosanguineo_primario',        # var categorica
    'bidi06_02':            'diagnostico_diabetes_cosanguineo_secundario',      # var categorica
    'bidi07':               'ultima_medicion_glucemia',                         # var categorica
    'bidi08':               'controla_diabetes',                                # var categorica
    'bidi09':               'lugar_control_diabetes',                           # var categorica
    'bidi10':               'atencion_diabetes_mismo_profesional',              # var categorica
    'bidi11':               'atencion_diabetes_hc',                             # var categorica
    'bidi12':               'revision_pies',                                    # var categorica
    'bidi13':               'revision_pupilas',                                 # var categorica
    'bidi14':               'educado_control_diabetes',                         # var categorica
}, inplace = True)

### MEDICIONES ANTROPOMETRICAS

__Renombre de columnas__

In [None]:
# Renombro columnas
mediciones_antropometricas_raw.rename(columns = {
    'bima01':               'consentimiento_ma',                                # var categorica
    'bima02':               'bebio_cafeina',                                    # var categorica
    'bima03':               'consentimiento_presion',                           # var categorica
    'bima04_01_a':          'primera_medicion_sistolica',                       # var numerica continua
    'bima04_01_b':          'primera_medicion_diastolica',                      # var numerica continua
    'bima04_02_a':          'segunda_medicion_sistolica',                       # var numerica continua
    'bima04_02_b':          'segunda_medicion_diastolica',                      # var numerica continua
    'bima04_03_a':          'tercera_medicion_sistolica',                       # var numerica coninua
    'bima04_03_b':          'primera_medicion_diastolica',                      # var numerica continua
    'ta_elevada':           'presion_arterial_elevada',                         # var categorica
    'bima06':               'consentimiento_altura',                            # var categorica
    'bima07':               'medicion_altura',                                  # var numerica continua
    'bima09':               'consentimiento_peso',                              # var categorica
    'bima10':               'medicion_peso',                                    # var numerica continua
    'bima12':               'consentimiento_cintura',                           # var categorica
    'bima13':               'medicion_cintura',                                 # var numerica continua
    'bima14':               'tipo_medicion_cintura',                            # var categorica
    'imc_bima':             'imc',                                              # var categorica
    'imc_categorias_bima':  'imc_categoria'                                     # var categorica
}, inplace = True)

### MEDICIONES BIOQUIMICAS

__Renombre de columnas__

In [None]:
# Renombro columnas
mediciones_bioquimicas_raw.rename(columns = {
    'bimq01':               'consentimiento_bq',                                # var categorica
    'bimq05':               'medicion_glucosa',                                 # var numerica continua
    'bimq05_01':            'medicion_glucosa_no_registrada',                   # var categorica
    'bimq06':               'medicion_colesterol',                              # var numerica continua
    'bimq06_01':            'medicion_colesterol_no_registrada'                 # var categorica                                  # var categorica
}, inplace = True)

### Union de bloques tematicos en dataset util/ final

Aqui combinaremos las tablas correspondientes a cada bloque tematico ya acondicionadas, para crear el dataset sobre el que trabajaremos posteriormente. 

In [49]:
# Lista de los dataframes a unir
dfs = [
    ubicacion,
    caract_encuestado,
    tabaquismo_raw,
    diabetes_raw,
    alimentacion,
    colesterol,
    consumo_alcohol,
    mediciones_antropometricas_raw,
    mediciones_bioquimicas_raw
]

# Union de dataframes por la columna 'id', utilizando 'inner join' como metodo de union
friesgo_2018 = reduce(lambda left, right: pd.merge(left, right, on='id', how='inner'), dfs)

# Verificamos que el dataframe resultante contenga la misma cantidad de filas que el dataframe original
print(friesgo_2018_raw.shape)
print(friesgo_2018.shape)

(29224, 287)
(29224, 102)


In [50]:
# Exportacion a CSV del dataframe resultante para ser utilizado en el EDA
friesgo_2018.to_csv('datasets/friesgo_2018.csv', index=False)