# Factores de riesgo
Este proyecto se corresponde al trabajo final del curso de Data Science dictado por la Fundación YPF en el año 2024.

## Objetivos del notebook 

A partir del dataset en crudo del INDEC, obtendremos una version delimitada utilizando las columnas que nos sean utiles para trabajar alineandose con el objetivo general del proyecto. Las acciones a realizar para lograrlo son:

+ Delimitar los bloques tematicos
+ Crear columnas derivadas de otras
+ Renombrar todas las columnas del dataset
+ Determinar el tipo de variables

Luego, exportaremos un archivo CSV que servirá de entrada al EDA.

## Setup de archivos

__Importacion de librerias__

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn as skl
import seaborn as sns

from functools import reduce

from utils.funcions import *
from utils.codificaciones import *

__Importacion de base de datos__

In [2]:
friesgo_2018_raw = pd.read_csv('datasets/friesgo_2018_raw.txt', delimiter = '|')

## Analisis estructural del dataset raw

Se pretende conocer los datos generales acerca de la estructura del dataset raw (proveniente del INDEC) para poder tratarlo a posteriori de una manera adecuada

In [3]:
# Determino filas y columnas
friesgo_2018_raw.shape

(29224, 287)

In [4]:
# Obtengo las 5 primeras filas del dataset
friesgo_2018_raw.head()

Unnamed: 0,id,cod_provincia,region,tamanio_aglomerado,aglomerado,localidades_150,submuestra,bhcv01,bhcv02,bhcv03,...,glucemia_elevada,prevalencia_glucemia_elevada_combinada,findrisc,bimq06,bimq06_01,colesterol_elevado,prevalencia_colesterol_combinada,wf1p,wf2p,wf3p
0,1128639,2,1,1,1,1,1,3,2,1,...,,,2.0,,,,,2378,4464,0
1,1709939,2,1,1,1,1,0,1,4,1,...,,,,,,,,3588,0,0
2,6874130,2,1,1,1,1,0,3,2,1,...,,,,,,,,2740,0,0
3,10319375,2,1,1,1,1,1,3,1,1,...,,,,,,,,493,0,0
4,11140857,2,1,1,1,1,0,3,3,1,...,,,,,,,,2016,0,0


In [5]:
pd.set_option('display.max_columns',None)
print(friesgo_2018_raw.columns.tolist())


['id', 'cod_provincia', 'region', 'tamanio_aglomerado', 'aglomerado', 'localidades_150', 'submuestra', 'bhcv01', 'bhcv02', 'bhcv03', 'bhcv04', 'bhcv05', 'bhcv06', 'bhcv07', 'bhcv08', 'bhcv09', 'bhcv10', 'bhcv11', 'bhho01', 'bhho02', 'bhho03', 'cant_componentes', 'miembros_18', 'tipo_hogar', 'bhih01', 'bhih01_02', 'rango_ingreso', 'quintil_uc', 'imputado', 'bhih03', 'bhch03_j', 'bhch04_j', 'rango_edad_j', 'bhch05_j', 'nivel_instruccion_j', 'nivel_instruccion_agrupado_j', 'bhch10_01_j', 'bhch10_02_j', 'bhch10_03_j', 'bhch10_04_j', 'bhch10_05_j', 'bhch10_06_j', 'bhch10_99_j', 'cobertura_salud_j', 'bhsl01', 'bhsl02', 'bhsl03', 'bhsl04', 'bhsl05', 'bhsl06', 'condicion_actividad_j', 'bhch02', 'bhch03', 'bhch04', 'rango_edad', 'bhch05', 'nivel_instruccion', 'nivel_instruccion_agrupado', 'bhch10_01', 'bhch10_02', 'bhch10_03', 'bhch10_04', 'bhch10_05', 'bhch10_06', 'bhch10_99', 'cobertura_salud', 'bisl01', 'bisl02', 'bisl03', 'bisl04', 'bisl05', 'bisl06', 'condicion_actividad', 'bisg01', 'bisg0

## Busqueda y localizacion de columnas

In [6]:
#Busco el indice de una columna para dividir los bloques tematicos
# friesgo_2018_raw.columns.get_loc('cobertura_salud')

In [7]:
# Ubicacion
ubicacion_raw = 'Aca ponemos la localizacion'
# USAR EL SIGUIENTE CODIGO :
# bloquetematico_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(inicio,final))]).copy()

In [8]:
# Tabaquismo
tabaquismo_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(98, 133))]).copy()

In [9]:
# Salud general
salud_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(73,78))]).copy()

In [10]:
#Actividad física
actividad_fisica_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(79,98))]).copy()

In [None]:
# Hipertension arterial
hipertension_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(140,159))]).copy()

In [None]:
# Peso corporal
peso_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(160,169))]).copy()

In [11]:
# Alimentacion

In [12]:
# Colesterol

In [13]:
# Consumo de alcohol

In [14]:
# Diabetes
diabetes_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(218, 236))]).copy()

In [15]:
# Mediciones atropometricas
mediciones_antropometricas_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(252, 273))]).copy()

In [16]:
# Mediciones bioquimicas
mediciones_bioquimicas_raw = pd.DataFrame(friesgo_2018_raw.iloc[:, [0] + list(range(274, 283))]).copy()

## Tratamiento de columnas del dataset raw

### UBICACION

In [17]:
# ESCRIBA su codigo aqui!

### CARACTERISTICAS DEL ENCUESTADO

### SALUD GENERAL

In [None]:
# Renombre de columnas
salud_raw.rename(columns = {
    #SALUD GENERAL 
"bisg01" : "salud_actual",
"bisg02" : "nivel_de_movilidad",
"bisg03" : "capacidad_cuidado_personal",
"bisg04" : "capacidad_actividades_cotidianas",
"bisg05" : "dolor_malestar_general",
"bisg06" : "ansiedad_depresion"
}, inplace = True)

In [None]:
salud_raw.head()

In [None]:
#análisis de nulos en el subset SALUD GENERAL
#Análisis gráfico de la composición de no nulos en cada columna
a1_salud=(salud_raw.notna().sum(axis = 0)  /  len(salud_raw))
a1_salud.plot.bar()

De este subset se aconseja mantener para el análisis a las columnas: 
"salud_actual"
"capacidad_actividades_cotidianas"
"dolor_malestar_general"
"ansiedad_depresion"

### ACTIVIDAD FISICA

In [None]:
# Renombre de columnas
actividad_fisica_raw.rename(columns = {
    #ACTIVIDAD FÍSICA af
"biaf01" : "af_intensa_veces_por_semana",
"biaf02_m" : "af_intensa_min_totales_por_semana",
"biaf02_99" : "af_intensa_min_totales_por_semana_nsnc",
"biaf03" : "af_moderada_veces_por_semana",
"biaf04_m" : "af_moderada_min_totales_por_semana",
"biaf04_99" : "actividad_fisica_moderada_min_totales_por_semana_nsnc",
"biaf05" : "caminata_veces_por_semana",
"biaf06_m" : "caminata_min_totales_por_semana",
"biaf06_99" : "caminata_min_totales_por_semana_nsnc",
"biaf07_m" : "tiempo_sentado_min_por_dia",
"biaf07_99" : "tiempo_sentado_min_por_dia_nsnc",
"biaf08" : "razon_ninguna_actividad_la_ultima_semana",
"biaf09" : "razon_poca_actividad_la_ultima_semana",
"biaf10_01" : "af_fue_actividad_domestica",
"biaf10_02" : "af_fue_actividad_laboral",
"biaf10_03" : "af_fue_traslado",
"biaf10_04" : "af_fue_deporte"
#nivel_actividad_fisica mantiene el mismo nombre
#barreras_actividad_fisica mantiene el mismo nombre

}, inplace = True)

In [None]:
actividad_fisica_raw.head()

In [None]:
#Gráficamente, ver la proporción de valores no nulos en cada columna
a1_actividad_fisica=(actividad_fisica_raw.notna().sum(axis = 0)  /  len(actividad_fisica_raw))
a1_actividad_fisica.plot.bar()

De este subset se aconseja mantener para el análisis a las columnas: 
"razon_ninguna_actividad_la_ultima_semana"
"razon_poca_actividad_la_ultima_semana"
"nivel_actividad_fisica"
"barreras_actividad_fisica"

### TABAQUISMO

__Creación de nuevas columnas__

In [18]:
# Calculo de nueva columna cant_tipos_tabaco
# Crearemos una nueva columna cant_tipos_tabaco que contendra la cantidad de tipos de tabaco que la persona consume.

# Subconjunto de columnas donde queremos contar los 1s
columnas_subconjunto = ['bita09_01', 'bita09_02', 'bita09_03', 'bita09_04', 'bita09_05', 'bita09_06']

# Llamar a la función con el subconjunto de columnas
tabaquismo_raw.loc[:, 'cant_tipos_tabaco'] = calcular_tipos_tabaco(tabaquismo_raw, columnas_subconjunto)

__Renombre de columnas__

In [19]:
# Renombro columnas
tabaquismo_raw.rename(columns = {
    'bita01':               'es_fumador',                                       # var categorica
    'bita02':               'edad_fuma_primera_vez',                            # var numerica discreta
    'bita02_99':            'edad_fuma_primera_vez_ns_nc',                      # var numerica discreta
    'bita03':               'fumado_100_cigarrillos',                           # var categorica
    'bita04':               'periodicidad_fumador',                             # var ordinal
    'bita04_01':            'es_cigarrillo_armado',                             # var categorica
    'bita04_02':            'es_cigarrillo_paquete',                            # var categorica
    'bita05':               'marca_cigarrillos',                                # var categorica
    'bita06_a':             'tipo_paquete_comprado',                            # var categorica
    'bita06_b':             'cant_cigarrillos_comprados',                       # var numerica discreta
    'bita06_b_99':          'cant_cigarrillos_comprados_ns_nc',                 # var numerica discreta
    'bita06_c':             'cigarrillos_sabor',                                # var categorica
    'bita06_d':             'cigarrillos_tipo_capsula',                         # var categorica
    'bita07':               'dinero_pagado_ultima_compra_cigarrillos',          # var numerica discreta
    'bita07_99':            'dinero_pagado_ultima_compra_cigarrillos_ns_nc',    # var categorica
    'bita08':               'intento_dejar_fumar',                              # var categorica
    'bita09_01':            'es_fumador_cigarro_habano',                        # var categorica
    'bita09_02':            'es_fumador_cigarritos',                            # var categorica
    'bita09_03':            'es_fumador_pipa_comun',                            # var categorica
    'bita09_04':            'es_fumador_pipa_agua',                             # var categorica
    'bita09_05':            'es_fumador_tabaco_masticar',                       # var categorica
    'bita09_06':            'es_fumador_cigarrillo_electronico',                # var categorica
    'bita10_01':            'hubo_fumadores_casa',                              # var categorica
    'bita10_02':            'hubo_fumadores_trabajo',                           # var categorica
    'bita10_03':            'hubo_fumadores_escuela',                           # var categorica
    'bita10_04':            'hubo_fumadores_restaurant',                        # var categorica
    'bita10_05':            'hubo_fumadores_hospital',                          # var categorica
    'bita10_06':            'hubo_fumadores_otros_lugares',                     # var categorica
    'bita11':               'publicidad_comercios',                             # var categorica
    'bita12':               'publicidad_email',                                 # var categorica
    'bita13':               'suscripcion_cigarrera',                            # var categorica
    'bita14':               'vio_propaganda_riesgo_fumar',                      # var categorica
    'bita15':               'propaganda_piensa_dejar_fumar',                    # var categorica
    'bita16':               'acuerdo_impuesto_tabaco',                           # var categorica
    'consumo_tabaco_100':   'condicion_fumador'
}, inplace = True)

### HIPERTENSION ARTERIAL

In [None]:
# Renombre de columnas
hipertension_raw.rename(columns = {
    #HIPERTENSION ARTERIAL ha
"biha01" : "hay_medicion_ha",
"biha02" : "tiempo_ultima_medicion_ha",
"biha03" : "cantidad_mediciones_ha_alta",
"biha04" : "actualmente_en_tratamiento",
"biha05_01" : "tratamiento_estilodevida",
"biha05_02" : "tratamiento_medicacion",
"biha06" : "cantidad_pastillas_ha_diarias",
"biha06_99" : "cantidad_pastillas_ha_diarias_nsnc",
"biha07" : "alguna_vez_olvido_medicacion_ha",
"biha08" : "deja_medicacion_ha_por_bienestar",
"biha09" : "deja_medicacion_ha_por_malestar",
"biha10" : "cumplimiento_medicacion_ha_ultima_semana",
"biha11" : "cantidad_pastillas_ha_olvidadas_ultima_semana",
"biha11_99" : "cantidad_pastillas_ha_olvidadas_ultima_semana_nsnc",
"biha12" : "realiza_otros_controles_ha",
"biha13" : "donde_realiza_otros_controles_ha",
"biha14" : "otros_controles_ha_con_seguimiento_profesional",
"biha15" : "otros_controles_ha_considera_historia_clinica",
"control_hipertension" : "control_ha_profesional_ultimos_2_anios",
"prevalencia_hipertension" : "mantiene_ha_alta" 

}, inplace = True)

In [None]:
hipertension_raw.head()

In [None]:
#Análisis de nulos
hipertension_raw.isnull().sum(axis = 0)

In [None]:
#Gráficamente, ver la proporción de valores no nulos en cada columna
a1_hipertension=(hipertension_raw.notna().sum(axis = 0)  /  len(hipertension_raw))
a1_hipertension.plot.bar()

Los nulos no se deben a un error o una falta de datos, se deben a individuos a los cuales no aplica la pregunta de dicha columna, porque repondieron no a una pregunta determinante anterior. Por ejemplo:
La pregunta  "alguna_vez_olvido_medicacion_ha" no tendrán respuesta para las personas que respondieron NO a la pregunta "tratamiento_medicación" 
En caso de una persona que responde sí a una pregunta troncal pero no responde una pregunta consecuente, existen las columnas NoSabeNoContesta ("..._nsnc"), por ejemplo "cantidad_pastillas_ha_diarias_nsnc".
Comprobamos estas afirmaciones comparando algunas columnas

In [None]:
#Una pregunta troncal, y la cantidad de personas que respondieron SI (1) o NO (2)
#   ¿Toma medicación para la hipertensión?
hipertension_raw.tratamiento_medicacion.value_count()

In [None]:
#La cantidad de valores no nulos (personas que respondieron ésta pregunta, sin importar con cual respuesta) que hay en la columna de la pregunta consecuente 
#   ¿Alguna vez olvidó tomar la medicación?
hipertension_raw.alguna_vez_olvido_medicacion_ha.count()

Las culumnas con gran proporción de valores NaN no necesariamente contienen errores, tienen información de un subgrupo de personas que coinciden en cierta variable, por ejemplo los que sí toman medicación para la hipertensión. 
Si desean incluirse en un análisis, debe considerarse que el tamaño de la muesta es considerablemente menor.

De este subset se aconseja mantener para el análisis a las columnas: 
"control_ha_profesional_ultimos_2_anios"
"prevalencia_hipertension" 
"tiempo_ultima_medicion_ha"
"cantidad_mediciones_ha_alta"
"actualmente_en_tratamiento"
"tratamiento_estilodevida"
"tratamiento_medicacion"
"alguna_vez_olvido_medicacion_ha"

### PESO CORPORAL

In [None]:
# Renombro columnas
peso_raw.rename(columns = {
    #PESO CORPORAL
"bipc01" : "profesional_indico_bajar_peso",
"bipc02" : "actualmente_bajando_peso",
"bipc03" : "actualmente_manteniendo_peso",
"bipc04" : "peso_autoreportado_kg",
"bipc04_99" : "peso_autoreportado_kg_nsnc",
"bipc05" : "altura_autoreportado_cm",
"bipc05_99" : "altura_autoreportado_cm_nsnc"
#"imc" mantiene el mismo nombre
#"imc_categorias" mantiene el mismo nombre
}, inplace = True)

In [None]:
#Gráficamente, ver la proporción de valores no nulos en cada columna
a1_peso=(peso_raw.notna().sum(axis = 0)  /  len(peso_raw))
a1_peso.plot.bar()

De este subset se aconseja mantener para el análisis a las columnas: 
"imc"
"imc_categorias"

### ALIMENTACION

### COLESTEROL

### CONSUMO DE ALCOHOL

### DIABETES

__Creación de nuevas columnas__

In [20]:
# Creo una nueva columna para diagnostico en cosanguineos
''' Resultados posibles
   bidi06_01  bidi06_02    diagnostico_cosanguineos
0        1.0        1.0        cosanguineo_primario
1        2.0        2.0        sin_antecedentes
2        NaN        1.0        cosanguineo_secundario
3        1.0        NaN        cosanguineo_primario
4        2.0        NaN        sin_antecedentes
5        NaN        2.0        sin_antecedentes
6        1.0        2.0        cosanguineo_primario
7        2.0        1.0        cosanguineo_secundario
8        NaN        NaN        ns_nc
'''
diabetes_raw['diagnostico_cosanguineos'] = np.where(
    diabetes_raw['bidi06_01'] == 1, 'cosanguineo_primario',
    np.where(
        (diabetes_raw['bidi06_01'] != 1) & (diabetes_raw['bidi06_02'] == 1), 'cosanguineo_secundario',
        np.where(
            (diabetes_raw['bidi06_01'] == 2) | (diabetes_raw['bidi06_02'] == 2), 'sin_antecedentes',
            'ns_nc'
        )
    )
)

__Renombre de columnas__

In [21]:
# Renombro columnas
diabetes_raw.rename(columns = {
    'bidi01':               'es_diabetico',                                     # var categorica
    'bidi02':               'es_diabetes_gestacional',                          # var categorica
    'bidi03':               'en_tratamiento_diabetes',                          # var categorica
    'bidi04_01':            'en_tratamiento_diabetes_insulina',                 # var categorica
    'bidi04_02':            'en_tratamiento_diabetes_otros',                    # var categorica
    'bidi04_03':            'en_tratamiento_diabetes_medicamentos',             # var categorica
    'bidi05':               'es_insulinodependiente',                           # var categorica
    'bidi06_01':            'diagnostico_diabetes_cosanguineo_primario',        # var categorica
    'bidi06_02':            'diagnostico_diabetes_cosanguineo_secundario',      # var categorica
    'bidi07':               'ultima_medicion_glucemia',                         # var categorica
    'bidi08':               'controla_diabetes',                                # var categorica
    'bidi09':               'lugar_control_diabetes',                           # var categorica
    'bidi10':               'atencion_diabetes_mismo_profesional',              # var categorica
    'bidi11':               'atencion_diabetes_hc',                             # var categorica
    'bidi12':               'revision_pies',                                    # var categorica
    'bidi13':               'revision_pupilas',                                 # var categorica
    'bidi14':               'educado_control_diabetes',                         # var categorica
}, inplace = True)

### MEDICIONES ANTROPOMETRICAS

__Renombre de columnas__

In [22]:
# Renombro columnas
mediciones_antropometricas_raw.rename(columns = {
    'bima01':               'consentimiento_ma',                                # var categorica
    'bima02':               'bebio_cafeina',                                    # var categorica
    'bima03':               'consentimiento_presion',                           # var categorica
    'bima04_01_a':          'primera_medicion_sistolica',                       # var numerica continua
    'bima04_01_b':          'primera_medicion_diastolica',                      # var numerica continua
    'bima04_02_a':          'segunda_medicion_sistolica',                       # var numerica continua
    'bima04_02_b':          'segunda_medicion_diastolica',                      # var numerica continua
    'bima04_03_a':          'tercera_medicion_sistolica',                       # var numerica coninua
    'bima04_03_b':          'primera_medicion_diastolica',                      # var numerica continua
    'ta_elevada':           'presion_arterial_elevada',                         # var categorica
    'bima06':               'consentimiento_altura',                            # var categorica
    'bima07':               'medicion_altura',                                  # var numerica continua
    'bima09':               'consentimiento_peso',                              # var categorica
    'bima10':               'medicion_peso',                                    # var numerica continua
    'bima12':               'consentimiento_cintura',                           # var categorica
    'bima13':               'medicion_cintura',                                 # var numerica continua
    'bima14':               'tipo_medicion_cintura',                            # var categorica
    'imc_bima':             'imc',                                              # var categorica
    'imc_categorias_bima':  'imc_categoria'                                     # var categorica
}, inplace = True)

### MEDICIONES BIOQUIMICAS

__Renombre de columnas__

In [23]:
# Renombro columnas
mediciones_bioquimicas_raw.rename(columns = {
    'bimq01':               'consentimiento_bq',                                # var categorica
    'bimq05':               'medicion_glucosa',                                 # var numerica continua
    'bimq05_01':            'medicion_glucosa_no_registrada',                   # var categorica
    'bimq06':               'medicion_colesterol',                              # var numerica continua
    'bimq06_01':            'medicion_colesterol_no_registrada'                 # var categorica                                  # var categorica
}, inplace = True)

### Union de bloques tematicos en dataset util/ final

Aqui combinaremos las tablas correspondientes a cada bloque tematico ya acondicionadas, para crear el dataset sobre el que trabajaremos posteriormente. 

In [28]:
# Lista de los dataframes a unir
dfs = [
    tabaquismo_raw,
    diabetes_raw,
    mediciones_antropometricas_raw,
    mediciones_bioquimicas_raw
]

# Union de dataframes por la columna 'id', utilizando 'inner join' como metodo de union
friesgo_2018 = reduce(lambda left, right: pd.merge(left, right, on='id', how='inner'), dfs)

# Verificamos que el dataframe resultante contenga la misma cantidad de filas que el dataframe original
print(friesgo_2018_raw.shape)
print(friesgo_2018.shape)

(29224, 287)
(29224, 86)


In [26]:
# Exportacion a CSV del dataframe resultante para ser utilizado en el EDA
friesgo_2018.to_csv('datasets/friesgo_2018.csv', index=False)