Desafio Inferência

Por Tamy Tsujimoto

Depressão e Hábitos Saudáveis

O transtorno depressivo representa um grande problema de saúde pública e é apontado como uma das principais causas de doenças e debilitações segundo a Organização Mundial da Saúde (OMS). A depressão resulta de uma interação complexa de fatores sociais, psicológicos e biológicos e, embora o acesso a diagnósticos e tratamentos esteja aumentando, muitos ainda não possuem acesso ao controle adequado dos sintomas depressivos.

Para garantir um estilo de vida saudável, a OMS recomenda a prática regular de exercícios, bem como a adoção de uma dieta saudável rica em alimentos in natura e com reduzido teor de gordura saturada, sal e açucares refinados.

Neste desafio, utilizaremos dados de uma pesquisa realizada anualmente nos Estados Unidos para avaliar (1) qual o perfil de indivíduos (adultos maiores de 18 anos) com sintomas depressivos nos EUA no período de 2005-2006, e (2) se hábitos saudáveis de alimentação e atividade física estão associados a menores índices de depressão nesta população.

 National Health and Nutrition Examination Survey

O National Health and Nutrition Examination Survey (NHANES) é uma pesquisa anual conduzida pelo National Center for Health Statistics (NCHS) do Centro de Controle e Prevenção de Doenças (Centers for Disease Control - CDC) para avaliar a saúde e nutrição de adultos e crianças dos Estados Unidos. Dados coletados incluem questões demográficas, socioeconômicas, dietéticas e relacionadas à saúde, com o componente de exame contendo medidas médicas, odontológicas, fisiológicas e exames laboratoriais.

A pesquisa examina uma amostra de cerca de 5.000 pessoas a cada ano, selecionada à partir de amostragem complexa a fim de selecionar uma amostra representativa da população civil não institucionalizada dos EUA. Sendo assim, as análises utilizando este estudo devem ser realizadas utilizando técnicas e ferramentas que levem em conta a amostragem complexa.

Neste desafio, no entanto, iremos assumir que os dados foram obtidos usando uma amostra aleatória da população de interesse e utilizaremos técnicas e ferramentas de análise usuais para amostras aleatórias para fins didáticos.

Patient Health Questionnaire-9 (PHQ-9)

O Patient Health Questionnaire-9 (PHQ-9) é um instrumento utilizado para avaliar o grau de depressão em pacientes. O questionário consiste de 9 itens em que os respondentes indicam a frequência (0 = “nenhuma vez”, 1 = “menos de uma semana”, 2 = “uma semana ou mais” e 3 = “quase todos os dias”) de sintomas de depressão nas duas últimas semanas.

O PHQ-9 inclui os seguintes itens para a pergunta “Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir?” (0 = “nenhuma vez”, 1 = “menos de uma semana”, 2 = “uma semana ou mais” e 3 = “quase todos os dias”):

1 - Pouco interesse ou pouco prazer em fazer as coisas

2 - Se sentiu para baixo, deprimido(a) ou sem perspectiva

3 - Dificuldade para pegar no sono ou permanecer dormindo ou dormiu mais do que o costume

4 - Se sentiu cansado(a) ou com pouca energia

5 - Falta de apetite ou comeu demais

6 - Se sentiu mal consigo mesmo(a) ou achou que é um fracasso ou que decepcionou sua família ou a você mesmo(a)

7 - Dificuldade para se concentrar nas coisas (como ler o jornal ou ver televisão)

8 - Teve lentidão para se movimentar ou falar (a ponto de outras pessoas perceberem), ou ao contrário, esteve tão agitado(a) que você ficava andando de um lado para o outro mais do que costume

9 - Pensou em se ferir de alguma maneira ou que seria melhor estar morto(a)

O escore total é calculado à partir da soma dos itens 1-9 e varia de 0 a 27, em que maiores valores do escore indicam maiores frequências de sintomas de depressão. Aqueles com pontuação maior ou igual a 5 para o escore total de PHQ-9 são considerados como tendo sintomas leves (5-9), moderados (10-14), moderadamente severos (15-19) e severos de depressão (>= 20).

Healthy Eating Index - (HEI)

O Healthy Eating Index (HEI) é uma medida de qualidade da dieta baseado nas orientações dietéticas do governo federal americano (Dietary Guidelines for Americans). O HEI utiliza diferentes grupos alimentares para o cálculo do escore, variando de 0 a 100, em que maiores valores do escore refletem dietas mais próximas das orientações alimentares em vigor.

O índice é composto por 13 componentes baseados nos grupos alimentares descritos nas recomendações dietéticas. Detalhes dos valores máximos e interpretações estão descritos no quadro abaixo:

(https://storage.googleapis.com/tera-originals/desafio-inferencia/download.png)

Physical Activity Guidelines for Americans (PAGA)

O Physical Activity Guidelines for Americans (PAG) é emitido pelo Departamento de Saúde e Serviços Humanos (U.S. Department of Health and Human Services (HHS)) e possui recomendações de atividades físicas. Este documento é utilizado em conjunto com as orientações dietéticas para americanos (Dietary Guidelines for Americans) para promover a importância de ser fisicamente ativo e seguir uma dieta saudável.

O PAGA recomenda que adultos se engajem em pelo menos 150 minutos de atividades aeróbicas de intensidade moderada ou 75 minutos de atividades aeróbicas de intensidade vigorosa semanalmente. A partir dos dados coletados do NHANES, é possível calcular o número de minutos de atividades físicas, definido como a total minutos semannais de atividades físicas moderadas + 2*(total minutos de atividades aeróbicas vigorosas).

1. Faça a leitura dos bancos de dados e faça o tratamento que julgar necessário para as variáveis (exemplo: tratamento das categorias 7 = “Se recusou a responder” e 9 = “Não sabe”).

In [1]:
import pandas as pd # importanto Pandas e Numpy para tratamento e exploração dos dados
import numpy as np

In [None]:
demo = pd.read_csv('DEMO_PHQ.csv')
demo.fillna(0, inplace = True) # Substituindo valores NaN por 0

demo['RIAGENDR'] = demo['RIAGENDR'].astype('category') # Categorizando a variável de Gênero ('Masculino','Feminino')

def genero(x): # Função Lâmbda pra renomear variaveis
    if x == 1:
        x = 'Masculino'
    if x == 2:
        x = 'Feminino'
    
    return x

demo['RIAGENDR'] = demo['RIAGENDR'].apply(lambda x: genero(x))

# ////////////////////////////////////////////////////////////////////////

demo['RIDRETH1'] = demo['RIDRETH1'].astype('category') # Categorizando a variável Raça/Etnia

def etnia(x): # Função Lâmbda renomeando raça/etnia
    if x == 1:
        x = 'Branco Não-hispânico'
    if x == 2:
        x = 'Negro Não-hispânico'
    if x == 3:
        x = 'Mexicano - Americano'
    if x == 4:
        x = 'Outro'
    if x == 5:
        x = 'Outro hispânico'
    
    return x

demo['RIDRETH1'] = demo['RIDRETH1'].apply(lambda x: etnia(x))

# ////////////////////////////////////////////////////////////////////////

demo['DMDEDUC'] = demo['DMDEDUC'].astype('category') # Categorizando a variável Escolaridade

def escolaridade(x): # Função Lâmbda renomeando Escolaridade
    if x == 1:
        x = 'Menor que 9º ano'
    if x == 2:
        x = '9º ao 12º ano'
    if x == 3:
        x = 'Ensino Médio'
    if x == 4:
        x = 'Ensino Superior Incompleto'
    if x == 5:
        x = 'Superior completo ou maior'
    if x == 7:
        x = 'Se recusou a responder'
    if x == 9:
        x = 'Não sabe'
    
    return x

demo['DMDEDUC'] = demo['DMDEDUC'].apply(lambda x: escolaridade(x))

# demo.info()
demo.head()

In [None]:
pag = pd.read_csv('PAG_HEI.csv')
pag.fillna(0, inplace = True)
pag

In [None]:
demo.isnull().sum() # Verificando valores Nulos
# pag.isnull().sum()

# demo = pd.DataFrame(demo) # Função para converter os tipos dos dados
# datatypes_per_column = {
       # "DPQ010": "int",
       # "DPQ020": "int",
       # "DPQ030": "int",
       # "DPQ040": "int"
       # }
  
# demo = demo.astype(datatypes_per_column)

2. Em seguida, combine os dois bancos de dados fornecidos, utilizando a variável SEQN como chave única. O banco de dados final deve conter 5334 observações dos adultos respondentes do NHANES.

In [4]:
geral = pd.concat([demo, pag]) # Concatenando os dois Datasets
geral.set_index(['SEQN'], inplace = True) # Passando a variável 'SEQN' como Index ou Chave Única
# geral

3. Crie a variável phq9 - escore Patient Health Questionnaire-9 como a soma das variáveis DPQ010 a DPQ090

In [None]:
geral['PHQ9'] = geral['DPQ010'] + geral['DPQ020'] + geral['DPQ030'] + geral['DPQ040'] + geral['DPQ050'] + geral['DPQ060'] + geral['DPQ070'] + geral['DPQ080'] + geral['DPQ090']
geral.head(4000)

4. Crie a variável phq_grp - grupo de sintomas de depressão que assume 0 (“sem sintomas”) se phq9 < 5, 1 (“sintomas leves”) se 5 <= phq9 < 10, 2 (“sintomas moderados”) se 10 <= phq9 < 15, 3 (“sintomas moderadamente severos”) se 15 <= phq9 < 19 e 4 (“sintomas severos”) se phq9 >= 20

In [29]:
geral['PHQ_GRP'] = ''

def sintomas(x):
    if x == 0:
        geral['PHQ_GRP'] = 'Sem sintomas'
    if x < 5:
        geral['PHQ_GRP'] = 'Sintomas Leves'
    if 5 <= x <= 10:
        geral['PHQ_GRP'] = 'Sintomas Moderados'
    if 10 <= x <= 15:
        geral['PHQ_GRP'] = 'Sintomas moderamente severos'
    if x > 20:
        geral['PHQ_GRP'] = 'Sintomas severos'
    return x

geral['PHQ9'] = geral['PHQ9'].apply(lambda x: sintomas(x))

geral.head(4000)

Unnamed: 0_level_0,DPQ010,DPQ020,DPQ030,DPQ040,DPQ050,DPQ060,DPQ070,DPQ080,DPQ090,RIAGENDR,...,HEI2015C7_TOTPROT,HEI2015C8_SEAPLANT_PROT,HEI2015C9_FATTYACID,HEI2015C10_SODIUM,HEI2015C11_REFINEDGRAIN,HEI2015C12_SFAT,HEI2015C13_ADDSUG,HEI2015_TOTAL_SCORE,PHQ9,PHQ_GRP
SEQN,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
31130,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Feminino,...,,,,,,,,,0.0,Sintomas Leves
31131,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Feminino,...,,,,,,,,,0.0,Sintomas Leves
31132,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Masculino,...,,,,,,,,,0.0,Sintomas Leves
31134,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Masculino,...,,,,,,,,,0.0,Sintomas Leves
31139,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0,Feminino,...,,,,,,,,,4.0,Sintomas Leves
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38907,0.0,0.0,3.0,3.0,0.0,0.0,0.0,0.0,0.0,Feminino,...,,,,,,,,,6.0,Sintomas Leves
38908,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Masculino,...,,,,,,,,,0.0,Sintomas Leves
38910,2.0,1.0,3.0,3.0,1.0,1.0,1.0,0.0,0.0,Masculino,...,,,,,,,,,12.0,Sintomas Leves
38914,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,Feminino,...,,,,,,,,,0.0,Sintomas Leves


In [31]:
geral['PHQ_GRP'] = geral['PHQ9']

def sintomas(x):
    if x == 0:
        x = 'Sem sintomas'
    if x < 5:
        x = 'Sintomas Leves'
    if 5 <= x <= 10:
        x = 'Sintomas Moderados'
    if 10 <= x <= 15:
        x = 'Sintomas moderamente severos'
    if x > 20:
        x = 'Sintomas severos'
    return x

geral['PHQ_GRP'] = geral['PHQ_GRP'].apply(lambda x: sintomas(x))

geral.head()

TypeError: '<' not supported between instances of 'str' and 'int'