<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Case_depress%C3%A3o_(NHNES).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Retrato da Depressão nos EUA: Explorando Perfis e Associações com Hábitos de Saúde (2005-2006)**

Os dados para realização desse case são sobre o transtorno depressivo, um problema multifatorial que pode ter várias possíveis combinações de situações como causa.

Os dados disponíveis são resultados da NHNES (National Health and Nutrition Examination Survey), realizada anualmente nos EUA para avaliar a saúde e nutrição de adultos e crianças;

**O objetivo é responder as seguintes perguntas**:

  - Qual o perfil de indivíduos (adultos maiores de 18 anos) com sintomas depressivos nos EUA no período de 2005-2006?

  - Hábitos saudáveis de alimentação e atividade física estão associados a menores índices de depressão nesta população?


## **Analise inicial nos dados**

Nessa etapa, vamos estabelecer um primeiro contato com os nossos dados. Para começar, vamos responder algumas perguntas:

- Quantos dados temos? (Número de linhas e colunas)

- Quais são as colunas numéricas?

- Temos duplicatas na nossa base de dados? Se sim, vamos removê-las.

- Existem dados nulos nesta base de dados? Será que eles indicam algo importante? O que devemos fazer com eles?

- Vamos observar o dicionário dos dados.

- Qual é a média, mediana, 25º percentil, 75º percentil, mínimo e máximo de cada uma das colunas numéricas?


Antes de tudo, vamos importar as bibliotecas que serão necessárias para realizarmos nossas análises.


In [None]:
# Manipulação de dados
import pandas as pd

# Algébra linear
import numpy as np

# Visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns

# Funções estatísticas
import statistics
import scipy.stats

# Importando o skew
from scipy.stats import skew

Agora vamos importar nossos dados.


In [None]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# Importando o dataset
df = pd.read_csv('/content/drive/MyDrive/Estatística para ciência de dados/DEMO_PHQ.csv')

# Observando os primeiro registros
df.head()

Unnamed: 0,SEQN,DPQ010,DPQ020,DPQ030,DPQ040,DPQ050,DPQ060,DPQ070,DPQ080,DPQ090,RIAGENDR,RIDAGEYR,RIDRETH1,DMDEDUC,INDFMINC
0,31130,,,,,,,,,,2,85,3,4,4.0
1,31131,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2,44,4,4,11.0
2,31132,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,70,3,5,11.0
3,31134,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1,73,3,3,12.0
4,31139,0.0,0.0,0.0,0.0,3.0,1.0,0.0,0.0,0.0,2,18,2,3,11.0


Logo nesse primeiro contato, podemos observar que temos algumas variáveis com valores ausentes. Vamos analisar um pouco mais esses dados e, em seguida, observar o dicionário de dados do mesmo.


In [None]:
# Dimensão do nosso DF
df.shape

(5334, 15)

Temos 5334 linhas e 15 colunas.

Agora vamos observar o dicionário dos dados.


- **Variável: SEQN**
  - **Descrição:** Identificador único do respondente
  - **Valores:**

- **Variável: DPQ010**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Pouco interesse ou pouco prazer em fazer as coisas
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ020**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Se sentiu para baixo, deprimido(a) ou sem perspectiva
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ030**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Dificuldade para pegar no sono ou permanecer dormindo ou dormiu mais do que o costume
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ040**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Se sentiu cansado(a) ou com pouca energia
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ050**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Falta de apetite ou comeu demais
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ060**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Se sentiu mal consigo mesmo(a) ou achou que é um fracasso ou que decepcionou sua família ou a você mesmo(a)
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ070**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Dificuldade para se concentrar nas coisas (como ler o jornal ou ver televisão)
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ080**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Teve lentidão para se movimentar ou falar (a ponto de outras pessoas perceberem), ou ao contrário, esteve tão agitado(a) que você ficava andando de um lado para o outro mais do que costume
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: DPQ090**
  - **Descrição:** Nas últimas 2 semanas, com que frequência você ficou incomodado por algum dos problemas a seguir: Pensou em se ferir de alguma maneira ou que seria melhor estar morto(a)
  - **Valores:**
    - 0 = Nenhuma vez
    - 1 = Menos de uma semana
    - 2 = Uma semana ou mais
    - 3 = Quase todos os dias
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: RIAGENDR**
  - **Descrição:** Gênero
  - **Valores:**
    - 1 = Masculino
    - 2 = Feminino

- **Variável: RIDAGEYR**
  - **Descrição:** Idade em anos
  - **Valores:**

- **Variável: RIDRETH1**
  - **Descrição:** Raça/Etnia
  - **Valores:**
    - 1 = Branco não-hispânico
    - 2 = Negro não-hispânico
    - 3 = Mexicano-americano
    - 4 = Outro
    - 5 = Outro - Hispânico

- **Variável: DMDEDUC**
  - **Descrição:** Escolaridade
  - **Valores:**
    - 1 = Menor que 9º ano
    - 2 = 9-12º ano
    - 3 = Ensino médio
    - 4 = Ensino superior incompleto
    - 5 = Superior completo ou maior
    - 7 = Se recusou a responder
    - 9 = Não sabe

- **Variável: INDFMINC**
  - **Descrição:** Renda anual familiar (US$)
  - **Valores:**
      - 1 = 0-4999
      - 2 = 5000-9999
      - 3 = 10000-14999
      - 4 = 15000-19999
      - 5 = 20000-24999
      - 6 = 25000-34999
      - 7 = 35000-44999
      - 8 = 45000-54999
      - 9 = 55000-64999
      - 10 = 65000-74999
      - 11 = Maior ou igual a 75000
      - 12 = Maior que 20000
      - 13 = Menor que 20000
      - 77 = Se recusou a responder
      - 99 = Não sabe


Dessa forma, podemos entender melhor o que cada variável tem a nos dizer. Dito isso, vamos entender o tipo dos nossos dados.


In [None]:
# Observando o tipo dos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5334 entries, 0 to 5333
Data columns (total 15 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   SEQN      5334 non-null   int64  
 1   DPQ010    4836 non-null   float64
 2   DPQ020    4836 non-null   float64
 3   DPQ030    4836 non-null   float64
 4   DPQ040    4836 non-null   float64
 5   DPQ050    4836 non-null   float64
 6   DPQ060    4836 non-null   float64
 7   DPQ070    4836 non-null   float64
 8   DPQ080    4836 non-null   float64
 9   DPQ090    4836 non-null   float64
 10  RIAGENDR  5334 non-null   int64  
 11  RIDAGEYR  5334 non-null   int64  
 12  RIDRETH1  5334 non-null   int64  
 13  DMDEDUC   5334 non-null   int64  
 14  INDFMINC  5287 non-null   float64
dtypes: float64(10), int64(5)
memory usage: 625.2 KB


Dessa forma, podemos perceber que todas as nossas variáveis são numéricas.


A variável SEQN é semelhante a um ID dos nossos dados. Logo, a princípio, por ser um atributo identificador, ele não deve se repetir. Vamos observar se existe algum SEQN repetido na nossa base.


In [None]:
# Observando a soma de valores duplicados
df['SEQN'].duplicated().sum()

0

O resultado foi 0, então podemos assumir que cada um dos nossos identificadores é único.


Agora vamos observar quantos valores ausentes existem em nossa base.


In [None]:
# Observando os valores ausentes
def soma_ausentes(df):
    p_faltantes = df.isnull().sum()
    valores_faltantes = pd.DataFrame({'Variavéis': df.columns,
                                           'Soma de ausentes': p_faltantes}
                                      ).reset_index(drop = True)

    return valores_faltantes.sort_values(by = ['Soma de ausentes'], ascending = False)

# Exibindo a quantidade de valores ausentes
soma_ausentes(df)

Unnamed: 0,Variavéis,Soma de ausentes
1,DPQ010,498
2,DPQ020,498
3,DPQ030,498
4,DPQ040,498
5,DPQ050,498
6,DPQ060,498
7,DPQ070,498
8,DPQ080,498
9,DPQ090,498
14,INDFMINC,47


Como podemos observar, temos o mesmo número de valores ausentes desde as variáveis 'DPQ010' até 'DPQ090', sendo que a soma de valores ausentes é um total de 498 para cada uma dessas perguntas. Enquanto na variável 'indfminc', temos apenas 47 valores ausentes. O restante das nossas variáveis não apresentam nenhum valor ausente.

Agora vamos observar um resumo estatístico dos nossos dados.


In [None]:
# Resumo estatistico dos dados
df.describe()

Unnamed: 0,SEQN,DPQ010,DPQ020,DPQ030,DPQ040,DPQ050,DPQ060,DPQ070,DPQ080,DPQ090,RIAGENDR,RIDAGEYR,RIDRETH1,DMDEDUC,INDFMINC
count,5334.0,4836.0,4836.0,4836.0,4836.0,4836.0,4836.0,4836.0,4836.0,4836.0,5334.0,5334.0,5334.0,5334.0,5287.0
mean,36358.796775,0.307279,0.313069,0.551282,0.717328,0.32072,0.209884,0.230356,0.147849,0.050248,1.519873,45.089989,2.871016,3.233221,8.738604
std,2964.731827,0.758459,0.710683,0.931166,0.913711,0.743057,0.624552,0.639186,0.59039,0.326933,0.499652,20.145853,1.128468,1.268395,12.777756
min,31130.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,18.0,1.0,1.0,1.0
25%,33838.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,27.0,3.0,2.0,4.0
50%,36347.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,43.0,3.0,3.0,7.0
75%,38915.75,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,2.0,62.0,4.0,4.0,10.0
max,41473.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,9.0,2.0,85.0,5.0,9.0,99.0


- Observando as perguntas de DPQ010 a DPQ090:
  - Aparentemente, apresentam o mesmo valor mínimo.
  - O primeiro e segundo quartis também são iguais.
  - No terceiro quartil, apenas duas variáveis têm valores diferentes.
  - As médias não diferem muito da mediana, sugerindo uma distribuição próxima da normal, embora um pouco deslocada.
  - A pergunta DPQ040 teve a maior média.
  - Ambas as perguntas apresentam o mesmo valor máximo.
  - A semelhança entre valores mínimos e máximos pode ser devido a pessoas que marcaram todas as alternativas, padrão para todas.

- A variável Riagender refere-se ao gênero, necessitando de outra análise.

- RIDAGEYR se refere à idade:
  - A pessoa mais nova tem 18 anos e a mais velha, 85.
  - Média de 45 anos e mediana de 43.
  - Setenta e cinco por cento dos dados têm menos de 62 anos.

- RIDRETH1 está relacionado à etnia, com valores de 1 a 5:
  - Necessita de outra análise mais detalhada.

- DMDEDUC relaciona-se ao grau de escolaridade:
  - A média é o ensino médio.
  - Setenta e cinco por cento têm, no máximo, um ensino superior incompleto.

- INDFMINC representa faixas salariais:
  - Necessita de outra abordagem para análise.
  - Setenta e cinco por cento têm renda anual de até 75 mil dólares.
