# **1. Separando as Classes**

O objetivo desse primeiro notebook é **exclusivamente** realizar a separação dos dados que pertencem ao problema, são elas:

- Pessoas Saudáveis: São aquelas pessoas que responderam diferente de *'Sim'* para as perguntas de diagnóstico de todas as doenças e que *não são nulos*.

- Pessoas Hipertensas: São as pessoas que responderam *'Sim'* para o diagnóstico de hipertensão.

- Pessoas HiperCVD: São as pessoas que responderam *'Sim'* para o diagnóstico de hipertensão e doenças cardiovasculares.

In [19]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import os

In [20]:
# Leitura da base de dados
df = pd.read_csv("C://Users//Gustavo//OneDrive//Documentos//PUC//3° Periodo//Mineraçao de Dados//trabalho//dados//pns2019.csv")
df.head()

Unnamed: 0,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
0,11,1110011,110000016,1,1,2019,6.0,1,1,1.0,...,1.0,6.0,2098.0,350.0,2.0,,,,,20210825
1,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,,,2098.0,350.0,2.0,,,,,20210825
2,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,1.0,4.0,2098.0,350.0,2.0,,,,,20210825
3,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825
4,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825


In [21]:
df.tail()

Unnamed: 0,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
293721,53,5310220,530044434,14,1,2019,4.0,2,1,0.0,...,1.0,1.0,13390.0,3348.0,6.0,,,,,20210825
293722,53,5310220,530044434,14,1,2019,4.0,2,1,1.0,...,,,13390.0,3348.0,6.0,,,,,20210825
293723,53,5310220,530044434,14,1,2019,4.0,2,1,0.0,...,1.0,7.0,13390.0,3348.0,6.0,,,,,20210825
293724,53,5310220,530044434,14,1,2019,4.0,2,1,9.0,...,,,13390.0,3348.0,6.0,,,,,20210825
293725,53,5310220,530044434,15,8,2019,,2,1,,...,,,,,,,,,,20210825


In [22]:
df.shape

(293726, 1087)

PNS 2019:

- 293.726 registros.
- 1.087 atributos.

## **1.1. Filtrando o conjunto de dados pela idade**

Foi **definido** que a idade será de pessoas que possuem pelo menos 30 anos.

In [23]:
# Separação do conjunto de dados com pessoas com mais de 30 anos.
df = df.loc[df["C008"] >= 30]

In [24]:
df.shape

(157835, 1087)

Há 157.835 instâncias de pessoas que possuem no mínimo 30 anos.

## **1.2. Conjunto 1: Pessoas Saudáveis**

Por definição, as pessoas saudáveis serão todas aquelas que responderam diferente de Sim para os diagnósticos e que não tenham como resposta nulo.

In [25]:
def salvar_conjunto(dataframe):
    diretorio = "../dados"

    if not os.path.exists(diretorio):
        os.makedirs(diretorio)

    #Pergunta ao usuário do código o nome do arquivo a ser salvo.
    nome = input("Digite o nome do arquivo a ser salvo: ")
    nome += ".csv"

    caminho_arquivo = os.path.join(diretorio, nome)
    
    #Salvar o DataFrame em .csv
    dataframe.to_csv(caminho_arquivo, index=False)

    print(f"Arquivo salvo em: {caminho_arquivo}")

    

In [26]:
# Encontrando o total de pessoas SAUDÁVEIS, isto é, sem NENHUMA comorbidade.
df_saudaveis = df.loc[
    (df['Q03001'] != 1) & #diabetes
    (df['Q060'] != 1)   & #colesterol alto
    (df['Q068'] != 1)   & #avc
    (df['Q074'] != 1)   & #asma
    (df['Q079'] != 1)   & #artrite
    (df['Q088'] != 1)   & #dort
    (df['Q092'] != 1)   & #depressao
    (df['Q11006'] != 1) & #doencas mentais
    (df['Q11604'] != 1) & #doenca cronica pulmonar
    (df['Q120'] != 1)   & #cancer
    (df['Q124'] != 1)   & #insuficiencia renal
    (df['K047'] != 1)   & #catarata
    (df['Q00201'] != 1) & #pressao alta
    (df['Q06306'] != 1)   # doenças cardiovasculares
]

In [27]:
df_saudaveis.shape

(112551, 1087)

In [28]:
df_saudaveis.isnull().sum()

V0001             0
V0024             0
UPA_PNS           0
V0006_PNS         0
V0015             0
              ...  
VDL001       112551
VDM001        92459
VDP001       109262
VDR001       105871
VDDATA            0
Length: 1087, dtype: int64

Há  112.551 pessoas consideradas como saudáveis.

In [29]:
salvar_conjunto(df_saudaveis)

Digite o nome do arquivo a ser salvo:  df_saudaveis


Arquivo salvo em: ../dados\df_saudaveis.csv


## **1.3. Conjunto 2: Pessoas Hipertensas**

In [30]:
# Encontrando o total de pessoas que possuem hipertensão.
df_hipertensao = df.loc[
    (df['Q00201'] == 1) & #pressao alta
    (df['Q06306'] == 2)
]

In [31]:
df_hipertensao.shape

(20123, 1087)

Há 20.123 pessoas hipertensas que **não possuem doenças cardiovasculares.**

In [32]:
salvar_conjunto(df_hipertensao)

Digite o nome do arquivo a ser salvo:  df_hipertensao


Arquivo salvo em: ../dados\df_hipertensao.csv


## **1.4. Conjunto 3: Pessoas HiperCVD**

In [33]:
# Encontrando o total de pessoas que possuem hipertensão e alguma doença cardiovascular.
df_hiperCVD = df.loc[
    (df['Q00201'] == 1) & #pressao alta
    (df['Q06306'] == 1) # doenças cardiovasculares
]

In [34]:
df_hiperCVD.shape

(2984, 1087)

Há 2.984 pessoas com hipertensão e doenças cardiovasculares (cvd).

In [35]:
salvar_conjunto(df_hiperCVD)

Digite o nome do arquivo a ser salvo:  df_hipercvd


Arquivo salvo em: ../dados\df_hipercvd.csv
