# **1. Separação das Classes**

O objetivo desse notebook é **exclusivamente** realizar a separação das classes na PNS 2019. Isto é, vamos rotular as pessoas no contexto do nosso problema:

- Classe 1: Pessoas que possuem o diagnóstico de Doenças Cardiovasculares e Hipertensão no mesmo ano em que foram entrevistadas.

- Classe 2: Pessoas que possuem o diagnóstico de Hipertensão e **não** possuem o diagnóstico de Doenças Cardiovasculares no mesmo ano em que foram entrevistadas.

- Classe 3: Pessoas que **não** possuem diagnóstico para nenhuma das duas doenças.

Em relação à classe 3, essas pessoas que não possuem o diagnóstico podem ser chamadas também de "saudáveis", mesmo que o termo mais correto para elas seja pessoas sem diagnóstico, porque apenas responderam não para a pergunta que questiona se elas já receberam um diagnóstico positivo da doença.

In [1]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as px
import os

In [2]:
# Aplicar o estilo do Seaborn
sns.set(style="whitegrid")

In [3]:
# Leitura da base de dados
df = pd.read_csv("C://Users//Gustavo//OneDrive//Documentos//PUC//3° Periodo//Mineraçao de Dados//trabalho//dados//pns2019.csv")
df.head()

Unnamed: 0,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
0,11,1110011,110000016,1,1,2019,6.0,1,1,1.0,...,1.0,6.0,2098.0,350.0,2.0,,,,,20210825
1,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,,,2098.0,350.0,2.0,,,,,20210825
2,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,1.0,4.0,2098.0,350.0,2.0,,,,,20210825
3,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825
4,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825


In [4]:
df.tail()

Unnamed: 0,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
293721,53,5310220,530044434,14,1,2019,4.0,2,1,0.0,...,1.0,1.0,13390.0,3348.0,6.0,,,,,20210825
293722,53,5310220,530044434,14,1,2019,4.0,2,1,1.0,...,,,13390.0,3348.0,6.0,,,,,20210825
293723,53,5310220,530044434,14,1,2019,4.0,2,1,0.0,...,1.0,7.0,13390.0,3348.0,6.0,,,,,20210825
293724,53,5310220,530044434,14,1,2019,4.0,2,1,9.0,...,,,13390.0,3348.0,6.0,,,,,20210825
293725,53,5310220,530044434,15,8,2019,,2,1,,...,,,,,,,,,,20210825


In [5]:
df.shape

(293726, 1087)

Para a base da PNS 2019, temos:

- 293.726 instâncias, ou seja, entrevistados.
- 1.087 atributos.

## **1.1. Filtrando o Conjunto de Dados pela Idade**

In [6]:
df_idade = df[df["C008"] >=18]

In [7]:
df_idade.shape

(207845, 1087)

Há 207.845 pessoas com, no mínimo, 18 anos de idade.

## **1.2. Criando as Classes**

In [9]:
# Encontrando o total de pessoas que possuem hipertensão e alguma doença cardiovascular.
df_hiperCVD = df_idade.loc[
    (df_idade['Q00201'] == 1) & #pressao alta
    (df_idade['Q06306'] == 1) # doenças cardiovasculares
]

df_saudaveis = df_idade.loc[
    (df['Q03001'] != 1) & #diabetes
    (df['Q060'] != 1)   & #colesterol alto
    (df['Q068'] != 1)   & #avc
    (df['Q074'] != 1)   & #asma
    (df['Q079'] != 1)   & #artrite
    (df['Q088'] != 1)   & #dort
    (df['Q092'] != 1)   & #depressao
    (df['Q11006'] != 1) & #doencas mentais
    (df['Q11604'] != 1) & #doenca cronica pulmonar
    (df['Q120'] != 1)   & #cancer
    (df['Q124'] != 1)   & #insuficiencia renal
    (df['K047'] != 1)   & #catarata
    (df_idade['Q00201'] == 2) & #pressao alta
    (df_idade['Q06306'] == 2)   # doenças cardiovasculares
]


print(f" O número de pessoas consideradas hiperCVD são: {len(df_hiperCVD)}")
print(f" O número de pessoas consideradas saudáveis são: {len(df_saudaveis)}")

 O número de pessoas consideradas hiperCVD são: 3015
 O número de pessoas consideradas saudáveis são: 42742


Com a função que classifica as pessoas de acordo com as condições estabelecidas, temos:

- Classe 1 (Pessoas com as duas comorbidades): 3.015 instâncias.
- Classe 3 (Pessoas sem o diagnóstico das duas comorbidades): 42.742 instâncias.

In [11]:
# Atribuindo os rótulos.
df_saudaveis = df_saudaveis.copy()
df_saudaveis['Condicao'] = 'Saudavel'

df_hiperCVD = df_hiperCVD.copy()
df_hiperCVD['Condicao'] = 'HiperCVD'

In [12]:
# Segundo passo: Merge dos três conjuntos de dados.

df_classes = pd.concat([df_saudaveis, df_hiperCVD], ignore_index=True)

In [13]:
df_classes.shape

(45757, 1088)

DF com as classes formuladas possui 45.757 instâncias.

## **1.3 Salvando a Base de Dados**

In [15]:
def salvar_conjunto(dataframe):
    diretorio = "../dados_final"

    if not os.path.exists(diretorio):
        os.makedirs(diretorio)

    #Pergunta ao usuário do código o nome do arquivo a ser salvo.
    nome = input("Digite o nome do arquivo a ser salvo: ")
    nome += ".csv"

    caminho_arquivo = os.path.join(diretorio, nome)
    
    #Salvar o DataFrame em .csv
    dataframe.to_csv(caminho_arquivo, index=False)

    print(f"Arquivo salvo em: {caminho_arquivo}")

In [16]:
salvar_conjunto(df_classes)

Digite o nome do arquivo a ser salvo:  df_1


Arquivo salvo em: ../dados_final\df_1.csv
