# Estudos Dirigidos I

#Atualização: 20220405

Aluno: Thiago B. M. Rodrigues

Programa de Pós-Graduação em Informática (PPGI)

Universidade Federal do Estado do Rio de Janeiro (UNIRIO)



Período: 2' de 2021.

## O Dataset e o Projeto
<hr>

### Fonte: https://www.ibge.gov.br/estatisticas/downloads-estatisticas.html?caminho=PNS/2019/Microdados/Dados
### Documentação: http://downloads.ibge.gov.br/downloads_estatisticas.htm?caminho=PNS/2019/Microdados/Documentacao

### Descrição:
<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Esse trabalho faz parte da disciplina Estudos Dirigidos 1 da Programa de Pós-Graduação em Informática da UNIRIO. Este estudo se trata de um Health Data Science (Ciência de Dados em Saúde) que visa a identificar o perfil de um portador da doença Hipertensão Arterial Sistêmica (HAS) e estudar as relações entre esta condição e características identificadas na população brasileira.
</p>

<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>O Dataset utilizado conta com os microdados do PNS, que são o menor nível de desagregação de dados de uma pesquisa. O objetivo desta pesquisa é produzir, para o país, dados sobre a situação de saúde e os estilos de vida da população brasileira. Visa também obter informações sobre a atenção à saúde, no que se refere ao acesso e uso dos serviços de saúde, à continuidade dos cuidados e ao financiamento da assistência de saúde.</p>

<p style='font-size: 18px; line-height: 2; margin: 10px 50px; text-align: justify;'>Para realização da atividade proposta, foram aplicadas técnicas estatísticas para descrição dos dados e algortimos de machine learning.</p>

### Perguntas de pesquisa:
<ul style='font-size: 18px; line-height: 2; text-align: justify;'>
    <li><b>P01</b> - Como se distribui a incidência de HAS entre as faixas etárias?</li>
    <li><b>P02</b> - Existe maior incidência de HAS em determinado sexo?</li>
    <li><b>P03</b> - Existe maior incidência de HAS em determinada etnia?</li>
    <li><b>P04</b> - Como se distribui a incidência de HAS pelos estados brasileiros?</li>
    <li><b>P05</b> - Como se distribui a incidência de HAS entre as classes
socioeconômicas?</li>
    <li><b>P06</b> - Existe relação entre a prática de exercício físico e a prevenção de
HAS?</li>
    <li><b>P07</b> - Qual a relação entre a ingestão de álcool e a identificação de
HAS?</li>
    <li><b>P08</b> - Qual a relação entre o tabagismo e a identificação de HAS?</li>
    <li><b>P09</b> - Qual a relação entre obesidade e HAS?</li>
    <li><b>P10</b> - Existe relação entre HAS e outras doenças?</li>
</ul>

## Importar bibliotecas

In [95]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt

## Definição de dados

In [96]:
estado = {11: 'Rondônia', 
    12: 'Acre', 
    13: 'Amazonas',
    14: 'Roraima',
    15: 'Pará',
    16: 'Amapá',
    17: 'Tocantins',
    21: 'Maranhão',
    22: 'Piauí',
    23: 'Ceará',
    24: 'Rio Grande do Norte',
    25: 'Paraíba',
    26: 'Pernambuco',
    27: 'Alagoas',
    28: 'Sergipe',
    29: 'Bahia',
    31: 'Minas Gerais',
    32: 'Espírito Santo',
    33: 'Rio de Janeiro',
    35: 'São Paulo',
    41: 'Paraná',
    42: 'Santa Catarina',
    43: 'Rio Grande do Sul',
    50: 'Mato Grosso do Sul',
    51: 'Mato Grosso',
    52: 'Goiás',
    53: 'Distrito Federal'}

cor_raca = {1: 'Branca',
    2: 'Preta',
    3: 'Amarela',
    4: 'Parda',
    5: 'Indígena',
    9: 'Ignorado'}
	#Não aplicável
    
sexo = {1: 'Homem',
    2: 'Mulher'}
#Não aplicável


ProblemaSaude = {1: 'Sim', 
             2: 'Não',
             9: 'Ignorado'}


UsaTabaco={1: 'Sim, diariamente',
    2: 'Sim, menos que diariamente',
    3: 'Não fumo atualmente',
    9: 'Ignorado'}


faixaEtaria={1:'Jovem',
            2:'Adulto',
            3:'Idoso'}

classeIMC={1: 'Baixo Peso',
            2: 'Peso Adequado',
            3: 'Sobrepeso',
            4: 'Obesidade'}

FreqGeralConsumoAlcool={1: 'Não bebo nunca',
    2: 'Menos de uma vez por mês',
    3:'Uma vez ou mais por mês',
    9:'Ignorado'}

condicaoFisica={
    1:'Sedentário',
    2:'Ativo'}

booleano = {True: 'Sim',
           False: 'Não'}

## Dataset
(seleção de colunas e abertura)

In [97]:
pns_campos_selecionados = ['V0001', 
'C006', 
'C008', 
'C009', 
'P00104', 
'P00404', 
'P035',
'Q06306',
'Q00201',
'Q03001',
'Q060', 
'P050', 
'Q00201', 
'E01602', 
'E01604',
'Q055012',
'P027',
'P02801']


dados = pd.read_csv('dados/PNS_2019_CSV.csv', sep=';', usecols=pns_campos_selecionados)

## Tratamento de dados

In [98]:
#Renda
dados['E01602'] = dados['E01602'].fillna(0)
dados['E01604'] = dados['E01604'].fillna(0)

#Exercício Fisico
dados['P035'] = dados['P035'].fillna(0)

In [99]:
dados['renda'] = dados['E01602'] + dados['E01604']

In [100]:
dados.head()

Unnamed: 0,V0001,C006,C008,C009,E01602,E01604,P00104,P00404,P027,P02801,P035,P050,Q00201,Q03001,Q055012,Q060,Q06306,renda
0,11,2.0,55.0,1.0,100.0,0.0,60.0,145.0,2.0,,1.0,3.0,1.0,2.0,,1.0,2.0,100.0
1,11,1.0,69.0,4.0,0.0,0.0,,,,,0.0,,,,,,,0.0
2,11,1.0,31.0,2.0,1000.0,0.0,,,,,0.0,,,,,,,1000.0
3,11,1.0,9.0,2.0,0.0,0.0,,,,,0.0,,,,,,,0.0
4,11,2.0,6.0,4.0,0.0,0.0,,,,,0.0,,,,,,,0.0


### Renomear colunas dataset

In [101]:
dados = dados.rename(columns={'V0001':'UF', 
'C006':'Sexo', 
'C008':'Idade', 
'C009':'CorRaça', 
'P00104':'Peso', 
'P00404':'Altura',                              
'P035':'ExercicioFisico_frequenciaPorSemana',
'Q06306':'diagnostico_doenca_cardiovascular',
'Q00201':'diagnostico_pressao_alta',
'Q03001':'diagnostico_diabetes',
'Q060':'diagnostico_colesterol_alto', 
'P050':'UsoTabaco',
'Q055012':'InfartoAVC',
'P027':'FreqGeralConsumoAlcool',
'P02801':'FreqSemanaConsumoAlcool'})

In [102]:
dados.columns

Index(['UF', 'Sexo', 'Idade', 'CorRaça', 'E01602', 'E01604', 'Peso', 'Altura',
       'FreqGeralConsumoAlcool', 'FreqSemanaConsumoAlcool',
       'ExercicioFisico_frequenciaPorSemana', 'UsoTabaco',
       'diagnostico_pressao_alta', 'diagnostico_diabetes', 'InfartoAVC',
       'diagnostico_colesterol_alto', 'diagnostico_doenca_cardiovascular',
       'renda'],
      dtype='object')

### Selecionar colunas dataset

In [103]:
dados = dados[['UF', 
               'Sexo', 'Idade', 'CorRaça', 
               'Peso', 'Altura', 
               'ExercicioFisico_frequenciaPorSemana',
               'diagnostico_doenca_cardiovascular',
               'diagnostico_pressao_alta',
               'diagnostico_diabetes',
               'diagnostico_colesterol_alto',
               'UsoTabaco',  
               'renda', 'InfartoAVC',
              'FreqGeralConsumoAlcool','FreqSemanaConsumoAlcool']]

In [104]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,CorRaça,Peso,Altura,ExercicioFisico_frequenciaPorSemana,diagnostico_doenca_cardiovascular,diagnostico_pressao_alta,diagnostico_diabetes,diagnostico_colesterol_alto,UsoTabaco,renda,InfartoAVC,FreqGeralConsumoAlcool,FreqSemanaConsumoAlcool
0,11,2.0,55.0,1.0,60.0,145.0,1.0,2.0,1.0,2.0,1.0,3.0,100.0,,2.0,
1,11,1.0,69.0,4.0,,,0.0,,,,,,0.0,,,
2,11,1.0,31.0,2.0,,,0.0,,,,,,1000.0,,,
3,11,1.0,9.0,2.0,,,0.0,,,,,,0.0,,,
4,11,2.0,6.0,4.0,,,0.0,,,,,,0.0,,,


### Remover registros que possuem valores nulos nas fetures 'UF', 'Sexo', 'Idade', 'CorRaça', 'Peso' e 'Altura'

In [105]:
dados.dropna(inplace=True,subset=['UF', 'Sexo', 'Idade', 'CorRaça', 'Peso', 'Altura'])

In [106]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,CorRaça,Peso,Altura,ExercicioFisico_frequenciaPorSemana,diagnostico_doenca_cardiovascular,diagnostico_pressao_alta,diagnostico_diabetes,diagnostico_colesterol_alto,UsoTabaco,renda,InfartoAVC,FreqGeralConsumoAlcool,FreqSemanaConsumoAlcool
0,11,2.0,55.0,1.0,60.0,145.0,1.0,2.0,1.0,2.0,1.0,3.0,100.0,,2.0,
9,11,2.0,19.0,4.0,65.0,152.0,0.0,2.0,2.0,2.0,2.0,1.0,500.0,,2.0,
10,11,2.0,45.0,2.0,77.0,155.0,0.0,2.0,2.0,2.0,2.0,3.0,1000.0,,3.0,7.0
18,11,2.0,58.0,2.0,56.0,159.0,3.0,2.0,2.0,2.0,2.0,3.0,240.0,,1.0,
19,11,2.0,28.0,4.0,55.0,176.0,1.0,2.0,2.0,2.0,2.0,3.0,0.0,,1.0,


### Mapeamento de dados de colunas

In [107]:
#Obter IMC
dados['imc'] = dados['Peso']/((dados['Altura']/100) ** 2)

In [108]:
def obesidade(num):
    if num >= 30:        
        return True
    else:
        return False

dados['obesidade'] = dados['imc'].map(obesidade)

In [109]:
dados.head()

Unnamed: 0,UF,Sexo,Idade,CorRaça,Peso,Altura,ExercicioFisico_frequenciaPorSemana,diagnostico_doenca_cardiovascular,diagnostico_pressao_alta,diagnostico_diabetes,diagnostico_colesterol_alto,UsoTabaco,renda,InfartoAVC,FreqGeralConsumoAlcool,FreqSemanaConsumoAlcool,imc,obesidade
0,11,2.0,55.0,1.0,60.0,145.0,1.0,2.0,1.0,2.0,1.0,3.0,100.0,,2.0,,28.537455,False
9,11,2.0,19.0,4.0,65.0,152.0,0.0,2.0,2.0,2.0,2.0,1.0,500.0,,2.0,,28.133657,False
10,11,2.0,45.0,2.0,77.0,155.0,0.0,2.0,2.0,2.0,2.0,3.0,1000.0,,3.0,7.0,32.049948,True
18,11,2.0,58.0,2.0,56.0,159.0,3.0,2.0,2.0,2.0,2.0,3.0,240.0,,1.0,,22.151023,False
19,11,2.0,28.0,4.0,55.0,176.0,1.0,2.0,2.0,2.0,2.0,3.0,0.0,,1.0,,17.755682,False


## Análise dos dados

### HAS x Faixas etárias

In [110]:
#- faixa etária x hipertensão
#- Montar classificação de faixa etária

# ref_pandas:dados[['diagnostico_pressao_alta','diagnostico_doenca_cardiovascular','UF']].groupby(by=['diagnostico_pressao_alta','diagnostico_doenca_cardiovascular']).count()
# Classificação segundo lei 
#1, Jovens - 15 a 29 anos; lei 12.852/13 (Estatuto da juventude)
#2, Adultos - Indivíduos com idade entre 30 até 59 anos;
#3, Idosos - A partir de 60 anos adulto. lei 10.741/03 (Estatuto do idoso)

#Jovens
dados.loc[dados['Idade'] <= 29,'faixa_etaria'] = 1

#Adultos
cond_adulto = (dados['Idade']>29) & (dados['Idade']<= 59)
dados.loc[cond_adulto,'faixa_etaria'] = 2

#Idosos
cond_idoso = dados['Idade']>59
dados.loc[cond_idoso,'faixa_etaria'] = 3

In [111]:
frequencia = pd.crosstab(dados.faixa_etaria.map(faixaEtaria),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
faixa_etaria,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,78.46,21.54
Idoso,44.93,55.07
Jovem,95.59,4.41


### HAS x Sexo

In [112]:
#- sexo x hipertensão
frequencia = pd.crosstab(dados.Sexo.map(sexo),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Homem,77.31,22.69
Mulher,69.1,30.9


### HAS x Etnia

In [113]:
#- raça 
frequencia = pd.crosstab(dados.CorRaça.map(cor_raca),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
CorRaça,Unnamed: 1_level_1,Unnamed: 2_level_1
Amarela,71.1,28.9
Branca,71.93,28.07
Ignorado,90.0,10.0
Indígena,74.07,25.93
Parda,74.42,25.58
Preta,69.9,30.1


### HAS x Estado brasileiro

In [114]:
#- estado
frequencia = pd.crosstab(dados.UF.map(estado),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2).sort_values('UF')

diagnostico_pressao_alta,Não,Sim
UF,Unnamed: 1_level_1,Unnamed: 2_level_1
Acre,76.77,23.23
Alagoas,70.11,29.89
Amapá,76.63,23.37
Amazonas,79.97,20.03
Bahia,70.7,29.3
Ceará,74.63,25.37
Distrito Federal,79.35,20.65
Espírito Santo,70.4,29.6
Goiás,70.5,29.5
Maranhão,77.46,22.54


### 05. HAS x Classes socioeconômicas

In [115]:
#Classe social - a partir do rendimento
#Obsesos por grupo

#E
dados.loc[dados['renda'] <= 1996,'classe_financeira'] = 'E'
#dados_renda_obesidade.query('classe_financeira == "E"')


#D
cond_d = (dados['renda']>1996) & (dados['renda']<= 3992)

dados.loc[cond_d,'classe_financeira'] = 'D'
#dados_renda_obesidade.query('classe_financeira == "D"')


#C
cond_c = (dados['renda']>3992) & (dados['renda']<= 9980)

dados.loc[cond_c,'classe_financeira'] = 'C'
#dados_renda_obesidade.query('classe_financeira == "C"')


#B
cond_b = (dados['renda']>9980) & (dados['renda']<= 19960)

dados.loc[cond_b,'classe_financeira'] = 'B'
#dados_renda_obesidade.query('classe_financeira == "B"')


#A
cond_a = dados['renda']>19960

dados.loc[cond_a,'classe_financeira'] = 'A'
#dados_renda_obesidade.query('classe_financeira == "A"')

In [116]:
#- classe socioeconômica
frequencia = pd.crosstab(dados.classe_financeira,
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
classe_financeira,Unnamed: 1_level_1,Unnamed: 2_level_1
A,74.87,25.13
B,78.17,21.83
C,80.18,19.82
D,81.81,18.19
E,71.15,28.85


### 6. HAS x Exercício Físico

In [117]:
#condicao_fisica

#Sedentário
cond_sedentario = dados['ExercicioFisico_frequenciaPorSemana']<3
dados.loc[cond_sedentario,'condicao_fisica'] = 1

#Ativo
dados.loc[dados['ExercicioFisico_frequenciaPorSemana'] >= 3,'condicao_fisica'] = 2



In [118]:
frequencia = pd.crosstab(dados['diagnostico_pressao_alta'],
                         dados.condicao_fisica.map(condicaoFisica),
                         normalize='index')*100
frequencia.round(2)

condicao_fisica,Ativo,Sedentário
diagnostico_pressao_alta,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,22.48,77.52
2.0,26.48,73.52


### 7. HAS x Ingestão de álcool

In [119]:
frequencia = pd.crosstab(dados.FreqGeralConsumoAlcool.map(FreqGeralConsumoAlcool),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
FreqGeralConsumoAlcool,Unnamed: 1_level_1,Unnamed: 2_level_1
Menos de uma vez por mês,78.36,21.64
Não bebo nunca,68.92,31.08
Uma vez ou mais por mês,79.67,20.33


In [120]:
frequencia = pd.crosstab([dados.FreqGeralConsumoAlcool.map(FreqGeralConsumoAlcool),
                         dados.FreqSemanaConsumoAlcool],
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

Unnamed: 0_level_0,diagnostico_pressao_alta,Não,Sim
FreqGeralConsumoAlcool,FreqSemanaConsumoAlcool,Unnamed: 2_level_1,Unnamed: 3_level_1
Uma vez ou mais por mês,0.0,79.99,20.01
Uma vez ou mais por mês,1.0,81.24,18.76
Uma vez ou mais por mês,2.0,81.3,18.7
Uma vez ou mais por mês,3.0,77.17,22.83
Uma vez ou mais por mês,4.0,77.04,22.96
Uma vez ou mais por mês,5.0,76.88,23.12
Uma vez ou mais por mês,6.0,72.77,27.23
Uma vez ou mais por mês,7.0,67.58,32.42


### 8. HAS x Tabagismo

In [121]:
# Fumo x Hipertensão - Utilizado este

frequencia = pd.crosstab(dados.UsoTabaco.map(UsaTabaco),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
UsoTabaco,Unnamed: 1_level_1,Unnamed: 2_level_1
Não fumo atualmente,72.44,27.56
"Sim, diariamente",75.88,24.12
"Sim, menos que diariamente",83.78,16.22


### 9. HAS x Obesidade

In [122]:
#- imc x hipertensão
#Qual classe de imc tem mais problemas de hipertensão
#1. Criar coluna para classificação de imc - peso, sobrepeso e etc

#frequencia = pd.crosstab([dados.classe_financeira,
#                         dados.diagnostico_pressao_alta],
#                         dados.obesidade,
#                         normalize='index') * 100
#frequencia

#fonte: https://www.cefidi.com.br/indice-de-massa-corporal-imc/

dados['classe_imc'] = 0

#Baixo Peso
dados.loc[dados['imc'] < 18.5,'classe_imc'] = 1


#Peso Adequado
cond_d = (dados['imc']>=18.5) & (dados['imc']< 25)
dados.loc[cond_d,'classe_imc'] = 2


#Sobrepeso
cond_c = (dados['imc']>=25) & (dados['imc']< 30)
dados.loc[cond_c,'classe_imc'] = 3


#Obesidade
cond_b = (dados['imc']>=30)
dados.loc[cond_b,'classe_imc'] = 4

In [123]:
frequencia = pd.crosstab(dados.classe_imc.map(classeIMC),
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                         normalize='index') * 100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
classe_imc,Unnamed: 1_level_1,Unnamed: 2_level_1
Baixo Peso,83.94,16.06
Obesidade,58.55,41.45
Peso Adequado,81.09,18.91
Sobrepeso,71.37,28.63


### 10. HAS x Outras doenças

#### 10.1 Doença cardiovascular

In [124]:
#- outras doenças
#Quem tem hipertensão q outras doencas a pessoa  sofre?
#Relacionar pessoa, hipertensão e outras doenças


# Doença cardiovascular
frequencia = pd.crosstab(dados.diagnostico_doenca_cardiovascular,
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index')*100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
diagnostico_doenca_cardiovascular,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,36.1,63.9
2.0,75.06,24.94


#### 10.2 Hiperlipidemia

In [125]:
frequencia = pd.crosstab(dados.diagnostico_colesterol_alto,
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index')*100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
diagnostico_colesterol_alto,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,45.49,54.51
2.0,76.75,23.25


#### 10.3 Diabetes

In [126]:
#diabetes x pressão alta
frequencia = pd.crosstab(dados.diagnostico_diabetes,
                         dados.diagnostico_pressao_alta.map(ProblemaSaude),
                        normalize='index')*100
frequencia.round(2)

diagnostico_pressao_alta,Não,Sim
diagnostico_diabetes,Unnamed: 1_level_1,Unnamed: 2_level_1
1.0,34.31,65.69
2.0,75.52,24.48
