**Notebook de Preparação de Dados para Projeto de Identificação de Depressão**

**Introdução:**
Neste notebook, iniciaremos o nosso projeto prático com o objetivo de compreender melhor o nosso domínio de problema e preparar os dados para a construção de modelos de machine learning. Utilizaremos o método CAPTO para selecionar os atributos mais relevantes para a classificação de pessoas que possam possuir depressão. Os dados utilizados serão provenientes da Pesquisa Nacional de Saúde (PNS) de 2019.

**Objetivos:**
O principal objetivo deste notebook é realizar a preparação inicial dos dados, incluindo a seleção de atributos, tratamento de valores ausentes e vazios, além da análise exploratória dos dados filtrados.

**Procedimentos:**
1. **Coleta de Dados:**
   - Iniciaremos a coleta dos dados da PNS 2019 para utilização em nosso projeto.

2. **Seleção de Atributos:**
   - Utilizando o método CAPTO, identificaremos os atributos mais relevantes para a classificação de pessoas com depressão.

3. **Renomeação de Atributos e Instâncias:**
   - Renomearemos os atributos e instâncias conforme necessário para melhor compreensão dos dados e para garantir consistência.

4. **Tratamento de Valores Ausentes e Vazios:**
   - Realizaremos o tratamento de valores ausentes e vazios de acordo com as necessidades apresentadas pelos dados.

5. **Análise Exploratória dos Dados:**
   - Antes e depois do tratamento inicial, faremos uma análise exploratória dos dados para entender melhor suas características e possíveis padrões.

**Conclusão:**
Este notebook servirá como o ponto de partida para o desenvolvimento de modelos de machine learning voltados à identificação de pessoas com depressão. A preparação adequada dos dados é essencial para garantir a qualidade e a eficácia dos modelos construídos. Ao final deste processo, estaremos mais próximos de alcançar nosso objetivo de caracterizar pessoas que possam estar sofrendo dessa condição.

## Bibliotecas Utilizadas
As principais bibliotecas utilizadas nesta etapa são:
- Sidetable: Auxilia na identificação rápida de valores faltantes e frequências de valores categóricos.
- Pandas Profiling: Faz uma análise exploratória automática dos dados, gerando insights sobre problemas nos dados.
- NumPy: Biblioteca fundamental para computação científica em Python.
- Pandas: Biblioteca popular para análise de dados.
- Seaborn / Matplotlib: Visualização de dados.
- Missingno: Facilita a plotagem de dados faltantes.
- IPython Widgets: Permite interatividade.

In [1]:
import numpy as np
import pandas as pd 

import seaborn as sns
import matplotlib.pyplot as plt 

import sidetable 
from ydata_profiling import ProfileReport

import missingno as msno 
from ipywidgets import interact, widgets 

## Análise Inicial dos dados 

In [2]:
data = r"C:\Users\maype\OneDrive\Área de Trabalho\pns_2019\pns2019\pns2019.csv"
df_original = pd.read_csv(data)

In [3]:
# 1. Visualização das primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df_original.head())

Primeiras linhas do DataFrame:
   V0001    V0024    UPA_PNS  V0006_PNS  V0015  V0020  V0022  V0026  V0031  \
0     11  1110011  110000016          1      1   2019    6.0      1      1   
1     11  1110011  110000016          1      1   2019    6.0      1      1   
2     11  1110011  110000016          1      1   2019    6.0      1      1   
3     11  1110011  110000016          1      1   2019    6.0      1      1   
4     11  1110011  110000016          1      1   2019    6.0      1      1   

   V0025A  ...  VDE002  VDE014  VDF002  VDF003  VDF004  VDL001  VDM001  \
0     1.0  ...     1.0     6.0  2098.0   350.0     2.0     NaN     NaN   
1     0.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   
2     0.0  ...     1.0     4.0  2098.0   350.0     2.0     NaN     NaN   
3     9.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   
4     9.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   

   VDP001  VDR001    VDDATA  
0     NaN     NaN  202108

In [4]:
# 2. Número de linhas e colunas
print("Temos", df_original.shape[0], "linhas e", df_original.shape[1], "colunas.")

Temos 293726 linhas e 1087 colunas.


In [5]:
# 3. Informações gerais sobre o DataFrame
print("\nInformações gerais sobre o DataFrame:")
print(df_original.info())


Informações gerais sobre o DataFrame:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Columns: 1087 entries, V0001 to VDDATA
dtypes: float64(1078), int64(9)
memory usage: 2.4 GB
None


In [6]:
# 4. Contagem de valores únicos em cada coluna
print("\nContagem de valores únicos em cada coluna:")
print(df_original.nunique())


Contagem de valores únicos em cada coluna:


V0001          27
V0024         574
UPA_PNS      8031
V0006_PNS      18
V0015          12
             ... 
VDL001         31
VDM001          4
VDP001          3
VDR001          9
VDDATA          1
Length: 1087, dtype: int64


In [7]:
#5. Contagem de valores nulos em cada coluna
print("\nContagem de valores nulos em cada coluna:")
print(df_original.isnull().sum())


Contagem de valores nulos em cada coluna:
V0001             0
V0024             0
UPA_PNS           0
V0006_PNS         0
V0015             0
              ...  
VDL001       287094
VDM001       249264
VDP001       285577
VDR001       276350
VDDATA            0
Length: 1087, dtype: int64


## Filtrando Colunas que Seram Utilizadas 

In [8]:
df = df_original[[
  # Dimensão: Características do Individuo 
  
  'C006', # Sexo
  'C00702', # Mês de nascimento
  'C00703',# Ano de nascimento   
  'C008', # Idade do morador na data de referência

  # Dimensão: Fatores Sociais e Ambientais 
     
  'M01401', # Com quantos familiares ou parentes pode contar em momentos bons ou ruins                            
  'M01501', # Com quantos amigos próximos ___ pode contar em momentos bons ou ruins (Sem considerar os familiares ou parentes
  'E01602', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor em dinheiro)
  'E01601', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em dinheiro?
  'E01603', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em produtos ou mercadorias?
  'E01604', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor estimado em produtos ou mercadorias)
  'E01605', #...recebia/fazia normalmente nesse trabalho rendimento/retirada somente em benefícios ?
  'E01801', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em dinheiro?
  'E01802', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor em dinheiro)
  'E01803', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em produtos ou mercadorias?
  'E01804', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor estimado em produtos ou mercadorias)
  'E01805', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada somente em benefícios ?
  'F001011', #Em (mês da pesquisa) ___ recebia normalmente rendimento de aposentadoria ou pensão de instituto de previdência federal (INSS), estadual, municipal, ou do governo federal, estadual, municipal?
  'F001021', #Valor habitualmente recebido
  'F007011', #Em (mês da pesquisa), ___ recebia normalmente rendimento de pensão alimentícia, doação ou mesada em dinheiro de pessoa que não morava no domicílio?
  'F007021', #Valor habitualmente recebido
  'F008011', #Em (mês da pesquisa), ___ recebia normalmente rendimento de aluguel ou arrendamento?
  'F008021', #Valor habitualmente recebido
  'VDF001',  #Em (mês da pesquisa), _______ recebia normalmente algum juro de caderneta de poupança e de outras aplicações financeiras, dividendos, programas sociais, seguro-desemprego, seguro defeso ou outros rendimentos? 
  'VDF00102', #Valor recebido em reais (VDF001)
  'E01201', #Qual era a ocupação (cargo ou função) que ___ tinha nesse trabalho
  'E01401', #Nesse trabalho, ___ era
  'E014011', #Trabalhador não remunerado em ajuda a membro do domicílio ou parente 
  'E019', #Quantas horas ___ trabalhava normalmente, por semana, nesses outros trabalhos? 
  'E017', # Quantas horas ___ trabalhava normalmente, por semana, nesse trabalho?
  'M005011', #Quantas horas trabalha(va) por dia, habitualmente, no período de 8 horas da noite e 5 horas da manhã
  'M00601', #Com que frequência, habitualmente, o(a) Sr(a) trabalha(va) no horário entre 8 horas da noite e 5 horas da manhã em algum dos seus trabalhos
  'D00901', # Qual foi o curso mais elevado que ___frequentou 
  'Q092',#***TEM DEPRESSÃO**Algum médico ou profissional de saúde mental (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de depressão?
  'Q09201',#Algum médico já lhe receitou algum medicamento para depressão?
  'Q09202',#Nas duas últimas semanas o(a) senhor(a) usou algum medicamento para depressão?
  'Q09301',#Que idade o(a) Sr(a) tinha no primeiro diagnóstico de depressão? 
  'Q094',#O(A) Sr(a) vai ao médico/serviço de saúde regularmente por causa da depressão ou só quando tem algum problema?
  'Q09502',#Qual o principal motivo do(a) Sr(a) não visitar o médico/serviço de saúde regularmente por causa da depressão? 
  'Q09605',#Por causa da depressão Faz psicoterapia 
  'Q09606',#Por causa da depressão Toma medicamentos
  'Q09607',#Por causa da depressão Faz uso de acupuntura, plantas medicinais e fitoterapia, homeopatia, meditação, yoga, tai chi chuan, liang gong ou alguma outra prática integrativa e complementar 
  'Q098',#Algum dos medicamentos para depressão foi obtido em serviço público de saúde? 
  'Q100',#O(A) Sr(a) pagou algum valor pelos medicamentos? 
  'Q10101',#Quando foi a última vez que o(a) Sr(a) recebeu atendimento médico por causa da depressão? 
  'Q10202',#Na última vez que recebeu assistência médica para depressão, onde o(a) Sr(a) foi atendido? 
  'Q104',#O(A) Sr(a) pagou algum valor por esse atendimento?
  'Q105',#Esse atendimento foi feito pelo SUS? 
  'Q106',#Em algum dos atendimentos para depressão, houve encaminhamento para algum acompanhamento com profissional de saúde mental, como psiquiatra ou psicólogo? 
  'Q10701',#O(A) Sr(a) conseguiu ir às consultas com profissional especialista de saúde mental? 
  'Q109',#Em geral, em que grau a depressão limita as suas atividades habituais (tais como trabalhar, realizar afazeres domésticos, etc.)? 
  'A001',#Tipo do domicílio
  'A002010',#Qual é o material que predomina na construção das paredes externas deste domicílio?
  'A003010',#Material predominante na cobertura (telhado) do domicílio
  'A004010',#Qual é o material que predomina no piso deste domicílio
  'A01001',# Quantos cômodos têm este domicílio
  'A011',#Quantos cômodos estão servindo permanentemente de dormitório para os moradores deste domicílio
  'A005010',#Qual é a principal forma de abastecimento de água deste domicílio
  'A005012',#Este domicílio está ligado à rede geral de distribuição de água? 
  'A00601',# A água utilizada neste domicílio chega
  'A009010',# A água utilizada para beber neste domicílio é
  'A01401',#Quantos banheiros (com chuveiro ou banheira e vaso sanitário ou privada) de uso exclusivo dos moradores existem neste domicílio, inclusive os localizados no terreno ou propriedade
  'A01402',#Quantos banheiros (com chuveiro ou banheira e vaso sanitário ou privada) de uso comum a mais de um domicilio, existem neste terreno ou propriedade
  'A01403',#Utiliza sanitário ou buraco para dejeções, inclusive os localizados no terreno ou na propriedade (cercado por paredes de qualquer material
  'A01501',#Para onde vai o esgoto do banheiro? Ou Para onde vai o esgoto do sanitário ou do buraco para dejeções?
  'A016010',#Qual o (principal) destino dado ao lixo
  'J007', #Algum médico já deu o diagnóstico de alguma doença crônica, física ou mental, ou doença de longa duração (de mais de 6 meses de duração) 
  'Q11006', # Algum médico ou profissional de saúde (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de outra doença mental, como transtorno de ansiedade, síndrome do pânico, esquizofrenia, transtorno bipolar, psicose ou TOC (Transtorno Obsessivo Compulsivo) etc? 
  'Q11007', # Diagnóstico de Esquizofrenia 
  'Q11008', # Diagnóstico de Transtorno bipolar 
  'Q11009', # Diagnóstico de TOC (Transtorno obsessivo compulsivo) 
  'Q11010', # Outro diagnóstico
  'N00101', # Considerando saúde como um estado de bem-estar físico e mental, e não somente a ausência de doenças, como você avalia o seu estado de saúde? 
  
  ####Dimensão: Hábitos de Saúde
  
  'P034', # Nos últimos três meses, o(a) Sr(a) praticou algum tipo de exercício físico ou esporte? 
  'P035', # Quantos dias por semana o(a) Sr(a) costuma  (costumava)praticar exercício físico ou esporte?
  'P03701', #Em geral, no dia que o(a) Sr(a) pratica exercício ou esporte, quanto tempo em horas dura essa atividade? Horas 
  'P03702', # Em geral, no dia que o(a) Sr(a) pratica (praticava) exercício ou esporte, quanto tempo em minutos dura essa atividade?Minutos 
  'P036', # Qual o exercício físico ou esporte que o(a) Sr(a) pratica (praticava) com mais frequência? (Anotar apenas o primeiro citado) 
  'P027', # Com que frequência o(a) Sr(a) costuma consumir alguma bebida alcoólica?
  'P02801', # Quantos dias por semana o(a) Sr(a) costuma consumir alguma bebida alcoólica? 
  'P029', #Em geral, no dia que o(a) Sr(a) bebe, quantas doses de bebida alcoólica o(a) Sr(a) consome? 
  'J00402', #  Qual foi o principal motivo de saúde que impediu de realizar suas atividades habituais nas duas últimas semanas 
  'J01101', # Quando consultou um médico pela última vez
  'J014', # Nas duas últimas semanas, procurou algum lugar, serviço ou profissional de saúde para atendimento relacionado à própria saúde
  'J01502', # Qual foi o motivo principal pelo qual procurou atendimento relacionado à própria saúde nas duas últimas semanas
  'H024', # Orientações sobre alimentação saudável, boa higiene e sono adequado (dormir suficientemente)
  'N010', # Nas duas últimas semanas, com que frequência o(a) Sr(a) teve problemas no sono, como dificuldade para adormecer, acordar frequentemente à noite ou dormir mais do que de costume?
  
  #### Dimensão: Antropometria 
  'P00102', # O(A) Sr(a) sabe seu peso? 
  'W00101', # Peso - 1ª pesagem (em kg)
  'W00102', # Peso - 2ª pesagem (em kg)
  'W00201', # Altura - 1ª medição (em cm)
  'W00202', # Altura - 2ª medição (em cm)
  'P00402', # O(A) Sr(a) sabe sua altura? (mesmo que seja valor aproximado) 
  'P00403', # Altura - Informada (em cm)
  'P00601', # Ontem o(a) Sr(a) comeu arroz, macarrão, polenta, cuscuz ou milho verde. 
  'P00602', # Batata comum, mandioca/aipim/macaxeira, cará ou inhame.
  'P00603', # Feijão, ervilha, lentilha ou grão de bico.
  'P00604', # Carne de boi, porco, frango, peixe
  'P00605', # Ovo (frito, cozido ou mexido ). 
  'P00607', # Alface, couve, brócolis, agrião ou espinfre.
  'P00608', # Abóbora, cenoura, batata doce ou quiabo/caruru. 
  'P00609', # Tomate, pepino, abobrinha, berinjela, chuchu ou beterraba. 
  'P00610', # Mamão, manga, melão amarelo ou pequi. 
  'P00611', # Laranja, banana, maçã, abacaxi. 
  'P00612', # Leite
  'P00613', # Amendoim, castanha de caju ou castanha do Brasil/Pará 
  'P00614', # ONTEM o(a) Sr(a) tomou ou comeu:Refrigerante
  'P00615', # Suco de fruta em caixinha ou lata ou refresco em pó. 
  'P00616', # Bebida achocolatada ou iogurte com sabor. 
  'P00617', # Salgadinho de pacote ou biscoito/bolacha salgado.
  'P00618', # Biscoito/bolacha doce ou recheado ou bolo de pacote. 
  'P00619', # Sorvete, chocolate, gelatina, flan ou outra sobremesa industrializada.
  'P00620', # Salsicha, linguiça, mortadela ou presunto. 
  'P00621', # Pão de forma, de cachorro-quente ou de hambúrguer.
  'P00622', # Margarina, maionese, ketchup ou outros molhos industrializados. 
  'P00623', # Macarrão instantâneo, sopa de pacote, lasanha congelada ou outro prato congelado comprado pronto industrilizado.
  'P006', # Em quantos dias da semana o(a) Sr(a) costuma comer feijão? 
  'P00901', # Em quantos dias da semana, o(a) Sr(a) costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame) como alface, tomate, couve, cenoura, chuchu, berinjela, abobrinha? 
  'P01001', # Em geral, o(a) Sr(a) costuma comer esse tipo de verdura ou legume: 
  'P01101', # Em quantos dias da semana o(a) Sr(a) costuma comer carne vermelha (boi, porco, cabrito, bode, ovelha etc.)? 
  'P013', # Em quantos dias da semana o(a) Sr(a) costuma comer frango/galinha? 
  'P015', #Em quantos dias da semana o(a) Sr(a) costuma comer peixe? 
  'P02001', # Em quantos dias da semana o(a) Sr(a) costuma tomar suco de caixinha/lata ou refresco em pó ? 
  'P02101', # Que tipo de suco de caixinha/lata ou refresco em pó o(a) Sr(a) costuma tomar? (Ler as opções de resposta) 
  'P01601', # Em quantos dias da semana o(a) Sr(a) costuma tomar suco de fruta natural (incluída a polpa de fruta congelada)? 
  'P018', # Em quantos dias da semana o(a) Sr(a) costuma comer frutas? 
  'P019', # Em geral, quantas vezes por dia o(a) Sr(a) come frutas? 
  'P02002', #  Em quantos dias da semana o(a) Sr(a) costuma tomar refrigerante? 
  'P02102', # Que tipo de refrigerante o(a) Sr(a) costuma tomar? 
  'P023', # Em quantos dias da semana o(a) Sr(a) costuma tomar leite? (de origem animal: vaca, cabra, búfala etc.) 
  'P02401', # Que tipo de leite o(a) Sr(a) costuma tomar? 
  'P02501', # Em quantos dias da semana o(a) Sr(a) costuma comer alimentos doces como biscoito/bolacha recheado, chocolate, gelatina, balas e outros?
  'P02602', # Em quantos dias da semana o(a) Sr(a) costuma substituir a refeição do almoço por lanches rápidos como sanduíches, salgados, pizza, cachorro quente, etc? 
  'P02601', # Considerando a comida preparada na hora e os alimentos industrializados, o(a) Sr(a) acha que o seu consumo de sal é:




  
  
  ]].copy() 

##Dicionáro das colunas filtradas

| Coluna     | Significado                                                                                                                                                 |
|------------|-------------------------------------------------------------------------------------------------------------------------------------------------------------|
| C006       | Sexo                                                                                                                                                        |
| C00702     | Mês de nascimento                                                                                                                                          |
| C00703     | Ano de nascimento                                                                                                                                          |
| C008       | Idade do morador na data de referência                                                                                                                     |
| M01401     | Quantidade de familiares ou parentes em quem pode contar em momentos bons ou ruins                                                                          |
| M01501     | Quantidade de amigos próximos em quem pode contar em momentos bons ou ruins (Sem considerar familiares ou parentes)                                         |
| E01602     | Rendimento bruto mensal ou retirada em dinheiro no trabalho principal                                                                                      |
| E01601     | Rendimento em dinheiro no trabalho principal                                                                                                                |
| E01603     | Rendimento em produtos ou mercadorias no trabalho principal                                                                                                 |
| E01604     | Rendimento estimado em produtos ou mercadorias no trabalho principal                                                                                       |
| E01605     | Rendimento somente em benefícios no trabalho principal                                                                                                      |
| E01801     | Rendimento em dinheiro em outros trabalhos                                                                                                                  |
| E01802     | Rendimento bruto mensal ou retirada em dinheiro em outros trabalhos                                                                                         |
| E01803     | Rendimento em produtos ou mercadorias em outros trabalhos                                                                                                   |
| E01804     | Rendimento estimado em produtos ou mercadorias em outros trabalhos                                                                                          |
| E01805     | Rendimento somente em benefícios em outros trabalhos                                                                                                        |
| F001011    | Recebimento de rendimento de aposentadoria ou pensão no mês da pesquisa                                                                                    |
| F001021    | Valor habitualmente recebido de aposentadoria ou pensão                                                                                                     |
| F007011    | Recebimento de rendimento de pensão alimentícia, doação ou mesada em dinheiro de pessoa que não morava no domicílio                                       |
| F007021    | Valor habitualmente recebido de pensão alimentícia, doação ou mesada em dinheiro                                                                           |
| F008011    | Recebimento de rendimento de aluguel ou arrendamento                                                                                                        |
| F008021    | Valor habitualmente recebido de aluguel ou arrendamento                                                                                                     |
| VDF001     | Recebimento de juros de caderneta de poupança e outras aplicações financeiras                                                                               |
| VDF00102   | Valor recebido em reais de juros e outras aplicações financeiras                                                                                            |
| E01201     | Ocupação no trabalho principal                                                                                                                              |
| E01401     | Condição de trabalho no trabalho principal                                                                                                                   |
| E014011    | Trabalhador não remunerado em ajuda a membro do domicílio ou parente                                                                                        |
| E019       | Horas trabalhadas por semana em outros trabalhos                                                                                                             |
| E017       | Horas trabalhadas por semana no trabalho principal                                                                                                           |
| M005011    | Horas trabalhadas por dia no período de 8 horas da noite e 5 horas da manhã                                                                                 |
| M00601     | Frequência de trabalho no horário entre 8 horas da noite e 5 horas da manhã                                                                                 |
| D00901     | Curso mais elevado frequentado                                                                                                                              |
| Q092       | Diagnóstico de depressão por médico ou profissional de saúde mental                                                                                         |
| Q09201     | Recebimento de medicamento para depressão prescrito por médico                                                                                              |
| Q09202     | Uso de medicamento para depressão nas duas últimas semanas                                                                                                   |
| Q09301     | Idade no primeiro diagnóstico de depressão                                                                                                                  |
| Q094       | Frequência de visitas ao médico/serviço de saúde por causa da depressão                                                                                     |
| Q09502     | Motivo principal para não visitar regularmente o médico/serviço de saúde por causa da depressão                                                              |
| Q09605     | Participação em psicoterapia por causa da depressão                                                                                                          |
| Q09606     | Uso de medicamentos por causa da depressão                                                                                                                   |
| Q09607     | Utilização de práticas integrativas e complementares por causa da depressão                                                                                  |
| Q098       | Obtenção de medicamentos para depressão em serviço público de saúde                                                                                          |
| Q100       | Pagamento de valor pelos medicamentos para depressão                                                                                                          |
| Q10101     | Última consulta médica por causa da depressão                                                                                                                |
| Q10202     | Local da última assistência médica para depressão                                                                                                             |
| Q104       | Pagamento de valor pela última assistência médica para depressão                                                                                             |
| Q105       | Atendimento pelo SUS na última assistência médica para depressão                                                                                              |
| Q106       | Encaminhamento para acompanhamento com profissional de saúde mental em algum atendimento para depressão                                                      |
| Q10701     | Frequência de ida às consultas com profissional especialista de saúde mental                                                                                  |
| Q109       | Grau de limitação das atividades habituais devido à depressão                                                                                                 |
| A001       | Tipo do domicílio                                                                                                                                           |
| A002010    | Material predominante na construção das paredes externas do domicílio                                                                                       |
| A003010    | Material predominante na cobertura (telhado) do domicílio                                                                                                    |
| A004010    | Material predominante no piso do domicílio                                                                                                                  |
| A01001     | Quantidade de cômodos do domicílio                                                                                                                          |
| A011       | Quantidade de cômodos servindo permanentemente de dormitório para os moradores do domicílio                                                                 |
| A005010    | Principal forma de abastecimento de água do domicílio                                                                                                        |
| A005012    | Ligação do domicílio à rede geral de distribuição de água                                                                                                    |
| A00601     | Chegada da água utilizada no domicílio                                                                                                                       |
| A009010    | Tipo de água utilizada para beber no domicílio                                                                                                               |
| A01401     | Quantidade de banheiros de uso exclusivo dos moradores no domicílio                                                                                          |
| A01402     | Quantidade de banheiros de uso comum a mais de um domicílio no terreno ou propriedade                                                                        |
| A01403     | Utilização de sanitário ou buraco para dejeções no domicílio                                                                                                 |
| A01501     | Destino do esgoto do banheiro no domicílio                                                                                                                   |
| A016010    | Destino principal dado ao lixo do domicílio                                                                                                                  |
| J007       | Diagnóstico de doença crônica, física ou mental, ou doença de longa duração                                                                                 |
| Q11006     | Diagnóstico de outra doença mental por médico ou profissional de saúde mental                                                                               |
| Q11007     | Diagnóstico de esquizofrenia                                                                                                                                 |
| Q11008     | Diagnóstico de transtorno bipolar                                                                                                                            |
| Q11009     | Diagnóstico de TOC (Transtorno obsessivo-compulsivo)                                                                                                         |
| Q11010     | Outro diagnóstico de doença mental                                                                                                                           |

# Analise dos Dados Filtrados 

In [9]:
# 1. Visualização das primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
df.head()


Primeiras linhas do DataFrame:


Unnamed: 0,C006,C00702,C00703,C008,M01401,M01501,E01602,E01601,E01603,E01604,...,P01601,P018,P019,P02002,P02102,P023,P02401,P02501,P02602,P02601
0,2.0,11.0,1963.0,55.0,3.0,0.0,100.0,1.0,,,...,0.0,3.0,,1.0,2.0,7.0,2.0,0.0,0.0,3.0
1,1.0,4.0,1950.0,69.0,,,,,,,...,,,,,,,,,,
2,1.0,9.0,1987.0,31.0,,,1000.0,1.0,,,...,,,,,,,,,,
3,1.0,99.0,9999.0,9.0,,,,,,,...,,,,,,,,,,
4,2.0,99.0,9999.0,6.0,,,,,,,...,,,,,,,,,,


In [10]:
# 2. Número de linhas e colunas
print("Temos", df.shape[0], "linhas e", df.shape[1], "colunas.")

Temos 293726 linhas e 133 colunas.


In [11]:
# 3. Informações gerais sobre o DataFrame
print("\nInformações gerais sobre o DataFrame:")
print(df.info())


Informações gerais sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Columns: 133 entries, C006 to P02601
dtypes: float64(133)
memory usage: 298.0 MB
None


In [12]:
# 4. Contagem de valores únicos em cada coluna
print("\nContagem de valores únicos em cada coluna:")
print(df.nunique())# 4. Contagem de valores únicos em cada coluna



Contagem de valores únicos em cada coluna:


C006        2
C00702     13
C00703    109
C008      109
M01401      4
         ... 
P023        8
P02401      3
P02501      8
P02602      8
P02601      5
Length: 133, dtype: int64


In [13]:
#5. Contagem de valores nulos em cada coluna
print("\nContagem de valores nulos em cada coluna:")
print(df.isnull().sum())


Contagem de valores nulos em cada coluna:
C006       14344
C00702     14344
C00703     14344
C008       14344
M01401    202880
           ...  
P023      202880
P02401    230622
P02501    202880
P02602    202880
P02601    202880
Length: 133, dtype: int64


> Gerando relatório de perfil da base


In [14]:
profile.to_file("analise_pns.html")


NameError: name 'profile' is not defined

In [7]:
mapeamento = {
    'V0001' : 'Estado',
    'C008' : 'idade',
    'Q092': 'Tem depressão?',
    'E001' : 'Trabalha?',
    'C006' : 'Sexo'
}

df.rename(columns=mapeamento, inplace=True)

In [8]:
df[['idade', 'Estado', 'Tem depressão?', 'Sexo', 'Trabalha?']]

Unnamed: 0,idade,Estado,Tem depressão?,Sexo,Trabalha?
0,55.0,11,1.0,2.0,1.0
1,69.0,11,,1.0,2.0
2,31.0,11,,1.0,1.0
3,9.0,11,,1.0,
4,6.0,11,,2.0,
...,...,...,...,...,...
293721,49.0,53,,2.0,1.0
293722,84.0,53,,1.0,2.0
293723,21.0,53,,1.0,1.0
293724,13.0,53,,2.0,


> **Verificando valores únicos nas colunas utilizadas**

In [9]:
for column in df[['idade', 'Tem depressão?', 'Estado', 'Trabalha?', 'Sexo']]:
    unique_values = df[column].unique()
    print(f'Valores únicos em {column}: {unique_values}')
    print()


Valores únicos em idade: [ 55.  69.  31.   9.   6.   4.  33.  17.  15.  19.  45.  78.  28.  25.
  26.   7.   3.  58.   1.  81.  41.  54.  22.  37.  38.  14.  27.  52.
  36.  56.  nan  72.  53.  50.  60.  35.  30.  21.  23.  42.   0.  49.
  18.  24.  32.  66.  47.  20.  29.  40.  10.   8.  13.  63.  77.  65.
  68.  61.  59.  39.  12.  11.  48.  73.  64.  44.  57.  34.  67.  16.
  51.  46.  62.   5.  85.  74.   2.  76.  75.  43.  94.  80.  71.  70.
  84.  79.  88.  92.  83.  90. 102.  86.  87.  89.  82.  91.  97.  93.
  95.  99. 101. 100.  98. 103. 104. 107.  96. 106. 105. 112.]

Valores únicos em Tem depressão?: [ 1. nan  2.]

Valores únicos em Estado: [11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50
 51 52 53]

Valores únicos em Trabalha?: [ 1.  2. nan]

Valores únicos em Sexo: [ 2.  1. nan]



In [10]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   idade           279382 non-null  float64
 1   Estado          293726 non-null  int64  
 2   Tem depressão?  90846 non-null   float64
 3   Trabalha?       225563 non-null  float64
 4   Sexo            279382 non-null  float64
dtypes: float64(4), int64(1)
memory usage: 11.2 MB


## Tratando Atributos



> **Coneventendo Colunas para inteiro**

In [11]:
numeric_columns = df.select_dtypes(include='number').columns
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce').astype('Int64')

> **Transformando atributos numericos**


In [12]:
df['Trabalha?'] = df['Trabalha?'].map({1: 'Trabalha', 2: 'Não Trabalha'})
df['Tem depressão?'] = df['Tem depressão?'].map({1: 'Sim', 2: 'Não'})
df['Sexo'] = df['Sexo'].map({1: 'Homem', 2: 'Mulher'})

> **Preenchendo valores vazios com "Não informado".**

In [13]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']] = df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].applymap(lambda x: 'Não informado' if pd.isna(x) else x)
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']]

  df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']] = df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].applymap(lambda x: 'Não informado' if pd.isna(x) else x)


Unnamed: 0,idade,Estado,Tem depressão?,Trabalha?,Sexo
0,55.0,11,Sim,Trabalha,Mulher
1,69.0,11,Não informado,Não Trabalha,Homem
2,31.0,11,Não informado,Trabalha,Homem
3,9.0,11,Não informado,Não informado,Homem
4,6.0,11,Não informado,Não informado,Mulher
...,...,...,...,...,...
293721,49.0,53,Não informado,Trabalha,Mulher
293722,84.0,53,Não informado,Não Trabalha,Homem
293723,21.0,53,Não informado,Trabalha,Homem
293724,13.0,53,Não informado,Não informado,Mulher


In [14]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   idade           293726 non-null  object
 1   Estado          293726 non-null  int64 
 2   Tem depressão?  293726 non-null  object
 3   Trabalha?       293726 non-null  object
 4   Sexo            293726 non-null  object
dtypes: int64(1), object(4)
memory usage: 11.2+ MB


In [15]:
df.head()

Unnamed: 0,Estado,idade,Tem depressão?,Trabalha?,Sexo
0,11,55.0,Sim,Trabalha,Mulher
1,11,69.0,Não informado,Não Trabalha,Homem
2,11,31.0,Não informado,Trabalha,Homem
3,11,9.0,Não informado,Não informado,Homem
4,11,6.0,Não informado,Não informado,Mulher


In [16]:
for column in df[['idade', 'Tem depressão?', 'Estado', 'Trabalha?', 'Sexo']]:
    unique_values = df[column].unique()
    print(f'Valores únicos em {column}: {unique_values}')
    print()

Valores únicos em idade: [55.0 69.0 31.0 9.0 6.0 4.0 33.0 17.0 15.0 19.0 45.0 78.0 28.0 25.0 26.0
 7.0 3.0 58.0 1.0 81.0 41.0 54.0 22.0 37.0 38.0 14.0 27.0 52.0 36.0 56.0
 'Não informado' 72.0 53.0 50.0 60.0 35.0 30.0 21.0 23.0 42.0 0.0 49.0
 18.0 24.0 32.0 66.0 47.0 20.0 29.0 40.0 10.0 8.0 13.0 63.0 77.0 65.0 68.0
 61.0 59.0 39.0 12.0 11.0 48.0 73.0 64.0 44.0 57.0 34.0 67.0 16.0 51.0
 46.0 62.0 5.0 85.0 74.0 2.0 76.0 75.0 43.0 94.0 80.0 71.0 70.0 84.0 79.0
 88.0 92.0 83.0 90.0 102.0 86.0 87.0 89.0 82.0 91.0 97.0 93.0 95.0 99.0
 101.0 100.0 98.0 103.0 104.0 107.0 96.0 106.0 105.0 112.0]



Valores únicos em Tem depressão?: ['Sim' 'Não informado' 'Não']

Valores únicos em Estado: [11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50
 51 52 53]

Valores únicos em Trabalha?: ['Trabalha' 'Não Trabalha' 'Não informado']

Valores únicos em Sexo: ['Mulher' 'Homem' 'Não informado']



> **Renomeando atributos de Estado**

In [17]:
mapeamento_estado = {
    11: 'Rondônia',
    12: 'Acre',
    13: 'Amazonas',
    14: 'Roraima',
    15: 'Pará',
    16: 'Amapá',
    17: 'Tocantins',
    21: 'Maranhão',
    22: 'Piauí',
    23: 'Ceará',
    24: 'Rio Grande do Norte',
    25: 'Paraíba',
    26: 'Pernambuco',
    27: 'Alagoas',
    28: 'Sergipe',
    29: 'Bahia',
    31: 'Minas Gerais',
    32: 'Espírito Santo',
    33: 'Rio de Janeiro',
    35: 'São Paulo',
    41: 'Paraná',
    42: 'Santa Catarina',
    43: 'Rio Grande do Sul',
    50: 'Mato Grosso do Sul',
    51: 'Mato Grosso',
    52: 'Goiás',
    53: 'Distrito Federal'
}

df['Estado'] = df['Estado'].map(mapeamento_estado)

> **Adicionando coluna de regiões** 

In [18]:

regioes_por_estado = {
    'Acre': 'Norte',
    'Alagoas': 'Nordeste',
    'Amapá': 'Norte',
    'Amazonas': 'Norte',
    'Bahia': 'Nordeste',
    'Ceará': 'Nordeste',
    'Distrito Federal': 'Centro-Oeste',
    'Espírito Santo': 'Sudeste',
    'Goiás': 'Centro-Oeste',
    'Maranhão': 'Nordeste',
    'Mato Grosso': 'Centro-Oeste',
    'Mato Grosso do Sul': 'Centro-Oeste',
    'Minas Gerais': 'Sudeste',
    'Pará': 'Norte',
    'Paraíba': 'Nordeste',
    'Paraná': 'Sul',
    'Pernambuco': 'Nordeste',
    'Piauí': 'Nordeste',
    'Rio de Janeiro': 'Sudeste',
    'Rio Grande do Norte': 'Nordeste',
    'Rio Grande do Sul': 'Sul',
    'Rondônia': 'Norte',
    'Roraima': 'Norte',
    'Santa Catarina': 'Sul',
    'São Paulo': 'Sudeste',
    'Sergipe': 'Nordeste',
    'Tocantins': 'Norte'
}

df['Região'] = df['Estado'].map(regioes_por_estado)



In [19]:
df.head()

Unnamed: 0,Estado,idade,Tem depressão?,Trabalha?,Sexo,Região
0,Rondônia,55.0,Sim,Trabalha,Mulher,Norte
1,Rondônia,69.0,Não informado,Não Trabalha,Homem,Norte
2,Rondônia,31.0,Não informado,Trabalha,Homem,Norte
3,Rondônia,9.0,Não informado,Não informado,Homem,Norte
4,Rondônia,6.0,Não informado,Não informado,Mulher,Norte


In [20]:

df = df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Região', 'Sexo']]
df.to_csv("base_filtrada.csv")