**Notebook de Preparação de Dados para Projeto de Identificação de Depressão**

**Introdução:**
Este notebook marca o início do nosso projeto prático, visando uma compreensão mais aprofundada do nosso domínio de problema e a preparação dos dados para a construção de modelos de machine learning. Utilizaremos o método CAPTO para guiar nossa seleção de atributos mais relevantes para a identificação de indivíduos que possam estar sofrendo de depressão. Os dados que utilizaremos são provenientes da Pesquisa Nacional de Saúde (PNS) de 2019.

**Objetivos:**
Neste notebook, não apenas filtraremos os dados, mas também selecionaremos os atributos mais significativos para o projeto, de acordo com o modelo conceitual desenvolvido com base no método CAPTO. Os dados serão refinados para atender às necessidades específicas do nosso projeto.

**Procedimentos:**
1. **Coleta de Dados:**
   - Iniciaremos a coleta dos dados da PNS 2019 para utilização em nosso projeto.

2. **Seleção de Atributos:**
   - Utilizando o método CAPTO, identificaremos os atributos mais relevantes para a identificação de indivíduos com depressão.

## Bibliotecas Utilizadas
- Pandas Profiling: Faz uma análise exploratória automática dos dados, gerando insights sobre problemas nos dados.

In [1]:
import pandas as pd

## Análise Inicial dos dados 

In [2]:
data = r"C:\Users\maype\OneDrive\Área de Trabalho\pns_2019\pns2019\pns2019.csv"
df_original = pd.read_csv(data)

In [3]:
# 1. Visualização das primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
print(df_original.head())

Primeiras linhas do DataFrame:
   V0001    V0024    UPA_PNS  V0006_PNS  V0015  V0020  V0022  V0026  V0031  \
0     11  1110011  110000016          1      1   2019    6.0      1      1   
1     11  1110011  110000016          1      1   2019    6.0      1      1   
2     11  1110011  110000016          1      1   2019    6.0      1      1   
3     11  1110011  110000016          1      1   2019    6.0      1      1   
4     11  1110011  110000016          1      1   2019    6.0      1      1   

   V0025A  ...  VDE002  VDE014  VDF002  VDF003  VDF004  VDL001  VDM001  \
0     1.0  ...     1.0     6.0  2098.0   350.0     2.0     NaN     NaN   
1     0.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   
2     0.0  ...     1.0     4.0  2098.0   350.0     2.0     NaN     NaN   
3     9.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   
4     9.0  ...     NaN     NaN  2098.0   350.0     2.0     NaN     NaN   

   VDP001  VDR001    VDDATA  
0     NaN     NaN  202108

In [4]:
# 2. Número de linhas e colunas
print("Temos", df_original.shape[0], "linhas e", df_original.shape[1], "colunas.")

Temos 293726 linhas e 1087 colunas.


In [5]:
# 3. Informações gerais sobre o DataFrame
print("\nInformações gerais sobre o DataFrame:")
print(df_original.info())


Informações gerais sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Columns: 1087 entries, V0001 to VDDATA
dtypes: float64(1078), int64(9)
memory usage: 2.4 GB
None


In [6]:
# 4. Contagem de valores únicos em cada coluna
print("\nContagem de valores únicos em cada coluna:")
print(df_original.nunique())


Contagem de valores únicos em cada coluna:
V0001          27
V0024         574
UPA_PNS      8031
V0006_PNS      18
V0015          12
             ... 
VDL001         31
VDM001          4
VDP001          3
VDR001          9
VDDATA          1
Length: 1087, dtype: int64


In [7]:
#5. Contagem de valores nulos em cada coluna
print("\nContagem de valores nulos em cada coluna:")
print(df_original.isnull().sum())


Contagem de valores nulos em cada coluna:
V0001             0
V0024             0
UPA_PNS           0
V0006_PNS         0
V0015             0
              ...  
VDL001       287094
VDM001       249264
VDP001       285577
VDR001       276350
VDDATA            0
Length: 1087, dtype: int64


## Filtrando Colunas que Seram Utilizadas 

In [8]:
df = df_original[[
  # Dimensão: Características do Individuo 
  
  'C006', # Sexo
  'C00702', # Mês de nascimento
  'C00703',# Ano de nascimento   
  'C008', # Idade do morador na data de referência

  # Dimensão: Fatores Sociais e Ambientais 
     
  'M01401', # Com quantos familiares ou parentes pode contar em momentos bons ou ruins                            
  'M01501', # Com quantos amigos próximos ___ pode contar em momentos bons ou ruins (Sem considerar os familiares ou parentes
  'E01602', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor em dinheiro)
  'E01601', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em dinheiro?
  'E01603', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em produtos ou mercadorias?
  'E01604', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor estimado em produtos ou mercadorias)
  'E01605', #...recebia/fazia normalmente nesse trabalho rendimento/retirada somente em benefícios ?
  'E01801', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em dinheiro?
  'E01802', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor em dinheiro)
  'E01803', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em produtos ou mercadorias?
  'E01804', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor estimado em produtos ou mercadorias)
  'E01805', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada somente em benefícios ?
  'F001011', #Em (mês da pesquisa) ___ recebia normalmente rendimento de aposentadoria ou pensão de instituto de previdência federal (INSS), estadual, municipal, ou do governo federal, estadual, municipal?
  'F001021', #Valor habitualmente recebido
  'F007011', #Em (mês da pesquisa), ___ recebia normalmente rendimento de pensão alimentícia, doação ou mesada em dinheiro de pessoa que não morava no domicílio?
  'F007021', #Valor habitualmente recebido
  'F008011', #Em (mês da pesquisa), ___ recebia normalmente rendimento de aluguel ou arrendamento?
  'F008021', #Valor habitualmente recebido
  'VDF001',  #Em (mês da pesquisa), _______ recebia normalmente algum juro de caderneta de poupança e de outras aplicações financeiras, dividendos, programas sociais, seguro-desemprego, seguro defeso ou outros rendimentos? 
  'VDF00102', #Valor recebido em reais (VDF001)
  'E01201', #Qual era a ocupação (cargo ou função) que ___ tinha nesse trabalho
  'E01401', #Nesse trabalho, ___ era
  'E014011', #Trabalhador não remunerado em ajuda a membro do domicílio ou parente 
  'E002', #Na semana de ___a___ (semana de referência), ___ trabalhou ou estagiou, durante pelo menos uma hora, em alguma atividade remunerada em produtos, mercadorias, moradia, alimentação, treinamento ou aprendizado etc
  'E001', #Na semana de___ a___ (semana de referência), ___ trabalhou ou estagiou, durante pelo menos uma hora, em alguma atividade remunerada em dinheiro
  'E019', #Quantas horas ___ trabalhava normalmente, por semana, nesses outros trabalhos? 
  'E017', # Quantas horas ___ trabalhava normalmente, por semana, nesse trabalho?
  'M005011', #Quantas horas trabalha(va) por dia, habitualmente, no período de 8 horas da noite e 5 horas da manhã
  'M00601', #Com que frequência, habitualmente, o(a) Sr(a) trabalha(va) no horário entre 8 horas da noite e 5 horas da manhã em algum dos seus trabalhos
  'D00901', # Qual foi o curso mais elevado que ___frequentou 
  'Q092',#***TEM DEPRESSÃO**Algum médico ou profissional de saúde mental (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de depressão?
  'Q09201',#Algum médico já lhe receitou algum medicamento para depressão?
  'Q09202',#Nas duas últimas semanas o(a) senhor(a) usou algum medicamento para depressão?
  'Q09301',#Que idade o(a) Sr(a) tinha no primeiro diagnóstico de depressão? 
  'Q094',#O(A) Sr(a) vai ao médico/serviço de saúde regularmente por causa da depressão ou só quando tem algum problema?
  'Q09502',#Qual o principal motivo do(a) Sr(a) não visitar o médico/serviço de saúde regularmente por causa da depressão? 
  'Q09605',#Por causa da depressão Faz psicoterapia 
  'Q09606',#Por causa da depressão Toma medicamentos
  'Q09607',#Por causa da depressão Faz uso de acupuntura, plantas medicinais e fitoterapia, homeopatia, meditação, yoga, tai chi chuan, liang gong ou alguma outra prática integrativa e complementar 
  'Q098',#Algum dos medicamentos para depressão foi obtido em serviço público de saúde? 
  'Q100',#O(A) Sr(a) pagou algum valor pelos medicamentos? 
  'Q10101',#Quando foi a última vez que o(a) Sr(a) recebeu atendimento médico por causa da depressão? 
  'Q10202',#Na última vez que recebeu assistência médica para depressão, onde o(a) Sr(a) foi atendido? 
  'Q104',#O(A) Sr(a) pagou algum valor por esse atendimento?
  'Q105',#Esse atendimento foi feito pelo SUS? 
  'Q106',#Em algum dos atendimentos para depressão, houve encaminhamento para algum acompanhamento com profissional de saúde mental, como psiquiatra ou psicólogo? 
  'Q10701',#O(A) Sr(a) conseguiu ir às consultas com profissional especialista de saúde mental? 
  'Q109',#Em geral, em que grau a depressão limita as suas atividades habituais (tais como trabalhar, realizar afazeres domésticos, etc.)? 
  'A001',#Tipo do domicílio
  'A002010',#Qual é o material que predomina na construção das paredes externas deste domicílio?
  'A003010',#Material predominante na cobertura (telhado) do domicílio
  'A004010',#Qual é o material que predomina no piso deste domicílio
  'A01001',# Quantos cômodos têm este domicílio
  'A011',#Quantos cômodos estão servindo permanentemente de dormitório para os moradores deste domicílio
  'A005010',#Qual é a principal forma de abastecimento de água deste domicílio
  'A005012',#Este domicílio está ligado à rede geral de distribuição de água? 
  'A00601',# A água utilizada neste domicílio chega
  'A009010',# A água utilizada para beber neste domicílio é
  'A01401',#Quantos banheiros (com chuveiro ou banheira e vaso sanitário ou privada) de uso exclusivo dos moradores existem neste domicílio, inclusive os localizados no terreno ou propriedade
  'A01402',#Quantos banheiros (com chuveiro ou banheira e vaso sanitário ou privada) de uso comum a mais de um domicilio, existem neste terreno ou propriedade
  'A01403',#Utiliza sanitário ou buraco para dejeções, inclusive os localizados no terreno ou na propriedade (cercado por paredes de qualquer material
  'A01501',#Para onde vai o esgoto do banheiro? Ou Para onde vai o esgoto do sanitário ou do buraco para dejeções?
  'A016010',#Qual o (principal) destino dado ao lixo
  'J007', #Algum médico já deu o diagnóstico de alguma doença crônica, física ou mental, ou doença de longa duração (de mais de 6 meses de duração) 
  'Q11006', # Algum médico ou profissional de saúde (como psiquiatra ou psicólogo) já lhe deu o diagnóstico de outra doença mental, como transtorno de ansiedade, síndrome do pânico, esquizofrenia, transtorno bipolar, psicose ou TOC (Transtorno Obsessivo Compulsivo) etc? 
  'Q11007', # Diagnóstico de Esquizofrenia 
  'Q11008', # Diagnóstico de Transtorno bipolar 
  'Q11009', # Diagnóstico de TOC (Transtorno obsessivo compulsivo) 
  'Q11010', # Outro diagnóstico
  'N00101', # Considerando saúde como um estado de bem-estar físico e mental, e não somente a ausência de doenças, como você avalia o seu estado de saúde? 
  
  ####Dimensão: Hábitos de Saúde
  
  'P034', # Nos últimos três meses, o(a) Sr(a) praticou algum tipo de exercício físico ou esporte? 
  'P035', # Quantos dias por semana o(a) Sr(a) costuma  (costumava)praticar exercício físico ou esporte?
  'P03701', #Em geral, no dia que o(a) Sr(a) pratica exercício ou esporte, quanto tempo em horas dura essa atividade? Horas 
  'P03702', # Em geral, no dia que o(a) Sr(a) pratica (praticava) exercício ou esporte, quanto tempo em minutos dura essa atividade?Minutos 
  'P036', # Qual o exercício físico ou esporte que o(a) Sr(a) pratica (praticava) com mais frequência? (Anotar apenas o primeiro citado) 
  'P027', # Com que frequência o(a) Sr(a) costuma consumir alguma bebida alcoólica?
  'P02801', # Quantos dias por semana o(a) Sr(a) costuma consumir alguma bebida alcoólica? 
  'P029', # Em geral, no dia que o(a) Sr(a) bebe, quantas doses de bebida alcoólica o(a) Sr(a) consome? 
  'J00402', #  Qual foi o principal motivo de saúde que impediu de realizar suas atividades habituais nas duas últimas semanas 
  'J01101', # Quando consultou um médico pela última vez
  'J014', # Nas duas últimas semanas, procurou algum lugar, serviço ou profissional de saúde para atendimento relacionado à própria saúde
  'J01502', # Qual foi o motivo principal pelo qual procurou atendimento relacionado à própria saúde nas duas últimas semanas
  'H024', # Orientações sobre alimentação saudável, boa higiene e sono adequado (dormir suficientemente)
  'N010', # Nas duas últimas semanas, com que frequência o(a) Sr(a) teve problemas no sono, como dificuldade para adormecer, acordar frequentemente à noite ou dormir mais do que de costume?
  
  #### Dimensão: Antropometria 
  'P00102', # O(A) Sr(a) sabe seu peso? 
  'P00404',#Altura - Final (em cm)(3 inteiros)
  'P00103',#Peso - Informado (em kg)(3 inteiros e 1 casa decimal)
  'P00104',#Peso - Final (em kg)(3 inteiros e 1 casa decimal)
  'W00101', # Peso - 1ª pesagem (em kg)
  'W00102', # Peso - 2ª pesagem (em kg)
  'W00201', # Altura - 1ª medição (em cm)
  'W00202', # Altura - 2ª medição (em cm)
  'P00402', # O(A) Sr(a) sabe sua altura? (mesmo que seja valor aproximado) 
  'P00403', # Altura - Informada (em cm)
  'P00601', # Ontem o(a) Sr(a) comeu arroz, macarrão, polenta, cuscuz ou milho verde. 
  'P00602', # Batata comum, mandioca/aipim/macaxeira, cará ou inhame.
  'P00603', # Feijão, ervilha, lentilha ou grão de bico.
  'P00604', # Carne de boi, porco, frango, peixe
  'P00605', # Ovo (frito, cozido ou mexido ). 
  'P00607', # Alface, couve, brócolis, agrião ou espinfre.
  'P00608', # Abóbora, cenoura, batata doce ou quiabo/caruru. 
  'P00609', # Tomate, pepino, abobrinha, berinjela, chuchu ou beterraba. 
  'P00610', # Mamão, manga, melão amarelo ou pequi. 
  'P00611', # Laranja, banana, maçã, abacaxi. 
  'P00612', # Leite
  'P00613', # Amendoim, castanha de caju ou castanha do Brasil/Pará 
  'P00614', # ONTEM o(a) Sr(a) tomou ou comeu:Refrigerante
  'P00615', # Suco de fruta em caixinha ou lata ou refresco em pó. 
  'P00616', # Bebida achocolatada ou iogurte com sabor. 
  'P00617', # Salgadinho de pacote ou biscoito/bolacha salgado.
  'P00618', # Biscoito/bolacha doce ou recheado ou bolo de pacote. 
  'P00619', # Sorvete, chocolate, gelatina, flan ou outra sobremesa industrializada.
  'P00620', # Salsicha, linguiça, mortadela ou presunto. 
  'P00621', # Pão de forma, de cachorro-quente ou de hambúrguer.
  'P00622', # Margarina, maionese, ketchup ou outros molhos industrializados. 
  'P00623', # Macarrão instantâneo, sopa de pacote, lasanha congelada ou outro prato congelado comprado pronto industrilizado.
  'P006', # Em quantos dias da semana o(a) Sr(a) costuma comer feijão? 
  'P00901', # Em quantos dias da semana, o(a) Sr(a) costuma comer pelo menos um tipo de verdura ou legume (sem contar batata, mandioca, cará ou inhame) como alface, tomate, couve, cenoura, chuchu, berinjela, abobrinha? 
  'P01001', # Em geral, o(a) Sr(a) costuma comer esse tipo de verdura ou legume: 
  'P01101', # Em quantos dias da semana o(a) Sr(a) costuma comer carne vermelha (boi, porco, cabrito, bode, ovelha etc.)? 
  'P013', # Em quantos dias da semana o(a) Sr(a) costuma comer frango/galinha? 
  'P015', #Em quantos dias da semana o(a) Sr(a) costuma comer peixe? 
  'P02001', # Em quantos dias da semana o(a) Sr(a) costuma tomar suco de caixinha/lata ou refresco em pó ? 
  'P02101', # Que tipo de suco de caixinha/lata ou refresco em pó o(a) Sr(a) costuma tomar? (Ler as opções de resposta) 
  'P01601', # Em quantos dias da semana o(a) Sr(a) costuma tomar suco de fruta natural (incluída a polpa de fruta congelada)? 
  'P018', # Em quantos dias da semana o(a) Sr(a) costuma comer frutas? 
  'P019', # Em geral, quantas vezes por dia o(a) Sr(a) come frutas? 
  'P02002', #  Em quantos dias da semana o(a) Sr(a) costuma tomar refrigerante? 
  'P02102', # Que tipo de refrigerante o(a) Sr(a) costuma tomar? 
  'P023', # Em quantos dias da semana o(a) Sr(a) costuma tomar leite? (de origem animal: vaca, cabra, búfala etc.) 
  'P02401', # Que tipo de leite o(a) Sr(a) costuma tomar? 
  'P02501', # Em quantos dias da semana o(a) Sr(a) costuma comer alimentos doces como biscoito/bolacha recheado, chocolate, gelatina, balas e outros?
  'P02602', # Em quantos dias da semana o(a) Sr(a) costuma substituir a refeição do almoço por lanches rápidos como sanduíches, salgados, pizza, cachorro quente, etc? 
  'P02601', # Considerando a comida preparada na hora e os alimentos industrializados, o(a) Sr(a) acha que o seu consumo de sal é:




  
  
  ]].copy() 

# Analise dos Dados Filtrados 

In [9]:
# 1. Visualização das primeiras linhas do DataFrame
print("Primeiras linhas do DataFrame:")
df.head()


Primeiras linhas do DataFrame:


Unnamed: 0,C006,C00702,C00703,C008,M01401,M01501,E01602,E01601,E01603,E01604,...,P01601,P018,P019,P02002,P02102,P023,P02401,P02501,P02602,P02601
0,2.0,11.0,1963.0,55.0,3.0,0.0,100.0,1.0,,,...,0.0,3.0,,1.0,2.0,7.0,2.0,0.0,0.0,3.0
1,1.0,4.0,1950.0,69.0,,,,,,,...,,,,,,,,,,
2,1.0,9.0,1987.0,31.0,,,1000.0,1.0,,,...,,,,,,,,,,
3,1.0,99.0,9999.0,9.0,,,,,,,...,,,,,,,,,,
4,2.0,99.0,9999.0,6.0,,,,,,,...,,,,,,,,,,


In [10]:
# 2. Número de linhas e colunas
print("Temos", df.shape[0], "linhas e", df.shape[1], "colunas.")

Temos 293726 linhas e 138 colunas.


In [11]:
# 3. Informações gerais sobre o DataFrame
print("\nInformações gerais sobre o DataFrame:")
print(df.info())


Informações gerais sobre o DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Columns: 138 entries, C006 to P02601
dtypes: float64(138)
memory usage: 309.3 MB
None


In [12]:
# 4. Contagem de valores únicos em cada coluna
print("\nContagem de valores únicos em cada coluna:")
print(df.nunique())# 4. Contagem de valores únicos em cada coluna



Contagem de valores únicos em cada coluna:


C006        2
C00702     13
C00703    109
C008      109
M01401      4
         ... 
P023        8
P02401      3
P02501      8
P02602      8
P02601      5
Length: 138, dtype: int64


In [13]:
#5. Contagem de valores nulos em cada coluna
print("\nContagem de valores nulos em cada coluna:")
print(df.isnull().sum())


Contagem de valores nulos em cada coluna:
C006       14344
C00702     14344
C00703     14344
C008       14344
M01401    202880
           ...  
P023      202880
P02401    230622
P02501    202880
P02602    202880
P02601    202880
Length: 138, dtype: int64


In [14]:
# Verificar os tipos de dados atuais
print(df.dtypes)

# Lista das colunas que devem ser categóricas
colunas_categoricas = df.columns.difference(['C008', 'W00101', 'W00102', 'W00201', 'W00202'])

# Converter as colunas para categóricas
df[colunas_categoricas] = df[colunas_categoricas].astype('category')

# Lista das colunas que devem ser numéricas
colunas_numericas = [
    
  'C008', # Idade do morador na data de referência

  # Dimensão: Fatores Sociais e Ambientais 
     
  'M01401', # Com quantos familiares ou parentes pode contar em momentos bons ou ruins                            
  'M01501', # Com quantos amigos próximos ___ pode contar em momentos bons ou ruins (Sem considerar os familiares ou parentes
  'E01602', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor em dinheiro)
  'E01601', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em dinheiro?
  'E01603', #...recebia/fazia normalmente nesse trabalho rendimento/retirada em produtos ou mercadorias?
  'E01604', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse trabalho?(valor estimado em produtos ou mercadorias)
  'E01605', #...recebia/fazia normalmente nesse trabalho rendimento/retirada somente em benefícios ?
  'E01801', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em dinheiro?
  'E01802', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor em dinheiro)
  'E01803', #...recebia/fazia normalmente nesse(s) outro(s) trabalho(s) rendimento/retirada em produtos ou mercadorias?
  'E01804', #Qual era o rendimento bruto mensal ou retirada que ___ fazia normalmente nesse(s) outro(s) trabalho(s)?(valor estimado em produtos ou mercadorias)
  'F001021', #Valor habitualmente recebido
  'F007021', #Valor habitualmente recebido
  'F008021', #Valor habitualmente recebido
  'VDF00102', #Valor recebido em reais (VDF001)
   'E019', #Quantas horas ___ trabalhava normalmente, por semana, nesses outros trabalhos? 
   'E001',#Na semana de___ a___ (semana de referência), ___ trabalhou ou estagiou, durante pelo menos uma hora, em alguma atividade remunerada em dinheiro
   'E002',#Na semana de ___a___ (semana de referência), ___ trabalhou ou estagiou, durante pelo menos uma hora, em alguma atividade remunerada em produtos, mercadorias, moradia, alimentação, treinamento ou aprendizado etc
  'E017', # Quantas horas ___ trabalhava normalmente, por semana, nesse trabalho?
  'M005011', #Quantas horas trabalha(va) por dia, habitualmente, no período de 8 horas da noite e 5 horas da manhã
  'M00601', #Com que frequência, habitualmente, o(a) Sr(a) trabalha(va) no horário entre 8 horas da noite e 5 horas da manhã em algum dos seus trabalhos
 
  
  
  'P00102', # O(A) Sr(a) sabe seu peso? 
  'W00101', # Peso - 1ª pesagem (em kg)
  'W00102', # Peso - 2ª pesagem (em kg)
  'W00201', # Altura - 1ª medição (em cm)
  'W00202', # Altura - 2ª medição (em cm)
  'P01601', # Em quantos dias da semana o(a) Sr(a) costuma tomar suco de fruta natural (incluída a polpa de fruta congelada)? 
  'P018', # Em quantos dias da semana o(a) Sr(a) costuma comer frutas? 
  'P019', # Em geral, quantas vezes por dia o(a) Sr(a) come frutas? 
  'P02002', #  Em quantos dias da semana o(a) Sr(a) costuma tomar refrigerante? 
  'P023', # Em quantos dias da semana o(a) Sr(a) costuma tomar leite? (de origem animal: vaca, cabra, búfala etc.) 
  'P02501', # Em quantos dias da semana o(a) Sr(a) costuma comer alimentos doces como biscoito/bolacha recheado, chocolate, gelatina, balas e outros?
  'P02602', # Em quantos dias da semana o(a) Sr(a) costuma substituir a refeição do almoço por lanches rápidos como sanduíches, salgados, pizza, cachorro quente, etc? 




  
  
  ].copy() 

# Converter as colunas para numéricas
df[colunas_numericas] = df[colunas_numericas].astype('float')

# Garantir que as colunas de peso, idade e altura permaneçam numéricas
df[['C008', 'W00101', 'W00102', 'W00201', 'W00202']] = df[['C008', 'W00101', 'W00102', 'W00201', 'W00202']].astype('float')

# Verificar os tipos de dados após a conversão
print(df.dtypes)

print(df.dtypes)

C006      float64
C00702    float64
C00703    float64
C008      float64
M01401    float64
           ...   
P023      float64
P02401    float64
P02501    float64
P02602    float64
P02601    float64
Length: 138, dtype: object


C006      category
C00702    category
C00703    category
C008       float64
M01401     float64
            ...   
P023       float64
P02401    category
P02501     float64
P02602     float64
P02601    category
Length: 138, dtype: object
C006      category
C00702    category
C00703    category
C008       float64
M01401     float64
            ...   
P023       float64
P02401    category
P02501     float64
P02602     float64
P02601    category
Length: 138, dtype: object


In [15]:
df.to_csv('culunas_filtradas.csv', index=False)

# Filtrando Linhas 


In [16]:
# Removendo linhas onde não responderam se possuem depressão ou não 
df_filtrado = df[df['Q092'].notna()]


In [17]:
# Filtrando para idades entre 40 e 65 anos
df_filtrado = df_filtrado[(df['C008'] >= 40) & (df_filtrado['C008'] <= 65)]


  df_filtrado = df_filtrado[(df['C008'] >= 40) & (df_filtrado['C008'] <= 65)]


In [19]:
df_filtrado.to_csv(r"C:\Users\maype\OneDrive\Área de Trabalho\projects\projeto-aprendizado-de-maquina\Data\linhas_e_colunas_filtradas.csv", index= False)