In [1]:
#O arquivo pns-2019.csv é o arquivo principal de microdados brutos da Pesquisa Nacional de Saúde 2019, contendo todas as respostas individuais dos entrevistados.
#Ele representa o Módulo do Morador, que inclui entrevistas com pessoas de 15 anos ou mais, abrangendo:
#condições de saúde
#doenças crônicas
#uso de serviços de saúde
#fatores de risco (álcool, tabaco, alimentação, atividade física)
#violências
#saúde mental
#exames
#hipertensão, diabetes, colesterol
#variáveis demográficas e socioeconômicas

#Tamanho e estrutura geral
#O arquivo tem:
#~94 mil linhas (moradores entrevistados)
#mais de 3.000 colunas


In [2]:
#Variavéis escolhidas para redução do arquivo

#Código	Descrição resumida 
#Q092	Depressão e atendimento psicológico   – TARGET
#C008	Idade
#C009	Cor ou raça
#D00301	Escolaridade 
#C011	Estado civil
#P00104	Peso corporal
#P00404	Altura
#Q018013 Prática de atividade física
#P027	Consumo de álcool
#P050	Tabagismo e frequência
#V02701	Nos últimos doze meses, alguém: tocou, manipulou, beijou ou expôs partes do seu corpo contra sua vontade
#V02702 Nos últimos doze meses, alguém: Te ameaçou ou forçou a ter relações sexuais ou quaisquer outros atos sexuais contra sua vontade?
#V02801 E alguma vez na vida, alguém: tocou, manipulou, beijou ou expôs partes do seu corpo contra sua vontade
#V02802 E alguma vez na vida, alguém: Te ameaçou ou forçou a ter relações sexuais ou quaisquer outros atos sexuais contra sua vontade?
#V029   Nos últimos doze meses, quantas vezes isso aconteceu?
#V032   Quem fez isso com você
#V033   Onde isso ocorreu?
#V034    Nos últimos doze meses, você deixou de realizar quaisquer de suas atividades habituais (trabalhar, realizar afazeres domésticos, ir à escola etc.) por causa desse ato
#V03501 Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Hematomas, cortes, fraturas, queimaduras ou outras lesões físicas ou ferimentos? 
#V03502 Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Medo, tristeza, desânimo, dificuldade para dormir, ansiedade, depressão ou outras consequências psicológicas? 
#V03503 Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Doença sexualmente transmissível ou gravidez indesejada?


In [3]:
import pandas as pd
import numpy as np

print("Bibliotecas importadas com sucesso!")

Bibliotecas importadas com sucesso!


In [4]:
caminho_dados = 'pns-2019.csv'
caminho_saida = 'pns-2019_saude_mulher_filtrado.csv'

try:
    df_pns = pd.read_csv(caminho_dados, sep=',', encoding='latin1', low_memory=False)
except FileNotFoundError:
    print("\nERRO: Arquivo não encontrado.")
    exit()


In [5]:
df_pns.columns = df_pns.columns.str.upper()

# Filtrar por sexo feminino (C006 = 2). 
try:
    df_mulheres = df_pns[df_pns['C006'] == 2].copy()
    df_mulheres = df_mulheres.drop(columns=['C006'])
    print(f"Registros filtrados (Mulheres): {len(df_mulheres)}")
except KeyError as e:
    print(f"ERRO: A coluna C006 (Sexo) não foi encontrada ou foi removida. Verifique o nome da coluna de Sexo.")
    # Se C006 falhar, mostramos os nomes para que você possa identificar a coluna de sexo correta.
    print(f"\n10 primeiras colunas após carregar e padronizar: {df_pns.columns.tolist()[:10]}")
    exit()

Registros filtrados (Mulheres): 144940


In [6]:
colunas_selecionadas_ajustada = [
    "Q092",      # Depressão e atendimento psicológico - TARGET
    "C008",     # Idade
    "C009",     # Cor ou raça
    "D00301",   # Escolaridade
    "C011",     # Estado civil
    "P00104",   # Peso corporal
    "P00404",   # Altura
    "Q018013",  # Prática de atividade física
    "P027",     # Consumo de álcool
    "P050",     # Tabagismo e frequência
    "V02701",	#Nos últimos doze meses, alguém: tocou, manipulou, beijou ou expôs partes do seu corpo contra sua vontade
    "V02702",   #Nos últimos doze meses, alguém: Te ameaçou ou forçou a ter relações sexuais ou quaisquer outros atos sexuais contra sua vontade?
    "V02801",   #E alguma vez na vida, alguém: tocou, manipulou, beijou ou expôs partes do seu corpo contra sua vontade
    "V02802",   #E alguma vez na vida, alguém: Te ameaçou ou forçou a ter relações sexuais ou quaisquer outros atos sexuais contra sua vontade?
    "V029",     #Nos últimos doze meses, quantas vezes isso aconteceu?
    "V032",     #Quem fez isso com você
    "V033",     #Onde isso ocorreu?
    "V034",      #Nos últimos doze meses, você deixou de realizar quaisquer de suas atividades habituais (trabalhar, realizar afazeres domésticos, ir à escola etc.) por causa desse ato
    "V03501",   #Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Hematomas, cortes, fraturas, queimaduras ou outras lesões físicas ou ferimentos? 
    "V03502",   #Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Medo, tristeza, desânimo, dificuldade para dormir, ansiedade, depressão ou outras consequências psicológicas? 
    "V03503"    #Esse(s) ato(s) sexual(is) forçado(s) gerou(aram) alguma consequência para sua saúde, tais como: Doença sexualmente transmissível ou gravidez indesejada?

]

try:
    df_ml = df_mulheres[colunas_selecionadas_ajustada]
    print(f"\nSucesso! Novo formato do DataFrame para ML: {df_ml.shape}")
except KeyError as e:
    print(f"\nERRO FINAL: {e}. O nome da coluna ainda está incorreto.")
    print("Por favor, verifique se os nomes das colunas listados no dicionário de variáveis correspondem exatamente ao seu CSV.")
    exit()

df_ml.to_csv(caminho_saida, index=False, encoding='utf-8')

print(f"\n✅ Processo concluído com sucesso!")



Sucesso! Novo formato do DataFrame para ML: (144940, 21)

✅ Processo concluído com sucesso!
