# IC_2023_Rafael_Rodrigues
## Tema: Clusterização de perfis

### Clusterização Base de Dados SISVAN - Governo Federal do Brasil

## Seção 1: Preparação e visualização inicial da base de dados


**Dataset: Sistema de Vigilância Alimentar e Nutricional (Sisvan) - Brasil**

- Fonte dos Dados

    Os dados foram obtidos do Ministério da Saúde, por meio da Coordenação-Geral de Alimentação e Nutrição (CGAN) do Departamento de Promoção da Saúde (DEPROS) e da Coordenação Setorial de Tecnologia da Informação (COSTI) da Secretaria de Atenção Primária à Saúde (SAPS). A gestão é realizada na base nacional do Sistema de Vigilância Alimentar e Nutricional (Sisvan), que tem como objetivo consolidar informações relacionadas às ações de Vigilância Alimentar e Nutricional (VAN) da Atenção Primária à Saúde (APS).

    A versão eletrônica do Sisvan, disponível desde 2008, agrega dados de antropometria e marcadores do consumo alimentar. Os registros incluem informações do Programa Bolsa Família (atual Programa Auxílio Brasil) e dados inseridos pelo e-SUS APS. Os relatórios derivados do Sisvan possibilitam a avaliação de frequências relativas, oferecendo prevalências de estado nutricional e marcadores de consumo alimentar na população atendida na APS.

    Os dados utilizados messe estudo sao de 2022.

    Site: https://dados.gov.br/dados/conjuntos-dados/sistema-de-vigilancia-alimentar-e-nutricional---sisvan


- Conteúdo

    Os conjuntos de dados nesta plataforma referem-se a informações individualizadas e anonimizadas de todas as pessoas atendidas quanto ao estado nutricional (antropometria) em serviços de APS do Brasil desde 2008. É possível identificar um ou mais registros de antropometria para uma mesma pessoa, facilitando a análise de dados provenientes das bases nacionais dos sistemas de informação em saúde.

    De acordo com as leis brasileiras de acesso à informação e proteção de dados, os dados são disponibilizados com sigilo das informações pessoais, impedindo o rastreio ou identificação de qualquer cidadão. No entanto, a prevalência de indicadores nutricionais pode ser avaliada.

    Dicionario de dados: https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SISVAN/estado_nutricional/Dicion%C3%A1rio+de+Dados+-+Estado+Nutricional.pdf

- Limitações

    As bases de dados são disponibilizadas com diversas origens, o que pode resultar em mais de um acompanhamento por indivíduo. Recomenda-se priorizar os acompanhamentos gerados pelo SISVAN, AUXÍLIO BRASIL/BOLSA FAMÍLIA e, por último, E-SUS, nos casos de acompanhamentos com a mesma data. Os relatórios públicos do SISVAN consolidam sempre o último acompanhamento do indivíduo, podendo haver diferenças consideráveis quando comparados com dados incorporados semanalmente.

    Orienta-se cautela ao realizar comparações entre a base disponibilizada e o consolidado do sistema, considerando as variações nas fontes de dados e na periodicidade de atualizações.


### 1.1 Importação das principais bibliotecas

In [1]:
import pandas as pd
import numpy as np
import matplotlib as plt


### 1.2 Importação dos dados

In [10]:
# Importando os dados do arquivo
file_path = 'sisvan_estado_nutricional_2022.csv'

# Definindo o split (quantidade de linhas por pedaço) para leitura de dados em partes
chunk_size = 10000  

# Lista para armazenar os pedaços que atendem ao critério
filtered_chunks = []

# Itera sobre os pedaços do arquivo
for chunk in pd.read_csv(file_path, chunksize=chunk_size, encoding='ISO-8859-1', on_bad_lines='skip', delimiter=';'):
    # Filtra as linhas onde o 'Código do Município' é 3143401 - código de Monte Sião -MG
    municipio_3143401_chunk = chunk[chunk['CO_MUNICIPIO_IBGE'] == 314340]
    
    # Adiciona o pedaço filtrado à lista
    filtered_chunks.append(municipio_3143401_chunk)

# Concatena os pedaços filtrados em um DataFrame final
result_df = pd.concat(filtered_chunks)

# Agora, 'result_df' contém todas as linhas do arquivo original onde o 'Código do Município' é 3143401

df2 = './dados_monte_siao_2022.csv'

# Salva o DataFrame como um arquivo CSV
result_df.to_csv(df2, index=False)

In [2]:
df2 = pd.read_csv('dados_monte_siao_2022.csv')
df2

Unnamed: 0,CO_ACOMPANHAMENTO,CO_PESSOA_SISVAN,ST_PARTICIPA_ANDI,CO_MUNICIPIO_IBGE,SG_UF,NO_MUNICIPIO,CO_CNES,NU_IDADE_ANO,NU_FASE_VIDA,DS_FASE_VIDA,...,PESO X ALTURA,CRI. ALTURA X IDADE,CRI. IMC X IDADE,ADO. ALTURA X IDADE,ADO. IMC X IDADE,CO_ESTADO_NUTRI_ADULTO,CO_ESTADO_NUTRI_IDOSO,CO_ESTADO_NUTRI_IMC_SEMGEST,CO_SISTEMA_ORIGEM_ACOMP,SISTEMA_ORIGEM_ACOMP
0,455FA09C6AE623A008EED25FF3B1ADB19290D9D7,B5680467DA7144DF565999BDCB6E8195BECDB689,,314340,MG,MONTE SIAO,2795396.0,52,7.0,ADULTO,...,,,,,,Adequado ou eutrófico,,,4,E-SUS AB
1,70BFCE196D8345BDF4D641B04C4F4E6E19C0B289,1DC24A843C4347557763139BA3660306D5651277,,314340,MG,MONTE SIAO,2795396.0,27,7.0,ADULTO,...,,,,,,Adequado ou eutrófico,,,4,E-SUS AB
2,67A340F29461447555E52D92D8ADD66D703398F6,56305BAB97DC8C5CD87469151615228CCC842BC4,,314340,MG,MONTE SIAO,2795396.0,27,7.0,ADULTO,...,,,,,,Adequado ou eutrófico,,,4,E-SUS AB
3,458B0450884D0F5CFA443D518E652EAC4CCDAE63,7E50D21C7FD1A9F2BD50135670DD3ABAA1E58966,,314340,MG,MONTE SIAO,2795396.0,31,7.0,ADULTO,...,,,,,,Sobrepeso,,,4,E-SUS AB
4,B85162FD6C466A82908E9DC95574838304BDD0B5,64B00DA39AB2AF5FAD42E8F34D76F6380C341FB2,,314340,MG,MONTE SIAO,2795396.0,44,7.0,ADULTO,...,,,,,,Obesidade Grau II,,,4,E-SUS AB
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5042,495FAD886AB05384ECB278CAD674B8EE3D43E1E3,51C3079966C1F6BABECDB4652AD3D0C302D594A7,,314340,MG,MONTE SIAO,7780311.0,68,8.0,IDOSO,...,,,,,,,Adequado ou eutrófico,,4,E-SUS AB
5043,826B1BC53757CD481D13A54D864F385D0B651B6C,8BD31B1DCA2F42271A79F48141331E60B127924C,,314340,MG,MONTE SIAO,6373488.0,71,8.0,IDOSO,...,,,,,,,Baixo peso,,4,E-SUS AB
5044,4AFC9710314E7F621FA1F6B796861E4DDF6D96E8,0E9ED48DFC8446E8A92C45E2BA8A2872CEFC401C,,314340,MG,MONTE SIAO,2212889.0,56,7.0,ADULTO,...,,,,,,Sobrepeso,,,4,E-SUS AB
5045,D3F577DB143CDDFC7BC37E429F3E34EBC2C3F70B,3AA3F4C359128FE737865105614C27AD78D6FBFC,,314340,MG,MONTE SIAO,2213087.0,54,7.0,ADULTO,...,,,,,,Sobrepeso,,,4,E-SUS AB


O conjunto de dados original possui aproximadamente 12 gigabytes e contém informações sobre estado nutricional a nível federal.

A abordagem adotada para lidar com esse grande conjunto de dados foi dividir o processo em pedaços menores usando a função pd.read_csv com o parâmetro chunksize para leitura do arquivo em pedaços (chunks). Cada pedaço é então filtrado para incluir apenas as linhas onde o 'Código do Município' é igual a 3143401, que representa um município específico.

Os dados relevantes dos pedaços filtrados são armazenados em uma lista chamada filtered_chunks. Após a leitura e filtragem de todos os pedaços, eles são concatenados em um DataFrame final usando pd.concat. O DataFrame resultante, chamado 'result_df', contém todas as linhas do arquivo original relacionadas ao município com o código 3143401.

Posteriormente, o DataFrame resultante é salvo como um novo arquivo CSV chamado 'dados_monte_siao_2022.csv' usando o método to_csv com o parâmetro index=False. Essa estratégia de divisão e filtragem permite uma abordagem mais eficiente para analisar dados específicos de um único município a partir do conjunto de dados original extenso.

#### 1.2.1 Exclusão de linhas com dados nulos

In [4]:
df3 = df2.copy()

In [5]:
# Substitua os nomes das colunas que você deseja excluir
colunas_para_excluir = [ 'CO_MUNICIPIO_IBGE', 'SG_UF', 'NO_MUNICIPIO', 
                         'CO_ESTADO_NUTRI_IMC_SEMGEST', 'CO_SISTEMA_ORIGEM_ACOMP', 'SISTEMA_ORIGEM_ACOMP',
                         'CO_POVO_COMUNIDADE', 'DS_POVO_COMUNIDADE', 'CO_ESCOLARIDADE', 'DS_ESCOLARIDADE', 
                         'PESO X IDADE', 'PESO X ALTURA', 'CRI. ALTURA X IDADE', 'CRI. IMC X IDADE',
                         'ADO. ALTURA X IDADE', 'ADO. IMC X IDADE', 'ST_PARTICIPA_ANDI', 'DS_IMC_PRE_GESTACIONAL',
                         'NU_FASE_VIDA', 'CO_RACA_COR', 'DS_RACA_COR']

# Exclui as colunas do DataFrame df3
df3 = df3.drop(colunas_para_excluir, axis=1)

# Exibe o DataFrame após a exclusão das colunas
df3

Unnamed: 0,CO_ACOMPANHAMENTO,CO_PESSOA_SISVAN,CO_CNES,NU_IDADE_ANO,DS_FASE_VIDA,SG_SEXO,DT_ACOMPANHAMENTO,NU_COMPETENCIA,NU_PESO,NU_ALTURA,DS_IMC,CO_ESTADO_NUTRI_ADULTO,CO_ESTADO_NUTRI_IDOSO
0,455FA09C6AE623A008EED25FF3B1ADB19290D9D7,B5680467DA7144DF565999BDCB6E8195BECDB689,2795396.0,52,ADULTO,F,07/01/2022,202201,53,157,215,Adequado ou eutrófico,
1,70BFCE196D8345BDF4D641B04C4F4E6E19C0B289,1DC24A843C4347557763139BA3660306D5651277,2795396.0,27,ADULTO,F,20/01/2022,202201,42,145,1998,Adequado ou eutrófico,
2,67A340F29461447555E52D92D8ADD66D703398F6,56305BAB97DC8C5CD87469151615228CCC842BC4,2795396.0,27,ADULTO,M,17/01/2022,202201,70,180,216,Adequado ou eutrófico,
3,458B0450884D0F5CFA443D518E652EAC4CCDAE63,7E50D21C7FD1A9F2BD50135670DD3ABAA1E58966,2795396.0,31,ADULTO,M,19/01/2022,202201,75,162,2858,Sobrepeso,
4,B85162FD6C466A82908E9DC95574838304BDD0B5,64B00DA39AB2AF5FAD42E8F34D76F6380C341FB2,2795396.0,44,ADULTO,M,17/01/2022,202201,95,162,362,Obesidade Grau II,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5042,495FAD886AB05384ECB278CAD674B8EE3D43E1E3,51C3079966C1F6BABECDB4652AD3D0C302D594A7,7780311.0,68,IDOSO,F,15/12/2022,202212,77,172,2603,,Adequado ou eutrófico
5043,826B1BC53757CD481D13A54D864F385D0B651B6C,8BD31B1DCA2F42271A79F48141331E60B127924C,6373488.0,71,IDOSO,M,22/12/2022,202212,48,158,1923,,Baixo peso
5044,4AFC9710314E7F621FA1F6B796861E4DDF6D96E8,0E9ED48DFC8446E8A92C45E2BA8A2872CEFC401C,2212889.0,56,ADULTO,F,14/12/2022,202212,755,168,2675,Sobrepeso,
5045,D3F577DB143CDDFC7BC37E429F3E34EBC2C3F70B,3AA3F4C359128FE737865105614C27AD78D6FBFC,2213087.0,54,ADULTO,F,26/12/2022,202212,77,165,2828,Sobrepeso,


#### 1.2.2 Filtragem de adultos e idosos

O estado nutricional de crianças e adolescentes, como observado no dicionário de dados, é mais complexo do que o de adultos e jovens devido à necessidade de estratificação em várias faixas etárias. Essa complexidade poderia dificultar o processo de clusterização. Portanto, a análise de agrupamentos foi direcionada especificamente para o grupo de adultos e idosos, simplificando o trabalho inicial.

Essa abordagem visa facilitar a compreensão e interpretação dos resultados da clusterização, focando em um grupo demográfico mais homogêneo. No entanto, ressalta-se que, posteriormente, é totalmente viável realizar uma análise de agrupamento semelhante utilizando os dados filtrados de crianças e adolescentes, permitindo uma investigação mais detalhada e específica para esse segmento da população.

In [6]:
# Filtra as linhas onde a coluna "DS_FASE_VIDA" é "Adulto" ou "Idoso"
df4 = df3[df3['DS_FASE_VIDA'].isin(['ADULTO', 'IDOSO'])]

# Exibe o DataFrame df4
df4

Unnamed: 0,CO_ACOMPANHAMENTO,CO_PESSOA_SISVAN,CO_CNES,NU_IDADE_ANO,DS_FASE_VIDA,SG_SEXO,DT_ACOMPANHAMENTO,NU_COMPETENCIA,NU_PESO,NU_ALTURA,DS_IMC,CO_ESTADO_NUTRI_ADULTO,CO_ESTADO_NUTRI_IDOSO
0,455FA09C6AE623A008EED25FF3B1ADB19290D9D7,B5680467DA7144DF565999BDCB6E8195BECDB689,2795396.0,52,ADULTO,F,07/01/2022,202201,53,157,215,Adequado ou eutrófico,
1,70BFCE196D8345BDF4D641B04C4F4E6E19C0B289,1DC24A843C4347557763139BA3660306D5651277,2795396.0,27,ADULTO,F,20/01/2022,202201,42,145,1998,Adequado ou eutrófico,
2,67A340F29461447555E52D92D8ADD66D703398F6,56305BAB97DC8C5CD87469151615228CCC842BC4,2795396.0,27,ADULTO,M,17/01/2022,202201,70,180,216,Adequado ou eutrófico,
3,458B0450884D0F5CFA443D518E652EAC4CCDAE63,7E50D21C7FD1A9F2BD50135670DD3ABAA1E58966,2795396.0,31,ADULTO,M,19/01/2022,202201,75,162,2858,Sobrepeso,
4,B85162FD6C466A82908E9DC95574838304BDD0B5,64B00DA39AB2AF5FAD42E8F34D76F6380C341FB2,2795396.0,44,ADULTO,M,17/01/2022,202201,95,162,362,Obesidade Grau II,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5042,495FAD886AB05384ECB278CAD674B8EE3D43E1E3,51C3079966C1F6BABECDB4652AD3D0C302D594A7,7780311.0,68,IDOSO,F,15/12/2022,202212,77,172,2603,,Adequado ou eutrófico
5043,826B1BC53757CD481D13A54D864F385D0B651B6C,8BD31B1DCA2F42271A79F48141331E60B127924C,6373488.0,71,IDOSO,M,22/12/2022,202212,48,158,1923,,Baixo peso
5044,4AFC9710314E7F621FA1F6B796861E4DDF6D96E8,0E9ED48DFC8446E8A92C45E2BA8A2872CEFC401C,2212889.0,56,ADULTO,F,14/12/2022,202212,755,168,2675,Sobrepeso,
5045,D3F577DB143CDDFC7BC37E429F3E34EBC2C3F70B,3AA3F4C359128FE737865105614C27AD78D6FBFC,2213087.0,54,ADULTO,F,26/12/2022,202212,77,165,2828,Sobrepeso,


#### 1.2.3 Excluir linhas com dados nulos nas colunas 

In [7]:
# Colunas a serem verificadas
verificar_nulos = ['CO_ESTADO_NUTRI_ADULTO', 'CO_ESTADO_NUTRI_IDOSO']

# Elimina as linhas que têm dados nulos em ambas as colunas ao mesmo tempo
df4 = df4.dropna(subset=verificar_nulos, how='all')

# Exibe o DataFrame resultante
df4

Unnamed: 0,CO_ACOMPANHAMENTO,CO_PESSOA_SISVAN,CO_CNES,NU_IDADE_ANO,DS_FASE_VIDA,SG_SEXO,DT_ACOMPANHAMENTO,NU_COMPETENCIA,NU_PESO,NU_ALTURA,DS_IMC,CO_ESTADO_NUTRI_ADULTO,CO_ESTADO_NUTRI_IDOSO
0,455FA09C6AE623A008EED25FF3B1ADB19290D9D7,B5680467DA7144DF565999BDCB6E8195BECDB689,2795396.0,52,ADULTO,F,07/01/2022,202201,53,157,215,Adequado ou eutrófico,
1,70BFCE196D8345BDF4D641B04C4F4E6E19C0B289,1DC24A843C4347557763139BA3660306D5651277,2795396.0,27,ADULTO,F,20/01/2022,202201,42,145,1998,Adequado ou eutrófico,
2,67A340F29461447555E52D92D8ADD66D703398F6,56305BAB97DC8C5CD87469151615228CCC842BC4,2795396.0,27,ADULTO,M,17/01/2022,202201,70,180,216,Adequado ou eutrófico,
3,458B0450884D0F5CFA443D518E652EAC4CCDAE63,7E50D21C7FD1A9F2BD50135670DD3ABAA1E58966,2795396.0,31,ADULTO,M,19/01/2022,202201,75,162,2858,Sobrepeso,
4,B85162FD6C466A82908E9DC95574838304BDD0B5,64B00DA39AB2AF5FAD42E8F34D76F6380C341FB2,2795396.0,44,ADULTO,M,17/01/2022,202201,95,162,362,Obesidade Grau II,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5042,495FAD886AB05384ECB278CAD674B8EE3D43E1E3,51C3079966C1F6BABECDB4652AD3D0C302D594A7,7780311.0,68,IDOSO,F,15/12/2022,202212,77,172,2603,,Adequado ou eutrófico
5043,826B1BC53757CD481D13A54D864F385D0B651B6C,8BD31B1DCA2F42271A79F48141331E60B127924C,6373488.0,71,IDOSO,M,22/12/2022,202212,48,158,1923,,Baixo peso
5044,4AFC9710314E7F621FA1F6B796861E4DDF6D96E8,0E9ED48DFC8446E8A92C45E2BA8A2872CEFC401C,2212889.0,56,ADULTO,F,14/12/2022,202212,755,168,2675,Sobrepeso,
5045,D3F577DB143CDDFC7BC37E429F3E34EBC2C3F70B,3AA3F4C359128FE737865105614C27AD78D6FBFC,2213087.0,54,ADULTO,F,26/12/2022,202212,77,165,2828,Sobrepeso,


#### 1.2.4 Unir as colunas de estado_nutri de adultos e idosos em uma coluna

In [8]:
# Criar uma nova coluna CO_ESTADO_NUTRI preenchendo os valores nulos em CO_ESTADO_NUTRI_ADULTO com os valores de CO_ESTADO_NUTRI_IDOSO
df4['CO_ESTADO_NUTRI'] = df4['CO_ESTADO_NUTRI_ADULTO'].fillna(df4['CO_ESTADO_NUTRI_IDOSO'])

# Em seguida, preencher os valores nulos em CO_ESTADO_NUTRI_IDOSO com os valores de CO_ESTADO_NUTRI_ADULTO
df4['CO_ESTADO_NUTRI'] = df4['CO_ESTADO_NUTRI_IDOSO'].fillna(df4['CO_ESTADO_NUTRI'])

# Substitua os nomes das colunas que você deseja excluir
colunas_para_excluir = ['CO_ESTADO_NUTRI_ADULTO', 'CO_ESTADO_NUTRI_IDOSO']

# Exclui as colunas do DataFrame df3
df4 = df4.drop(colunas_para_excluir, axis=1)

df4

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['CO_ESTADO_NUTRI'] = df4['CO_ESTADO_NUTRI_ADULTO'].fillna(df4['CO_ESTADO_NUTRI_IDOSO'])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df4['CO_ESTADO_NUTRI'] = df4['CO_ESTADO_NUTRI_IDOSO'].fillna(df4['CO_ESTADO_NUTRI'])


Unnamed: 0,CO_ACOMPANHAMENTO,CO_PESSOA_SISVAN,CO_CNES,NU_IDADE_ANO,DS_FASE_VIDA,SG_SEXO,DT_ACOMPANHAMENTO,NU_COMPETENCIA,NU_PESO,NU_ALTURA,DS_IMC,CO_ESTADO_NUTRI
0,455FA09C6AE623A008EED25FF3B1ADB19290D9D7,B5680467DA7144DF565999BDCB6E8195BECDB689,2795396.0,52,ADULTO,F,07/01/2022,202201,53,157,215,Adequado ou eutrófico
1,70BFCE196D8345BDF4D641B04C4F4E6E19C0B289,1DC24A843C4347557763139BA3660306D5651277,2795396.0,27,ADULTO,F,20/01/2022,202201,42,145,1998,Adequado ou eutrófico
2,67A340F29461447555E52D92D8ADD66D703398F6,56305BAB97DC8C5CD87469151615228CCC842BC4,2795396.0,27,ADULTO,M,17/01/2022,202201,70,180,216,Adequado ou eutrófico
3,458B0450884D0F5CFA443D518E652EAC4CCDAE63,7E50D21C7FD1A9F2BD50135670DD3ABAA1E58966,2795396.0,31,ADULTO,M,19/01/2022,202201,75,162,2858,Sobrepeso
4,B85162FD6C466A82908E9DC95574838304BDD0B5,64B00DA39AB2AF5FAD42E8F34D76F6380C341FB2,2795396.0,44,ADULTO,M,17/01/2022,202201,95,162,362,Obesidade Grau II
...,...,...,...,...,...,...,...,...,...,...,...,...
5042,495FAD886AB05384ECB278CAD674B8EE3D43E1E3,51C3079966C1F6BABECDB4652AD3D0C302D594A7,7780311.0,68,IDOSO,F,15/12/2022,202212,77,172,2603,Adequado ou eutrófico
5043,826B1BC53757CD481D13A54D864F385D0B651B6C,8BD31B1DCA2F42271A79F48141331E60B127924C,6373488.0,71,IDOSO,M,22/12/2022,202212,48,158,1923,Baixo peso
5044,4AFC9710314E7F621FA1F6B796861E4DDF6D96E8,0E9ED48DFC8446E8A92C45E2BA8A2872CEFC401C,2212889.0,56,ADULTO,F,14/12/2022,202212,755,168,2675,Sobrepeso
5045,D3F577DB143CDDFC7BC37E429F3E34EBC2C3F70B,3AA3F4C359128FE737865105614C27AD78D6FBFC,2213087.0,54,ADULTO,F,26/12/2022,202212,77,165,2828,Sobrepeso


#### 1.2.5 Exclusão de colunas preparando um dataframe para clusterizar

In [10]:
# Colunas a serem verificadas
colunas_verificar_nulos = ['CO_ACOMPANHAMENTO', 'CO_PESSOA_SISVAN','CO_CNES', 'NU_IDADE_ANO', 'DS_FASE_VIDA', 'SG_SEXO', 
                           'DT_ACOMPANHAMENTO', 'NU_COMPETENCIA', 
                           'NU_PESO', 'NU_ALTURA', 'DS_IMC', 'CO_ESTADO_NUTRI' ]

# Verifica quantos valores nulos existem nas colunas específicas
nulos_por_coluna = df4[colunas_verificar_nulos].isnull().sum()

# Exibe o resultado
print(nulos_por_coluna)


CO_ACOMPANHAMENTO    0
CO_PESSOA_SISVAN     0
CO_CNES              0
NU_IDADE_ANO         0
DS_FASE_VIDA         0
SG_SEXO              0
DT_ACOMPANHAMENTO    0
NU_COMPETENCIA       0
NU_PESO              0
NU_ALTURA            0
DS_IMC               0
CO_ESTADO_NUTRI      0
dtype: int64


#### 1.2.6 Salvar as filtragens em arquivo csv para persistencia 

In [None]:
# Salva o DataFrame em um arquivo CSV
df4.to_csv('dados_monte_siao_2022_filtrados.csv', index=False)
