DIFERENÇAS REGIONAIS NA PREVALÊNCIA DA DESNUTRIÇÃO INFANTIL NO BRASIL

Este notebook realiza o carregamento de um dataset, selecionando apenas as colunas relevantes para a análise. Em seguida, procede com a remoção de colunas desnecessárias, o cálculo da porcentagem de dados ausentes e a formatação dos nomes das colunas. Por fim, gera um novo dataset com as variáveis selecionadas e o exporta para um arquivo CSV.

In [19]:
# Importar a biblioetca 
import pandas as pd

In [20]:
# Lista de colunas que você deseja manter no dataset
colunas_que_eu_quero = [
    'a00_regiao', 'a06_domicilio', 'p03_ocupacao', 'a11_situacao', 'b00_numero', 'b02_sexo', 'b03_relacao',
    'b04_idade', 'b05_data', 'b05a_idade_em_meses', 'bb04_idade_da_mae', 'p02_tipo_de_domicilio', 'p06_cozinha',
    'h02_peso', 'h03_altura', 'h11_alergia', 'h13_diarreia', 'h14_tosse', 'h15_respiracao', 'e01_leite_peito',
    'e07_leite_vaca_liquido', 'e06_leite_vaca_po', 'e05_cha', 'e10_formula_infantil', 'e16_comida_sal',
    'e22_legumes', 'e26_feijao', 'e27_carne', 'e33_refrigerante', 'e31_salgadinhos', 'e35_biscoito',
    'l01_morador_alim_acabassem', 'l02_morador_alim_acabaram', 'l03_morador_saudavel', 'i004_2m_cabeca',
    'i028_6m_mao', 'vd_zhfa', 'vd_zwaz', 'vd_zimc'
]

In [21]:
# Carregar o dataset com as colunas selecionadas
dataset = pd.read_csv(
    r'C:\Users\Alunos\Downloads\HandsON---Data-Science-UFRR-main (1)\HandsON---Data-Science-UFRR-main\data_bioq_calib_anon_22_Ajustado.csv',
    on_bad_lines='skip', sep=';', usecols=colunas_que_eu_quero
)

In [22]:
# Exibir as colunas do dataset para verificação
print(dataset.columns)

Index(['a00_regiao', 'a06_domicilio', 'a11_situacao', 'b00_numero', 'b02_sexo',
       'b03_relacao', 'b04_idade', 'b05_data', 'b05a_idade_em_meses',
       'bb04_idade_da_mae', 'e01_leite_peito', 'e05_cha', 'e06_leite_vaca_po',
       'e07_leite_vaca_liquido', 'e10_formula_infantil', 'e16_comida_sal',
       'e22_legumes', 'e26_feijao', 'e27_carne', 'e31_salgadinhos',
       'e33_refrigerante', 'e35_biscoito', 'h02_peso', 'h03_altura',
       'h11_alergia', 'h13_diarreia', 'h14_tosse', 'h15_respiracao',
       'i004_2m_cabeca', 'i028_6m_mao', 'l01_morador_alim_acabassem',
       'l02_morador_alim_acabaram', 'l03_morador_saudavel',
       'p02_tipo_de_domicilio', 'p03_ocupacao', 'p06_cozinha', 'vd_zwaz',
       'vd_zimc', 'vd_zhfa'],
      dtype='object')


In [23]:
# Salvar o dataset filtrado em um novo arquivo CSV
dataset.to_csv("dataset_filtrado.csv", index=False)

In [24]:
# Exibir as primeiras 5 linhas do dataset
print(dataset.head(5))

  a00_regiao  a06_domicilio a11_situacao  b00_numero   b02_sexo  \
0      Norte            NaN       Urbano           2  Masculino   
1      Norte            NaN       Urbano           3   Feminino   
2      Norte            NaN       Urbano           2   Feminino   
3      Norte            NaN       Urbano           3  Masculino   
4      Norte            NaN       Urbano           2   Feminino   

            b03_relacao  b04_idade  b05_data b05a_idade_em_meses  \
0  Filho(a), enteado(a)          1  11092017            22 meses   
1  Filho(a), enteado(a)          4   6042015            51 meses   
2  Filho(a), enteado(a)          2  21122016            30 meses   
3  Filho(a), enteado(a)          4  13112014            56 meses   
4  Filho(a), enteado(a)          0   2092018            10 meses   

   bb04_idade_da_mae  ... i028_6m_mao l01_morador_alim_acabassem  \
0               27.0  ...         NaN                        Sim   
1               27.0  ...         NaN               

In [25]:
# Função para "embelezar" os nomes das colunas
def embelezar(nome_coluna: str):
    return str.join(" ", nome_coluna.split("_")[1:]).capitalize()

In [26]:
# Aplicar a função de embelezamento (exemplo de uso para uma coluna)
col = "bb04_idade_da_mae"
print(embelezar(col))

Idade da mae


In [27]:
# Calcular a porcentagem de dados faltantes por coluna
percent_faltante = (dataset.isnull().sum() / len(dataset)) * 100
print(percent_faltante)

a00_regiao                      0.000000
a06_domicilio                 100.000000
a11_situacao                    0.000000
b00_numero                      0.000000
b02_sexo                        0.000000
b03_relacao                     0.000000
b04_idade                       0.000000
b05_data                        0.000000
b05a_idade_em_meses             0.000000
bb04_idade_da_mae               0.075560
e01_leite_peito                 0.000000
e05_cha                         0.000000
e06_leite_vaca_po               0.000000
e07_leite_vaca_liquido          0.000000
e10_formula_infantil            0.000000
e16_comida_sal                  0.000000
e22_legumes                     0.000000
e26_feijao                      0.000000
e27_carne                       0.000000
e31_salgadinhos                 0.000000
e33_refrigerante                0.000000
e35_biscoito                    0.000000
h02_peso                        0.000000
h03_altura                      0.000000
h11_alergia     

In [28]:
# Remover colunas desnecessárias
colunas_n_quero = ['i004_2m_cabeca', 'i028_6m_mao', 'a06_domicilio']
dataset = dataset.drop(columns=colunas_n_quero)

In [29]:
# Lista das variáveis finais que você quer manter no novo dataset
variaveis_selecionadas = [
    "a00_regiao", "b02_sexo", "b04_idade", "b05_data", "b05a_idade_em_meses", "l01_morador_alim_acabassem",
    "l02_morador_alim_acabaram", "p02_tipo_de_domicilio", "p06_cozinha", "p03_ocupacao", "a11_situacao",
    "h14_tosse", "h15_respiracao"
]


In [30]:
# Criar um novo DataFrame com as variáveis selecionadas
novo_dataset = dataset[variaveis_selecionadas]

In [31]:
# Salvar o dataset filtrado em um novo arquivo CSV
novo_dataset.to_csv("Dataset_limpo.csv", index=False)

In [32]:
# Exibir o novo dataset
novo_dataset.head()

Unnamed: 0,a00_regiao,b02_sexo,b04_idade,b05_data,b05a_idade_em_meses,l01_morador_alim_acabassem,l02_morador_alim_acabaram,p02_tipo_de_domicilio,p06_cozinha,p03_ocupacao,a11_situacao,h14_tosse,h15_respiracao
0,Norte,Masculino,1,11092017,22 meses,Sim,Não,Apartamento,Sim,Cedido de outra forma,Urbano,Sim,Não
1,Norte,Feminino,4,6042015,51 meses,Sim,Não,Apartamento,Sim,Cedido de outra forma,Urbano,Sim,Não
2,Norte,Feminino,2,21122016,30 meses,Sim,Sim,Casa,Sim,Cedido de outra forma,Urbano,Não,Não
3,Norte,Masculino,4,13112014,56 meses,Sim,Sim,Casa,Sim,Cedido de outra forma,Urbano,Não,Não
4,Norte,Feminino,0,2092018,10 meses,Sim,Não,Casa,Não,Próprio de algum morador - já pago,Urbano,Sim,Não


# Distribuição Regional e Geográfica

#### Objetivo: Analisar a distribuição da desnutrição e das características socioeconômicas e geográficas nas diferentes regiões do Brasil.

#### Gráfico 1: Distribuição de Crianças por Região Geográfica

In [33]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar o dataset
dataset = pd.read_csv('dataset_filtrado.csv')

# Gráfico 1: Distribuição de Crianças por Região Geográfica
plt.figure(figsize=(10, 6))
sns.countplot(x='a00_regiao', data=dataset)
plt.title('Distribuição de Crianças por Região Geográfica')
plt.xlabel('Região Geográfica')
plt.ylabel('Número de Crianças')
plt.show()

ModuleNotFoundError: No module named 'seaborn'