### 1/5 - Passar o nome de todas as colunas para minúsculo

In [1]:
import pandas as pd
import os

# Lista dos caminhos das pastas (relativos à raiz do projeto)
diretorios = [
    '../data/raw/ibge/munic/2020',
    '../data/raw/ibge/munic/2023',
    '../data/raw/ibge/munic/2023_saneamento',
    '../data/raw/ibge/munic/2024'
]

for pasta in diretorios:
    if os.path.exists(pasta):
        print(f"Processando pasta: {pasta}")
        
        # Lista todos os arquivos .csv na pasta
        arquivos = [f for f in os.listdir(pasta) if f.endswith('.csv')]
        
        for arquivo in arquivos:
            caminho_completo = os.path.join(pasta, arquivo)
            
            try:
                # Carrega o CSV
                # Nota: Dependendo do arquivo IBGE, pode precisar de sep=';' ou encoding='latin1'
                df = pd.read_csv(caminho_completo)
                
                # Transforma todas as colunas em minúsculo
                df.columns = [col.lower() for col in df.columns]
                
                # Salva de volta no mesmo caminho
                df.to_csv(caminho_completo, index=False)
                print(f"  ✓ {arquivo} atualizado.")
                
            except Exception as e:
                print(f"  ✗ Erro ao processar {arquivo}: {e}")
    else:
        print(f"⚠ Pasta não encontrada: {pasta}")

print("\nConcluído!")

Processando pasta: ../data/raw/ibge/munic/2020
  ✓ munic_2020_agropecuario.csv atualizado.
  ✓ munic_2020_covid1919.csv atualizado.
  ✓ munic_2020_gestao-de-riscos.csv atualizado.
  ✓ munic_2020_habitacao.csv atualizado.
  ✓ munic_2020_meio-ambiente.csv atualizado.
  ✓ munic_2020_recursos-humanos.csv atualizado.
  ✓ munic_2020_transporte.csv atualizado.
  ✓ munic_2020_variaveis-externa.csv atualizado.
Processando pasta: ../data/raw/ibge/munic/2023
  ✓ munic_2023_assistencia-social.csv atualizado.
  ✓ munic_2023_direitos-humanos.csv atualizado.
  ✓ munic_2023_politica-para-mulheres.csv atualizado.
  ✓ munic_2023_primeira-infancia.csv atualizado.
  ✓ munic_2023_recursos-humanos.csv atualizado.
  ✓ munic_2023_segurança-alimentar.csv atualizado.
  ✓ munic_2023_segurança-publica.csv atualizado.
  ✓ munic_2023_trabalho-e-inclusao-produtiva.csv atualizado.
Processando pasta: ../data/raw/ibge/munic/2023_saneamento
  ✓ munic_2023_saneamento_dados-gerais.csv atualizado.
  ✓ munic_2023_saneamento

### 2/4 - Organizar planilha com variáveis selecionadas

**G2 - Participação: Existência de Núcleos Comunitários de Proteção e Defesa Civil (Nupdec).**

Da planilha `munic_2020_gestao-de-riscos.csv`, selecionar a coluna:
- MGRD213

**G3 - Resposta - Existência de sistemas de alerta de riscos**. 

Da planilha `munic_2023_saneamento_drenagem.csv`, selecionar a coluna:
- SMAP126

**G4 - Reconhecimento - Existência de mapeamento e zoneamento de áreas de risco**. 

Da planilha `munic_2023_saneamento_drenagem.csv`, selecionar a coluna:
- SMAP122

**G5 - Assistência: Quantidade de políticas ou programas na área dos direitos humanos**. 

Da planilha `munic_2023_direitos-humanos.csv`, selecionar as coluna:
- MDHU571
- MDHU572
- MDHU573
- MDHU574
- MDHU575
- MDHU576
- MDHU577
- MDHU578
- MDHU579
- MDHU5710
- MDHU5711
- MDHU5712
- MDHU5713
- MDHU5714
- MDHU5715
- MDHU5716
- MDHU58
- MDHU61
- MDHU64
- MDHU67
- MDHU69

Salvar em data/raw/ibge/munic/selected como `munic_selected_ijc.csv`

Manter as colunas `[cd_mun, sigla_uf, cd_uf, nm_mun, pop_mun, faixa_pop, regiao]` dos arquivos originais



In [4]:
import pandas as pd
import os

# Configurações de caminhos
output_path = '../data/raw/ibge/munic/selected'
os.makedirs(output_path, exist_ok=True)

# Colunas de identificação que devem ser mantidas (em minúsculo)
cols_id = ['cd_mun', 'sigla_uf', 'cd_uf', 'nm_mun']

def carregar_e_selecionar(caminho, colunas_extras):
    # Tenta ler com separador comum em arquivos IBGE caso o padrão falhe
    try:
        df = pd.read_csv(caminho, sep=',', encoding='utf-8')
    except:
        df = pd.read_csv(caminho, sep=';', encoding='latin1')
    
    # Garante que as colunas solicitadas existam no DF (em minúsculo)
    colunas_finais = cols_id + [c.lower() for c in colunas_extras]
    return df[colunas_finais]

# 1. G2 - Gestão de Riscos 2020
df_g2 = carregar_e_selecionar(
    '../data/raw/ibge/munic/2020/munic_2020_gestao-de-riscos.csv', 
    ['mgrd213']
)

# 2. G3 e G4 - Saneamento Drenagem 2023
df_g3_g4 = carregar_e_selecionar(
    '../data/raw/ibge/munic/2023_saneamento/munic_2023_saneamento_drenagem.csv', 
    ['smap126', 'smap122']
)

# 3. G5 - Direitos Humanos 2023
df_g5 = carregar_e_selecionar(
    '../data/raw/ibge/munic/2023/munic_2023_direitos-humanos.csv', 
    [
    'mdhu571', 'mdhu572', 'mdhu573', 'mdhu574', 'mdhu575', 'mdhu576', 
    'mdhu577', 'mdhu578', 'mdhu579', 'mdhu5710', 'mdhu5711', 'mdhu5712', 
    'mdhu5713', 'mdhu5714', 'mdhu5715', 'mdhu5716', 'mdhu58', 'mdhu61', 
    'mdhu64', 'mdhu67', 'mdhu69'
]
)

# Unindo as planilhas (Merge)
# Usamos 'left join' partindo da primeira para garantir que mantemos a base de municípios
df_final = df_g2.merge(df_g3_g4, on=cols_id, how='left')
df_final = df_final.merge(df_g5, on=cols_id, how='left')

# Salvando o resultado
df_final.to_csv(f"{output_path}/munic_selected_ijc.csv", index=False, encoding='utf-8-sig')

print(f"Arquivo salvo com sucesso em: {output_path}/munic_selected_ijc.csv")
print(f"Total de colunas: {len(df_final.columns)}")

Arquivo salvo com sucesso em: ../data/raw/ibge/munic/selected/munic_selected_ijc.csv
Total de colunas: 28


### 3/4 - Planejar limpeza

Identificar os valores existentes para as colunas [mgrd213, smap126, smap122, mdhu571, mdhu572, mdhu573, mdhu574, mdhu575, mdhu576, mdhu577, mdhu578, mdhu579, mdhu5710, mdhu5711, mdhu5712, mdhu5713, mdhu5714, mdhu5715, mdhu5716, mdhu58, mdhu61, mdhu64, mdhu67, mdhu69]

In [5]:
import pandas as pd

# Carregar a planilha que acabamos de criar
df_selected = pd.read_csv('../data/raw/ibge/munic/selected/munic_selected_ijc.csv')

# Lista das colunas de interesse (todas em minúsculo conforme o passo anterior)
colunas_interesse = [
    'mgrd213', 'smap126', 'smap122', 'mdhu571', 'mdhu572', 'mdhu573', 
    'mdhu574', 'mdhu575', 'mdhu576', 'mdhu577', 'mdhu578', 'mdhu579', 
    'mdhu5710', 'mdhu5711', 'mdhu5712', 'mdhu5713', 'mdhu5714', 
    'mdhu5715', 'mdhu5716', 'mdhu58', 'mdhu61', 'mdhu64', 'mdhu67', 'mdhu69'
]

print("--- Resumo de Valores por Coluna --- \n")

for col in colunas_interesse:
    if col in df_selected.columns:
        print(f"Coluna: {col.upper()}")
        # dropna=False permite ver quantos valores nulos existem
        print(df_selected[col].value_counts(dropna=False))
        print("-" * 30)
    else:
        print(f"⚠ Coluna {col} não encontrada no arquivo.")

# Opcional: Salvar esse resumo em um arquivo de texto para consulta rápida
with open('data/raw/ibge/munic/selected/resumo_valores.txt', 'w') as f:
    for col in colunas_interesse:
        if col in df_selected.columns:
            f.write(f"Coluna: {col.upper()}\n")
            f.write(df_selected[col].value_counts(dropna=False).to_string())
            f.write("\n" + "-"*30 + "\n")

--- Resumo de Valores por Coluna --- 

Coluna: MGRD213
mgrd213
Não             5084
Sim              377
Recusa            90
Não informou      19
Name: count, dtype: int64
------------------------------
Coluna: SMAP126
smap126
-                       2363
Não                     2363
Sim                      613
Não possui o serviço     217
NaN                        6
Recusa                     5
Não informou               3
Name: count, dtype: int64
------------------------------
Coluna: SMAP122
smap122
-                       2363
Sim                     2327
Não                      649
Não possui o serviço     217
NaN                        6
Recusa                     5
Não informou               3
Name: count, dtype: int64
------------------------------
Coluna: MDHU571
mdhu571
Sim             3087
Não             2471
Não informou       6
NaN                6
Name: count, dtype: int64
------------------------------
Coluna: MDHU572
mdhu572
Não             4157
Sim             14

### 4/5 - Limpar arquivo
Manter apenas os valores True, False e NaN


In [6]:
import pandas as pd
import numpy as np

# Carregar o arquivo consolidado
file_path = '../data/raw/ibge/munic/selected/munic_selected_ijc.csv'
df = pd.read_csv(file_path)

# Lista das colunas que serão limpas
colunas_interesse = [
    'mgrd213', 'smap126', 'smap122', 'mdhu571', 'mdhu572', 'mdhu573', 
    'mdhu574', 'mdhu575', 'mdhu576', 'mdhu577', 'mdhu578', 'mdhu579', 
    'mdhu5710', 'mdhu5711', 'mdhu5712', 'mdhu5713', 'mdhu5714', 
    'mdhu5715', 'mdhu5716', 'mdhu58', 'mdhu61', 'mdhu64', 'mdhu67', 'mdhu69'
]

# Definimos o mapeamento
# Note que qualquer valor que NÃO esteja no dicionário ficará como nulo (NaN) ao usar o map
mapa_bool = {
    'Sim': True,
    'Não': False
}

# Aplicar a limpeza
for col in colunas_interesse:
    if col in df.columns:
        # Usamos .map() com o dicionário. Valores não encontrados viram NaN.
        df[col] = df[col].map(mapa_bool)

# Salvar o novo arquivo com o sufixo _clean
output_clean = file_path.replace('.csv', '_clean.csv')
df.to_csv(output_clean, index=False, encoding='utf-8-sig')

print(f"Limpeza concluída! Arquivo salvo em: {output_clean}")

# Verificação rápida do resultado
print("\nExemplo de como ficaram os valores na coluna MGRD213:")
print(df['mgrd213'].value_counts(dropna=False))

Limpeza concluída! Arquivo salvo em: ../data/raw/ibge/munic/selected/munic_selected_ijc_clean.csv

Exemplo de como ficaram os valores na coluna MGRD213:
mgrd213
False    5084
True      377
NaN       109
Name: count, dtype: int64


### 5/5 - Organizar arquivos csv finais

A partir do arquivo `data/raw/ibge/munic/selectec/munic_selected_ijc_clean.csv`:

**G2 - Participação: Existência de Núcleos Comunitários de Proteção e Defesa Civil (Nupdec)**

Salvar em `data/clean/g2_mun_nupdec.csv` com a coluna `g2_par_norm` para aqueles valores de `mgrd213` em que 1 = True e 0 = False. Nulos são mantidos como nulos. Manter coluna `cd_mun`.

**G3 - Resposta - Existência de sistemas de alerta de riscos**

Salvar em `data/clean/g3_mun_alerta.csv` com a coluna `g3_res_norm` para aqueles valores de `smap126` em que 1 = True e 0 = False. Nulos são mantidos como nulos. Manter coluna `cd_mun`.

**G4 - Reconhecimento - Existência de mapeamento e zoneamento de áreas de risco**

Salvar em `data/clean/g4_mun_mapeamento.csv` com a coluna `g4_rec_norm` para aqueles valores de `smap122` em que 1 = True e 0 = False. Nulos são mantidos como nulos. Manter coluna `cd_mun`.

**G5 - Assistência: Quantidade de políticas ou programas na área dos direitos humanos**

Salvar em `data/clean/g5_mun_politicas_direitos_humanos.csv` com a coluna `g5_ass_abs` com a quantidade de valores `True` contidos nas colunas [mdhu571, mdhu572, mdhu573, mdhu574, mdhu575, mdhu576, mdhu577, mdhu578, mdhu579, mdhu5710, mdhu5711, mdhu5712, mdhu5713, mdhu5714, mdhu5715, mdhu5716, mdhu58, mdhu61, mdhu64, mdhu67, mdhu69]. Se todos os valores forem nulos, deve manter o valor nulo. Deve ainda criar a coluna `g5_ass_norm` com o valor normalizado de 0 a 1, onde 0 = menor quantidade e 1 = maior quantidade.

In [7]:
import pandas as pd
import numpy as np
import os

# Configuração de caminhos
input_file = '../data/raw/ibge/munic/selected/munic_selected_ijc_clean.csv'
output_dir = '../data/clean'
os.makedirs(output_dir, exist_ok=True)

# Carregar os dados limpos
df = pd.read_csv(input_file)

# Função para converter booleano para 1/0 mantendo nulos
def bool_to_numeric(series):
    return series.map({True: 1, False: 0})

# --- G2: Nupdec ---
g2 = df[['cd_mun', 'mgrd213']].copy()
g2['g2_par_norm'] = bool_to_numeric(g2['mgrd213'])
g2[['cd_mun', 'g2_par_norm']].to_csv(f'{output_dir}/g2_mun_nupdec.csv', index=False)

# --- G3: Alerta ---
g3 = df[['cd_mun', 'smap126']].copy()
g3['g3_res_norm'] = bool_to_numeric(g3['smap126'])
g3[['cd_mun', 'g3_res_norm']].to_csv(f'{output_dir}/g3_mun_alerta.csv', index=False)

# --- G4: Mapeamento ---
g4 = df[['cd_mun', 'smap122']].copy()
g4['g4_rec_norm'] = bool_to_numeric(g4['smap122'])
g4[['cd_mun', 'g4_rec_norm']].to_csv(f'{output_dir}/g4_mun_mapeamento.csv', index=False)

# --- G5: Direitos Humanos ---
cols_g5 = [
    'mdhu571', 'mdhu572', 'mdhu573', 'mdhu574', 'mdhu575', 'mdhu576', 
    'mdhu577', 'mdhu578', 'mdhu579', 'mdhu5710', 'mdhu5711', 'mdhu5712', 
    'mdhu5713', 'mdhu5714', 'mdhu5715', 'mdhu5716', 'mdhu58', 'mdhu61', 
    'mdhu64', 'mdhu67', 'mdhu69'
]

# Criar cópia para processamento do G5
g5_data = df[['cd_mun'] + cols_g5].copy()

# Calcula a soma (g5_ass_abs)
# min_count=1 garante que se todas as colunas forem NaN, o resultado seja NaN (e não 0)
g5_data['g5_ass_abs'] = g5_data[cols_g5].sum(axis=1, min_count=1)

# Normalização (0 a 1)
min_val = g5_data['g5_ass_abs'].min()
max_val = g5_data['g5_ass_abs'].max()
g5_data['g5_ass_norm'] = (g5_data['g5_ass_abs'] - min_val) / (max_val - min_val)

# Salvar G5
g5_data[['cd_mun', 'g5_ass_abs', 'g5_ass_norm']].to_csv(f'{output_dir}/g5_mun_politicas_direitos_humanos.csv', index=False)

print("Arquivos salvos com sucesso em 'data/clean/'")

Arquivos salvos com sucesso em 'data/clean/'


### 6 - Gerar diagnóstico dos resultados nos arquivos

In [8]:
import pandas as pd

# Caminhos dos arquivos gerados
arquivos = {
    'G2 (Nupdec)': '../data/clean/g2_mun_nupdec.csv',
    'G3 (Alerta)': '../data/clean/g3_mun_alerta.csv',
    'G4 (Mapeamento)': '../data/clean/g4_mun_mapeamento.csv',
    'G5 (Direitos Humanos)': '../data/clean/g5_mun_politicas_direitos_humanos.csv'
}

print("=== DIAGNÓSTICO DOS ARQUIVOS FINAIS ===\n")

for nome, path in arquivos.items():
    df = pd.read_csv(path)
    print(f"--- {nome} ---")
    
    # Identificar a coluna de valor (a que não é cd_mun)
    col_valor = [c for c in df.columns if c != 'cd_mun']
    
    for col in col_valor:
        # Contagem para G2, G3, G4 (e g5_ass_norm para ver os extremos)
        counts = df[col].value_counts(dropna=False)
        nulls = df[col].isna().sum()
        
        if 'norm' in col:
            ones = (df[col] == 1).sum()
            zeros = (df[col] == 0).sum()
            print(f"Coluna: {col}")
            print(f"  > Valor 1 (Sim/Máximo): {ones}")
            print(f"  > Valor 0 (Não/Mínimo): {zeros}")
            print(f"  > Valores Nulos (NaN): {nulls}")
        
        # Diagnóstico extra para o G5 (Valores Absolutos)
        if col == 'g5_ass_abs':
            print(f"Coluna: {col}")
            print(f"  > Média de políticas: {df[col].mean():.2f}")
            print(f"  > Mediana: {df[col].median()}")
            print(f"  > Máximo de políticas encontradas: {df[col].max()}")
            print(f"  > Mínimo de políticas encontradas: {df[col].min()}")
            print(f"  > Distribuição (Quartis):\n{df[col].describe(percentiles=[.25, .5, .75])[['25%', '50%', '75%']]}")
            
    print("-" * 40)

=== DIAGNÓSTICO DOS ARQUIVOS FINAIS ===

--- G2 (Nupdec) ---
Coluna: g2_par_norm
  > Valor 1 (Sim/Máximo): 377
  > Valor 0 (Não/Mínimo): 5084
  > Valores Nulos (NaN): 109
----------------------------------------
--- G3 (Alerta) ---
Coluna: g3_res_norm
  > Valor 1 (Sim/Máximo): 613
  > Valor 0 (Não/Mínimo): 2363
  > Valores Nulos (NaN): 2594
----------------------------------------
--- G4 (Mapeamento) ---
Coluna: g4_rec_norm
  > Valor 1 (Sim/Máximo): 2327
  > Valor 0 (Não/Mínimo): 649
  > Valores Nulos (NaN): 2594
----------------------------------------
--- G5 (Direitos Humanos) ---
Coluna: g5_ass_abs
  > Média de políticas: 6.96
  > Mediana: 6.0
  > Máximo de políticas encontradas: 20.0
  > Mínimo de políticas encontradas: 1.0
  > Distribuição (Quartis):
25%    5.0
50%    6.0
75%    9.0
Name: g5_ass_abs, dtype: float64
Coluna: g5_ass_norm
  > Valor 1 (Sim/Máximo): 14
  > Valor 0 (Não/Mínimo): 4
  > Valores Nulos (NaN): 9
----------------------------------------


### Tratar Nulos = 0