## Unificação das bases de dados

In [5]:

%pip install Unidecode

import pandas as pd
import re
from unidecode import unidecode

Collecting Unidecode
  Using cached Unidecode-1.4.0-py3-none-any.whl.metadata (13 kB)
Using cached Unidecode-1.4.0-py3-none-any.whl (235 kB)
Installing collected packages: Unidecode
Successfully installed Unidecode-1.4.0
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:

def normalize_municipio(nome: str) -> str:
    """Remove acentos e padroniza como 'MUNICIPIO - UF'"""
    if pd.isna(nome):
        return None
    nome = unidecode(str(nome)).upper().strip()
    m = re.search(r"\((\w{2})\)$", nome)
    uf = None
    if m:
        uf = m.group(1)
        base = nome[:m.start()].strip()
    else:
        m = re.search(r"\s-\s([A-Z]{2})$", nome)
        if m:
            uf = m.group(1)
            base = nome[:m.start()].strip()
        else:
            base = nome
    return f"{base} - {uf}" if uf else base


In [8]:

# Carregar emendas com partidos e agregar por município
emendas = pd.read_csv('../data/emendas_por_favorecido_partidos.csv', encoding='utf-8-sig')
emendas['municipio'] = (emendas['Município Favorecido'] + ' - ' + emendas['UF Favorecido']).apply(normalize_municipio)
agg = (emendas.groupby('municipio', as_index=False)['Valor Recebido']
               .sum()
               .rename(columns={'Valor Recebido': 'valor_pix_total'}))

# Indicadores IBGE
dens = pd.read_csv('../data/densidade.csv')
dens['municipio'] = dens['name_muni_x'].apply(normalize_municipio)
dens = dens[['code_muni', 'municipio', 'densidade_demografica']]
escolar = pd.read_csv('../data/escolarizacao.csv')
escolar['municipio'] = escolar['Territorialidades'].apply(normalize_municipio)
escolar = escolar[['municipio', 'Taxa de Educacao 2010']]
idhm = pd.read_csv('../data/idhm.csv')
idhm['municipio'] = idhm['Territorialidades'].apply(normalize_municipio)
idhm = idhm[['municipio', 'IDHM 2010']]
pib = pd.read_csv('../data/pib_per_capita.csv')
pib['municipio'] = pib['name_muni'].apply(normalize_municipio)
pib = pib[['municipio', 'pib_per_capita_2021']]
resultados = pd.read_csv('../data/resultados_eleicoes.csv')
resultados['municipio'] = (resultados['NM_MUNICIPIO'] + ' - ' + resultados['SG_UF']).apply(normalize_municipio)
prefeitos = resultados[resultados['DS_SIT_TOT_TURNO'] == 'ELEITO']
prefeitos = prefeitos.drop_duplicates('municipio')[['municipio', 'NM_URNA_CANDIDATO']]                    .rename(columns={'NM_URNA_CANDIDATO': 'prefeito_eleito'})

# Merge de todas as bases
base = agg.merge(dens, on='municipio', how='left')
base = base.merge(pib, on='municipio', how='left')
base = base.merge(idhm, on='municipio', how='left')
base = base.merge(escolar, on='municipio', how='left')
base = base.merge(prefeitos, on='municipio', how='left')

# Seleciona colunas principais
dados_unificados = base[['municipio', 'code_muni', 'valor_pix_total',
                         'pib_per_capita_2021', 'densidade_demografica',
                         'IDHM 2010', 'Taxa de Educacao 2010', 'prefeito_eleito']]

dados_unificados.to_csv('../data/dados_unificados.csv', index=False, encoding='utf-8-sig')
dados_unificados.head()


Unnamed: 0,municipio,code_muni,valor_pix_total,pib_per_capita_2021,densidade_demografica,IDHM 2010,Taxa de Educacao 2010,prefeito_eleito
0,ABADIA DE GOIAS - GO,5200050.0,570000000,18491.217064,133.397997,0.708,92.19,WANDER SARAIVA
1,ABADIA DOS DOURADOS - MG,3100104.0,70000000,28184.630102,7.1274,0.689,90.88,CIRO
2,ABADIANIA - GO,5200100.0,291797100,25842.850511,16.509351,0.689,89.16,DR ITAMAR
3,ABAETE - MG,3100203.0,402000000,23869.415656,12.47983,0.698,91.28,IVANIR
4,ABAETETUBA - PA,1500107.0,474994300,12322.938529,98.228786,0.628,86.29,FRANCINETI CARVALHO
