In [None]:
# %% [markdown]
# # Normalização dos municípios e cruzamento com tabela IBGE
# Este notebook lê os CSVs em `../dados/`, padroniza os nomes de municípios,
# cruza com a tabela oficial do IBGE e exporta versões corrigidas.

# %%
import pandas as pd
import glob
import os
import unidecode
from rapidfuzz import process

# %% [markdown]
# ## 1. Carregar lista oficial do IBGE

# %%
# Tabela oficial dos municípios (pode baixar do GitHub ou salvar localmente)
url_ibge = "https://raw.githubusercontent.com/cross-solution/codigos-ibge-municipios/master/codigos_ibge.csv"
ibge = pd.read_csv(url_ibge)

# Filtrar apenas Tocantins (ajuste se quiser outros estados)
ibge_to = ibge[ibge["uf"] == "TO"].copy()

# Criar coluna normalizada
ibge_to["nome_norm"] = ibge_to["nome"].str.lower().apply(unidecode.unidecode)

print("Exemplo de municípios do TO:")
print(ibge_to.head())

# %% [markdown]
# ## 2. Funções auxiliares para normalizar e casar municípios

# %%
def normalizar_nome(nome):
    """Normaliza string: strip, lower, remove acentos."""
    if pd.isna(nome):
        return ""
    return unidecode.unidecode(str(nome).strip().lower())

def melhor_match(municipio, lista_ref):
    """Encontra melhor match usando rapidfuzz; retorna nome ou None."""
    if not municipio:
        return None
    match, score, _ = process.extractOne(municipio, lista_ref)
    return match if score > 80 else None

# %% [markdown]
# ## 3. Processar todos os CSVs da pasta `../dados/`

# %%
input_path = "../dados/*.csv"
arquivos = glob.glob(input_path)

print("Arquivos encontrados:", arquivos)

# lista para consolidar
dfs_processados = []

for arquivo in arquivos:
    df = pd.read_csv(arquivo)
    print(f"Processando {os.path.basename(arquivo)} ...")

    if "Município" not in df.columns and "municipio" not in df.columns:
        print("⚠️ Este arquivo não possui coluna de município, pulando...")
        continue

    # usa a coluna independente do nome
    col = "Município" if "Município" in df.columns else "municipio"

    # normalizar
    df["municipio_norm"] = df[col].apply(normalizar_nome)

    # merge direto
    merged = df.merge(ibge_to, left_on="municipio_norm", right_on="nome_norm", how="left")

    # fuzzy matching para os que não bateram
    mask_na = merged["codigo"].isna()
    if mask_na.any():
        lista_ref = ibge_to["nome_norm"].tolist()
        merged.loc[mask_na, "nome_match"] = merged.loc[mask_na, "municipio_norm"].apply(lambda x: melhor_match(x, lista_ref))
        # tenta novo merge com base no match fuzzy
        merged = merged.merge(ibge_to[["codigo","uf","nome_norm"]], left_on="nome_match", right_on="nome_norm", how="left", suffixes=("","_fuzzy"))
        # preferir código do fuzzy se original não achou
        merged["codigo_final"] = merged["codigo"].combine_first(merged["codigo_fuzzy"])
        merged["uf_final"] = merged["uf"].combine_first(merged["uf_fuzzy"])
    else:
        merged["codigo_final"] = merged["codigo"]
        merged["uf_final"] = merged["uf"]

    # renomear colunas principais
    merged = merged.rename(columns={
        col: "municipio_original",
        "nome": "municipio_ibge"
    })

    dfs_processados.append(merged)

# %% [markdown]
# ## 4. Consolidar todos os arquivos processados

# %%
if dfs_processados:
    df_final = pd.concat(dfs_processados, ignore_index=True)
    print("Registros consolidados:", len(df_final))
else:
    df_final = pd.DataFrame()
    print("Nenhum arquivo processado.")

# %% [markdown]
# ## 5. Exportar resultado final

# %%
output_file = "../data_clean/dados_com_ibge.csv"
os.makedirs("../data_clean", exist_ok=True)
df_final.to_csv(output_file, index=False, encoding="utf-8-sig")
print("Arquivo final exportado para:", output_file)

# Agora cada linha tem:
# - municipio_original (do seu CSV)
# - municipio_norm (normalizado)
# - municipio_ibge (nome oficial IBGE)
# - codigo_final (código IBGE)
# - uf_final
