
# Documentação do Notebook: Limpeza de Dados de Parlamentares e Emendas Parlamentares

## Objetivo
Este notebook tem como objetivo realizar a limpeza e padronização das tabelas de parlamentares e emendas parlamentares.

## Etapas do Processo
1. **Exclusão de Colunas Irrelevantes**
    - Remoção de colunas que não são necessárias para a análise.

2. **Análise de Valores Faltantes**
    - Identificação e tratamento de valores nulos ou ausentes nas tabelas.

3. **Análise de Valores Inválidos**
    - Verificação e correção de dados inconsistentes ou fora do padrão esperado.

4. **Padronização de Case Sensitive**
    - Uniformização de textos para evitar discrepâncias causadas por diferenças de maiúsculas/minúsculas.

## Tabelas Utilizadas
  - **Parlamentares**
  - **Emendas Parlamentares**

## Resultado Esperado
Ao final do notebook, as tabelas estarão limpas, padronizadas e prontas para análises posteriores.

# Importação de bibliotecas e funções

In [0]:
from pyspark.sql import functions as F

# Tratamentos

## Tabela de emendas parlamentares

In [0]:
# Carregar a tabela de emendas parlamentares
emendas = spark.read.table("mvp.bronze.emendas")


In [0]:
# Visualizar as primeiras 5 linhas
emendas.limit(5).display()

In [0]:
# Colunas da tabela
emendas.columns

In [0]:
# Selecionar apenas as colunas desejadas
colunas_relevantes_emendas = ['Ano',
 'Autor_da_emenda',
 'Localidade_do_gasto__Regionalizacao_',
 'Funcao',
 'Valor_empenhado',
 'Valor_liquidado',
 'Valor_pago',
]
emendas_filtradas = emendas.select(colunas_relevantes_emendas)

emendas_filtradas.display()

### Análises univariadas

#### Ano

In [0]:
emendas_filtradas.select("Ano").printSchema()

A coluna de ano está como string e precisará ser alterada para inteiro

In [0]:
emendas_filtradas = emendas_filtradas.withColumn("Ano", F.col("Ano").cast("int"))
emendas_filtradas.select("Ano").printSchema()



In [0]:
emendas_filtradas.filter(F.col("Ano").isNull()).count()

Não temos valores nulos para a coluna de Ano

In [0]:
emendas_filtradas.groupBy("Ano").count().orderBy(F.desc("count")).display()

Não temos vazios temporais para os anos considerados. O número de emendas de 2025 é menor, mas é próximo ao número de emendas de 2023 e ainda estamos no ano corrente de 2025, possibilitando ainda novas emendas.

#### Autor da Emenda

In [0]:
emendas_filtradas.select("Autor_da_emenda").printSchema()

O Formato está correto para essa coluna

In [0]:
emendas_filtradas.limit(5).display()

Foi notado que temos autores de emendas que não são parlamentares, mas comissões. Vamos investigar mais afundo

In [0]:
emendas_filtradas.groupBy("Autor_da_emenda").count().orderBy(F.desc("count")).display()

Vão ser eliminadas da base de autores:
- Bancadas (BANCADA)
- Comissões (COM.)

Além disso, foi notado que o número de parlamentares contidos na base de emendas está bem superior ao valor obtido na base de parlamentares e vamos precisar investigar melhor qual será o tratamento.


In [0]:
emendas_filtradas = emendas_filtradas.filter(
    ~(
        F.col("Autor_da_emenda").like("%BANCADA%") |
        F.col("Autor_da_emenda").like("%COM.%")
    )
)


In [0]:
emendas_filtradas.groupBy("Autor_da_emenda").count().orderBy(F.asc("count")).limit(10).display()

Ao buscar nomes como Vinicius Poit, Beto Faro e Marcelo Nilo, observamos que são deputados federais do mandato anterior, cujas emendas foram executadas no ano seguinte, já na nova legislatura. Para nossas análises, esses parlamentares serão desconsiderados, pois não constam na base atual de parlamentares.

In [0]:
emendas_filtradas = emendas_filtradas.withColumn(
    "nome_parlamentar",
    F.upper(
        F.trim(
            F.regexp_extract(
                F.col("Autor_da_emenda"),
                r"-\s*(.*?)(?=\(|$)",
                1
            )
        )
    )
)

A coluna "nome_parlamentar" foi criada extraindo o nome após o caractere "-" até o final do texto, ignorando qualquer conteúdo entre parênteses. O resultado foi convertido para maiúsculas e espaços em branco foram removidos.

In [0]:
emendas_filtradas.groupBy("nome_parlamentar").count().orderBy(F.desc("count")).display()

In [0]:
emendas_filtradas = emendas_filtradas.drop("Autor_da_emenda")

In [0]:
emendas_filtradas.display()

#### Localidade

In [0]:
emendas_filtradas.select("Localidade_do_gasto__Regionalizacao_").printSchema()

A Coluna está como string e é o tipo correto para a coluna

In [0]:
emendas_filtradas.groupBy("Localidade_do_gasto__Regionalizacao_").count().orderBy(F.desc("count")).display()

Ao analisar os valores, foram percebidos três tipos de informações:
- Emendas associadas a cidades
- Emendas associados a estados
- Emendas associadas a regiões, nacionais ou múltiplas

Por isso será realizado o seguinte tratamento:

O tratamento da coluna de localidade padroniza todo o texto para uppercase e remove espaços extras. Quando a localidade está no formato “MUNICÍPIO - UF”, o município é extraído e a UF final é identificada diretamente. Caso contrário, o código tenta identificar uma UF no final da string; se não existir, extrai o nome do estado e utiliza um dicionário de mapeamento para obter a sigla correspondente. A coluna uf_destino segue essa ordem de prioridade: primeiro a UF do padrão de município, depois a UF no final da string e, por fim, a UF obtida via mapeamento do estado.

In [0]:
# Dicionário com o mapeamento de estados para siglas
uf_map = {
    "ACRE": "AC","ALAGOAS": "AL","AMAPÁ": "AP","AMAPA": "AP","AMAZONAS": "AM",
    "BAHIA": "BA","CEARÁ": "CE","CEARA": "CE","DISTRITO FEDERAL": "DF",
    "ESPÍRITO SANTO": "ES","ESPIRITO SANTO": "ES","GOIÁS": "GO","GOIAS": "GO",
    "MARANHÃO": "MA","MARANHAO": "MA","MATO GROSSO": "MT","MATO GROSSO DO SUL": "MS",
    "MINAS GERAIS": "MG","PARÁ": "PA","PARA": "PA","PARAÍBA": "PB","PARAIBA": "PB",
    "PARANÁ": "PR","PARANA": "PR","PERNAMBUCO": "PE","PIAUÍ": "PI","PIAUI": "PI",
    "RIO DE JANEIRO": "RJ","RIO GRANDE DO NORTE": "RN","RIO GRANDE DO SUL": "RS",
    "RONDÔNIA": "RO","RONDONIA": "RO","RORAIMA": "RR","SANTA CATARINA": "SC",
    "SÃO PAULO": "SP","SAO PAULO": "SP","SERGIPE": "SE","TOCANTINS": "TO",
}

mapping_expr = F.create_map([F.lit(x) for pair in uf_map.items() for x in pair])


emendas_filtradas = emendas_filtradas.withColumn("localidade_raw", F.upper(F.col("Localidade_do_gasto__Regionalizacao_").cast("string")))

emendas_filtradas = (
    emendas_filtradas
    # MUNICÍPIO quando tiver " - "
    .withColumn(
        "municipio_extr",
        F.when(
            F.col("localidade_raw").contains(" - "),
            F.trim(F.regexp_extract(F.col("localidade_raw"), r"^(.*?)-", 1))
        )
    )

    # UF encontrada pelo final da string (ex: " - RJ")
    .withColumn(
        "uf_final",
        F.regexp_extract(F.col("localidade_raw"), r"\b([A-Z]{2})$", 1)
    )

    # Nome do estado (para mapear)
    .withColumn(
        "estado_extr",
        F.trim(F.regexp_extract(F.col("localidade_raw"), r"^([A-ZÀ-Ü ]+)", 1))
    )


    # LOCALIDADE SEMPRE UPPERCASE
    .withColumn("localidade_destino", F.col("localidade_raw"))

    # MUNICÍPIO DESTINO
    .withColumn(
        "municipio_destino",
        F.col("municipio_extr")
    )

    # LÓGICA FINAL DA UF
    .withColumn(
        "uf_destino",
        F.when(F.col("municipio_extr").isNotNull(), F.col("uf_final"))               # caso "CIDADE - UF"
         .when(F.col("uf_final") != "", F.col("uf_final"))                          # final = UF
         .otherwise(mapping_expr[F.col("estado_extr")])                              # nome → UF (mapeamento)
    )

    .drop("Localidade_do_gasto__Regionalizacao_","localidade_raw", "municipio_extr", "estado_extr", "uf_final")
)

In [0]:
emendas_filtradas\
    .filter(F.col("uf_destino").isNull())\
    .groupBy("localidade_destino")\
    .count()\
    .orderBy(F.desc("count"))\
    .display()


A Lógica está funcionando corretamente, só temos valores vazios quando não temos um estado definido.