# Camada Silver
Bloco responsável pela configuração do ambiente de execução do PySpark e pela leitura dos dados armazenados na camada Bronze, que servirão de base para as transformações realizadas na camada Silver.

## Importação de bibliotecas e inicialização do ambiente

In [0]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
import pandas as pd
import unicodedata

# Cria SparkSession
spark = SparkSession.builder.getOrCreate()

# Leitura do DataFrame
df = spark.table("projeto_final_bronze.bronze_panorama_eja")
# Conversão pra Dataframe do pandas
df = df.toPandas()

df.head()

### Ajustando Colunas

Este bloco tem o objetivo fundamental de renomear as colunas do DataFrame (df) para nomes mais descritivos, padronizados (em snake_case e sem acentos/caracteres especiais) e de fácil manipulação.

In [0]:
new_column_names = [
    'regiao', 'uf', 'municipio',
    'articulador_regional_undime_consed', 'formador_regional_undime', 'formador_regional_consed',
    'codigo_ibge', 'adesao_pacto_simec', 'taxa_analfabetismo_censo_ibge_2022',
    'populacao_total_municipio_15_anos_censo_ibge_2022', 'populacao_nao_alfabetizada_censo_ibge_2022',
    'matriculas_eja_fundamental_medio', 'matriculas_eja_ensino_fundamental', 'matriculas_eja_ensino_medio',
    'escolas_municipais_eja', 'escolas_estaduais_eja', 'tem_tipo_matricula_eja',
    'aderiu_pba_2024_sba', 'aderiu_pba_2025_sba', 'aderiu_pba_saldos_simec', 'adesao_pe_de_meia',
    'unidade_prisional_oferta_educacional', 'total_geral_estabelecimentos_por_nivel',
    'total_estab_fund', 'estab_fund_fed', 'estab_fund_est', 'estab_fund_mun', 'estab_fund_privado',
    'total_estab_medio', 'estab_medio_fed', 'estab_medio_est', 'estab_medio_mun', 'estab_medio_privado',
    'total_geral_estabelecimentos_por_localizacao', 'total_estab_urbano', 'estab_urbano_fed',
    'estab_urbano_est', 'estab_urbano_mun', 'estab_urbano_privado', 'total_estab_rural',
    'estab_rural_fed', 'estab_rural_est', 'estab_rural_mun', 'estab_rural_privado',
    'total_geral_matriculas_por_nivel', 'total_matricula_fund', 'mat_fund_fed', 'mat_fund_est',
    'mat_fund_mun', 'mat_fund_privado', 'total_matricula_medio', 'mat_medio_fed', 'mat_medio_est',
    'mat_medio_mun', 'mat_medio_privado', 'total_matriculas_medio_tecnico_integrado',
    'mat_medio_tecnico_integrado_fed', 'mat_medio_tecnico_integrado_est', 'mat_medio_tecnico_integrado_mun',
    'mat_medio_tecnico_integrado_privado', 'total_matriculas_medio_fic_integrado',
    'mat_medio_fic_integrado_fed', 'mat_medio_fic_integrado_est', 'mat_medio_fic_integrado_mun',
    'mat_medio_fic_integrado_privado', 'total_matriculas_fund_fic_integrado',
    'mat_fund_fic_integrado_fed', 'mat_fund_fic_integrado_est', 'mat_fund_fic_integrado_mun',
    'mat_fund_fic_integrado_privado', 'total_geral_matriculas_ed_basica_localizacao',
    'mat_total_ed_basica_urbana', 'mat_fed_ed_basica_urbana', 'mat_est_ed_basica_urbana',
    'mat_mun_ed_basica_urbana', 'mat_priv_ed_basica_urbana', 'mat_total_ed_basica_rural',
    'mat_fed_ed_basica_rural', 'mat_est_ed_basica_rural', 'mat_mun_ed_basica_rural', 'mat_priv_ed_basica_rural',
    'total_geral_matriculas_ed_basica_sexo_raca', 'total_feminino_matriculas_ed_basica',
    'total_feminino_matriculas_ed_basica_nao_declarada', 'total_feminino_matriculas_branca',
    'total_feminino_matriculas_preta', 'total_feminino_matriculas_ed_basica_parda',
    'total_feminino_matriculas_ed_basica_amarela', 'total_feminino_matriculas_ed_basica_indigena',
    'total_masculino_matriculas_ed_basica_nao_declarada', 'total_masc_matriculas_ed_basica_nao_declarada',
    'total_masc_matriculas_ed_basica_branca', 'total_masc_matriculas_ed_basica_preta',
    'total_masc_matriculas_ed_basica_parda', 'total_feminino_matriculas_ed_basica_amarela_1',
    'total_feminino_matriculas_ed_basica_indigena_1', 'total_geral_matriculas_ed_basica_faixa_etaria',
    'total_ate_14_anos_matriculas_ed_basica', 'total_ate_14_anos_matriculas_ed_basica_1',
    'total_entre_18_19_anos_matriculas_ed_basica', 'total_entre_20_24_anos_matriculas_ed_basica',
    'total_entre_25_29_anos_matriculas_ed_basica', 'total_entre_30_34_anos_matriculas_ed_basica',
    'total_entre_35_39_anos_matriculas_ed_basica', 'total_entre_40_anos_ou_matriculas_ed_basica',
    'total_geral_matriculas_ed_basica_ed_especial', 'total_geral_matriculas_ens_fund_ed_especial',
    'total_geral_matriculas_ens_medio_ed_especial', 'total_geral_matriculas_ed_basica_classes_exc',
    'total_geral_matriculas_ens_fund_classes_exc', 'total_geral_matriculas_ens_medio_classes_exc',
    'total_geral_matriculas_ed_basica_ed_indigena', 'total_geral_matriculas_ens_fund_ed_indigena',
    'total_geral_matriculas_ens_medio_ed_indigena', 'total_geral_docentes_ed_basica',
    'total_geral_docentes_ens_fund', 'total_geral_docentes_ens_fund_publica',
    'total_geral_docentes_ens_fund_federal', 'total_geral_docentes_ens_fund_estadual',
    'total_geral_docentes_ens_fund_municipal', 'total_geral_docentes_ens_fund_privada',
    'total_geral_docentes_ens_fund_1', 'total_geral_docentes_ens_fund_publica_1',
    'total_geral_docentes_ens_fund_federal_1', 'total_geral_docentes_ens_fund_estadual_1',
    'total_geral_docentes_ens_fund_municipal_1', 'total_geral_docentes_ens_fund_privada_1',
    '15_19_anos_populacao_nao_alfabetizada', '20_24_anos_populacao_nao_alfabetizada',
    '25_34_anos_populacao_nao_alfabetizada', '35_44_anos_populacao_nao_alfabetizada',
    '45_54_anos_populacao_nao_alfabetizada', '55_64_anos_populacao_nao_alfabetizada',
    '65_anos_ou_mais_populacao_nao_alfabetizada', 'unnamed_134', 'unnamed_135',
    'source_file', 'ingestion_time'
]

df.columns = new_column_names


### Análise de Valores Ausentes
Esta seção do notebook dedica-se à inspeção inicial da qualidade dos dados, focando na presença de valores nulos no DataFrame.

In [0]:
df_with_nulls = df[df.isna().any(axis=1)]

print(df_with_nulls)
print(f"\nTotal de linhas com algum valor nulo: {len(df_with_nulls)}")

In [0]:
null_counts = df.isna().sum()

null_counts = null_counts[null_counts > 0].sort_values(ascending=False)
print(null_counts)

### Remoção de Colunas com Alta Ocorrência de Nulos

Este bloco executa a limpeza estrutural do DataFrame, removendo as colunas que foram identificadas como tendo uma quantidade inaceitável de valores nulos ou que são irrelevantes para a análise

In [0]:
# Lista de colunas a remover  (+ de 5 mil valores nulos)
colunas_para_remover = [
    'source_file',
    'formador_regional_undime',
    'formador_regional_consed',
    'unnamed_135',
    'unnamed_134',
    'articulador_regional_undime_consed'
]

# Remove as colunas
df = df.drop(columns=colunas_para_remover)

# Verifica se realmente foram removidas
print(df.columns)

### Conversão de Tipos de Dados para Numérico

Este bloco realiza a conversão dos tipos de dados das colunas para o formato numérico, essencial para que cálculos possam ser executados.

In [0]:
exclude = ['regiao', 'uf', 'municipio', 'adesao_pacto_simec', 
           'tem_tipo_matricula_eja', 'aderiu_pba_2024_sba', 'aderiu_pba_2025_sba',
           'aderiu_pba_saldos_simec', 'adesao_pe_de_meia', 'unidade_prisional_oferta_educacional']

# converter todas as outras para float
cols_to_convert = [c for c in df.columns if c not in exclude]
for c in cols_to_convert:
    df[c] = pd.to_numeric(df[c], errors='coerce')

### Detecção e Remoção de Registros Duplicados

Esta seção foca na integridade estrutural dos dados, garantindo que não existam linhas repetidas que possam enviesar análises ou cálculos de agregação.

In [0]:
# Verificar se há linhas duplicadas
duplicados = df.duplicated()

# Quantas linhas duplicadas existem
print("Total de linhas duplicadas:", duplicados.sum())

# Mostrar as linhas duplicadas
df_duplicados = df[duplicados]
print(df_duplicados)

In [0]:
# excluindo duplicadas 
df = df.drop_duplicates()

### Análise de Cardinalidade (Contagem de Valores Únicos)

Este bloco de código é usado para diagnosticar a variedade e singularidade dos dados em cada coluna, medindo quantos valores únicos existem em cada variável

In [0]:
# verificando valores unicos
unique_counts = df.nunique()
unique_counts_sorted = unique_counts.sort_values()
print(unique_counts_sorted)


### Limpeza e Engenharia da Coluna de Adesão ao Pacto

Este bloco é dedicado a limpar e extrair informações úteis da coluna textual adesao_pacto_simec, transformando-a em uma nova feature categórica (ano_adesao).

In [0]:
df = df[df['adesao_pacto_simec'] != 'nan']

print(df.shape)

In [0]:
df['adesao_pacto_simec'].unique()

In [0]:
# extraindo o ano
def extrair_ano(valor):
    if pd.isna(valor):
        return None
    elif 'não aderiu' in valor.lower():
        return 'não'
    else:
        ano = ''.join([c for c in valor if c.isdigit()])
        return ano
    

df['ano_adesao'] = df['adesao_pacto_simec'].apply(extrair_ano)
df['ano_adesao'].unique()
df.drop(['adesao_pacto_simec'], axis=1, inplace=True)

In [0]:
df['ano_adesao'].unique()

### Agregação de Matrículas

In [0]:
# Matrículas por nível
df['matriculas_fund_total'] = df[['mat_fund_fed', 'mat_fund_est', 'mat_fund_mun', 'mat_fund_privado']].sum(axis=1)
df['matriculas_medio_total'] = df[['mat_medio_fed', 'mat_medio_est', 'mat_medio_mun', 'mat_medio_privado']].sum(axis=1)


In [0]:
# Matrículas urbano x rural
df['matriculas_urbanas_total'] = df[['mat_fed_ed_basica_urbana', 'mat_est_ed_basica_urbana', 
                                     'mat_mun_ed_basica_urbana', 'mat_priv_ed_basica_urbana']].sum(axis=1)
df['matriculas_rurais_total'] = df[['mat_fed_ed_basica_rural', 'mat_est_ed_basica_rural', 
                                    'mat_mun_ed_basica_rural', 'mat_priv_ed_basica_rural']].sum(axis=1)

### Remoção de Colunas Detalhadas e Redundantes

In [0]:
colunas_para_excluir = [
    'mat_fund_fed', 'mat_fund_est', 'mat_fund_mun', 'mat_fund_privado',
    'mat_medio_fed', 'mat_medio_est', 'mat_medio_mun', 'mat_medio_privado',
    'mat_fed_ed_basica_urbana', 'mat_est_ed_basica_urbana', 'mat_mun_ed_basica_urbana', 'mat_priv_ed_basica_urbana',
    'mat_fed_ed_basica_rural', 'mat_est_ed_basica_rural', 'mat_mun_ed_basica_rural', 'mat_priv_ed_basica_rural',
    'total_geral_matriculas_ed_basica_classes_exc', 'total_geral_matriculas_ens_fund_classes_exc',
    'total_geral_matriculas_ens_medio_classes_exc', 'total_geral_matriculas_ens_medio_ed_especial',
    'adesao_pe_de_meia'
]

df = df.drop(columns=colunas_para_excluir)

### Normalização e Remoção de Acentos na Coluna 'UF'

Este bloco realiza a limpeza de texto na coluna uf para remover acentos e caracteres especiais, garantindo que os nomes dos estados sejam representados de forma padronizada

In [0]:
# Removendo acentos da coluna UF
df["uf"] = df["uf"].apply(
    lambda x: unicodedata.normalize('NFKD', x).encode('ASCII', 'ignore').decode('utf-8') if isinstance(x, str) else x
)

### Persistência de Dados para a Camada Silver (Finalização da Limpeza)

In [0]:
spark.sql("DROP TABLE IF EXISTS projeto_final_silver.silver_panorama_eja")

In [0]:
df_spark = spark.createDataFrame(df)

# Salva como tabela Delta no schema Silver
df_spark.write.format("delta") \
       .mode("overwrite") \
       .saveAsTable("projeto_final_silver.silver_panorama_eja")