In [5]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA
# =================================================================

# --- IMPORTANTE: Altere este caminho para o local do seu arquivo ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"

print(f"Carregando o arquivo: {TRUSTED_PATH}...")

# Adicionado 'low_memory=False' para evitar o aviso de DtypeWarning
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)

print(f"Arquivo carregado com sucesso! Total de {len(df)} linhas e {len(df.columns)} colunas.")
print("Iniciando a análise...")


# =================================================================
# FASE 2: ANÁLISE DAS COLUNAS
# =================================================================

# Pega o número total de linhas do DataFrame para usar nos cálculos
total_linhas = len(df)
analise_resultados = []

# Loop para percorrer cada coluna do DataFrame
for coluna in df.columns:
    valores_nulos = df[coluna].isnull().sum()
    
    if pd.api.types.is_numeric_dtype(df[coluna]):
        valores_placeholder = (df[coluna] == -100).sum()
    else:
        try:
            valores_placeholder = (df[coluna].astype(str) == '-100').sum()
        except:
            valores_placeholder = 0
            
    perc_missing = (valores_nulos / total_linhas) * 100
    perc_placeholder = (valores_placeholder / total_linhas) * 100
    perc_preenchido = 100 - perc_missing - perc_placeholder
    
    analise_resultados.append({
        'variavel': coluna,
        'total_linhas': total_linhas,
        '%_de_missing_data': perc_missing,
        '%_de_-100': perc_placeholder,
        '%_preenchido': perc_preenchido
    })

# =================================================================
# FASE 3: APRESENTAÇÃO DOS RESULTADOS
# =================================================================

df_analise = pd.DataFrame(analise_resultados)
df_analise_sorted = df_analise.sort_values(by='%_de_missing_data', ascending=False)

df_analise_sorted['%_de_missing_data'] = df_analise_sorted['%_de_missing_data'].map('{:.2f}%'.format)
df_analise_sorted['%_de_-100'] = df_analise_sorted['%_de_-100'].map('{:.2f}%'.format)
df_analise_sorted['%_preenchido'] = df_analise_sorted['%_preenchido'].map('{:.2f}%'.format)


# ================================== AJUSTE ==================================
# O pandas, por padrão, limita o número de linhas exibidas na tela.
# Com este comando, instruímos o pandas a mostrar TODAS as linhas do DataFrame,
# removendo o limite. O valor 'None' significa 'sem limite'.
pd.set_option('display.max_rows', None)
# ============================================================================


# Exibe o DataFrame final, agora mostrando todas as 426 linhas
print("\n--- Análise de Preenchimento das Colunas (Exibição Completa) ---")
display(df_analise_sorted)

# (Opcional) Para voltar à configuração padrão do pandas depois de exibir
# pd.reset_option('display.max_rows')

Carregando o arquivo: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Arquivo carregado com sucesso! Total de 215545 linhas e 426 colunas.
Iniciando a análise...

--- Análise de Preenchimento das Colunas (Exibição Completa) ---


Unnamed: 0,variavel,total_linhas,%_de_missing_data,%_de_-100,%_preenchido
33,DT_ANO_LETIVO_INICIO,215545,100.00%,0.00%,0.00%
34,DT_ANO_LETIVO_TERMINO,215545,100.00%,0.00%,0.00%
26,DS_COMPLEMENTO,215545,67.08%,0.00%,32.92%
30,NU_TELEFONE,215545,20.14%,0.00%,79.86%
25,NU_ENDERECO,215545,19.45%,0.00%,80.55%
398,QT_DOC_ESP_CC,215545,16.96%,0.00%,83.04%
397,QT_DOC_ESP,215545,16.96%,0.00%,83.04%
396,QT_DOC_EJA_MED,215545,16.96%,0.00%,83.04%
395,QT_DOC_EJA_FUND,215545,16.96%,0.00%,83.04%
394,QT_DOC_EJA,215545,16.96%,0.00%,83.04%


In [9]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA DOS DADOS
# =================================================================

# --- Confirme os caminhos para os seus arquivos ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"
# IMPORTANTE: Use o caminho para o seu dicionário JÁ MODIFICADO
DICT_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/1_raw/dicionario.csv" 

# --- Carga dos arquivos ---
print(f"Carregando o arquivo de dados: {TRUSTED_PATH}...")
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)
print("Dados carregados com sucesso!")

print(f"Carregando o arquivo de dicionário: {DICT_PATH}...")
df_dict = pd.read_csv(DICT_PATH, sep=",", on_bad_lines='skip')
# Limpeza básica do dicionário
df_dict.columns = df_dict.columns.str.strip()
df_dict = df_dict.dropna(subset=["VARIAVEL"])
print("Dicionário carregado com sucesso!")


# =================================================================
# FASE 2: ANÁLISE INDIVIDUAL E JUNÇÃO (JOIN)
# =================================================================
print("\nIniciando contagem por variável...")

total_linhas = len(df)
analise_individual = []

# Lógica de contagem para cada variável
for coluna in df.columns:
    valores_nulos = df[coluna].isnull().sum()
    if pd.api.types.is_numeric_dtype(df[coluna]):
        valores_placeholder = (df[coluna] == -100).sum()
    else:
        try:
            valores_placeholder = (df[coluna].astype(str) == '-100').sum()
        except:
            valores_placeholder = 0
            
    total_celulas = total_linhas
    
    analise_individual.append({
        'variavel': coluna,
        'contagem_nulos': valores_nulos,
        'contagem_placeholder': valores_placeholder,
        'contagem_total_celulas': total_celulas
    })

df_analise_individual = pd.DataFrame(analise_individual)

# --- Junção (Merge/Join) com as informações do dicionário ---
print("Associando variáveis com GRUPO_CAT e SUB_GRUPO_CAT...")

# ======================= PONTO DO AJUSTE =======================
# Usando os nomes precisos que você forneceu.
#                                 ⬇️
try:
    df_dict_info = df_dict[['VARIAVEL', 'GRUPO_CAT', 'SUB_GRUPO_CAT']].copy()
except KeyError:
    print("\nERRO: As colunas 'GRUPO_CAT' e/ou 'SUB_GRUPO_CAT' não foram encontradas no dicionario.csv.")
    print("Por favor, confirme se salvou o arquivo com os novos cabeçalhos corretamente.")
    exit() # Interrompe a execução se as colunas não existirem
# ===============================================================

# Junta as informações
df_merged = pd.merge(df_analise_individual, df_dict_info, left_on='variavel', right_on='VARIAVEL', how='left')

# Preenche categorias não encontradas para evitar erros no agrupamento
df_merged['GRUPO_CAT'] = df_merged['GRUPO_CAT'].fillna('Sem Grupo')
df_merged['SUB_GRUPO_CAT'] = df_merged['SUB_GRUPO_CAT'].fillna('Sem Subgrupo')


# =================================================================
# FASE 3: AGRUPAMENTO E CÁLCULO DAS PORCENTAGENS
# =================================================================
print("Agrupando resultados por GRUPO_CAT e SUB_GRUPO_CAT...")

# ======================= PONTO DO AJUSTE =======================
# Agrupa pelas colunas corretas.
#                               ⬇️
colunas_para_somar = ['contagem_nulos', 'contagem_placeholder', 'contagem_total_celulas']
df_agrupado = df_merged.groupby(['GRUPO_CAT', 'SUB_GRUPO_CAT'])[colunas_para_somar].sum()
# ===============================================================

# --- Cálculo das porcentagens para os GRUPOS ---
df_agrupado['%_de_missing_data'] = (df_agrupado['contagem_nulos'] / df_agrupado['contagem_total_celulas']) * 100
df_agrupado['%_de_-100'] = (df_agrupado['contagem_placeholder'] / df_agrupado['contagem_total_celulas']) * 100
df_agrupado['%_preenchido'] = 100 - df_agrupado['%_de_missing_data'] - df_agrupado['%_de_-100']

df_resultado_final = df_agrupado.drop(columns=colunas_para_somar)


# =================================================================
# FASE 4: FORMATAÇÃO E APRESENTAÇÃO
# =================================================================

# Formatação e ordenação do resultado final
df_resultado_final = df_resultado_final.sort_values(by='%_de_missing_data', ascending=False)
df_resultado_final['%_de_missing_data'] = df_resultado_final['%_de_missing_data'].map('{:.2f}%'.format)
df_resultado_final['%_de_-100'] = df_resultado_final['%_de_-100'].map('{:.2f}%'.format)
df_resultado_final['%_preenchido'] = df_resultado_final['%_preenchido'].map('{:.2f}%'.format)

df_resultado_final = df_resultado_final.reset_index()

pd.set_option('display.max_rows', None)

print("\n--- Análise de Preenchimento Agrupada por GRUPO_CAT e SUB_GRUPO_CAT ---")
display(df_resultado_final)

Carregando o arquivo de dados: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Dados carregados com sucesso!
Carregando o arquivo de dicionário: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/1_raw/dicionario.csv...
Dicionário carregado com sucesso!

Iniciando contagem por variável...
Associando variáveis com GRUPO_CAT e SUB_GRUPO_CAT...
Agrupando resultados por GRUPO_CAT e SUB_GRUPO_CAT...

--- Análise de Preenchimento Agrupada por GRUPO_CAT e SUB_GRUPO_CAT ---


Unnamed: 0,GRUPO_CAT,SUB_GRUPO_CAT,%_de_missing_data,%_de_-100,%_preenchido
0,Dados Cadastrais e Administrativos,Situação de Funcionamento e Período Letivo,50.72%,0.00%,49.28%
1,Dados Cadastrais e Administrativos,Endereço e Contato da Escola,19.26%,0.00%,80.74%
2,"Quantitativos Educacionais (Matrículas, Docent...",Quantidade de Docentes por Etapa de Ensino,16.96%,0.00%,83.04%
3,"Quantitativos Educacionais (Matrículas, Docent...",Quantidade de Turmas por Etapa de Ensino e Turno,16.82%,0.00%,83.18%
4,"Quantitativos Educacionais (Matrículas, Docent...",Quantidade de Matrículas por Características,16.82%,0.00%,83.18%
5,Aspectos Pedagógicos e Curriculares,Etapas e Modalidades de Ensino Ofertadas,16.77%,0.00%,83.23%
6,Aspectos Pedagógicos e Curriculares,Modo de Ensino e Turnos,16.62%,0.00%,83.38%
7,Aspectos Pedagógicos e Curriculares,Atendimento Educacional Especializado (AEE) e ...,16.00%,0.00%,84.00%
8,Infraestrutura e Acessibilidade,Dependências Físicas e Instalações (Gerais),16.00%,0.00%,84.00%
9,Infraestrutura e Acessibilidade,Abastecimento de Energia Elétrica,16.00%,0.00%,84.00%


In [11]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA DOS DADOS
# =================================================================

# --- Confirme os caminhos para os seus arquivos ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"
# IMPORTANTE: Use o caminho para o seu dicionário que contém a coluna GRUPO_CAT
DICT_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/1_raw/dicionario.csv" 

# --- Carga dos arquivos ---
print(f"Carregando o arquivo de dados: {TRUSTED_PATH}...")
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)
print("Dados carregados com sucesso!")

print(f"Carregando o arquivo de dicionário: {DICT_PATH}...")
df_dict = pd.read_csv(DICT_PATH, sep=",", on_bad_lines='skip')
# Limpeza básica do dicionário
df_dict.columns = df_dict.columns.str.strip()
df_dict = df_dict.dropna(subset=["VARIAVEL"])
print("Dicionário carregado com sucesso!")


# =================================================================
# FASE 2: ANÁLISE INDIVIDUAL E JUNÇÃO (JOIN)
# =================================================================
print("\nIniciando contagem por variável...")

total_linhas = len(df)
analise_individual = []

# Lógica de contagem para cada variável
for coluna in df.columns:
    valores_nulos = df[coluna].isnull().sum()
    if pd.api.types.is_numeric_dtype(df[coluna]):
        valores_placeholder = (df[coluna] == -100).sum()
    else:
        try:
            valores_placeholder = (df[coluna].astype(str) == '-100').sum()
        except:
            valores_placeholder = 0
            
    total_celulas = total_linhas
    
    analise_individual.append({
        'variavel': coluna,
        'contagem_nulos': valores_nulos,
        'contagem_placeholder': valores_placeholder,
        'contagem_total_celulas': total_celulas
    })

df_analise_individual = pd.DataFrame(analise_individual)

# --- Junção (Merge/Join) com as informações do dicionário ---
print("Associando variáveis com GRUPO_CAT...")

# ======================= PONTO DO AJUSTE =======================
# Agora selecionamos APENAS a coluna GRUPO_CAT para a junção.
#                                 ⬇️
try:
    df_dict_info = df_dict[['VARIAVEL', 'GRUPO_CAT']].copy()
except KeyError:
    print("\nERRO: A coluna 'GRUPO_CAT' não foi encontrada no dicionario.csv.")
    print("Por favor, confirme se salvou o arquivo com o novo cabeçalho corretamente.")
    exit() # Interrompe a execução se a coluna não existir
# ===============================================================

# Junta as informações
df_merged = pd.merge(df_analise_individual, df_dict_info, left_on='variavel', right_on='VARIAVEL', how='left')

# Preenche categorias não encontradas para evitar erros no agrupamento
df_merged['GRUPO_CAT'] = df_merged['GRUPO_CAT'].fillna('Sem Grupo')


# =================================================================
# FASE 3: AGRUPAMENTO E CÁLCULO DAS PORCENTAGENS
# =================================================================
print("Agrupando resultados por GRUPO_CAT...")

# ======================= PONTO DO AJUSTE =======================
# Agrupa somente pela coluna GRUPO_CAT.
#                               ⬇️
colunas_para_somar = ['contagem_nulos', 'contagem_placeholder', 'contagem_total_celulas']
df_agrupado = df_merged.groupby(['GRUPO_CAT'])[colunas_para_somar].sum()
# ===============================================================

# --- Cálculo das porcentagens para os GRUPOS ---
df_agrupado['%_de_missing_data'] = (df_agrupado['contagem_nulos'] / df_agrupado['contagem_total_celulas']) * 100
df_agrupado['%_de_-100'] = (df_agrupado['contagem_placeholder'] / df_agrupado['contagem_total_celulas']) * 100
df_agrupado['%_preenchido'] = 100 - df_agrupado['%_de_missing_data'] - df_agrupado['%_de_-100']

df_resultado_final = df_agrupado.drop(columns=colunas_para_somar)


# =================================================================
# FASE 4: FORMATAÇÃO E APRESENTAÇÃO
# =================================================================

# Formatação e ordenação do resultado final
df_resultado_final = df_resultado_final.sort_values(by='%_de_missing_data', ascending=False)
df_resultado_final['%_de_missing_data'] = df_resultado_final['%_de_missing_data'].map('{:.2f}%'.format)
df_resultado_final['%_de_-100'] = df_resultado_final['%_de_-100'].map('{:.2f}%'.format)
df_resultado_final['%_preenchido'] = df_resultado_final['%_preenchido'].map('{:.2f}%'.format)

df_resultado_final = df_resultado_final.reset_index()

pd.set_option('display.max_rows', None)

print("\n--- Análise de Preenchimento Agrupada por GRUPO_CAT ---")
display(df_resultado_final)

Carregando o arquivo de dados: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Dados carregados com sucesso!
Carregando o arquivo de dicionário: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/1_raw/dicionario.csv...
Dicionário carregado com sucesso!

Iniciando contagem por variável...
Associando variáveis com GRUPO_CAT...
Agrupando resultados por GRUPO_CAT...

--- Análise de Preenchimento Agrupada por GRUPO_CAT ---


Unnamed: 0,GRUPO_CAT,%_de_missing_data,%_de_-100,%_preenchido
0,"Quantitativos Educacionais (Matrículas, Docent...",16.84%,0.00%,83.16%
1,Gestão de Pessoas e Serviços Essenciais,16.00%,0.00%,84.00%
2,Recursos Tecnológicos e Materiais de Apoio,15.50%,0.71%,83.80%
3,Infraestrutura e Acessibilidade,15.47%,1.48%,83.05%
4,Aspectos Pedagógicos e Curriculares,14.00%,13.73%,72.27%
5,Dados Cadastrais e Administrativos,6.97%,39.97%,53.05%


In [13]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA
# =================================================================

# --- IMPORTANTE: Altere este caminho para o local do seu arquivo ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"

print(f"Carregando o arquivo: {TRUSTED_PATH}...")
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)
print("Arquivo carregado com sucesso!")


# =================================================================
# FASE 2: ANÁLISE HORIZONTAL (POR LINHA)
# =================================================================
print("\nIniciando análise de qualidade por linha (entidade)...")

# Para a análise, vamos separar o identificador do resto dos dados
if 'CO_ENTIDADE' not in df.columns:
    print("ERRO: A coluna 'CO_ENTIDADE' não foi encontrada. Verifique o nome da coluna.")
    exit()

# Copiamos o DataFrame para não alterar o original
df_analise = df.copy()

# O total para o cálculo da porcentagem é o número de colunas
# Subtraímos 1 para não contar a própria coluna de identificação
total_colunas = len(df.columns) - 1

# --- Cálculos Vetorizados ---
# Esta é uma forma muito eficiente de calcular para todas as linhas de uma vez
# axis=1 significa que a operação (soma) é feita ao longo das colunas para cada linha
df_analise['contagem_nulos'] = df_analise.drop(columns='CO_ENTIDADE').isnull().sum(axis=1)
df_analise['contagem_placeholder'] = (df_analise.drop(columns='CO_ENTIDADE') == -100).sum(axis=1)

# Calculamos a porcentagem de dados faltantes (nulos + nosso placeholder) por entidade
df_analise['%_total_missing'] = ((df_analise['contagem_nulos'] + df_analise['contagem_placeholder']) / total_colunas) * 100


# =================================================================
# FASE 3: CATEGORIZAÇÃO EM FAIXAS (BUCKETING)
# =================================================================
print("Categorizando as entidades em faixas de preenchimento...")

# Definimos os limites das faixas de porcentagem
# Usamos -0.01 para garantir que o 0% seja incluído na primeira faixa
bins = [-0.01, 25, 50, 75, 100]

# Definimos os rótulos para cada faixa
labels = ['0% - 25%', '25% - 50%', '50% - 75%', '75% - 100%']

# A função 'pd.cut' é perfeita para criar essas faixas de forma automática
df_analise['faixa_preenchimento'] = pd.cut(df_analise['%_total_missing'], bins=bins, labels=labels, right=True)


# =================================================================
# FASE 4: CONTAGEM FINAL E APRESENTAÇÃO
# =================================================================
print("Gerando o resumo final...")

# Contamos quantas entidades caem em cada faixa
contagem_final = df_analise['faixa_preenchimento'].value_counts().sort_index()

# Convertemos para um DataFrame para uma apresentação mais elegante
df_resultado = contagem_final.reset_index()
df_resultado.columns = ['Faixa de Dados Ausentes', 'Quantidade de Entidades']

print("\n--- Resumo da Qualidade de Preenchimento por Entidade ---")
display(df_resultado)

Carregando o arquivo: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Arquivo carregado com sucesso!

Iniciando análise de qualidade por linha (entidade)...
Categorizando as entidades em faixas de preenchimento...
Gerando o resumo final...

--- Resumo da Qualidade de Preenchimento por Entidade ---


Unnamed: 0,Faixa de Dados Ausentes,Quantidade de Entidades
0,0% - 25%,179286
1,25% - 50%,1779
2,50% - 75%,0
3,75% - 100%,34480


In [15]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA
# =================================================================

# --- IMPORTANTE: Altere este caminho para o local do seu arquivo ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"

print(f"Carregando o arquivo: {TRUSTED_PATH}...")
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)
print("Arquivo carregado com sucesso!")


# =================================================================
# FASE 2: ANÁLISE HORIZONTAL (POR LINHA)
# =================================================================
print("\nIniciando análise de qualidade por linha (entidade)...")

if 'CO_ENTIDADE' not in df.columns:
    print("ERRO: A coluna 'CO_ENTIDADE' não foi encontrada. Verifique o nome da coluna.")
    exit()

df_analise = df.copy()
total_colunas = len(df.columns) - 1

# --- Cálculos Vetorizados ---
df_analise['contagem_nulos'] = df_analise.drop(columns='CO_ENTIDADE').isnull().sum(axis=1)
df_analise['contagem_placeholder'] = (df_analise.drop(columns='CO_ENTIDADE') == -100).sum(axis=1)
df_analise['%_total_missing'] = ((df_analise['contagem_nulos'] + df_analise['contagem_placeholder']) / total_colunas) * 100


# =================================================================
# FASE 3: CATEGORIZAÇÃO EM FAIXAS (BUCKETING)
# =================================================================
print("Categorizando as entidades em faixas de 10%...")

# ======================= PONTO DO AJUSTE =======================
# Definimos os limites das faixas de 10% em 10%
bins = [-0.01, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

# Definimos os rótulos para cada uma das 10 faixas
labels = [
    '0% - 10%', '10% - 20%', '20% - 30%', '30% - 40%', '40% - 50%',
    '50% - 60%', '60% - 70%', '70% - 80%', '80% - 90%', '90% - 100%'
]
# ===============================================================

# A função 'pd.cut' cria as faixas de forma automática
df_analise['faixa_preenchimento'] = pd.cut(df_analise['%_total_missing'], bins=bins, labels=labels, right=True)


# =================================================================
# FASE 4: CONTAGEM FINAL E APRESENTAÇÃO
# =================================================================
print("Gerando o resumo final...")

# Contamos quantas entidades caem em cada faixa
contagem_final = df_analise['faixa_preenchimento'].value_counts().sort_index()

# Convertemos para um DataFrame para uma apresentação mais elegante
df_resultado = contagem_final.reset_index()
df_resultado.columns = ['Faixa de Dados Ausentes', 'Quantidade de Entidades']

print("\n--- Resumo da Qualidade de Preenchimento por Entidade (Faixas de 10%) ---")
display(df_resultado)

Carregando o arquivo: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Arquivo carregado com sucesso!

Iniciando análise de qualidade por linha (entidade)...
Categorizando as entidades em faixas de 10%...
Gerando o resumo final...

--- Resumo da Qualidade de Preenchimento por Entidade (Faixas de 10%) ---


Unnamed: 0,Faixa de Dados Ausentes,Quantidade de Entidades
0,0% - 10%,155153
1,10% - 20%,24133
2,20% - 30%,0
3,30% - 40%,521
4,40% - 50%,1258
5,50% - 60%,0
6,60% - 70%,0
7,70% - 80%,0
8,80% - 90%,0
9,90% - 100%,34480


In [17]:
import pandas as pd
import numpy as np

# =================================================================
# FASE 1: CONFIGURAÇÃO E CARGA
# =================================================================

# --- IMPORTANTE: Altere este caminho para o local do seu arquivo ---
TRUSTED_PATH = "/home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv"

print(f"Carregando o arquivo: {TRUSTED_PATH}...")
df = pd.read_csv(TRUSTED_PATH, sep=";", low_memory=False)
print("Arquivo carregado com sucesso!")


# =================================================================
# FASE 2: ANÁLISE HORIZONTAL (POR LINHA)
# =================================================================
print("\nIniciando análise de qualidade por linha (entidade)...")

if 'CO_ENTIDADE' not in df.columns:
    print("ERRO: A coluna 'CO_ENTIDADE' não foi encontrada. Verifique o nome da coluna.")
    exit()

df_analise = df.copy()
total_colunas = len(df.columns) - 1

# --- Cálculos Vetorizados ---
df_analise['contagem_nulos'] = df_analise.drop(columns='CO_ENTIDADE').isnull().sum(axis=1)
df_analise['contagem_placeholder'] = (df_analise.drop(columns='CO_ENTIDADE') == -100).sum(axis=1)
df_analise['%_total_missing'] = ((df_analise['contagem_nulos'] + df_analise['contagem_placeholder']) / total_colunas) * 100


# =================================================================
# FASE 3: CATEGORIZAÇÃO HÍBRIDA E ORDENAÇÃO
# =================================================================
print("Categorizando as entidades em faixas detalhadas...")

# --- Criação das Regras (Condições e Rótulos) ---
# Vamos construir as listas de condições e rótulos dinamicamente

conditions = []
choices = []
ordered_labels = [] # Lista para garantir a ordenação correta no final

# Regra 1: Valores exatos de 0% a 15%
for i in range(16):
    # Usamos .round() para evitar problemas com casas decimais muito pequenas
    conditions.append(df_analise['%_total_missing'].round() == i)
    label = f'{i}% (Exato)'
    choices.append(label)
    ordered_labels.append(label)

# Regra 2: Intervalos de 5% entre 15% e 90%
for i in range(15, 90, 5):
    conditions.append((df_analise['%_total_missing'] > i) & (df_analise['%_total_missing'] <= i + 5))
    label = f'{i}% - {i+5}%'
    choices.append(label)
    ordered_labels.append(label)

# Regra 3: Valores exatos de 91% a 100%
for i in range(91, 101):
    conditions.append(df_analise['%_total_missing'].round() == i)
    label = f'{i}% (Exato)'
    choices.append(label)
    ordered_labels.append(label)

# --- Aplicação das Regras ---
# A função np.select é ideal para aplicar múltiplas condições como estas
# O 'default' é uma segurança para valores que não se encaixem em nenhuma regra
df_analise['faixa_preenchimento'] = np.select(conditions, choices, default='Não Categorizado')

# --- Garantia da Ordenação ---
# Convertemos a coluna para um tipo Categórico com a ordem que definimos.
# Isso garante que o resultado final seja exibido na ordem correta.
df_analise['faixa_preenchimento'] = pd.Categorical(df_analise['faixa_preenchimento'], categories=ordered_labels, ordered=True)


# =================================================================
# FASE 4: CONTAGEM FINAL E APRESENTAÇÃO
# =================================================================
print("Gerando o resumo final...")

# Contamos quantas entidades caem em cada faixa e ordenamos pelo índice da categoria
contagem_final = df_analise['faixa_preenchimento'].value_counts().sort_index()

# Convertemos para um DataFrame para uma apresentação mais elegante
df_resultado = contagem_final.reset_index()
df_resultado.columns = ['Faixa de Dados Ausentes', 'Quantidade de Entidades']

print("\n--- Resumo da Qualidade de Preenchimento por Entidade (Faixas Detalhadas) ---")
display(df_resultado)

Carregando o arquivo: /home/fcsr/Documentos/Dbeaver/qualidade_dados_censo_escolar_2024/data/2_trusted/microdados_ed_basica_trusted.csv...
Arquivo carregado com sucesso!

Iniciando análise de qualidade por linha (entidade)...
Categorizando as entidades em faixas detalhadas...
Gerando o resumo final...

--- Resumo da Qualidade de Preenchimento por Entidade (Faixas Detalhadas) ---


Unnamed: 0,Faixa de Dados Ausentes,Quantidade de Entidades
0,0% (Exato),0
1,1% (Exato),0
2,2% (Exato),0
3,3% (Exato),113
4,4% (Exato),800
5,5% (Exato),2124
6,6% (Exato),5993
7,7% (Exato),3850
8,8% (Exato),29461
9,9% (Exato),37636
