## Script para obtenção dos dados do projeto



In [1]:
import pandas as pd
import os

# Definição do caminho para o diretório de dados
data_path = '../data'
file_name = 'BASE DE DADOS PEDE 2024 - DATATHON.xlsx'
file_path = os.path.join(data_path, file_name)

# Verificando existência do arquivo
if os.path.exists(file_path):
    print(f"Arquivo encontrado em: {file_path}")
else:
    print(f"Arquivo não encontrado em: {file_path}")

Arquivo encontrado em: ../data\BASE DE DADOS PEDE 2024 - DATATHON.xlsx


Os arquivos serão lidos a partir do diretório ../data, diretamente do arquivo excel disponibilizado se serão salvos do dataframes específicos para esse fim.

São 3 abas que temos no arquivo excel e por isso, serão criados 3 dataframes.

In [2]:
# Lendo o arquivo Excel e carregando todas as abas
try:
    # sheet_name=None lê todas as abas para um dicionário
    all_sheets = pd.read_excel(file_path, sheet_name=None)
    
    print("Abas encontradas:", list(all_sheets.keys()))
    
    # Criando variáveis globais dinamicamente para cada aba
    # Ex: 'PEDE 2022' vira a variável df_PEDE_2022
    # Isso garante que teremos variáveis individuais utilizáveis nas próximas células
    for name, df in all_sheets.items():
        # Sanitizando o nome da aba para ser uma variável válida
        safe_name = name.replace(' ', '_').replace('-', '_').upper()
        var_name = f'df_{safe_name}'
        
        # Atribuindo ao dicionário de variáveis globais
        globals()[var_name] = df
        
        print(f"\nDataset criado: {var_name} (Shape: {df.shape})")
        display(df.head())
        
except Exception as e:
    print(f"Erro ao ler arquivo Excel: {e}")

Abas encontradas: ['PEDE2022', 'PEDE2023', 'PEDE2024']

Dataset criado: df_PEDE2022 (Shape: (860, 42))


Unnamed: 0,RA,Fase,Turma,Nome,Ano nasc,Idade 22,Gênero,Ano ingresso,Instituição de ensino,Pedra 20,...,Inglês,Indicado,Atingiu PV,IPV,IAN,Fase ideal,Defas,Destaque IEG,Destaque IDA,Destaque IPV
0,RA-1,7,A,Aluno-1,2003,19,Menina,2016,Escola Pública,Ametista,...,6.0,Sim,Não,7.278,5.0,Fase 8 (Universitários),-1,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...
1,RA-2,7,A,Aluno-2,2005,17,Menina,2017,Rede Decisão,Ametista,...,9.7,Não,Não,6.778,10.0,Fase 7 (3º EM),0,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...
2,RA-3,7,A,Aluno-3,2005,17,Menina,2016,Rede Decisão,Ametista,...,6.9,Não,Não,7.556,10.0,Fase 7 (3º EM),0,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Destaque: A sua boa integração aos Princípios ...
3,RA-4,7,A,Aluno-4,2005,17,Menino,2017,Rede Decisão,Ametista,...,8.7,Não,Não,5.278,10.0,Fase 7 (3º EM),0,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...
4,RA-5,7,A,Aluno-5,2005,17,Menina,2016,Rede Decisão,Ametista,...,5.7,Não,Não,7.389,10.0,Fase 7 (3º EM),0,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...



Dataset criado: df_PEDE2023 (Shape: (1014, 48))


Unnamed: 0,RA,Fase,INDE 2023,Pedra 2023,Turma,Nome Anonimizado,Data de Nasc,Idade,Gênero,Ano ingresso,...,Indicado,Atingiu PV,IPV,IAN,Fase Ideal,Defasagem,Destaque IEG,Destaque IDA,Destaque IPV,Destaque IPV.1
0,RA-861,ALFA,9.31095,Topázio,ALFA A - G0/G1,Aluno-861,6/17/2015,8,Feminino,2023,...,,,8.92,10.0,ALFA (1° e 2° ano),0,,,,
1,RA-862,ALFA,8.2212,Topázio,ALFA A - G0/G1,Aluno-862,5/31/2014,9,Masculino,2023,...,,,8.585,5.0,Fase 1 (3° e 4° ano),-1,,,,
2,RA-863,ALFA,5.92975,Quartzo,ALFA A - G0/G1,Aluno-863,2/25/2016,7,Masculino,2023,...,,,6.26,10.0,ALFA (1° e 2° ano),0,,,,
3,RA-864,ALFA,7.034,Ametista,ALFA A - G0/G1,Aluno-864,2015-12-03 00:00:00,1900-01-08 00:00:00,Feminino,2023,...,,,8.5,10.0,ALFA (1° e 2° ano),0,,,,
4,RA-865,ALFA,8.1552,Topázio,ALFA A - G0/G1,Aluno-865,11/13/2014,8,Masculino,2023,...,,,7.915,10.0,ALFA (1° e 2° ano),0,,,,



Dataset criado: df_PEDE2024 (Shape: (1156, 50))


Unnamed: 0,RA,Fase,INDE 2024,Pedra 2024,Turma,Nome Anonimizado,Data de Nasc,Idade,Gênero,Ano ingresso,...,IPV,IAN,Fase Ideal,Defasagem,Destaque IEG,Destaque IDA,Destaque IPV,Escola,Ativo/ Inativo,Ativo/ Inativo.1
0,RA-1275,ALFA,7.611367,Ametista,ALFA A - G0/G1,Aluno-1275,2016-07-28,8,Masculino,2024,...,5.446667,10.0,ALFA (1° e 2° ano),0,,,,EE Chácara Florida II,Cursando,Cursando
1,RA-1276,ALFA,8.002867,Topázio,ALFA A - G0/G1,Aluno-1276,2016-10-16,8,Feminino,2024,...,7.05,10.0,ALFA (1° e 2° ano),0,,,,EE Chácara Florida II,Cursando,Cursando
2,RA-1277,ALFA,7.9522,Ametista,ALFA A - G0/G1,Aluno-1277,2016-08-16,8,Masculino,2024,...,7.046667,10.0,ALFA (1° e 2° ano),0,,,,EE Dom Pedro Villas Boas de Souza,Cursando,Cursando
3,RA-868,ALFA,7.156367,Ametista,ALFA A - G0/G1,Aluno-868,2015-11-08,8,Masculino,2023,...,7.213333,5.0,Fase 1 (3° e 4° ano),-1,,,,EE Chácara Florida II,Cursando,Cursando
4,RA-1278,ALFA,5.4442,Quartzo,ALFA A - G0/G1,Aluno-1278,2015-03-22,9,Masculino,2024,...,4.173333,5.0,Fase 1 (3° e 4° ano),-1,,,,EM Etelvina Delfim Simões,Cursando,Cursando


Conforme a documentação do projeto, os campos que são utilizados para o calculo do INDE são:

'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV'

Além destes campos, também estamos trazendo os campos da Fase Ideal e da Defasagem para calcular a Fase correta em que o aluno está. 

O script abaixo faz a verificação em cada df se os campos estão presentes e se estão com valores validos.

In [3]:
# 1. Definição das variáveis de verificação (Baseado nas regras do INDE [cite: 1, 30])
required_vars = ['NOME','INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV', 'Fase Ideal', 'Defa']

print("Relatório de Verificação de Variáveis (Regras INDE)")
print("=" * 50)

# Supondo que 'all_sheets' seja o seu dicionário de DataFrames carregados
for name in all_sheets.keys():
    # Padronização do nome da variável para busca no globals()
    safe_name = name.replace(' ', '_').replace('-', '_').upper()
    var_name = f'df_{safe_name}'
    
    # Acessa a variável global correspondente
    if var_name in globals():
        df = globals()[var_name]
        print(f"Verificando dataset: {var_name}")
        
        missing_vars = []
        found_vars_map = {}
        
        for var in required_vars:
            # TRATAMENTO:
            # 1. .strip() remove espaços invisíveis no início/fim
            # 2. .lower() ignora se está em maiúsculo ou minúsculo
            # 3. .startswith() garante que pegue colunas como 'INDE2022' ou 'Fase ideal'
            matches = [
                col for col in df.columns 
                if col.strip().lower().startswith(var.lower())
            ]
            
            if matches:
                # Armazena o nome real da coluna encontrada (ex: 'Fase ideal') 
                # mapeado para a nossa chave padrão (ex: 'Fase Ideal')
                found_vars_map[var] = matches[0]
            else:
                missing_vars.append(var)
        
        # Exibição dos resultados por dataset
        if missing_vars:
            print(f"  ❌ Variáveis ausentes: {missing_vars}")
            # Alerta específico para IPP (Indicador Psicopedagógico) [cite: 26, 30]
            if 'IPP' in missing_vars:
                 print("     Nota: O IPP é obrigatório para Fases 0 a 7.")
        else:
            print(f"  ✅ Todas as variáveis estão presentes (Total: {len(found_vars_map)} colunas mapeadas).")
        
        print("-" * 50)
    else:
        print(f"Aviso: Variável global {var_name} não encontrada.")

Relatório de Verificação de Variáveis (Regras INDE)
Verificando dataset: df_PEDE2022
  ❌ Variáveis ausentes: ['IPP']
     Nota: O IPP é obrigatório para Fases 0 a 7.
--------------------------------------------------
Verificando dataset: df_PEDE2023
  ✅ Todas as variáveis estão presentes (Total: 11 colunas mapeadas).
--------------------------------------------------
Verificando dataset: df_PEDE2024
  ✅ Todas as variáveis estão presentes (Total: 11 colunas mapeadas).
--------------------------------------------------


Como pode ser verificado, um dos datasets não possui o campo IPP identificado. Deste modo, vamos calular o IPP para este dataset fazendo uma engenharia reversa já que todos os demais campos estão presentes e permitem fazer essa inferência.

In [4]:
# Fórmula: IPP = (INDE - (IAN*0.1 + IDA*0.2 + IEG*0.2 + IAA*0.1 + IPS*0.1 + IPV*0.2)) / 0.1
        
weighted_sum = (
    df_PEDE2022['IAN'] * 0.1 + 
    df_PEDE2022['IDA'] * 0.2 + 
    df_PEDE2022['IEG'] * 0.2 + 
    df_PEDE2022['IAA'] * 0.1 + 
    df_PEDE2022['IPS'] * 0.1 + 
    df_PEDE2022['IPV'] * 0.2
    )
        
# Calculando IPP e salvando como nova coluna
df_PEDE2022['IPP'] = (df_PEDE2022['INDE 22'] - weighted_sum) / 0.1
        
df_PEDE2022.head()
         

Unnamed: 0,RA,Fase,Turma,Nome,Ano nasc,Idade 22,Gênero,Ano ingresso,Instituição de ensino,Pedra 20,...,Indicado,Atingiu PV,IPV,IAN,Fase ideal,Defas,Destaque IEG,Destaque IDA,Destaque IPV,IPP
0,RA-1,7,A,Aluno-1,2003,19,Menina,2016,Escola Pública,Ametista,...,Sim,Não,7.278,5.0,Fase 8 (Universitários),-1,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...,8.174
1,RA-2,7,A,Aluno-2,2005,17,Menina,2017,Rede Decisão,Ametista,...,Não,Não,6.778,10.0,Fase 7 (3º EM),0,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...,7.894
2,RA-3,7,A,Aluno-3,2005,17,Menina,2016,Rede Decisão,Ametista,...,Não,Não,7.556,10.0,Fase 7 (3º EM),0,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Destaque: A sua boa integração aos Princípios ...,8.198
3,RA-4,7,A,Aluno-4,2005,17,Menino,2017,Rede Decisão,Ametista,...,Não,Não,5.278,10.0,Fase 7 (3º EM),0,Melhorar: Melhorar a sua entrega de lições de ...,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...,5.554
4,RA-5,7,A,Aluno-5,2005,17,Menina,2016,Rede Decisão,Ametista,...,Não,Não,7.389,10.0,Fase 7 (3º EM),0,Destaque: A sua boa entrega das lições de casa.,Melhorar: Empenhar-se mais nas aulas e avaliaç...,Melhorar: Integrar-se mais aos Princípios Pass...,8.392


Com todos os campos calculados, partimos para a consolidação apenas das colunas de interesse

In [5]:
# Consolidação dos Datasets na Base Única
# Normalização de colunas e criação da variável ANO

processed_dfs = []
# Mantemos os nomes alvo como desejamos que fiquem no df_Base
target_vars = ['NOME', 'INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV', 'FASE IDEAL', 'DEFA']
years_map = {
    '2022': 22,
    '2023': 23,
    '2024': 24
}

print("Iniciando consolidação dos datasets...")

for year_str, year_val in years_map.items():
    # Busca variável correspondente ao ano no ambiente global
    var_name = next((v for v in globals() if year_str in v and v.startswith('df_')), None)
    
    if var_name:
        print(f"Processando ano {year_str} (Dataset: {var_name})")
        df = globals()[var_name].copy()
        
        # --- NOVIDADE: Normalização prévia das colunas para evitar conflitos de Case ---
        # Transformamos todas as colunas do DF atual em MAIÚSCULO temporariamente
        df.columns = [c.strip().upper() for c in df.columns]
        
        # Dicionário de renomeação e lista de colunas a manter
        rename_map = {}
        cols_to_keep = []
        
        for target in target_vars:
            # Tratamento especial para o IPP calculado em 2022
            if target == 'IPP' and 'IPP_2022_CALC' in df.columns:
                 cols_to_keep.append('IPP_2022_CALC')
                 rename_map['IPP_2022_CALC'] = 'IPP'
                 continue

            # Busca coluna correspondente ignorando case (pois o DF agora está todo em UPPER)
            # Prioridade: 1. matches exatos ou com sufixo do ano. 2. matches genéricos startswith.
            match = next((c for c in df.columns if c.startswith(target) and (year_str in c or c == target)), None)
            
            # Fallback: tenta match apenas com o início da string
            if not match:
                 match = next((c for c in df.columns if c.startswith(target)), None)
            
            if match:
                cols_to_keep.append(match)
                rename_map[match] = target
            else:
                print(f"  ⚠️ Aviso: Variável {target} não encontrada para o ano {year_str}")
        
        # Filtragem e Renomeação utilizando os nomes normalizados
        df_subset = df[cols_to_keep].rename(columns=rename_map)
        
        # Adicionando coluna de Ano
        df_subset['ANO'] = year_val
        
        processed_dfs.append(df_subset)
        print(f"  ✅ Processado. Colunas finais: {df_subset.columns.tolist()}")
        
    else:
        print(f"  ❌ Dataset do ano {year_str} não encontrado.")

# Concatenando tudo
if processed_dfs:
    df_Base = pd.concat(processed_dfs, ignore_index=True)
    
    # Garantia final: Transformar as colunas da Base em Maiúsculo (Fase Ideal -> FASE IDEAL)
    df_Base.columns = [c.upper() for c in df_Base.columns]
    
    print("\nBase consolidada criada com sucesso!")
    # No Jupyter/Google Colab utilizamos display, em scripts puros usamos print
    try:
        display(df_Base.info())
        display(df_Base.head())
    except NameError:
        print(df_Base.info())
        print(df_Base.head())
    
    # Disponibiliza GLOBALMENTE
    globals()['df_Base'] = df_Base
else:
    print("Nenhum dado foi processado para a Base.")

Iniciando consolidação dos datasets...
Processando ano 2022 (Dataset: df_PEDE2022)
  ✅ Processado. Colunas finais: ['NOME', 'INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV', 'FASE IDEAL', 'DEFA', 'ANO']
Processando ano 2023 (Dataset: df_PEDE2023)
  ✅ Processado. Colunas finais: ['NOME', 'INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV', 'FASE IDEAL', 'DEFA', 'ANO']
Processando ano 2024 (Dataset: df_PEDE2024)
  ✅ Processado. Colunas finais: ['NOME', 'INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV', 'FASE IDEAL', 'DEFA', 'ANO']

Base consolidada criada com sucesso!
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3030 entries, 0 to 3029
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   NOME        3030 non-null   object 
 1   INDE        2883 non-null   object 
 2   IAN         3030 non-null   float64
 3   IDA         2852 non-null   float64
 4   IEG         2954 non-null   float64
 5   IAA        

None

Unnamed: 0,NOME,INDE,IAN,IDA,IEG,IAA,IPS,IPP,IPV,FASE IDEAL,DEFA,ANO
0,Aluno-1,5.783,5.0,4.0,4.1,8.3,5.6,8.174,7.278,Fase 8 (Universitários),-1,22
1,Aluno-2,7.055,10.0,6.8,5.2,8.8,6.3,7.894,6.778,Fase 7 (3º EM),0,22
2,Aluno-3,6.591,10.0,5.6,7.9,0.0,5.6,8.198,7.556,Fase 7 (3º EM),0,22
3,Aluno-4,5.951,10.0,5.0,4.5,8.8,5.6,5.554,5.278,Fase 7 (3º EM),0,22
4,Aluno-5,7.427,10.0,5.2,8.6,7.9,5.6,8.392,7.389,Fase 7 (3º EM),0,22


Como os calculos precisam ser realizados com o valor da Fase, tivemos que fazer uma inferencia deste valor a partir dos campos fase ideal e defasagem.

In [6]:
import numpy as np
import re

# 1. Garantir que as colunas alvo estão em maiúsculo (conforme padronização anterior)
df_Base.columns = [c.upper() for c in df_Base.columns]

print("Iniciando cálculo da coluna FASE...")

# 2. Extração do número da FASE IDEAL
# A regex r'Fase\s+(\d+)' procura a palavra 'Fase', espaço, e captura os dígitos seguintes
df_Base['NUM_FASE_IDEAL'] = df_Base['FASE IDEAL'].str.extract(r'Fase\s+(\d+)').astype(float)

# 3. Aplicação da Lógica Condicional
# Se FASE IDEAL começa com 'Fase', somamos o número extraído com a DEFA.
# Caso contrário (qualquer outra string), atribuímos 0.
df_Base['FASE'] = np.where(
    df_Base['FASE IDEAL'].str.startswith('Fase', na=False),
    df_Base['NUM_FASE_IDEAL'] + df_Base['DEFA'],
    0
)

# 4. Limpeza: Remover a coluna auxiliar de extração
df_Base = df_Base.drop(columns=['NUM_FASE_IDEAL'])

print("✅ Coluna FASE calculada com sucesso!")

# Visualização do resultado para conferência
cols_check = ['FASE IDEAL', 'DEFA', 'FASE']
display(df_Base[cols_check].head(10))

# Salvando de volta no dicionário global se necessário
globals()['df_Base'] = df_Base

Iniciando cálculo da coluna FASE...
✅ Coluna FASE calculada com sucesso!


Unnamed: 0,FASE IDEAL,DEFA,FASE
0,Fase 8 (Universitários),-1,7.0
1,Fase 7 (3º EM),0,7.0
2,Fase 7 (3º EM),0,7.0
3,Fase 7 (3º EM),0,7.0
4,Fase 7 (3º EM),0,7.0
5,Fase 8 (Universitários),-1,7.0
6,Fase 8 (Universitários),-1,7.0
7,Fase 8 (Universitários),-1,7.0
8,Fase 8 (Universitários),-1,7.0
9,Fase 8 (Universitários),-1,7.0


Agoa que temos os dados da FASE calculados, realizamos uma verificação na base e identificamos que a contagem de dados não era a mesma para todos os campos, o que indicava que existiam dados faltantes que precisavam ser trabalhados

In [7]:
df_Base.describe()

Unnamed: 0,IAN,IDA,IEG,IAA,IPS,IPP,IPV,DEFA,ANO,FASE
count,3030.0,2852.0,2954.0,2865.0,2859.0,2852.0,2852.0,3030.0,3030.0,3030.0
mean,7.179043,6.375964,7.945696,7.918225,6.287129,7.171427,7.545476,-0.642904,23.09769,2.558086
std,2.535266,1.956637,2.152281,2.626209,1.792491,1.159301,1.084347,0.866382,0.80995,2.258272
min,2.5,0.0,0.0,0.0,2.5,-0.074,2.5,-5.0,22.0,0.0
25%,5.0,5.1,7.3,7.9,5.02,6.3295,6.984,-1.0,22.0,1.0
50%,5.0,6.666667,8.6,8.751,7.5,7.5,7.583,-1.0,23.0,2.0
75%,10.0,7.833333,9.4,9.5,7.51,7.96875,8.255,0.0,24.0,4.0
max,10.0,10.0,10.0,10.002,10.0,10.0,10.01,3.0,24.0,9.0


Verificando o motivo de IDA, IEG e IAA estarem com valores iguais a zero

In [8]:
# Filtra linhas onde IDA, IEG ou IAA são iguais a zero
zeros_check = df_Base[(df_Base['IDA'] == 0) | (df_Base['IEG'] == 0) | (df_Base['IAA'] == 0)]
display(zeros_check)

Unnamed: 0,NOME,INDE,IAN,IDA,IEG,IAA,IPS,IPP,IPV,FASE IDEAL,DEFA,ANO,FASE
2,Aluno-3,6.591,10.0,5.6,7.9,0.0,5.6,8.198,7.556,Fase 7 (3º EM),0,22,7.0
6,Aluno-7,6.818,5.0,7.6,8.4,0.0,7.5,8.346,7.667,Fase 8 (Universitários),-1,22,7.0
11,Aluno-12,4.832,10.0,1.5,4.0,0.0,6.9,7.642,6.389,Fase 7 (3º EM),0,22,7.0
26,Aluno-27,7.124,5.0,8.0,7.6,0.0,8.1,8.718,9.111,Fase 7 (3º EM),-1,22,6.0
28,Aluno-29,4.985,5.0,3.7,4.0,0.0,8.8,5.428,7.611,Fase 7 (3º EM),-1,22,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3025,Aluno-1658,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
3026,Aluno-1659,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
3027,Aluno-1252,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
3028,Aluno-1660,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0


In [9]:
df_Base[(df_Base['INDE'] == 'INCLUIR')] 

Unnamed: 0,NOME,INDE,IAN,IDA,IEG,IAA,IPS,IPP,IPV,FASE IDEAL,DEFA,ANO,FASE
2992,Aluno-1637,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2993,Aluno-1638,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2994,Aluno-1268,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2995,Aluno-1260,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2996,Aluno-1639,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2997,Aluno-1640,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2998,Aluno-1641,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
2999,Aluno-1266,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
3000,Aluno-1642,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0
3001,Aluno-1258,INCLUIR,10.0,,0.0,,,,,Fase 8 (Universitários),1,24,9.0


Pelo que pudemos constatar, os dados que estão aparecendo zerados são de estudantes que não fazem mais parte do rojeto pois estão além da fase 8. Por esse motivo, os dados serão excluídos. 

In [10]:
# Localiza os índices das linhas que atendem à condição e os remove
df_Base = df_Base.drop(df_Base[df_Base['INDE'] == 'INCLUIR'].index)

Verificando agora as linhas em que o IPP está <=0

In [11]:
# Filtra linhas onde IPP é negativo
ipp_negative = df_Base[df_Base['IPP'] <= 0]
display(ipp_negative)

Unnamed: 0,NOME,INDE,IAN,IDA,IEG,IAA,IPS,IPP,IPV,FASE IDEAL,DEFA,ANO,FASE
750,Aluno-751,5.246,5.0,3.8,5.8,8.5,7.5,-0.074,6.167,Fase 2 (5º e 6º ano),-2,22,0.0


O resultado negativo é decorrente do valor de INDE ser baixo. Pode ser um erro em alguns do dados que não conseguimos detectar agora. Vamos atribuir o valor zero a ele.


In [12]:
## Remove a linha 750 e atualiza o DataFrame
df_Base.loc[750,'IPP']=0

O Script abaixo foi feito para nos dar essa dimensão exata dos dados faltantes

In [13]:
# Verificação de dados faltantes por coluna
missing_data = df_Base.isnull().sum()
missing_percent = (df_Base.isnull().sum() / len(df_Base)) * 100

# Criando um relatório consolidado
report_missing = pd.DataFrame({
    'Faltantes (Absoluto)': missing_data,
    'Faltantes (%)': missing_percent
})

print("Relatório de Dados Ausentes:")
print("-" * 30)
display(report_missing[report_missing['Faltantes (Absoluto)'] > 0].sort_values(by='Faltantes (%)', ascending=False))

Relatório de Dados Ausentes:
------------------------------


Unnamed: 0,Faltantes (Absoluto),Faltantes (%)
INDE,147,4.913102
IDA,140,4.679144
IPV,140,4.679144
IPP,140,4.679144
IPS,133,4.445187
IAA,127,4.244652
IEG,76,2.540107


Com a infromação dos dados faltantes, montamos um script para obter os dados corretos tendo por base o calculo do INDE. Tivemos mais de uma variável faltando que impessaa calcular o índice, optamos por indicar a mediana como valor.

In [14]:


def imputar_dados_inde_corrigido(df):
    df_clean = df.copy()
    
    # 1. Limpeza de dados não numéricos (como 'INCLUIR')
    cols_para_limpar = ['INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV']
    for col in cols_para_limpar:
        # Transforma erros e textos em NaN para permitir cálculos
        df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')

    # 2. Definição dos Pesos conforme o documento
    pesos_f0_7 = {'IAN': 0.1, 'IDA': 0.2, 'IEG': 0.2, 'IAA': 0.1, 'IPS': 0.1, 'IPP': 0.1, 'IPV': 0.2}
    pesos_f8 = {'IAN': 0.1, 'IDA': 0.4, 'IEG': 0.2, 'IAA': 0.1, 'IPS': 0.2, 'IPP': 0, 'IPV': 0}

    def processar_linha(row):
        fase = row['FASE']
        p = pesos_f0_7 if fase <= 7 else pesos_f8
        cols_indicadores = list(p.keys())

        # CASO A: O INDE está ausente -> Calcular o INDE
        if pd.isna(row['INDE']):
            # Calcula a soma ponderada apenas dos valores que não são NaN
            inde_calc = sum(row[c] * p[c] for c in cols_indicadores if pd.notna(row[c]))
            # Se tivermos pelo menos 4 indicadores, validamos o INDE
            if row[cols_indicadores].notna().sum() >= 4:
                row['INDE'] = inde_calc

        # CASO B: O INDE existe, mas falta UM indicador -> Engenharia Reversa
        elif row[cols_indicadores].isna().sum() == 1:
            col_faltante = [c for c in cols_indicadores if pd.isna(row[c])][0]
            peso_faltante = p[col_faltante]
            
            if peso_faltante > 0:
                soma_outros = sum(row[c] * p[c] for c in cols_indicadores if c != col_faltante and pd.notna(row[c]))
                row[col_faltante] = (row['INDE'] - soma_outros) / peso_faltante

        return row

    print("Corrigindo tipos de dados e aplicando fórmulas de engenharia reversa...")
    df_clean = df_clean.apply(processar_linha, axis=1)
    
    # 3. Preenchimento residual (somente se a conta acima não foi possível)
    for col in cols_para_limpar:
        faltantes = df_clean[col].isna().sum()
        if faltantes > 0:
            mediana = df_clean[col].median()
            print(f"  Aviso: {faltantes} valores em {col} não puderam ser calculados e usaram a mediana ({mediana:.2f}).")
            df_clean[col] = df_clean[col].fillna(mediana)

    return df_clean

# Execução
df_Base = imputar_dados_inde_corrigido(df_Base)

print("\nRelatório Final de Dados Nulos:")
print(df_Base[['INDE', 'IAN', 'IDA', 'IEG', 'IAA', 'IPS', 'IPP', 'IPV']].isnull().sum())

Corrigindo tipos de dados e aplicando fórmulas de engenharia reversa...
  Aviso: 140 valores em INDE não puderam ser calculados e usaram a mediana (7.39).
  Aviso: 140 valores em IDA não puderam ser calculados e usaram a mediana (6.67).
  Aviso: 76 valores em IEG não puderam ser calculados e usaram a mediana (8.60).
  Aviso: 127 valores em IAA não puderam ser calculados e usaram a mediana (8.75).
  Aviso: 133 valores em IPS não puderam ser calculados e usaram a mediana (7.50).
  Aviso: 140 valores em IPP não puderam ser calculados e usaram a mediana (7.50).
  Aviso: 140 valores em IPV não puderam ser calculados e usaram a mediana (7.58).

Relatório Final de Dados Nulos:
INDE    0
IAN     0
IDA     0
IEG     0
IAA     0
IPS     0
IPP     0
IPV     0
dtype: int64


In [15]:
df_Base.describe()

Unnamed: 0,INDE,IAN,IDA,IEG,IAA,IPS,IPP,IPV,DEFA,ANO,FASE
count,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0,2992.0
mean,7.272823,7.143215,6.389567,8.06323,7.953574,6.341044,7.186826,7.547232,-0.66377,23.08623,2.47627
std,0.970256,2.531175,1.911282,1.941241,2.575329,1.769932,1.133812,1.058695,0.85172,0.808628,2.151898
min,3.032,2.5,0.0,0.0,0.0,2.5,0.0,2.5,-5.0,22.0,0.0
25%,6.71152,5.0,5.2,7.4,7.9,5.6,6.3955,7.0,-1.0,22.0,1.0
50%,7.386925,5.0,6.666667,8.6,8.751,7.5,7.5,7.583,-1.0,23.0,2.0
75%,7.95685,10.0,7.8,9.4,9.5,7.51,7.96875,8.223333,0.0,24.0,4.0
max,9.531325,10.0,10.0,10.0,10.002,10.0,10.0,10.01,3.0,24.0,8.0


Agora que não temos mais nenhum dado faltante pudemos salvar o resultado para ser utilizado nas análises. 

In [16]:
import os

# 1. Define o caminho relativo (subir um nível e entrar na pasta data)
output_dir = os.path.join('..', 'data')
output_path = os.path.join(output_dir, 'df_Base_final.csv')

# 2. Verifica se a pasta existe; se não, cria a pasta
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
    print(f"Pasta '{output_dir}' criada com sucesso.")

# 3. Salva o DataFrame no caminho especificado
df_Base.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"✅ Exportação concluída!")
print(f"O arquivo foi salvo em: {output_path}")

✅ Exportação concluída!
O arquivo foi salvo em: ..\data\df_Base_final.csv
