In [1]:
# Libs
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
from pathlib import Path

## Defini caminho do arquivo

In [2]:
arquivo_excel = (
    Path.cwd()
    .parents[1] / 'data' / 'raw' / 'BASE_DE_DADOS_PEDE_2024_DATATHON.xlsx'
)

assert arquivo_excel.exists(), "‚ùå Arquivo Excel n√£o encontrado"
print("‚úÖ Arquivo encontrado:", arquivo_excel.name)


‚úÖ Arquivo encontrado: BASE_DE_DADOS_PEDE_2024_DATATHON.xlsx


## Carrega as planilhas e adiciona coluna de ano de refer√™ncia

In [3]:
excel_file = pd.ExcelFile(arquivo_excel)

df1 = pd.read_excel(arquivo_excel, sheet_name='PEDE2022')
df2 = pd.read_excel(arquivo_excel, sheet_name='PEDE2023')
df3 = pd.read_excel(arquivo_excel, sheet_name='PEDE2024')

print("üìä Shapes:")
print("PEDE2022:", df1.shape)
print("PEDE2023:", df2.shape)
print("PEDE2024:", df3.shape)

df1['ano_referencia'] = 2022
df2['ano_referencia'] = 2023
df3['ano_referencia'] = 2024

üìä Shapes:
PEDE2022: (860, 42)
PEDE2023: (1014, 48)
PEDE2024: (1156, 50)


## Empilhamento vertical

In [4]:
df_final = pd.concat(
    [df1, df2, df3],
    axis=0,
    ignore_index=True,
    sort=False
)

print("‚úÖ Dataset empilhado com sucesso")
print("Shape final:", df_final.shape)


‚úÖ Dataset empilhado com sucesso
Shape final: (3030, 63)


## Cria coluna de data

In [5]:
df_final.insert(
    0,
    'data_referencia',
    pd.to_datetime(df_final['ano_referencia'], format='%Y', errors='coerce')
)

## Ordena cronologicamente

In [6]:
df_final = (
    df_final
    .sort_values('data_referencia')
    .reset_index(drop=True)
)


## Valida√ß√£o

In [7]:
print("\nüîé Verifica√ß√£o temporal:")
print(df_final[['ano_referencia', 'data_referencia']].drop_duplicates().sort_values('ano_referencia'))

print("\nüìà Registros por ano:")
print(df_final['ano_referencia'].value_counts().sort_index())



üîé Verifica√ß√£o temporal:
      ano_referencia data_referencia
0               2022      2022-01-01
860             2023      2023-01-01
1874            2024      2024-01-01

üìà Registros por ano:
ano_referencia
2022     860
2023    1014
2024    1156
Name: count, dtype: int64


In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

df_final

Unnamed: 0,data_referencia,RA,Fase,Turma,Nome,Ano nasc,Idade 22,G√™nero,Ano ingresso,Institui√ß√£o de ensino,Pedra 20,Pedra 21,Pedra 22,INDE 22,Cg,Cf,Ct,N¬∫ Av,Avaliador1,Rec Av1,Avaliador2,Rec Av2,Avaliador3,Rec Av3,Avaliador4,Rec Av4,IAA,IEG,IPS,Rec Psicologia,IDA,Matem,Portug,Ingl√™s,Indicado,Atingiu PV,IPV,IAN,Fase ideal,Defasagem,Destaque IEG,Destaque IDA,Destaque IPV,ano_referencia,INDE 2023,Pedra 2023,Nome Anonimizado,Data de Nasc,Idade,Pedra 23,INDE 23,IPP,Mat,Por,Ing,Fase Ideal,Destaque IPV.1,INDE 2024,Pedra 2024,Avaliador5,Avaliador6,Escola,Ativo/ Inativo,Ativo/ Inativo.1
0,2022-01-01,RA-1,7,A,Aluno-1,2003.0,19.0,Menina,2016,Escola P√∫blica,Ametista,Ametista,Quartzo,5.783,753.0,18.0,10.0,4.0,Avaliador-5,Mantido na Fase atual,Avaliador-27,Promovido de Fase + Bolsa,Avaliador-28,Promovido de Fase,Avaliador-31,Mantido na Fase atual,8.300,4.100000,5.600,Requer avalia√ß√£o,4.00,2.7,3.5,6.0,Sim,N√£o,7.278000,5.0,Fase 8 (Universit√°rios),-1,Melhorar: Melhorar a sua entrega de li√ß√µes de casa.,Melhorar: Empenhar-se mais nas aulas e avalia√ß√µes.,Melhorar: Integrar-se mais aos Princ√≠pios Passos M√°gicos.,2022,,,,,,,,,,,,,,,,,,,,
1,2022-01-01,RA-61,5,B,Aluno-61,2007.0,15.0,Menino,2021,Escola P√∫blica,,√Ågata,Ametista,7.533,298.0,20.0,8.0,3.0,Avaliador-5,Mantido na Fase atual,Avaliador-27,Mantido na Fase atual,Avaliador-24,Promovido de Fase + Bolsa,Avaliador-31,,9.200,7.400000,7.500,N√£o atendido,5.80,1.7,6.3,9.3,Sim,N√£o,7.875000,10.0,Fase 5 (1¬∫ EM),0,Melhorar: Melhorar a sua entrega de li√ß√µes de casa.,Melhorar: Empenhar-se mais nas aulas e avalia√ß√µes.,Destaque: A sua boa integra√ß√£o aos Princ√≠pios Passos M√°gicos.,2022,,,,,,,,,,,,,,,,,,,,
2,2022-01-01,RA-610,1,L,Aluno-610,2013.0,9.0,Menina,2022,Escola P√∫blica,,,Top√°zio,8.180,91.0,21.0,3.0,3.0,Avaliador-4,Mantido na Fase atual,Avaliador-2,Promovido de Fase,,Mantido na Fase atual,,,9.000,9.600000,7.500,Sem limita√ß√µes,6.50,6.0,7.0,,N√£o,Sim,8.500000,10.0,Fase 1 (4¬∫ ano),0,Destaque: A sua boa entrega das li√ß√µes de casa.,Melhorar: Empenhar-se mais nas aulas e avalia√ß√µes.,Destaque: A sua boa integra√ß√£o aos Princ√≠pios Passos M√°gicos.,2022,,,,,,,,,,,,,,,,,,,,
3,2022-01-01,RA-611,1,M,Aluno-611,2010.0,12.0,Menino,2021,Escola P√∫blica,,Ametista,Ametista,7.756,214.0,54.0,4.0,3.0,Avaliador-7,Promovido de Fase + Bolsa,Avaliador-3,Promovido de Fase,,Promovido de Fase,,,9.500,7.600000,7.500,N√£o atendido,9.50,10.0,9.0,,Sim,N√£o,7.556000,5.0,Fase 3 (7¬∫ e 8¬∫ ano),-2,Destaque: A sua boa entrega das li√ß√µes de casa.,Destaque: As suas boas notas na Passos M√°gicos.,Destaque: A sua boa integra√ß√£o aos Princ√≠pios Passos M√°gicos.,2022,,,,,,,,,,,,,,,,,,,,
4,2022-01-01,RA-612,1,M,Aluno-612,2012.0,10.0,Menina,2021,Escola P√∫blica,,Top√°zio,Ametista,7.594,273.0,71.0,6.0,3.0,Avaliador-7,Promovido de Fase,Avaliador-3,Mantido na Fase atual,,Mantido na Fase atual,,,9.000,9.200000,7.500,N√£o atendido,7.90,9.7,6.2,,N√£o,N√£o,7.167000,5.0,Fase 2 (5¬∫ e 6¬∫ ano),-1,Destaque: A sua boa entrega das li√ß√µes de casa.,Destaque: As suas boas notas na Passos M√°gicos.,Melhorar: Integrar-se mais aos Princ√≠pios Passos M√°gicos.,2022,,,,,,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3025,2024-01-01,RA-1438,1M,1M,,,,Feminino,2024,P√∫blica,,,,,,,,2.0,Avaliador-17,,Avaliador-2,,,,,,10.002,9.000000,7.510,,7.00,,,,,,9.175000,5.0,,-1,,,,2024,,,Aluno-1438,2013-11-08 00:00:00,10,,,8.906250,6.0,8.0,,Fase 2 (5¬∞ e 6¬∞ ano),,8.176825,Top√°zio,,,EM Bairro Lagoa Grande,Cursando,Cursando
3026,2024-01-01,RA-1437,1M,1M,,,,Feminino,2024,P√∫blica,,,,,,,,2.0,Avaliador-17,,Avaliador-2,,,,,,8.502,9.347826,7.510,,8.00,,,,,,7.920000,5.0,,-1,,,,2024,,,Aluno-1437,2013-06-29 00:00:00,11,,,8.281250,8.0,8.0,,Fase 2 (5¬∞ e 6¬∞ ano),,7.98289,Ametista,,,EM Cecilia Cristina de Oliveira Rodrigues,Cursando,Cursando
3027,2024-01-01,RA-1436,1M,1M,,,,Feminino,2024,P√∫blica,,,,,,,,2.0,Avaliador-17,,Avaliador-2,,,,,,7.418,8.674948,7.510,,8.00,,,,,,7.170000,5.0,,-1,,,,2024,,,Aluno-1436,2013-06-24 00:00:00,11,,,8.281250,8.0,8.0,,Fase 2 (5¬∞ e 6¬∞ ano),,7.589915,Ametista,,,EM Alfredo Schunk,Cursando,Cursando
3028,2024-01-01,RA-1486,2L,2L,,,,Masculino,2024,P√∫blica,,,,,,,,3.0,Avaliador-19,,Avaliador-25,,Avaliador-2,,,,8.002,5.431373,6.260,,5.75,,,,,,7.056667,10.0,,0,,,,2024,,,Aluno-1486,2013-06-26 00:00:00,11,,,7.916667,6.0,5.5,,Fase 2 (5¬∞ e 6¬∞ ano),,6.865475,Agata,,,EE Maria Andr√© Schunck Dona,Cursando,Cursando
