**Importação da base PEDE diretamente do GitHub (com 3 abas)**

Este bloco lê o arquivo Excel que está no seu repositório GitHub (pasta **data/raw/**) e importa as três abas (**PEDE2022**, **PEDE2023**, **PEDE2024**) em dataframes separados. Depois, adiciona a coluna **ano_base** para identificar o ano de cada registro e junta tudo no dataframe final **df_fase5**.

**O que cada parte faz:**

1) **Monta a URL “raw” do GitHub**  
- **base** aponta para a pasta do arquivo no GitHub via **raw.githubusercontent.com** (é o formato certo para o Python baixar o arquivo).  
- **nome** é o nome do arquivo exatamente como está no repositório.

2) **Trata espaços no nome do arquivo**  
- **quote(nome)** converte espaços e caracteres especiais para um formato aceito em URL (por exemplo, espaço vira **%20**).  
- Isso evita erro de “arquivo não encontrado” quando o nome tem espaços.

3) **Confere as abas do Excel antes de ler**  
- **pd.ExcelFile(url)** abre o arquivo para inspecionar a estrutura.  
- **xls.sheet_names** imprime a lista de abas encontradas, para você confirmar os nomes exatos.

4) **Lê as três abas**  
- **pd.read_excel(url, sheet_name="PEDE2022")** (e equivalentes) cria **df_2022**, **df_2023**, **df_2024**.  
- Se o nome da aba estiver diferente (maiúsculas/minúsculas, espaços), ajuste o **sheet_name** usando o que apareceu em **Abas encontradas**.

5) **Cria a coluna ano_base**  
- Adiciona o ano correspondente em cada dataframe para manter rastreabilidade depois de juntar.

6) **Concatena em um único dataframe**  
- **pd.concat([df_2022, df_2023, df_2024], ignore_index=True)** junta tudo em **df_fase5** e recria o índice do zero.

7) **Validação rápida**  
- Imprime o **shape** de cada ano e do dataframe final.  
- Mostra as primeiras linhas (**head()**) para confirmar que a importação ficou correta.



In [5]:
import pandas as pd
from urllib.parse import quote

base = "https://raw.githubusercontent.com/tivanello/fase5/main/data/raw/"
nome = "BASE DE DADOS PEDE 2024 - DATATHON.xlsx"

url = base + quote(nome)

# Conferir abas
xls = pd.ExcelFile(url)
print("Abas encontradas:", xls.sheet_names)

# Ler abas (ajuste se tiver diferença de maiúsculas/minúsculas)
df_2022 = pd.read_excel(url, sheet_name="PEDE2022")
df_2023 = pd.read_excel(url, sheet_name="PEDE2023")
df_2024 = pd.read_excel(url, sheet_name="PEDE2024")

# Tag de ano (pra não virar bagunça depois)
df_2022["ano_base"] = 2022
df_2023["ano_base"] = 2023
df_2024["ano_base"] = 2024

# Junta tudo
df_fase5 = pd.concat([df_2022, df_2023, df_2024], ignore_index=True)

print("Shapes:", df_2022.shape, df_2023.shape, df_2024.shape)
print("df_fase5 shape:", df_fase5.shape)
display(df_fase5.head())



Abas encontradas: ['PEDE2022', 'PEDE2023', 'PEDE2024']
Shapes: (860, 43) (1014, 49) (1156, 51)
df_fase5 shape: (3030, 64)


Unnamed: 0,RA,Fase,Turma,Nome,Ano nasc,Idade 22,Gênero,Ano ingresso,Instituição de ensino,Pedra 20,...,Fase Ideal,Defasagem,Destaque IPV.1,INDE 2024,Pedra 2024,Avaliador5,Avaliador6,Escola,Ativo/ Inativo,Ativo/ Inativo.1
0,RA-1,7,A,Aluno-1,2003.0,19.0,Menina,2016,Escola Pública,Ametista,...,,,,,,,,,,
1,RA-2,7,A,Aluno-2,2005.0,17.0,Menina,2017,Rede Decisão,Ametista,...,,,,,,,,,,
2,RA-3,7,A,Aluno-3,2005.0,17.0,Menina,2016,Rede Decisão,Ametista,...,,,,,,,,,,
3,RA-4,7,A,Aluno-4,2005.0,17.0,Menino,2017,Rede Decisão,Ametista,...,,,,,,,,,,
4,RA-5,7,A,Aluno-5,2005.0,17.0,Menina,2016,Rede Decisão,Ametista,...,,,,,,,,,,


In [6]:
df_fase5.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3030 entries, 0 to 3029
Data columns (total 64 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   RA                     3030 non-null   object 
 1   Fase                   3030 non-null   object 
 2   Turma                  3030 non-null   object 
 3   Nome                   860 non-null    object 
 4   Ano nasc               860 non-null    float64
 5   Idade 22               860 non-null    float64
 6   Gênero                 3030 non-null   object 
 7   Ano ingresso           3030 non-null   int64  
 8   Instituição de ensino  3029 non-null   object 
 9   Pedra 20               754 non-null    object 
 10  Pedra 21               1061 non-null   object 
 11  Pedra 22               1932 non-null   object 
 12  INDE 22                1932 non-null   float64
 13  Cg                     860 non-null    float64
 14  Cf                     860 non-null    float64
 15  Ct  

**Verificações mínimas após a importação (antes de limpar e salvar em data/processed/)**

Aqui irei diagnosticar se a concatenação das abas **PEDE2022**, **PEDE2023**, **PEDE2024**, ficou consistente e se existem problemas que podem estragar a análise e o modelo (duplicidades, colunas vazias e tipos errados).

**O que o bloco irá verifica:**

1) **Linhas por ano_base**  
Mostra quantos registros existem em cada ano.

2) **RAs únicos por ano_base**  
Conta quantos alunos distintos existem por ano. Ajuda a perceber se tem repetição demais ou ano com volume estranho.

3) **Duplicidade de RA dentro do mesmo ano**  
Detecta se existe mais de uma linha com o mesmo **RA** no mesmo **ano_base**.  
Se existir, exibe uma amostra para entender o motivo (duplicata real, turma diferente, etc.).

4) **Colunas completamente vazias**  
Lista colunas com **0 valores preenchidos**. Normalmente são sobras de exportação do Excel (devem ser removidas)

5) **Colunas suspeitas com tipo object**  
Identifica colunas que deveriam ser numéricas ou datas, mas estão como texto (por exemplo **INDE 2024**, **Idade**, **Data de Nasc**).  
Depois mostra uma amostra de valores dessas colunas para enxergar o padrão (vírgula decimal, “14 anos”, formato de data, etc.).


In [7]:
import pandas as pd
import numpy as np

# 1) Linhas por ano + RAs únicos
print("Linhas por ano_base:")
print(df_fase5["ano_base"].value_counts(dropna=False).sort_index())

print("\nRAs únicos por ano_base:")
print(df_fase5.groupby("ano_base")["RA"].nunique())

# 2) Duplicidade de RA por ano (quantos RAs repetem)
dup = df_fase5.duplicated(subset=["ano_base", "RA"], keep=False)
print("\nLinhas com RA duplicado dentro do mesmo ano:", int(dup.sum()))
if dup.any():
    display(df_fase5.loc[dup, ["ano_base", "RA", "Turma"]].sort_values(["ano_base","RA"]).head(20))

# 3) Colunas com 0 non-null (lixo)
zero_non_null = [c for c in df_fase5.columns if df_fase5[c].notna().sum() == 0]
print("\nColunas com 0 valores preenchidos:", zero_non_null)

# 4) Tipos suspeitos (numérico como texto)
suspeitas = [c for c in df_fase5.columns if ("INDE" in c or c in ["Idade","Data de Nasc","INDE 2024"]) and df_fase5[c].dtype == "object"]
print("\nColunas suspeitas (object onde deveria ser numérico/data):", suspeitas)

# 5) Amostra de valores para entender padrão (só das suspeitas)
for c in suspeitas[:6]:
    print("\nAmostra ->", c)
    display(df_fase5[c].dropna().astype(str).head(10))


Linhas por ano_base:
ano_base
2022     860
2023    1014
2024    1156
Name: count, dtype: int64

RAs únicos por ano_base:
ano_base
2022     860
2023    1014
2024    1156
Name: RA, dtype: int64

Linhas com RA duplicado dentro do mesmo ano: 0

Colunas com 0 valores preenchidos: ['Destaque IPV.1']

Colunas suspeitas (object onde deveria ser numérico/data): ['Data de Nasc', 'Idade', 'INDE 2024']

Amostra -> Data de Nasc


Unnamed: 0,Data de Nasc
860,6/17/2015
861,5/31/2014
862,2/25/2016
863,2015-12-03 00:00:00
864,11/13/2014
865,2016-10-02 00:00:00
866,6/29/2015
867,2015-08-11 00:00:00
868,1/15/2015
869,10/20/2014



Amostra -> Idade


Unnamed: 0,Idade
860,8
861,9
862,7
863,1900-01-08 00:00:00
864,8
865,1900-01-07 00:00:00
866,8
867,1900-01-07 00:00:00
868,8
869,9



Amostra -> INDE 2024


Unnamed: 0,INDE 2024
1874,7.611366666700001
1875,8.002866666700001
1876,7.952200000100001
1877,7.156366666600001
1878,5.444199999900001
1879,8.0822
1880,8.959700000000002
1881,7.346677272700001
1882,8.152624242500002
1883,7.982890909100001


## **Conclusão**

* Concatenação por ano esta correta e corresponde a cada aba da fonte de dados: 860 (2022), 1014 (2023), 1156 (2024).

* Sem RA duplicado dentro do mesmo ano (perfeito para modelagem e EDA).

## **O que porecisa ser feito:**

1) Remover coluna lixo

   * IPV.1 está 100% vazia → deverá ser apagada.

2) Corrigir tipos (as 3 “suspeitas”)

   * Data de Nasc: o formato está misturando (MM/DD/YYYY e datetime ISO). **Tem que alterar para datetime.**
   * Idade: tem valores numéricos e também datas tipo 1900-01-08 (é erro clássico de Excel: idade foi salva como data). **Tem que ser alterado para inteiro.**
   * INDE 2024: está como texto, mas os valores são numéricos. **Tem que se alterado para float.**

3) Harmonizar nomes
   * Padronizar tudo para snake_case (minúsculo, sem acento, sem espaço);
   * Unificar colunas duplicadas do mesmo conceito:
      * fase ideal + Fase Ideal → fase_ideal
      * defas + Defasagem → defasagem
      * matem/portug/inglês + mat/por/ing → nota_mat, nota_port, nota_ing
   * Padronizar medidas por ano:
      * inde_2022, inde_2023, inde_2024
      * pedra_2022, pedra_2023, pedra_2024
   * manter ano_base para “long”
   

In [11]:
import re
import os
import pandas as pd
import numpy as np

# usa df se existir, senão usa df_fase5
try:
    df
except NameError:
    df = df_fase5.copy()

# 1) garantir fase como string padronizada
if "fase" not in df.columns and "Fase" in df.columns:
    df = df.rename(columns={"Fase": "fase"})

df["fase"] = df["fase"].astype(str).str.strip().str.upper()

# 2) criar fase_num (extrai o primeiro número que aparecer)
df["fase_num"] = pd.to_numeric(df["fase"].str.extract(r"(\d+)", expand=False), errors="coerce").astype("Int64")

# 3) auditoria rápida (pra você bater o olho)
print("Top valores de fase:")
print(df["fase"].value_counts(dropna=False).head(20))

print("\nAmostra fase -> fase_num:")
display(df[["fase", "fase_num"]].drop_duplicates().sort_values(["fase_num", "fase"]).head(30))

print("\nQtd fase_num nula:", int(df["fase_num"].isna().sum()))

# 4) blindagem parquet: toda coluna object vira string
obj_cols = df.select_dtypes(include=["object"]).columns
df[obj_cols] = df[obj_cols].astype("string")

# 5) salvar
os.makedirs("data/processed", exist_ok=True)
df.to_parquet("data/processed/pede_2022_2024_processed.parquet", index=False)
df.to_csv("data/processed/pede_2022_2024_processed.csv", index=False, encoding="utf-8")

print("\nOK. Salvo em data/processed/")
print("Shape:", df.shape)


Top valores de fase:
fase
ALFA      427
FASE 2    200
1         192
0         190
FASE 1    173
2         155
3         148
FASE 3    132
FASE 4     94
4          76
FASE 5     65
FASE 8     63
5          60
9          38
FASE 6     33
7E         25
FASE 7     23
8E         23
7          21
6          18
Name: count, dtype: int64

Amostra fase -> fase_num:


Unnamed: 0,fase,fase_num
670,0,0
478,1,1
2070,1A,1
2084,1B,1
2099,1C,1
2113,1D,1
2123,1E,1
2131,1G,1
2147,1H,1
2159,1J,1



Qtd fase_num nula: 427

OK. Salvo em data/processed/
Shape: (3030, 56)


In [12]:
# 1) fase_num nula (provável ALFA)
print("fase_num nula:", int(df["fase_num"].isna().sum()))

# 2) sanity check: inde por ano (quando você já tiver inde no LONG, isso vira obrigatório)
print(df_fase5.groupby("ano_base")["RA"].nunique())

# 3) status ativo/inativo (se ainda estiver com os nomes originais)
cols_status = [c for c in df_fase5.columns if "Ativo/ Inativo" in c]
print("Cols status:", cols_status)


fase_num nula: 427
ano_base
2022     860
2023    1014
2024    1156
Name: RA, dtype: int64
Cols status: ['Ativo/ Inativo', 'Ativo/ Inativo.1']


In [13]:
import pandas as pd

# 1) criar uma coluna única
df_fase5["Ativo_Inativo"] = (
    df_fase5[["Ativo/ Inativo", "Ativo/ Inativo.1"]]
    .bfill(axis=1)
    .iloc[:, 0]
)

# 2) remover as duplicadas
df_fase5 = df_fase5.drop(columns=["Ativo/ Inativo", "Ativo/ Inativo.1"])

# 3) conferência
print("Colunas de status restantes:",
      [c for c in df_fase5.columns if "Ativo" in c or "Inativo" in c])

print("\nTop valores de Ativo_Inativo:")
print(df_fase5["Ativo_Inativo"].astype(str).str.strip().value_counts(dropna=False).head(20))


Colunas de status restantes: ['Ativo_Inativo']

Top valores de Ativo_Inativo:
Ativo_Inativo
nan         1874
Cursando    1156
Name: count, dtype: int64


  .bfill(axis=1)


**Bloco LONG: vou padronizar a base PEDE (2022–2024) em um único dataset por ano**

Agora vou rodar um bloco, denominado **Bloco LONG**, para transformar a base que hoje está “wide” (com colunas diferentes dependendo do ano) em um formato **LONG**, onde cada linha representa um aluno (**RA**) em um ano específico (**ano_base**) com colunas padronizadas (mesmo nome e mesmo significado para todos os anos).

Meu objetivo aqui é parar de lidar com colunas espalhadas como **INDE 22**, **INDE 23**, **INDE 2023**, **INDE 2024** e passar a ter uma coluna única **inde** (e o mesmo para **pedra**, notas, defasagem etc.). Isso deixa a base pronta para EDA, feature engineering, modelagem e para o Streamlit.

**O que eu vou fazer dentro do Bloco LONG:**

1) **Vou criar e padronizar as colunas fase e fase_num**  
- Vou criar **fase** como texto padronizado (maiúsculo e sem espaços sobrando).  
- Vou criar **fase_num** extraindo o primeiro número encontrado em **fase**.  
  - Exemplos: **FASE 2 → 2**, **1A → 1**, **7E → 7**, **ALFA → vazio (NaN)**.  
- Vou manter **fase** e **fase_num** ao mesmo tempo, porque **fase** pode carregar informação extra (como ALFA e sufixos A/B/E) que eu posso precisar depois.

2) **Vou escolher o INDE correto conforme o ano_base e criar a coluna inde**  
- Para 2022, vou pegar **INDE 22**.  
- Para 2023, vou tentar **INDE 2023** e, se estiver vazio, vou completar com **INDE 23**.  
- Para 2024, vou pegar **INDE 2024**.  
- No fim, vou converter **inde** para numérico.

3) **Vou escolher a Pedra correta conforme o ano_base e criar a coluna pedra**  
- Para 2022, vou pegar **Pedra 22**.  
- Para 2023, vou tentar **Pedra 2023** e completar com **Pedra 23** se precisar.  
- Para 2024, vou pegar **Pedra 2024**.

4) **Vou padronizar as notas escolares**  
Vou criar colunas únicas: **nota_mat**, **nota_port**, **nota_ing**, escolhendo a coluna certa por ano:  
- 2022: **Matem**, **Portug**, **Inglês**  
- 2023/2024: **Mat**, **Por**, **Ing**  
Depois vou converter essas notas para numérico.

5) **Vou padronizar defasagem e fase_ideal**  
- Vou criar **defasagem** usando **Defas** (2022) e **Defasagem** (2023/2024), e vou converter para numérico.  
- Vou criar **fase_ideal** usando **Fase ideal** (2022) e **Fase Ideal** (2023/2024).

6) **Vou converter indicadores para um formato consistente (quando existirem)**  
Quando as colunas existirem na base, vou converter para numérico e salvar com nome em minúsculo:  
**iaa**, **ieg**, **ips**, **ida**, **ipv**, **ian**, **ipp**.

7) **Vou padronizar campos de texto (recomendações e destaques)**  
Quando existirem, vou criar colunas de texto e preencher vazios com string vazia, para ficar pronto para NLP depois:  
**rec_psicologia**, **rec_av1**, **rec_av2**, **rec_av3**, **rec_av4**, **destaque_ieg**, **destaque_ida**, **destaque_ipv**.

8) **Vou incluir o status ativo/inativo (quando existir)**  
Vou levar para o LONG a coluna **ativo_inativo** (no seu caso, aparece principalmente em 2024) e vou normalizar vazios para NaN.

9) **Vou montar o dataset final df_long**  
No final, eu vou selecionar apenas as colunas padronizadas essenciais:  
- Identificação: **RA**, **ano_base**  
- Contexto: **Turma**, **Gênero**, **fase**, **fase_num**  
- Indicadores: **inde**, **pedra**, notas, defasagem, fase_ideal, índices  
- Textos: recomendações e destaques  
- Status: **ativo_inativo** (quando houver)

10) **Vou blindar e salvar em data/processed**  
Antes de salvar, vou converter colunas de texto para **string** (isso evita erro no parquet).  
Depois vou salvar dois arquivos:  
- **data/processed/pede_long_2022_2024.parquet**  
- **data/processed/pede_long_2022_2024.csv**

**Como eu vou validar se deu certo**  
Ao final do bloco, eu vou olhar:  
- o **shape** do df_long  
- quantos nulos ficaram em **inde** por ano_base  
- quantos nulos ficaram em **pedra** por ano_base  

Se 2023 vier com muitos nulos em **inde** ou **pedra**, eu ajusto o mapeamento adicionando as colunas alternativas que ainda não foram consideradas.


In [14]:
import os
import pandas as pd
import numpy as np

df = df_fase5.copy()
df["ano_base"] = df["ano_base"].astype(int)

# fase e fase_num
df["fase"] = df["Fase"].astype(str).str.strip().str.upper()
df["fase_num"] = pd.to_numeric(df["fase"].str.extract(r"(\d+)", expand=False), errors="coerce").astype("Int64")

def pick_by_year(ano_series, mapping):
    out = pd.Series([pd.NA] * len(ano_series), index=ano_series.index, dtype="object")
    for ano, col in mapping.items():
        if col in df.columns:
            mask = ano_series == ano
            out.loc[mask] = df.loc[mask, col]
    return out

# INDE
df["inde"] = pick_by_year(df["ano_base"], {2022: "INDE 22", 2023: "INDE 2023", 2024: "INDE 2024"})
if "INDE 23" in df.columns:
    m = df["ano_base"] == 2023
    df.loc[m, "inde"] = df.loc[m, "inde"].fillna(df.loc[m, "INDE 23"])
df["inde"] = pd.to_numeric(df["inde"], errors="coerce")

# Pedra
df["pedra"] = pick_by_year(df["ano_base"], {2022: "Pedra 22", 2023: "Pedra 2023", 2024: "Pedra 2024"})
if "Pedra 23" in df.columns:
    m = df["ano_base"] == 2023
    df.loc[m, "pedra"] = df.loc[m, "pedra"].fillna(df.loc[m, "Pedra 23"])

# Notas
df["nota_mat"] = pick_by_year(df["ano_base"], {2022: "Matem", 2023: "Mat", 2024: "Mat"})
df["nota_port"] = pick_by_year(df["ano_base"], {2022: "Portug", 2023: "Por", 2024: "Por"})
df["nota_ing"] = pick_by_year(df["ano_base"], {2022: "Inglês", 2023: "Ing", 2024: "Ing"})

for c in ["nota_mat", "nota_port", "nota_ing"]:
    df[c] = pd.to_numeric(df[c], errors="coerce")

# Defasagem e fase_ideal
df["defasagem"] = pick_by_year(df["ano_base"], {2022: "Defas", 2023: "Defasagem", 2024: "Defasagem"})
df["defasagem"] = pd.to_numeric(df["defasagem"], errors="coerce")

df["fase_ideal"] = pick_by_year(df["ano_base"], {2022: "Fase ideal", 2023: "Fase Ideal", 2024: "Fase Ideal"})

# Indicadores (quando existirem)
for col in ["IAA", "IEG", "IPS", "IDA", "IPV", "IAN", "IPP"]:
    if col in df.columns:
        df[col.lower()] = pd.to_numeric(df[col], errors="coerce")

# Textos (quando existirem)
txt_map = {
    "Rec Psicologia": "rec_psicologia",
    "Rec Av1": "rec_av1",
    "Rec Av2": "rec_av2",
    "Rec Av3": "rec_av3",
    "Rec Av4": "rec_av4",
    "Destaque IEG": "destaque_ieg",
    "Destaque IDA": "destaque_ida",
    "Destaque IPV": "destaque_ipv",
}
for src, dst in txt_map.items():
    if src in df.columns:
        df[dst] = df[src].fillna("").astype(str)

# Status (2024 tem, 22/23 ficam NaN)
if "Ativo_Inativo" in df.columns:
    df["ativo_inativo"] = df["Ativo_Inativo"].astype(str).str.strip()
    df.loc[df["ativo_inativo"].str.lower().isin(["nan", "none", ""]), "ativo_inativo"] = pd.NA

# LONG final
cols_long = [
    "RA", "ano_base", "fase", "fase_num", "Turma", "Gênero",
    "inde", "pedra",
    "iaa", "ieg", "ips", "ida", "ipv", "ian", "ipp",
    "nota_mat", "nota_port", "nota_ing",
    "defasagem", "fase_ideal",
    "ativo_inativo",
    "rec_psicologia", "rec_av1", "rec_av2", "rec_av3", "rec_av4",
    "destaque_ieg", "destaque_ida", "destaque_ipv"
]
cols_long = [c for c in cols_long if c in df.columns]

df_long = df[cols_long].copy()

# blindagem parquet: object -> string
obj_cols = df_long.select_dtypes(include=["object"]).columns
df_long[obj_cols] = df_long[obj_cols].astype("string")

os.makedirs("data/processed", exist_ok=True)
df_long.to_parquet("data/processed/pede_long_2022_2024.parquet", index=False)
df_long.to_csv("data/processed/pede_long_2022_2024.csv", index=False, encoding="utf-8")

print("OK. LONG salvo em data/processed/")
print("Shape:", df_long.shape)

print("\nNulos de inde por ano:")
print(df_long.groupby("ano_base")["inde"].apply(lambda s: int(s.isna().sum())))

print("\nNulos de pedra por ano:")
print(df_long.groupby("ano_base")["pedra"].apply(lambda s: int(s.isna().sum())))


OK. LONG salvo em data/processed/
Shape: (3030, 29)

Nulos de inde por ano:
ano_base
2022      0
2023     83
2024    102
Name: inde, dtype: int64

Nulos de pedra por ano:
ano_base
2022     0
2023    83
2024    64
Name: pedra, dtype: int64


  df.loc[m, "inde"] = df.loc[m, "inde"].fillna(df.loc[m, "INDE 23"])


In [15]:
import pandas as pd

# irei usar o df original e o df_long que acabei de criar
m2023 = (df_long["ano_base"] == 2023)
m2024 = (df_long["ano_base"] == 2024)

print("2023: inde nulo:", int(df_long.loc[m2023, "inde"].isna().sum()),
      "| pedra nulo:", int(df_long.loc[m2023, "pedra"].isna().sum()))

print("2024: inde nulo:", int(df_long.loc[m2024, "inde"].isna().sum()),
      "| pedra nulo:", int(df_long.loc[m2024, "pedra"].isna().sum()))

# 1) Ver se inde e pedra nulos são as MESMAS linhas (principalmente 2023)
n2023 = df_long.loc[m2023, ["inde","pedra"]].isna()
print("\n2023: nulos em ambos (inde e pedra):", int((n2023["inde"] & n2023["pedra"]).sum()))

# 2) Pegar amostra dos casos nulos em 2023 (pra achar coluna fonte)
idx_2023 = df_long.index[m2023 & (df_long["inde"].isna() | df_long["pedra"].isna())]
amostra_2023 = df_fase5.loc[idx_2023, ["RA","ano_base","INDE 2023","INDE 23","Pedra 2023","Pedra 23"]].head(30)
print("\nAmostra 2023 com nulos:")
display(amostra_2023)

# 3) Amostra dos casos nulos em 2024
idx_2024 = df_long.index[m2024 & (df_long["inde"].isna() | df_long["pedra"].isna())]
amostra_2024 = df_fase5.loc[idx_2024, ["RA","ano_base","INDE 2024","Pedra 2024","IAN"]].head(30)
print("\nAmostra 2024 com nulos:")
display(amostra_2024)


2023: inde nulo: 83 | pedra nulo: 83
2024: inde nulo: 102 | pedra nulo: 64

2023: nulos em ambos (inde e pedra): 83

Amostra 2023 com nulos:


Unnamed: 0,RA,ano_base,INDE 2023,INDE 23,Pedra 2023,Pedra 23
1414,RA-1126,2023,,,,
1649,RA-145,2023,,,,
1650,RA-1188,2023,,,,
1651,RA-265,2023,,,,
1652,RA-254,2023,,,,
1653,RA-267,2023,,,,
1654,RA-1189,2023,,,,
1798,RA-1225,2023,,,,
1799,RA-76,2023,,,,
1800,RA-26,2023,,,,



Amostra 2024 com nulos:


Unnamed: 0,RA,ano_base,INDE 2024,Pedra 2024,IAN
2928,RA-1236,2024,,,10.0
2929,RA-1234,2024,,,10.0
2930,RA-1633,2024,,,10.0
2931,RA-1248,2024,,,10.0
2932,RA-1246,2024,,,10.0
2933,RA-1245,2024,,,10.0
2934,RA-1244,2024,,,10.0
2935,RA-1634,2024,,,10.0
2936,RA-1242,2024,,,10.0
2937,RA-1250,2024,,,10.0


In [16]:
import os
import pandas as pd
import numpy as np

# carrega o LONG que você acabou de salvar (ou use df_long se estiver em memória)
df_long = df_long.copy()

df_long["sem_inde"] = df_long["inde"].isna()
df_long["sem_pedra"] = df_long["pedra"].isna()

print("Sem INDE por ano:")
print(df_long.groupby("ano_base")["sem_inde"].sum())

print("\nSem Pedra por ano:")
print(df_long.groupby("ano_base")["sem_pedra"].sum())

# versão para treino/EDA que exige inde/pedra
df_model = df_long.loc[~df_long["sem_inde"]].copy()

print("\nShape df_long:", df_long.shape)
print("Shape df_model (sem inde nulo):", df_model.shape)

os.makedirs("data/processed", exist_ok=True)
df_model.to_parquet("data/processed/pede_long_2022_2024_model.parquet", index=False)
df_model.to_csv("data/processed/pede_long_2022_2024_model.csv", index=False, encoding="utf-8")

print("\nOK. Arquivo para modelagem salvo em data/processed/")


Sem INDE por ano:
ano_base
2022      0
2023     83
2024    102
Name: sem_inde, dtype: int64

Sem Pedra por ano:
ano_base
2022     0
2023    83
2024    64
Name: sem_pedra, dtype: int64

Shape df_long: (3030, 31)
Shape df_model (sem inde nulo): (2845, 31)

OK. Arquivo para modelagem salvo em data/processed/


In [17]:
import pandas as pd
import numpy as np

# carrega o model se precisar
# df_model = pd.read_parquet("data/processed/pede_long_2022_2024_model.parquet")

df_model = df_model.copy()

# 1) flags para fase
df_model["fase_alfa"] = df_model["fase"].astype(str).str.upper().eq("ALFA")
df_model["fase_tipo"] = np.where(df_model["fase_alfa"], "ALFA", "NUMERICA")

print("Qtd ALFA no df_model:", int(df_model["fase_alfa"].sum()))

# 2) faltantes por colunas-chave
cols_check = ["pedra","nota_mat","nota_port","nota_ing","iaa","ieg","ips","ida","ipv","ian","ipp","defasagem","fase_ideal"]
cols_check = [c for c in cols_check if c in df_model.columns]

falt = df_model[cols_check].isna().sum().sort_values(ascending=False)
print("\nFaltantes (top):")
print(falt.head(15))

# 3) salvar versão final saneada para modelagem
df_model.to_parquet("data/processed/pede_long_2022_2024_model_v2.parquet", index=False)
df_model.to_csv("data/processed/pede_long_2022_2024_model_v2.csv", index=False, encoding="utf-8")

print("\nOK. Salvo model_v2 em data/processed/")
print("Shape:", df_model.shape)



Qtd ALFA no df_model: 427

Faltantes (top):
nota_ing      1761
ipp            860
nota_port        7
nota_mat         6
pedra            0
iaa              0
ieg              0
ida              0
ips              0
ipv              0
ian              0
defasagem        0
fase_ideal       0
dtype: int64

OK. Salvo model_v2 em data/processed/
Shape: (2845, 33)


In [18]:
print("Nulos por ano (nota_ing):")
print(df_model.groupby("ano_base")["nota_ing"].apply(lambda s: int(s.isna().sum())))

print("\nNulos por ano (ipp):")
print(df_model.groupby("ano_base")["ipp"].apply(lambda s: int(s.isna().sum())) if "ipp" in df_model.columns else "ipp não existe")


Nulos por ano (nota_ing):
ano_base
2022    577
2023    603
2024    581
Name: nota_ing, dtype: int64

Nulos por ano (ipp):
ano_base
2022    860
2023      0
2024      0
Name: ipp, dtype: int64


In [19]:
import os
import pandas as pd
import numpy as np

df_model_v2 = df_model.copy()

# flags
df_model_v2["tem_nota_ing"] = df_model_v2["nota_ing"].notna()
df_model_v2["tem_ipp"] = df_model_v2["ipp"].notna() if "ipp" in df_model_v2.columns else False

# baseline features: remove colunas problemáticas por missing
drop_cols = []
if "nota_ing" in df_model_v2.columns: drop_cols.append("nota_ing")
if "ipp" in df_model_v2.columns: drop_cols.append("ipp")

df_model_v2 = df_model_v2.drop(columns=drop_cols)

# (opcional) eliminar as poucas linhas com nota_mat/nota_port nulas
for c in ["nota_mat", "nota_port"]:
    if c in df_model_v2.columns:
        df_model_v2 = df_model_v2[df_model_v2[c].notna()]

print("Shape final (v1):", df_model_v2.shape)

os.makedirs("data/processed", exist_ok=True)
df_model_v2.to_parquet("data/processed/pede_long_2022_2024_model_v3.parquet", index=False)
df_model_v2.to_csv("data/processed/pede_long_2022_2024_model_v3.csv", index=False, encoding="utf-8")

print("OK. Salvo model_v3 em data/processed/")


Shape final (v1): (2834, 33)
OK. Salvo model_v3 em data/processed/
