## Minera√ß√£o de Dados Educacionais ‚Äì PISA 2018 (Brasil)

Este notebook utiliza tr√™s tabelas centrais: `STU_BRA.xlsx`, `FLT_BRA.xlsx` e `SCH_BRA.xlsx` como base para esta etapa de minera√ß√£o de dados do projeto **Efeito Escola e Gradiente Socioecon√¥mico no Brasil**. Cada arquivo corresponde a um n√≠vel anal√≠tico distinto e complementar (aluno, desempenho, escola), o que organiza a informa√ß√£o, reduz ru√≠do e favorece a consist√™ncia metodol√≥gica. A mesma l√≥gica orienta a sele√ß√£o das vari√°veis em cada tabela.

Na tabela `STU_BRA.xlsx` (n√≠vel aluno), a vari√°vel `BELONG` (sentimento de pertencimento) captura o grau em que o estudante se sente parte da comunidade escolar. Algumas fontes pesquisadas sugerem que maior senso de pertencimento se associa a maior engajamento e, em m√©dia, a melhores resultados. Nesse contexto, avaliamos `BELONG` ao lado de `ESCS` e `READ`, uma vez que parece plaus√≠vel que um alto pertencimento atenue o efeito negativo de origens socioecon√¥micas desfavorecidas ao longo do gradiente. Vai saber. Quer dizer, saberemos!

Os controles de g√™nero (`ST004D01T`) e de hist√≥rico de repet√™ncia (`REPEAT`) foram inclu√≠dos para tentar separar o efeito do `ESCS` de outras caracter√≠sticas associadas ao desempenho. Cremos que possa haver, entre meninos e meninas, padr√µes distintos de profici√™ncia, e como, popularmente, a repet√™ncia costuma estar associada a escores mais baixos, ao condicionar-mo-nas ao modelo, pretendemos estimar um efeito condicional do `ESCS`, reduzindo a contamina√ß√£o por fatores n√£o diretamente socioecon√¥micos. Reconhecemos, por√©m, que `REPEAT` pode ser, em parte, consequ√™ncia do pr√≥prio `ESCS`; logo, esse controle tende a subestimar o efeito total do contexto socioecon√¥mico, o que deve ser levado em conta na interpreta√ß√£o.

A vari√°vel `ESCS` √© um √≠ndice sint√©tico que resume a posi√ß√£o socioecon√¥mica, cultural e educacional da fam√≠lia. Ela √© constru√≠da pela OCDE a partir de modelos de Teoria de Resposta ao Item, combinando informa√ß√£o sobre escolaridade e ocupa√ß√£o dos pais, recursos culturais no domic√≠lio, bens, livros e outros indicadores em uma √∫nica medida cont√≠nua. Trata-se de um √≠ndice do tipo WLE (Estimativa de verossimilhan√ßa ponderada), calculado com base no procedimento descrito no [PISA 2018 Technical Report](https://www.oecd.org/pisa/data/pisa2018technicalreport/) (cap√≠tulo de Scaling Procedures), aplicado tanto √†s profici√™ncias quanto aos √≠ndices derivados dos question√°rios.

No banco oficial do PISA, o `ESCS` j√° √© divulgado em uma escala padronizada com m√©dia aproximada igual a 0 e desvio-padr√£o aproximado igual a 1. Para fins de armazenamento nos arquivos, a OCDE aplica uma transforma√ß√£o linear: o valor publicado √© dado por valor_no_arquivo = (valor_original + 5) √ó 1000. Assim, um `ESCS` verdadeiro de `‚àí0,103` aparece como `4897`, enquanto um valor de `+1,2` aparece como `6200`. Por conta disso, n√≥s revertemos esse deslocamento para recuperar a escala oficial aplicando `ESCS = valor_no_arquivo / 1000 - 5`. S√≥ para deixar claro, os fatores 5 e 1000 n√£o s√£o escolhas arbitr√°rias deste estudo, mas a invers√£o exata da codifica√ß√£o adotada pela OCDE, tamb√©m utilizada para outros √≠ndices como DISCLIMA, JOYREAD e SCREADCOMP (documentados no [PISA 2018 Database ‚Äì Codebook e Data Analysis Manual](https://www.oecd.org/pisa/data/2018database/)).

Em termos substantivos, valores mais altos de `ESCS` indicam fam√≠lias com maior capital socioecon√¥mico. Neste estudo, tratamo-lo como eixo do gradiente socioecon√¥mico e o coeficiente associado a ele indica como a profici√™ncia em leitura varia em fun√ß√£o da origem social do estudante, servindo de refer√™ncia para quantificar desigualdades educacionais associadas ao contexto socioecon√¥mico.

A vari√°vel `READ` representa a profici√™ncia em leitura dos estudantes. Na base `FLT_BRA.xlsx`, o escore √© obtido a partir da combina√ß√£o adequada dos dez valores plaus√≠veis de leitura e dos pesos amostrais correspondentes. Utilizamos `READ` como vari√°vel dependente por ser uma medida padronizada (m√©dia na OCDE ‚âà 500, desvio-padr√£o ‚âà 100), compar√°vel entre alunos e escolas e alinhada ao foco do PISA em compreens√£o leitora.

Por fim, `STU_BRA.xlsx` fornece os identificadores dos alunos (`CNTSTUID`) e das escolas (`CNTSCHID`), al√©m de `DISCLIMA` (clima disciplinar) e outras vari√°veis usadas como regressores. Em conjunto, essas informa√ß√µes permitem descrever o gradiente socioecon√¥mico aluno a aluno e conectar esse gradiente √†s caracter√≠sticas das escolas, aproximando a an√°lise tanto de evid√™ncias emp√≠ricas consolidadas quanto das hip√≥teses te√≥ricas que motivam o estudo.

A tabela `FLT_BRA.xlsx` complementa o n√≠vel aluno com as vari√°veis relacionadas ao desempenho medido pelo PISA e ao desenho amostral. Ela cont√©m `READ` e `READ.SE`, calculados a partir dos dez valores plaus√≠veis de leitura (`PV1READ`‚Ä¶`PV10READ`) gerados pela OCDE, que aplicam a Teoria de Resposta ao Item para lidar com o fato de cada estudante responder apenas parte dos itens do teste. O valor de `READ` sintetiza a profici√™ncia m√©dia compar√°vel entre alunos e escolas, enquanto `READ.SE` expressa o erro-padr√£o associado a essa estimativa, de modo que erros menores indicam maior precis√£o. A mesma base inclui o peso final do estudante, `SENWT` (*Student Final Weight*), utilizado como fator de expans√£o: como escolas e alunos s√£o amostrados com probabilidades distintas, aplicar `SENWT` em m√©dias, regress√µes e modelos garante que os resultados reflitam a popula√ß√£o nacional de estudantes de 15 anos, e n√£o apenas a amostra observada.

Al√©m disso, `FLT_BRA.xlsx` re√∫ne √≠ndices psicom√©tricos que capturam aspectos intrapessoais relevantes para o desempenho em leitura, como `JOYREAD` e `SCREADCOMP`. Esses √≠ndices s√£o derivados do question√°rio, constru√≠dos por escalas WLE e centrados em torno de zero. O √≠ndice `JOYREAD` representa o prazer declarado em ler, enquanto `SCREADCOMP` mede a autoefic√°cia na leitura. Ambos s√£o utilizados para investigar se motiva√ß√£o e autopercep√ß√£o moderam o gradiente socioecon√¥mico: por exemplo, um aluno de baixo `ESCS`, mas com alta motiva√ß√£o ou confian√ßa, pode apresentar desempenho acima do esperado, enquanto baixa autoefic√°cia pode amplificar desigualdades.

A planilha `SCH_BRA.xlsx` introduz o n√≠vel de contexto escolar, correspondente ao segundo n√≠vel dos modelos. Para cada `CNTSCHID`, s√£o disponibilizados, entre outros indicadores, os √≠ndices `EDUSHORT` e `STAFFSHORT`, constru√≠dos a partir das respostas dos diretores sobre escassez de materiais pedag√≥gicos e de pessoal qualificado. Os valores originais variam de 1 a 119; ao reescalonarmos (`/10 - 5`), recuperamos uma escala aproximadamente centrada em zero que facilita a interpreta√ß√£o, em que valores positivos indicam maior escassez que a m√©dia da OCDE e valores negativos indicam menor escassez. A base inclui tamb√©m `SC016Q01TA` e `SC016Q02TA`, que expressam os percentuais da receita escolar provenientes de fontes governamentais e de contribui√ß√µes privadas (fam√≠lias, doadores, patroc√≠nios), permitindo caracterizar a composi√ß√£o financeira do ambiente escolar.

Esses indicadores s√£o vinculados aos alunos via `CNTSCHID`, o que possibilita testar se condi√ß√µes objetivas de recursos e financiamento moderam a inclina√ß√£o do gradiente socioecon√¥mico e quantificar quanto da vari√¢ncia entre escolas (efeito escola) est√° associada a fatores mensur√°veis de gest√£o e infraestrutura. Combinando as tr√™s bases, √© poss√≠vel modelar o gradiente socioecon√¥mico ponderando corretamente o desenho amostral e explorando fatores intrapessoais e institucionais que podem suavizar ou acentuar o efeito da origem socioecon√¥mica sobre `READ`.




In [73]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
from IPython.display import display
from pathlib import Path
import sys

sns.set_theme(style="whitegrid", palette="colorblind")
pd.set_option("display.max_columns", 30)
pd.set_option("display.float_format", lambda x: f"{x:,.3f}")


Importando nossos scripts de apoio

In [109]:
# Adicionando o diret√≥rio scripts ao path do Python

scripts_dir = Path.cwd() / "scripts"
if str(scripts_dir) not in sys.path:
    sys.path.insert(0, str(scripts_dir))

import read_excel_sheets as les
import exploratory as expl
import estatisticas as estat

Selecionando as planilhas relevantes

In [75]:
BASE_DIR = Path("pisa2018")
STU_FILE = BASE_DIR / "stu" / "STU_BRA.xlsx"
FLT_FILE = BASE_DIR / "flt" / "FLT_BRA.xlsx"
SCH_FILE = BASE_DIR / "sch" / "SCH_BRA.xlsx"

for path in (STU_FILE, FLT_FILE, SCH_FILE):
    assert path.exists(), f"Arquivo n√£o encontrado: {path}"


Conferindo as abas dispon√≠veis em cada planilha

In [76]:
les.inspect_workbook(STU_FILE)
les.inspect_workbook(FLT_FILE)
les.inspect_workbook(SCH_FILE)

STU_BRA.xlsx -> abas dispon√≠veis: ['data.with.lbl', 'data', 'fields']
FLT_BRA.xlsx -> abas dispon√≠veis: ['data.with.lbl', 'data', 'fields']
SCH_BRA.xlsx -> abas dispon√≠veis: ['data.with.lbl', 'data', 'fields']


## Features Relevantes

Selecionaremos as colunas abaixo, apenas das abas `data` de cada planilha.
- `STU_BRA.xlsx` fornece os indicadores de aluno (`ESCS`, `DISCLIMA`, `BELONG`, g√™nero, repet√™ncia etc.).
- `FLT_BRA.xlsx` agrega os escores plaus√≠veis de leitura (`READ`) e os pesos amostrais (`SENWT`). Os identificadores (`CNTSTUID`) aparecem deslocados em +50.000 e s√£o alinhados manualmente.
- `SCH_BRA.xlsx` traz √≠ndices de contexto escolar (`EDUSHORT`, `STAFFSHORT`), al√©m da composi√ß√£o de financiamento (`SC016Qxx`).


Selecionando as colunas relevantes em cada planilha


In [77]:
STU_COLS = [
    "CNTSTUID", "CNTSCHID", "ESCS", "DISCLIMA", "BELONG",
    "ST004D01T", "REPEAT"
]
FLT_COLS = [
    "CNTSTUID", "CNTSCHID", "SENWT", "READ", "READ.SE",
    "JOYREAD", "SCREADCOMP"
]
SCH_COLS = [
    "CNTSCHID", "SC016Q01TA", "SC016Q02TA", "EDUSHORT", "STAFFSHORT"
]

Criando os dataframes

In [78]:
stu = les.load_sheet(STU_FILE, STU_COLS)
flt = les.load_sheet(FLT_FILE, FLT_COLS)
sch = les.load_sheet(SCH_FILE, SCH_COLS)

stu.shape, flt.shape, sch.shape

((10691, 7), (8311, 7), (597, 5))

De acordo com a documenta√ß√£o j√° mencionada, o atributo `CNTSTUID` na planilha `FLT` vem com um acr√©scimo de 50.000. Em vez de 7600001, 7600002, etc., os IDs aparecem como 7650001, 7650002, etc. Por conta disso, para regularizar a situa√ß√£o, precisamos subtrair 50.000 nesses IDs. Caso contr√°rio,  o merge aluno‚Äëa‚Äëaluno n√£o funcionar√° corretamente. Na verdade, o merge n√£o funcionar√° de jeito nenhum, porque n√£o haver√° correspond√™ncia entre os IDs. Vejamos isso usando `how="outer"` para reter todos os registros que est√£o s√≥ em stu, s√≥ em flt e os que aparecem nos dois. Isso nos permitir√° medir a qualidade do merge a partir dos percentuais de perda/ganho, por exemplo. 

In [79]:
print("AVALIA√á√ÉO DO MERGE SEM AJUSTE\n")
#print(f"Dimens√µes originais:")
#print(f"   ‚Ä¢ STU_BRA: {stu.shape[0]:,} alunos √ó {stu.shape[1]} vari√°veis")
#print(f"   ‚Ä¢ FLT_BRA: {flt.shape[0]:,} alunos √ó {flt.shape[1]} vari√°veis\n")

# Identificar o problema do deslocamento
print("Compatibilidade dos IDs:")
print(f"   STU - Primeiros CNTSTUID: {stu['CNTSTUID'].head(3).tolist()}")
print(f"   FLT - Primeiros CNTSTUID: {flt['CNTSTUID'].head(3).tolist()}")
print(f"\nDiferen√ßa: {flt['CNTSTUID'].iloc[0] - stu['CNTSTUID'].iloc[0]:,}")

merge_diagnostic_raw = stu.merge(
    flt, 
    on=["CNTSTUID", "CNTSCHID"], 
    how="outer", 
    indicator=True,
    suffixes=('_stu', '_flt')
)

merge_counts_raw = merge_diagnostic_raw['_merge'].value_counts()
print(f"\nAlunos:")
for status, count in merge_counts_raw.items():
    pct = 100 * count / len(merge_diagnostic_raw)
    status_label = {
        'both': 'Combinados (STU x FLT):',
        'left_only': 'Apenas em STU',
        'right_only': 'Apenas em FLT'
    }.get(status, status)
    print(f"   {status_label}: {count:,} ({pct:.1f}%)")

#if merge_counts_raw.get('both', 0) == 0:
#    print("\nNenhuma combina√ß√£o v√°lida encontrada!")

# Limpar diagn√≥stico preliminar
del merge_diagnostic_raw

AVALIA√á√ÉO DO MERGE SEM AJUSTE

Compatibilidade dos IDs:
   STU - Primeiros CNTSTUID: [7600001, 7600002, 7600005]
   FLT - Primeiros CNTSTUID: [7650001, 7650002, 7650003]

Diferen√ßa: 50,000

Alunos:
   Apenas em STU: 10,691 (56.3%)
   Apenas em FLT: 8,311 (43.7%)
   Combinados (STU x FLT):: 0 (0.0%)


Ajustando o deslocamento: subtraindo 50000 do CNTSTUID em `FLT`

In [80]:
flt["CNTSTUID"] = flt["CNTSTUID"] - 50_000
print(f"Primeiros IDs ap√≥s corre√ß√£o: {flt['CNTSTUID'].head(3).tolist()}\n")

Primeiros IDs ap√≥s corre√ß√£o: [7600001, 7600002, 7600003]



Vamos repetir o merge, com `how="outer"`, e conferir o resultado.

In [81]:
print("AVALIA√á√ÉO DO MERGE P√ìS-AJUSTE\n")

print("Compatibilidade dos IDs:")
print(f"   STU - Primeiros CNTSTUID: {stu['CNTSTUID'].head(3).tolist()}")
print(f"   FLT - Primeiros CNTSTUID: {flt['CNTSTUID'].head(3).tolist()}")
diferenca = flt['CNTSTUID'].iloc[0] - stu['CNTSTUID'].iloc[0]
print(f"\nDiferen√ßa: {diferenca:,}")

#if diferenca == 0:
#    print("IDs alinhados!\n")
#else:
#    print(f"Ainda h√° desalinhamento de {abs(diferenca):,}\n")

merge_diagnostic = stu.merge(
    flt, 
    on=["CNTSTUID", "CNTSCHID"], 
    how="outer", 
    indicator=True,
    suffixes=('_stu', '_flt')
)

merge_counts = merge_diagnostic['_merge'].value_counts()
print("\nAlunos:")
for status, count in merge_counts.items():
    pct = 100 * count / len(merge_diagnostic)
    status_label = {
        'both': 'Combinados (STU x FLT):',
        'left_only': 'Apenas em STU',
        'right_only': 'Apenas em FLT'
    }.get(status, status)
    print(f"   {status_label}: {count:,} ({pct:.1f}%)")

# Limpar diagn√≥stico preliminar
del merge_diagnostic

AVALIA√á√ÉO DO MERGE P√ìS-AJUSTE

Compatibilidade dos IDs:
   STU - Primeiros CNTSTUID: [7600001, 7600002, 7600005]
   FLT - Primeiros CNTSTUID: [7600001, 7600002, 7600003]

Diferen√ßa: 0

Alunos:
   Apenas em STU: 5,783 (41.0%)
   Combinados (STU x FLT):: 4,908 (34.8%)
   Apenas em FLT: 3,403 (24.1%)


## An√°lise do merge

Se olharmos para o resultado do merge com how="inner", que retorna apenas as linhas onde ambas as chaves (CNTSTUID E CNTSCHID) coincidem nos dois DataFrames: 4.908 alunos, apenas, parece que h√° uma diferen√ßa consider√°vel entre as bases STU e FLT. Ao menos entre os IDs dos alunos. Ainda que em um primeiro momento isso tenha ligado um sinal de alerta em rela√ß√£o √† manuten√ß√£o do JOIN, avaliamos que, apesar da base `FLT` derivar da `STU`, elas n√£o s√£o id√™nticas. `FLT` cont√©m apenas os alunos que participaram do teste de leitura, enquanto que `STU` inclui todos os alunos amostrados, independentemente de terem participado ou n√£o do teste de leitura. Portanto, pareceu-nos adequado e at√© mesmo esperado que FLT seja uma subamostra da base STU. Ou seja, d√° para manter o JOIN, mesmo com a redu√ß√£o do n√∫mero de alunos, j√° que isso nos garante integridade dos dados de profici√™ncia em leitura. Do contr√°rio, ainda que o aluno tenha `ESCS` em `STU`, se ele n√£o tiver `READ` em `FLT`, n√£o poderemos us√°-lo na an√°lise, uma vez que o gradiente socioecon√¥mico depende de ambos os dados. Por tudo isso, seguimos com o merge definitivo.

S√≥ para n√£o dizer que n√£o exlicamos o √≥bvio, e pecar por excesso, dizem, √© menos "ruim" do que pecar por sua falta, vamos combinar as colunas dos dataframes`stu` (caracter√≠sticas do aluno) com as colunas do dataframe `flt` (escore de leitura, peso amostral, √≠ndices motivacionais) em um  √∫nico dataframe: `students`. A chave do merge s√£o as colunas `CNTSTUID` e `CNTSCHID`, que acabamos de ajeitar, de tal modo que cada aluno s√≥ entra se tiver uma linha correspondente nas duas bases. Para isso usaremos o  `validate="one_to_one"`, que imp√µe uma checagem importante, for√ßando o Pandas a verificar se cada combina√ß√£o de aluno-escola aparece no m√°ximo uma vez em cada DataFrame. **Desse modo, caso haja duplicados, o merge falha, impedindo que propaguemos dados replicados sem perceber.** 

In [82]:
students = (
    stu.merge(flt, on=["CNTSTUID", "CNTSCHID"], how="inner", validate="one_to_one")
)

students.shape
students.head()


Unnamed: 0,CNTSTUID,CNTSCHID,ST004D01T,REPEAT,ESCS,DISCLIMA,BELONG,JOYREAD,SCREADCOMP,SENWT,READ,READ.SE
0,7600001,7600614,Male,Did not repeat a grade,3353.0,532.0,,623.0,,0.308,470.375,22.412
1,7600002,7600190,Female,Did not repeat a grade,7479.0,870.0,1014.0,194.0,16.0,0.342,432.607,23.037
2,7600010,7600048,Female,Did not repeat a grade,6273.0,47.0,1534.0,236.0,54.0,0.525,428.324,31.055
3,7600020,7600444,Male,Repeated a grade,1830.0,313.0,1185.0,393.0,35.0,0.658,378.231,24.029
4,7600022,7600047,Male,Repeated a grade,1533.0,63.0,392.0,14.0,48.0,0.511,419.672,16.979


Logo em seguida precisaremos restaurar a escala original de alguns √≠ndices, mas antes disso vamos inspecionar os dados √∫nicos nas vari√°veis categ√≥ricas.

In [83]:
expl.resumo_categoricas(students)

Vari√°veis categ√≥ricas: ST004D01T, REPEAT 

[ST004D01T]  (n√≠veis: 2, missing: 0)
  Female                          2533  ( 51.6%)
  Male                            2375  ( 48.4%)

[REPEAT]  (n√≠veis: 2, missing: 111)
  Did not repeat a  grade         3316  ( 67.6%)
  Repeated a  grade               1481  ( 30.2%)
  <NaN>                            111  (  2.3%)



### Reescalonamento dos √çndices WLE

Como mencionado, precisamos **reescalar os dados** para recuperar os valores originais daqueles √≠ndices WLE selecionados, tal como definidos pela OCDE. Vejamos a l√≥gica para interpreta√ß√£o de cada vari√°vel.

#### `ESCS`

Exemplo de reescalonamento:

* Valor original no arquivo: `4897`
* Divis√£o por 1000: `4897 / 1000 = 4.897`
* Subtra√ß√£o de 5: `4.897 - 5 = -0.103`

Interpreta√ß√£o:

* `-0.103` ‚Üí fam√≠lia levemente abaixo da m√©dia da OCDE
* `+1.2` ‚Üí fam√≠lia bem acima da m√©dia (alto status)
* `-2.0` ‚Üí fam√≠lia em situa√ß√£o muito vulner√°vel


#### `DISCLIMA`

Exemplo de reescalonamento:

* Valor original: `478`
* Divis√£o por 100: `478 / 100 = 4.78`
* Subtra√ß√£o de 5: `4.78 - 5 = -0.22`

Interpreta√ß√£o:

* Valores negativos ‚Üí clima mais ordenado que a m√©dia
* Valores positivos ‚Üí clima mais problem√°tico
* Exemplo: `-0.22` indica disciplina ligeiramente melhor que a m√©dia

#### `JOYREAD`

Exemplo de reescalonamento:

* Valor original: `530`
* Divis√£o por 100: `530 / 100 = 5.30`
* Subtra√ß√£o de 5: `5.30 - 5 = +0.30`

Interpreta√ß√£o:

* `+0.30` ‚Üí gosta mais de ler que a m√©dia da OCDE
* `-0.50` ‚Üí gosta menos de ler
* Valores t√≠picos: aproximadamente de `-3` a `+3`

#### `SCREADCOMP`

Exemplo de reescalonamento:

* Valor original: `462`
* Divis√£o por 100: `462 / 100 = 4.62`
* Subtra√ß√£o de 5: `4.62 - 5 = -0.38`

Interpreta√ß√£o:

* `-0.38` ‚Üí confian√ßa abaixo da m√©dia na capacidade de ler
* `+1.0` ‚Üí alta autoefic√°cia
* Pode moderar o efeito do `ESCS` (um aluno em contexto pobre, mas confiante, pode apresentar melhor desempenho do que o esperado pelo gradiente socioecon√¥mico)

#### `BELONG`

Exemplo de reescalonamento:

* Valor original: `980`
* Divis√£o por 100: `980 / 100 = 9.80`
* **Sem** subtra√ß√£o de 5

Interpreta√ß√£o:

* `9.80` ‚Üí forte senso de pertencimento √† escola
* `5.00` ‚Üí pertencimento moderado
* `2.00` ‚Üí sente-se exclu√≠do ou isolado
* Hip√≥tese: alto pertencimento pode amortecer o efeito negativo de baixo `ESCS`

### Vari√°veis Categ√≥ricas Codificadas (`dummies`)

#### `GENDER` ‚Üí `gender_male`

* Valor original: `"Male"` ou `"Female"`
* Compara√ß√£o l√≥gica: `"Male" == 'Male'` ‚Üí `True`; `"Female" == 'Male'` ‚Üí `False`
* Convers√£o para inteiro: `True ‚Üí 1`, `False ‚Üí 0`

Valores finais:

* `1` = Menino (masculino)
* `0` = Menina (feminino)


#### `REPEAT` ‚Üí `repeat_flag`

* Valor original:

  * `"Repeated a  grade"`
  * `"Did not repeat a  grade"`
  * `NaN` (sem informa√ß√£o)

* Recodifica√ß√£o l√≥gica:

  * `repeat_flag = 1` se `REPEAT == "Repeated a  grade"`
  * `repeat_flag = 0` se `REPEAT == "Did not repeat a  grade"`
  * `repeat_flag = 2` se `REPEAT` estiver ausente

Valores finais:

* `1` = Repetiu pelo menos uma s√©rie
* `0` = Nunca repetiu
* `2` = Informa√ß√£o ausente (casos mantidos como *missing* e tratados como categoria pr√≥pria)


### üìà Resumo Visual dos Valores Esperados

| Vari√°vel         | Transforma√ß√£o            | Escala final               | Exemplo             |
| ---------------- | ------------------------ | -------------------------- | ------------------- |
| `escs_std`       | `/1000 - 5`              | ‚âà -3 a +3 (m√©dia = 0)      | `-0.103`            |
| `disclima_std`   | `/100 - 5`               | ‚âà -5 a +5 (m√©dia = 0)      | `-0.22`             |
| `joyread_std`    | `/100 - 5`               | ‚âà -3 a +3 (m√©dia = 0)      | `+0.30`             |
| `screadcomp_std` | `/100 - 5`               | ‚âà -3 a +3 (m√©dia = 0)      | `-0.38`             |
| `belong_index`   | `/100`                   | 0 a 10 (n√£o centrada em 0) | `9.80`              |
| `gender_male`    | `== "Male"`              | 0 ou 1                     | `1` (menino)        |
| `repeat_flag`    | `== "Repeated a  grade"` | 0, 1 ou `2`                | `0` (nunca repetiu) |




Vamos fazer uma c√≥pia por seguran√ßa, mantendo o nome do dataframe como `students` mesmo, que fica visualmente mais agrad√°vel.

In [84]:
students_raw = students.copy()  # backup do dado bruto

In [85]:
students = students_raw.copy()  # dataset de trabalho
students.head()

Unnamed: 0,CNTSTUID,CNTSCHID,ST004D01T,REPEAT,ESCS,DISCLIMA,BELONG,JOYREAD,SCREADCOMP,SENWT,READ,READ.SE
0,7600001,7600614,Male,Did not repeat a grade,3353.0,532.0,,623.0,,0.308,470.375,22.412
1,7600002,7600190,Female,Did not repeat a grade,7479.0,870.0,1014.0,194.0,16.0,0.342,432.607,23.037
2,7600010,7600048,Female,Did not repeat a grade,6273.0,47.0,1534.0,236.0,54.0,0.525,428.324,31.055
3,7600020,7600444,Male,Repeated a grade,1830.0,313.0,1185.0,393.0,35.0,0.658,378.231,24.029
4,7600022,7600047,Male,Repeated a grade,1533.0,63.0,392.0,14.0,48.0,0.511,419.672,16.979


Agora vamos escalar

In [86]:
students["escs_std"] = students["ESCS"] / 1000 - 5  # √≠ndice socioecon√¥mico centrado em 0
students["disclima_std"] = students["DISCLIMA"] / 100 - 5  # clima disciplinar (‚âà-5 a +5)
students["joyread_std"] = students["JOYREAD"] / 100 - 5
students["screadcomp_std"] = students["SCREADCOMP"] / 100 - 5
students["belong_index"] = students["BELONG"] / 100  # escala 0-10 (bem-estar)

# G√™nero: 1 = menino, 0 = menina
students["gender_male"] = (students["ST004D01T"] == "Male").astype("int8")

# Repet√™ncia: 0 = n√£o repetiu, 1 = repetiu, 2 = sem informa√ß√£o
students["repeat_flag"] = students["REPEAT"].map({
    "Did not repeat a  grade": 0,
    "Repeated a  grade": 1
})
students["repeat_flag"] = students["repeat_flag"].fillna(2).astype("int8")

In [87]:
students.head()

Unnamed: 0,CNTSTUID,CNTSCHID,ST004D01T,REPEAT,ESCS,DISCLIMA,BELONG,JOYREAD,SCREADCOMP,SENWT,READ,READ.SE,escs_std,disclima_std,joyread_std,screadcomp_std,belong_index,gender_male,repeat_flag
0,7600001,7600614,Male,Did not repeat a grade,3353.0,532.0,,623.0,,0.308,470.375,22.412,-1.647,0.32,1.23,,,1,0
1,7600002,7600190,Female,Did not repeat a grade,7479.0,870.0,1014.0,194.0,16.0,0.342,432.607,23.037,2.479,3.7,-3.06,-4.84,10.14,0,0
2,7600010,7600048,Female,Did not repeat a grade,6273.0,47.0,1534.0,236.0,54.0,0.525,428.324,31.055,1.273,-4.53,-2.64,-4.46,15.34,0,0
3,7600020,7600444,Male,Repeated a grade,1830.0,313.0,1185.0,393.0,35.0,0.658,378.231,24.029,-3.17,-1.87,-1.07,-4.65,11.85,1,1
4,7600022,7600047,Male,Repeated a grade,1533.0,63.0,392.0,14.0,48.0,0.511,419.672,16.979,-3.467,-4.37,-4.86,-4.52,3.92,1,1


Vamos remover as colunas desnecess√°rias (originais) e renomear as novas para manter a consist√™cias

In [88]:
# Remover colunas originais brutas que j√° t√™m vers√£o transformada
cols_drop = [
    "ESCS", "DISCLIMA", "JOYREAD", "SCREADCOMP", "BELONG",
    "ST004D01T", "REPEAT"
]

students = students.drop(columns=cols_drop)

# Renomeaando as colunas novas para manter o mesmo esquema de nomes

students = students.rename(columns={
    "escs_std": "ESCS",              # √≠ndice socioecon√¥mico padronizado
    "disclima_std": "DISCLIMA",      # clima disciplinar padronizado
    "joyread_std": "JOYREAD",        # prazer pela leitura padronizado
    "screadcomp_std": "SCREADCOMP",  # autoefic√°cia em leitura padronizada
    "belong_index": "BELONG",        # pertencimento (0‚Äì10)
    "gender_male": "ST004D01T",      # 1 = menino, 0 = menina
    "repeat_flag": "REPEAT"          # 0 = n√£o repetiu, 1 = repetiu, 2 = sem info
})

# Reorganizando as colunas na ordem do schema original

cols_order = [
    "CNTSTUID", "CNTSCHID",
    "ST004D01T", "REPEAT",
    "ESCS", "DISCLIMA", "BELONG", "JOYREAD", "SCREADCOMP",
    "SENWT", "READ", "READ.SE"
]

students = students[cols_order]

students.head()



Unnamed: 0,CNTSTUID,CNTSCHID,ST004D01T,REPEAT,ESCS,DISCLIMA,BELONG,JOYREAD,SCREADCOMP,SENWT,READ,READ.SE
0,7600001,7600614,1,0,-1.647,0.32,,1.23,,0.308,470.375,22.412
1,7600002,7600190,0,0,2.479,3.7,10.14,-3.06,-4.84,0.342,432.607,23.037
2,7600010,7600048,0,0,1.273,-4.53,15.34,-2.64,-4.46,0.525,428.324,31.055
3,7600020,7600444,1,1,-3.17,-1.87,11.85,-1.07,-4.65,0.658,378.231,24.029
4,7600022,7600047,1,1,-3.467,-4.37,3.92,-4.86,-4.52,0.511,419.672,16.979


Como voc√™ deve ter percebido, preferimos manter os dados ausentes em `REPEAT`, tratando-os como categoria (2) por que adiante podemos inclu√≠-los tanto em uma quanto em outra, de tal modo que podemos avaliar a repet√™ncia somando os (n√£o informados) aos qque repetiram, bem como aos que n√£o repetiram. Cremos que, com isso, podemos capturar nuances que seriam perdidas caso fossem removidos. Contudo, a mesma l√≥gica n√£o se aplica as demais vari√°veis (veja abaixo), onde os dados ausentes devem ser tratados via de regra, pela m√©dia, mediana ou por uma imputa√ß√£o m√∫ltipla, em vez de serem exclu√≠dos das an√°lises.

In [89]:
students.isnull().sum()

CNTSTUID         0
CNTSCHID         0
ST004D01T        0
REPEAT           0
ESCS           106
DISCLIMA       266
BELONG        1114
JOYREAD        478
SCREADCOMP     732
SENWT            0
READ             0
READ.SE          0
dtype: int64

Entretanto, por mais que essa decis√£o pare√ßa simples, principalmente para o caso de `ESCS`, cujo n√∫mero de ausentes √© percentualmente baixo, para formalizar nossa escolha avaliamos as tr√™s estrat√©gias cl√°ssicas mencionadas: **exclus√£o de casos**, **imputa√ß√£o simples (m√©dia/mediana)** e **imputa√ß√£o m√∫ltipla**. Cada uma delas parte de pressupostos distintos sobre o mecanismo que gera os dados ausentes, o que impacta, de forma direta e desigual, a validade dos resultados.

Para encurtar a conversa, por que simplesmente n√£o criamos uma categoria ‚Äúfaltante‚Äù, como fizemos em `REPEAT`? Porque, naquele caso, transformar o ausente em uma categoria expl√≠cita (2) √© plaus√≠vel: `REPEAT` √© uma vari√°vel categ√≥rica, e o grupo ‚Äún√£o informado‚Äù pode ser tratado como categoria substantivamente interpret√°vel ou usado em an√°lises de sensibilidade (agregando-o a quem repetiu, a quem n√£o repetiu, ou mantendo-o separado).

Essa l√≥gica, por√©m, **n√£o se aplica** √†s demais vari√°veis, cujos indicadores foram constru√≠dos como **√≠ndices cont√≠nuos**, muitas vezes com propriedades m√©tricas definidas (por exemplo, sob modelos de Teoria de Resposta ao Item). Criar neles uma categoria ‚Äúfaltante‚Äù equivaleria a inventar um n√≠vel artificial que n√£o existe na escala original. Intuitivamente, isso desloca a r√©gua sem mudar o fen√¥meno. Tecnicamente, tende a distorcer a m√©trica, quebrar interpreta√ß√µes e introduzir descontinuidades esp√∫rias.

Seria como, em uma escala de profici√™ncia de leitura, adicionar um ponto ‚Äú666 = n√£o respondeu‚Äù e exigir que o modelo trate esse valor como se fosse um n√≠vel real de desempenho. Computacionalmente funciona; conceitualmente √© torto. A literatura metodol√≥gica converge em desaconselhar esse tipo de codifica√ß√£o: em vari√°veis cont√≠nuas, √© mais adequado imputar valores ausentes a partir da informa√ß√£o observada ou modelar explicitamente o mecanismo de aus√™ncia, em vez de criar categorias fict√≠cias.

Mas quando a exclus√£o √© aceit√°vel ent√£o, j√° que falamos que no caso de `ESCS` poder√≠amos faz√™-lo? A√≠ que o bicho pega. A decis√£o entre excluir ou imputar dados ausentes depende do **mecanismo de missing** subjacente, que pode ser classificado em tr√™s tipos principais:  MCAR, MAR e MNAR.

De forma resumida:

* **MCAR (Missing Completely At Random)**:
  A probabilidade de um dado estar ausente **n√£o depende** nem de valores observados, nem dos n√£o observados. O missing √© puro azar.
  ‚Üí Aqui, a exclus√£o de casos √© estatisticamente ‚Äúlimpa‚Äù: n√£o gera vi√©s, apenas reduz o tamanho da amostra.

* **MAR (Missing At Random)**:
  A probabilidade de aus√™ncia **depende de outras vari√°veis observadas**, mas n√£o do valor verdadeiro faltante, depois de controladas essas vari√°veis.
  Ex.: alunos com determinado perfil socioecon√¥mico ou em certas escolas t√™m maior chance de n√£o responder `JOYREAD`.
  ‚Üí Exclus√£o simples j√° pode induzir vi√©s; m√©todos como imputa√ß√£o m√∫ltipla tornam-se prefer√≠veis.

* **MNAR (Missing Not At Random)**:
  A probabilidade de aus√™ncia **depende do pr√≥prio valor ausente** (ou de algo n√£o observado).
  Ex.: alunos com baix√≠ssima motiva√ß√£o para leitura evitam responder itens sobre leitura.
  ‚Üí Nesse caso, tanto exclus√£o quanto imputa√ß√µes ing√™nuas podem ser enviesadas; idealmente, precisa-se de modelos mais sofisticados ou an√°lises de sensibilidade.

Na pr√°tica aplicada em educa√ß√£o, parece que assumir `MCAR` √© quase sempre otimista demais, mas n√£o √© s√≥ isso e, ainda que n√£o exista um ‚Äúbala de prata‚Äù, algumas **regras de bolso razo√°veis** ajudam, como por exemplo:

* At√© **‚âà5% de ausentes**, sob algo pr√≥ximo de MCAR, a **exclus√£o de casos √© geralmente aceit√°vel**.
* Entre **5% e 10%**, exige mais cautela: exclus√£o pode ser usada em an√°lises simples, mas j√° vale considerar imputa√ß√£o, sobretudo se a vari√°vel for central.
* Acima de **10%**, especialmente quando h√° ind√≠cios de MAR/MNAR, a exclus√£o sistem√°tica tende a produzir vieses relevantes e perda substantiva de poder estat√≠stico; aqui, **imputa√ß√£o m√∫ltipla** passa a ser a estrat√©gia recomendada.

Aplicando isso ao nosso conjunto:

* `ESCS` ‚âà **2.2%** faltantes ‚Üí
  Excluir esses casos √© aceit√°vel: a perda √© pequena, e, de todo modo, sem `ESCS` o aluno n√£o pode contribuir para o gradiente socioecon√¥mico. Nesse contexto, a exclus√£o n√£o distorce o estimando, apenas reduz ligeiramente o n √∫til.

* `DISCLIMA` ‚âà **5.4%** ‚Üí
  Estamos na fronteira. Exclus√£o pura √© poss√≠vel, mas j√° come√ßa a ser discut√≠vel, principalmente porque `DISCLIMA` √© uma vari√°vel-chave.

* `JOYREAD` ‚âà **9.7%**, 
* `SCREADCOMP` ‚âà **14.9%**, 
* `BELONG` ‚âà **22.7%** ‚Üí
  Aqui, a exclus√£o massiva seria metodologicamente cara, j√° que reduziria o tamanho da amostra, concentraria a an√°lise em perfis mais completos (e possivelmente mais favorecidos) e aumentaria o risco de vi√©s de sele√ß√£o. Nesses casos, manter ‚Äúquem n√£o respondeu‚Äù como se n√£o existisse √©, na melhor das hip√≥teses, ing√™nuo. Logo, tudo isso justifica nossa op√ß√£o final: **imputa√ß√£o m√∫ltipla** para esses √≠ndices psicossociais.

Mas na pr√°tica, o que significa isso? Significa que **respeitaremos a estrutura dos dados** utilizando informa√ß√µes de aluno, escola, desempenho (`READ`), contexto (`ESCS`), clima (`DISCLIMA`), atitudes (`JOYREAD`, `SCREADCOMP`, `BELONG`), repet√™ncia e vari√°veis de n√≠vel escola para gerar valores plaus√≠veis para os ausentes; **preservaremos variabilidade e rela√ß√µes**, j√° que ao inv√©s de substituir tudo por uma m√©dia √∫nica, geraremos v√°rias vers√µes imputadas do banco, incorporando incertezas, de tal modo que as estimativas finais reflitam tanto a variabilidade quanto a incerteza sobre os valores imputados e, finalmente, continuaremos alinhados com a pr√°tica metodol√≥gica consolidada em avalia√ß√£o educacional, haja vista o compromisso entre rigor estat√≠stico e o respeito √†s nuances dos dados, √† redu√ß√£o de vi√©s sem sacrificar a estrutura hier√°rquica nem a interpretabilidade dos resultados.

In [90]:
from sklearn.experimental import enable_iterative_imputer  # noqa
from sklearn.impute import IterativeImputer

# Vari√°veis com ausentes que ser√£o imputadas
vars_impute = ["ESCS", "DISCLIMA", "JOYREAD", "SCREADCOMP", "BELONG"]

# Vari√°veis preditoras: n√£o ser√£o imputadas nem alteradas conceitualmente
vars_aux = [
    "READ", "SENWT",
    "REPEAT",        # j√° codificada (0,1,2) ou 0/1, completa
    "ST004D01T",     # j√° codificada (0/1), completa
]

# Matriz para o IterativeImputer:
# As colunas em vars_impute t√™m NA
# As colunas em vars_aux entram como preditores (sem NA)

X = students[vars_impute + vars_aux]

imp = IterativeImputer(
    max_iter=20,
    sample_posterior=True,   # essencial para m√∫ltiplas imputa√ß√µes
    random_state=123
)

m = 20
imputations = []

for s in range(m):
    # nova semente a cada imputa√ß√£o
    imp.random_state = 123 + s
    
    # ajusta o modelo e imputa SOMENTE onde h√° NaN
    X_imp = imp.fit_transform(X)
    
    # cria c√≥pia do dataframe original
    students_imp = students.copy()

    # sobrescreve apenas as vari√°veis imputadas com os valores imputados (nas posi√ß√µes correspondentes)
    students_imp[vars_impute] = X_imp[:, :len(vars_impute)]
    
    # garante que REPEAT e ST004D01T continuem categ√≥ricos como definidos
    students_imp["REPEAT"] = students_imp["REPEAT"].astype(students["REPEAT"].dtype)
    students_imp["ST004D01T"] = students_imp["ST004D01T"].astype(students["ST004D01T"].dtype)
    
    imputations.append(students_imp)


Como de constume, vamos conferir a parada:

In [91]:
students_imp.isnull().sum()

CNTSTUID      0
CNTSCHID      0
ST004D01T     0
REPEAT        0
ESCS          0
DISCLIMA      0
BELONG        0
JOYREAD       0
SCREADCOMP    0
SENWT         0
READ          0
READ.SE       0
dtype: int64

## As vari√°veis de n√≠vel 2: Escola

At√© agora trabalhamos apenas com vari√°veis de **n√≠vel aluno** (`ESCS`, g√™nero, repet√™ncia, clima disciplinar etc.). Isso √© suficiente para modelos ‚Äúcl√°ssicos‚Äù de regress√£o, mas insuficiente quando queremos levar a s√©rio o fato √≥bvio (embora frequentemente ignorado nas an√°lises) de que **alunos est√£o agrupados em escolas**. Para capturar esse contexto, precisamos trazer para o dataset dos alunos informa√ß√µes da escola onde eles estudam. Por conta disso, incorporamos ao modelo vari√°veis de **n√≠vel escola**, extra√≠das da planilha `SCH_BRA.xlsx`, de modo a respeitar a estrutura hier√°rquica dos dados.

A base `SCH_BRA.xlsx` fornece, para cada `CNTSCHID`, √≠ndices de contexto escolar, entre os quais destacamos:

- `EDUSHORT` e `STAFFSHORT`: √≠ndices constru√≠dos a partir das respostas dos diretores sobre escassez de materiais pedag√≥gicos e de pessoal qualificado. Nos microdados, esses √≠ndices s√£o armazenados em uma escala deslocada, semelhante ao que vimos em `FLT`. Aplicamos, portanto, a transforma√ß√£o inversa (`/10 - 5`) para obter `edushort_std` e `staffshort_std`, aproximadamente centrados em 0. Valores positivos indicam maior escassez que a m√©dia da OCDE; valores negativos indicam menor escassez (condi√ß√µes mais favor√°veis).

- `SC016Q01TA` e `SC016Q02TA`: percentuais da receita escolar provenientes, respectivamente, de fontes governamentais e de contribui√ß√µes privadas (fam√≠lias, doadores, patroc√≠nios), o que nos permite caracterizar a composi√ß√£o do financiamento escolar.

Por constru√ß√£o, essas vari√°veis comp√µem o **n√≠vel 2** dos modelos, enquanto `ESCS`, g√™nero, repet√™ncia, clima disciplinar, atitudes e profici√™ncia permanecem no **n√≠vel 1** (aluno). A jun√ß√£o entre bases nos permite separar o que √© efeito das **caracter√≠sticas individuais dos estudantes** do que √© efeito das **condi√ß√µes das escolas**, al√©m de testar se o contexto escolar amplifica, atenua ou modifica o gradiente socioecon√¥mico associado ao `ESCS`. Sem essas vari√°veis de n√≠vel escola, qualquer infer√™ncia sobre ‚Äúimpacto da escola‚Äù tenderia a confundir diferen√ßas de composi√ß√£o (quem estuda onde) com diferen√ßas reais de oportunidade educacional.


Ante, por√©m, vamos conferir os dados ausentes e reescalonar os √≠ndices WLE conforme necess√°rio.

In [92]:
sch.isnull().sum()

CNTSCHID        0
SC016Q01TA     59
SC016Q02TA    172
EDUSHORT       42
STAFFSHORT     45
dtype: int64

Antes de incorporar as vari√°veis de n√≠vel escola ao dataset de alunos, avaliamos o padr√£o de dados ausentes em `SCH_BRA.xlsx`. Entre as 597 escolas, observamos:

- `SC016Q01TA`: 59 ausentes ‚Üí ‚âà 9,9%
- `SC016Q02TA`: 172 ausentes ‚Üí ‚âà 28,8%
- `EDUSHORT`: 42 ausentes ‚Üí ‚âà 7,0%
- `STAFFSHORT`: 45 ausentes ‚Üí ‚âà 7,5%

Retomando nossa r√©gua de decis√£o: at√© ‚âà5% de ausentes, a exclus√£o de casos tende a ser aceit√°vel; entre 5% e 10%, a exclus√£o j√° exige cautela e a imputa√ß√£o passa a ser uma alternativa razo√°vel; acima de 10%, a exclus√£o sistem√°tica costuma induzir vieses relevantes e perda desnecess√°ria de informa√ß√£o.

Aplicando esse crit√©rio ao contexto escolar:

- Para `EDUSHORT` e `STAFFSHORT` (7‚Äì8% de ausentes), a exclus√£o n√£o seria absurda, mas, por se tratarem de vari√°veis centrais para caracterizar recursos e condi√ß√µes de oferta, preferimos n√£o descartar escolas. A op√ß√£o metodologicamente mais consistente tamb√©m parece ser trat√°-las com **imputa√ß√£o m√∫ltipla**, preservando o desenho hier√°rquico.
  
- Para `SC016Q01TA` (~10% de ausentes), estamos na borda superior da zona de conforto. A imputa√ß√£o m√∫ltipla √© defens√°vel, sobretudo porque a vari√°vel tem interpreta√ß√£o clara (financiamento governamental) e potencial explicativo relevante no n√≠vel escola.
  
- J√° `SC016Q02TA` (~28,8% de ausentes) acende um alerta mais forte. Quase um ter√ßo das escolas n√£o informa a parcela de financiamento privado, o que implica:
  - forte depend√™ncia das imputa√ß√µes em rela√ß√£o ao modelo especificado e √†s suposi√ß√µes de *MAR*;
  - alta fra√ß√£o de informa√ß√£o perdida associada a essa vari√°vel, produzindo estimativas mais inst√°veis (erros-padr√£o maiores, intervalos de confian√ßa mais largos, maior sensibilidade a pequenas mudan√ßas no modelo).
  
Em outras palavras, `SC016Q02TA` pode ser imputada, mas qualquer conclus√£o substantiva apoiada nela carrega incerteza adicional. Por isso, optamos por trat√°-la principalmente como **vari√°vel de an√°lise de sensibilidade**, e n√£o como pilar do modelo principal: usamos sua inclus√£o ou exclus√£o (com imputa√ß√£o) para verificar se os resultados centrais se mant√™m robustos, em vez de basear infer√™ncias fortes em uma covari√°vel com alta propor√ß√£o de valores imputados.

Um ponto t√©cnico importante √© que essa decis√£o √© tomada **antes** do `merge` com o n√≠vel aluno. Caso contr√°rio, cada escola com dados ausentes em `EDUSHORT`, `STAFFSHORT` ou nos indicadores de financiamento propagaria *NaN* para todos os seus alunos, inflando artificialmente a taxa de aus√™ncia no n√≠vel 1. Trat√°-los, portanto, se mostra essencial para preservar a integridade da estrutura hier√°rquica e reduzir vieses na etapa de modelagem.

S√≥  para registrar: ‚Äúadotamos abaixo imputa√ß√£o m√∫ltipla com m = 20, de modo a representar adequadamente a incerteza associada aos dados ausentes, em vez de tratar a imputa√ß√£o como se gerasse valores ‚Äòcertos‚Äô.‚Äù 

Mas antes disso, vamos fazer uma c√≥pia de seguran√ßa.

In [93]:
sch_raw = sch.copy()

In [94]:
sch = sch_raw.copy() 

Imputando, reescalando e renomeando as vari√°veis de n√≠vel escola

In [95]:
# vari√°veis a imputar em n√≠vel escola
vars_impute = ["SC016Q01TA", "SC016Q02TA", "EDUSHORT", "STAFFSHORT"]

X_sch = sch[vars_impute]

imp_sch = IterativeImputer(
    max_iter=20,
    sample_posterior=True,
    random_state=123
)

m = 20  # n√∫mero de bancos imputados
sch_imputations = []

for k in range(m):
    imp_sch.random_state = 123 + k
    
    # Imputando SC016Q01TA, SC016Q02TA, EDUSHORT, STAFFSHORT
    X_sch_imp = imp_sch.fit_transform(X_sch)
    
    sch_imp_k = sch.copy()
    sch_imp_k[vars_impute] = X_sch_imp

    # Reescalando EDUSHORT e STAFFSHORT (agora j√° imputados)
    sch_imp_k["EDUSHORT_std"]   = sch_imp_k["EDUSHORT"] / 10 - 5
    sch_imp_k["STAFFSHORT_std"] = sch_imp_k["STAFFSHORT"] / 10 - 5

    sch_imputations.append(sch_imp_k)

sch_imp = sch_imputations[0].copy()

# Substituir as colunas originais pelas vers√µes padronizadas para manter o mesmo esquema de nomes

sch_imp = (
    sch_imp
    .drop(columns=["EDUSHORT", "STAFFSHORT"])  # remove escala deslocada
    .rename(columns={
        "EDUSHORT_std": "EDUSHORT",
        "STAFFSHORT_std": "STAFFSHORT"
    })[["CNTSCHID", "SC016Q01TA", "SC016Q02TA", "EDUSHORT", "STAFFSHORT"]]
)

Conferindo se funcionou.

In [96]:
sch_imp.isnull().sum()

CNTSCHID      0
SC016Q01TA    0
SC016Q02TA    0
EDUSHORT      0
STAFFSHORT    0
dtype: int64

In [97]:
sch_imp.head()

Unnamed: 0,CNTSCHID,SC016Q01TA,SC016Q02TA,EDUSHORT,STAFFSHORT
0,7600001,20.0,1.0,4.3,4.8
1,7600002,20.0,1.0,6.4,1.8
2,7600003,2.688,19.0,-4.9,-4.8
3,7600005,1.0,19.0,-4.9,-3.4
4,7600006,17.0,1.0,-4.8,-4.8


Agora que j√° reescalonamos e renomeamos as vari√°veis de n√≠vel escola, podemos incorpor√°-las ao dataset de alunos via `CNTSCHID`. Assim como antes, usaremos `validate="many_to_one"` para garantir que cada escola seja vinculada corretamente aos seus alunos, sem duplica√ß√µes inesperadas. Contudo, vamos examinar se h√° alguma discrep√¢ncia entre as escolas listadas em `students` e aquelas presentes em `schools`, fazendo um merge preliminar com `how="outer"`.

Observa√ß√£o. No processo de imputa√ß√£o geramos um dataframe chamado `sch_imp` e √© esse que usaremos para o merge. Entretanto, para fins de informa√ß√£o, usaremos o nome do dataframe original `sch`, apenas para facilitar o entendimento do resultado.

In [98]:
print("AVALIA√á√ÉO DO MERGE STUDENTS x SCH\n")

print("Dimens√µes atuais:")
print(f"   ‚Ä¢ students : {students_imp.shape[0]:,} linhas √ó {students_imp.shape[1]} colunas")
print(f"   ‚Ä¢ sch  : {sch_imp.shape[0]:,} linhas √ó {sch_imp.shape[1]} colunas\n")

# CNTSCHID apenas em sch
dups_sch = sch_imp["CNTSCHID"].duplicated().sum()
if dups_sch == 0:
    print("N√£o h√° escolas repetidas.")
else:
    print(f"ATEN√á√ÉO! H√° {dups_sch} escolas repetidas.")
print()

merge_diag = students_imp.merge(
    sch_imp,
    on="CNTSCHID",
    how="outer",
    indicator=True,
    suffixes=("_stu", "_sch")
)

# Ordenando os status para impress√£o consistente
status_labels = {
    "both": "Escolas combinadas:",
    "left_only": "Apenas em students (aluno sem escola em sch)",
    "right_only": "Apenas em sch (escola sem aluno em students)"
}

print("Resumo do merge:")
total = len(merge_diag)
for key in ["both", "left_only", "right_only"]:
    if key in merge_diag["_merge"].values:
        count = (merge_diag["_merge"] == key).sum()
        pct = 100 * count / total
        print(f"   ‚Ä¢ {status_labels[key]}: {count:,} ({pct:.2f}%)")
print()

# n√≠vel escola
students_sch_ids = set(students["CNTSCHID"].unique())
sch_imp_ids      = set(sch_imp["CNTSCHID"].unique())

only_in_students = students_sch_ids - sch_imp_ids
only_in_sch_imp  = sch_imp_ids - students_sch_ids
both_ids         = students_sch_ids & sch_imp_ids

print("Cobertura por escola:")
print(f"   ‚Ä¢ Escolas presentes em ambos (com alunos): {len(both_ids)}")
print(f"   ‚Ä¢ Escolas s√≥ em students                : {len(only_in_students)}")
print(f"   ‚Ä¢ Escolas s√≥ em sch (sem alunos)    : {len(only_in_sch_imp)}\n")


AVALIA√á√ÉO DO MERGE STUDENTS x SCH

Dimens√µes atuais:
   ‚Ä¢ students : 4,908 linhas √ó 12 colunas
   ‚Ä¢ sch  : 597 linhas √ó 5 colunas

N√£o h√° escolas repetidas.

Resumo do merge:
   ‚Ä¢ Escolas combinadas:: 4,908 (99.80%)
   ‚Ä¢ Apenas em sch (escola sem aluno em students): 10 (0.20%)

Cobertura por escola:
   ‚Ä¢ Escolas presentes em ambos (com alunos): 587
   ‚Ä¢ Escolas s√≥ em students                : 0
   ‚Ä¢ Escolas s√≥ em sch (sem alunos)    : 10



Fazendo o merge definitivo

In [99]:
# many_to_one para garantir estrutura aluno -> escola
students_merged = students_imp.merge(
    sch_imp,
    on="CNTSCHID",
    how="left",
    validate="many_to_one"
)

students_merged.shape


(4908, 16)

In [100]:
students_merged.head()

Unnamed: 0,CNTSTUID,CNTSCHID,ST004D01T,REPEAT,ESCS,DISCLIMA,BELONG,JOYREAD,SCREADCOMP,SENWT,READ,READ.SE,SC016Q01TA,SC016Q02TA,EDUSHORT,STAFFSHORT
0,7600001,7600614,1,0,-1.647,0.32,16.008,1.23,-4.623,0.308,470.375,22.412,20.0,-0.511,1.251,-6.755
1,7600002,7600190,0,0,2.479,3.7,10.14,-3.06,-4.84,0.342,432.607,23.037,20.0,0.902,-2.9,-4.8
2,7600010,7600048,0,0,1.273,-4.53,15.34,-2.64,-4.46,0.525,428.324,31.055,20.0,1.646,5.7,-0.2
3,7600020,7600444,1,1,-3.17,-1.87,11.85,-1.07,-4.65,0.658,378.231,24.029,18.0,1.0,-2.9,-3.1
4,7600022,7600047,1,1,-3.467,-4.37,3.92,-4.86,-4.52,0.511,419.672,16.979,20.0,1.486,-2.7,-4.8


Vamos adicionar mais um ponto de salvaguarda, criando uma c√≥pia do dataframe resultante do merge final, que chamaremos de `students_final`.

In [115]:
students_final = students_merged.copy()

###  Perfil Agregado das Escolas

At√© este ponto, trabalhamos exclusivamente com vari√°veis no n√≠vel do aluno (`ESCS`, `READ`, `g√™nero`, `repet√™ncia`, `clima disciplinar` etc.). Embora essas informa√ß√µes sejam fundamentais para caracterizar trajet√≥rias individuais, elas n√£o capturam diretamente o contexto institucional no qual os estudantes est√£o inseridos. Para operacionalizar o conceito de "efeito escola" em termos observ√°veis, precisamos agregar caracter√≠sticas dos alunos por escola, traduzindo a heterogeneidade institucional em m√©tricas concretas: desempenho m√©dio, perfil socioecon√¥mico m√©dio, clima disciplinar m√©dio, entre outras.

Essa etapa cumpre tr√™s fun√ß√µes metodol√≥gicas centrais:

- Constru√ß√£o de vari√°veis de n√≠vel 2 (escola): Ao calcular m√©dias ponderadas de `READ`, `ESCS`, `DISCLIMA` e `BELONG` para cada `CNTSCHID`, geramos covari√°veis agregadas que podem ser incorporadas aos modelos multin√≠veis. Isso permite separar o efeito das caracter√≠sticas individuais (n√≠vel 1) do efeito das condi√ß√µes da escola (n√≠vel 2).

- Respeito ao desenho amostral do PISA: Utilizamos `SENWT` (peso amostral do estudante) como fator de expans√£o. Como escolas e alunos s√£o amostrados com probabilidades distintas, aplicar pondera√ß√£o nas agrega√ß√µes garante que as m√©dias escolares reflitam a popula√ß√£o-alvo (estudantes brasileiros de 15 anos matriculados em escolas regulares), e n√£o apenas a amostra observada. Uma m√©dia simples trataria igualmente um aluno que representa 10 estudantes da popula√ß√£o e outro que representa 200, distorcendo as estimativas.

- Fundamenta√ß√£o para hip√≥teses substantivas: Perguntas como "escolas com maior `ESCS` m√©dio apresentam melhor desempenho, mesmo ap√≥s controlar o `ESCS` individual?" ou "o clima disciplinar m√©dio da escola modera o gradiente socioecon√¥mico?" s√≥ podem ser respondidas se tivermos acesso a essas vari√°veis agregadas. Sem elas, qualquer infer√™ncia sobre "efeito escola" tenderia a confundir diferen√ßas de composi√ß√£o (quem estuda onde) com diferen√ßas reais de oportunidade educacional.

Para cada escola (CNTSCHID), geramos cinco m√©tricas ponderadas por `SENWT`:

| M√©trica         | Descri√ß√£o                     | Interpreta√ß√£o                                             |
| --------------- | ----------------------------- | --------------------------------------------------------- |
| n_students      | Contagem de alunos na amostra | Tamanho da escola na base (n√£o ponderado)                 |
| read_mean_w     | Profici√™ncia m√©dia em leitura | Desempenho m√©dio da escola (escala PISA: ~500 ¬± 100)      |
| escs_mean_w     | √çndice socioecon√¥mico m√©dio   | Contexto socioecon√¥mico do corpo discente (centrado em 0) |
| disclima_mean_w | Clima disciplinar m√©dio       | Qualidade do ambiente escolar percebida pelos alunos      |
| belong_mean_w   | Pertencimento m√©dio           | Senso de comunidade e acolhimento (escala 0‚Äì10)           |


Exemplo da l√≥gica da Pondera√ß√£o:

Situa√ß√£o hipot√©tica: uma escola tem 3 alunos na amostra:

| Aluno | READ | SENWT |
| ----- | ---- | ----- |
| A     | 420  | 100   |
| B     | 450  | 50    |
| C     | 500  | 25    |

#### M√©dia simples (**incorreta**)

$$
\bar{x}_{\text{simples}} = \frac{420 + 450 + 500}{3} = 456{,}67
$$

#### M√©dia ponderada (**correta**)

$$
\bar{x}_{\text{pond}} =
\frac{420 \cdot 100 + 450 \cdot 50 + 500 \cdot 25}{100 + 50 + 25}
= \frac{42000 + 22500 + 12500}{175}
= \frac{77000}{175}
= 440
$$


#### Interpreta√ß√£o

O aluno A representa 4 vezes mais estudantes na popula√ß√£o do que o aluno C.
Se ignorarmos os pesos amostrais (SENWT), superestimamos o desempenho m√©dio da escola, pois tratamos como equivalentes observa√ß√µes que t√™m import√¢ncias muito diferentes no plano amostral.

Para implementar isso, utilizamos a fun√ß√£o `groupby("CNTSCHID")` para organizar os dados em grupos de alunos por escola. Em cada grupo, aplicamos a fun√ß√£o `estat.wavg(valor, w=SENWT)` para calcular m√©dias ponderadas com os pesos amostrais dos estudantes. Isso garante que cada m√©dia reflita n√£o apenas os alunos da amostra, mas a popula√ß√£o de estudantes que eles representam. O resultado √© um DataFrame de perfil escolar com uma linha por escola, contendo indicadores como tamanho da amostra (`n_students`), profici√™ncia m√©dia ponderada em leitura (`read_mean_w`), n√≠vel socioecon√¥mico m√©dio (`escs_mean_w`), clima disciplinar (`disclima_mean_w`) e pertencimento (`belong_mean_w`). Esse perfil ser√°, ent√£o, mesclado ao dataset de alunos, para ser utilizado como um conjunto de vari√°veis de contexto em n√≠vel da escola.

Depois de refletir sobre a pondera√ß√£o, conclu√≠mos que mesmo os √≠ndices derivados, como o `ESCS`, calculados originalmente em n√≠vel do estudante, devem ser ponderados ao agreg√°-los para o n√≠vel da escola. Para obter o "ESCS m√©dio da escola", utilizamos a m√©dia ponderada pelos pesos dos alunos daquela escola, por exemplo:

$$
ESCS_{\text{escola}} =
\frac{\sum_{i \in \text{escola}} SENWT_i \cdot ESCS_i}
     {\sum_{i \in \text{escola}} SENWT_i}
$$

O mesmo racioc√≠nio se aplica a escalas como clima disciplinar e pertencimento: ponderar por `SENWT` evita que um subconjunto at√≠pico de respondentes distor√ßa o perfil da escola, assegurando que os indicadores contextuais usados nas an√°lises reflitam adequadamente a popula√ß√£o-alvo do PISA.



In [116]:
school_profile = (
    students_final
    .groupby("CNTSCHID", as_index=False)
    .apply(
        lambda df: pd.Series({
            "n_students": len(df),
            "read_mean_w": estat.wavg(df["READ"], df["SENWT"]),
            "escs_mean_w": estat.wavg(df["ESCS"], df["SENWT"]),
            "disclima_mean_w": estat.wavg(df["DISCLIMA"], df["SENWT"]),
            "belong_mean_w": estat.wavg(df["BELONG"], df["SENWT"]),
        }),
        include_groups=False 
    )
)

school_profile.head()


Unnamed: 0,CNTSCHID,n_students,read_mean_w,escs_mean_w,disclima_mean_w,belong_mean_w
0,7600001,8.0,329.42,-0.942,0.354,8.127
1,7600002,9.0,427.369,-1.052,-0.956,6.13
2,7600003,1.0,319.741,0.716,2.09,11.684
3,7600005,12.0,548.127,2.991,0.14,10.795
4,7600006,8.0,400.459,-0.808,-0.59,10.425



Vamos entender o significado de cada m√©trica gerada no perfil agregado das escolas:

* **CNTSCHID**: √â o identificador da escola no PISA. Serve apenas para saber ‚Äúde qual escola √© esta linha‚Äù. N√£o √© m√©trica substantiva.

* **n_students**: √â a quantidade de alunos da amostra naquela escola (contagem simples de linhas).
  **Interpreta√ß√£o:** tamanho da amostra escolar no banco, n√£o √© n√∫mero real de alunos da escola na popula√ß√£o; √© ‚Äúquantos casos temos para estimar‚Äù.

* **read_mean_w**: √â a m√©dia ponderada da profici√™ncia em leitura dos alunos da escola. Usa os pesos amostrais (SENWT), ent√£o respeita o plano amostral do PISA.
  **Escala:** PISA (m√©dia ‚âà 500, desvio ‚âà 100).
  Ex.: 329 indica desempenho bem abaixo da m√©dia internacional.

* **escs_mean_w**: √â a m√©dia ponderada do √≠ndice socioecon√¥mico (ESCS) dos alunos da escola.
  **Escala:** centrada em 0 (0 ‚âà m√©dia dos pa√≠ses da OCDE; valores negativos = contexto menos favorecido; positivos = contexto mais favorecido).
  Ex.: -0.942 sugere escola com alunos em contexto socioecon√¥mico mais baixo.

* **disclima_mean_w**: √â a m√©dia ponderada do √≠ndice de clima disciplinar percebido pelos alunos.
  Geralmente √© um √≠ndice padronizado (em torno de 0), onde valores maiores indicam clima mais organizado e menos problemas disciplinares; negativos indicam pior clima que a refer√™ncia.
  Ex.: -0.956 sugere percep√ß√£o de problemas de disciplina acima do esperado.

* **belong_mean_w**: √â a m√©dia ponderada do √≠ndice de pertencimento (sense of belonging).
  **Escala t√≠pica:** algo como 0‚Äì10 (dependendo da constru√ß√£o, mas aqui j√° est√° em m√©trica interpret√°vel pela pr√≥pria documenta√ß√£o).
  Valores maiores indicam maior sensa√ß√£o de acolhimento, integra√ß√£o e identifica√ß√£o com a escola.
  Ex.: 6.130 vs 10.795 ‚Üí escolas com n√≠veis bem distintos de v√≠nculo percebido pelos alunos.


### Anexar perfil de escola ao n√≠vel aluno

Agora que temos o perfil agregado das escolas, podemos incorpor√°-lo ao dataset de alunos via `CNTSCHID`. Isso nos permitir√° incluir vari√°veis de contexto escolar em nossos modelos multin√≠veis, enriquecendo a an√°lise do efeito escola sobre o desempenho em leitura.

In [None]:
students_final = students_final.merge(
    school_profile,
    on="CNTSCHID",
    how="left",
    validate="many_to_one"
)

In [119]:
students_final[[
    "CNTSTUID", "CNTSCHID", "READ", "ESCS",
    "read_mean_w", "escs_mean_w", "disclima_mean_w"
]].head()

Unnamed: 0,CNTSTUID,CNTSCHID,READ,ESCS,read_mean_w,escs_mean_w,disclima_mean_w
0,7600001,7600614,470.375,-1.647,455.001,0.052,1.98
1,7600002,7600190,432.607,2.479,483.699,0.895,0.825
2,7600010,7600048,428.324,1.273,428.311,-1.893,2.093
3,7600020,7600444,378.231,-3.17,399.373,-0.091,-0.853
4,7600022,7600047,419.672,-3.467,342.109,-2.506,0.132


#### Agora a brincadeira come√ßa: das m√©dias ao efeito escola

Ao mesclar `school_profile` com `students_final`, cada linha passou a combinar informa√ß√µes individuais (`READ`, `ESCS`) com informa√ß√µes contextuais da escola (`read_mean_w`, `escs_mean_w`, `disclima_mean_w`) e essa estrutura nos permite distinguir duas dimens√µes fundamentais:

1. **Quem estuda na escola** ‚Äì a composi√ß√£o dos alunos;
2. **Que escola √© essa** ‚Äì o contexto e os poss√≠veis efeitos institucionais.

E com isso, podemos investigar o tal **efeito escola**: escolas com `escs_mean_w` baixo mas `read_mean_w` alto, por exemplo, podem indicar um **efeito escola positivo**, por exemplo? Vejamos:

#### 1. Composi√ß√£o: ‚ÄúQuem estuda aqui?‚Äù

Considere duas escolas:

* **Escola A**: maioria dos alunos com ESCS baixo.
* **Escola B**: maioria dos alunos com ESCS alto.

Se olharmos apenas para `read_mean_w` (profici√™ncia m√©dia em leitura), n√£o sabemos se a diferen√ßa entre A e B vem de:

* caracter√≠sticas socioecon√¥micas dos alunos (**composi√ß√£o**),
* pr√°ticas, recursos e clima da escola (**efeito escola**),
* ou uma mistura das duas coisas.

Para come√ßar a separar essas dimens√µes, precisamos ter ao mesmo tempo o **ESCS individual do aluno** ($ESCS_{ij}$) e o **ESCS m√©dio ponderado da escola** ($escs\_mean_{w,j}$), que resume o contexto socioecon√¥mico dos alunos daquela escola.

#### 2. Contexto e efeito escola: "O que a escola faz/√©?"

A an√°lise ganha pot√™ncia quando usamos vari√°veis em dois n√≠veis no mesmo modelo: n√≠vel do aluno ($ESCS_{ij}$) e n√≠vel da escola ($escs\_mean_{w,j}$).

Um modelo <span title="Vamos olhar para um modelo multin√≠vel simplificado. Aqui estamos modelando a nota de leitura de um aluno i que estuda na escola j. Temos um intercepto, mais o efeito do ESCS individual do aluno, mais o efeito do ESCS m√©dio da escola, mais dois termos de erro: um no n√≠vel da escola e outro no n√≠vel do aluno. O que esses coeficientes significam? Beta 1 captura o efeito de diferen√ßas de ESCS entre alunos da mesma escola ‚Äî √© o efeito individual, tipo: se dois alunos estudam na mesma escola, mas um tem ESCS mais alto, quanto isso impacta na nota? J√° beta 2 √© mais interessante: ele captura o efeito de estudar em uma escola com ESCS m√©dio mais alto. Ou seja, mantendo fixo o ESCS individual do aluno, ser√° que estudar numa escola com colegas de contexto socioecon√¥mico mais alto faz diferen√ßa? Isso √© o que chamamos de efeito contextual ou efeito de composi√ß√£o. E por fim, temos o u_j, o efeito aleat√≥rio da escola. Depois de controlar pelo ESCS individual e pelo ESCS m√©dio da escola, ainda sobra algo? Esse res√≠duo √© frequentemente interpretado como parte do efeito escola propriamente dito ‚Äî o que a escola agrega al√©m da composi√ß√£o dos seus alunos."> multin√≠vel</span> simplificado pode ser escrito como:

$$
READ_{ij} =
\beta_0
+ \beta_1 \cdot ESCS_{ij}
+ \beta_2 \cdot escs\_mean_{w,j}
+ u_j
+ e_{ij}
$$

onde:

- $ESCS_{ij}$: capital socioecon√¥mico do aluno $i$ na escola $j$.
- $escs\_mean_{w,j}$ (**coluna `escs_mean_w`**), ou $\overline{ESCS}^{(w)}_{j}$: ESCS m√©dio ponderado dos alunos da escola $j$.
- $u_{j}$: efeito aleat√≥rio (desvio) da escola $j$ ap√≥s controlar pelos demais termos.
- $e_{ij}$: erro individual do aluno $i$ na escola $j$.

Interpreta√ß√µes t√≠picas:

- $\beta_{1}$: efeito de diferen√ßas de $ESCS$ **entre alunos da mesma escola** (efeito individual).
- $\beta_{2}$: efeito de estudar em uma escola com $escs\_mean_{w,j}$ mais alto, mantendo fixo o $ESCS_{ij}$ (efeito contextual/composi√ß√£o).
- $u_{j}$: componente residual em n√≠vel da escola, frequentemente interpretado como parte do **efeito escola** (o que a escola agrega al√©m da composi√ß√£o dos alunos).


#### 3. Escolas com `escs_mean_w` baixo e `read_mean_w` alto

Com os agregados dispon√≠veis, podemos investigar casos em que:

* a escola tem `escs_mean_w` baixo (contexto socioecon√¥mico desfavor√°vel),
* mas apresenta `read_mean_w` acima do valor esperado para esse contexto.

Um procedimento simples:

1. Calcular `escs_mean_w` (contexto socioecon√¥mico m√©dio ponderado da escola).
2. Calcular `read_mean_w` (profici√™ncia m√©dia ponderada em leitura).
3. Ajustar um modelo que prediga `read_mean_w` a partir de `escs_mean_w`.
4. Observar os **res√≠duos** desse modelo.

Escolas com res√≠duos positivos altos (desempenho muito acima do previsto pelo contexto) s√£o candidatas a apresentar um **efeito escola positivo** ‚Äî sugerem que oferecem condi√ß√µes, pr√°ticas ou ambientes que promovem aprendizagem al√©m do que seria esperado apenas pela composi√ß√£o socioecon√¥mica dos alunos.

#### 4. Ligando com o DataFrame na pr√°tica

Ao ter, em cada linha do `students_final`:

* vari√°veis individuais (`READ`, `ESCS`);
* vari√°veis contextuais da escola (`read_mean_w`, `escs_mean_w`, `disclima_mean_w`),

voc√™ consegue:

* separar efeitos **individuais** (quem √© o aluno) de efeitos **contextuais** (que escola ele frequenta);
* identificar escolas que ‚Äúfogem da curva‚Äù, positiva ou negativamente;
* especificar modelos multin√≠veis coerentes com o desenho amostral e com a distin√ß√£o entre composi√ß√£o e contexto.

Sem esses agregados, qualquer conclus√£o sobre ‚Äúefeito escola‚Äù arrisca confundir **quem a escola atende** com **o que a escola efetivamente faz**.

## Estat√≠sticas Descritivas (ponderadas)

Utilizamos `SENWT` para aproximar estimativas populacionais do PISA.


In [None]:
def weighted_summary(df, column, weight):
    clean = df.dropna(subset=[column, weight])
    if clean.empty:
        return {"weighted_mean": np.nan, "weighted_sd": np.nan, "min": np.nan, "max": np.nan, "valid_n": 0}
    w = clean[weight]
    values = clean[column]
    mean = weighted_average(values, w)
    var = weighted_average((values - mean) ** 2, w)
    return {
        "weighted_mean": mean,
        "weighted_sd": np.sqrt(var),
        "min": values.min(),
        "max": values.max(),
        "valid_n": len(values)
    }

summary_metrics = {
    metric: weighted_summary(students, metric, "SENWT")
    for metric in ["READ", "escs_std", "disclima_std"]
}

pd.DataFrame(summary_metrics).T


In [None]:
# Distribui√ß√£o das notas de leitura e do √≠ndice socioecon√¥mico
sns.histplot(students.dropna(subset=["READ"]), x="READ", bins=30, color="#377eb8")
plt.title("Distribui√ß√£o de leitura (READ)")
plt.show()

sns.histplot(students.dropna(subset=["escs_std"]), x="escs_std", bins=30, color="#4daf4a")
plt.title("Distribui√ß√£o do √≠ndice socioecon√¥mico (ESCS)")
plt.show()


In [None]:
# Gradiente socioecon√¥mico com clima disciplinar como cor
sample = students.dropna(subset=["READ", "escs_std", "disclima_std"])
if len(sample) > 3000:
    sample = sample.sample(n=3000, random_state=42)

plt.figure(figsize=(7, 6))
sns.scatterplot(
    data=sample,
    x="escs_std",
    y="READ",
    hue="disclima_std",
    palette="viridis",
    alpha=0.7
)
plt.axhline(sample["READ"].mean(), color="gray", linestyle="--", linewidth=1)
plt.axvline(sample["escs_std"].mean(), color="gray", linestyle="--", linewidth=1)
plt.title("Leitura vs. ESCS (colora√ß√£o = clima disciplinar)")
plt.show()


## Modelos de Gradiente Socioecon√¥mico


In [None]:
model_data = students.dropna(
    subset=[
        "READ", "escs_std", "disclima_std", "edushort_std", "staffshort_std",
        "gender_male", "repeat_flag", "SENWT"
    ]
)

model1 = smf.wls(
    formula="READ ~ escs_std",
    data=model_data,
    weights=model_data["SENWT"]
).fit()

model2 = smf.wls(
    formula=(
        "READ ~ escs_std + disclima_std + edushort_std + staffshort_std "
        "+ gender_male + repeat_flag + escs_std:edushort_std"
    ),
    data=model_data,
    weights=model_data["SENWT"]
).fit()

print(model1.summary())
print(model2.summary())


## Modelo Multin√≠vel e ICC

Ajustamos um modelo com intercepto aleat√≥rio por escola para estimar o coeficiente de correla√ß√£o intraclasse (ICC), seguido por um modelo com inclina√ß√£o aleat√≥ria de ESCS e moderadores de n√≠vel escolar.


In [None]:
mixed_data = model_data.dropna(subset=["edushort_std", "staffshort_std"]).copy()
mixed_data["escs_centered"] = mixed_data["escs_std"] - mixed_data["escs_std"].mean()

null_model = smf.mixedlm(
    formula="READ ~ 1",
    data=mixed_data,
    groups=mixed_data["CNTSCHID"]
).fit()

var_between = null_model.cov_re.iloc[0, 0]
var_within = null_model.scale
icc = var_between / (var_between + var_within)
print(f"ICC (modelo nulo): {icc:.3f}")

mixed_model = smf.mixedlm(
    formula="READ ~ escs_centered + disclima_std + edushort_std + staffshort_std",
    data=mixed_data,
    groups=mixed_data["CNTSCHID"],
    re_formula="~escs_centered"
).fit(method="lbfgs")

print(mixed_model.summary())


## Observa√ß√µes Finais

- Os identificadores do arquivo `FLT_BRA.xlsx` estavam deslocados em +50.000; o ajuste foi necess√°rio para casar com `STU_BRA.xlsx`.
- √çndices armazenados como inteiros (ex.: `ESCS`, `DISCLIMA`, `EDUSHORT`) foram reescalados para as m√©tricas usuais antes das an√°lises.
- As estimativas ponderadas indicam m√©dia de leitura em torno de 422 pontos e gradiente socioecon√¥mico positivo (~14,5 pontos por desvio de `ESCS`).
- O ICC do modelo nulo (~0.44) aponta forte heterogeneidade entre escolas; a inclus√£o de clima disciplinar e escassez reduz a vari√¢ncia entre grupos.


## Refer√™ncias

- ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT (OECD). *PISA 2018 Technical Report*. Paris: OECD Publishing, 2020. Dispon√≠vel em: `<https://www.oecd.org/pisa/data/pisa2018technicalreport/>`. Acesso em: 6 nov. 2025.

- ORGANISATION FOR ECONOMIC CO-OPERATION AND DEVELOPMENT (OECD). *PISA 2018 Database*. Paris: OECD, 2019. Dispon√≠vel em: `<https://www.oecd.org/pisa/data/2018database/>`. Acesso em: 6 nov. 2025.
