In [1]:
import pandas as pd
import numpy as np
import xgboost as xgb
from sklearn.model_selection import train_test_split
import dice_ml
import joblib

Note: You have installed the 'manylinux2014' variant of XGBoost. Certain features such as GPU algorithms or federated learning are not available. To use these features, please upgrade to a recent Linux distro with glibc 2.28+, and install the 'manylinux_2_28' variant.


In [2]:
df = pd.read_csv('dataset_reduzido_renomeadas2.csv')

In [3]:
df

Unnamed: 0,A004_nao_sabe_escolaridade_mae,A010A_tem_tv_a_cabo,A005_nao_sabe_escolaridade_pai,A007_vez_enquanto_contratam_domestica,A017B_faz_curso_mais_de_2_horas,A009A_nenhuma_geladeira_em_casa,A003A_mora_com_mae_madrasta,A002_alunos_brancos,A009B_1_tablet_em_casa,A018C_nunca_le_quadrinhos,...,P001_prof_pardo,P115_estimula_aluno_expressar_opiniao_semanal,P022_assiste_telejornal_sempre,P080_reuniu_conselho_classe_mais_3_vezes,P094_alunos_respeitam_acordos_discordo,P075_ppp_discutido_em_reuniao_sim,P064_aprimorar_aval_contribuiu_muito,P095_alunos_chegam_pontualmente_concordo,ID_ESCOLA,MEDIA_FINAL
0,0.119718,0.338028,0.211268,0.091549,0.056338,0.014085,0.732394,0.225352,0.161972,0.591549,...,0.250000,0.125,0.375000,0.375000,0.062500,0.375000,0.062500,0.375000,11025638,269.215
1,0.053333,0.366667,0.140000,0.100000,0.120000,0.000000,0.786667,0.353333,0.100000,0.586667,...,0.200000,0.100,0.200000,0.200000,0.200000,0.200000,0.100000,0.100000,11007885,302.270
2,0.102679,0.303571,0.214286,0.084821,0.196429,0.004464,0.812500,0.258929,0.147321,0.531250,...,0.142857,0.000,0.000000,0.095238,0.047619,0.095238,0.142857,0.047619,11007893,278.880
3,0.204082,0.255102,0.408163,0.040816,0.132653,0.020408,0.683673,0.153061,0.071429,0.367347,...,0.500000,0.125,0.250000,0.500000,0.000000,0.375000,0.250000,0.375000,11026197,248.260
4,0.093897,0.403756,0.201878,0.136150,0.178404,0.000000,0.826291,0.319249,0.112676,0.582160,...,0.000000,0.050,0.050000,0.250000,0.050000,0.250000,0.000000,0.150000,11026278,288.490
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4602,0.092391,0.358696,0.255435,0.043478,0.228261,0.010870,0.858696,0.211957,0.184783,0.483696,...,0.300000,0.000,0.000000,0.200000,0.100000,0.200000,0.000000,0.000000,53012542,282.615
4603,0.061856,0.412371,0.134021,0.072165,0.237113,0.000000,0.876289,0.226804,0.164948,0.536082,...,0.250000,0.000,0.250000,0.500000,0.250000,0.250000,0.000000,0.250000,53013840,280.915
4604,0.059701,0.373134,0.164179,0.059701,0.343284,0.000000,0.791045,0.149254,0.164179,0.522388,...,0.000000,0.250,0.000000,0.500000,0.250000,0.250000,0.000000,0.000000,53014308,298.720
4605,0.082474,0.443299,0.257732,0.072165,0.175258,0.000000,0.783505,0.247423,0.206186,0.639175,...,0.125000,0.125,0.000000,0.250000,0.000000,0.125000,0.250000,0.000000,53051009,297.660


In [4]:
# Definindo a variável alvo e as features
target = 'MEDIA_FINAL'
# Garante que a coluna alvo não entre nas features do modelo
features_to_exclude = [target]
features = [col for col in df.columns if col not in features_to_exclude]

X = df[features]
y = df[target]

# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [5]:
# ETAPA 2: TREINAMENTO DO MODELO
# Usando o mesmo tipo de modelo dos seus notebooks para consistência.
# ==============================================================================

print("\nTreinando o modelo XGBoost...")
xgb_model = xgb.XGBRegressor(objective='reg:squarederror', n_estimators=100, random_state=42)
xgb_model.fit(X_train, y_train)
print("Modelo treinado com sucesso.")


Treinando o modelo XGBoost...
Modelo treinado com sucesso.


In [6]:
#joblib.dump(xgb_model, 'modelo_xgboost.pkl') 

['modelo_xgboost.pkl']

In [7]:
# ETAPA 3: CONFIGURANDO O EXPLAINER CONTRAFATUAL (DiCE)
# Esta é a nova implementação central.
# ==============================================================================

print("\nConfigurando o explainer DiCE...")
# O DiCE precisa de um Dataframe com a variável alvo para funcionar
dice_data = df.copy() 

# 1. Criar um objeto de dados para o DiCE
# É preciso informar quais features são contínuas e qual é o nome da variável alvo.
d = dice_ml.Data(dataframe=dice_data, 
                 continuous_features=features, # Assumindo que todas as features são contínuas
                 outcome_name=target)

# 2. Criar um objeto de modelo para o DiCE
# Informamos ao DiCE qual é o nosso modelo treinado e que é um problema de 'regressão'.
m = dice_ml.Model(model=xgb_model, backend='sklearn', model_type='regressor')

# 3. Inicializar o explainer DiCE
# 'random' é um método rápido para encontrar contrafatuais. Outros como 'kdtree' podem ser mais precisos.
exp = dice_ml.Dice(d, m, method='random')
print("Explainer configurado.")


Configurando o explainer DiCE...
Explainer configurado.


In [8]:
# ETAPA 4: GERANDO EXPLICAÇÕES CONTRAFATUAIS
# ==============================================================================

# Vamos pegar uma escola do conjunto de teste para analisar.
# Idealmente, uma escola com desempenho abaixo do desejado para que a melhoria faça sentido.
query_instance = X_test[X_test["ID_ESCOLA"] == 21243875]
factual_prediction = xgb_model.predict(query_instance)[0]

print(f"\n--- Análise Contrafactual para uma Escola Exemplo ---")
print(f"Situação Atual (Factual):")
print(query_instance)
print(f"\nNota prevista pelo modelo (factual): {factual_prediction:.2f}")

# DEFININDO O OBJETIVO CONTRAFATUAL
# *** AJUSTE IMPORTANTE PARA CORRIGIR O ERRO ***
# Em vez de um valor fixo, vamos definir uma meta um pouco acima da nota atual.
# Isso torna a busca por contrafatuais mais realista e com maior chance de sucesso.
# Ex: Se a nota é 6.2, vamos mirar entre 6.8 e 7.2.
improvement_margin = 2.5 # Queremos melhorar a nota em pelo menos 0.5 ponto.
desired_range_start = factual_prediction + improvement_margin
desired_range_end = desired_range_start + 2.5 # Criamos um intervalo de 0.5 ponto.
desired_range = (desired_range_start, desired_range_end)

print(f"\nObjetivo (Contrafatual): Alcançar uma nota entre {desired_range[0]:.2f} e {desired_range[1]:.2f}")

# DEFININDO AS FEATURES QUE PODEM SER ALTERADAS (ACIONÁVEIS)
# Este é um passo CRÍTICO para gerar explicações úteis.
# Um diretor não pode mudar o perfil socioeconômico, mas pode investir em biblioteca.
# *** VOCÊ PRECISA CUSTOMIZAR ESTA LISTA COM AS VARIÁVEIS DO SEU PROJETO ***
features_to_vary = [
    'A016_nunca_abandonou_escola', # % de docentes com licenciatura
    'A004_nao_sabe_escolaridade_mae',            # Existência de biblioteca
    'A006B_pais_incentiva_estudar'   # Existência de laboratório de ciências
    # Se o erro persistir, tente adicionar mais variáveis acionáveis a esta lista.
]
# Garante que a lista só contenha colunas que de fato existem no seu dataframe
features_to_vary = [f for f in features_to_vary if f in df.columns]

print(f"Variáveis que o gestor pode alterar (hipótese): {features_to_vary}")


# Gerando 3 exemplos contrafatuais diversos
print("\nGerando exemplos de melhoria...")
dice_exp = exp.generate_counterfactuals(query_instance, 
                                        total_CFs=3, 
                                        desired_range=desired_range,
                                        features_to_vary=features_to_vary)

# Visualizando os resultados de forma clara e focada nas mudanças
print("\nResultados encontrados (Cenários de Melhoria):")

# *** CORREÇÃO DO ERRO AttributeError ***
# O acesso correto aos resultados é através de `cf_examples_list[0]`.
# Verificamos se a lista de exemplos contrafatuais foi gerada e não está vazia.
if dice_exp.cf_examples_list and dice_exp.cf_examples_list[0].final_cfs_df is not None and not dice_exp.cf_examples_list[0].final_cfs_df.empty:
    dice_exp.visualize_as_dataframe(show_only_changes=True)
else:
    print("\n" + "*"*80)
    print("AVISO: Nenhum cenário de melhoria foi encontrado com a configuração atual.")
    print("Isso pode significar que a meta é muito difícil de alcançar apenas mudando as variáveis permitidas.")
    print("\nSugestões para tentar:")
    print("1. Aumente a 'improvement_margin' para um valor menor (ex: 0.2).")
    print("2. Permita que mais variáveis sejam alteradas na lista 'features_to_vary'.")
    print("3. Analise outra escola que talvez tenha uma nota inicial melhor.")
    print("*"*80)



--- Análise Contrafactual para uma Escola Exemplo ---
Situação Atual (Factual):
     A004_nao_sabe_escolaridade_mae  A010A_tem_tv_a_cabo  \
415                        0.222222             0.460317   

     A005_nao_sabe_escolaridade_pai  A007_vez_enquanto_contratam_domestica  \
415                        0.301587                               0.095238   

     A017B_faz_curso_mais_de_2_horas  A009A_nenhuma_geladeira_em_casa  \
415                         0.126984                         0.015873   

     A003A_mora_com_mae_madrasta  A002_alunos_brancos  A009B_1_tablet_em_casa  \
415                     0.714286             0.095238                0.063492   

     A018C_nunca_le_quadrinhos  ...  P101_alunos_sob_efeito_drogas_nunca  \
415                   0.380952  ...                                  0.5   

     P001_prof_pardo  P115_estimula_aluno_expressar_opiniao_semanal  \
415              0.5                                            0.0   

     P022_assiste_telejornal_sempre

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.53it/s]


Resultados encontrados (Cenários de Melhoria):
Query instance (original outcome : 240.0)





Unnamed: 0,A004_nao_sabe_escolaridade_mae,A010A_tem_tv_a_cabo,A005_nao_sabe_escolaridade_pai,A007_vez_enquanto_contratam_domestica,A017B_faz_curso_mais_de_2_horas,A009A_nenhuma_geladeira_em_casa,A003A_mora_com_mae_madrasta,A002_alunos_brancos,A009B_1_tablet_em_casa,A018C_nunca_le_quadrinhos,...,P001_prof_pardo,P115_estimula_aluno_expressar_opiniao_semanal,P022_assiste_telejornal_sempre,P080_reuniu_conselho_classe_mais_3_vezes,P094_alunos_respeitam_acordos_discordo,P075_ppp_discutido_em_reuniao_sim,P064_aprimorar_aval_contribuiu_muito,P095_alunos_chegam_pontualmente_concordo,ID_ESCOLA,MEDIA_FINAL
0,0.222222,0.460317,0.301587,0.095238,0.126984,0.015873,0.714286,0.095238,0.063492,0.380952,...,0.5,0.0,0.5,0.0,0.0,0.25,0.5,0.25,21243875,240.0



Diverse Counterfactual set (new outcome: (np.float32(242.15445), np.float32(244.65445)))


Unnamed: 0,A004_nao_sabe_escolaridade_mae,A010A_tem_tv_a_cabo,A005_nao_sabe_escolaridade_pai,A007_vez_enquanto_contratam_domestica,A017B_faz_curso_mais_de_2_horas,A009A_nenhuma_geladeira_em_casa,A003A_mora_com_mae_madrasta,A002_alunos_brancos,A009B_1_tablet_em_casa,A018C_nunca_le_quadrinhos,...,P001_prof_pardo,P115_estimula_aluno_expressar_opiniao_semanal,P022_assiste_telejornal_sempre,P080_reuniu_conselho_classe_mais_3_vezes,P094_alunos_respeitam_acordos_discordo,P075_ppp_discutido_em_reuniao_sim,P064_aprimorar_aval_contribuiu_muito,P095_alunos_chegam_pontualmente_concordo,ID_ESCOLA,MEDIA_FINAL
0,0.15666015,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
1,0.12338081,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
2,0.17600843,-,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-
