### Pensando no tempo hábil para anotação manual, decidimos ajustar o número de amostras por disciplina para um golden set. Anotaremos 500 exemplos com a maior qualidade possível. Usaremos amostragem estratificada para garantir que todas as disciplinas e (provavelmente) todas as intenções estejam representadas. 

Para cálculo, consideramos a distribuição original das disciplinas no dataset completo e aplicamos essa distribuição ao total de 500 exemplos que queremos anotar: 
    Dataset Total: 7.357 questões 
    Distribuição Original:
    - Ciências da Natureza: 27.9% 
    - Ciências Humanas: 26.5% 
    - Linguagens e Códigos: 23.6% 
    - Matemática: 22.1% 

    Cálculo para a Amostra de 500:
    - Ciências da Natureza: 500 * 0.279 = 139.5 ≈ 140 exemplos
    - Ciências Humanas: 500 * 0.265 = 132.5 ≈ 133 exemplos
    - Linguagens e Códigos: 500 * 0.236 = 118 exemplos
    - Matemática: 500 * 0.221 = 110.5 ≈ 111 exemplos

Total: 502 exemplos (a pequena diferença se deve aos arredondamentos).


In [1]:
import pandas as pd

In [3]:
# 1. Carregar o dataset completo
df = pd.read_csv('/Users/giossaurus/Developer/leia_tcc/data/interim/simulados_enem_completo.csv')

In [4]:
# 2. Renomear a coluna para maior clareza
df.rename(columns={'dataset': 'disciplina'}, inplace=True)

In [5]:
# 3. Definir o número de amostras para o "Golden Set" de 500
golden_set_samples = {
    'Ciências da Natureza': 140,
    'Ciências Humanas': 133,
    'Linguagens e Códigos': 118,
    'Matemática': 111
}

In [6]:
# 4. Criar a amostra estratificada
sampled_dfs = []
for subject, n_samples in golden_set_samples.items():
    subject_df = df[df['disciplina'] == subject]
    # Usamos n=n_samples para pegar o número exato que calculamos
    sampled_dfs.append(subject_df.sample(n=n_samples, random_state=42))

In [7]:
# 5. Concatenar e embaralhar o dataframe final
golden_set_df = pd.concat(sampled_dfs)
golden_set_df = golden_set_df.sample(frac=1, random_state=42).reset_index(drop=True)

print("--- Golden Set ---")
print("Tamanho da amostra:", len(golden_set_df))
print("Distribuição das disciplinas na amostra:")
print(golden_set_df['disciplina'].value_counts())

--- Golden Set ---
Tamanho da amostra: 502
Distribuição das disciplinas na amostra:
disciplina
Ciências da Natureza    140
Ciências Humanas        133
Linguagens e Códigos    118
Matemática              111
Name: count, dtype: int64


In [10]:
# 6. Salvar o arquivo que será usado para a anotação manual
golden_set_df.to_csv('/Users/giossaurus/Developer/leia_tcc/data/processed/golden_set_para_anotacao.csv', index=False)
print("\n'Golden Set' salvo com sucesso")


'Golden Set' salvo com sucesso
