##Nesse notebook vamos definir uma amostra estratificada do dataset de simulados do ENEM (anteriormente explorados), garantindo que cada disciplina esteja representada proporcionalmente. Seguiremos os seguintes passos:

###1. Definir o número de amostras por disciplina: Com base na distribuição original, decidimos que ≈2.500 exemplos são suficientes para treinar um modelo eficaz, mantendo a diversidade.

###2. Calcular a amostra por disciplina: Considerando o valor total de 7.357 questões, calculamos o número de exemplos a serem amostrados de cada disciplina para manter a representatividade.
    - Ciências da Natureza: 2.050 / 7.357 ≈ 27.9%
    - Ciências Humanas: 1.947 / 7.357 ≈ 26.5%
    - Linguagens e Códigos: 1.737 / 7.357 ≈ 23.6%
    - Matemática: 1.623 / 7.357 ≈ 22.1%

    Agora, aplicamos essas porcentagens ao nosso alvo de ≈2.500 exemplos:
    - Ciências da Natureza: 2.500 * 0.279 = 698 exemplos
    - Ciências Humanas: 2.500 * 0.265 = 663 exemplos
    - Linguagens e Códigos: 2.500 * 0.236 = 590 exemplos
    - Matemática: 2.500 * 0.221 = 552 exemplos

    Total: 2.503 exemplos (com arrendondamento).

###3. Criar o script para amostragem estratificada

###4. Salvar a amostra final em CSV para uso futuro na anotação e treinamento de modelos.

In [1]:
import pandas as pd

In [6]:
# 1. Carregar o seu dataset completo salvo anteriormente
df = pd.read_csv('/Users/giossaurus/Developer/leia_tcc/data/interim/simulados_enem_completo.csv')

In [7]:
# 2. Renomear a coluna para maior clareza
df.rename(columns={'dataset': 'disciplina'}, inplace=True)
print("Colunas renomeadas com sucesso!")

Colunas renomeadas com sucesso!


In [8]:
# 3. Definir o número de amostras por disciplina
samples_per_subject = {
    'Ciências da Natureza': 698,
    'Ciências Humanas': 663,
    'Linguagens e Códigos': 590,
    'Matemática': 552
}

In [9]:
# 4. Criar a amostra estratificada
sampled_dfs = []
for subject, n_samples in samples_per_subject.items():
    subject_df = df[df['disciplina'] == subject]
    sampled_dfs.append(subject_df.sample(n=n_samples, random_state=42))

In [10]:
# 5. Concatenar e embaralhar o dataframe final
final_sample_df = pd.concat(sampled_dfs)
final_sample_df = final_sample_df.sample(frac=1, random_state=42).reset_index(drop=True)

print("\n--- Amostra Final ---")
print("Tamanho da amostra:", len(final_sample_df))
print("Distribuição das disciplinas na amostra:")
print(final_sample_df['disciplina'].value_counts())



--- Amostra Final ---
Tamanho da amostra: 2503
Distribuição das disciplinas na amostra:
disciplina
Ciências da Natureza    698
Ciências Humanas        663
Linguagens e Códigos    590
Matemática              552
Name: count, dtype: int64


In [13]:
# 6. Salvar o arquivo que será importado no Label Studio
final_sample_df.to_csv('/Users/giossaurus/Developer/leia_tcc/data/processed/nlu_amostra_para_anotacao.csv', index=False)
print("\nAmostra salva com sucesso em 'data/processed/nlu_amostra_para_anotacao.csv'")


Amostra salva com sucesso em 'data/processed/nlu_amostra_para_anotacao.csv'
