# Gera√ß√£o de Estudantes Sint√©ticos para Simula√ß√£o SINKT

Este notebook implementa a **Etapa 2** do pipeline SINKT: cria√ß√£o de estudantes sint√©ticos baseados nos perfis cognitivos gerados anteriormente.

## Objetivo
Gerar 100 estudantes sint√©ticos com varia√ß√£o individual controlada, distribu√≠dos entre os diferentes perfis cognitivos.

## Entrada
- `data/output/notebooks/geracao_perfis/profiles.json`: Perfis cognitivos gerados no notebook anterior

## Sa√≠da
- `data/output/notebooks/geracao_estudantes/students.json`: Arquivo JSON contendo todos os estudantes sint√©ticos
- `data/output/notebooks/geracao_estudantes/students.md`: Documenta√ß√£o em Markdown dos estudantes gerados

## Importa√ß√£o de Bibliotecas

Carregamento das bibliotecas necess√°rias para manipula√ß√£o de dados, gera√ß√£o aleat√≥ria e valida√ß√£o.

In [1]:
import json
import os
import numpy as np
from datetime import datetime
from typing import Dict, List, Any
from collections import Counter

## Configura√ß√µes de Gera√ß√£o

Define os par√¢metros para gera√ß√£o dos estudantes sint√©ticos:
- **NUM_STUDENTS**: N√∫mero total de estudantes a gerar
- **SEED**: Seed para reprodutibilidade
- **INDIVIDUAL_VARIATION**: Percentual de varia√ß√£o individual (15%)
- **PROFILE_DISTRIBUTION**: Distribui√ß√£o dos estudantes entre os perfis

In [2]:
# Configura√ß√µes
NUM_STUDENTS = 100
SEED = 42
INDIVIDUAL_VARIATION = 0.15

# Distribui√ß√£o dos perfis (soma = 1.0)
PROFILE_DISTRIBUTION = {
    "balanced": 0.30,
    "quick_learner": 0.20,
    "careful": 0.20,
    "struggling": 0.10,
    "logical": 0.10,
    "intuitive": 0.10
}

# Configurar seed
np.random.seed(SEED)

print(f"‚öôÔ∏è  Configura√ß√µes:")
print(f"  - N√∫mero de estudantes: {NUM_STUDENTS}")
print(f"  - Seed: {SEED}")
print(f"  - Varia√ß√£o individual: ¬±{INDIVIDUAL_VARIATION*100:.0f}%")
print(f"\nüìä Distribui√ß√£o esperada por perfil:")
for profile_id, pct in PROFILE_DISTRIBUTION.items():
    expected = int(NUM_STUDENTS * pct)
    print(f"  - {profile_id}: {pct*100:.0f}% (~{expected} estudantes)")

‚öôÔ∏è  Configura√ß√µes:
  - N√∫mero de estudantes: 100
  - Seed: 42
  - Varia√ß√£o individual: ¬±15%

üìä Distribui√ß√£o esperada por perfil:
  - balanced: 30% (~30 estudantes)
  - quick_learner: 20% (~20 estudantes)
  - careful: 20% (~20 estudantes)
  - struggling: 10% (~10 estudantes)
  - logical: 10% (~10 estudantes)
  - intuitive: 10% (~10 estudantes)


## Carregamento dos Perfis Cognitivos

Carrega os perfis gerados no notebook anterior a partir do arquivo JSON.

In [3]:
# Carregar perfis
profiles_file = 'data/output/notebooks/geracao_perfis/profiles.json'

if not os.path.exists(profiles_file):
    raise FileNotFoundError(
        f"‚ùå Arquivo de perfis n√£o encontrado: {profiles_file}\n"
        "Execute primeiro o notebook '01_geracao_perfis.ipynb'"
    )

with open(profiles_file, 'r', encoding='utf-8') as f:
    profiles_data = json.load(f)

profiles = profiles_data['profiles']

print(f"‚úÖ Perfis carregados: {len(profiles)} perfis")
print(f"\nüìã Perfis dispon√≠veis:")
for profile_id, profile in profiles.items():
    print(f"  - {profile['nome']} ({profile_id})")

‚úÖ Perfis carregados: 6 perfis

üìã Perfis dispon√≠veis:
  - Estudante Equilibrado (balanced)
  - Aprendiz R√°pido (quick_learner)
  - Estudante Cuidadoso (careful)
  - Estudante com Dificuldades (struggling)
  - Pensador L√≥gico (logical)
  - Estudante Intuitivo (intuitive)


## Fun√ß√£o de Gera√ß√£o de Estudantes

Implementa a l√≥gica de gera√ß√£o de estudantes com varia√ß√£o individual controlada.
Cada estudante herda os par√¢metros do perfil base com uma varia√ß√£o aleat√≥ria de ¬±15%.

In [4]:
def apply_individual_variation(value: float, variation: float = INDIVIDUAL_VARIATION) -> float:
    """Aplica varia√ß√£o individual a um par√¢metro, mantendo no range [0, 1]."""
    noise = np.random.uniform(-variation, variation)
    new_value = value * (1 + noise)
    return np.clip(new_value, 0.0, 1.0)

def generate_student(student_id: int, profile_id: str, profile: Dict[str, Any]) -> Dict[str, Any]:
    """Gera um estudante sint√©tico baseado em um perfil."""
    numeric_params = ['mastery_init_level', 'learn_rate', 'slip', 'guess', 
                      'logic_skill', 'reading_skill', 'tech_familiarity',
                      'memory_capacity', 'learning_consistency']
    
    student = {
        'id': f"student_{student_id:04d}",
        'profile_id': profile_id,
        'profile_name': profile['nome']
    }
    
    # Aplicar varia√ß√£o individual aos par√¢metros num√©ricos
    for param in numeric_params:
        if param in profile:
            student[param] = round(apply_individual_variation(profile[param]), 4)
    
    return student

print("‚úÖ Fun√ß√£o de gera√ß√£o definida")

‚úÖ Fun√ß√£o de gera√ß√£o definida


## Gera√ß√£o dos Estudantes Sint√©ticos

Gera o conjunto completo de estudantes distribu√≠dos conforme a configura√ß√£o definida.

In [5]:
students = []
student_counter = 0

# Gerar estudantes para cada perfil
for profile_id, proportion in PROFILE_DISTRIBUTION.items():
    if profile_id not in profiles:
        print(f"‚ö†Ô∏è  Aviso: Perfil '{profile_id}' n√£o encontrado, pulando...")
        continue
    
    num_students_for_profile = int(NUM_STUDENTS * proportion)
    profile = profiles[profile_id]
    
    for _ in range(num_students_for_profile):
        student = generate_student(student_counter, profile_id, profile)
        students.append(student)
        student_counter += 1

# Ajustar para atingir exatamente NUM_STUDENTS (caso haja arredondamento)
while len(students) < NUM_STUDENTS:
    # Adicionar estudantes extras do perfil mais comum
    most_common_profile = max(PROFILE_DISTRIBUTION, key=PROFILE_DISTRIBUTION.get)
    profile = profiles[most_common_profile]
    student = generate_student(student_counter, most_common_profile, profile)
    students.append(student)
    student_counter += 1

print(f"‚úÖ Gerados {len(students)} estudantes sint√©ticos")

# Mostrar distribui√ß√£o real
actual_distribution = Counter([s['profile_id'] for s in students])
print(f"\nüìä Distribui√ß√£o real por perfil:")
for profile_id, count in sorted(actual_distribution.items()):
    percentage = (count / len(students)) * 100
    print(f"  - {profile_id}: {count} estudantes ({percentage:.1f}%)")

‚úÖ Gerados 100 estudantes sint√©ticos

üìä Distribui√ß√£o real por perfil:
  - balanced: 30 estudantes (30.0%)
  - careful: 20 estudantes (20.0%)
  - intuitive: 10 estudantes (10.0%)
  - logical: 10 estudantes (10.0%)
  - quick_learner: 20 estudantes (20.0%)
  - struggling: 10 estudantes (10.0%)


## Valida√ß√£o dos Estudantes Gerados

Verifica se todos os estudantes possuem par√¢metros v√°lidos e IDs √∫nicos.

In [6]:
def validate_students(students: List[Dict[str, Any]]) -> List[str]:
    """Valida os estudantes sint√©ticos."""
    errors = []
    
    required_fields = ['id', 'profile_id', 'profile_name', 'mastery_init_level', 
                       'learn_rate', 'slip', 'guess', 'logic_skill', 
                       'reading_skill', 'tech_familiarity', 'memory_capacity',
                       'learning_consistency']
    
    numeric_fields = ['mastery_init_level', 'learn_rate', 'slip', 'guess', 
                      'logic_skill', 'reading_skill', 'tech_familiarity',
                      'memory_capacity', 'learning_consistency']
    
    student_ids = set()
    
    for i, student in enumerate(students):
        # Verifica campos obrigat√≥rios
        for field in required_fields:
            if field not in student:
                errors.append(f"Estudante {i}: Campo '{field}' ausente")
        
        # Verifica ID √∫nico
        if 'id' in student:
            if student['id'] in student_ids:
                errors.append(f"Estudante {i}: ID '{student['id']}' duplicado")
            student_ids.add(student['id'])
        
        # Verifica ranges dos par√¢metros num√©ricos
        for field in numeric_fields:
            if field in student:
                value = student[field]
                if not isinstance(value, (int, float)):
                    errors.append(f"Estudante {student.get('id', i)}: '{field}' deve ser num√©rico")
                elif value < 0 or value > 1:
                    errors.append(f"Estudante {student.get('id', i)}: '{field}' = {value} fora do range [0, 1]")
        
        # Verifica se profile_id existe
        if 'profile_id' in student and student['profile_id'] not in profiles:
            errors.append(f"Estudante {student.get('id', i)}: profile_id '{student['profile_id']}' inv√°lido")
    
    return errors

# Executar valida√ß√£o
validation_errors = validate_students(students)

if validation_errors:
    print("‚ùå Erros de valida√ß√£o encontrados:")
    for error in validation_errors[:10]:  # Mostrar apenas os primeiros 10
        print(f"  - {error}")
    if len(validation_errors) > 10:
        print(f"  ... e mais {len(validation_errors) - 10} erros")
else:
    print("‚úÖ Todos os estudantes s√£o v√°lidos!")

‚úÖ Todos os estudantes s√£o v√°lidos!


## C√°lculo de Estat√≠sticas dos Estudantes

Calcula estat√≠sticas descritivas para cada par√¢metro dos estudantes gerados.

In [7]:
def calculate_student_statistics(students: List[Dict[str, Any]]) -> Dict[str, Dict[str, float]]:
    """Calcula estat√≠sticas dos par√¢metros dos estudantes."""
    numeric_fields = ['mastery_init_level', 'learn_rate', 'slip', 'guess', 
                      'logic_skill', 'reading_skill', 'tech_familiarity',
                      'memory_capacity', 'learning_consistency']
    
    stats = {}
    
    for field in numeric_fields:
        values = [s[field] for s in students if field in s]
        if values:
            stats[field] = {
                'mean': float(np.mean(values)),
                'std': float(np.std(values)),
                'min': float(np.min(values)),
                'max': float(np.max(values))
            }
    
    return stats

# Calcular e exibir estat√≠sticas
stats = calculate_student_statistics(students)

print("\nüìä Estat√≠sticas dos Par√¢metros dos Estudantes:\n")
for param, values in stats.items():
    print(f"  {param}:")
    print(f"    M√©dia: {values['mean']:.3f}")
    print(f"    Desvio: {values['std']:.3f}")
    print(f"    Range: [{values['min']:.3f}, {values['max']:.3f}]")
    print()


üìä Estat√≠sticas dos Par√¢metros dos Estudantes:

  mastery_init_level:
    M√©dia: 0.469
    Desvio: 0.094
    Range: [0.231, 0.631]

  learn_rate:
    M√©dia: 0.041
    Desvio: 0.021
    Range: [0.013, 0.089]

  slip:
    M√©dia: 0.147
    Desvio: 0.046
    Range: [0.068, 0.258]

  guess:
    M√©dia: 0.136
    Desvio: 0.037
    Range: [0.071, 0.229]

  logic_skill:
    M√©dia: 0.580
    Desvio: 0.169
    Range: [0.265, 0.962]

  reading_skill:
    M√©dia: 0.580
    Desvio: 0.156
    Range: [0.265, 0.907]

  tech_familiarity:
    M√©dia: 0.549
    Desvio: 0.174
    Range: [0.175, 0.911]

  memory_capacity:
    M√©dia: 0.633
    Desvio: 0.140
    Range: [0.352, 0.911]

  learning_consistency:
    M√©dia: 0.704
    Desvio: 0.168
    Range: [0.346, 1.000]



## Cria√ß√£o do Arquivo JSON de Sa√≠da

Estrutura e salva os estudantes em formato JSON com metadados completos.

In [8]:
# Criar estrutura completa com metadados
output_data = {
    "metadata": {
        "description": "Conjunto de estudantes sint√©ticos gerados para valida√ß√£o do SINKT",
        "version": "1.0.0",
        "created_at": datetime.now().isoformat(),
        "num_students": len(students),
        "generation_seed": SEED,
        "individual_variation": INDIVIDUAL_VARIATION,
        "profile_distribution": PROFILE_DISTRIBUTION
    },
    "students": students
}

# Criar diret√≥rio de sa√≠da se n√£o existir
os.makedirs('data/output/notebooks/geracao_estudantes', exist_ok=True)

# Salvar arquivo JSON
output_file = 'data/output/notebooks/geracao_estudantes/students.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(output_data, f, indent=2, ensure_ascii=False)

print(f"‚úÖ Estudantes salvos em: {output_file}")
print(f"üì¶ Total de estudantes: {len(students)}")

‚úÖ Estudantes salvos em: data/output/notebooks/geracao_estudantes/students.json
üì¶ Total de estudantes: 100


## Resumo da Execu√ß√£o

Exibe um resumo final com informa√ß√µes sobre os estudantes gerados e pr√≥ximos passos.

In [9]:
print("\n" + "="*60)
print("üéâ GERA√á√ÉO DE ESTUDANTES CONCLU√çDA COM SUCESSO!")
print("="*60)
print(f"\nüìÅ Arquivos gerados:")
print(f"  - {output_file}")
print(f"\nüìä Resumo:")
print(f"  - Total de estudantes: {len(students)}")
print(f"  - Perfis utilizados: {len(actual_distribution)}")
print(f"  - Seed de gera√ß√£o: {SEED}")
print(f"\n‚úÖ Pipeline de gera√ß√£o sint√©tica completo!")
print(f"\nüí° Pr√≥ximos passos sugeridos:")
print(f"  1. Integrar com modelo SINKT")
print(f"  2. Simular intera√ß√µes com quest√µes")
print(f"  3. Validar com dados reais")
print("="*60)


üéâ GERA√á√ÉO DE ESTUDANTES CONCLU√çDA COM SUCESSO!

üìÅ Arquivos gerados:
  - data/output/notebooks/geracao_estudantes/students.json

üìä Resumo:
  - Total de estudantes: 100
  - Perfis utilizados: 6
  - Seed de gera√ß√£o: 42

‚úÖ Pipeline de gera√ß√£o sint√©tica completo!

üí° Pr√≥ximos passos sugeridos:
  1. Integrar com modelo SINKT
  2. Simular intera√ß√µes com quest√µes
  3. Validar com dados reais
