# 01 - Gera√ß√£o de Perfis Cognitivos para Simula√ß√£o SINKT

Este notebook implementa a **Etapa 1** do pipeline SINKT: cria√ß√£o de perfis cognitivos fundamentados em modelos cl√°ssicos de Knowledge Tracing (BKT - Bayesian Knowledge Tracing).

## Objetivo
Criar 6+ perfis cognitivos distintos que representam diferentes tipos de estudantes, cada um com caracter√≠sticas √∫nicas de aprendizagem.

## Sa√≠da
- `data/output/profiles.json`: Arquivo JSON contendo todos os perfis cognitivos
- `data/output/profiles_analysis.md`: Documenta√ß√£o e an√°lise dos perfis gerados

## Importa√ß√£o de Bibliotecas

In [None]:
import json
import os
from datetime import datetime
from typing import Dict, List, Any
import numpy as np
import pandas as pd

print("‚úÖ Bibliotecas importadas com sucesso")

## Defini√ß√£o dos Perfis Cognitivos Enriquecidos

Cada perfil √© caracterizado por 9 par√¢metros fundamentais baseados em modelos cognitivos reais:

### Par√¢metros BKT (Knowledge Tracing)
- **mastery_init_level**: N√≠vel inicial de dom√≠nio (0-1) - conhecimento pr√©vio
- **learn_rate**: Taxa de aprendizagem (0-0.1) - velocidade de aquisi√ß√£o de conhecimento
- **slip**: Probabilidade de erro quando sabe (0-0.2) - erros por distra√ß√£o/pressa
- **guess**: Probabilidade de acerto quando n√£o sabe (0-0.3) - acertos por sorte

### Par√¢metros Cognitivos
- **logic_skill**: Habilidade l√≥gica (0-1) - racioc√≠nio formal e algor√≠tmico
- **reading_skill**: Habilidade de leitura (0-1) - compreens√£o de texto
- **memory_capacity**: Capacidade de mem√≥ria (0-1) - reten√ß√£o de informa√ß√µes
- **tech_familiarity**: Familiaridade com tecnologia (0-1) - experi√™ncia pr√©via
- **learning_consistency**: Consist√™ncia de aprendizado (0-1) - regularidade e disciplina

In [None]:
profiles_data = [
    {
        "id": "balanced",
        "nome": "Estudante Equilibrado",
        "descricao": "Perfil m√©dio com habilidades balanceadas. Representa o estudante t√≠pico com desenvolvimento uniforme.",
        "mastery_init_level": 0.50,
        "learn_rate": 0.035,
        "slip": 0.12,
        "guess": 0.15,
        "logic_skill": 0.55,
        "reading_skill": 0.55,
        "memory_capacity": 0.55,
        "tech_familiarity": 0.50,
        "learning_consistency": 0.60
    },
    {
        "id": "quick_learner",
        "nome": "Aprendiz R√°pido",
        "descricao": "Alta capacidade de aprendizagem e dom√≠nio inicial. Adquire conceitos rapidamente com poucos erros.",
        "mastery_init_level": 0.70,
        "learn_rate": 0.075,
        "slip": 0.08,
        "guess": 0.10,
        "logic_skill": 0.75,
        "reading_skill": 0.70,
        "memory_capacity": 0.80,
        "tech_familiarity": 0.75,
        "learning_consistency": 0.85
    },
    {
        "id": "careful",
        "nome": "Estudante Cuidadoso",
        "descricao": "Baixa taxa de erros quando sabe, mas aprende de forma gradual. Meticuloso e detalhista.",
        "mastery_init_level": 0.45,
        "learn_rate": 0.020,
        "slip": 0.06,
        "guess": 0.08,
        "logic_skill": 0.65,
        "reading_skill": 0.75,
        "memory_capacity": 0.70,
        "tech_familiarity": 0.45,
        "learning_consistency": 0.90
    },
    {
        "id": "struggling",
        "nome": "Estudante com Dificuldades",
        "descricao": "Baixo dom√≠nio inicial e lenta aprendizagem. Necessita mais apoio e tempo para absorver conceitos.",
        "mastery_init_level": 0.25,
        "learn_rate": 0.012,
        "slip": 0.20,
        "guess": 0.22,
        "logic_skill": 0.30,
        "reading_skill": 0.35,
        "memory_capacity": 0.40,
        "tech_familiarity": 0.20,
        "learning_consistency": 0.40
    },
    {
        "id": "logical",
        "nome": "Pensador L√≥gico",
        "descricao": "Excelente habilidade l√≥gica mas com dificuldades em leitura. Excelente em problemas algor√≠tmicos.",
        "mastery_init_level": 0.55,
        "learn_rate": 0.045,
        "slip": 0.10,
        "guess": 0.08,
        "logic_skill": 0.90,
        "reading_skill": 0.25,
        "memory_capacity": 0.60,
        "tech_familiarity": 0.65,
        "learning_consistency": 0.75
    },
    {
        "id": "intuitive",
        "nome": "Estudante Intuitivo",
        "descricao": "Boa intui√ß√£o e habilidade de leitura, mas dificuldade com formalismo l√≥gico. Aprende por exemplo.",
        "mastery_init_level": 0.40,
        "learn_rate": 0.040,
        "slip": 0.14,
        "guess": 0.18,
        "logic_skill": 0.35,
        "reading_skill": 0.85,
        "memory_capacity": 0.65,
        "tech_familiarity": 0.40,
        "learning_consistency": 0.65
    },
    {
        "id": "perfectionist",
        "nome": "Perfeccionista",
        "descricao": "Muito rigoroso e exigente consigo mesmo. Aprende profundamente mas pode ser lento.",
        "mastery_init_level": 0.60,
        "learn_rate": 0.025,
        "slip": 0.05,
        "guess": 0.05,
        "logic_skill": 0.80,
        "reading_skill": 0.80,
        "memory_capacity": 0.85,
        "tech_familiarity": 0.60,
        "learning_consistency": 0.95
    }
]

print(f"‚úÖ {len(profiles_data)} perfis cognitivos definidos")

## Valida√ß√£o dos Perfis

In [None]:
def validate_profiles(profiles: List[Dict[str, Any]]) -> List[str]:
    """Valida os perfis cognitivos."""
    errors = []
    
    required_fields = ['id', 'nome', 'descricao', 'mastery_init_level', 'learn_rate', 
                       'slip', 'guess', 'logic_skill', 'reading_skill', 'memory_capacity',
                       'tech_familiarity', 'learning_consistency']
    
    numeric_fields = ['mastery_init_level', 'learn_rate', 'slip', 'guess', 
                      'logic_skill', 'reading_skill', 'memory_capacity',
                      'tech_familiarity', 'learning_consistency']
    
    profile_ids = set()
    
    for i, profile in enumerate(profiles):
        # Verifica campos obrigat√≥rios
        for field in required_fields:
            if field not in profile:
                errors.append(f"Perfil {i}: Campo '{field}' ausente")
        
        # Verifica ID √∫nico
        if 'id' in profile:
            if profile['id'] in profile_ids:
                errors.append(f"Perfil {i}: ID '{profile['id']}' duplicado")
            profile_ids.add(profile['id'])
        
        # Verifica ranges dos par√¢metros num√©ricos
        for field in numeric_fields:
            if field in profile:
                value = profile[field]
                if not isinstance(value, (int, float)):
                    errors.append(f"Perfil {profile.get('id', i)}: '{field}' deve ser num√©rico")
                elif value < 0 or value > 1:
                    errors.append(f"Perfil {profile.get('id', i)}: '{field}' = {value} fora do range [0, 1]")
    
    return errors

# Executar valida√ß√£o
validation_errors = validate_profiles(profiles_data)

if validation_errors:
    print("‚ùå Erros de valida√ß√£o encontrados:")
    for error in validation_errors:
        print(f"  - {error}")
else:
    print("‚úÖ Todos os perfis s√£o v√°lidos!")

## An√°lise de Coer√™ncia entre Par√¢metros

In [None]:
def analyze_profile_coherence(profiles: List[Dict[str, Any]]) -> pd.DataFrame:
    """Analisa coer√™ncia entre par√¢metros dos perfis."""
    data = []
    
    for profile in profiles:
        # Verificar coer√™ncia: aprendizes r√°pidos devem ter slip baixo
        coherence_score = 1.0
        issues = []
        
        # Regra 1: learn_rate alto ‚Üí slip baixo
        if profile['learn_rate'] > 0.05 and profile['slip'] > 0.15:
            coherence_score -= 0.2
            issues.append("learn_rate alto com slip alto")
        
        # Regra 2: logic_skill alto ‚Üí guess baixo
        if profile['logic_skill'] > 0.7 and profile['guess'] > 0.15:
            coherence_score -= 0.15
            issues.append("logic_skill alto com guess alto")
        
        # Regra 3: memory_capacity alto ‚Üí learning_consistency alto
        if profile['memory_capacity'] > 0.7 and profile['learning_consistency'] < 0.6:
            coherence_score -= 0.15
            issues.append("memory_capacity alto com consistency baixa")
        
        data.append({
            'Perfil': profile['nome'],
            'ID': profile['id'],
            'Coer√™ncia': max(0, coherence_score),
            'Problemas': '; '.join(issues) if issues else 'Nenhum'
        })
    
    return pd.DataFrame(data)

coherence_df = analyze_profile_coherence(profiles_data)
print("\nüìä An√°lise de Coer√™ncia dos Perfis:\n")
print(coherence_df.to_string(index=False))

## C√°lculo de Estat√≠sticas dos Perfis

In [None]:
def calculate_profile_statistics(profiles: List[Dict[str, Any]]) -> Dict[str, Dict[str, float]]:
    """Calcula estat√≠sticas dos par√¢metros dos perfis."""
    numeric_fields = ['mastery_init_level', 'learn_rate', 'slip', 'guess', 
                      'logic_skill', 'reading_skill', 'memory_capacity',
                      'tech_familiarity', 'learning_consistency']
    
    stats = {}
    
    for field in numeric_fields:
        values = [p[field] for p in profiles if field in p]
        if values:
            stats[field] = {
                'mean': float(np.mean(values)),
                'std': float(np.std(values)),
                'min': float(np.min(values)),
                'max': float(np.max(values))
            }
    
    return stats

# Calcular e exibir estat√≠sticas
stats = calculate_profile_statistics(profiles_data)

print("\nüìä Estat√≠sticas dos Par√¢metros:\n")
for param, values in stats.items():
    print(f"  {param}:")
    print(f"    M√©dia: {values['mean']:.3f} | Desvio: {values['std']:.3f} | Range: [{values['min']:.3f}, {values['max']:.3f}]")

## Cria√ß√£o do Arquivo JSON de Sa√≠da

In [None]:
# Criar estrutura completa com metadados
output_data = {
    "metadata": {
        "description": "Conjunto de perfis cognitivos para simula√ß√£o de estudantes SINKT",
        "version": "2.0.0",
        "created_at": datetime.now().isoformat(),
        "num_profiles": len(profiles_data),
        "parameters_count": 9,
        "model": "BKT (Bayesian Knowledge Tracing) + Cognitive Factors"
    },
    "profiles": {profile['id']: profile for profile in profiles_data},
    "statistics": stats
}

# Criar diret√≥rio de sa√≠da se n√£o existir
os.makedirs('data/output', exist_ok=True)

# Salvar arquivo JSON
output_file = 'data/output/profiles.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(output_data, f, indent=2, ensure_ascii=False)

print(f"‚úÖ Perfis salvos em: {output_file}")
print(f"üì¶ Total de perfis: {len(profiles_data)}")
print(f"üìä Total de par√¢metros por perfil: 9")

## Resumo da Execu√ß√£o

In [None]:
print("\n" + "="*70)
print("üéâ GERA√á√ÉO DE PERFIS COGNITIVOS CONCLU√çDA COM SUCESSO!")
print("="*70)
print(f"\nüìÅ Arquivo gerado:")
print(f"  - {output_file}")
print(f"\nüìä Perfis criados ({len(profiles_data)}):")
for profile in profiles_data:
    print(f"  ‚úì {profile['nome']} ({profile['id']})")
print(f"\n‚úÖ Pr√≥ximo passo: Execute o notebook '02_geracao_estudantes.ipynb'")
print("="*70)