In [None]:
import numpy as np
import pandas as pd

# パラメータ設定
num_students = 2000  # 学生の人数
num_exercises = 50  # エクササイズの数
num_concepts = 5  # コンセプトの数
c = 0.25  # ランダムな推測で正解する確率

# 学生のスキル(alpha)とエクササイズの難易度(beta)の初期化
np.random.seed(42)  # 再現性のため乱数シードを設定
student_skills = np.random.normal(0, 1, (num_students, num_concepts))  # 学生ごとのコンセプトに対するスキル
exercise_concepts = np.random.choice(num_concepts, num_exercises)  # 各エクササイズのコンセプト
exercise_difficulties = np.random.normal(0, 1, num_exercises)  # 各エクササイズの難易度

# 学生の解答データを生成
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

responses = np.zeros((num_students, num_exercises))

for student in range(num_students):
    for exercise in range(num_exercises):
        concept = exercise_concepts[exercise]  # エクササイズに関連するコンセプト
        skill = student_skills[student, concept]  # 学生のコンセプトに対するスキル
        difficulty = exercise_difficulties[exercise]  # エクササイズの難易度
        
        # IRTに基づいて正解確率を計算
        p_correct = c + (1 - c) * sigmoid(skill - difficulty)
        
        # 学生の解答をシミュレート (正解なら1、間違いなら0)
        response = np.random.binomial(1, p_correct)
        responses[student, exercise] = response
        
        # 学生のスキルを更新（正答・誤答に関わらず学習する）
        learning_rate = 0.01  # 学習率
        student_skills[student, concept] += learning_rate * (response - 0.5)  # 正答なら増加、誤答なら減少

# データフレームにまとめる
student_ids = [f"student_{i+1}" for i in range(num_students)]
exercise_ids = [f"exercise_{i+1}" for i in range(num_exercises)]
responses_df = pd.DataFrame(responses, index=student_ids, columns=exercise_ids)

# データの一部を表示
display(responses_df.head())
