In [1]:
import numpy as np

In [2]:
import csv

In [3]:
def pad(data, target_length, target_value=0):
    return np.pad(data, (0, target_length - len(data)), 'constant', constant_values=target_value)

def one_hot(indices, depth):
    encoding = np.concatenate((np.eye(depth), [np.zeros(depth)]))
    indices[indices!=-1] -= 1
    return encoding[indices]

def read_data_from_csv(filename):
    # read the csv file
    rows = []
    with open(filename, 'r') as f:
        print("Reading {0}".format(filename))
        reader = csv.reader(f, delimiter=',')
        for row in reader:
            rows.append(row)
        print("{0} lines was read".format(len(rows)))

    # tuples stores the student answering sequence as
    # ([num_problems_answered], [problem_ids], [is_corrects])
    max_seq_length = 0
    # num_problems = 0
    num_problems = 1865
    
    tuples = []
    for i in range(0, len(rows), 3):
        # numbers of problem a student answered
        seq_length = len(rows[i + 1])

        # only keep student with at least 3 records.
        if seq_length < 3:
            continue

        problem_seq = rows[i + 1]
        correct_seq = rows[i + 2]

        invalid_ids_loc = [i for i, pid in enumerate(problem_seq) if pid == '']
        for invalid_loc in invalid_ids_loc:
            del problem_seq[invalid_loc]
            del correct_seq[invalid_loc]

        # convert the sequence from string to int.
        problem_seq = list(map(int, problem_seq))
        correct_seq = list(map(int, correct_seq))

        tup = (seq_length, problem_seq, correct_seq)
        tuples.append(tup)

        if max_seq_length < seq_length:
            max_seq_length = seq_length

        # pid = max(int(pid) for pid in problem_seq if pid != '')
        
        # if num_problems < pid:
        #     num_problems = pid

    print("max_num_problems_answered:", max_seq_length)
    print("num_problems:", num_problems)
    print("The number of data is {0}".format(len(tuples)))
    print("Finish reading data.")

    return tuples, num_problems, max_seq_length

### ㅇ 예제 데이터로 테스트
- 전체 문제 = [1, 2, 3, 4, 5]
- 학생A = [1, 2], 학생A_답 = [1, 0]
- 학생B = [1, 2, 3], 학생B_답 : [1, 1, 0]

In [4]:
num_problems = 5
problem_seqs = [[1, 2], [1, 2, 3]]
correct_seqs = [[1, 0], [1, 1, 0]]
max_seq_length = 3
num_problems = 5

In [5]:
problem_seqs_pad = np.array([pad(problem, max_seq_length, target_value=-1) for problem in problem_seqs])
correct_seqs_pad = np.array([pad(correct, max_seq_length, target_value=-1) for correct in correct_seqs])

In [6]:
# 정답 문항id, 오답 문항id, 풀지 않은 문항 -1
print("problem_seqs_pad : ")
print(problem_seqs_pad)

problem_seqs_pad : 
[[ 1  2 -1]
 [ 1  2  3]]


In [7]:
# 정답 1, 오답 0, 풀지 않음 -1
print("correct_seqs_pad : ")
print(correct_seqs_pad)

correct_seqs_pad : 
[[ 1  0 -1]
 [ 1  1  0]]


In [8]:
temp = problem_seqs_pad * correct_seqs_pad * correct_seqs_pad
temp[temp == 0] = -1
correct_seqs_pad = temp

In [9]:
# 정답 문항id, 오답 문항id, 풀지 않은 문항 -1
print("problem_seqs_pad : ")
print(problem_seqs_pad)

problem_seqs_pad : 
[[ 1  2 -1]
 [ 1  2  3]]


In [10]:
# 정답 문항id, 오답-1, 풀지 않음 -1
print("correct_seqs_pad : ")
print(correct_seqs_pad)

correct_seqs_pad : 
[[ 1 -1 -1]
 [ 1  2 -1]]


In [11]:
# 원핫인코딩
problem_seqs_oh = one_hot(problem_seqs_pad, depth=num_problems)
correct_seqs_oh = one_hot(correct_seqs_pad, depth=num_problems)

In [12]:
# (입력데이터 개수, 문항 max 개수, 전체 문항 개수 )
problem_seqs_oh.shape

(2, 3, 5)

##### 해석
- n번째 학생, k번 문항 : problem_seqs_oh[n][k][k]
  - problem_seqs_oh : 풀었으면 1. 나머지는 0
  - correct_seqs_oh : 맞았으면 1. 나머지는 0

In [13]:
# 첫 번째 학생
problem_seqs_oh[0]

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [14]:
# 푼 문항 k에 대해 problem_seqs_oh[0][k][k]는 1. 나머지는 0
print("======================================================problem_seqs=====")
print("----- 풀었으면 1 (틀리더라도) -----")
print("풀고 맞은 1번 문항은 1 : ", problem_seqs_oh[0][0][0])
print("풀고 맞은 1번 문항의 다른 문항은 0 : ", problem_seqs_oh[0][0][1])
print("풀고 틀린 2번 문항은 1 : ", problem_seqs_oh[0][1][1])
print("풀고 틀린 2번 문항의 다른 문항은 0 : ", problem_seqs_oh[0][1][0])
print("----- 안 풀었으면 0 -----")
print("안 푼 문항은 모두 0 : ", problem_seqs_oh[0][2])

----- 풀었으면 1 (틀리더라도) -----
풀고 맞은 1번 문항은 1 :  1.0
풀고 맞은 1번 문항의 다른 문항은 0 :  0.0
풀고 틀린 2번 문항은 1 :  1.0
풀고 틀린 2번 문항의 다른 문항은 0 :  0.0
----- 안 풀었으면 0 -----
안 푼 문항은 모두 0 :  [0. 0. 0. 0. 0.]


In [15]:
# 맞은 문항 k에 대해 correct_seqs_oh[0][k][k]는 1. 나머지는 0
print("======================================================problem_seqs=====")
print("----- 맞았으면 1 -----")
print("풀고 맞은 1번 문항은 1 : ", correct_seqs_oh[0][0][0])
print("풀고 맞은 1번 문항의 다른 문항은 0 : ", correct_seqs_oh[0][0][1])
print("----- 틀리거나 안 풀었으면 0 -----")
print("풀고 틀린 2번 문항은 0 : ", correct_seqs_oh[0][1][1])
print("풀고 틀린 2번 문항의 다른 문항은 0 : ", correct_seqs_oh[0][1][0])
print("안 푼 문항은 모두 0 : ", correct_seqs_oh[0][2])

----- 맞았으면 1 -----
풀고 맞은 1번 문항은 1 :  1.0
풀고 맞은 1번 문항의 다른 문항은 0 :  0.0
----- 틀리거나 안 풀었으면 0 -----
풀고 틀린 2번 문항은 0 :  0.0
풀고 틀린 2번 문항의 다른 문항은 0 :  0.0
안 푼 문항은 모두 0 :  [0. 0. 0. 0. 0.]


## DKTData() 과정
- 1. read_data_from_csv()로 데이터 불러오기
- 2. 문제, 정오답 시퀀스 추출하기
- 3. BatchGenerator()
  - a.배치사이즈에 맞춰서 시퀀스 쪼개기
  - b.OriginalInputProcessor()로 input데이터로 전처리

In [16]:
batch_size = 32
file_path = './input_info_data.csv' # 학생 10명

In [17]:
# 1. read_data_from_csv()로 데이터 불러오기
students, num_problems, max_seq_length = read_data_from_csv(file_path)
#print("students : ", students)

Reading ./input_info_data.csv
30 lines was read
max_num_problems_answered: 171
num_problems: 1865
The number of data is 10
Finish reading data.


In [18]:
print("학생 수 : ", len(students))
print("num_problems : ", num_problems)
print("max_seq_length", max_seq_length)

학생 수 :  10
num_problems :  1865
max_seq_length 171


In [19]:
# 학생 당 길이 3인 튜플 (문제 개수, 문제 시퀀스, 정오답 시퀀스)
students[0]

(5, [10, 10, 100, 100, 1000], [1, 1, 1, 0, 0])

In [20]:
# 학생 당 길이 3인 튜플 (문제 개수, 문제 시퀀스, 정오답 시퀀스)
problem_seqs = [student[1] for student in students]
correct_seqs = [student[2] for student in students]
# print("problem_seqs : ", problem_seqs)
# print("correct_seqs : ", correct_seqs)

In [21]:
problem_seqs[0]

[10, 10, 100, 100, 1000]

In [22]:
correct_seqs[0]

[1, 1, 1, 0, 0]

3. BatchGenerator()
### b.OriginalInputProcessor()로 input데이터로 전처리

In [23]:
# 최대 길이를 기준으로 시퀀스를 패딩
max_seq_length = max([len(problem) for problem in problem_seqs])
problem_seqs_pad = np.array([pad(problem, max_seq_length, target_value=-1) for problem in problem_seqs])
correct_seqs_pad = np.array([pad(correct, max_seq_length, target_value=-1) for correct in correct_seqs])
# print("problem_seqs_pad : ", problem_seqs_pad)
# print("correct_seqs_pad : ", correct_seqs_pad)

In [24]:
# 10행 171열의 np.array
problem_seqs_pad.shape

(10, 171)

In [25]:
problem_seqs_pad[0]

array([  10,   10,  100,  100, 1000,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,   -1,
         -1,   -1,   -1,   -1,   -1,   -1,   -1,   

In [26]:
correct_seqs_pad[0]

array([ 1,  1,  1,  0,  0, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
       -1])

In [27]:
# array 곱(*) : 요소별로 곱셈
a = np.array([[1, 2],
              [3, 4]])
b = np.array([[5, 6],
              [7, 8]])
print(a*b)

[[ 5 12]
 [21 32]]


#### ㅇ temp 의 의미
- temp = problem_seqs_pad * correct_seqs_pad * correct_seqs_pad
- 3가지 경우 구분 가능 : 문제 풀고 정답 / 문제 풀고 오답(0) / 문제를 풀지 않음(-1)
- new_temp : 0인 값들을 -1로 변환 temp[temp == 0] = -1
||정답|오답|풀지 않음|
|:---:|:---:|:---:|:---:|
|problem_seqs_pad|문항id|문항id|-1|
|correct_seqs_pad|1|0|-1|
|correct_seqs_pad\*correct_seqs_pad|1|0|1|
|**temp**|**문항id**|**0**|**-1**|
|new_temp<br/>new_correct_seqs_pad|문항id|-1|-1|

In [28]:
# DKT의 원리 적용
    # 학생이 문제를 풀었고 정답 : 문항id
    # 학생이 문제를 풀었지만 오답 or 문제 풀지 않음 : -1
temp = problem_seqs_pad * correct_seqs_pad * correct_seqs_pad

In [29]:
print("temp[0] : ", temp[0])

temp[0] :  [ 10  10 100   0   0  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1]


In [30]:
# 원핫인코딩을 위해
temp[temp == 0] = -1
correct_seqs_pad = temp

In [31]:
print("new temp[0] : ", temp[0])

new temp[0] :  [ 10  10 100  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1]


In [32]:
print("new correct_seqs_pad[0]: ",correct_seqs_pad[0])

new correct_seqs_pad[0]:  [ 10  10 100  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1  -1
  -1  -1  -1  -1  -1  -1  -1  -1  -1]


In [33]:
# 원핫인코딩
problem_seqs_oh = one_hot(problem_seqs_pad, depth=num_problems)
correct_seqs_oh = one_hot(correct_seqs_pad, depth=num_problems)

In [34]:
# (학생 10명, 문항 max 개수 171개, 전체 문항 개수 1865개)
problem_seqs_oh.shape

(10, 171, 1865)

In [35]:
correct_seqs_oh.shape

(10, 171, 1865)

### 해석
- n번째 학생, [k]번 문항, 문항id i : problem_seqs_oh[n][k][i]
  - problem_seqs_oh : 풀었으면 1. 나머지는 0
  - correct_seqs_oh : 맞았으면 1. 나머지는 0

In [36]:
# 첫 번째 학생
                     #[0]번,[1]번,[2]번,[3]번,[4]번
    # problem_seqs[0] = [10, 10, 100, 100, 1000]                    
    # correct_seqs[0] = [1, 1, 1, 0, 0]
stu1 = problem_seqs_oh[0]
stu1.shape

(171, 1865)

In [37]:
# stu1[k][i]에 대해 풀었으면 1, 안 풀었으면 0
print("======================================================problem_seqs=====")
print("풀고 맞은 [0]번 문항(id 10)은 1 : ", problem_seqs_oh[0][0][9])
print("풀고 맞은 [0]번 문항의 다른 문항(id 323)은 0 : ", problem_seqs_oh[0][0][324])
print("풀고 틀린 [3]번 문항(id 100)은 1 : ", problem_seqs_oh[0][3][99])
print("풀고 틀린 [3]번 문항의 다른 문항(id 1864)은 0 : ", problem_seqs_oh[0][3][1864])
print("안 푼 [5]번 문항은 모두 0 : ")
for i in range(len(problem_seqs_oh[0][5])):
    if problem_seqs_oh[0][5][i] != 0.0 :
        print("0이 아닌 원소 있습니다.") # 프린트문이 나오지 않았으므로 모두 0 맞음
        break;

풀고 맞은 [0]번 문항(id 10)은 1 :  1.0
풀고 맞은 [0]번 문항의 다른 문항(id 323)은 0 :  0.0
풀고 틀린 [3]번 문항(id 100)은 1 :  1.0
풀고 틀린 [3]번 문항의 다른 문항(id 1864)은 0 :  0.0
안 푼 [5]번 문항은 모두 0 : 


In [38]:
# stu1[k][i]에 대해 맞았으면 1, 틀리거나 안 풀었으면 0
print("======================================================correct_seqs=====")
print("풀고 맞은 [2]번 문항(id 100)은 1 : ", correct_seqs_oh[0][2][99])
print("풀고 맞은 [2]번 문항의 다른 문항(id 10)은 0 : ", correct_seqs_oh[0][2][9])
print("풀고 틀린 [4]번 문항(id 1000)은 0 : ", correct_seqs_oh[0][4][999])
print("풀고 틀린 [4]번 문항의 다른 문항(id 100)은 0 : ", correct_seqs_oh[0][4][99])
print("안 푼 [170]번 문항은 모두 0 : ")
for i in range(len(correct_seqs_oh[0][170])):
    if correct_seqs_oh[0][170][i] != 0.0 :
        print("0이 아닌 원소 있습니다.") # 프린트문이 나오지 않았으므로 모두 0 맞음
        break;

풀고 맞은 [2]번 문항(id 100)은 1 :  1.0
풀고 맞은 [2]번 문항의 다른 문항(id 10)은 0 :  0.0
풀고 틀린 [4]번 문항(id 1000)은 0 :  0.0
풀고 틀린 [4]번 문항의 다른 문항(id 100)은 0 :  0.0
안 푼 [170]번 문항은 모두 0 : 


In [39]:
# 문제 X와 정답 y로 쪼개기
# train 인 경우 (즉 학습 시에는) 시퀀스의 마지막 원소를 떼서 정답으로 사용
# 앞 문항들의 정오답을 학습해서 마지막 문항의 정오답을 예측하는 모델
x_problem_seqs = problem_seqs_oh[:, :-1]
x_correct_seqs = correct_seqs_oh[:, :-1]
y_problem_seqs = problem_seqs_oh[:, 1:]
y_correct_seqs = correct_seqs_oh[:, 1:]

In [40]:
x_problem_seqs.shape

(10, 170, 1865)

In [41]:
x_correct_seqs.shape

(10, 170, 1865)

In [42]:
y_problem_seqs.shape

(10, 170, 1865)

In [43]:
y_correct_seqs.shape

(10, 170, 1865)

# Q. 마지막 문항을 171번 문항으로 생각해도 괜찮은걸까?
각 학생마다 실질적인 마지막 문항은 다르지 않나?
(내가 적절하다고 생각하는 알고리즘 방향)
- 실질적 마지막 문항 y로 떼고 (학생마다 다르겠지?)
- 그 문항은 안 푼 문항 처리
<br/>
<br/>
- 그러면 쉐입은 (10, 171, 1865)가 되겠지?!
- 데이터가 많아지면 의미 없어져서 그냥 이렇게 하는 건가 혹시...??

In [44]:
# 학습 데이터
X = np.concatenate((x_problem_seqs, x_correct_seqs), axis=2)

In [45]:
# 모델에 입력할 최종 데이터
result = (X, y_problem_seqs, y_correct_seqs)