Reference : https://lsjsj92.tistory.com/568

# SVD 기반 DKT 문제 분석
- 🦆 개요 (Overview)
- ⚙️ 환경 설정 및 전처리 (Environment Setting & Preprocessing)
- 🎯 SVD 분석
- 🎯 예측 및 평가

## 🦆개요 (Overview)

### Deep Knowledge Tracing (DKT)

학습자의 학습 수준을 추적하는 문제로, 여기에서는 학습자의 현재 성취 정도를 바탕으로 새로운 문제를 맞출 수 있을지를 판별하는 문제에서 Collaborative Filtering (Recommendation System) 문제로 치환하여 접근하고자 한다.

### 추천 시스템 (Recommendation System: RS)

데이터로부터 사용자의 선호에 맞는 정보를 필터링하여 사용자가 원하는, 또는 관심을 가질만한 정보를 선별하여 제공하는 시스템을 말한다. 

> 추천 시스템(推薦system)은 정보 필터링 (IF) 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보 (영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것이다. 추천 시스템에는 협업 필터링 기법을 주로 사용한다. 소셜 북마크 사이트에서 링크를 사람들에게 추천하고 무비렌즈 데이터 세트에서 영화를 추천하는 방법등이 이에 속한다. [(Wikipedia)](https://ko.wikipedia.org/wiki/%EC%B6%94%EC%B2%9C_%EC%8B%9C%EC%8A%A4%ED%85%9C)

위 정의에 따라 추천 시스템은 정보 필터링 (Information Filtering)으로 정보를 선별하는 기술로 볼 수 있다. 이러한 필터링 방법으로 컨텐츠 기반 필터링 (Content-based Filtering) 과 협업 필터링 (Collaborative Filtering)이 대표적으로 사용된다.

여기에서 컨텐츠 기반 필터링 (Content-based Filtering) 과 협업 필터링 (Collaborative Filtering)의 차이는 다음과 같다.

컨텐츠 기반 필터링 (Content-based Filtering)
- 사용자가 선호한 아이템의 사전 정의된 아이템의 정보(description)와 태그, 카테고리 등의 키워드를 바탕으로 유사한 아이템을 추천
- 사전 정의가 잘 되어 있는 경우, 사용자에 대한 정보가 적어도 추천이 가능함
- 명시된 정보들에 기반하여 분석하므로 결과에 대한 설명성이 높음
- 사전 정보가 잘 구축되어 있지 않으면 올바른 추천을 제공해주기 어려움

협업 필터링 (Collaborative Filtering)
- 사용자간, 아이템간의 유사도에 따라 유사한 사용자가 선호하는 아이템, 또는 사용자가 선호하는 아이템과 유사한 아이템을 추천
- 사전 정의가 부정확해도 추천이 가능하므로 아이템의 데이터베이스 구축에 드는 비용이 감소
- 데이터가 부족한 경우 올바른 추천을 제공해주기 어려움


### 협업 필터링 (Collaborative Filtering: CF)
[참조](https://kmhana.tistory.com/31)

협업 필터링 분류 [참조](https://towardsdatascience.com/various-implementations-of-collaborative-filtering-100385c6dfe0)

- 메모리 기반 접근 방법, 모델 기반 접근방법이 존재
- 여기에서 사용하는 SVD 기법은 모델 기반 기법

### Matrix Factorization (MF)

- 행렬을 어떠한 행렬들의 곱으로 표현할 수 있는 행렬을 찾아내는 기법 (X = AB)
- 이와 같은 행렬을 찾아낼 때, 본래 행렬이 가진 정보를 주로 포함하는 축과 정보량이 적은 축을 구분할 수 있음
- 행렬의 정보를 주로 포함하는 축 만을 남겨 해당 축에 대한 벡터조합으로 변형하면 벡터 또는 행렬을 잠재 공간 (Latent Space) 상으로 투영할 수 있음 (차원 감소: Dimensionality Reduction)
- 투영 행렬의 역행렬을 통해 잠재 공간상의 벡터 또는 행렬을 본래의 값으로 복원할 수 있음
- 대표적으로 특이값 분해 (Singular Value Decomposition: SVD), 주성분 분석 (Principal Compoent Analysis: PCA) 등이 존재

### Matrix Factorization (MF) 기반 협업 필터링
[참조](https://www.sallys.space/blog/2018/05/16/intro-to-resys/)

Latent space의 예시 [참조](https://www.sallys.space/blog/2018/05/16/intro-to-resys/)

- 사용자의 아이템에 대한 선호 정보를 잠재 공간 (latent space)로 투영하여 표현하고, 이를 기반으로 대상의 유사도를 판별하여 추천을 수행
- 잠재공간의 예시로는 위 그림에서와 같이 장르나 컨텐츠 특성 등의 명시적 factor 따라 분석하는 방법이 있음. 허나 모델 기반 방법에서는 이와 같은 factor가 데이터를 기반으로 추론됨
- MF 기반 협업 필터링에서는 사용자-아이템간의 선호 정보를 표현한 행렬을 행렬 분해 (Matrix Factorization: MF) 방법을 통해 사용자의 선호 정보를 잠재 공간으로의 투영 행렬을 계산
- 사용자의 아이템에 대한 선호 vector를 투영 행렬을 통해 latent space로 투영시켜 새로운 아이템에 대한 선호를 알 수 있음

### 특이값 분해 (Singular Value Decomposition: SVD) 를 통한 MF

- SVD는 행렬의 특이값 (Singular Value)를 기반으로 행렬을 분해하는 기법 [참조](https://angeloyeo.github.io/2019/08/01/SVD.html)
- SVD는 행렬 $X$에 대해 다음 식이 성립하는 행렬 값을 계산
  - $XV = U\Sigma$
  - $U$ 는 각 축이 서로 직교하는 백터로 구성된 행렬
  - $\Sigma$ 는 각 대각 원소 $\sigma_i$가 특이값을 나타내는 대각 행렬
  - 이를 통해, 직교행렬(orthogonal matrix) $V$의 열벡터에 대해, A로 선형 변환할 때 크기가 각각 $\sigma_i$ 만큼 변하지만 여전히 직교하는 행렬 $U$를 찾는 문제로 나타낼 수 있음


### SVD 협업 필터링을 통한 DKT 문제

- DKT 에서의 '지식'은 문제를 맞출 수 있을지 없을지에 대한 hidden factor
- DKT에서의 '지식'은 협업 필터링에서의 사용자의 '취향'과, 문제의 정답 여부는 협업 필터링에서의 아이템의 '선호도'로 매핑될 수 있음
- 따라서 선호를 통해 사용자의 취향을 추론하듯, 문제의 정답 여부를 통해 문제에 대한 지식 정도를 추론 가능
- 단, DKT에서는 주로 시간에 따른 지식 변화를 '추적'하는 데에 초점을 맞추고 있으나, 협업 필터링은 시간에 따른 취향의 변화가 없음을 전제로 하고 있음. 따라서 시간 요소는 협업 필터링에서 보통 고려되지 않으며, 이에 대한 추론에 한계가 있음을 감안할 필요가 있음.

### 실습 진행 내용

- 환경 설정 및 전처리 : DKT 문제의 데이터를 협업 필터링에 맞는 형태로 변형하는 방법 설명
- SVD 분석 : SVD의 개념과 이를 통해 데이터를 분석하는 방법 설명
- 예측및 평가 : SVD 분석으로 생성된 변환 행렬을 통해 DKT 문제를 추론하는 방법 설명

## ⚙️ 환경 설정 및 전처리 (Environment Setting & Preprocessing)

### Loading Library

In [1]:
import numpy as np # linear algebra
import pandas as pd
import random
from scipy.sparse.linalg import svds
from sklearn.metrics import accuracy_score, roc_auc_score

### Data Load

In [4]:
train_data = pd.read_csv('../data/train_data.csv')
test_data  = pd.read_csv('../data/test_data.csv')

### 데이터 구성

- 데이터는 학습 데이터셋과 테스트 데이터셋으로 구분되어 있다.
- 각 데이터에는 userID, assessmentItemID, testId, answerCode, Timestamp, KnowledgeTag의 정보가 있다.
- 여기서 assessmentItemID는 문제의 고유 ID이며, answerCode는 사용자가 해당 문제의 정답을 맞췄는지 여부로, 맞췄으면 1, 틀렸으면 0으로 표기된다.
- 기본적인 협업 필터링 적용을 위해 본 실습에서는 userID, assessmentItemID, answerCode만을 사용한다.

In [5]:
userid, itemid = list(set(train_data.userID)), list(set(train_data.assessmentItemID))
n_user, n_item = len(userid), len(itemid)

print(f"Train dataset")
display(train_data.head(5))
print(f" Num. Users    : {n_user}")
print(f" Max. UserID   : {max(userid)}")
print(f" Num. Items    : {n_item}")
print(f" Num. Records  : {len(train_data)}")

userid, itemid = list(set(test_data.userID)), list(set(test_data.assessmentItemID))
n_user, n_item = len(userid), len(itemid)

print(f"Test dataset")
display(test_data.head(5))
print(f" Num. Users    : {n_user}")
print(f" Max. UserID   : {max(userid)}")
print(f" Num. Items    : {n_item}")
print(f" Num. Records  : {len(test_data)}")

Train dataset


Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
0,0,A060001001,A060000001,1,2020-03-24 00:17:11,7224
1,0,A060001002,A060000001,1,2020-03-24 00:17:14,7225
2,0,A060001003,A060000001,1,2020-03-24 00:17:22,7225
3,0,A060001004,A060000001,1,2020-03-24 00:17:29,7225
4,0,A060001005,A060000001,1,2020-03-24 00:17:36,7225


 Num. Users    : 6698
 Max. UserID   : 7441
 Num. Items    : 9454
 Num. Records  : 2266586
Test dataset


Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
0,3,A050023001,A050000023,1,2020-01-09 10:56:31,2626
1,3,A050023002,A050000023,1,2020-01-09 10:56:57,2626
2,3,A050023003,A050000023,0,2020-01-09 10:58:31,2625
3,3,A050023004,A050000023,0,2020-01-09 10:58:36,2625
4,3,A050023006,A050000023,0,2020-01-09 10:58:43,2623


 Num. Users    : 744
 Max. UserID   : 7439
 Num. Items    : 9454
 Num. Records  : 260114


In [6]:
display(test_data.tail(3))

Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
260111,7439,A040130003,A040000130,1,2020-10-14 23:08:02,8244
260112,7439,A040130004,A040000130,1,2020-10-14 23:09:31,8244
260113,7439,A040130005,A040000130,-1,2020-10-14 23:10:03,8832


위와 같이 테스트 데이터셋에서는 answerCode가 -1인 경우가 나타난다. 이는 평가를 위한 것으로 해당 레코드는 제외하고 실습을 수행한다.

### Data Preprocessing

중복 레코드 제거
 - RS 모델에서는 시간에 따른 변화를 고려하지 않기 때문에 최종 성적만을 바탕으로 평가한다.
 - 사용자+문제항목을 Unique key로 하여 최종 레코드만을 보존하고 나머지 제거한다.

In [7]:
train_data.drop_duplicates(subset = ["userID", "assessmentItemID"],
                     keep = "last", inplace = True)
test_data.drop_duplicates(subset = ["userID", "assessmentItemID"],
                     keep = "last", inplace = True)

불필요한 column 제거
- 다음과 같이 pandas에서는 불필요한 column을 제거할 수 있다.

In [8]:
train_data.drop(['Timestamp','testId','KnowledgeTag'],
                axis=1, inplace=True, errors='ignore')
train_data.head(10)

Unnamed: 0,userID,assessmentItemID,answerCode
0,0,A060001001,1
1,0,A060001002,1
2,0,A060001003,1
3,0,A060001004,1
4,0,A060001005,1
5,0,A060001007,1
6,0,A060003001,0
7,0,A060003002,1
8,0,A060003003,1
9,0,A060003004,1


평가 항목 제거
- 테스트 데이터셋에서 answerCode가 -1인 항목은 최종 평가시 사용되는 항목으로 여기에선 사용할 수 없다.
- 아래 결과에서와 같이 User, Item 수는 변화 없이 총 레코드 수만 변한다.

In [9]:
test_data_old = test_data.copy()
n_user_old, n_item_old = n_user, n_item

test_data  = test_data[test_data.answerCode>=0].copy()

userid, itemid = list(set(test_data.userID)), list(set(test_data.assessmentItemID))
n_user, n_item = len(userid), len(itemid)

display(test_data.tail(5))
print(f" Num. Users    : {n_user}->{n_user}")
print(f" Max. UserID   : {max(userid)}")
print(f" Num. Items    : {n_item}->{n_item}")
print(f" Num. Records  : {len(test_data_old)}->{len(test_data)}")

Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
260108,7439,A040197006,A040000197,1,2020-08-21 07:39:45,2132
260109,7439,A040130001,A040000130,0,2020-10-14 23:07:23,8832
260110,7439,A040130002,A040000130,1,2020-10-14 23:07:41,8832
260111,7439,A040130003,A040000130,1,2020-10-14 23:08:02,8244
260112,7439,A040130004,A040000130,1,2020-10-14 23:09:31,8244


 Num. Users    : 744->744
 Max. UserID   : 7439
 Num. Items    : 9454->9454
 Num. Records  : 256073->255329


평가 항목 신규 생성
- 남은 테스트 항목 중, 각 사용자별 최종 레코드를 새로운 평가 항목으로 정한다.

In [10]:
eval_data = test_data.copy()
eval_data.drop_duplicates(subset = ["userID"],
                     keep = "last", inplace = True)
display(eval_data.head(5))
display(eval_data.tail(5))
print(f" Num. Records  : {len(eval_data)}")

Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
1034,3,A050133007,A050000133,0,2020-10-26 13:13:11,5289
1705,4,A070146007,A070000146,1,2020-12-27 02:47:31,9080
3022,13,A070111007,A070000111,1,2020-12-27 04:35:01,9660
4282,17,A090064005,A090000064,1,2020-10-30 05:47:22,2611
4669,26,A060135006,A060000135,0,2020-10-23 11:44:01,1422


Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
260051,7395,A040122004,A040000122,0,2020-09-08 02:05:18,2102
260066,7404,A030111004,A030000111,1,2020-10-13 09:47:31,7636
260081,7416,A050193003,A050000193,0,2020-10-04 02:44:17,10402
260096,7417,A050193003,A050000193,0,2020-09-06 13:08:54,10402
260112,7439,A040130004,A040000130,1,2020-10-14 23:09:31,8244


 Num. Records  : 744


평가 항목을 테스트 항목에서 제거한다.

In [11]:
test_data.drop(index=eval_data.index, inplace=True, errors='ignore')
display(test_data.tail(5))
print(f" Num. Records  : {len(test_data)}")

Unnamed: 0,userID,assessmentItemID,testId,answerCode,Timestamp,KnowledgeTag
260107,7439,A040197005,A040000197,0,2020-08-21 07:39:40,2132
260108,7439,A040197006,A040000197,1,2020-08-21 07:39:45,2132
260109,7439,A040130001,A040000130,0,2020-10-14 23:07:23,8832
260110,7439,A040130002,A040000130,1,2020-10-14 23:07:41,8832
260111,7439,A040130003,A040000130,1,2020-10-14 23:08:02,8244


 Num. Records  : 254585


사용자 - 문제항목 관계를 pivot 테이블로 변경
 - 각 사용자별로 해당 문제를 맞췄는지 여부를 matrix 형태로 변경
 - 해당 문제를 푼 적이 없는 경우 0.5(예시)으로 설정

In [12]:
matrix_train = train_data.pivot_table('answerCode', index='userID', columns='assessmentItemID')
matrix_train.fillna(0.5, inplace=True)
display(matrix_train.head(5))
print(f"Result Shape is {matrix_train.shape}")

assessmentItemID,A010001001,A010001002,A010001003,A010001004,A010001005,A010002001,A010002002,A010002003,A010002004,A010002005,...,A090073003,A090073004,A090073005,A090073006,A090074001,A090074002,A090074003,A090074004,A090074005,A090074006
userID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,...,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
1,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,...,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0
2,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,...,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,...,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5
6,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,...,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5,0.5


Result Shape is (6698, 9454)


## 🎯 SVD 분석

### 데이터 인덱스 매핑 생성

사용자/문제항목 ID와 table상에서의 index를 매칭시키기 위한 lookup table을 dictionary 형태로 생성

In [13]:
user_id2idx = {v:i for i,v in enumerate(matrix_train.index)}
user_idx2id = {i:v for i,v in enumerate(matrix_train.index)}

item_id2idx = {v:i for i,v in enumerate(matrix_train.columns)}
item_idx2id = {i:v for i,v in enumerate(matrix_train.columns)}

### S

사용자 - 문제항목의 pivot table을 normalize된 matrix로 변경

$A = ${User - Item 간의 value를 저장하는 matrix}

$A = R^{n_{user} \times n_{item}}$

In [14]:
A = matrix_train.values
a_mean = np.mean(A, axis=1)
Am = A - a_mean.reshape(-1,1)
display(pd.DataFrame(Am, columns=matrix_train.columns).head())

assessmentItemID,A010001001,A010001002,A010001003,A010001004,A010001005,A010002001,A010002002,A010002003,A010002004,A010002005,...,A090073003,A090073004,A090073005,A090073006,A090074001,A090074002,A090074003,A090074004,A090074005,A090074006
0,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,...,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313,-0.010313
1,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,-0.033584,...,0.466416,0.466416,0.466416,0.466416,-0.533584,0.466416,0.466416,0.466416,0.466416,0.466416
2,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,...,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279,-0.003279
3,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,...,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074,-0.026074
4,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,...,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717,0.006717


위 matrix를 바탕으로 SVD 분석 수행

SVD
 - Target matrix $A$에 대해 $A = U \Sigma V$ 인 $U, \Sigma, V$ 를 구함
 - 여기서 $U, \Sigma, V$ 는 아래와 같음
   - $U = R^{ n_{user} \times n_{factor} }$
   - $\Sigma = R^{ n_{factor} \times n_{factor} }$ 인 대각행렬
   - $V = R^{ n_{factor} \times n_{item} }$

In [15]:
U, sigma, V = svds(Am, k=12)
print(f"U={U.shape}, sigma={sigma.shape}, V={V.shape}")
print(f"Singular Vlaues : {sigma}")

U=(6698, 12), sigma=(12,), V=(12, 9454)
Singular Vlaues : [ 55.84676263  58.08435018  58.50497257  61.71803668  69.91786616
  73.61657956  76.9598095   78.04681812  82.45156947  85.45001842
  91.51120585 101.4153135 ]


추론을 위해 predict matrix 복원
 - 처음 pivot table의 값을 SVD로 구한 matrix를 통해 복원했을 때, 두 행렬 사이의 오차 (restore error) 는 0에 가까울수록 SVD가 올바르게 구해짐

In [16]:
Sigma = np.diag(sigma)
A_pred = U @ Sigma @ V + a_mean.reshape(-1,1)
restore_error = np.sum(np.square(A_pred - A)) /A_pred.size
print(f"Restore Error : {restore_error}")

Restore Error : 0.007568071517679343


## 🎯 예측 및 평가

### 학습 데이터 재현 평가

예측 함수 정의

In [17]:
def predict(userid, itemid):
    useridx = user_id2idx[userid]
    itemidx = item_id2idx[itemid]
    
    return A_pred[useridx, itemidx]

학습에 사용한 데이터를 얼마나 잘 예측하는지 평가

In [18]:
a_prob = [predict(u,i) for u,i in zip(train_data.userID, train_data.assessmentItemID)]
a_pred = [round(v) for v in a_prob] 
a_true = train_data.answerCode

print("Train data prediction")
print(f" - Accuracy = {100*accuracy_score(a_true, a_pred):.2f}%")
print(f" - ROC-AUC  = {100*roc_auc_score(a_true, a_prob):.2f}%")


Train data prediction
 - Accuracy = 75.92%
 - ROC-AUC  = 78.02%


위 코드에서는 이미 학습된 사용자에 대해서만 추론값을 계산 가능하다.

- 테스트 데이터의 사용자는 학습 데이터셋에 존재하지 않는다.
- 따라서 해당 사용자의 값을 가져올 수 없기에 키 에러가 발생한다.

In [19]:
try:
    a_prob = [predict(u,i) for u,i in zip(test_data.userID, test_data.assessmentItemID)]
    a_pred = [round(v) for v in a_prob]
    a_true = test_data.answerCode

    print("Test data prediction")
    print(f" - Accuracy = {100*accuracy_score(a_true, a_pred):.2f}%")
    print(f" - ROC-AUC  = {100*roc_auc_score(a_true, a_prob):.2f}%")
except:
    print("Error Occurs!!")

Error Occurs!!


### 테스트 데이터 재현 평가

학습되지 않은 사용자에 대해서도 문제를 푼 데이터가 존재할 경우 이를 바탕으로 추론 가능하다.

$B = $ {학습되지 않은 사용자에 대한 User - Item 간 value 행렬}

$ A = U \Sigma V$ 일때 factor matrx $A_{factor} = R^{n_{user} \times n_{factor}}$ 인 $A_{factor}$ 는
- $A_{factor} \Sigma V = A$
- $A_{factor} = A {(\Sigma V)}^+ = A V^T \Sigma^+  $ ($U, V$ 는 직교행렬)

$ B_{pred} \approx B_{factor} \Sigma V  = B V^T \Sigma^+ \Sigma V$

In [20]:
def predict(matrix, userid, itemid, user_id2idx, item_id2idx):
    
    Sigma_i = np.diag(1/sigma)
    pred_matrix = V.T @ Sigma_i @ Sigma @ V
    
    B = matrix
    B_mean = np.mean(B, axis=1)
    Bm = B - B_mean.reshape(-1,1)

    B_pred =  B @ pred_matrix + B_mean.reshape(-1,1)

    ret = [B_pred[user_id2idx[u], item_id2idx[i]] for u,i in zip(userid, itemid)]
    return ret

학습 데이터 재현 성공률

In [21]:
a_prob = predict(matrix_train.values, train_data.userID, train_data.assessmentItemID, user_id2idx, item_id2idx)
a_true = train_data.answerCode
a_pred = [round(v) for v in a_prob]

print("Train data prediction")
print(f" - Accuracy = {100*accuracy_score(a_true, a_pred):.2f}%")
print(f" - ROC-AUC  = {100*roc_auc_score(a_true, a_prob):.2f}%")

Train data prediction
 - Accuracy = 75.92%
 - ROC-AUC  = 78.02%


테스트 데이터 재현 성공률

In [24]:
# item_id2idx는 train에서 사용한 것을 다시 사용한다.
userid = sorted(list(set([u for u in test_data.userID])))
user_id2idx_test = {v:i for i,v in enumerate(userid)}

matrix_test = 0.5*np.ones((len(userid), len(item_id2idx)))
for user,item,a in zip(test_data.userID, test_data.assessmentItemID, test_data.answerCode):
    user,item = user_id2idx_test[user],item_id2idx[item]
    matrix_test[user,item] = a

# 성능 측정
a_prob = predict(matrix_test, test_data.userID, test_data.assessmentItemID, user_id2idx_test, item_id2idx)
a_true = test_data.answerCode
a_pred = [round(v) for v in a_prob] 

print("Test data prediction")
print(f" - Accuracy = {100*accuracy_score(a_true, a_pred):.2f}%")
print(f" - ROC-AUC  = {100*roc_auc_score(a_true, a_prob):.2f}%")

Test data prediction
 - Accuracy = 75.39%
 - ROC-AUC  = 77.23%


### 테스트 평가 데이터 재현 평가

테스트 데이터 기반 선별된 평가항목 추론

In [27]:
import os
a_prob = predict(matrix_test, eval_data.userID, eval_data.assessmentItemID, user_id2idx_test, item_id2idx)
a_true = eval_data.answerCode
a_pred = [round(v) for v in a_prob] 

output_dir = "output/"
write_path = os.path.join(output_dir, "submission_MF_SVD.csv")
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
with open(write_path, "w", encoding="utf8") as w:
    w.write("id,prediction\n")
    for id, p in enumerate(a_pred):
        w.write("{},{}\n".format(id, p))

print("Test data prediction")
print(f" - Accuracy = {100*accuracy_score(a_true, a_pred):.2f}%")
print(f" - ROC-AUC  = {100*roc_auc_score(a_true, a_prob):.2f}%")

Test data prediction
 - Accuracy = 70.43%
 - ROC-AUC  = 73.84%
