In [234]:
import pandas as pd
import numpy as np
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
from tqdm import tqdm

DEVICE = 'cuda' if torch.cuda.is_available() else 'cpu'
DEVICE

'cuda'

In [148]:
date_cols = ['attempts_date_created', 'cl_date_assignment', 'cls_date_created']
df = pd.read_csv('wide_math.csv', parse_dates=date_cols, index_col=False)

In [11]:
df['attempts_date_created'] = df['attempts_date_created'].dt.floor('s')
df['cls_date_created'] = df['cls_date_created'].dt.floor('s')

In [4]:
df.to_csv('wide_math.csv', index=False)

In [9]:
df.drop(['Unnamed: 0.1', 'Unnamed: 0'], axis=1).to_csv('wide_math.csv', index=False)

In [149]:
df.head(2)

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,assignment_level,attempts_date_created,cl_date_assignment,cl_id,cls_date_created,cls_student_id,course_id,is_solved,problem_id,subject_slug,team_id,team_level,tp_teacher_id
0,0,0,3,2022-03-08 11:02:37+03:00,2022-03-05 13:00:00+03:00,71374307,2022-03-08 10:52:43+03:00,1650006,5096626,1,97304,mathematics,82516,4,520541
1,1,1,3,2022-03-08 11:02:49+03:00,2021-09-02 14:23:50+03:00,70879797,2022-03-08 11:02:08+03:00,1494142,5099807,1,227546,mathematics,69290,4,615530


- assignment_level - класс, когда он решал
- attempts_date_created - время поптыки
- cl_date_assigment - время выдачи задачи
- cl-id - id урока, который выдан студентам этого класса. урок - набор карточек, который выдал учитель.
- cls_date_created - когда приступил к уроку
- cls_student_id - id ученика
- course_id - id курса (предмет-учитель-assignment_level)
- is_solved - решена ли задача
- problem-id - id задачи
- subject_slug - предмет
- team-id - id класса
- team_level - текущик класс ученика
- tp_teacher_id - id препода

In [150]:
mark_up_math = pd.read_excel('markup_math.xlsx')
mark_up_math= mark_up_math[1:]

In [151]:
mark_up_math.head(4) # очень грязные данные((((

Unnamed: 0,attributes,limits,problem_id,skills,stack_id,units
1,,В пределах 20,78236,решать задачи на нахождение числа элементов п...,27125,
2,,В пределах 20,78236,сравнивать/упорядочивать числа меньшие или рав...,27125,
3,,В пределах 20,78236,\nрешать задачи на упорядочивание множеств /ве...,27125,
4,,,60086,"находить долю величины (половина, треть, четве...",27086,


In [152]:
med_date = df['attempts_date_created'].median()
med_user = df['cls_student_id'].median()

In [153]:
post_df = df[df['attempts_date_created'] > med_date]
before_df = df[df['attempts_date_created'] <= med_date]

In [154]:
len(set(post_df['problem_id']).difference(before_df['problem_id'])) / len(set(post_df['problem_id']))

0.357354172481161

Если отсекать по датасет по времени, то есть куча задач, про которые мы не знаем, так как нет информации прошлых лет их решения. Предлагаю делить датасет по времени и пользователям и взять 1/4 от датасета для валидации

In [155]:
test_index = (df['cls_student_id'] > med_user) & (df['attempts_date_created'] > med_date)
train_index = ~test_index

In [156]:
def get_matr(data):
    data = data.sort_values(by=['problem_id', 'cls_student_id', 'attempts_date_created'])
    return data.groupby(by=['problem_id', 'cls_student_id'], as_index=False)['is_solved'].first()

In [157]:
df_train = get_matr(df[train_index])
df_test = get_matr(df[test_index])

print(df_train.shape)
print(df_test.shape)
df_train.head(3)

(3003185, 3)
(1005800, 3)


Unnamed: 0,problem_id,cls_student_id,is_solved
0,20000,1550166,0
1,20000,1550167,1
2,20000,1550169,1


In [158]:
df_train['is_solved'].sum() / df_train.shape[0], df_test['is_solved'].sum() / df_test.shape[0]

(0.7478247260824757, 0.7262736130443428)

Есть разбаланс классов. Ученики чаще решают с первого раза, чем не решают.

In [159]:
train_problems = set(df_train['problem_id'])
test_problems = set(df_test['problem_id'])


len(test_problems.difference(train_problems)) / len(test_problems)

0.1368838357393971

У нас ещё осталось 13% задач в тестовой выборке, про которые мы ничего не знаем
Пока есть предложение на них забить. Тем более это логично забить на задачи, про которые нам ещё ничего не известно.
(в дальнейшем есть идея для них эмбединги получать из графа)

In [160]:
train_students = set(df_train['cls_student_id'])
test_students = set(df_test['cls_student_id'])

len(test_students.difference(train_students)) / len(test_students)

0.0297008547008547

Есть 3 процента пользователей, которые не попали в тестовую выборку. Пока что от них тоже избавимся. У меня есть идеи, как более качественно поделить выборку, но пока напишем базу.

In [161]:
df_test = df_test[df_test['problem_id'].apply(lambda x: x in train_problems)]
df_test = df_test[df_test['cls_student_id'].apply(lambda x: x in train_students)]
df_test.shape

(943531, 3)

In [162]:
problems = list(train_problems)
problem_to_index = {problem_id: i for i, problem_id in enumerate(problems)}
students = list(train_students)
student_to_index = {student_id: i for i, student_id in enumerate(students)}

Теперь напишем стандарные штуки для обучения (сворую из другого курса).

In [175]:
def get_X_y(data, student_to_index=student_to_index, problem_to_index=problem_to_index):
    students = data['cls_student_id'].apply(lambda x:student_to_index[x]).values
    problems = data['problem_id'].apply(lambda x:problem_to_index[x]).values
    X = torch.tensor(np.array([students, problems]))
    y = torch.tensor(data['is_solved'].to_numpy())
    return X.transpose(-1, -2), y

In [191]:
class StudentsProblemsDataset(Dataset):
    def __init__(self, data, student_to_index=student_to_index, problem_to_index=problem_to_index):
        students = data['cls_student_id'].apply(lambda x:student_to_index[x]).values
        problems = data['problem_id'].apply(lambda x:problem_to_index[x]).values
        
        self.students = torch.tensor(students)
        self.problems = torch.tensor(problems)
        self.solved = torch.tensor(data['is_solved'].to_numpy())

    def __len__(self):
        return len(self.students)

    def __getitem__(self, idx):
        return self.students[idx], self.problems[idx], self.solved[idx]

In [192]:
train_dataset = StudentsProblemsDataset(df_train)
test_dataset = StudentsProblemsDataset(df_test)

In [236]:
batch_size=1000000
train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=12)
test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=True, num_workers=12)

In [166]:
from IPython.display import clear_output

In [240]:
class KindOfAlsModel(nn.Module):
    def __init__(self, n_students=len(students), n_problems=len(problems), emb_size=16):
        super().__init__()
        
        self.stud_embed = nn.Embedding(n_students, emb_size)
        self.problem_embed = nn.Embedding(n_problems, emb_size)
        self.tanh = nn.Tanh()
        
    def forward(self, students, problems):
        students = self.stud_embed(students)
        problems = self.problem_embed(problems)
        
        solved = self.tanh(torch.mul(students, problems).sum(dim=1)) / 2 + 0.5
        not_solved = 1 - solved
        return torch.stack([1-solved, solved]).transpose(-2, -1)

In [240]:
class MyModel(nn.Module):
    def __init__(self, n_students=len(students), n_problems=len(problems), emb_size=16):
        super().__init__()
        
        self.stud_embed = nn.Embedding(n_students, emb_size)
        self.problem_embed = nn.Embedding(n_problems, emb_size)
        self.tanh = nn.Tanh()
        
    def forward(self, students, problems):
        students = self.stud_embed(students)
        problems = self.problem_embed(problems)
        
        solved = self.tanh(torch.mul(students, problems).sum(dim=1)) / 2 + 0.5
        not_solved = 1 - solved
        return torch.stack([1-solved, solved]).transpose(-2, -1)

In [243]:
model = KindOfAlsModel().to(DEVICE)
optimizer = torch.optim.Adam(kind_of_als_model.parameters())
criterion = nn.CrossEntropyLoss()

In [242]:
for epoch in range(3):
    train_l = 0
    for st, pr, target in tqdm(train_dataloader, total=X_train.shape[0] // batch_size):
        optimizer.zero_grad()
        
        st = st.to(DEVICE)
        pr = pr.to(DEVICE)
        target = target.to(DEVICE)
        
        y_pred= model(st, pr)
        
        loss = criterion(y_pred, target)
        loss.backward()
        optimizer.step()
        
        train_l += loss.item()
        
    train_l /= X_train.shape[0] // batch_size
    
    test_l = 0
        
    with torch.no_grad():
        for st, pr, target in tqdm(test_dataloader, total=X_test.shape[0] // batch_size):
            st = st.to(DEVICE)
            pr = pr.to(DEVICE)
            target = target.to(DEVICE)

            y_pred= model(st, pr)

            test_l += criterion(y_pred, target).item()
            
    test_l /= X_test.shape[0] // batch_size
    
    print(train_l, test_l)
        
        


301it [00:11, 26.82it/s]                                                        
95it [00:05, 17.84it/s]                                                         


0.7915473612149556 0.7968905549100105


301it [00:11, 27.14it/s]                                                        
95it [00:05, 18.98it/s]                                                         


0.7851381756862005 0.7967650490872403


301it [00:10, 27.49it/s]                                                        
95it [00:04, 19.64it/s]                                                         

0.7787675164143244 0.7967287625404115



