[Day05-5/28] 피어세션 #49
dkswndms4782
started this conversation in
Peer Session
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
elapsed가 일정 시간을 넘을 때 평균으로 값을 대치하는 방법
일정시간: 250 (이유: train data에서 250 넘는 수가 5%미만)
첫번째 문제들의 정답률이 높기 때문에 3초, 250을 넘는 경우 251 주고 테스트했지만 오히려 평균으로 넣었을 때 가장 점수가 높게 나왔다.
elapsed에 어떤 경우에 평균값을 넣어주는지.
- testId가 넘어갈 때 0으로 넣어줬었는데 기존에 풀이 시간이 0인 경우가 있었다. 따라서 testId가 넘어갈 때 평균으로 대체
- 평균은 사용자의 전체 문제에 대한 평균으로 넣었다.
- train/test에서 각각 평균을 구해 넣어줬을 때가 가장 점수가 높고, train/test를 합쳐 평균을 구했을 때 점수가 오히려 낮았다.
- 넘어가는 구간, 250 넘는 경우 전체 train data의 평균 시간을 사용
- 사용자별 다른 평균 시간을 사용하는 방법도 도전해볼만 하다.
대분류별 정답률이 다르다. 숫자가 오를 때 정답률이 낮아진다.
대분류+중분류의 경우 정답률이 일정하게 증가 또는 감소하지 않는다. 오히려 모델이 학습할 때 방해가 될 수 있다고 생각한다.
태그 개수 별 사용자가 푼 문제의 수가 1이면 정보가 의미가 없을 수 있따.
사용자 별 동일한 태그를 몇 문제를 풀었는지 정보를 추가하는 것은 의미가 있다고 생각.
- 어떤 태그는 1번 풀었고, 어떤 태그는 1000번 풀었다면 값의 차이가 너무 커지므로 정규화? 할 필요가 있다 생각. (Scaler, Sigmoid)
사용자별 max_seq_len 개수로 데이터를 나눠서 BERT를 학습시키면 성능이 향상되지 않을까
- 성능 향상을 확인하면 test 데이터도 증강에 사용이 가능해보인다.
Feature 개수에 따라 하드 코딩할 필요 없도록 코드 수정
Loss를 수정하여 0에 더 weight을 주는 방법 ⇒ 잘 되지 않아 창우님도 같이 시도하기로 결정
사용자별 max_seq_len 개수를 나누는 다른 방법 시도 (load_data_from_file 함수에서 group을 나눠서 새로운 데이터프레임에 추가하는 방법)
BERT에 //3이 없는 이유
⇒ hidden 각각 embedding 후 comb_proj 없이 그대로 concat을 시도
Beta Was this translation helpful? Give feedback.
All reactions