Skip to content

Latest commit

 

History

History
55 lines (37 loc) · 3.17 KB

kin.md

File metadata and controls

55 lines (37 loc) · 3.17 KB

banner

지식iN 질문 유사도

네이버 지식iN 질문 중에서 비슷한 질문을 찾을 수 있을까요?

네이버 지식iN은 열린 지식 공유 커뮤니티를 지향하는 서비스로서, 모든 사용자의 지식과 삶이 풍부해지는 정보 공유 공간입니다. 올라온 질문에 대해 다른 사람들이 자발적으로 답을 달아 지식을 주고 받으며 세상을 더 잘 이해할 수 있게 됐습니다.

모든 이슈와 호기심의 향연! 세상에 모든 Q&A가 있는 곳 지식iN! 2017년에는 무려 20,566,585개의 질문이 지식iN을 더욱 풍성하게 했습니다. 하지만 이 많은 질문 중에 비슷한 질문이 있습니다.

원하는 질문과 답을 찾기 위해 지식iN을 찾는 사람들에게 비슷한 질문이 많아진다는 것은 검색 시간이 늘어나는 것을 의미합니다. 더 좋은 답을 찾기 위해 많은 비슷한 질문을 찾아봐야 하기 때문입니다. 답변을 해 주는 사람들도 동일한 답변을 여러 번 해야 할 경우가 생깁니다.

이러한 문제점을 개선하기 위해 여러분들은 트레이닝 데이터를 학습해 한 쌍의 질문이 유사한지를 판단하는 모델을 개발해야 합니다.

데이터 구조

질문1 질문2 유사 여부
재즈란 뭔가요? 재즈란 무엇인가요? y
재즈란 무엇이죠? 모든 재즈의종류 n
영화포스터는 누가 만들어요? 영화 포스터 제작은 누가 하나요? y
영화포스터는 누가 만들어요? 처음으로 만들어진 영화 포스터는? n

데이터 위치

종류 위치 비고
예선 1라운드 트레이닝 데이터 kin_phase1 NSML에서 지정
예선 2라운드 트레이닝 데이터 kin_phase2 NSML에서 지정
결선 트레이닝 데이터 kin_final NSML에서 지정
디버깅용 더미 데이터 보기  

참고

  • 트레이닝 데이터는 NSML을 통해서만 접근 가능합니다.
  • 로컬에서 디버깅을 위해 데이터를 사용해야 한다면 디버깅용 더미 데이터를 사용하세요.
  • NSML에서 모델을 평가할 때 자동으로 테스트 데이터를 사용합니다.
  • 데이터셋에 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.

baseline

모델 개발 및 실행

  • NSML을 통해 개발한 모델을 실행할 수 있습니다.
  • NSML 크레딧을 보유한 만큼 리소스를 사용할 수 있습니다.
  • 모델 개발 및 실행에 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.

모델 평가

  • NSML을 통해 개발한 모델을 평가합니다.
  • 평가를 완료하면 NSML 리더보드를 통해 순위를 확인할 수 있습니다.
  • 모델 평가 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.