네이버 지식iN 질문 중에서 비슷한 질문을 찾을 수 있을까요?
네이버 지식iN은 열린 지식 공유 커뮤니티를 지향하는 서비스로서, 모든 사용자의 지식과 삶이 풍부해지는 정보 공유 공간입니다. 올라온 질문에 대해 다른 사람들이 자발적으로 답을 달아 지식을 주고 받으며 세상을 더 잘 이해할 수 있게 됐습니다.
모든 이슈와 호기심의 향연! 세상에 모든 Q&A가 있는 곳 지식iN! 2017년에는 무려 20,566,585개의 질문이 지식iN을 더욱 풍성하게 했습니다. 하지만 이 많은 질문 중에 비슷한 질문이 있습니다.
원하는 질문과 답을 찾기 위해 지식iN을 찾는 사람들에게 비슷한 질문이 많아진다는 것은 검색 시간이 늘어나는 것을 의미합니다. 더 좋은 답을 찾기 위해 많은 비슷한 질문을 찾아봐야 하기 때문입니다. 답변을 해 주는 사람들도 동일한 답변을 여러 번 해야 할 경우가 생깁니다.
이러한 문제점을 개선하기 위해 여러분들은 트레이닝 데이터를 학습해 한 쌍의 질문이 유사한지를 판단하는 모델을 개발해야 합니다.
질문1 | 질문2 | 유사 여부 |
---|---|---|
재즈란 뭔가요? | 재즈란 무엇인가요? | y |
재즈란 무엇이죠? | 모든 재즈의종류 | n |
영화포스터는 누가 만들어요? | 영화 포스터 제작은 누가 하나요? | y |
영화포스터는 누가 만들어요? | 처음으로 만들어진 영화 포스터는? | n |
종류 | 위치 | 비고 |
---|---|---|
예선 1라운드 트레이닝 데이터 | kin_phase1 | NSML에서 지정 |
예선 2라운드 트레이닝 데이터 | kin_phase2 | NSML에서 지정 |
결선 트레이닝 데이터 | kin_final | NSML에서 지정 |
디버깅용 더미 데이터 | 보기 |
- 트레이닝 데이터는 NSML을 통해서만 접근 가능합니다.
- 로컬에서 디버깅을 위해 데이터를 사용해야 한다면 디버깅용 더미 데이터를 사용하세요.
- NSML에서 모델을 평가할 때 자동으로 테스트 데이터를 사용합니다.
- 데이터셋에 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.
- NSML을 통해 개발한 모델을 실행할 수 있습니다.
- NSML 크레딧을 보유한 만큼 리소스를 사용할 수 있습니다.
- 모델 개발 및 실행에 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.
- NSML을 통해 개발한 모델을 평가합니다.
- 평가를 완료하면 NSML 리더보드를 통해 순위를 확인할 수 있습니다.
- 모델 평가 대한 자세한 설명은 튜토리얼 문서를 확인해 주세요.