Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

모두의 말뭉치: sanitizer 를 거쳐 정제해야 하는 말뭉치 리스트 정리 #18

Open
lovit opened this issue Oct 10, 2020 · 1 comment

Comments

@lovit
Copy link
Member

lovit commented Oct 10, 2020

모두의 말뭉치는 13개의 세부 말뭉치로 구성되어 있지만, 이 중 몇 말뭉치는 다른 말뭉치와 의존성이 존재합니다. 이러한 말뭉치는 두 개의 말뭉치 roots 를 모두 입력받아야 하며, 지나치게 비효율적으로 메모리를 이용하기 때문에 korpora 에서는 loader 를 제공하지 않습니다.

위 사항에 해당하는 말뭉치와 의존성을 정리합니다.

말뭉치 의존성
문서 요약 말뭉치 신문 말뭉치의 뉴스 기사 4,389 건을 원본으로 이용하나, 신문 말뭉치 문서 id 만 제공하여 mash-up 이 필요
유사 문장 말뭉치 신문 말뭉치, 구어 말뭉치 에서 추출한 기초 문장 17,959 개를 바탕으로 유사 문장 작성, sentence id를 이용한 mash-up 이 필요
@lovit
Copy link
Member Author

lovit commented Nov 22, 2020

이 이슈는 moducorpus-sanitizer 로 이전합니다.

@lovit lovit transferred this issue from ko-nlp/Korpora Nov 22, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant