Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

공개 스피치 데이터셋(AIHub, ClovaCall)의 경우, 추가가 가능할지 궁금합니다. #193

Open
hwiorn opened this issue Jan 18, 2021 · 4 comments

Comments

@hwiorn
Copy link
Contributor

hwiorn commented Jan 18, 2021

현재 공개 스피치 데이터셋의 경우 전사 데이터를 취합하면, 이 역시 코퍼스로 활용이 가능한데 계획이 있으신지 문의합니다. (승인을 통해 사용이 가능한 데이터셋입니다)

@lovit
Copy link
Member

lovit commented Jan 18, 2021

스피치 데이터에 대해서도 Korpora 범위에 포함할지 고민을 하고 있었습니다. 하지만 데이터의 형식이 "텍스트" 와 "음원"으로 다르기 때문에 동일한 Korpora 패키지 안에서 진행하는게 좋을지는 고민입니다.

@hwiorn 님은 어떻게 생각하시나요?

@hwiorn
Copy link
Contributor Author

hwiorn commented Jan 18, 2021

스피치 데이터 셋이 실 대화 데이터이기 때문에, 이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다. 자연어 처리를 쉽게 다루기 위해 만들어진 Korpora 성격상, 제 개인적인 생각으로는 "음원"까지 다루는 것은 아직은 아닌 것 같습니다.

@lovit
Copy link
Member

lovit commented Jan 18, 2021

이 데이터로 LM용 학습 데이터를 다루는 분들은 따로 파서를 만들어 사용하고 있는데, Text를 읽어들이는 로더 기능 만을 제공하는 쪽이라면 현재 계획하시는 프로젝트 목적에 맞지 않을까 싶습니다.

@hwiorn 님의 생각에 동의합니다. Korpora==0.3.0 (#187 ) 에 이 내용 반영하면 좋을 듯 합니다. 제보 감사합니다.

@hwiorn
Copy link
Contributor Author

hwiorn commented Jan 20, 2021

AIHub에서 전사 스크립트에 대해서 따로 KsponSpeech_scripts 파일로 제공하고 있습니다.
해당 파일만 사용하면, 전체 데이터셋(음원 포함)을 다운받을 필요가 없을 것 같습니다.

https://www.aihub.or.kr/aidata/105/download

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants