Skip to content

한국어 소설 텍스트를 위한 자연어처리 라이브러리입니다. Natural Language Processing Library for Korean Literary Text. (Will be open in February, 2024)

License

Notifications You must be signed in to change notification settings

storidient/KoBookNLP

Repository files navigation

KoBookNLP : Natural Language Processing Library for Korean Literary Text

KoBookNLP는 한국어 소설 텍스트을 위한 자연어처리 라이브러리로 다음과 같이 구성되어 있습니다.

  • 등장인물 개체인식(Name Entity Recognition, NER)
  • 상호참조해결(Coreference Resolution, Coref)
  • 대사-발화자 찾기(Direct Quotation Assignment, Speaker Identification)
  • KoCoNovel 데이터셋

Note : temporary repository for '2023 학부생연구지원프로그램 발표' in SNU

Example for KoBookNLP

KoCoNovel-Dataset

Introduction

위키문헌에 있는 50편의 한국 근현대 소설 중단편 작품에 대해 등장인물 개체 인식, 상호참조해결, 대사-발화자 찾기를 주석한 데이터셋입니다.

Creative Commons License
KoCoNovel Dataset은 Creative Commons Attribution 4.0 International License를 따르고 있습니다.

소설 목록은 ListOfNovels.csv에서 확인할 수 있습니다.

data 아래 각 소설 폴더는 다음과 같이 구성되어 있습니다.

  • _text.csv : 20문장 내외의 장면으로 분할된 소설 텍스트
  • reader: 장면 단위로 정보가 제한된 상태로, 독자 시점에서 상호참조관계 및 발화자가 주석된 데이터셋
  • omniscient: 작품 세계를 기준으로 상호참조관계 및 발화자가 주석된 데이터셋
episode reader omniscient
3 이 [B 사감]x이 감독하는 그 기숙사에 올해 가을 들어서 괴상한 일이 '생겼다'느니 보다 '발각되었다'는 것이 마땅할는지 모르리라. 이 [B 사감]x이 감독하는 그 기숙사에 올해 가을 들어서 괴상한 일이 '생겼다'느니 보다 '발각되었다'는 것이 마땅할는지 모르리라.
5 "나의 천사, 나의 하늘, 나의 여왕, 나의 목숨, 나의 사랑, 나를 살려 주어요, 나를 구해 주어요." [사내]y의 애를 졸리는 간청 "나의 천사, 나의 하늘, 나의 여왕, 나의 목숨, 나의 사랑, 나를 살려 주어요, 나를 구해 주어요." [사내]x의 애를 졸리는 간청
6 이 어쩐 기괴한 광경이냐! 전등불은 아직 끄지 않았는데 침대 위에는 기숙생에게 온 소위 '러브레터'의 봉투가 너저분하게 흩어졌고 그 알맹이도 여기저기 두서없이 펼쳐진 가운데 [B 여사]x 혼자 - 아무도 없이 제 혼자 일어나 앉았다. 이 어쩐 기괴한 광경이냐! 전등불은 아직 끄지 않았는데 침대 위에는 기숙생에게 온 소위 '러브레터'의 봉투가 너저분하게 흩어졌고 그 알맹이도 여기저기 두서없이 펼쳐진 가운데 [B 여사]x 혼자 - 아무도 없이 제 혼자 일어나 앉았다.

위와 같이 작품에 정보의 비대칭성이 존재하는 경우에는 상호참조해결 주석이 다르게 되어 있습니다.(현진건, 'B사감과 러브레터')

readeromniscient 폴더에는 각각 overlap_plural, default가 존재합니다.

  • default : plural entity(e.g. '우리')를 각 개인의 entity(e.g. '너', '나')와는 별개로 취급한 데이터셋
  • overlap_plural: 등장인물의 합으로 표현 가능한 plural entity에 대해, 각 개인의 entity를 겹쳐서 표현한 데이터셋
default overlap_plural
text [첫째 처녀]x는 호동그래진 눈에 무서워하는 빛을 띤다. … [둘째 처녀]y도 잠 오는 눈을 비비며 수상해한다.… 장난 잘 치고 짓궂은 짓 잘하기로 유명한 [셋째 처녀]z는 동무 말을 못 믿겠다는 듯이 이슥히 귀를 기울이다가, "딴은 수상한걸. 나는 언젠가 한 번 들어본 법도 하구먼. 무얼 잠 아니 오는 애들이 이야기하는 게지." 이때 그 괴상한 소리는 댁대굴 웃었다.[세 처녀]w는 귀를 소스라쳤다. [첫째 처녀]x는 호동그래진 눈에 무서워하는 빛을 띤다. … [둘째 처녀]y도 잠 오는 눈을 비비며 수상해한다.… 장난 잘 치고 짓궂은 짓 잘하기로 유명한 [셋째 처녀]z는 동무 말을 못 믿겠다는 듯이 이슥히 귀를 기울이다가, "딴은 수상한걸. 나는 언젠가 한 번 들어본 법도 하구먼. 무얼 잠 아니 오는 애들이 이야기하는 게지." 이때 그 괴상한 소리는 댁대굴 웃었다.[세 처녀]x,y,z는 귀를 소스라쳤다.
clusters [['첫째 처녀'], ['둘째 처녀'], ['셋째 처녀'], ['세 처녀']] [['첫째 처녀', '세 처녀'], ['둘째 처녀', '세 처녀'], ['셋째 처녀', '세 처녀']]

Annotation-Guidelines

한국어 상호참조해결 주석 가이드라인은 여기에서 확인할 수 있습니다.

Format

.jsonl.conll 파일이 들어 있습니다. 파일의 내용은 동일하나, 변환의 번거로움을 줄이고자 두 가지의 format을 모두 제공합니다.

  • .jsonl: coref cluster와 speaker-id 간의 관계를 비교적 쉽게 파악 가능
  • .conll: 표준화된 format으로, e2e-coref, s2e-coref, LingMess 등 기존의 상호참조해결 모델에 바로 활용 가능

.jsonl을 활용한 data-exploration과 .conll을 활용한 기존 모델 학습 및 테스트는 튜토리얼에서 확인할 수 있습니다.

Tutorials

  • KoCoNovel Dataset Exploration
  • KoCoNovel e2e-coref model training

Contact

데이터셋과 코드 사용에 궁금한 점이 있거나, 제안이 있을 경우에는 아래로 연락주시길 바랍니다.

Acknowledgments

이 연구는 2023 서울대학교 기초교육원의 학부생연구지원프로그램 지원을 받아 수행되었습니다.

About

한국어 소설 텍스트를 위한 자연어처리 라이브러리입니다. Natural Language Processing Library for Korean Literary Text. (Will be open in February, 2024)

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages