Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

SentenceSegmentor2에서 예외케이스처리 문제발생 #6

Open
seyong opened this issue Oct 12, 2020 · 0 comments
Open

SentenceSegmentor2에서 예외케이스처리 문제발생 #6

seyong opened this issue Oct 12, 2020 · 0 comments

Comments

@seyong
Copy link

seyong commented Oct 12, 2020

'KoNLP' R라이브러리에서 발생한 이슈관련입니다. 링크: haven-jeon/KoNLP#54 (comment)
KoNLP 라이브러리에서 추적하여보니 Hannanum의 SentenceSegmentor2와 관련있음을 확인했습니다.
SentenceSegementor2에서 java BreakIterator를 이용할시에 조건에 맞지 않는 문장이 들어올 경우가 있습니다. 현재까지 확인된 것은 아래와 같습니다.

'가식적인 내용전개와 캐릭터들이. . .;;;;' in NSMC data. ratings_test 35480 line.

쉼표뒤에 세미콜론이 붙어 있어 그런지 문장분할이 정확히 되지않고 BreakIterator가 아래와 같이 분할합니다. Sp = White Space, FS = FullStop

  1. 가식적인 내용전개와 캐릭터들 이 2)FS 3)Sp 4)FS 5)Sp 6)FS 7);;;;

공백이 생겼기에 SentenceSegmentor2의 doProcess()에서 70번째 라인의 substring을 하려하면 StringIndexOutOfBounds에러가 발생합니다.

KoNLP쪽에서 예외처리가 잘되어있으나, 여러 문장들을 순서대로 처리시에 (sapply를 이용하여) 위의 에러가 발생하고나면 bufSents가 초기화 되지않고, 이전의 값을 가지고 있습니다. 따라서 다음의 시나리오가 발생합니다.

  1. 시스템이 에러의 문장을 처리하려다 에러발생.
  2. 시스템이 다음의 온전한 문장을 처리하려하나 bufSents에 있던 값( 에러를 초래하는) 때문에 다시 에러발생.
  3. 계속하여 에러발생.

SegtenceSegmentor2.scala파일의 doProcess()함수안에 bufSents를 초기화하는 예외처리문을 넣어야 합니다.

발견된 케이스.
예문: 가식적인 내용전개와 캐릭터들이. . .;;;; => 가식적인 내용전개와 캐릭터들이{FS}{Sp}{FS}{Sp}{Semicolonx4}

  1. analyzeInSingleThread에서 첫 SentenceBreak후 Plainsentence => 가식적인 내용전개와 캐릭터들 이 (line 835)
  2. 데이터가 남아있으므로 doProcess를 시도 (line 840)
  3. 두번째로 {FS} 이 들어와 처리 완료.
  4. 여전히 데이터가 남아있으므로 doProcess를 시도
  5. 이번에는 Sp(White Space)이 들어왔으므로 SentenceSegmentor2에서 에러발생.
  6. 에러 발생 후 workflow.close()
  7. 두 번째 온전한 문장의 경우로 진입.
  8. doProcess에서 bufSents에 남아있는 값이 {Sp}{FS}{Sp}{;;;;}
  9. 또 Sp를 처리하려다 에러발생.
  10. 그 후로 어떤 문장이 들어와도 bufSents에 남아있는 값이 변화가 없으므로 같은 에러발생.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant