Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

HWP 내용의 각 문단에서 줄바꿈 문자(개행문자)가 있는지 어떻게 확인이 가능한가요. #258

Closed
wavor opened this issue Jul 14, 2024 · 1 comment

Comments

@wavor
Copy link

wavor commented Jul 14, 2024

hwplib를 통해서 각 paragraph에 대한 text를 추출해보면,
hwp파일의 각 문단에 대한 텍스트가 추출되는데,
문단 중간에 있는 개행문자(shift + enter)를 무시하고 문단의 모든 텍스트가 나오고 있어서, 문단 텍스트 내용을 나눌 수가 없습니다.

  1. 개행문자가 있으면 개행문자를 중심으로 문단을 나누거나
  2. 아니면, paratext 내에 개행문자를 찾을 수 있는 방법이 있으면 좋겠습니다
@neolord0
Copy link
Owner

neolord0 commented Jul 16, 2024

안녕하세요

아래 코드와 같이 TextExtractOption 객체에 withControlChar() 속성을 true로 넣어주면
탭, 개행 등의 제어문자가 표현됩니다.

    TextExtractOption option = new TextExtractOption(TextExtractMethod.OnlyText, false);
    option.setWithControlChar(true);
    String text = TextExtractor.extract(hwpFile, option);

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants