Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

Open
Cheongah opened this issue Jun 8, 2020 · 2 comments

Comments

@Cheongah
Copy link

Cheongah commented Jun 8, 2020

안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.

혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?

초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !

@lovit
Copy link
Owner

lovit commented Jun 8, 2020 via email

@Cheongah
Copy link
Author

Cheongah commented Jun 8, 2020

빠른 답변 감사합니다 ! 👍
argument 조정도 해보았고, 입력 파일의 데이터 자체를 임의로 복제하는 방법 등도 써보고 있습니다만,, 인풋 데이터를 준비하는게 가장 어렵네요..
조금 더 공부가 필요할듯 합니다. 감사합니다 !

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants