학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

Cheongah · 2020-06-08T07:03:46Z

안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.

혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?

초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !

lovit · 2020-06-08T07:43:00Z

안녕하세요. 이 방법은 어절 단위로 띄어쓰기 정보를 학습하는 heuristic 방법이라서 인풋 파일을 문장 단위로 줄바꿈을 하여도 문단 단위로 줄바꿈을 하여도 차이가 크지 않을것 같습니다. 단, 이 방법은 같은 어절이 여러 번 반복된다고 가정을 합니다. 그렇기 때문에 서로 다른 문장들로 구성된 작은 크기의 데이터에는 잘 작동하지 않습니다. 그리고 학습한 뒤에 model.correct() 함수의 arguments 를 조절해 보시는게 좋을듯 합니다. 특히 데이터의 크기가 작다면 min_count 를 작게 조절하시는게 도움이 될 듯 합니다. 감사합니다. Hyunjoong Kim github : https://github.com/lovit/ blog : https://lovit.github.io/ 2020년 6월 8일 (월) 오후 4:04, Cheongah <notifications@github.com>님이 작성:

…

안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : ) 띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 ! 현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다. 생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요. 혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ? 예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때, txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태) 문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태) 혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 . 중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ? 초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ 조언 주시면 감사하겠습니다 ! — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#8>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AAZ6OZXG3NFHGYRBTOD67QLRVSEOBANCNFSM4NYCJQCA> .

Cheongah · 2020-06-08T07:50:40Z

빠른 답변 감사합니다 ! 👍
argument 조정도 해보았고, 입력 파일의 데이터 자체를 임의로 복제하는 방법 등도 써보고 있습니다만,, 인풋 데이터를 준비하는게 가장 어렵네요..
조금 더 공부가 필요할듯 합니다. 감사합니다 !

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

Cheongah commented Jun 8, 2020

lovit commented Jun 8, 2020 via email

Cheongah commented Jun 8, 2020

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

학습용 txt 파일은 따로 권장되는 입력 방식이 없나요 ? (줄바꿈 이라던지) #8

Comments

Cheongah commented Jun 8, 2020

lovit commented Jun 8, 2020 via email

Cheongah commented Jun 8, 2020