You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.
혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?
초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !
The text was updated successfully, but these errors were encountered:
안녕하세요.
이 방법은 어절 단위로 띄어쓰기 정보를 학습하는 heuristic 방법이라서 인풋 파일을 문장 단위로 줄바꿈을 하여도 문단 단위로
줄바꿈을 하여도 차이가 크지 않을것 같습니다.
단, 이 방법은 같은 어절이 여러 번 반복된다고 가정을 합니다. 그렇기 때문에 서로 다른 문장들로 구성된 작은 크기의 데이터에는 잘
작동하지 않습니다.
그리고 학습한 뒤에 model.correct() 함수의 arguments 를 조절해 보시는게 좋을듯 합니다. 특히 데이터의 크기가
작다면 min_count 를 작게 조절하시는게 도움이 될 듯 합니다.
감사합니다.
Hyunjoong Kim
github : https://github.com/lovit/
blog : https://lovit.github.io/
2020년 6월 8일 (월) 오후 4:04, Cheongah <notifications@github.com>님이 작성:
안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고
시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.
혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?
초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#8>, or unsubscribe
<https://github.com/notifications/unsubscribe-auth/AAZ6OZXG3NFHGYRBTOD67QLRVSEOBANCNFSM4NYCJQCA>
.
안녕하세요 ! 우선 좋은 모델 만들어주셔서 감사합니다 : )
띄어쓰기 때문에 간단한 리뷰 데이터 NLP 과정에서도 오류가 많아 좀 개선해보고자 찾아보다가 soyspacing을 발견했네요 !
현재 산업군과 연관성 높으면서 띄어쓰기가 어느정도 잘 되어있는 텍스트 데이터를 수집 했고, soyspacing으로 모델 생성 해보려고 시도 중입니다.
생각보다 학습이 잘 안되는 것 같아서,, 입력데이터를 조정해보면서 최적화 해보려 하는데요.
혹시 학습시킬 txt 파일의 데이터 입력 형태가 영향을 줄까요 ?
예를들어 특정 article 들의 본문 데이터를 수집 해서 txt로 저장했을 때,
txt 파일에 문장 단위로 줄바꿈이 되어있는 경우와 (index 마다 문장 단위로 입력된 형태)
문단 단위로 줄바꿈 되어 있는 경우 (index 마다 하나의 article이 들어가 있는 형태)
혹은 전체 텍스트 데이터가 줄바꿈 없이 띄어쓰기로만 들어간 형태 .
중에 model.train() 의 입력 데이터로 더 적합한 형태가 있을지요 ?
초보라서.. 열심히 따라는 하는데 생각보다 결과가 잘 안나오네요 ㅜ.ㅜ
조언 주시면 감사하겠습니다 !
The text was updated successfully, but these errors were encountered: