From 468699451563e1c0574bff806d0f1ebf0d281328 Mon Sep 17 00:00:00 2001 From: Insik Kim Date: Sun, 23 Apr 2017 09:53:48 +0900 Subject: [PATCH] add sample from lyricskor --- README.md | 32 ++++++++++++++++++++++++++++++++ 1 file changed, 32 insertions(+) diff --git a/README.md b/README.md index 3827040..1281efc 100644 --- a/README.md +++ b/README.md @@ -39,6 +39,38 @@ To sample from a checkpointed model, `python sample.py`. 2. 발라드 가사 모음: 용량이 적당합니다. (약 2MB). 많은 고유명사가 등장하지 않으며 대부분이 비슷한 문맥 (사랑, 이별)에 위치하면서 반복적인 패턴이 많이 등장합니다. 모델이 문법을 학습하는데 있어서 적당합니다. 어느정도 복잡한 모델 (hidden=700, layer=3, seq=100) 으로 약 900 epoch을 훈련시킨 이후에 train loss가 0.15 근처로 수렴하는 것을 볼 수 있습니다. (하지만 overfit을 한 느낌이 듭니다) + +모델이 가사로써 봐줄만한 문법적, 의미적 오류범위 하에 생성하는것을 알 수 있습니다. +하지만 데이터셋의 가사를 약간 복사 붙여넣기 한다는 느낌이 있습니다. (overfit이 예상됨) +``` +사랑 하는 것 위해서 +난 눈물이 나면 슬픔을 흔들어 + +한 번쯤 다시 생각해 기다리겠어 +그대가 기억하는 나의 옛모습으로 +그러나 어느새 그대는 나를 잊었고 +내가 다가갈수록 그대는 멀어져 가네 +이렇게 쉽게 헤어질 우리였다면 +지난 긴 세월동안 그리워 이제는 +어둠에 깨져버린 우리 사랑을 +어떻게 살고 있는지 +저 멀리 그대 음성 +인사도 다른 어떤말도 못하고서 +그대 먼저 끊기만 기다려요 +어떤날은 잠에서 깨어난 +졸리운 목소리로 +지나간 날들 모두 잊은 듯 +내마음 깊은 그대로 +사랑을 남긴 채 +그대 내 맘에서 떠나가 버렸네 +아쉬움 남긴 채 +내마음 깊은 그곳에 사랑을 +남긴 채 +떠나가 버렸네 내맘속에 그대는 +떠나가 버렸네 사랑했던 그대는 + +``` + 3. 나무위키 본문: 데이터 자체가 위키 문법을 포함하고 있으므로 전처리를 거친 후에도 여전히 특이한 패턴들이 존재합니다. (항목을 나열하는 형태로 제작된 위키페이지 등) 학습을 위한 충분한 데이터가 있다고 판단되지만 (약 2GB) 각각의 주제와 서술 방식이 매우 다양하므로 이 모든것을 학습하려면 모델의 복잡도도 높아져야하고, 그 만큼 많은 데이터가 필요합니다. 이에 따라 필연적으로 훈련시간이 증가할 수 밖에 없습니다. 본 저자가 실험해본 결과 GTX 980 Ti (6GB VRAM) 에 fit 할 수 있는 최대 크기의 모델로 실험해도 10시간 동한 훈련해도 나아지지 않았습니다.