In [40]:
from eunjeon import Mecab
import re

In [41]:
#coherency
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity

In [58]:
def split_to_sentences(text):
    """
    Args: 
        text (str): raw text to split to sentences on end of sentences marks.
    Returns:
        List of sentences from text.
    """
    # Split on end of sentence, but keep the punctuation marks.
    text = text.replace('\n', '')
    sentences = text.split('.')
    # If the last sentence is ''
    if len(sentences) > 1 and len(sentences[-1]) < 3:
        sentences.pop()
    return sentences

def split_words(text):
    return re.split(r'[ ](?=[\w])', text)

In [60]:
ex_text = '''
옛날 옛적에 한 오누이가 살고 있었습니다. 한 어머니는 빨갛고 예쁜 옷에 낡았으면 팔려고 했어요. 하지만 손에 꼭 맞는 옷을 만들지 못했해서 결국 엄마는 빨간 헝겊 저고리를 쓰게 되었죠. 어느날 오빠는 새어머니를 모시고 숲으로 갔답니다. 도깨비 할아버지가 방바닥에 앉아 이삭을 하고 있는데 까마귀들이 입을 크게 벌리고 쏟아져 나릅니다 어머나 사람들은 깜짝 놀랐지 뭐예요? 그때 여우가 물었어요. 왜 그래! 옛날 하늘나라 임금님이 눈치채도록 까만 손수레를 밀고 가버렸기에여...임금님은 그 광경을 가만히 지켜보고 있었던 거야. 아니, 저렇게 납작하게 입어봐라 거짓말처럼 큰소리로 말했거든요. 그 모습을 본 임금은 얼굴을 찌푸리며 그만 울상이 되고 말아졌어, 얼굴에는 웃음이 암까지 나왔지만 간신히 몸을 다 펴보았을 때 머리 위에 하얀 구름이 덩쿨이 서고, 앞은 흰 구름 속으로 사라져 버렸다고 하죠. 오빠와 엄마 이야기는 이렇게 이야기를 들으면서 그동안 궁전으로 돌아온 이야기와 앞으로 나갈 일을 이야기 하였답니다.
'''

# 통일성 coherency

In [62]:
def _coherency(text, embedder):
    texts_sentences = split_to_sentences(text)
    transformed_sentences = embedder.fit_transform(texts_sentences)
    similarity = cosine_similarity(transformed_sentences)
    return sum(similarity[0][1:])

In [63]:
embedder = TfidfVectorizer()

In [64]:
_coherency(ex_text, embedder)

0.11463666872271021

# Readability

In [13]:
def _readabilty(text):
    """
    Uses length of sentences and length of words.
    Higher is for more advanced readers.
    If text is sparse i.e. mostly new lines, and doesn't end with an eos -> add a negative cost.  
    Args:
        text (str): original text to return score for.
        texts_sentences (list): text split to sentences. 
    """
    texts_sentences = split_to_sentences(text)
    txt_words = split_words(text)
    num_letters = sum(len(word) for word in txt_words)
    num_words = len(txt_words)
    num_sent = len(texts_sentences)

    # check if a "sparse" sentence
    if num_sent == 1:
        new_line_threshold = 0 if num_words == 0 else num_words // 4
        if texts_sentences[0].count('\n') > new_line_threshold or not re.search(r'(?<![A-Z])[.!?;"]+', texts_sentences[0]):
            num_sent = 0

    letters_per_word = -10 if num_words == 0 else num_letters/num_words
    words_per_sentence = -10 if num_sent == 0 else num_words/num_sent
    # 0.5 to weight words_per_sentence higher
    return 0.5*letters_per_word + words_per_sentence

In [65]:
 _readabilty(ex_text)

11.972666666666665

# Diversity
- stopwords에 들어간 표현을 제외하고, 문장에서 얼마나 다양한 표현을 써냈는지 평가한다.

In [29]:
def remove_stopwords(text):
    text = text.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
    tokenizer = Mecab('C:\mecab\mecabrc').morphs
    tokens = tokenizer(text)
    stopwords = ['은','는','이','가']
    
    text = [word for word in tokens if word not in stopwords]
    return text

In [31]:
def _diversity(text):
    """
    Fraction of unique words from the total number of words (exclusing stop words).
    Higher is more diversified.
    Args:
        filtered_words (list): set of non-stop tokenized words. 
        filtered_words_set (set): unique filtered words.
    """
    filtered_words = remove_stopwords(text)
    filtered_words_set = set(filtered_words)
    
    # If empty sentence or only white space or \n or too repetitive.
    if len(filtered_words_set) < 5:
        return 0

    return len(filtered_words_set) / len(filtered_words)

In [66]:
_diversity(ex_text)

0.6608695652173913

# simplicity
- fine tuned 모델에서 named entity를 제외한 most freq words 정의 필요.

In [69]:
def _simplicity(text):
    """
    Fraction of most frequent words from generated text.
    Args:
        filtered_words_set (set): set of non-stop, non-punctuation words. 
    """
    filtered_words = remove_stopwords(text)
    filtered_words_set = set(filtered_words)
    
    return len(filtered_words_set.intersection(constants.SEVEN_PREC_MOST_FREQ_WORDS))

In [70]:
_simplicity(ex_text)

NameError: name 'constants' is not defined