## word_segmentation.py

In [1]:
import util
import wordsegUtil

# 유니그램코스트에 단어를 하나를 넣게 되면 -log를 반환해주는 함수 (제공)


class SegmentationProblem(util.SearchProblem):
    def __init__(self, query, unigramCost):
        self.query = query
        self.unigramCost = unigramCost

    def start_state(self):
        return 0  # num of characters used to construct words
        # 예를들어 iloveyou 로 시작했으면 하나도 띄어쓰기를 안하니까 0
        # 
    def is_end(self, state):
        return state == len(self.query)
        # 쿼리가 인풋임 iloveyou
    def succ_and_cost(self, state):
        for step in range(1, len(self.query) - state + 1):
            next_state = state + step
            word = self.query[state: next_state]
            cost = self.unigramCost(word)
            yield word, next_state, cost  # action, next_state, cost
            #다음 스테이트는 무었인지
            # state에 0을 넣게 되면 i il ilo 등 각
            #각에 액션에 대한 코스트(-logp(il)) 반환해줌
            # yield  

if __name__ == '__main__':
    unigramCost, bigramCost = wordsegUtil.makeLanguageModels('leo-will.txt')
    problem = SegmentationProblem('thisisnotmybeautifulhouse', unigramCost)

    # import dynamic_programming_search
    # dps = dynamic_programming_search.DynamicProgrammingSearch(verbose=1)
    # # dps = dynamic_programming_search.DynamicProgrammingSearch(memory_use=False, verbose=1)
    # print(dps.solve(problem))

    import uniform_cost_search
    ucs = uniform_cost_search.UniformCostSearch(verbose=0)
    print(ucs.solve(problem))


# === Other Examples ===
#
# QUERIES_SEG = [
#     'thestaffofficerandprinceandrewmountedtheirhorsesandrodeon',
#     'hellothere',
#     'officerandshort',
#     'erprince',
#     'howdythere',
#     'whatsup',
#     'duduandtheprince',
#     'duduandtheking',
#     'withoutthecourtjester',
#     'lightbulbneedschange',
#     'imagineallthepeople',
#     'thisisnotmybeautifulhouse',
# ]


(['this', 'is', 'not', 'my', 'beautiful', 'house'], 37.45704694264781, 18)


##  yield 사용 예제

In [1]:
def succ_and_cost():
    results=[]
    for i in range(10):
        results.append((i,i,i))
    return results

def succ_and_cost_yield():
    for i in range(10):
        yield(i,i,i)

for t in succ_and_cost_yield():
    print(t)
print( "")    
for t in succ_and_cost():
    print(t)

(0, 0, 0)
(1, 1, 1)
(2, 2, 2)
(3, 3, 3)
(4, 4, 4)
(5, 5, 5)
(6, 6, 6)
(7, 7, 7)
(8, 8, 8)
(9, 9, 9)

(0, 0, 0)
(1, 1, 1)
(2, 2, 2)
(3, 3, 3)
(4, 4, 4)
(5, 5, 5)
(6, 6, 6)
(7, 7, 7)
(8, 8, 8)
(9, 9, 9)


## vowel_insertion.py

In [2]:
import util
import wordsegUtil


class VowelInsertionProblem(util.SearchProblem):
    def __init__(self, queryWords, bigramCost, possibleFills):
        # querywords에 모음이 없는 [kll,m]를 넣어줌 kill me 의 예시
        # possiblefill 불가능한 단어들을 제거해주는 역할? 
        #(0,-begin-) 0은 모음을 삽입한 갯수 
        self.queryWords = queryWords
        self.bigramCost = bigramCost
        self.possibleFills = possibleFills

    def start_state(self):
        return 0, wordsegUtil.SENTENCE_BEGIN  # word position & previous reconstructed word

    def is_end(self, state):
        return state[0] == len(self.queryWords)
        # state (모음을 넣은 갯수, 방금 생성한 단어?)
    def succ_and_cost(self, state):
        pos, prev_word = state
        vowel_removed_word = self.queryWords[pos]
        fills = self.possibleFills(vowel_removed_word) | {vowel_removed_word}
        for fill in fills:
            next_state = pos + 1, fill
            cost = self.bigramCost(prev_word, fill)
            yield fill, next_state, cost  # return action, state, cost
            # fills = ex) [kll,kill,kall]
            # bigramcost로 이전단어와 생성한 단어의 비용 구함.

if __name__ == '__main__':    
    unigramCost, bigramCost = wordsegUtil.makeLanguageModels('leo-will.txt')
    possibleFills = wordsegUtil.makeInverseRemovalDictionary('leo-will.txt', 'aeiou')
    problem = VowelInsertionProblem('thts m n th crnr'.split(), bigramCost, possibleFills)
    # problem = VowelInsertionProblem([wordsegUtil.removeAll(word, 'aeiou') for word in 'whats up'.split()], bigramCost, possibleFills)

    # import dynamic_programming_search
    # dps = dynamic_programming_search.DynamicProgrammingSearch(verbose=1)
    # # dps = dynamic_programming_search.DynamicProgrammingSearch(memory_use=False, verbose=1)
    # print(dps.solve(problem))

    import uniform_cost_search
    ucs = uniform_cost_search.UniformCostSearch(verbose=0)
    print(ucs.solve(problem))


# === Other Examples ===
# 
# QUERIES_INS = [
#     'strng',
#     'pls',
#     'hll thr',
#     'whats up',
#     'dudu and the prince',
#     'frog and the king',
#     'ran with the queen and swam with jack',
#     'light bulbs need change',
#     'ffcr nd prnc ndrw',
#     'ffcr nd shrt prnc',
#     'ntrntnl',
#     'smthng',
#     'btfl',
# ]


(['thats', 'me', 'in', 'the', 'corner'], 46.78710900438204, 40)


앞에 두가지 테스크를 살펴보았다.
JOINT TASK는 

띄어쓰기가 없고 모음이 없는 문자열에 띄어쓰기와 모음을 삽입해 2-gram 언어 모델의 
Smooth cost는 고려 필요 x  

테스트 케이스 "mgnlthppl => " imagine all the people" 으로 만들어야함


1. search 문제 정의하고
2.  코드를 기준으로 구현 

스켈레톤 코드 succ_and_func 잘 구현해야함.

Hint 
1. 1째 element로 방금 만든 숫자 2ele : 인풋 그자체
mgnllthppl 처음에 단어중에 알파벳을 몇개를 이용할지 결정하는 것이 먼저임.
이 각각에 대해 모음을 삽입하는 경우가 있을 수 있음.
('me', gnllthppl)
action : magnolia ( from mgnl) => state (magnolia, lthppl)
이전에 만든 코스트와 방금 만든 코스트에 대한 p(magnolia|sㅁㄴㅇㄹ)

조건 : 
무조건 모음이 포함되어 있어야 함. 
생성되는 단어는 반드시 하나 이상의 자음을 포함해야 하며, 모음만을 포함해서는 안됨