## Import Library

In [1]:
from conllu import parse

## Generate Surface Forms Dictionary Using Train File

In [3]:
with open("ja_gsd-ud-train.conllu", "r", encoding="utf-8") as file:
    data = file.read()

sentences = parse(data)
surface_forms = {}

for sentence in sentences:
    for token in sentence:
        word = token['form']
        surface_forms[word] = True

jp_dictionary = list(surface_forms.keys())

jp_dictionary[0:50]

['ホッケー',
 'に',
 'は',
 'デンジャラス',
 'プレー',
 'の',
 '反則',
 'が',
 'ある',
 'で',
 '、',
 '膝',
 'より',
 '上',
 'ボール',
 'を',
 '浮かす',
 'こと',
 '基本',
 '的',
 'なる',
 'その',
 '例外',
 '一',
 'つ',
 'この',
 'スクープ',
 '。',
 'また',
 '行き',
 'たい',
 'そんな',
 '気持ち',
 'さ',
 'せ',
 'て',
 'くれる',
 'お',
 '店',
 'です',
 '手',
 '持っ',
 'た',
 '特殊',
 'な',
 '刃物',
 '使っ',
 'アクロバティック',
 '体術',
 'や']

## Creating A reference.txt File Using The Test File

In [4]:
with open("ja_gsd-ud-test.conllu", "r", encoding="utf-8") as file:
    data = file.read()

sentences = parse(data)

sample_text = ""
for sentence in sentences[:7]:
    for token in sentence:
        sample_text += token['form'] + " "
    sample_text += "\n"

with open("reference.txt", "w", encoding="utf-8") as output_file:
    output_file.write(sample_text)
    
sample_text

'これ に 不快 感 を 示す 住民 は い まし た が , 現在 , 表立っ て 反対 や 抗議 の 声 を 挙げ て いる 住民 は い ない よう です 。 \n幸福 の 科学 側 から は , 特に どう し て ほしい と いう 要望 は いただい て い ませ ん 。 \n星取り 参加 は 当然 と さ れ , 不 参加 は 白眼 視 さ れる 。 \n室長 の 対応 に は 終始 誠実 さ が 感じ られ た 。 \n多く の 女性 が 生理 の こと で 悩ん で い ます 。 \n先生 の 理想 は 限りなく 高い 。 \nそれ は 兎も角 , 私 も 明日 の 社説 を 楽しみ に し て おり ます 。 \n'

## Maxmatch Implementation

In [5]:
def maxmatch(text, dictionary):
    result = []
    while text:
        found = False
        for i in range(len(text), 0, -1):
            firstword = text[:i]
            remainder = text[i:]
            if firstword in dictionary:
                result.append(firstword)
                text = remainder
                found = True
                break
        if not found:
            result.append(text[0])
            text = text[1:]
    return ' '.join(result)

## Create hypothesis.txt File Using Maxmatch output

In [9]:
with open("hypothesis.txt", "w", encoding="utf-8") as hypothesis_file:
    hypothesis_file.write(maxmatch(sample_text, jp_dictionary))