# Segmentation of Japanese text with Fugashi

In [1]:
import matplotlib.pyplot as plt 
import pandas as pd 
import numpy as np 

from bs4 import BeautifulSoup
from urllib.request import urlopen

from fugashi import Tagger

from collections import Counter

from typing import List, Tuple
import string, requests 
import regex as re

import random

from jamdict import Jamdict

import sys 

from base import CommonTest

In [2]:
test_string = '''祖父が死んだ太陽が沈まない森が一番輝くという祖父の好きだった季節にはかなくなった祖父は自分に伝統工芸や猟の仕方獲物の解体について領主としての仕事全てを授けたので悔いは無い
    と言っていた数日後に眠るようにしてこの世を去っていく本当に長い間頑張って来たと思うどうか安らかに眠ってくれと祖母の隣に弔ったそれからは怒涛の毎日であった祖父が倒れてから領主代理をしていたとはいえいきなり完璧な仕事が出来る訳もないわたわたと数ヶ月間慌しく仕事に追われていると両親に話があると呼び出される二人揃って嫌な予感しかしないという推測は見事に的中をしてしまった父は言うちょっと今から寒くなるので暖かい場所を目指して冒険に行って来るねとそれを聞いて別に驚きもしなかった父はずっと世界の探険に出る事を長年望んでいたからだそんな風に家族を置いていつ帰ってくるかも分からないという冒険の旅を許さなかったのは祖父で父親はやっと解放されたということになるだが想定外だったのはその後に続く母親の言葉だったお父さんが心配だからお母さんもついて行くねえといやいや二人揃って破壊力も二倍だろう両親は何と表現すればいいのかふわふわしているというか浮世離れをしているというかでもまあ両親は堅苦しいこの村に居るよりはのびのびと出来る環境の中に生きる方が合っているのかもしれないと思い旅立ちを止める事はしなかった父は旅立ちの準備にはじっくりと時間を掛けていたその間に母は通いのお手伝いさんを探したりなどの様々な手配をしてくれるそして出発の朝を迎えたリッちゃんごめんねえ大変なときにこんな事になってえ大丈夫母さん達には何も期待していなかったから割と失礼なことを言っても父は本当\u3000よかったあとのんびりした様子で呟く母も暢気にニコニコと微笑むだけだったあらまあお父さんリッちゃん見てえ綺麗な蝶さんえうわっ空をふわふわと漂うようにしている蝶を見て父は驚きの声を上げるああれは世界的に珍しいとされている伝説の蝶ヘレナモルフォ\u3000どうしてこんな所にそんな風に早口で捲くし立てながら父は蝶を追って走り出すあらあら大変母はこちらにひらひらと手を振ってからそれ走っているの\u3000と疑ってしまうような遅さでさかさかと父の後を追って行ったなんというか脱力心配でしかない両親は特別な前触れも無く旅立ってしまう二人を安心させる為に領主としての意気込みとか言おうと考えていたのにこちらの都合などお構い無しに緩い感じで出て行ってしまったこのようにしてあっさりと初めての一人暮らしは始まる領主となって一年目他の人の手でもと思ったが今の時期は極夜の準備の為に村人達はみんな必死の形相をしているので声を掛けることが出来なかったちなみに我が家の極夜の準備は整っている保存食の入った瓶詰めは母が作り肉も自分が狩って来た分が雪の中で冷凍保存されていた極夜の間はお手伝いさんも来ないのでその間は母の作った保存食頼りになるそして太陽が昇る時間が短くなれば村人の家を回って食料の備蓄が十分であるかを確認して回ったまあ想像はしていたが迎える人達の態度は冷たいもので祖父の改革のお蔭で我が家は村の嫌われ者となっている異国人の血を引いているのも理由の一つかもしれないとりあえず日が沈み掛けているので今日の所は終わりとする帰り道雪の積もった道を歩いていると背後から甲高い鶏の鳴き声が聞こえる振り返れば羽をばたつかせながら走る鶏が必死の形相で走って来ていたその更に後ろには鶏を追いかける必死な顔をした少女の姿がま待ちなさい\u3000待ちなさいってばまっすぐに進むことしか考えていない鶏はこちらへ直進して来る自分の股の下を通ろうとしていたので近づいた瞬間に左右の羽を掴み捕獲をした大丈夫\u3000アイナ鶏に追いついた少女はぜえぜえと言いながら肩で息をしていたねえこれ夕食村では春先から家畜として飼っていた鶏を雪が深くなって外で飼育出来なくなる前に食べる村中から冬の間だけ鶏の鳴き声が消えてしまうのだ掴んでいた鶏は捕獲されても元気いっぱいそれを見た少女は少し怯えるような顔をしていたもしかして逃げられたのお追いかけっこ\u3000していたのよそっか少女アイナの手にあった袋に鶏を入れてやると思いのほか暴れるので引き攣った顔をしていた大丈夫\u3000解体はアイナは六歳この年頃になれば小型動物の解体の手伝いも始まるこちらの問いかけに対して目を泳がせているのでもしかしたら解体をするようにと命じられているのかもしれない一緒にしようかえいいいのいいよこうして鶏の解体をしてからすっかり暗くなった時間に帰宅となるだが一人っきりの極夜というのは酷く気が滅入るお手伝いさんは極夜の時は来ないようにしていたなので食事も自分で準備をするしかないパンは作り置きの物を大量に雪の中に埋めている食事はパンを雪の中から発掘させる作業から始まるのだ料理を作るのは今日が初めてだいつもは食事の準備は母親が全てを担いたまにしていた手伝いと言っても材料を切り刻むだけという簡単なお仕事をするばかりだった本日作る品目は一般的なトナカイ肉と根菜の入った冬のスープ何となく母親のしていた事を思い出しながら棚の中の香辛料を適当に入れていくなんだかトロみのあるスープが出来上がってしまったまあいいかと思いながら木の器にスープを掬って注ぎ入れるパンは紙に包んで水の張った鍋の中に置いた皿の上に置き蓋をして蒸すように解凍をさせたあつあつのパンにふわふわと湯気の漂うスープやれば出来るではないかと自画自賛精霊に自然の恵みを戴きますと祈りを捧げてから匙でスープを掬って口に運ぶうん不味い初めて作ったスープは清々しい程に美味しくなかったという残念な結果に一年目の極夜は不味いスープの改良に情熱を注ぐ事となった極夜が終われば旅立った両親が帰って来たという驚くべき事態に直面をする少しだけ立ち寄ったという両親はどこからか連れて来た戦闘民族の家族を置いて軽く事情を話してから再び旅立ってしまったどどうも戦闘民族一家は父母娘という三人組自分達と同じく狩猟民族のようでこの辺では見ない不思議な姿をしている薄い褐色の肌を持ち目と髪の毛の色は黒顔付きは獅子のように精悍だ三人とも長い間流浪の旅をしていたと父が言っていたのでもしかしたら辛い旅の中であのような顔つきになってしまったのかもしれない服装も変わっている特に気になるのは一番大きな体つきをしているテオポロンという男の格好この雪深い寒い中で上半身裸という下に纏っているズボンも動きやすそうではあったが生地の薄いものだった腰には大振りの短剣を下げており靴も履いておらず裸足だというだがちっとも凍える様子がないので大丈夫なのだろうでも流石に裸足は気になったので大丈夫かと聞いてみればテオポロンは足の裏を触れというような仕草を取る恐る恐る触れてみれば彼の足の裏は石のように硬かったこれなら安心だと納得をする女性陣もそこまで厚着ではない何かの動物の皮を使った所々に紐を束ねた房飾りフリンジのある茶色い衣装を纏っていた異国の民族衣装なのだろう頭には複数の色の布を編んで作った飾りを巻き耳の付近には鳥の尾羽のようなものを挿していた耳にも鳥の羽根の付いた飾りを着けているよよろしくこんな感じで突然始まる異国人との同居生活一体どうすればいいのかと連れて来た両親に問い詰めたかったが二人の姿は既に無かった言葉も通じない生活様式や文化や信仰している精霊も違う何もかもが異なる一家との同居だったが不思議と上手くいくという謎の展開を見せていた加えて今まで不可能だったことも可能となるそれから重たくて動かせなかった石もテオポロンの手を借りて村に返すことも出来たのだ自分の行動を村人達は人気取りだと言っていたが別に何とでも言えばいいさと投げやりになってしまった色々な事態に直面をして必死になりながら解決をしつつ領主となってからの最初の一年は瞬く間に過ぎていく'''

test_string = re.sub("[^\w\s]", '', test_string)

In [3]:
def remove_non_jp(text: str):
    text = re.sub(r"[^\p{Hiragana}\p{Katakana}\p{Han}\d]", '', text)
    return text 

# ----------------------------------- test ----------------------------------- #

def _test_remove_non_jp():
    test_inputs = [
        """　年に一度招待されるという異国の舞踏会。

        　着飾った男女が結婚相手を探す場でもあった。



        　会場の雰囲気はどこか浮かれたものとなっている。そうなるのも仕方が無いのかもしれない。彼らは異性と関わる場がこういった夜会でしかないからだ。



        　壁に背を預けて友人と共に立っていれば、目の前を通っていた令嬢と目が合う。

        　微笑みかけると、若い娘の頬は一瞬のうちに染まっていた。



        　――これはイケる！！
        """,
        "「人の噂も七十五日っていうけれど、なかなか消えないものだねえ」",
        '''『紅蓮ぐ12312    3れん45435の鷲676%&#^#*@)!____ 』の二つ名を持つ123/*'''
    ]
    
    true_outputs = [
        '''年に一度招待されるという異国の舞踏会着飾った男女が結婚相手を探す場でもあった会場の雰囲気はどこか浮かれたものとなっているそうなるのも仕方が無いのかもしれない彼らは異性と関わる場がこういった夜会でしかないからだ壁に背を預けて友人と共に立っていれば目の前を通っていた令嬢と目が合う微笑みかけると若い娘の頬は一瞬のうちに染まっていたこれはイケる''',
        '''人の噂も七十五日っていうけれどなかなか消えないものだねえ''',
        '''紅蓮ぐ123123れん45435の鷲676の二つ名を持つ123'''
    ]
    
    for test_input, true_output in zip(test_inputs, true_outputs):
        assert remove_non_jp(test_input) == true_output
    
    return True 

In [4]:
class jp_text_tagger:
    def __init__(self, test_string: str) -> None:
        self._tagger = Tagger('-Owakati')
        self._test = test_string
        self._testLength = len(self._test)
        
        random.seed(1234)
        
    def select_substring(self, n: int=100, random_ind=True):
        """Randomly sample a `n`-length substring"""
        if n > 0 and random_ind:
            ind = random.randint(n, self._testLength-n)
            return self._test[ind:ind+n]
        else:
            return self._test[:n]
    
    def tag_substring(self, substring_to_tag: str) -> List[str]:
        """Tag substring"""
        print(f'Tagging substring: \n{substring_to_tag}')
        self._tagger.parse(substring_to_tag)
        
        words = [] 
        for word in self._tagger(substring_to_tag):
            print(word, word.feature.lemma, word.pos, sep='\t')
            if '助' not in word.pos: 
                words.append(word.feature.lemma)
        
        return words
    
    def count_words(self, data: List[str]) -> pd.DataFrame:
        """Convert list of words to pd.Series and count their frequencies"""
        df = pd.Series(data).value_counts() 
        df = pd.concat([df, 100*df/len(data)], axis=1)
        df.columns = ['Count', 'PercentFrequency']
        return df 

In [5]:
T = jp_text_tagger(test_string)

In [6]:
sub = T.select_substring(n=50)
out = T.tag_substring(sub)

Tagging substring: 
解体をしてからすっかり暗くなった時間に帰宅となるだが一人っきりの極夜というのは酷く気が滅入るお手伝い
解体	解体	名詞,普通名詞,サ変可能,*
を	を	助詞,格助詞,*,*
し	為る	動詞,非自立可能,*,*
て	て	助詞,接続助詞,*,*
から	から	助詞,格助詞,*,*
すっかり	すっかり	副詞,*,*,*
暗く	暗い	形容詞,一般,*,*
なっ	成る	動詞,非自立可能,*,*
た	た	助動詞,*,*,*
時間	時間	名詞,普通名詞,助数詞可能,*
に	に	助詞,格助詞,*,*
帰宅	帰宅	名詞,普通名詞,サ変可能,*
と	と	助詞,格助詞,*,*
なる	成る	動詞,非自立可能,*,*
だ	だ	助動詞,*,*,*
が	が	助詞,接続助詞,*,*
一人	一人	名詞,普通名詞,副詞可能,*
っきり	きり	助詞,副助詞,*,*
の	の	助詞,格助詞,*,*
極夜	極夜	名詞,普通名詞,一般,*
と	と	助詞,格助詞,*,*
いう	言う	動詞,一般,*,*
の	の	助詞,準体助詞,*,*
は	は	助詞,係助詞,*,*
酷く	酷い	形容詞,一般,*,*
気	気	名詞,普通名詞,一般,*
が	が	助詞,格助詞,*,*
滅入る	滅入る	動詞,一般,*,*
お	御	接頭辞,*,*,*
手伝い	手伝い	名詞,普通名詞,一般,*


In [7]:
df = T.count_words(out)
df.loc[df.index.unique(), :]

Unnamed: 0,Count,PercentFrequency
成る,2,13.333333
為る,1,6.666667
解体,1,6.666667
御,1,6.666667
酷い,1,6.666667
言う,1,6.666667
滅入る,1,6.666667
すっかり,1,6.666667
手伝い,1,6.666667
極夜,1,6.666667


In [8]:
class _test_jp_text_tagger:
    
    def __init__(self) -> None:
        
        # with open("../test/testing_data/northern_front_c1_sample1.txt", mode='r', encoding='utf-8') as file:
        #     test_string = file.read().replace('\n', '')
        # self._testString = re.sub("[^\w\s]", '', test_string)

        self._tagger = jp_text_tagger('')
        self._test_inputs = [
            '色々な事態に直面をして必死になりな',
            'るのでもしかしたら解体をするようにと命じ',
            'ない一緒にしようかえいいいのいいよこうして鶏の解体をしてからすっかり暗くなった時間に帰宅となるだが一'
        ]
        
        self._true_outputs = [
            ['色々', '事態', '直面', '為る', '必死', '成る'],
            ['一緒', '為る', 'えー', 'いー', '良い', '良い', 'こう',
            '為る', '鶏', '解体', '為る', 'すっかり', '暗い', '成る',
            '帰宅', '成る', '一']
        ]
            
    def _testSegmentation(self):
        
        sys.stdout = open(os.devnull, 'w')        
        try:
            CommonTest(self._tagger.tag_substring, self._test_inputs, self._true_outputs)
        except Exception as e:
            print(e)
        finally:
            sys.stdout = sys.__stdout__
            
    def _testWordCount(self):
        
        data_path = '../test/testing_data/jp_text_logger_testWordCount_output{0}.csv'
        true_outputs = [pd.read_csv( data_path.format(i), index_col=0 ) for i in range(2)]
        
        sys.stdout = open(os.devnull, 'w') 
        try:
            CommonTest(self._tagger.count_words, self._true_outputs, true_outputs)
        except Exception as e:
            print(e)
        finally:
            sys.stdout = sys.__stdout__
            