In [1]:
%load_ext autoreload
%autoreload 2

# import necessary packages

FluidSeg is available from https://github.com/seantyh/FluidSeg.git
* install after cloning:  
`pip install -e .`


In [2]:
import pickle
import logging
from itertools import chain
from FluidSeg import FluidSeg
from FluidSeg import LexiconFactory
from FluidSeg import TokenData

logging.getLogger().setLevel("ERROR")

In [3]:
lexicon = LexiconFactory().get("test_lexfile.txt")
lexicon.wordmap

{'不': <LemmaData: [(13, ['不知道大家要不要再研究看看']), (8, ['不知道大家要不要']), (3, ['不知道'])]>,
 '今': <LemmaData: [(6, ['今天來說的話']), (4, ['今天來說'])]>,
 '來': <LemmaData: [(4, ['來說的話'])]>,
 '再': <LemmaData: [(5, ['再研究看看']), (3, ['再研究'])]>,
 '我': <LemmaData: [(3, ['我想說'])]>,
 '的': <LemmaData: [(2, ['的話'])]>,
 '要': <LemmaData: [(3, ['要不要'])]>}

In [4]:
fseg = FluidSeg(lexicon)
segData = fseg.segment("今天來說的話，我想說，不知道大家要不要再研究看看。")

# segmented word string was stored in test_segment.pyObj
# load the segmentation into preseg
with open("test_segment.pyObj", "rb") as fin:
    od = pickle.load(fin)
    preseg = list(chain.from_iterable(od.tokens)) 
    preseg = [TokenData(x[0], x[3], x[4]) for x in preseg] 

# use preseg as the presegment info in segData
segData.setPresegment(preseg)
segData

<Segments>
Tokens: 
  [<今-0,1>, <天-1,2>, <來-2,3>, <說-3,4>, <的-4,5>, <話-5,6>, <，-6,7>, <我-7,8>, <想-8,9>, <說-9,10>, <，-10,11>, <不-11,12>, <知-12,13>, <道-13,14>, <大-14,15>, <家-15,16>, <要-16,17>, <不-17,18>, <要-18,19>, <再-19,20>, <研-20,21>, <究-21,22>, <看-22,23>, <看-23,24>, <。-24,25>]
Preseg: 
  [<今天-0,2>, <來說-2,4>, <的話-4,6>, <，-6,7>, <我-7,8>, <想-8,9>, <說-9,10>, <，-10,11>, <不-11,12>, <知道-12,14>, <大家-14,16>, <要-16,17>, <不-17,18>, <要-18,19>, <再-19,20>, <研究-20,22>, <看看-22,24>, <。-24,25>]
Data: 
  [1.00]: [<今天來說-0,4>, <的話-4,6>, <我想說-7,10>, <不知道-11,14>, <要不要-16,19>, <再研究-19,22>]
  [0.67]: [<今天來說的話-0,6>, <我想說-7,10>, <不知道大家要不要-11,19>, <再研究看看-19,24>]
  [0.33]: [<今天來說的話-0,6>, <我想說-7,10>, <不知道大家要不要再研究看看-11,24>]
  [0.00]: [<今天來說的話-0,6>, <我想說-7,10>, <不知道大家要不要再研究看看-11,24>]

# Tokens and segmentation stored in segData

In [5]:
print(segData.toSegmentedText(segData.tokens))

今　天　來　說　的　話　，　我　想　說　，　不　知　道　大　家　要　不　要　再　研　究　看　看　。


In [6]:
print(segData.toSegmentedText(segData.preseg))

今天　來說　的話　，　我　想　說　，　不　知道　大家　要　不　要　再　研究　看看　。


# different granularity mappings aligned with token boundary

In [10]:
print(segData.toSegmentedText(granularity=0.33))
print(segData.toSegmentedText(granularity=0.66))
print(segData.toSegmentedText(granularity=1.00))

今天來說的話　，　我想說　，　不知道大家要不要再研究看看　。
今天來說的話　，　我想說　，　不知道大家要不要　再研究看看　。
今天來說　的話　，　我想說　，　不知道　大　家　要不要　再研究　看　看　。


# different granularity mappings aligned with preseg boundary

In [11]:
print(segData.toSegmentedText(segData.preseg, granularity=0.33))
print(segData.toSegmentedText(segData.preseg, granularity=0.66))
print(segData.toSegmentedText(segData.preseg, granularity=1.00))

今天來說的話　，　我想說　，　不知道大家要不要再研究看看　。
今天來說的話　，　我想說　，　不知道大家要不要　再研究看看　。
今天來說　的話　，　我想說　，　不知道　大家　要不要　再研究　看看　。
