### First time using monpa, the model file should be downloaded

In [1]:
import monpa

+---------------------------------------------------------------------+
  Welcome to MONPA: Multi-Objective NER POS Annotator for Chinese
+---------------------------------------------------------------------+
首次使用 monpa 將會直接下載 model 檔，約 200MB，並儲存於 monpa package 資料夾，下次就不需再下載。
For first-time users, we will automatically download the model file (around 200MB).
Total  file  size: 216681674 KB
#########

08/05/2019 22:55:11 - INFO - monpa -   running on device cpu


#已完成 monpa model 下載，歡迎使用。Download completed.


### Check installed version

In [2]:
print(monpa.__version__)

The installed MONPA version: 0.2.5.1


### Where the monpa package was installed at your local computer?

In [3]:
import os


os.path.dirname(os.path.abspath(monpa.__file__))

'/Applications/anaconda/lib/python3.6/site-packages/monpa'

## Example: Short text segmentation 

In [4]:
import monpa

In [5]:
sentence_short = "蔡英文總統今天受邀參加台北市政府所舉辦的陽明山馬拉松比賽。"

In [6]:
# cut function

result_cut_short = monpa.cut(sentence_short)
for t in result_cut_short:
  print(t)

蔡英文
總統
今天
受
邀
參加
台北市政府
所
舉辦
的
陽明山
馬拉松
比賽
。


In [7]:
# pseg function

result_pseg_short = monpa.pseg(sentence_short)
for t in result_pseg_short:
  print(t)

['蔡英文', 'PER']
['總統', 'Na']
['今天', 'Nd']
['受', 'P']
['邀', 'VF']
['參加', 'VC']
['台北市政府', 'ORG']
['所', 'D']
['舉辦', 'VC']
['的', 'DE']
['陽明山', 'LOC']
['馬拉松', 'Na']
['比賽', 'Na']
['。', 'PERIODCATEGORY']


In [8]:
# load user define dictionary function

monpa.load_userdict("./userdict.txt")


In [9]:
# cut function

result_cut_userdict_short = monpa.cut(sentence_short)
for t in result_cut_userdict_short:
  print(t)

蔡英文總統
今天
受邀
參加
台北市政府
所
舉辦
的
陽明山
馬拉松
比賽
。


In [10]:
# pseg function

result_pseg_userdict_short = monpa.pseg(sentence_short)
for t in result_pseg_userdict_short:
  print(t)

['蔡英文總統', 'PER']
['今天', 'Nd']
['受邀', 'V']
['參加', 'VC']
['台北市政府', 'ORG']
['所', 'D']
['舉辦', 'VC']
['的', 'DE']
['陽明山', 'LOC']
['馬拉松', 'Na']
['比賽', 'Na']
['。', 'PERIODCATEGORY']


## Example: Long text segmentation 

In [11]:
sentence_long = '''城市就是子宮，它們確實是。一個人該先做什麼才能成為真正的人？他必須被生下來，離開子宮，而且離開之後，他就不能再回子宮裡了。
貝萊已經離開過城市，他不能再回去了。這裡已不再是她的城市，鋼穴成了異鄉，這是必然結果，其它人也會面臨相同情形，而地球將會重生，開始往外太空發展。'''


### cut the long sentence directly, you can find some words have been abandoned

In [12]:
result_cut_long = monpa.cut(sentence_long)
print(result_cut_long)

['城市', '就', '是', '子宮', '，', '它們', '確實', '是', '。', '一', '個', '人', '該', '先', '做', '什麼', '才', '能', '成為', '真正', '的', '人', '？', '他', '必須', '被', '生下來', '，', '離開', '子宮', '，', '而且', '離開', '之後', '，', '他', '就', '不能', '再', '回', '子宮', '裡', '了', '。', '貝萊', '已經', '離開', '過', '城市', '，', '他', '不能', '再', '回', '去', '了', '。', '這', '裡', '已', '不再', '是', '她', '的', '城市', '，', '鋼穴', '成', '了', '異鄉', '，', '這', '是', '必然', '結果', '，', '其它', '人', '也', '會', '面臨', '相同', '情形', '，', '而', '地球', '將', '會', '重生', '，', '開始', '往', '外']


### suggest to split a long sentence to several short text for segmentation

In [13]:
seg = []

for item in sentence_long.split("，"):
  if item != "\n": seg.extend(monpa.cut(str(item+"，")))

print(seg[:-1])


['城市', '就', '是', '子宮', '，', '它們', '確實', '是', '。', '一', '個', '人', '該', '先', '做', '什麼', '才', '能', '成為', '真正', '的', '人', '？', '他', '必須', '被', '生下來', '，', '離開', '子宮', '，', '而且', '離開', '之後', '，', '他', '就', '不能', '再', '回', '子宮', '裡', '了', '。', '貝萊', '已經', '離開', '過', '城市', '，', '他', '不能', '再', '回去', '了', '。', '這裡', '已', '不再', '是', '她', '的', '城市', '，', '鋼穴', '成', '了', '異鄉', '，', '這', '是', '必然', '結果', '，', '其它', '人', '也', '會', '面臨', '相同', '情形', '，', '而', '地球', '將', '會', '重生', '，', '開始', '往', '外太空', '發展', '。']


### in case, you can define an function for easy your work.

In [14]:
def LongCut(long_sentence, split_char):
  seg = []
  for item in long_sentence.split(split_char):
    if item != "\n": seg.extend(monpa.cut(str(item+split_char)))
  return seg[:-1]

def LongPseg(long_sentence, split_char):
  seg = []
  for item in long_sentence.split(split_char):
    if item != "\n": seg.extend(monpa.pseg(item+split_char))
  return seg[:-1]

In [15]:
result_cut_long2short = LongCut(sentence_long, "，")
print(result_cut_long2short)

['城市', '就', '是', '子宮', '，', '它們', '確實', '是', '。', '一', '個', '人', '該', '先', '做', '什麼', '才', '能', '成為', '真正', '的', '人', '？', '他', '必須', '被', '生下來', '，', '離開', '子宮', '，', '而且', '離開', '之後', '，', '他', '就', '不能', '再', '回', '子宮', '裡', '了', '。', '貝萊', '已經', '離開', '過', '城市', '，', '他', '不能', '再', '回去', '了', '。', '這裡', '已', '不再', '是', '她', '的', '城市', '，', '鋼穴', '成', '了', '異鄉', '，', '這', '是', '必然', '結果', '，', '其它', '人', '也', '會', '面臨', '相同', '情形', '，', '而', '地球', '將', '會', '重生', '，', '開始', '往', '外太空', '發展', '。']


In [16]:
result_pseg_long2short = LongPseg(sentence_long, "，")
print(result_pseg_long2short)

[['城市', 'Na'], ['就', 'D'], ['是', 'SHI'], ['子宮', 'Na'], ['，', 'COMMACATEGORY'], ['它們', 'Nh'], ['確實', 'D'], ['是', 'SHI'], ['。', 'PERIODCATEGORY'], ['一', 'Neu'], ['個', 'Nf'], ['人', 'Na'], ['該', 'D'], ['先', 'D'], ['做', 'VC'], ['什麼', 'Nep'], ['才', 'Da'], ['能', 'D'], ['成為', 'VG'], ['真正', 'A'], ['的', 'DE'], ['人', 'Na'], ['？', 'QUESTIONCATEGORY'], ['他', 'Nh'], ['必須', 'D'], ['被', 'P'], ['生下來', 'VB'], ['，', 'COMMACATEGORY'], ['離開', 'VC'], ['子宮', 'Na'], ['，', 'COMMACATEGORY'], ['而且', 'Cbb'], ['離開', 'VC'], ['之後', 'Ng'], ['，', 'COMMACATEGORY'], ['他', 'Nh'], ['就', 'D'], ['不能', 'D'], ['再', 'D'], ['回', 'VCL'], ['子宮', 'Nc'], ['裡', 'Ncd'], ['了', 'T'], ['。', 'PERIODCATEGORY'], ['貝萊', 'PER'], ['已經', 'D'], ['離開', 'VC'], ['過', 'Di'], ['城市', 'Na'], ['，', 'COMMACATEGORY'], ['他', 'Nh'], ['不能', 'D'], ['再', 'D'], ['回去', 'VA'], ['了', 'Di'], ['。', 'PERIODCATEGORY'], ['這裡', 'Ncd'], ['已', 'D'], ['不再', 'D'], ['是', 'SHI'], ['她', 'Nh'], ['的', 'DE'], ['城市', 'Na'], ['，', 'COMMACATEGORY'], ['鋼穴', 'Na'], ['成', 'VG'], ['了',