Skip to content
Permalink
Branch: master
Find file Copy path
Find file Copy path
Fetching contributors…
Cannot retrieve contributors at this time
47 lines (38 sloc) 1.66 KB
[config]
; 斷詞模式,預設是mix
; exact : 長詞優先斷詞,例如「我 來 到 文 山區 政治 大學 take a test」
; all : 取得全部可能斷詞,例如「我 來 到 文 山 區 政 治 大 學 take a test」
; search : 取得搜尋引擎需要的斷詞,例如「我 來 到 文 山區 政治 大學 take a test」
; mix : 混合上述做法,取得所有斷詞結果,例如「我 來 到 文 到 文 山區 山 區 政治 政 治 大學 大 學 take a test」
mode=mix
; 斷詞結果分隔符號,預設是空格
separator=
; 是否顯示更多量化分析
export_text_feature=true
; 自訂斷詞詞典
user_dict=config/user_dict.csv
; 自訂停用詞詞典:以行分隔停用詞,這些詞不會出現在斷詞結果中
stop_words=config/stop_words.txt
; 自訂對應詞詞典:以csv格式組合對應詞,word會被取代為map_to
map_word=config/map_word.csv
[pos]
; 詞性種類請看:彙整中文與英文的詞性標註代號:結巴斷詞器與FastTag
; http://blog.pulipuli.info/2017/11/fasttag-identify-part-of-speech-in.html
; 是否進行詞性分析
enable_pos_tag=true
; 是否將詞性獨立於額外欄位
add_pos_field=true
; 如果save_pos_tag_field為false,則詞性會與斷詞結果一同輸出
pos_tag_separator=/
; 自訂停用詞性詞典:以行分隔詞性,這些詞性不會出現在斷詞結果中
stop_pos_tags=config/stop_pos_tags.txt
; 自訂對應詞性詞典:以csv格式組合對應詞性,pos會被取代為map_to
map_pos=config/map_pos.csv
[file]
; 輸入檔案的資料夾名稱
input_dir=input
; 輸出檔案的資料夾名稱
output_dir=output
[arff]
; 是否要將csv轉換為arff格式
enable_csv_to_arff=false
You can’t perform that action at this time.