參考允言老師主機ip093的程式/home/luibenghan/src/kip/ke-si/doc2db
使用wvWare
來轉doc
sudo apt-get install -y wv g++ libxml2-dev libxslt1-dev python3-dev
virtualenv --python python3 venv
source venv/bin/activate
pip install --upgrade pip
pip install KIPsupin_doc2yaml
轉換doc到json <doc的資料夾> <json的資料夾>
- 頭前的
出版年
、文類
、…,看語料才知影有抑無 - 一定有
資料
資料
內底一定有段
,無一定有作者
、文類
,出版年
、…。看語料有照逐筆資料提供無
{
"出版年": "2007",
"文類": "報導文學",
"書名": "臺灣閩南語朗讀文章選輯",
"書寫系統": "漢羅",
"資料": [
{
"作者": "林文平",
"段": [
[
"漢字",
"白話字"
],
[
"漢字",
"白話字"
],
]
],
"篇名": "芎蕉王國──旗山"
},
{
"作者": "江榮慶",
"段": [
[
"漢字",
"白話字"
],
[
"漢字",
"白話字"
],
],
"篇名": "毋免放尿的囡仔"
},
]
}
sudo apt-get install -y wv g++ libxml2-dev libxslt1-dev python3-dev
virtualenv --python python3 venv
source venv/bin/activate
pip install --upgrade pip
pip install beautifulsoup4 lxml
python -m unittest