Skip to content

Commit

Permalink
Merge pull request #60 from Taiwanese-Corpus/nmtl
Browse files Browse the repository at this point in the history
Nmtl fix #41
  • Loading branch information
sih4sing5hong5 committed Jul 30, 2018
2 parents bc5b129 + e31b2c7 commit 670f153
Show file tree
Hide file tree
Showing 5 changed files with 108 additions and 7 deletions.
1 change: 1 addition & 0 deletions .travis.yml
Expand Up @@ -15,6 +15,7 @@ env:
- TOX_ENV=詞彙分級
- TOX_ENV=itaigi
- TOX_ENV=台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
- TOX_ENV=台語文數位典藏資料庫
- TOX_ENV=教育部臺灣閩南語字詞頻調查工作
- TOX_ENV=台灣植物名彙
- TOX_ENV=台灣白話基礎語句
Expand Down
16 changes: 9 additions & 7 deletions README.md
Expand Up @@ -57,9 +57,17 @@ python manage.py 詞彙分級
python manage.py 教育部臺灣閩南語字詞頻調查工作
```

### [台語文數位典藏資料庫](https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt)
- 形式:漢羅、全羅
- 段數:67005段,其中62246段對會齊,4759段無法度對齊就用羅馬字(2018/07/30)
- 語料:[Github](https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt)
```
python manage.py 台語文數位典藏資料庫
```

### [教育部臺灣閩南語字詞頻調查工作](http://ip194097.ntcu.edu.tw/Ungian/Chokphin/Lunbun/KIPsupin/KIPsupin.asp)
- 形式:漢羅、全羅
- 段數:59300段,其中53593段對會齊(2018/07/24)
- 段數:59300段,其中53593段對會齊,5707段無法度對齊就用羅馬字(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Ungian_2009_KIPsupin)
```
python manage.py 教育部臺灣閩南語字詞頻調查工作
Expand Down Expand Up @@ -139,12 +147,6 @@ python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/moe_minkalaok/
python manage.py 匯入資料 https://Taiwanese-Corpus.github.io/icorpus_ka1_han3-ji7/臺華平行新聞語料庫.yaml
```

### [台語文數位典藏資料庫](https://github.com/Taiwanese-Corpus/nmtl_dadwt)
* 純文字→臺灣言語工具分詞→臺灣言語資料庫yaml
* 全漢全羅
* 329476筆文本資料
* `https://taiwanese-corpus.github.io/nmtl_dadwt/台語文數位典藏資料庫.yaml`

### [咱的字你敢捌-台語漢字](https://github.com/Taiwanese-Corpus/Linya-Huang_2014_taiwanesecharacters)
* html→臺灣言語資料庫yaml
* 臺語→臺語
Expand Down
6 changes: 6 additions & 0 deletions tox.ini
Expand Up @@ -74,6 +74,12 @@ deps =
commands=
coverage run --source=匯入 manage.py test 試驗.test台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

[testenv:台語文數位典藏資料庫]
deps =
coverage
commands=
coverage run --source=匯入 manage.py test 試驗.test台語文數位典藏資料庫

[testenv:教育部臺灣閩南語字詞頻調查工作]
deps =
coverage
Expand Down
78 changes: 78 additions & 0 deletions 匯入/management/commands/台語文數位典藏資料庫.py
@@ -0,0 +1,78 @@
import io
import json
from urllib.request import urlopen


from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
from 臺灣言語服務.models import 訓練過渡格式
from 匯入.指令 import 匯入枋模
from 臺灣言語工具.解析整理.解析錯誤 import 解析錯誤


class Command(匯入枋模):
help = 'http://xdcm.nmtl.gov.tw/dadwt/pbk.asp'
json網址 = (
'https://github.com/Taiwanese-Corpus/nmtl_2006_dadwt/'
'raw/master/nmtl.json'
)

公家內容 = {
'來源': '台語文數位典藏資料庫',
'年代': '2006',
'種類': '語句',
}

def add_arguments(self, parser):
parser.add_argument(
'--錯誤印部份就好',
action='store_true',
help='因為CI有限制輸出4M',
)

def 全部資料(self, *args, **參數):
self.錯誤全印 = not 參數['錯誤印部份就好']

匯入數量 = 0
for 台文 in self._全部資料():
yield 訓練過渡格式(
文本=台文.看分詞(),
**self.公家內容
)

匯入數量 += 1
if 匯入數量 % 1000 == 0:
self.stdout.write('匯入 {} 筆'.format(匯入數量))

def _全部資料(self):
for 漢羅, in self._全部漢羅():
try:
yield from self.轉物件(漢羅, )
except ValueError:
'https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7/issues/566'
pass

def _全部漢羅(self):
with urlopen(self.json網址) as :
with io.StringIO(.read().decode()) as 資料json:
for phinn in json.load(資料json):
yield phinn['漢羅名'], phinn['全羅名']
yield phinn['漢羅標'], phinn['全羅標']
yield from phinn['資料']

def 轉物件(self, 漢羅, ):
try:
yield 拆文分析器.建立句物件(漢羅, )
return
except 解析錯誤 as 錯誤:
if self.錯誤全印:
self.stderr.write(錯誤)
else:
self.stderr.write(str(錯誤)[:40])
try:
yield 拆文分析器.建立句物件()
return
except 解析錯誤 as 錯誤:
if self.錯誤全印:
self.stderr.write(錯誤)
else:
self.stderr.write(str(錯誤)[:40])
14 changes: 14 additions & 0 deletions 試驗/test台語文數位典藏資料庫.py
@@ -0,0 +1,14 @@
from django.core.management import call_command
from django.test.testcases import TestCase
from 臺灣言語服務.models import 訓練過渡格式


class KIPsu試驗(TestCase):

@classmethod
def setUpClass(cls):
call_command('台語文數位典藏資料庫', '--錯誤印部份就好')
return super().setUpClass()

def test數量(self):
self.assertGreater(訓練過渡格式.資料數量(), 60000)

0 comments on commit 670f153

Please sign in to comment.