Skip to content

Commit

Permalink
Merge pull request #59 from Taiwanese-Corpus/台灣植物名彙
Browse files Browse the repository at this point in the history
台灣植物名彙
  • Loading branch information
sih4sing5hong5 committed Jul 25, 2018
2 parents 9f1f026 + 45a3067 commit bc5b129
Show file tree
Hide file tree
Showing 6 changed files with 120 additions and 5 deletions.
1 change: 1 addition & 0 deletions .travis.yml
Expand Up @@ -16,6 +16,7 @@ env:
- TOX_ENV=itaigi
- TOX_ENV=台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
- TOX_ENV=教育部臺灣閩南語字詞頻調查工作
- TOX_ENV=台灣植物名彙
- TOX_ENV=台灣白話基礎語句
addons:
apt:
Expand Down
13 changes: 11 additions & 2 deletions README.md
Expand Up @@ -65,9 +65,18 @@ python manage.py 教育部臺灣閩南語字詞頻調查工作
python manage.py 教育部臺灣閩南語字詞頻調查工作
```

### [台灣植物名彙](http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=59&page=4)
- 形式:羅馬字、華語漢字
- 句數:354詞(2018/07/24)
- 語料:[Github](https://github.com/Taiwanese-Corpus/Syuniti-Sasaki_1928_List-of-Plants-of-Formosa)
```
python manage.py 台灣植物名彙
```


### [台灣白話基礎語句](http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=862)
- 形式:全漢、全羅
- 句數:61354句(2018/07/05
- 形式:羅馬字、華語漢字
- 句數:61354詞翻譯對照(2018/07/24
- 語料:[Github](https://github.com/Taiwanese-Corpus/Ko-Chek-hoan-Tan-Pang-tin_1956_Basic-Vocabulary-for-Colloquial-Taiwanese)
```
python manage.py 台灣白話基礎語句
Expand Down
11 changes: 9 additions & 2 deletions tox.ini
Expand Up @@ -68,20 +68,27 @@ deps =
commands=
coverage run --source=匯入 manage.py test 試驗.testItaigi

[testenv:台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計]
deps =
coverage
commands=
coverage run --source=匯入 manage.py test 試驗.test台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

[testenv:教育部臺灣閩南語字詞頻調查工作]
deps =
coverage
commands=
coverage run --source=匯入 manage.py test 試驗.test教育部臺灣閩南語字詞頻調查工作

[testenv:台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計]
[testenv:台灣植物名彙]
deps =
coverage
commands=
coverage run --source=匯入 manage.py test 試驗.test台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計
coverage run --source=匯入 manage.py test 試驗.test台灣植物名彙

[testenv:台灣白話基礎語句]
deps =
coverage
commands=
coverage run --source=匯入 manage.py test 試驗.test台灣白話基礎語句

57 changes: 57 additions & 0 deletions 匯入/management/commands/台灣植物名彙.py
@@ -0,0 +1,57 @@
from csv import DictReader
import io
from urllib.request import urlopen


from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器
from 臺灣言語服務.models import 訓練過渡格式
from 匯入.指令 import 匯入枋模
from 臺灣言語工具.解析整理.解析錯誤 import 解析錯誤


class Command(匯入枋模):
help = 'http://ip194097.ntcu.edu.tw/memory/TGB/thak.asp?id=862'

公家內容 = {
'來源': '台灣植物名彙',
'種類': '字詞',
'年代': '1928',
}
github網址 = (
'https://github.com/Taiwanese-Corpus/'
'Syuniti-Sasaki_1928_List-of-Plants-of-Formosa/'
'raw/master/ChhoeTaigi_TaioanSitbutMialui.csv'
)

def 全部資料(self, *args, **參數):
匯入數量 = 0
for 台文 in self.github資料():
yield 訓練過渡格式(
文本=台文,
**self.公家內容
)

匯入數量 += 1
if 匯入數量 % 1000 == 0:
self.stdout.write('匯入 {} 筆'.format(匯入數量))

def github資料(self):
with urlopen(self.github網址) as :
with io.StringIO(.read().decode()) as 資料:
for row in DictReader(資料):
羅馬字 = row['poj_unicode'].strip()
可能漢字 = row['taigi_hanji'].strip()
for lo, han in self.漢羅組合(羅馬字, 可能漢字):
try:
物件 = 拆文分析器.建立句物件(han, lo)
except 解析錯誤 as 錯誤:
self.stderr.write(str(錯誤))
else:
for 字物件 in 物件.篩出字物件():
if 字物件. == 'XXX':
字物件. = 字物件.
yield 物件.看分詞()

def 漢羅組合(self, 羅馬字, 可能漢字):
for 漢字 in 可能漢字.replace('?', ' XXX ').split('、'):
yield 羅馬字, 漢字
41 changes: 41 additions & 0 deletions 試驗/test台灣植物名彙.py
@@ -0,0 +1,41 @@
from django.core.management import call_command
from django.test.testcases import TestCase
from 臺灣言語服務.models import 訓練過渡格式
from 匯入.management.commands.台灣植物名彙 import Command
from 臺灣言語工具.解析整理.拆文分析器 import 拆文分析器


class 台灣植物名彙試驗(TestCase):

@classmethod
def setUpClass(cls):
call_command('台灣植物名彙')
super().setUpClass()

def test句數正確(self):
self.assertGreater(訓練過渡格式.資料數量(), 1700)

def test切出一詞(self):
self.assertEqual(
list(Command().漢羅組合('Kau-tîn', '鈎藤')),
[('Kau-tîn', '鈎藤')],
)

def test切出兩詞(self):
self.assertEqual(
list(Command().漢羅組合('Tsuí-kim-kiann', '水金京、水金驚')),
[('Tsuí-kim-kiann', '水金京'), ('Tsuí-kim-kiann', '水金驚')],
)

def test問號換做XXX(self):
self.assertEqual(
list(Command().漢羅組合('Tò-tiàu-hong', '倒?風')),
[('Tò-tiàu-hong', '倒 XXX 風')],
)

def test問號上尾改漢羅(self):
self.assertTrue(
訓練過渡格式.objects
.filter(文本=拆文分析器.建立句物件('倒-tiàu-風', 'Tò-tiàu-hong').看分詞())
.exists()
)
2 changes: 1 addition & 1 deletion 試驗/test台灣白話基礎語句.py
Expand Up @@ -3,7 +3,7 @@
from 臺灣言語服務.models import 訓練過渡格式


class 教典詞條試驗(TestCase):
class 台灣白話基礎語句試驗(TestCase):

def test句數正確(self):
call_command('台灣白話基礎語句')
Expand Down

0 comments on commit bc5b129

Please sign in to comment.