Skip to content
Script for making a MacOS dictionary from Eiwa-Katsuyo-Daijiten
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
templates
.gitattributes
.gitignore
DBSetup.py
KENCOLLO.lst
LICENSE
README.md
checkDB.py
convertDBToXML.py
demo.png
extractDataFromHTML.py
extractWordClass.py
functions.py

README.md

EpwingToDict

LogoVista社製「研究社 新編 英和活用大辞典(EPWING形式)」を Mac に標準搭載されている辞書アプリで使えるように変換するための python スクリプトです。

This is a tool to make a dictionary for Mac from Kenkyusha Eiwa-Katsuyo-Daijiten.

Description

EBDump + ebd2html で出力した HTML をスクレイピングし、データベースを作成し、辞書用の XML ファイルを出力する Python スクリプトです。 LogoVista社の 英和活用大辞典(EPWING) 専用であり、他の辞書やバージョンには対応していません。

  • extractDataFromHTML.py: HTML からデータを抜き出すスクリプト
  • convertDBToXML.py: XML 出力するスクリプト
  • DBSetup.py: データベースの設定
  • ExtractFunctions: HTML の前処理及び抽出に関するファイル
  • checkDB.py: データベースの内容確認用スクリプト(開発用)
  • extractWordClass.py: 品詞の分類抜き出し用スクリプト(開発用)
  • KENCOLLO.lst: 外字ファイル(参考資料)
  • /templates: Dictionary Development Kit 用 template ファイル例。ダークテーマ対応済。

なお、今回のスクリプト作成にあたっては、下記のブログを参考にしています。英辞郎やCoubuildの変換に関しては、こちらをご参照ください。 http://www.binword.com/blog/archives/000588.html

Demo

Demo

Requirement

  • 辞書データ:LogoVista 社「徹底英語活用セット」(2002年発売版、EPWING形式)
  • HTML変換:Windows + EBDump + ebd2html
  • 辞書作成:Mac + Python 3

Usage

  1. まずは、下記サイトを参考に HTML ファイルを作成します。作成したファイルの名前を "KENCOLLO.html" にします。(外字を修正したい場合は、このタイミングで HTML ファイルを直接編集してください。) http://hp.vector.co.jp/authors/VA000022/ebd2html/ebd2html.html

  2. extractDataFromHTML.py で、HTML を前処理した後、スクレイピングし、データベース(dictionary.db)にデータを格納します(所用時間:20分程度)。

  3. convertDBToXML.py で、データベースの情報からXMLファイルを作成します(所用時間:30分程度)。

  4. 作成された XML ファイルを使い、Macの辞書を作成し、インストールします(所用時間:数分)。�

なお、所要時間は、MacBook Pro (late 2013)で実行時した場合の実測値です。

Version

2018/10/16 (ver. 1.3): Dark Theme 対応 2017/ 8/17 (ver. 1.1): Bug fix 及び コード修正 2017/ 8/18 (ver. 1.2): Bug fix 2017/ 8/16 (ver. 1.0): 初版公開

TODO

外字を自動で書き換えない、かなで検索できない、などについては、気が向いたら対応予定。

Licence

MIT Licence

Author

dodosuke @ Github dodosuke0920 @ Twitter

You can’t perform that action at this time.