独立行政法人大学改革支援・学位授与機構(NIAD)の用語集(日英)と、Google スプレッドシートで管理している自社の用語集から、DeepL 翻訳用の用語集を作成するための Python スクリプト。
Python Releases for Windows | Python.orgから、Python (>=v3.10
) をインストールする。
ローカル環境で本レポジトリを複製する。
本レポジトリのトップに移動し、以下のコマンドを実行してvenv
の仮想環境を構築する:
python -m venv env
構築した仮想環境を起動する:
# Windows
env\Scripts\activate
# macOS, Linux
source env/bin/activate
仮想環境内で、必要なパッケージをインストールする:
pip install -r requirements.txt
Python quickstart | Google for Developersの手順に沿って、Python で Google スプレッドシートにアクセスするための準備をする。上記ページの中段にあるcredentials.json
は、本レポジトリにある.google
フォルダに格納する。
以下の設定ファイルをコピーして glossary_config.json
としてレポジトリのトップに保存する。
コメントを参照しながら、各要素の値は適宜調整する。
{
"gsheets_glossary": {
"spreadsheet_id": "", // 自社用語集のスプレッドシートID
"sheet_name": "glossary", // 自社用語集のシート名
"is_priority": true // 自社用語集を優先するかどうか。trueであれば、NIAD用語集に同じ用語があっても自社用語集の対訳を優先する
},
"niad_glossary": {
"index_url": "https://niadqe.jp/glossary/", // NIAD用語集のトップページURL
"interval_sec": 86400 // 新たにNIAD用語集にアクセスするまでの間隔(秒)
},
"output": {
"dir": "output", // 出力先ディレクトリ
"niad_glossary": "niad_glossary.csv", // NIAD用語集の出力CSVファイル名
"gsheets_glossary": "my_glossary.csv", // 自社用語集の出力CSVファイル名
"deepl_glossary": "deepl_glossary.csv" // 最終的に出力するDeepL用の出力CSVファイル名
}
}
Google スプレッドシートにて、以下のような形式で自社用語集を管理することも想定できる:
A 列 | B 列 |
---|---|
日 | 英 |
顧客 | customer |
... | ... |
1 行目(「日」「英」)はヘッダ行として無視される
この際、必ず A 列に日本語を、B 列に英語を入力すること。
作成したスプレッドシートの ID を、glossary_config.json
のgsheets_glossary.spreadsheet_id
に指定する。
NIAD 用語集の用語を、自社用語集で別の英訳に置き換えたい場合もある。このようなときはglossary_config.json
のgsheets_glossary.is_priority
をtrue
に設定する。
仮想環境を起動した状態で、以下のコマンドを実行する:
python src/glossary.py