Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

了解這個翻譯專案的範圍與進度 #29

Open
slothservice opened this issue Feb 24, 2024 · 0 comments
Open

了解這個翻譯專案的範圍與進度 #29

slothservice opened this issue Feb 24, 2024 · 0 comments
Assignees

Comments

@slothservice
Copy link
Contributor

slothservice commented Feb 24, 2024

我們想要了解到底大約有多少詞需要翻譯,以及目前大概翻譯了多少詞。

這個專案的目標是將難譯的詞翻譯。最後的成品不盡然是最完美的翻譯,但在翻譯的過程中,我們蒐集了一個詞的來源與用法,為翻譯工作者減少重複的作業流程。

我設想了一套方法來蒐集需要翻譯的詞,細節如下。

蒐集語料來源

需要翻譯的詞都會出現在相關的文件中。以下列出一些相關的文件來源但不限於這些。

我們需要一個爬蟲腳本來把文件下載到本地端。

從文件中萃取需要翻譯的詞

這邊打算使用 GPT 來從下載好的文件取出需要翻譯的詞。

可能需要一個腳本能設定 GPT 的 API 金鑰,並從眾文件逐件讓 GPT 取出關鍵詞。

提示詞應該類似「請從文件找出重要關鍵字,並以 TOML 格式輸出」。

整理待翻譯的關鍵詞並呈現進度

我們把眾文件中取出的關鍵詞集中,並去除重複、累贅的詞。最後把他們標上待翻譯的標籤,呈現在網站上,鼓勵潛在貢獻者參與翻譯。

我們在網頁呈現已翻譯的詞的總數、待翻譯的總數、及兩者比例。這樣有助於人們了解專案的進度,以及我們應該投入多少資源翻譯掉多少詞,以達到人們感到好用的程度。

@slothservice slothservice self-assigned this Feb 25, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant