Skip to content

Kyubyong/h2h_converter

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Hangul to Chinse Character Conversion

Around 2/3 of Korean words are Sino-Korean. For that reason, although the official script of the Korean language is Hangul, Chinese characters are still widely used. Converting Chinese characters (Hanja in Korean) to Hangul is trivial because most Hanjas have a single equivalent of Hangul. However, the reverse is not. There has been a project, UTagger, for Hangul-to-Hanja conversion. I use neural networks to tackle the task.

Requirements

  • numpy >= 1.11.1
  • TensorFlow == 1.3
  • tqdm

Data

The KRV Bible is in the public domain. I have refined it to our purpose. Each line is separated by a tab. Sino Korean words in the first sentence is written in Hanja in the second sentence (See below). Check data/bible_ko.tsv.

나는 오늘 학교에 간다 [Tab] 나는 오늘 學校에 간다

Model Architecture

Bidirectional GRUs.

Training

  • Adjust hyperparameters in the hyperparams.py if necessary.
  • Run python train.py.

Results

After 10 epochs, I got the accuracy of 0.99 for validation data. Details are available in the eval.txt.

▌Input : 그 성곽을 척량하매 일백 사십 사 규빗이니 사람의 척량 곧 천사의 척량이라
▌Expected: 그 城廓을 尺量하매 一百 四十 四 규빗이니 사람의 尺量 곧 天使의 尺量이라
▌Got : 그 城廓을 尺量하매 一百 사십 四 규빗이니 사람의 尺量 곧 天使의 尺量이라

▌Input : 그 성곽은 벽옥으로 쌓였고 그 성은 정금인데 맑은 유리 같더라
▌Expected: 그 城廓은 碧玉으로 쌓였고 그 城은 精金인데 맑은 琉璃 같더라
▌Got : 그 城廓은 碧玉으로 쌓였고 그 城은 精金인데 맑은 유離 같더라

▌Input : 그 성의 성곽의 기초석은 각색 보석으로 꾸몄는데 첫째 기초석은 벽옥이요 둘째는 남보석이요 세째는 옥수요 네째는 녹보석이요
▌Expected: 그 城의 城廓의 基礎石은 各色 寶石으로 꾸몄는데 첫째 基礎石은 碧玉이요 둘째는 藍寶石이요 세째는 玉髓요 네째는 綠寶石이요
▌Got : 그 城의 城廓의 基礎石은 各色 寶石으로 꾸몄는데 첫째 基礎石은 壁玉이요 둘째는 藍寶石이요 세째는 玉數요 네째는 綠寶石이요

▌Input : 다섯째는 홍마노요 여섯째는 홍보석이요 일곱째는 황옥이요 여덟째는 녹옥이요 아홉째는 담황옥이요 열째는 비취옥이요 열 한째는 청옥이요 열 두째는 자정이라
▌Expected: 다섯째는 紅瑪瑙요 여섯째는 紅寶石이요 일곱째는 黃玉이요 여덟째는 綠玉이요 아홉째는 淡黃玉이요 열째는 翡翠玉이요 열 한째는 靑玉이요 열 두째는 紫晶이라
▌Got : 다섯째는 紅瑪瑙요 여섯째는 紅寶石이요 일곱째는 黃玉이요 여덟째는 綠玉이요 아홉째는 담黃玉이요 열째는 비醉옥이요 열 한째는 靑玉이요 열 두째는 自情이라

▌Input : 그 열 두 문은 열 두 진주니 문마다 한 진주요 성의 길은 맑은 유리 같은 정금이더라
▌Expected: 그 열 두 門은 열 두 眞珠니 門마다 한 眞珠요 城의 길은 맑은 琉璃 같은 精金이더라
▌Got : 그 열 두 門은 열 두 眞珠니 門마다 한 眞珠요 城의 길은 맑은 유리 같은 精金이더라

▌Input : 성안에 성전을 내가 보지 못하였으니 이는 주 하나님 곧 전능하신 이와 및 어린 양이 그 성전이심이라
▌Expected: 城안에 聖殿을 내가 보지 못하였으니 이는 主 하나님 곧 全能하신 이와 및 어린 羊이 그 聖殿이심이라
▌Got : 성안에 聖殿을 내가 보지 못하였으니 이는 主 하나님 곧 全能하신 이와 및 어린 羊이 그 聖殿이심이라

▌Input : 그 성은 해나 달의 비췸이 쓸데 없으니 이는 하나님의 영광이 비취고 어린 양이 그 등이 되심이라
▌Expected: 그 城은 해나 달의 비췸이 쓸데 없으니 이는 하나님의 榮光이 비취고 어린 羊이 그 燈이 되심이라
▌Got : 그 城은 해나 달의 비췸이 쓸데 없으니 이는 하나님의 榮光이 비취고 어린 羊이 그 등이 되심이라

▌Input : 만국이 그 빛 가운데로 다니고 땅의 왕들이 자기 영광을 가지고 그리로 들어오리라
▌Expected: 萬國이 그 빛 가운데로 다니고 땅의 王들이 自己 榮光을 가지고 그리로 들어오리라
▌Got : 萬國이 그 빛 가운데로 다니고 땅의 王들이 自己 榮光을 가지고 그리로 들어오리라

▌Input : 성문들을 낮에 도무지 닫지 아니하리니 거기는 밤이 없음이라
▌Expected: 城門들을 낮에 도무지 닫지 아니하리니 거기는 밤이 없음이라
▌Got : 城門들을 낮에 도무지 닫지 아니하리니 거기는 밤이 없음이라

▌Input : 사람들이 만국의 영광과 존귀를 가지고 그리로 들어오겠고
▌Expected: 사람들이 萬國의 榮光과 尊貴를 가지고 그리로 들어오겠고
▌Got : 사람들이 萬國의 榮光과 尊貴를 가지고 그리로 들어오겠고

▌Input : 무엇이든지 속된 것이나 가증한 일 또는 거짓말하는 자는 결코 그리로 들어오지 못하되 오직 어린 양의 생명책에 기록된 자들뿐이라
▌Expected: 무엇이든지 俗된 것이나 可憎한 일 또는 거짓말하는 자는 決코 그리로 들어오지 못하되 오직 어린 羊의 生命冊에 記錄된 자들뿐이라
▌Got : 무엇이든지 속된 것이나 可憎한 일 또는 거짓말하는 자는 決코 그리로 들어오지 못하되 오직 어린 羊의 生命冊에 記錄된 자들뿐이라

▌Input : 또 저가 수정같이 맑은 생명수의 강을 내게 보이니 하나님과 및 어린 양의 보좌로부터 나서
▌Expected: 또 저가 水晶같이 맑은 生命水의 江을 내게 보이니 하나님과 및 어린 羊의 寶座로부터 나서
▌Got : 또 저가 水晶같이 맑은 生命水의 江을 내게 보이니 하나님과 및 어린 羊의 寶座로부터 나서

▌Input : 길 가운데로 흐르더라 강 좌우에 생명 나무가 있어 열 두가지 실과를 맺히되 달마다 그 실과를 맺히고 그 나무 잎사귀들은 만국을 소성하기 위하여 있더라
▌Expected: 길 가운데로 흐르더라 江 左右에 生命 나무가 있어 열 두가지 實果를 맺히되 달마다 그 實果를 맺히고 그 나무 잎사귀들은 萬國을 蘇醒하기 爲하여 있더라
▌Got : 길 가운데로 흐르더라 江 左右에 生命 나무가 있어 열 두가지 實果를 맺히되 달마다 그 實果를 맺히고 그 나무 잎사귀들은 萬國을 蘇醒하기 爲하여 있더라

▌Input : 다시 저주가 없으며 하나님과 그 어린 양의 보좌가 그 가운데 있으리니 그의 종들이 그를 섬기며
▌Expected: 다시 詛呪가 없으며 하나님과 그 어린 羊의 寶座가 그 가운데 있으리니 그의 종들이 그를 섬기며
▌Got : 다시 詛呪가 없으며 하나님과 그 어린 羊의 寶座가 그 가운데 있으리니 그의 종들이 그를 섬기며

▌Input : 그의 얼굴을 볼터이요 그의 이름도 저희 이마에 있으리라
▌Expected: 그의 얼굴을 볼터이요 그의 이름도 저희 이마에 있으리라
▌Got : 그의 얼굴을 볼터이요 그의 이름도 저희 이마에 있으리라

▌Input : 다시 밤이 없겠고 등불과 햇빛이 쓸데 없으니 이는 주 하나님이 저희에게 비취심이라 저희가 세세토록 왕노릇하리로다
▌Expected: 다시 밤이 없겠고 燈불과 햇빛이 쓸데 없으니 이는 主 하나님이 저희에게 비취심이라 저희가 世世토록 王노릇하리로다
▌Got : 다시 밤이 없겠고 燈불과 햇빛이 쓸데 없으니 이는 主 하나님이 저희에게 비취심이라 저희가 世世토록 王노릇하리로다

▌Input : 또 그가 내게 말하기를 이 말은 신실하고 참된 자라 주 곧 선지자들의 영의 하나님이 그의 종들에게 결코 속히 될 일을 보이시려고 그의 천사를 보내셨도다
▌Expected: 또 그가 내게 말하기를 이 말은 信實하고 참된 자라 主 곧 先知자들의 靈의 하나님이 그의 종들에게 決코 速히 될 일을 보이시려고 그의 天使를 보내셨도다
▌Got : 또 그가 내게 말하기를 이 말은 信實하고 참된 자라 主 곧 先知자들의 靈의 하나님이 그의 종들에게 決코 速히 될 일을 보이시려고 그의 天使를 보내셨도다

▌Input : 보라 내가 속히 오리니 이 책의 예언의 말씀을 지키는 자가 복이 있으리라 하더라
▌Expected: 보라 내가 速히 오리니 이 冊의 豫言의 말씀을 지키는 자가 福이 있으리라 하더라
▌Got : 보라 내가 速히 오리니 이 冊의 豫言의 말씀을 지키는 자가 福이 있으리라 하더라

▌Input : 이것들을 보고 들은 자는 나 요한이니 내가 듣고 볼때에 이 일을 내게 보이던 천사의 발앞에 경배하려고 엎드렸더니
▌Expected: 이것들을 보고 들은 자는 나 요한이니 내가 듣고 볼때에 이 일을 내게 보이던 天使의 발앞에 敬拜하려고 엎드렸더니
▌Got : 이것들을 보고 들은 자는 나 요한이니 내가 듣고 볼때에 이 일을 내게 보이던 天使의 발앞에 敬拜하려고 엎드렸더니

▌Input : 저가 내게 말하기를 나는 너와 네 형제 선지자들과 또 이 책의 말을 지키는 자들과 함께된 종이니 그리하지 말고 오직 하나님께 경배하라 하더라
▌Expected: 저가 내게 말하기를 나는 너와 네 兄弟 先知자들과 또 이 冊의 말을 지키는 자들과 함께된 종이니 그리하지 말고 오직 하나님께 敬拜하라 하더라
▌Got : 저가 내게 말하기를 나는 너와 네 兄弟 先知자들과 또 이 冊의 말을 지키는 자들과 함께된 종이니 그리하지 말고 오직 하나님께 敬拜하라 하더라

▌Input : 또 내게 말하되 이 책의 예언의 말씀을 인봉하지 말라 때가 가까우니라
▌Expected: 또 내게 말하되 이 冊의 豫言의 말씀을 印封하지 말라 때가 가까우니라
▌Got : 또 내게 말하되 이 冊의 豫言의 말씀을 印封하지 말라 때가 가까우니라

▌Input : 불의를 하는 자는 그대로 불의를 하고 더러운 자는 그대로 더럽고 의로운 자는 그대로 의를 행하고 거룩한 자는 그대로 거룩되게 하라
▌Expected: 不義를 하는 자는 그대로 不義를 하고 더러운 자는 그대로 더럽고 義로운 자는 그대로 義를 行하고 거룩한 자는 그대로 거룩되게 하라
▌Got : 不義를 하는 자는 그대로 不義를 하고 더러운 자는 그대로 더럽고 義로운 자는 그대로 義를 行하고 거룩한 자는 그대로 거룩되게 하라

▌Input : 보라 내가 속히 오리니 내가 줄 상이 내게 있어 각 사람에게 그의 일한대로 갚아 주리라
▌Expected: 보라 내가 速히 오리니 내가 줄 賞이 내게 있어 各 사람에게 그의 일한대로 갚아 주리라
▌Got : 보라 내가 速히 오리니 내가 줄 賞이 내게 있어 各 사람에게 그의 일한대로 갚아 주리라

▌Input : 나는 알파와 오메가요 처음과 나중이요 시작과 끝이라
▌Expected: 나는 알파와 오메가요 처음과 나중이요 始作과 끝이라
▌Got : 나는 알파와 오메가요 처음과 나중이요 始作과 끝이라

▌Input : 그 두루마기를 빠는 자들은 복이 있으니 이는 저희가 생명 나무에 나아가며 문들을 통하여 성에 들어갈 권세를 얻으려 함이로다
▌Expected: 그 두루마기를 빠는 자들은 福이 있으니 이는 저희가 生命 나무에 나아가며 門들을 通하여 城에 들어갈 權勢를 얻으려 함이로다
▌Got : 그 두루마기를 빠는 자들은 福이 있으니 이는 저희가 生命 나무에 나아가며 門들을 通하여 城에 들어갈 權勢를 얻으려 함이로다

▌Input : 개들과 술객들과 행음자들과 살인자들과 우상 숭배자들과 및 거짓말을 좋아하며 지어내는 자마다 성밖에 있으리라
▌Expected: 개들과 術客들과 行淫자들과 殺人자들과 偶像 崇拜자들과 및 거짓말을 좋아하며 지어내는 자마다 城밖에 있으리라
▌Got : 개들과 術客들과 行淫자들과 殺人자들과 偶像 崇拜자들과 및 거짓말을 좋아하며 지어내는 자마다 城밖에 있으리라

▌Input : 나 예수는 교회들을 위하여 내 사자를 보내어 이것들을 너희에게 증거하게 하였노라 나는 다윗의 뿌리요 자손이니 곧 광명한 새벽별이라 하시더라
▌Expected: 나 예수는 敎會들을 爲하여 내 使자를 보내어 이것들을 너희에게 證據하게 하였노라 나는 다윗의 뿌리요 子孫이니 곧 光明한 새벽별이라 하시더라
▌Got : 나 예수는 敎會들을 爲하여 내 使자를 보내어 이것들을 너희에게 證據하게 하였노라 나는 다윗의 뿌리요 子孫이니 곧 光明한 새벽별이라 하시더라

▌Input : 성령과 신부가 말씀하시기를 오라 하시는도다 듣는 자도 오라 할 것이요 목마른 자도 올 것이요 또 원하는 자는 값없이 생명수를 받으라 하시더라
▌Expected: 聖靈과 新婦가 말씀하시기를 오라 하시는도다 듣는 자도 오라 할 것이요 목마른 자도 올 것이요 또 願하는 자는 값없이 生命水를 받으라 하시더라
▌Got : 聖靈과 新婦가 말씀하시기를 오라 하시는도다 듣는 자도 오라 할 것이요 목마른 자도 올 것이요 또 願하는 자는 값없이 生命水를 받으라 하시더라

▌Input : 내가 이 책의 예언의 말씀을 듣는 각인에게 증거하노니 만일 누구든지 이것들 외에 더하면 하나님이 이 책에 기록된 재앙들을 그에게 더하실 터이요
▌Expected: 내가 이 冊의 豫言의 말씀을 듣는 各人에게 證據하노니 萬一 누구든지 이것들 外에 더하면 하나님이 이 冊에 記錄된 災殃들을 그에게 더하실 터이요
▌Got : 내가 이 冊의 豫言의 말씀을 듣는 各人에게 證據하노니 萬一 누구든지 이것들 外에 더하면 하나님이 이 冊에 記錄된 災殃들을 그에게 더하실 터이요

▌Input : 만일 누구든지 이 책의 예언의 말씀에서 제하여 버리면 하나님이 이 책에 기록된 생명 나무와 및 거룩한 성에 참여함을 제하여 버리시리라
▌Expected: 萬一 누구든지 이 冊의 豫言의 말씀에서 除하여 버리면 하나님이 이 冊에 記錄된 生命 나무와 및 거룩한 城에 參與함을 除하여 버리시리라
▌Got : 萬一 누구든지 이 冊의 豫言의 말씀에서 除하여 버리면 하나님이 이 冊에 記錄된 生命 나무와 및 거룩한 城에 參與함을 除하여 버리시리라

▌Input : 이것들을 증거하신 이가 가라사대 내가 진실로 속히 오리라 하시거늘 아멘 주 예수여 오시옵소서
▌Expected: 이것들을 證據하신 이가 가라사대 내가 眞實로 速히 오리라 하시거늘 아멘 主 예수여 오시옵소서
▌Got : 이것들을 證據하신 이가 가라사대 내가 眞實로 速히 오리라 하시거늘 아멘 主 예수여 오시옵소서

▌Input : 주 예수의 은혜가 모든 자들에게 있을지어다 아멘
▌Expected: 主 예수의 恩惠가 모든 자들에게 있을지어다 아멘
▌Got : 主 예수의 恩惠가 모든 자들에게 있을지어다 아멘

accuracy = 0.9905450500556173-----------------

About

Convert Sino-Korean words written in Hangul to Chinese characters, which is called hanja in Korean, using neural networks

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages