# Python Chinese Pronounce

## Autor
- Philip Huang [@p208p2002](https://github.com/p208p2002)

## 相關文件
- 主頁: https://philip-huang.tech/py-chinese-pronounce/
- 函式調用說明: https://philip-huang.tech/py-chinese-pronounce/py_chinese_pronounce.html

## 功能
- 文字轉注音、漢語發音
- 注音、漢語發音轉文字
- 尋找相似、相同發聲字/單詞

## 資料來源
- [政府開放資料](https://data.gov.tw/dataset/5961)
- [超齊百萬字典檔](https://github.com/samejack/sc-dictionary)
- [教育部國語辭典公眾授權網](https://language.moe.gov.tw/001/Upload/Files/site_content/M0001/respub/dict_concised_download.html)

## Install

### From: PyPI
- URL: https://pypi.org/project/py-chinese-pronounce/

In [None]:
!pip install py-chinese-pronounce

### From: Github Repo
- URL: https://github.com/p208p2002/py-chinese-pronounce

In [1]:
!pip install -U git+https://github.com/p208p2002/py-chinese-pronounce.git

Collecting git+https://github.com/p208p2002/py-chinese-pronounce.git
  Cloning https://github.com/p208p2002/py-chinese-pronounce.git to /tmp/pip-req-build-qrlavyx2
  Running command git clone --filter=blob:none --quiet https://github.com/p208p2002/py-chinese-pronounce.git /tmp/pip-req-build-qrlavyx2
  Resolved https://github.com/p208p2002/py-chinese-pronounce.git to commit f6d4c7250f390a50644e13e3454e74a4e95c9a3e
  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting Levenshtein<0.21.0,>=0.20.5 (from py-chinese-pronounce==0.1.13)
  Downloading Levenshtein-0.20.9-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.4 kB)
Collecting ahocorasick-python<0.0.10,>=0.0.9 (from py-chinese-pronounce==0.1.13)
  Downloading ahocorasick-python-0.0.9.tar.gz (3.3 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting pandas<2.0.0,>=1.5.3 (from 

## Usage

In [16]:
from py_chinese_pronounce import Word2Pronounce,Pronounce2Word

### Word2Pronounce: 從文字轉換發音

In [17]:
w2p = Word2Pronounce()

#### 字元轉注音

In [3]:
w2p.to_chewin("我") # ㄨㄛˇ

'ㄨㄛˇ'

#### 字元轉漢語發音

In [18]:
w2p.to_han("我") # wo3

'wo3'

#### 句子轉注音

In [19]:
w2p.sent_to_chewin("你來扮演這個角色")
# ['ㄋㄧˇ', 'ㄌㄞˊ', 'ㄅㄢˋ', 'ㄧㄢˇ', 'ㄓㄜˋ', '˙ㄍㄜ', 'ㄐㄩㄝˊ', 'ㄙㄜˋ']

['ㄋㄧˇ', 'ㄌㄞˊ', 'ㄅㄢˋ', 'ㄧㄢˇ', 'ㄓㄜˋ', '˙ㄍㄜ', 'ㄐㄩㄝˊ', 'ㄙㄜˋ']

#### 句子轉漢語發音
> 感謝 [@Evanston0624](https://github.com/Evanston0624) 實作此功能

In [20]:
w2p.sent_to_han("你來扮演這個角色")
# ['ni3', 'lai2', 'ban4', 'yan3', 'zhe4', 'ge5', 'jue2', 'se4']

['ni3', 'lai2', 'ban4', 'yan3', 'zhe4', 'ge5', 'jue2', 'se4']

#### 發音相似度比較

> 數值區間會落在 `0`~`1`

- 字元

In [21]:
a,b = "我","捰"
w2p.char_pronounce_similar(a,b)

1.0

- 句子

In [12]:
sent_a,sent_b = "你好","你好嗎"
w2p.sent_pronounce_similar(sent_a, sent_b)

0.6666666666666666

#### 其他轉換
> CNS: [中文標準交換碼](https://www.cns11643.gov.tw/index.jsp)

- `Word2Pronounce._word2unicode(self, x)`
- `Word2Pronounce._uni2word(self,uni)`
- `Word2Pronounce._cns2word(self,cns)`
- `Word2Pronounce._uni2cns(self, uni)`


### Pronounce2Word: 從發音轉/找文字

In [22]:
p2w = Pronounce2Word()

#### 注音找字元

In [None]:
p2w.chewin2word("ㄨㄛˇ")
# ['䰀', '婑', '捰', '㦱', '我', '䂺']

#### 漢語發音找字元

In [None]:
p2w.han2word("wo3")
# ['䰀', '婑', '捰', '㦱', '我', '䂺']

#### 字元找同發音

In [None]:
p2w.find_same("我")
# ['䰀', '婑', '捰', '㦱', '䂺']

#### 字元找近似發音

In [4]:
p2w.find_similar("我")
# ['蠖', '臥', '䇶', '䂺', '䪝', '捾', '偓', '握', '捰', '卧', '雘', '㦱', '濣', '䠎', '楃', '沃', '渥', '䁊', '涴', '幄', '龌', '㓇', '矱', '斡', '㠛', '肟', '齷', '仴', '䰀', '婑', '喔', '腛', '䀑']

['挝',
 '䆧',
 '雘',
 '捰',
 '䪝',
 '䰀',
 '薶',
 '窩',
 '㳡',
 '捾',
 '䁊',
 '涹',
 '腛',
 '婑',
 '蠖',
 '䔆',
 '沃',
 '偓',
 '蜗',
 '猧',
 '握',
 '埚',
 '臥',
 '龌',
 '㠛',
 '幄',
 '楃',
 '濣',
 '齷',
 '㓇',
 '斡',
 '㦱',
 '仴',
 '渥',
 '肟',
 '萵',
 '矱',
 '涡',
 '莴',
 '䂺',
 '䇶',
 '窝',
 '渦',
 '卧',
 '䀑',
 '涴',
 '䠎',
 '喔']

#### 相似發聲詞

-  從去除聲調找相似

In [13]:
p2w.find_similar_vocab("汽車")
# ['七尺', '棋車', '棋车', '气车', '氣車', '汽车', '騎車', '骑车']

['七尺', '棋車', '棋车', '气车', '氣車', '汽车', '騎車', '骑车']

- 從發音編輯距離找相似

In [14]:
p2w.find_similar_vocab_level("清晨",level=1)
# ['傾城', '清城', '清澄', '青城', '清淳', '清純', '清纯', '清醇', '清神', '青神', '星塵', ...

['傾城',
 '清城',
 '清澄',
 '青城',
 '清神',
 '青神',
 '清淳',
 '清純',
 '清纯',
 '清醇',
 '星塵',
 '星尘',
 '星辰',
 '侵晨',
 '揿沉',
 '撳沉',
 '将成',
 '將成',
 '倾城',
 '庆城',
 '慶城',
 '聽臣',
 '景臣',
 '令辰',
 '凌晨',
 '枪神',
 '輕信',
 '輕身',
 '請槍',
 '清产',
 '清產',
 '卿真',
 '清真',
 '清鎮',
 '清镇',
 '清彻',
 '清徹',
 '清撤',
 '清澈',
 '清車',
 '清车',
 '輕車',
 '青春',
 '丙辰',
 '柄臣',
 '倖臣',
 '幸臣',
 '敬陈',
 '敬陳',
 '平陈',
 '平陳',
 '冰城',
 '冰成',
 '檳城',
 '精誠',
 '精诚',
 '秦城',
 '樱唇',
 '櫻脣',
 '冰槍',
 '冰蟾',
 '精神',
 '精純',
 '精纯',
 '嵚岑',
 '嶔岑',
 '嶜岑',
 '聽成',
 '聽程',
 '应城',
 '应承',
 '影城',
 '應城',
 '應承',
 '景程',
 '營城',
 '营城',
 '另成',
 '铃铛',
 '領成',
 '领成',
 '麦城',
 '並成',
 '併成',
 '并成',
 '病成',
 '病程',
 '秉承',
 '饼铛',
 '兴城',
 '兴澄',
 '形成',
 '興城',
 '興澄',
 '行程',
 '訂成',
 '订成',
 '鼎城',
 '敬呈',
 '竟成',
 '平城',
 '平成',
 '聘成',
 '評成',
 '评成',
 '挺神',
 '迎神',
 '映衬',
 '映襯',
 '硬衬',
 '硬襯',
 '硬撐',
 '硬撑',
 '灵榇',
 '靈櫬',
 '倰僜',
 '鈴鐺',
 '枪身',
 '将车',
 '將車',
 '情信',
 '情深',
 '罄身',
 '親信',
 '親身',
 '轻信',
 '轻身',
 '情真',
 '轻车',
 '庆春',
 '慶春',
 '餅鐺',
 '丙醇',
 '形神',
 '行什',
 '醒神',
 '釘痕',
 '钉痕',
 '定神',
 '釘槍',
 '敬神',
 '警槍',
 '英尺',

#### 相同發聲詞

In [15]:
p2w.find_same_vocab("汽車")
# ['气车', '氣車', '汽车']

['气车', '氣車', '汽车']

#### 其他轉換

- 尋找相似發音: `Pronounce2Word._find_similar_han_pronounces(self,han,level=1)`
    * han: 漢語發音
    * level: 編輯距離（越大越寬鬆）