# 一个有意思还有用的Python包-汉字转换拼音
https://mp.weixin.qq.com/s/e3fMJ322Mx_9d0JMT9HsQAhttps://mp.weixin.qq.com/s/e3fMJ322Mx_9d0JMT9HsQA
#### 安装： pip3 install pypinyin

核心函数

1、pypinyin.pinyin

语法：pypinyin.pinyin(hans, style=Style.TONE,  heteronym=False, errors='default', strict=True)

# 功能：将汉字转换为拼音，返回汉字的拼音列表。

参数：

hans (unicode 字符串或字符串列表) – 汉字字符串( '你好吗' )或列表( ['你好', '吗'] ). 可以使用自己喜爱的分词模块对字符串进行分词处理, 只需将经过分词处理的字符串列表传进来就可以了。

style – 指定拼音风格，默认是 TONE 风格。更多拼音风格详见 Style

errors –指定如何处理没有拼音的字符。详见 处理不包含拼音的字符

heteronym – 是否启用多音字

strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母，详见 strict 参数的影响



In [1]:
from pypinyin import pinyin, Style
import pypinyin
#普通模式
pinyin('中心'),pinyin('公众号')

[['zhong1'], ['xin1']]

In [8]:

pinyin('中心', style=Style.NORMAL ) #普通风格

[['zhong'], ['xin']]

In [9]:

pinyin('中心', style=Style.bit_length )

[['zhōng'], ['xīn']]

#  启用多音字模式

In [2]:

pinyin('中心', heteronym=True)

[['zhōng', 'zhòng'], ['xīn']]

In [3]:
pinyin('中心', style=Style.FIRST_LETTER)

[['z'], ['x']]

In [4]:
pinyin('中心', style=Style.TONE2)

[['zho1ng'], ['xi1n']]

In [5]:
pinyin('中心', style=Style.TONE3)

[['zhong1'], ['xin1']]

2、pypinyin.lazy_pinyin

语法：pypinyin.lazy_pinyin(hans, style=Style, errors='default', strict=True)

# 功能：将汉字转换为拼音，返回不包含多音字结果的拼音列表，与 pinyin() 的区别是返回的拼音是个字符串， 并且每个字只包含一个读音

参数：

hans (unicode or list) – 汉字

style – 指定拼音风格，默认是 NORMAL 风格。更多拼音风格详见 Style。

errors – 指定如何处理没有拼音的字符，详情请参考 pinyin()

strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母，详见 strict 参数的

In [10]:
from pypinyin import lazy_pinyin, Style
import pypinyin

lazy_pinyin('中心')

['zhong', 'xin']

In [11]:
lazy_pinyin('微信公众号')

['wei', 'xin', 'gong', 'zhong', 'hao']

In [13]:
lazy_pinyin('中心', style=Style.TONE)

['zhōng', 'xīn']

In [15]:
lazy_pinyin('中心', style=Style.FIRST_LETTER)

['z', 'x']

In [16]:
lazy_pinyin('中心', style=Style.TONE2)

['zho1ng', 'xi1n']

In [17]:
lazy_pinyin('中心', style=Style.CYRILLIC)

['чжун1', 'синь1']

3、pypinyin.slug

# 功能：将汉字转换为拼音，然后生成 slug 字符串，简单说就是自定义分隔符

语法：pypinyin.slug(hans , style=Style, heteronym=False, separator='-', errors='default', strict=True)

hans (unicode or list) – 汉字

style – 指定拼音风格，默认是 NORMAL 风格。更多拼音风格详见 Style

heteronym – 是否启用多音字

separator – 两个拼音间的分隔符/连接符

errors – 指定如何处理没有拼音的字符，详情请参考 pinyin()

strict – 是否严格遵照《汉语拼音方案》来处理声母和韵母，详见 strict 参数的影响

In [18]:
import pypinyin
from pypinyin import Style
pypinyin.slug('我是中国人')

'wo-shi-zhong-guo-ren'

In [19]:
pypinyin.slug('我是中国人', separator=' ')

'wo shi zhong guo ren'

# 遇到数字等非汉字不注音

In [20]:
pypinyin.slug('中国人2020雄起', separator=' ')

'zhong guo ren 2020 xiong qi'

In [21]:
pypinyin.slug('我是中国人', style=Style.CYRILLIC)

'во3-ши4-чжун1-го2-жэнь2'

5、 pypinyin.load_phrases_dict

# 功能：载入用户自定义的词语拼音库

语法： pypinyin.load_phrases_dict(phrases_dict, style='default')

参数：

phrases_dict (dict) – 词语拼音库。比如： {u"阿爸": [[u"ā"], [u"bà"]]}

style – phrases_dict 参数值的拼音库风格. 支持 ‘default’, ‘tone2’

 



In [27]:
phrases_dict = {u"阿爸": [u"ā", u"bà"]}
pypinyin.load_phrases_dict(phrases_dict, style='default')
pypinyin.slug('阿爸', separator=' ')

'a b'

## 雅卡尔相似度判断是否近似

In [29]:

S1 = '加公众号：小优惠，领券，便宜购买'
S2 = '伽工仲号：小优惠，伶绻，便宜购买'

#汉语相似
simi_1 = len(set(S1).intersection(set(S2)))/len(set(S1).union(set(S2)))#相似不懂的可以看我前面集合的文章
simi_1

0.5

In [28]:
#转换成拼音后显示
S1 = lazy_pinyin(S1)
S2 = lazy_pinyin(S2)
simi_2 = len(set(S1).intersection(set(S2)))/len(set(S1).union(set(S2)))
simi_2
0.875

0.875