# 将Unicode文本统一表示为规范形式

## Unicode中有些特定的字符可以表示为多种合法的代码点序列

In [1]:
s1 = 'Spicy Jalape\u00f1o'
s2 = 'Spicy Jalapen\u0303o'
s1

'Spicy Jalapeño'

In [2]:
s2

'Spicy Jalapeño'

In [3]:
len(s1)

14

In [4]:
len(s2)

15

## 可以通过unicodedata模块来统一规范文本

In [5]:
import unicodedata
t1 = unicodedata.normalize('NFC', s1)
t2 = unicodedata.normalize('NFC', s2)
t1 == t2

True

In [6]:
print(ascii(t1), ascii(t2))

'Spicy Jalape\xf1o' 'Spicy Jalape\xf1o'


In [7]:
t3 = unicodedata.normalize('NFD', s1)
t4 = unicodedata.normalize('NFD', s2)
t3 == t4

True

In [8]:
print(ascii(t3), ascii(t4))

'Spicy Jalapen\u0303o' 'Spicy Jalapen\u0303o'


* NFC表示字符应该是全组成的，即用尽可能少的字节表示字符
* NFD表示用字符的每一部分来表示字符，ñ被分解为n和~
* NFC和NFD是规范模式，把连字作为单个字符
* NFKC和NFKD是兼容模式，将这些组合的字符分解成简单字符的等价组合

## 支持NFKC和NFKD

In [9]:
s = '\ufb01'
s

'ﬁ'

In [10]:
unicodedata.normalize('NFD', s)

'ﬁ'

In [11]:
unicodedata.normalize('NFKD', s)

'fi'

In [12]:
unicodedata.normalize('NFKC', s)

'fi'

## Unicode文本过滤净化和字符检测

去除所有的音标标记

In [13]:
t1 = unicodedata.normalize('NFD', s1)
''.join(c for c in t1 if not unicodedata.combining(c))

'Spicy Jalapeno'

* combining()函数可以对字符做检查，判断是否为一个组合型字符