##### 问题:
我们正在同Unicode字符串打交道，但需要确保所有的字符串都拥有相同的底层表示。

##### 解决方案:
在Unicode中，有些特定的字符可以被表示成多种合法的代码点序列。为了说明这个问题，请看下面的示例：

In [8]:
s1 = 'Spicy Jalape\u00f1o' 
s2 = 'Spicy Jalapen\u0303o'
print(s1,s2,sep='\n')

Spicy Jalapeño
Spicy Jalapeño


In [9]:
s1 == s2 

False

In [10]:
print(len(s1),len(s2))

14 15


这里的文本“Spicy Jalapeño”以两种形式呈现。第一种使用的是字符“ñ”的全组成（fully composed）形式（U+00F1）。第二种使用的是拉丁字母“n”紧跟着一个“~”组合而成的字符（U+0303）

对于一个比较字符串的程序来说，同一个文本拥有多种不同的表示形式是个大问题。为了解决这个问题，应该先将文本统一表示为规范形式，这可以通过unicodedata模块来完成

In [11]:
import unicodedata 
t1 = unicodedata.normalize('NFC', s1) 
t2 = unicodedata.normalize('NFC', s2) 
print(t1 == t2 )
print(ascii(t1)) 

True
'Spicy Jalape\xf1o'


In [12]:

t3 = unicodedata.normalize('NFD', s1) 
t4 = unicodedata.normalize('NFD', s2) 
print(t3 == t4)
print(ascii(t3))

True
'Spicy Jalapen\u0303o'


normalize()的第一个参数指定了字符串应该如何完成规范表示。NFC表示字符应该是全组成的（即，如果可能的话就使用单个代码点）。NFD表示应该使用组合字符，每个字符应该是能完全分解开的.

在对文本进行过滤和净化时，规范化同样也占据了重要的部分.

例如，假设想从某些文本中去除所有的音符标记（可能是为了进行搜索或匹配）

In [14]:
t1 = unicodedata.normalize('NFD', s1)
''.join(c for c in t1 if not unicodedata.combining(c)) #unicodedata.combining(c)返回指定字符的规范组合值,如果没有返回0

Spicy Jalapeño


'Spicy Jalapeno'

最后一个例子展示了unicodedata模块的另一个重要功能—用来检测字符是否属于某个字符类别。使用工具combining()函数可对字符做检查，判断它是否为一个组合型字符。这个模块中还有一些函数可用来查找字符类别、检测数字字符等.