Unicode 提供了一个完整的数据库，不仅包括码位与字符名称之间的映射，还有各个字符的元数据一级字符之间的关系。  
例如：字符是否可以打印、是不是字母、是不是数字、是不是其他数值服号

In [1]:
# tag::NUMERICS_DEMO[]
import unicodedata
import re

re_digit = re.compile(r'\d')

sample = '1\xbc\xb2\u0969\u136b\u216b\u2466\u2480\u3285'

for char in sample:
    print(f'U+{ord(char):04x}',                       # U+0000 格式的码位
          char.center(6),                             # 在长度为 6 的字符串中居中显示字符
          're_dig' if re_digit.match(char) else '-',  # 如果字符匹配正则表达式 r'\d'，显示 re_dig
          'isdig' if char.isdigit() else '-',         # 如果 char.isdiget() 返回 True，显示 isdig
          'isnum' if char.isnumeric() else '-',       # 如果 char.isnumeric() 返回 True，显示 isnum
          f'{unicodedata.numeric(char):5.2f}',        # 使用长度为 5、小数点后保留 2 位的浮点数显示数值
          unicodedata.name(char),                     # Unicode 标准中字符的名称
          sep='\t')
# end::NUMERICS_DEMO[]

U+0031	  1   	re_dig	isdig	isnum	 1.00	DIGIT ONE
U+00bc	  ¼   	-	-	isnum	 0.25	VULGAR FRACTION ONE QUARTER
U+00b2	  ²   	-	isdig	isnum	 2.00	SUPERSCRIPT TWO
U+0969	  ३   	re_dig	isdig	isnum	 3.00	DEVANAGARI DIGIT THREE
U+136b	  ፫   	-	isdig	isnum	 3.00	ETHIOPIC DIGIT THREE
U+216b	  Ⅻ   	-	-	isnum	12.00	ROMAN NUMERAL TWELVE
U+2466	  ⑦   	-	isdig	isnum	 7.00	CIRCLED DIGIT SEVEN
U+2480	  ⒀   	-	-	isnum	13.00	PARENTHESIZED NUMBER THIRTEEN
U+3285	  ㊅   	-	-	isnum	 6.00	CIRCLED IDEOGRAPH SIX


正则表达式并不能完全匹配 isdigit 方法判断为数字的字符。re 模块对 Unicode 的支持并不充分。
而 regex 模块可以提供更好的 Unicode 支持

在正则表达式中 \d \w 等模式只能匹配 ASCII字符  
但如果是字符串模式，就能匹配 ASCII 之外的 Unicode 数字或字母。
* 字节序列只能由字节序列正则表达式搜索，字节序列即编码后的 Unicode ，即 str.encode('utf-8') 等 
* 字符串模式 r'\d+' 能匹配泰米尔数字和 ASCII 数字
* 字节序列模式 rb'\d+' 只能匹配 ASCII 字节中的数字
* 字符串模式 r'\w+' 能匹配字幕、上标、泰米尔数字和 ASCII 数字
* 字节序列模式 rb'\w+' 只能匹配 ASCII 字节中的字母和数字

字符串正则表达式有个 re.ASCII 标志，它让表达式只能匹配 ASCII 字符