# 文本与字节序列

In [None]:
# python3 str对象是unicode序列 python str对象是原始字节序列
# 字节序列是晦涩难懂的机读文本，unicode是人类可读的文本

In [11]:
# 各个字节的字面量表示有3种
# 1 可打印的ASCII范围内的字节（从空格到~），使用ASCII字符本身
# 2 制表符、换行符、回车符和\对应的字节，使用转义序列\t、\n、\r和\\
# 3 其他字节的值，使用
cafe = b'caf\xc3\xa9'

In [13]:
cafe.decode('utf-8')

'café'

In [None]:
# 编码问题 1 UnicodeEncodeError 2 UnicodeDecodeError 3 SyntaxError

# 处理UnicodeEncodeError
# 处理UnicodeDecodeError
# x.encode('xxx', error = 'ignore') 跳过无法编码的字符
# x.encode('xxx', error = 'replace') 把无法编码的字符替换为'?'
# x.encode('xxx', error = 'xmlcharrefreplace') 把无法编码的字符替换成XML实体
# 编码错误可以扩展，参见 codecs.register_error

# 处理SyntaxError
# python3 默认使用utf-8编码源码  python2 默认使用ASCII
# 在代码开头加 # coding: cp1252指定编码

In [19]:
# BOM:有用的鬼符
u16 = 'abcde'.encode('utf_16')

In [20]:
u16

b'\xff\xfea\x00b\x00c\x00d\x00e\x00'

In [None]:
# b'\xff\xfea'就是BOM，字节序标记 ，大小字节序
# UTF-16两个变种，UTF-16LE 显式使用小字节序 UTF-16BE 大字节序，不会生成BOM

In [None]:
# 同一个字符串，存在不同的码位（unicode）表示
# 规范化Unicode字符串
# 'NFC' 使用最少的码位构成等价字符串
# 'NFD' 把组合字符分解成基字符和单独构成的组合字符
from unicodedata import normalize
normalize('NFC', s1)
normalize('NFD', s2)

In [None]:
# 判断unicode是否相等
from unicodedata import normalize
def nfc_equal(str1, str2):
    return normalize('NFC', str1) == normalize('NFC', str2)

# str.lower() 和 str.casefold()类似，在unicode中总共有116个码位不同
def fold_equal(str1, str2):
    return (normalize('NFC', str1).casefold() == normalize('NFC', str2).casefold())

In [None]:
# 去掉全部的变音符号
import unicodedata
import string

def shave_marks(txt):
    norm_txt = unicodedata.normalize('NFD', txt)
    shaved = ''.join(c for c in norm_txt if not unicodedata.combining(c))
    return unicodedata.normalize('NFC', shaved)

In [None]:
# 删除拉丁字母中的组合记号函数
def shave_marks_latin(txt):
    norm_txt = unicodedata.normalize('NFD', txt)
    latin_base = False
    keepers = []
    for c in norm_txt:
        if unicodedata.combining(c) and latin_base:
            continue
        keepers.append(c)
        if not unicodedata.combining(c):
            latin_base = c in string.ascii_letters
    shaved = ''.join(keepers)
    return unicodedata.normalize('NFC', shaved)