### 审查清理文本字符串

文本清理问题会涉及到包括文本解析与数据处理等一系列问题。在非常简单的情况下，你可能会选择使用字符串函数(比如`str.upper()`和`str.lower()`)将文本转为标准格式。使用`str.replace()`或者`re.sub()`的简单替换操作能删除或者改变指定的字符序列。同样可以使用`unicodedata.normalize()`函数将unicode文本标准化

在清理操作上更进一步，比如，你可能想消除整个区间上的字符或者去除变音符，可以使用`str.translate()`函数

In [2]:
s = 'pýtĥöñ\fis\tawesome\r\n'
s

'pýtĥöñ\x0cis\tawesome\r\n'

第一步清理空白字符。先创建一个小的转换表格然后使用`translate()`函数

In [5]:
remap = {
    ord('\t') : ' ',
    ord('\f') : ' ',
    ord('\r') : None  # Deleted
}

a = s.translate(remap)
a

'pýtĥöñ is awesome\n'

正如你看的那样，空白字符 \t 和 \f 已经被重新映射到一个空格。回车字符r直接被删除。

你可以以这个表格为基础进一步构建更大的表格。比如，让我们删除所有的和音符：

In [8]:
import unicodedata
import sys

cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode)
                        if unicodedata.combining(chr(c)))

b = unicodedata.normalize('NFD', a)
b.translate(cmb_chrs)

'python is awesome\n'

上面例子中通过使用`dict.fromkeys()`方法构造一个字典，每个Unicode和音符作为键，对应的值全为`None`

然后使用`unicodedata.normalize()`将原始输入标准化为分解形式字符。 然后再调用`translate`函数删除所有重音符。 同样的技术也可以被用来删除其他类型的字符（比如控制字符等）