# 文本过滤和清洗

## 简单的方法

* str.upper()和str.lower()将文本转换为标准形式
* str.replace()和re.sub()来进行简单的替换
* 也可以用unicodedata.normalize()来规范化文本，如2.9节

## 使用str.translate()方法

In [1]:
s = 'pyth\u0303on\x0cis\tawesome\r\n'
s

'pyth̃on\x0cis\tawesome\r\n'

建立小型转换表清理空格

In [2]:
remap = {
    ord('\t') : ' ',
    ord('\f') : ' ',
    ord('\r') : None  # Deleted
}
a = s.translate(remap)
a

'pyth̃on is awesome\n'

* 利用这种重新映射的思想可以进一步构建更加庞大的转换表

## 把所有的Unicode组合的字符都去掉

In [3]:
import unicodedata
import sys

In [4]:
cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
b = unicodedata.normalize('NFD', a)
b

'pyth̃on is awesome\n'

In [5]:
b.translate(cmb_chrs)

'python is awesome\n'

* 上面使用dict.fromkeys()方法构建了一个将每个Unicode组合字符都映射为None的字典

## 使用转换表将所有的Unicode十进制数字字符映射为它们对应的ASCII版本

In [6]:
digitmap = {c: ord('0') + unicodedata.digit(chr(c)) 
            for c in range(sys.maxunicode) if unicodedata.category(chr(c)) == 'Nd' }

In [7]:
x = '\u0661\u0662\u0663'
x.translate(digitmap)

'123'

## 使用encode()和decode()来修改和清理文本

In [8]:
a

'pyth̃on is awesome\n'

In [9]:
b = unicodedata.normalize('NFD', a)
b.encode('ascii', 'ignore').decode('ascii')

'python is awesome\n'

* 当我们的最终目标就是ASCII形式的文本时才有用