In [3]:
# 2.1 使用多个界定符分割字
'''
问题
你需要将一个字符串分割为多个字段，但是分隔符 (还有周围的空格) 并不是固定
的。
解决方案
string 对象的 split() 方法只适应于非常简单的字符串分割情形，它并不允许有
多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候，
最好使用 re.split() 方法：
'''
line = 'asdf fjdk; afed, fjek,asdf, foo'
import re
re.split(r'[;,\s]\s',line)

['asdf fjdk', 'afed', 'fjek,asdf', 'foo']

In [19]:
# 2.2 字符串开头或结尾匹配
'''
问题
你需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL
Scheme 等等。

解决方案
检查字符串开头或结尾的一个简单方法是使用 str.startswith() 或者是 str.
endswith() 方法。比如：
'''
filename = 'span.py'
filename.endswith('.py')
filename.startswith('file:')
url = 'http://www.python.org'
url.startswith('http:')


# 如果你想检查多种匹配可能，只需要将所有的匹配项放入到一个元组中去，然后传
# 给 startswith() 或者 endswith() 方法：
import os 
filenames = os.listdir('.')
filenames

[name for name in filenames if name.endswith('.log')]
any(name.endswith('.py') for name  in filenames)

False

In [23]:
# 2.3 用 Shell 通配符匹配字符串
'''
问题
你想使用 Unix Shell 中常用的通配符 (比如 *.py , Dat[0-9]*.csv 等) 去匹配文
本字符串

解决方案
fnmatch 模块提供了两个函数——fnmatch() 和 fnmatchcase() ，可以用来实现
这样的匹配。用法如下：
'''
from fnmatch import fnmatch,fnmatchcase
fnmatch('foo.txt','*.txt')
fnmatch('foo.txt','?oo.txt')



True

In [34]:
# 2.4 字符串匹配和
'''
问题
你想匹配或者搜索特定模式的文本
解决方案
如果你想匹配的是字面字符串，那么你通常只需要调用基本字符串方法就行，比如
str.find() , str.endswith() , str.startswith() 或者类似的方法：
'''

text = 'yeah, but no, but yeah, but no, but yeah'
# Exact match
text == 'yeah'

# Match at start or end
text.startswith('yeah')
text.endswith('no')

# Search for the location of the first occurrence
text.find('no')

# 对于复杂的匹配需要使用正则表达式和 re 模块。为了解释正则表达式的基本原理，
# 假设你想匹配数字格式的日期字符串比如 11/27/2012 ，你可以这样做：

text1 = '11/27/2012'
text2 = 'Nov 27, 2012'

import re
if re.match(r'\d+/\d+/\d+',text1):
    print('yes')
else:
    print('no')


# 如果你想使用同一个模式去做多次匹配，你应该先将模式字符串预编译为模式对象。
# 比如：
datepat = re.compile(r'\d+/\d+/\d+')
if datepat.match(text1):
    print('yes')
    
    
# match() 总是从字符串开始去匹配，如果你想查找字符串任意部分的模式出现位
# 置，使用 findall() 方法去代替。比如：
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
datepat.findall(text)


# 在定义正则式的时候，通常会利用括号去捕获分组。比如：
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')
m = datepat.match(text1)
print(m)

yes
yes
<re.Match object; span=(0, 10), match='11/27/2012'>


In [38]:
# 2.5 字符串搜索和
'''
问题
你想在字符串中搜索和匹配指定的文本模式

解决方案
对于简单的字面模式，直接使用 str.replace() 方法即可，比
'''
text = 'yeah, but no, but yeah, but no, but yeah'
text.replace('yeah','yep')

# 对于复杂的模式，请使用 re 模块中的 sub() 函数。为了说明这个，假设你想将形
# 式为 11/27/2012 的日期字符串改成 2012-11-27 。示例如下：
text = 'Today is 11/27/2012. PyCon starts 3/13/2013.'
import re
re.sub(r'(\d+)/(\d+)/(\d+)',r'\3-\1-\2',text)


# 对于更加复杂的替换，可以传递一个替换回调函数来代替，比如
from calendar import month_abbr
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{} {} {}'.format(m.group(2),mon_name,m.group(3))

datepat.sub(change_date,text)

'Today is 27 Nov 2012. PyCon starts 13 Mar 2013.'

In [41]:
# 2.6 字符串忽略大小写的搜索
'''
问题
你需要以忽略大小写的方式搜索与替换文本字符串

解决方案
为了在文本操作时忽略大小写，你需要在使用 re 模块的时候给这些操作提供
re.IGNORECASE 标志参数。比如：
'''
text = 'UPPER PYTHON, lower python, Mixed Python'
import re
re.findall('python',text,flags=re.IGNORECASE)

re.sub('python','snake',text,flags=re.IGNORECASE)

'UPPER snake, lower snake, Mixed snake'

In [44]:
# 2.7 最短匹配模式
'''
问题
你正在试着用正则表达式匹配某个文本模式，但是它找到的是模式的最长可能匹
配。而你想修改它变成查找最短的可能匹配。

解决方案
这个问题一般出现在需要匹配一对分隔符之间的文本的时候 (比如引号包含的字符
串)。为了说明清楚，考虑如下的例子：
'''
str_pat = re.compile(r'\"(.*)\"')
text1 = 'Computer says "no."'
str_pat.findall(text1)

In [57]:
# 2.11 删除字符串中不需要的字符
'''
问题
你想去掉文本字符串开头，结尾或者中间不想要的字符，比如空白。

解决方案
strip() 方法能用于删除开始或结尾的字符。lstrip() 和 rstrip() 分别从左和
从右执行删除操作。默认情况下，这些方法会去除空白字符，但是你也可以指定其他字符
'''
s = ' hello world \n'
s.strip()
s.lstrip()
s.rstrip()

t = '-----hello====='
t.rstrip('=')
t.lstrip('-')
t.strip('-=')

s = ' hello world \n'
s.strip()

# 如果你想处理中间的空格，那么你需要求助其他技术。比如使用 replace() 方法
# 或者是用正则表达式替换。示例如下：
s.replace(' ','')

# 通常情况下你想将字符串 strip 操作和其他迭代操作相结合，比如从文件中读取
# 多行数据。如果是这样的话，那么生成器表达式就可以大显身手了。比如：
finename=''
with open(filename) as f:
    lines = (line.strip() for line in f)
    for line in lines:
        print(line)

'helloworld\n'

In [70]:
# 2.12 审查清理文本字

s = 'pýtĥöñ\fis\tawesome\r\n'
# 第一步是清理空白字符。为了这样做，先创建一个小的转换表格然后使用
# translate() 方法：
remap = {
    ord('\t') : ' ',
    ord('\f') : ' ',
    ord('\r') : None,
}
a = s.translate(remap)
print(a)

# 你可以以这个表格为基础进一步构建更大的表格。比如，让我们删除所有的和音符：

import unicodedata
import sys

cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) if unicodedata.combining(chr(c)))
b = unicodedata.normalize('NFD',a)
print(b)
b.translate(cmb_chrs)
'''
上面例子中，通过使用 dict.fromkeys() 方法构造一个字典，每个 Unicode 和音
符作为键，对应的值全部为 None 。

然后使用 unicodedata.normalize() 将原始输入标准化为分解形式字符。然后再
调用 translate 函数删除所有重音符。同样的技术也可以被用来删除其他类型的字符
(比如控制字符等)。
'''

# 作为另一个例子，这里构造一个将所有 Unicode 数字字符映射到对应的 ASCII 字
# 符上的表格：
digitmap = {c:ord('0') + unicodedata.digit(chr(c)) 
            for c in range(sys.maxunicode) 
            if unicodedata.category(chr(c)) == 'Nd'
}
print(len(digitmap))

x = '\u0661\u0662\u0663'
x.translate(digitmap)


# 另一种清理文本的技术涉及到 I/O 解码与编码函数。这里的思路是先对文本做一
# 些初步的清理，然后再结合 encode() 或者 decode() 操作来清除或修改它。比如：
b = unicodedata.normalize('NFD',a)
b.encode('ascii','ignore').decode('ascii')


'''
文本字符清理一个最主要的问题应该是运行的性能。一般来讲，代码越简单运行越
快。对于简单的替换操作，str.replace() 方法通常是最快的，甚至在你需要多次调用
的时候。比如，为了清理空白字符，你可以这样做：
'''
def clean_spaces(s):
    s = s.replace('\r', '')
    s = s.replace('\t', ' ')
    s = s.replace('\f', ' ')
    return s

'''
如果你去测试的话，你就会发现这种方式会比使用 translate() 或者正则表达式
要快很多。
另一方面，如果你需要执行任何复杂字符对字符的重新映射或者删除操作的话，
tanslate() 方法会非常的快。
'''



pýtĥöñ is awesome



pýtĥöñ is awesome



610


'\n如果你去测试的话，你就会发现这种方式会比使用 translate() 或者正则表达式\n要快很多。\n另一方面，如果你需要执行任何复杂字符对字符的重新映射或者删除操作的话，\ntanslate() 方法会非常的快。\n'

In [83]:
# 2.13 字符串对齐
text = 'Hello World'
text.ljust(20)
text.rjust(20)
text.center(20,'=')

# 函数 format() 同样可以用来很容易的对齐字符串。你要做的就是使用 <,> 或者 ^
# 字符后面紧跟一个指定的宽度。比如：
format(text,'>20')
format(text,'<20')
format(text,'^20')
format(text,'*^20s')

# format() 函数的一个好处是它不仅适用于字符串。它可以用来格式化任何值，使
# 得它非常的通用。比如，你可以用它来格式化数字：
x = 1.23456
format(x,'>10')
format(x,'^10.2f')

'   1.23   '

In [95]:
# 2.14 合并拼接字符串
parts = ['Is', 'Chicago', 'Not', 'Chicago?']
' '.join(parts)
','.join(parts)

parts2 = ('Is', 'Chicago', 'Not', 'Chicago?')
' '.join(parts2)
'''
join() 被指定为字符串的一个方法。
这样做的部分原因是你想去连接的对象可能来自各种不同的数据序列 (比如列表，元
组，字典，文件，集合或生成器等)
'''
a = 'Is Chiacgo'
b = 'Not Chicago'
print('{} {}'.format(a,b))

data = ['ACME', 50, 91.1]
','.join(str(d) for d in data)

Is Chiacgo Not Chicago


'ACME,50,91.1'

In [102]:
# 2.15 字符串中插入变量
'''
问题
你想创建一个内嵌变量的字符串，变量被它的值所表示的字符串替换掉。
解决方案
Python 并没有对在字符串中简单替换变量值提供直接的支持。但是通过使用字符
串的 format() 方法来解决这个问题。比如：

'''

s = '{name} has {n} messages.'
s.format(name='Paulson',n=108)

# 或者，如果要被替换的变量能在变量域中找到，那么你可以结合使用 format_map()
# 和 vars() 。就像下面这样：
name = 'Paulson'
n = 100
s.format_map(vars())

# vars() 还有一个有意思的特性就是它也适用于对象实例。比如：
class info:
    def __init__(self,name,n):
        self.name = name
        self.n = n

a = info('Paulson',100)
s.format_map(vars(a))


'''
format 和 format_map() 的一个缺陷就是它们并不能很好的处理变量缺失的情况
一种避免这种错误的方法是另外定义一个含有 __missing__() 方法的字典对象，
就像下面这样：
'''
class safesub(dict):
    #防止key找不到
    def __missing__(self, key):
        return '{' + key + '}'
    
# s.format(name='Guido')
del n 
s.format_map(safesub(vars()))

'Paulson has {n} messages.'

In [108]:
# 2.16 以指定列宽格式化字符串
s = "Look into my eyes, look into my eyes, the eyes, the eyes, \
the eyes, not around the eyes, don't look around the eyes, \
look into my eyes, you're under."
import textwrap
print(textwrap.fill(s,70))

print(textwrap.fill(s,40,initial_indent='       '))
print(textwrap.fill(s,40,subsequent_indent='       '))

import os
os.get_terminal_size().columns

Look into my eyes, look into my eyes, the eyes, the eyes, the eyes,
not around the eyes, don't look around the eyes, look into my eyes,
you're under.
       Look into my eyes, look into my
eyes, the eyes, the eyes, the eyes, not
around the eyes, don't look around the
eyes, look into my eyes, you're under.
Look into my eyes, look into my eyes,
       the eyes, the eyes, the eyes, not
       around the eyes, don't look
       around the eyes, look into my
       eyes, you're under.


168

In [114]:
# 2.17 在字符串中处理 html 和 x
'''
问题
你想将 HTML 或者 XML 实体如 &entity; 或 &#code; 替换为对应的文本。再者，
你需要转换文本中特定的字符 (比如 <, >, 或 &)。
解决方案
如果你想替换文本字符串中的‘<’或者‘>’，使用 html.escape() 函数可以很
容易的完成。比如：
'''

s = 'Elements are written as "<tag>text</tag>".'
import html
print(s)
print(html.escape(s))

# Disable escaping of quotes
print(html.escape(s,quote=False))


# 有时候，如果你接收到了一些含有编码值的原始文本，需要手动去做替换，通常你
# 只需要使用 HTML 或者 XML 解析器的一些相关工具函数/方法即可。比如：
s = 'Spicy &quot;Jalape&#241;o&quot.'
from html.parser import HTMLParser
p = HTMLParser()
p.unescape(s)


t = 'The prompt is &gt;&gt;&gt;'
from xml.sax.saxutils import unescape
unescape(t)

Elements are written as "<tag>text</tag>".
Elements are written as &quot;&lt;tag&gt;text&lt;/tag&gt;&quot;.
Elements are written as "&lt;tag&gt;text&lt;/tag&gt;".




'The prompt is >>>'

In [115]:
# 2.18 字符串令牌解析
'''
问题
你有一个字符串，想从左至右将其解析为一个令牌流。
解决方案
假如你有下面这样一个文本字符串：
'''

text = 'foo = 23 + 42 * 1'
# 为了令牌化字符串，你不仅需要匹配模式，还得指定模式的类型。比如，你可能想
# 将字符串像下面这样转换为序列对：

tokens = [('NAME', 'foo'), ('EQ','='), ('NUM', '23'), ('PLUS','+'),
('NUM', '42'), ('TIMES', '*'), ('NUM', '10')]

In [None]:
# 2.19 实现一个简单的递归下降分析器
'''问题
你想根据一组语法规则解析文本并执行命令，或者构造一个代表输入的抽象语法
树。如果语法非常简单，你可以自己写这个解析器，而不是使用一些框架。

解决方案
在这个问题中，我们集中讨论根据特殊语法去解析文本的问题。为了这样做，你首
先要以 BNF 或者 EBNF 形式指定一个标准语法。比如，一个简单数学表达式语法可能
像下面这样：'''

# 2.20 字节字符串上的字符串