Python CookBook 学习笔记

- [Python CookBook](http://www.dabeaz.com/cookbook.html)
- [Python CookBook Zh](https://python3-cookbook.readthedocs.io/zh_CN/latest/)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#第二章-字符串和文本" data-toc-modified-id="第二章-字符串和文本-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>第二章 字符串和文本</a></span><ul class="toc-item"><li><span><a href="#2.1-使用多个界定符分割字符串" data-toc-modified-id="2.1-使用多个界定符分割字符串-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>2.1 使用多个界定符分割字符串</a></span></li><li><span><a href="#2.2-字符串开头或结尾匹配" data-toc-modified-id="2.2-字符串开头或结尾匹配-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>2.2 字符串开头或结尾匹配</a></span></li><li><span><a href="#2.3-用Shell-通配符匹配字符串" data-toc-modified-id="2.3-用Shell-通配符匹配字符串-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>2.3 用Shell 通配符匹配字符串</a></span></li></ul></li></ul></div>

# 第二章 字符串和文本

## 2.1 使用多个界定符分割字符串

问题：需要将一个字符串分割为多个字段，但是分隔符(还有周围的空格) 并不是固定的。

解决方案：string 对象的 split() 方法只适应于非常简单的字符串分割情形，它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候，最好使用 re.split() 方法：

In [1]:
line = 'asdf fjdk; afed, fjek,asdf, foo'
import re
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']





问题：你需要将一个字符串分割为多个字段，但是分隔符(还有周围的空格) 并不是固定的。

解决方案：string 对象的 split() 方法只适应于非常简单的字符串分割情形，它并不允许有多个分隔符或者是分隔符周围不确定的空格。当你需要更加灵活的切割字符串的时候，最好使用 re.split() 方法：

```python
>>> line = 'asdf fjdk; afed, fjek,asdf, foo'
>>> import re
>>> re.split(r'[;,\s]\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
```

讨论：函数re.split() 是非常实用的，因为它允许你为分隔符指定多个正则模式。比如，在上面的例子中，分隔符可以是逗号，分号或者是空格，并且后面紧跟着任意个的空格。只要这个模式被找到，那么匹配的分隔符两边的实体都会被当成是结果中的元素返回。返回结果为一个字段列表，这个跟 str.split() 返回值类型是一样的。

当你使用 re.split() 函数时候，需要特别注意的是正则表达式中**是否包含一个括号捕获分组**。如果使用了捕获分组，那么被匹配的文本也将出现在结果列表中。比如：

```python
>>> fields = re.split(r'(;|,|\s)\s*', line)
>>> fields
['asdf', ' ', 'fjdk', ';', 'afed', ',', 'fjek', ',', 'asdf', ',', 'foo']
```

获取分割字符在某些情况下也是有用的。比如，你可能想保留分割字符串，用来在
后面重新构造一个新的输出字符串：

```python
>>> values = fields[::2]
>>> delimiters = fields[1::2] + ['']
>>> values
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
>>> delimiters
[' ', ';', ',', ',', ',', '']
>>> # Reform the line using the same delimiters
>>> ''.join(v+d for v,d in zip(values, delimiters))
'asdf fjdk;afed,fjek,asdf,foo'
```

如果你不想保留分割字符串到结果列表中去，但仍然需要使用到括号来分组正则
表达式的话，确保你的分组是**非捕获分组**，形如(?:...) 。比如：

```python
>>> re.split(r'(?:,|;|\s)\s*', line)
['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']
```

## 2.2 字符串开头或结尾匹配

问题：你需要通过指定的文本模式去检查字符串的开头或者结尾，比如文件名后缀，URL Scheme 等等。

解决方案：检查字符串开头或结尾的一个简单方法是使用str.startswith() 或者是 str.endswith() 方法。如果你想检查多种匹配可能，只需要将所有的匹配项放入到一个元组中去，然后传给startswith() 或者endswith() 方法：

```python
>>> filenames
[ 'Makefile', 'foo.c', 'bar.py', 'spam.c', 'spam.h' ]
>>> [name for name in filenames if name.endswith(('.c', '.h')) ]
['foo.c', 'spam.c', 'spam.h']
```

**这个方法中必须要输入一个元组作为参数，如果是 list 需要进行转换**

讨论：类似的操作也可以使用切片来实现，但是代码看起来没有那么优雅。也可以通过正则表达式实现。

```python
>>> url = 'http://www.python.org'
>>> re.match('http:|https:|ftp:', url)
<_sre.SRE_Match object at 0x101253098>
```

## 2.3 用Shell 通配符匹配字符串
