In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

# python私房手册-日期文件处理,正则表达式和常用内置包

## 时间和日期

`python`中时间和日期不难，但是常常写代码的时候，却有不知从何下手的感觉，特别是内置有`time`和`datetime`两个库，不知道用那个。这里在别人的基础上添加一点自己的理解，先看[Python时间日期格式化之time与datetime模块总结](https://www.cnblogs.com/chenhuabin/p/10099766.html)。

`time`在官方文档中,被分类在通用操作系统服务中，`datetime`是对`time`的封装，分类在数据类型中，从分类就可以看出,`time`倾向于提供开发中与系统时间相关的功能，它还包含诸如 返回指定的线程id的特定于线程的CPU时间时钟的clk_id 这样的函数，而`datetime`更倾向于用作数据分析和处理。

### `time`模块

在`python`中，所有的时间有三种基本格式，分别是时间戳，时间元组和时间字符串。它们的关系如下：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

这里记录几个要点：
1. 所有这些函数都是`time`的顶层函数，是没有对象的转换方法的。
2. `localtime`是转换为本地时间，`gmtime`是转换为标准时间。
3. `asctime`和`ctime`相当于两个快捷方法，直接将时间元组和时间戳转换为固定格式的字符串。
4. 格式化参数见[官方文档](https://docs.python.org/zh-cn/3/library/time.html)。

In [1]:
import time

now = time.time()
localtime = time.localtime(now)
gmtime = time.gmtime(now)
localtime
gmtime
time.strftime("%Y-%m-%d %H:%M", localtime)
time.ctime(now)
time.asctime(gmtime)

'Tue Oct 10 02:37:26 2023'

### `datetime`模块

`datetime`模块有`date`，`time`，`datetime`，`timedelta`和`tzinfo`五个类，分别提供对日期、时间、时间日期、时间间隔、时区的处理。

#### `datetime.date`和`datetime.time`

`date`和`time`本质上是时间元组，由于只包含部分时间信息，除了直接通过参数构造对象以外，`date`只提供了将时间戳转换为`date`对象，以及转换成字符串的方法，而`time`只提供转换成字符串的方法，均不能反向转换，即将字符串转换成`date`或者`time`对象，也不能将`date`或者`time`对象还原成时间戳。

In [2]:
from datetime import date
import time

now = time.time()
# 通过today函数
d1 = date.today()
# 通过参数构造
d2 = date(year=2019, month=12, day=12)
# 通过时间戳构造
d3 = date.fromtimestamp(now)
d1
d2
d3
d1.strftime("%Y-%m-%d")

'2023-10-10'

#### `datetime.datetime`

`datetime`类结合了`date`和`time`两个类，因为它具备了所有的时间信息，因此它可以在各种不同的时间格式中自由转换：

In [3]:
from datetime import datetime

In [4]:
now = datetime.now()
today = datetime.today()
now
today

datetime.datetime(2023, 10, 10, 10, 37, 30, 444386)

In [5]:
datetime.fromtimestamp(time.time())
datetime.strptime("2019-12-12 23:59:59", "%Y-%m-%d %H:%M:%S")
# 同样有ctime方法，注意和time.ctime方法不同，datetime.ctime的参数是datetime对象而不是时间戳
datetime.ctime(now)

'Tue Oct 10 10:37:30 2023'

可以分别获取日期和时间，再用`combine`同时可以将日期和时间合并：

In [6]:
d = now.date()
t = now.time()
datetime.combine(d, t)

datetime.datetime(2023, 10, 10, 10, 37, 30, 444386)

#### `datetime.timetelta`

`timedelta`主要是用来进行时间之间的运算，比如：

In [7]:
from datetime import datetime, timedelta
import time

now = datetime.now() 
three_hours_ago = now - timedelta(hours=3)
now
three_hours_ago

datetime.datetime(2023, 10, 10, 7, 37, 32, 13222)

#### 时区转换

`datetime`模块可以把utc格式的时间转换成本地时间，但是不太好用。先来看个概念，`python`的`datetime`对象和`time`对象分为感知型和简单型两种，简单来说，不带时区信息的是简单型，带了时区信息的是感知型，准确的判断条件是，对象同时满足以下两个条件则为感知型：
1. `d.tzinfo` 不为 `None`
2. `d.tzinfo.utcoffset(d)` 不返回 `None`

先看以下一段代码，使用`astimezone`方法将`utc`标准时间转换成本地时间：

In [8]:
from datetime import datetime, timezone

now = datetime.now()
now_utc = now.replace(tzinfo=timezone.utc)
local = now_utc.astimezone()

print(now)
print(now_utc)
print(local)

2023-10-10 10:37:32.552244
2023-10-10 10:37:32.552244+00:00
2023-10-10 18:37:32.552244+08:00


如果不了解感知型和简单型两种时间类型，会觉得转换方法很别扭。因为平时我们通过`datetime`的`now`函数虽然获取的是本机的时间（也就是本地的当前时间），但是是简单型，不带时区信息。当使用`replace`方法加入时区信息的时候，变成了感知型，但是注意，此时只是简单加了时区信息，并未发生时区的转换。再使用`astimezone`函数将`utc`时间转换成本地时间。

如果要在时区之间转换，最简单的方法是使用`pytz`库（《编写高质量python的59个方法》中说要执行时区偏移的操作，需要先转成`utc`格式的`datetime`对象，但是自己测试仅仅只是时区转换的话，貌似可以直接转换）：

In [9]:
import pytz

now = datetime.now()
tz_sh = pytz.timezone('Asia/Shanghai')
sh_dt = tz_sh.localize(now)
tz_eastern = pytz.timezone('US/Eastern')
eastern_dt = tz_eastern.normalize(sh_dt)
print(sh_dt)
print(eastern_dt)

2023-10-10 10:37:32.921629+08:00
2023-10-09 22:37:32.921629-04:00


#### 时间格式转换

`datetime`类构造的是一个`datetime.datetime`对象，可以转换成`time`的三种时间格式，即时间元组，字符串，时间戳。

- `datetime.timetuple()`: 转换成时间元组
- `datetime.timestamp()`: 转换成时间戳
- `datetime.strftime()`: 转换成字符串

其中，转换成字符串需要提供时间格式模板，常用的时间格式符如下：
- [时间格式符查询](https://www.cnblogs.com/fwl8888/p/9635505.html)

In [10]:
from datetime import datetime

now = datetime.now()

In [11]:
now.timetuple()

time.struct_time(tm_year=2023, tm_mon=10, tm_mday=10, tm_hour=10, tm_min=37, tm_sec=33, tm_wday=1, tm_yday=283, tm_isdst=-1)

In [12]:
now.timestamp()

1696905453.448261

In [13]:
now.strftime("%Y-%m-%d %H:%M:%S")

'2023-10-10 10:37:33'

## 文件与路径

### 文件读写的t模式和b模式

1. t：控制文件读写内容的模式
 - 读写都是以字符串（unicode）为单位
 - 只能针对文本文件
 - 必须指定字符编码，即必须指定encoding参数
2. b: binary模式
 - 读写都是以bytes为单位
 - 可以针对所有文件
 - 一定不能指定字符编码，即一定不能指定encoding参数

另外，除了w,r,a以及文件读写模式外，比较少见的还有一个x模式，表示当文件存在时抛出错误。而普通的w,a，文件存在时，会覆盖现有文件。

### `__file__`到底是绝对目录还是相对目录

- [Get the path of current file (script) in Python: __file__](https://note.nkmk.me/en/python-script-file-path/)

在python3.8之前，`__file__`变量是绝对目录还是相对目录主要是看执行入口文件的时候，输入的是绝对目录还是相对目录，比如我们执行一个脚本，`python path/file.py`，此时`path/file.py`是相对目录，则`__file__`就是相对目录。

但是3.8以后，`__file__`总是绝对目录。

### 文件模式r+,w+,a+区别

python文件模式，除了常见的，有几个模式比较容易忘记且搞错，记录如下：
1. `x`写模式，和`w`的区别是`x`如果文件不存在则报错，`w`如果不存在则创建。

另外，`r`,`w`,`a`可以带`+`号的可读写增强模式，比如`r+`,`w+`,`a+`，增强模式下，文件均可读可写，主要区别如下：

`r+`:
- 如果文件不存在，则会抛出错误，从头开始写文件，文件原本的内容不会清空。

`w+`：
- 文件不存在，会创建文件，从头开始写文件，写之前会清空文件原本的内容。

`a+`：
- 文件不存在，会创建文件，从最后开始写文件。

参考：
- [Python difference between r+, w+ and a+ in open()](https://mkyong.com/python/python-difference-between-r-w-and-a-in-open/)

### `os.path.abspath`和`os.path.realpath`的区别

主要在`Linux`系统上，这两个命令有区别，`abspath`返回文件的绝对目录，不管是实际的文件还是软链接，`realpath`总是返回文件真实的绝对目录。

## 正则表达式

### 易错概念

#### 深入理解`r`

- [How to use a variable inside a regular expression?](https://stackoverflow.com/questions/6930982/how-to-use-a-variable-inside-a-regular-expression)

`r`是看起来简单，但是实际上比较难彻底掌握的一个概念，要彻底弄懂这个概念，首先要分清楚原始字符串、字符串字面量、正则表达式三个概念： 
在python中，我们输入是字符串字面量，和原始字符串不同，有一些特殊的符号通过`\`+转义字符来表示，比如：

In [14]:
s = '1\b2'  # 这是对象字面量，\b表示特殊字符 退格
print(s)    # 原始字符串为1退格2，打印出来的是原始字符串

12


如果想表示斜杠+b怎么办呢，则需要先使用`\`对`\`进行转义，让它表示原始的斜杠，比如：

In [15]:
s = '1\\b2'
print(s)

1\b2


`r`就表示`\`没有特殊意义，就表示原始的斜杠：

In [16]:
s = r'1\b2'
print(s)

1\b2


那么我们在做正则匹配的时候，正则表达式里面也有一些特殊字符使用`\`+字母表示，比如`\w`，`\s`等，这就和字符串字面量的转义有了冲突，因此在正则表达式中，我们还需要进行一次去转义：

In [17]:
import re

In [18]:
re.search(r'\b', r'a\bc')

<re.Match object; span=(0, 0), match=''>

字符串字面量中`r'a\bc'`，对`\`进行了去转义，`\`就表示普通的斜杠，但是在前面的模式`r'\b'`中，注意此时的`\b`在正则当中表示的是单词边界，r仅仅只是表示对字符串字面量不进行转义，但是不表示对正则也不进行转义。所以，此时匹配到的是单词边界，而并不如想象中的，匹配到字符'\b'，如果要匹配'\b'，还需要对模式中的斜杠进行转义：

In [19]:
re.search(r'\\b', r'a\bc')

<re.Match object; span=(1, 3), match='\\b'>

在`r'a\bc'`中，要匹配的是一个斜杠和一个b，首先匹配斜杠，正则中匹配斜杠需要先转义，再次提醒，r只是表示对字符串字面量去转义，不代表对正则也去转义。斜杠在正则模式中也有特殊意义，如果要单纯的匹配斜杠，在正则中还是要去转义。再来看：

In [20]:
import re

re.search('1\\\\b2', '1\\b2') # 要匹配的对象字面量有两个\，因此正则表达式要转义两次

<re.Match object; span=(0, 4), match='1\\b2'>

由于没有加上r，所以`'1\\b2'`实际上并不是两个斜杠，去转义后最终要匹配的实际是`'1\b2'`，而在正则模式中，匹配一个斜杠，首先要对对象字面量进行一次去转义变成两个斜杠`'\\'`，然后对每一个斜杠再进行正则的去转义，这就变成了四个斜杠`'\\\\'`。

简单来说，在字符串字面量中，如果要表示普通的`\`斜杠，需要用两个`\\`斜杠表示，而如果是正则表达式中，则需要用`\\\\`四个斜杠表示。加上`r`只是表示对象字面量的`\`无特殊意义，所以在正则表达式中，可以少两个`\`，只用两个`\`表示普通的斜杠。

还有两个知识点要注意：
1. 字符串字面量中，斜杠+字母没有特殊意义时，python会自动加一个\

In [21]:
'\b'  # '\b'在字符串字面量中有特殊意义

'\x08'

In [22]:
'\wait'  # \w在字符串字面量中无特殊意义，python会自动给其加上一个\，所以它的字符串字面量是\\wait

'\\wait'

所以，匹配`\wait`和匹配`\\wait`是一样的，我们只需要关注的是最终要匹配的是什么，`\w`和`\\w`最终要匹配的都是一个斜杠和字母`w`：

In [23]:
re.search('\\\\wait', '\wait')   # 此时匹配\wait和匹配\\wait是一样的

<re.Match object; span=(0, 5), match='\\wait'>

In [24]:
re.search('\\\\wait', '\\wait')

<re.Match object; span=(0, 5), match='\\wait'>

2. 正则中，会先按字符串字面量进行转义，再按正则规则进行转义

In [25]:
re.search('\bworld', 'hello world')   # 这里的\b表示的是退格键

In [26]:
re.search('\\bworld', 'hello world')  #  这里的\\b才是表示正则的单词边界

<re.Match object; span=(6, 11), match='world'>

#### `rf`搭配使用注意事项

在python3.6以后，可以`rf`搭配使用，不过要注意一点就是，`rf`中，如果表示正则的`{}`，需要两个括号，否则表示变量替换：

In [27]:
import re

name = 'shy'
re.search(rf'{name} height is \d{{3}}cm', 'shy height is 176cm')  # {name}表示变量替换，{{3}}表示3个数字

<re.Match object; span=(0, 19), match='shy height is 176cm'>

#### `search`、`findall`，`finditer`和的区别

刚开始的时候对于什么时候用哪个方法总是弄不太清楚，所以这里做个梳理，并且总结重难点：
1. `findall`和`finditer`是全局匹配，简单说如果文本中有2个及以上能匹配上正则，则都会找出来。而`search`只会返回第一个匹配成功的结果。
2. 如果正则表达式不包含分组，则`findall`返回所有匹配成功的结果构成的列表，如果包含分组，则返回的列表只包含所有匹配成功的分组构成的元组，而不会包含匹配成功的完整结果。
3. `finditer`弥补了有分组时，无法返回完整结果的缺点。它是一个生成器，每次返回一个匹配成功的`match`对象，和`search`返回的结果一样。因此可以根据需求提取想要的结果。

In [28]:
import re
text = "This is a test string, That has two test lines"
m = re.search(r"(Th\w+).*?(test)", text)  # 注意是非贪婪匹配

# search方法只能匹配第一句，匹配成功就返回了。
m.groups()
m.group(0)

'This is a test'

In [29]:
# 正则里面不包含分组，则返回完整的匹配成功的结果
re.findall(r"Th\w+.*?test", text)

['This is a test', 'That has two test']

In [30]:
# 正则里面包含分组，则列表只返回匹配成功的分组构成的元组
re.findall(r"(Th\w+).*?(test)", text)

[('This', 'test'), ('That', 'test')]

In [31]:
# 如果正则里面包含分组，又要获取完整的匹配结果，只能用finditer
# 返回的每一个匹配成功的match对象，通过match对象的group(0)获取完整结果
for m in re.finditer(r"(Th\w+).*?(test)", text):
    print(m.group(0))

This is a test
That has two test


#### 扩展表示法

这里记录正则表达式中常用的扩展表示法：

```python
(?:)              :    不捕获分组
(?#)              :    不做匹配，只是用作注释
(?=)              :    右等于零宽断言
(?!)              :    右不等于零宽断言
(?<=)             :    左等于零宽断言
(?<!)             :    左不等于零宽断言
(?(1)y|x)         :    根据捕获的分组选择，如果捕获的分组1存在，就选y，否则选x
(?P<name>)        :    为分组命名
 ```

#### 嵌套的括号分组

如果分组是嵌套的，则先从外向内数，数字依次增加，然后从左往右数，数字依次增加，如：

In [32]:
import re

text = "This is a test string"
m = re.search(r"(T\w+(is)).*(s(tr)\w+)", text)
m.groups()

('This', 'is', 'string', 'tr')

#### 命名分组以及如何引用分组

可以对分组命名，主要注意一下写法，命名分组可以通过`group(name)`调用，同时位置分组仍然可用。另外后续引用有几点要注意：
1. 后续引用前面匹配的结果，可以`(?P=)`这样写，注意此时不会捕获后续引用的分组，如果想要捕获，要在外面再加个括号。
2. 在`sub`方法中如果要引用前面的命名分组，使用`\g<>`的方式，如果是位置分组，使用`\1`,`\2`的形式引用。

In [33]:
import re

text = "This is a test string\nThis has two lines"
m = re.search(r"(?P<a>t\w+s).*((?P=a)).*", text,
              re.I + re.S)  # 要捕获引用的分组，要再加个括号，即((?P=a))，其中(?P=a)是引用前面的命名捕获
m.group("a")
m.group(1)  # 位置分组和命名分组均可用
m.groups()

('This', 'This')

注意，此时`r"(?P<a>t\w+s).*"`匹配上整个句子，用`"\g<a> is over"`替换掉整个句子，且使用`\g<a>`保留了之前匹配上的命名分组。此时位置分组用`\1,\2`来表示：

In [34]:
re.sub(r"(?P<a>t\w+s).*", r"\g<a> is over", text, flags=re.I + re.S)

'This is over'

#### 零宽断言

所谓零宽，指的是匹配的是位置，而不是字符，宽度为0，因此叫零宽。网上或者一些书里面都称作向前（向后）正向（负向）零宽断言，感觉很不好理解，不如叫做左边（右边）等于（不等于）零宽断言好记。一般的形式有4种：
- `(?=条件)`  这个位置的右边等于条件。
- `(?!条件)`  这个位置的右边不等于条件。
- `(?<=条件)` 这个位置的左边等于条件。
- `(?<!条件)` 这个位置的左边不等于条件。

如下的例子，仔细分辨其中的细微差别：

In [35]:
import re

text = "port up up states"
# 括号里面匹配一个位置和一个任意字符，表示任意字符前面的位置后面都不能是up\s+up，因此匹配不上，返回None
re.search(r"^((?!up\s+up).)*$", text)
# 下面都可以匹配上
re.search(r"((?!up\s+up).)*$", text)
# 从头开始匹配，当匹配到第一个u时不满足条件，因此结果为`port `
re.search(r"^((?!up\s+up).)*", text)
# 不加括号仅仅表示只要开头不是`up\s+up`，就可以匹配后面所有字符
re.search(r"^(?!up\s+up).*", text)

<re.Match object; span=(0, 17), match='port up up states'>

#### `groups`，`group`的区别

正则匹配以后，如果没有匹配上，返回`None`，如果匹配上，返回一个`match`对象。`match`对象有`groups`和`group`方法，区别如下：
1. `groups`返回捕获的分组构成的元组，如果没有分组，则返回一个空的元组。
2. `group`指单独的捕获的分组，其中`group(0)`和`group()`均指匹配上的整个字符串，注意，捕获的分组从1开始计数。

In [36]:
import re

text = "This is a test string\nText has two lines"
m = re.search(r"(t\w+s).*(t\w+t).*", text, re.I + re.S)
m.groups()
m.group()
m.group(0)
m.group(1)
m.group(2)

'Text'

#### 贪婪匹配和非贪婪匹配

默认情况下是贪婪匹配，还是上面的例子，`.`会尽可能多的匹配符合条件的字符，因此第二个分组匹配到的是"Text"，如果在匹配模式`(*,+,?,{m,n})`后面加上`?`，则开启非贪婪模式，表示尽可能少的匹配，如下面的例子，因此，第二个分组匹配到的是`test`：

In [37]:
import re

text = "This is a test string\nText has two lines"
m = re.search(r"(t\w+s).*?(t\w+t).*", text, re.I + re.S)
m.groups()

('This', 'test')

#### 括号的一些少有人知的特性

1. `(?i:xxxx)`不区分大小写。
2. `(?s:.*)`跨行匹配.可以匹配回车符。

In [38]:
import re

text = "port up up states"
re.search(r"(?i:UP)\sup", text)

<re.Match object; span=(5, 10), match='up up'>

### `re`标识符

#### 同时添加多个标识

如果要同时添加多个标识（`flag`），使用`+`号：

In [39]:
import re

text = "This is a test string\nText has two lines"
re.search(r"t.*t", text, re.I + re.S)

<re.Match object; span=(0, 32), match='This is a test string\nText has t'>

#### `re.S`标识符（同`re.DOTALL`）

`re.S`将`.`的作用扩展到整个字符串，包括`“\n”`，默认情况下`.`不匹配`\n`。

In [40]:
import re

text = '123\n\tabc'
result1 = re.findall('.+', text, re.S)  #re.S表示.的作用扩展到整个字符串，包括“\n”。
result2 = re.findall('.+', text, re.DOTALL)  #re.DOTALL作用与re.S一样
result1 == result2

True

In [41]:
result1

['123\n\tabc']

In [42]:
result3 = re.findall('.+', text)
result3

['123', '\tabc']

#### `re.M`标识符(同`re.MULTiLine`)

`re.M`主要影响`^`和`$`，默认情况下，匹配整个字符串的开头和结尾，比如：

In [43]:
import re

text = '123\n\tabc'
re.findall('^123$', text)  # 只能匹配123前和abc后

[]

如果添加了`re.M`标识符，则可以匹配每一行的开头和结尾：

In [44]:
re.findall('^123$', text, re.M)

['123']

#### `re.X`标识符（同`re.VERBOSE`）

`re.X`表示可以把正则表达式的`pat`写成多行，并且自动忽略空格，主要是方便对复杂的正则表达式写注释：

In [45]:
text = '12345abcd'
re.findall('345 abc', text, re.VERBOSE) #re.VERBOSE可以把正则表达式写成多行，并且自动忽略空格

['345abc']

In [46]:
text = '12345abcd'
pat = re.compile("""
345 #方便对复杂的正则表达式进行注释
ab  #re.X和re.VERBOSE是一样的
""", re.X)
pat.findall(text)

['345ab']

### `re`方法

#### `re.subn()`

`subn()`第三个参数代表替换的次数，其返回的一个元组，包含替换后的字符串和替换次数

In [47]:
import re
re.subn('[a-z]','1','abc') 
re.subn('[a-z]','1','abc', 2)

('11c', 2)

#### `re.escape()`

`escape`可以对字符串中所有可能被解释为正则运算符的字符进行转义

In [48]:
re.escape('hello .python') 
re.findall(re.escape('w.py'),'jw.pyji w.py.f')

['w.py', 'w.py']

## 常用内置包

### 常用库查询手册

官方[内置的标准库](https://docs.python.org/zh-cn/3.8/library/index.html)的说明，以下是收集的关于各种库的解释比较好的文章：

- `time`和`datetime`：内置，时间和日期处理，参考[《python time模块和datetime模块详解》](https://www.cnblogs.com/tkqasn/p/6001134.html)
- `difflib`：内置，对比文本之间的差异。参考[《python difflib模块讲解示例》](https://blog.csdn.net/lockey23/article/details/77913855)
- `math`和`cmath`：内置，`math`模块包含浮点数的数学运算函数，`cmath`模块运算的是复数。参考[《python math和cmath模块介绍》](https://blog.csdn.net/hdutigerkin/article/details/6694884)
- `aiohttp`： 内置，异步的http请求库，参考[《python aiohttp简易使用教程》](https://blog.csdn.net/weixin_41004350/article/details/78780452)
- `click`：第三方库，命令行参数神器，[官方地址](https://click.palletsprojects.com/en/7.x/)，参考[《click--命令行神器》](https://www.jianshu.com/p/6a533a892167)
- `sqlite3`：内置，`sqlite`数据库处理，参考[《Python Sqlite教程》](https://blog.csdn.net/pansaky/article/details/99674449)
- `warnings`：内置, [Python中的warnings模块详细阐述](https://blog.csdn.net/low5252/article/details/109334695)

### 使用`fnmatch`，`glob`，`os.path`和`pathlib`匹配文件

文件目录操作常用的一共4个模块，分别是`fnmatch`，`glob`，`os.path`和`pathlib`，其中，`fnmatch`和`glob`主要用于文件名的匹配，`os.path`和`pathlib`主要用于目录操作，在3.6以后，使用面对对象的`pathlib`更好。

相关的文章：
- [Python模块学习 - fnmatch & glob](https://www.cnblogs.com/dachenzi/p/8215584.html)
- [超好用的pathlib](https://blog.csdn.net/weixin_42232219/article/details/91349908)
- [pathlib官方文档](https://docs.python.org/zh-cn/3/library/pathlib.html#pathlib.Path.replace)

`fnmatch`一般和`os.listdir`搭配来匹配文件名：

In [49]:
import fnmatch

[name for name in os.listdir("F:\\movie\\movie\\") if fnmatch.fnmatch(name, "*.mkv")]

NameError: name 'os' is not defined

`glob`结合了`os.listdir`和`fnmatch`的功能，可以输入路径进行匹配，默认是在当前目录：

In [50]:
import glob

glob.glob("F:\\movie\\movie\\*.mkv")

[]

`pathlib`包含上述功能：

In [51]:
from pathlib import Path

list(Path("F:\\movie\\movie\\").glob("*.mkv"))

[]

### `sqlite3`

1. 以字典类型返回`select`的数据
默认情况下，`select`出来的`row`只能使用数字作为下标，可以以字典类型返回数据，在`cur = conn.cursor()`之前加入`con.row_factory = sqlite.Row`即可。
2. 以编程方式获取列名：有两种方式，一种是通过`PRAGMA`，`cur.execute("PRAGMA table_info(table_name)")`，返回每一列的元数据，是元组构成的列表，如下：
```python
[(0, 'ID', 'INTEGER', 0, None, 1), (1, 'CARDID', 'TEXT', 0, None, 0), (2, 'CHARGETIME', 'TEXT', 0, None, 0), (3, 'CHARGE', 'REAL', 0, None, 0), (4, 'REMAINING', 'REAL', 0, None, 0), (5, 'CHECKTIME', 'TEXT', 0, None, 0)]
```

一种是通过`cursor`的`description`属性，当执行`select`语句以后，`cursor`的`description`返回一个元组构成的元组，如下：
```python
(('ID', None, None, None, None, None, None), ('CARDID', None, None, None, None, None, None), ('CHARGETIME', None, None, None, None, None, None), ('CHARGE', None, None, None, None, None, None), ('REMAINING', None, None, None, None, None, None), ('CHECKTIME', None, None, None, None, None, None))
```
3. 使用`'\n'.join(conn.iterdump())`语句可以将数据库进行备份，原理上就是根据目前的数据生成相应的多个`sql`语句。相反的，可以使用`cur.executescript(sql)`导入。注意，这里的`sql`是多行字符串。
4. 默认支持回滚，可以设置为自动提交模式，`con = sqlite.connect('ydb.db', isolation_level=None)`。注意，不传入`isolation_level`或者设置为`isolation_level==''`，为智能提交模式，即在进行执行`Data Modification Language (DML)`操作，即`(INSERT/UPDATE/DELETE/REPLACE)`时, 会自动打开一个事务，在执行非DML，非query(非SELECT和上面提到的)语句时, 会隐式执行`commit`。具体有什么区别，查看下面的文章：
  - [python sqlite3 的事务控制](https://my.oschina.net/tinyhare/blog/719039?utm_source=debugrun&utm_medium=referral)

### 枚举类型Enum

- [Python枚举类Enum用法详解](https://www.jianshu.com/p/29fd0aa370fd)
- [官方文档](https://docs.python.org/zh-cn/3/library/enum.html)

除了使用继承的方法，还可以直接通过`Enum`直接构造一个枚举类，如：

In [52]:
from enum import Enum

color = Enum('color', 'green blue red')
color

<enum 'color'>

以上代码创建的其实是一个枚举类，等同于下面的代码：

In [53]:
class Color(Enum):
    green = 1
    blue = 2
    red = 3

color

<enum 'color'>

### contextlib上下文管理器

#### ExitStack

- [On the Beauty of Python's ExitStack](https://www.rath.org/on-the-beauty-of-pythons-exitstack.html)

如果要同时处理多个上下文管理器，比如读取多个文件，一个常规的写法是：

In [54]:
with open("file1.txt") as file1, open("file2.txt") as file2:
    for line in chain(file1, file2):
        print(line)

FileNotFoundError: [Errno 2] No such file or directory: 'file1.txt'

但是如果文件很多，或者文件数是未知的，上面的方法就不好用了，此时可以使用ExitStack：

In [55]:
from contextlib import ExitStack, closing
from itertools import chain

```python
with ExitStack() as stack:
    files = (stack.enter_context(open(file, "rt")) for file in ['file1.txt', 'file2.txt'])
    for line in chain.from_iterable(f.readlines() for f in files):
        print(line)
```

ExitStack的几个方法都不是很好理解，接下来一一进行解释：
1. `stack.enter_context(open(file, "rt")`相当于调用了`with open(file, "rt") as f`，返回f。同时将`open(file, "rt")`上下文管理器的`__exit__`方法压入一个堆栈。当`with ExitStack()`结束的时候，会依次弹出堆栈的`__exit__`方法并运行。注意它的错误处理的时间点，当错误发生在最后时，总是被最后加入堆栈的`__exit__`函数捕获。如下：

In [56]:
class CM:
    def __init__(self, name):
        self.name = name
        
    def __enter__(self):
        print(f'enter {self.name}')
        return self

    def __exit__(self, exc_type, exc_value, exc_tb):
        print(f'exit {self.name}')
        if exc_type:
            print(f"catch {exc_value}")
        return True


def es_demo1():
    with ExitStack() as stack:
        stack.enter_context(CM('cm1'))         
        stack.enter_context(CM('cm2'))     
        raise RuntimeError('error occured!') # 捕获到错误，会依次执行stack里面的__exit__

def es_demo2():
    with ExitStack() as stack:
        stack.enter_context(CM('cm1'))    
        raise RuntimeError('error occured!') # 异常后面的语句不会执行
        stack.enter_context(CM('cm2'))     
                
es_demo1()
print()
es_demo2()

enter cm1
enter cm2
exit cm2
catch error occured!
exit cm1

enter cm1
exit cm1
catch error occured!


2. 某些情况下，需要长时间保持某个资源，比如一个网络连接，这个网络连接的存在时间甚至要比ExitStack的上下文管理器存在的时间还要长，当with结束的时候，并不想进行清理，此时可以使用`pop_all()`和`close`，`pop_all()`会返回一个堆栈，其中填充了同样的上下文管理器和回调，可以理解成原来的一个副本，同时原来的堆栈清空。如下：

In [57]:
def es_demo3():
    with ExitStack() as stack:
        stack.enter_context(CM('cm1'))         
        stack.enter_context(CM('cm2'))     
        raise RuntimeError("error occurred!") 
        # 如果在ExitStack里面发生了异常，则会直接由__exit__处理，不会执行下面的语句，并且最终返回None
        print("after raise exception!")
        return stack.pop_all()

stack = es_demo3()

enter cm1
enter cm2
exit cm2
catch error occurred!
exit cm1


In [58]:
stack is None

True

如果执行过程没有出现异常，则最终会执行`stack.pop_all()`：

In [59]:
def es_demo4():
    with ExitStack() as stack:
        stack.enter_context(CM('cm1'))         
        stack.enter_context(CM('cm2'))     
        return stack.pop_all()

In [60]:
stack_copy = es_demo4()

enter cm1
enter cm2


由于此时原来的stack已经清空，因此不会执行任何`__exit__`方法，同时返回了一个最初stack的副本，然后可以在任意时候调用`close`方法手动的进行清理：

In [61]:
stack_copy.close()

exit cm2
exit cm1


#### closing

如果一个对象没有`__enter__`和`__exit__`方法，但是有`close`方法，那么可以直接使用contextlib的`closing`方法，比如：

In [62]:
class C:
    def close(self):
        print("close c")
        
with closing(C()):
    print("in with")

in with
close c


它的原理如下：
```python
class closing(object):
    def __init__(self, thing):
        self.thing = thing
    def __enter__(self):
        return self.thing
    def __exit__(self, *exc_info):
        self.thing.close()
```

### subprocess模块

- [官网地址](https://docs.python.org/zh-cn/3/library/subprocess.html)

官网关于参数的一些说明：
> args 被所有调用需要，应当为一个字符串，或者一个程序参数序列。提供一个参数序列通常更好，它可以更小心地使用参数中的转义字符以及引用（例如允许文件名中的空格）。如果传递一个简单的字符串，则 shell 参数必须为 True （见下文）或者该字符串中将被运行的程序名必须用简单的命名而不指定任何参数。  
stdin， stdout 和 stderr 分别指定了执行的程序的标准输入、输出和标准错误文件句柄。合法的值有 PIPE 、 DEVNULL 、 一个现存的文件描述符（一个正整数）、一个现存的文件对象以及 None。 PIPE 表示应该新建一个对子进程的管道。 DEVNULL 表示使用特殊的文件 os.devnull。当使用默认设置 None 时，将不会进行重定向，子进程的文件流将继承自父进程。另外， stderr 可能为 STDOUT，表示来自于子进程的标准错误数据应该被 stdout 相同的句柄捕获。  
如果 encoding 或 errors 被指定，或者 text （也名为 universal_newlines）为真，则文件对象 stdin 、 stdout 与 stderr 将会使用在此次调用中指定的 encoding 和 errors 以文本模式打开或者为默认的 io.TextIOWrapper。  
当构造函数的 newline 参数为 None 时。对于 stdin， 输入的换行符 '\n' 将被转换为默认的换行符 os.linesep。对于 stdout 和 stderr， 所有输出的换行符都被转换为 '\n'。更多信息，查看 io.TextIOWrapper 类的文档。

subprocess主要用来新开一个子进程执行外部程序，比如说要通过python代码来运行QQ，打开浏览器或者运行cmd里面的命令，学习过程中遇到一些疑问，特别记录下来：
1. 为什么运行`subprocess(["dir"])`报错，提示系统找不到指定的文件？

In [63]:
import subprocess

try:
    subprocess.run(["dir"])
except FileNotFoundError as e:
    print(e)

[WinError 2] 系统找不到指定的文件。


因为"dir"属于shell内部集成的命令，系统中并不存在"dir"这样一个可执行文件，如果要运行shell内部集成的命令，可以添加`shell=True`参数。

In [64]:
subprocess.run(["dir"], shell=True)

CompletedProcess(args=['dir'], returncode=0)

2. 为什么在shell里面执行`subprocess.run(["dir"], shell=True)`可以显示结果，而在idle解释器里面执行却不显示？  
这个问题涉及到进程和子进程的通信等一些底层的实现，没有完全弄清楚，大概的猜想是`subprocess.run(["dir"], shell=True)`是在一个子进程中执行，子进程的stdout、stderr和父进程的不一定一样，如果父进程是idle解释器，子进程和父进程的stdout和stderr不同，所以不会打印。idle解释器的stdout是对底层的包装，是一个对象，甚至没有fileno这样的描述符编号，所以如果像下面这样设置，会提示`UnsupportedOperation: fileno`错误。而如果在shell里面执行脚本或者shell的交互式界面执行，父子进程的stdout，stdin是相同的（不确定是相同的，还是因为子进程可以将结果返回给父进程的stdout和stderr），所以可以打印。

In [65]:
try:
    subprocess.run(["dir"], shell=True, stdout=sys.stdout)
except Exception as e:
    print(e)

name 'sys' is not defined


这里的`sys.stdout`实际上是jupyter的ipykernel内核的一个对象，如下。其根本没有对应的底层的fileno描述符，输入`sys.stdout.fileno()`会报错。在python自带的idle里面运行也一样，`sys.stdout`是`<idlelib.run.StdOutputFile object at 0x00000144A66C0908>`对象，同样调用`sys.stdout.fileno()`会报错，而在shell里面，返回的结果是`<_io.TextIOWrapper name='<stdout>' mode='w' encoding='utf-8'>`,其有`fileno`属性，调用`sys.stdout.fileno()`会返回对应的文件句柄。

所以，当我们运行`sys.stdout`，不同的环境返回的对象其实是不同的，都是对底层的`stdout`,`stderr`等文件句柄的封装对象，像idle解释器，封装对象并没有暴露底层句柄的`fileno`。

In [66]:
sys.stdout

NameError: name 'sys' is not defined

3. 如何捕获子进程的输出？ 
  3.7以后可以通过`capture_output=True`，3.7之前可以通过`stdout=subprocess.PIPE, stderr=subprocess.PIPE`，然后访问结果的`result.stdout`或者`result.stderr`即可。
```python
r = subprocess.run(["dir"], shell=True, capture_output=True)
r.stdout
```
另外，输入的是字节字符串，3.7以后，可以直接使用`text=True`参数，这样返回的就是普通的字符串:
```python
r = subprocess.run(["dir"], shell=True, capture_output=True, text=True)
print(r.stdout)
```
在3.7之前，使用`universal_newlines`参数，两者是一样的，只是换了个名字。

4. 如何完全抑制输出？  
如果想要完全抑制子进程的输出，可以设置`stdout=subprocess.DEVNULL`，错误也是一样。注意，设置`capture_text=False`只是不捕获，不会抑制子进程的输出。

5. check参数起什么作用？  
如果子进程返回的retcode不为0，表示子进程发生了错误，如果设置了`check=True`，此时主进程会抛出一个`CalledProcessError`错误，如果设置为`False`，则不会抛出错误。

#### subprocess.run

`subprocess.run`是python3.5以后加入的高层API，是首选的方法，函数签名为：
```python
subprocess.run(args, *, stdin=None, input=None, stdout=None, stderr=None, capture_output=False, shell=False, cwd=None, timeout=None, check=False, encoding=None, errors=None, text=None, env=None, universal_newlines=None, **other_popen_kwargs)
```
其中有一些参数不是很好理解，以下是基本的解释：
- stdin：定义子进程的输入，因为子进程和主进程的stdin,stdout,stderr是独立的，脚本和命令行解释器是在主进程里面执行，比如`print(input())`，此时是在主进程里面等待输入，如果在子进程里面等待输入，则需要将主进程的stdin传给子进程，比如：
```python
subprocess.run(["python", "-c", "print(f'{input()} is from main process.')"], stdin=sys.stdin)
```
`sys.stdin`是主进程的输入，`stdin=sys.stdin`表示子进程的输入就是当前主进程的输入，运行时当前程序会暂停，等待输入，运行结果如下：
```python
hello world!
hello world! is from main process.
CompletedProcess(args=['python', '-c', "print(f'{input()} is from main process.')"], returncode=0)
```
最后返回一个`CompletedProcess`对象。当然默认的stdin，stdout和stderr和主进程相同，不需要单独设置`stdin=sys.stdin`。
- check：一般情况下，当子进程执行程序出现错误，会抛出错误，但是当设置`capture_text`为True时，会捕获这些错误，存放在`CompletedProcess`对象的`stderr`属性里，可以调用`CompletedProcess`对象的`check_returncode()`方法重新抛出该错误。而当设置check参数为True时，此时会直接抛出错误，所以`check`参数总是和`capture_text`参数搭配使用。

#### subprocess.check_output

`check_output()`就相当于`run(..., check=True, stdout=PIPE.stdout)`：
1. 子进程返回的returnCode如果不是0，则抛出`CalledProcessError`错误，错误会打印到主进程的stderr（即用户的屏幕）。
2. 子进程的stdout的输出通过管道返回给主进程，因此`check_output()`的返回值是子进程的打印内容。

在很多书上老是看到将`stderr`设置为`subprocess.STDOUT`，比如有如下的代码：
```python
r = subprocess.check_output("gecho hello;exit 0", shell=True)
```
此时会打印`/bin/sh: gecho: command not found`，返回值r为`b''`，因为命令gecho不对，但是由于returnCode为0，不会抛出`CalledProcessError`错误，而子进程的错误信息默认情况下会返回到主进程的stderr，即打印到屏幕上，而stdout由于什么都没有打印，所以返回`b''`。

如果想要捕获这个错误，则可以：
```python
r = subprocess.check_output("gecho hello;exit 0", shell=True, stderr=subprocess.STDOUT)
```
`subprocess.STDOUT`相当于子进程的`stdout`,因此这里相当于把子进程的`stderr`重定向到子进程的`stdout`，`stdout`的打印内容又通过`PIPE`返回给主进程，因此最后捕获了错误，r的结果为`/bin/sh: gecho: command not found`。

#### 命令中使用管道

使用`subprocess.run`时，如果命令中包含管道，比如`ps -ef | grep chrprocesser`命令，使用数组作为参数，会抛出错误，提示ps用法不对，如果加上`shell=True`，虽然可以返回结果，但是不正确，具体原因暂时未知。解决方法有好几种：
1. 直接使用字符串作为run的参数，注意，只要使用到管道，shell都需要设置为True：
```python
subprocess.run("ps -ef | grep chrprocesser", shell=True)
```

### telnetlib中各种read的意义

- [telnetlib中各种read的意义](https://blog.csdn.net/ilufam1314/article/details/84874295)

使用telnetlib的`expect`接收数据发现一个问题，程序是登录到服务器上面执行指令，指令执行完毕以后等待数据返回，同时配置了期待的正则，比如`>\s*$`号，本意是当返回的数据结尾为`>\s*`，则认为捕获到执行界面的提示符，指令执行完毕。结果发现报告返回不全，有时多，有时少，检查发现所有返回的报告结尾都是`>`加空格。

出现问题的原因推测是，返回的报告里面包含有`>`，telnet返回数据并不是一次性的全部返回，它是流式的，当返回的部分数据刚好是以`>`结尾时，程序就会认为已经返回完毕，导致返回的报告不全。 

即`expect`并不是等到所有数据返回以后，再去进行匹配，而是只要有数据返回就会去进行匹配，当返回的部分数据正好是以`>`结尾时，程序就会返回，从而导致报告返回不全的问题。

### sys模块

#### 使用`sys.stdin`进行交互

平时我们与用户交互，大部分时候都是使用`input`函数，但是`input`只能接收单行。如果想接收多行的话呢？此时我们可以使用`sys.stdin.read()`，`sys.stdin.readlines()`,`sys.stdin.readline()`方法。但是有个小问题，多行输入的时候如何才能结束呢？

这里涉及到一个系统方面的知识，只有输入`EOF`（end of file)文件结束符，系统才认为你的输入已经结束。对于windows来说，`EOF`是`CTRL+Z`的组合，对于Linux，`EOF`是`CTRL+D`的组合。

这里有几点要注意：
1. 对于windows系统，每当我们输入一行按回车的时候，系统会把这一行数据先送到一个缓存存储起来。当在一行的中间或者末尾按下`CTRL+Z`，系统不会认为这是一个`EOF`，而是把它当作一个普通的字符。当在一行的行首按下`CTRL+Z`，系统就会认为这是一个`EOF`，然后把缓存中的数据全部输出到程序。研究以下代码：
```
>>> r = sys.stdin.read()
the sky is ^Z blue,
the sea is blue^Z,
^Z
>>> r
'the sky is \x1a blue,\nthe sea is blue\x1a,\n'
```
可见，`CTRL+Z`在行首才能结束输入，否则系统只是把它当作`\xla`的字符。
2. linux目前还未测试，但是它与windows不同，待以后测试后补上。

#### 获取python执行程序的位置

`sys.executable`可以获取python在本机的可执行程序的位置。

In [67]:
import sys

sys.executable

'D:\\programs\\anaconda3\\python.exe'

### 神奇的`Inspect`

`inspect`模块提供了一些有用的函数帮助获取对象的信息，例如模块、类、方法、函数、回溯、帧对象以及代码对象。例如它可以帮助你检查类的内容，获取某个方法的源代码，取得并格式化某个函数的参数列表，或者获取你需要显示的回溯的详细信息。

该模块提供了4种主要的功能：类型检查、获取源代码、检查类与函数、检查解释器的调用堆栈。  
- 点此查看[官方文档](https://docs.python.org/zh-cn/3.7/library/inspect.html#inspect.Signature.bind_partial)。

#### 对象类型检查

我们有时候需要判断一个对象是一个类，还是一个方法，或者一个函数，此时可以使用`inspect`的各种方法，如：

In [68]:
import inspect

class C:
    """
    C class
    """
    def add(self, a, b):
        return a + b

inspect.isclass(C)

True

`inspect`的以`is`开头的方法一般都是进行类型检查的方法，具体可以查看官方文档。

#### 获取对象的成员

`getmembers`方法可以获取传入对象的成员，比如：

In [69]:
inspect.getmembers(C)

[('__class__', type),
 ('__delattr__', <slot wrapper '__delattr__' of 'object' objects>),
 ('__dict__',
  mappingproxy({'__module__': '__main__',
                '__doc__': '\n    C class\n    ',
                'add': <function __main__.C.add(self, a, b)>,
                '__dict__': <attribute '__dict__' of 'C' objects>,
                '__weakref__': <attribute '__weakref__' of 'C' objects>})),
 ('__dir__', <method '__dir__' of 'object' objects>),
 ('__doc__', '\n    C class\n    '),
 ('__eq__', <slot wrapper '__eq__' of 'object' objects>),
 ('__format__', <method '__format__' of 'object' objects>),
 ('__ge__', <slot wrapper '__ge__' of 'object' objects>),
 ('__getattribute__', <slot wrapper '__getattribute__' of 'object' objects>),
 ('__gt__', <slot wrapper '__gt__' of 'object' objects>),
 ('__hash__', <slot wrapper '__hash__' of 'object' objects>),
 ('__init__', <slot wrapper '__init__' of 'object' objects>),
 ('__init_subclass__', <function C.__init_subclass__>),
 ('__le__', <slo

它还可以传入第二个参数，对对象的成员进行过滤，`callable`类型的函数都可以作为第二个参数，`is`开头的方法也可以，这样的比如：

In [70]:
inspect.getmembers(C, inspect.isfunction)

[('add', <function __main__.C.add(self, a, b)>)]

#### 提取源码

主要有如下方法：
- `getsource`：可以获取对象的源代码。
- `getdoc`：获取对象的文档字符串，用`cleandoc()`清理。如果没有提供对象的文档字符串，而对象是类、方法、属性或描述符，则从继承层次结构中检索文档字符串。
- `getfile`：返回定义对象的(文本或二进制)文件的名称。如果对象是内置模块、类或函数，则此操作将失败，并带有类型错误。
- `getmodule`：尝试猜测对象是在哪个模块中定义的。

注意，传入对象时，需要先导入对象。另外，上面某些方法，官方文档提示内置模块、类或者函数会导致失败，但是测试是可以的。但如果对象和`inspect`的代码在同一个文件中，就会失败，比如：

In [71]:
try:
    inspect.getfile(C)
except TypeError as e:
    print(e)

<class '__main__.C'> is a built-in class


#### 使用签名对象内省`callable`对象

从字面上看，这个功能比较难理解，主要的应用场景就是函数的参数类型检查，还是通过代码来理解：

In [72]:
def func(a, b):
    return a + b

sig = inspect.signature(func)

首先通过`inspect.signature(function)`方法获取一个函数的签名，返回一个`signature`对象，可以通过`signature`对象的`parameters`方法获取签名中的参数，返回的是一个有序的包含参数名称和参数对象的映射：

In [73]:
sig.parameters

mappingproxy({'a': <Parameter "a">, 'b': <Parameter "b">})

每一个参数，这里称为形参，都是一个`Parameter`对象，可以通过这个对象，可以返回参数的注释、名称、类型等等信息：

In [74]:
a = sig.parameters['a']
a.annotation

inspect._empty

In [75]:
a.name

'a'

可以使用`Signature`的`bind`，或者`bind_partial`方法将参数和实际的值（实参）进行绑定，绑定了以后返回一个`BoundAuguments`对象，它有一个`arguments`属性，返回一个有序字典，包含绑定的所有形参->实参对：

In [76]:
ba = sig.bind(1, 2)
ba

<BoundArguments (a=1, b=2)>

In [77]:
ba.arguments

{'a': 1, 'b': 2}

整个过程就是这样，举个不怎么恰当的例子加深理解，比如，我们要检查一个函数中有没有`a`这个参数，如果没有则抛出`ValueError`错误，否则将a设置为1：

In [78]:
import inspect
from inspect import signature


def check_a(func):
    def wrapper(*args, **kwargs):
        sig = signature(func)
        if 'a' in sig.parameters:
            ba = sig.bind(*args, **kwargs)
            ba.arguments['a'] = 1
            return func(*ba.args, **ba.kwargs)
        else:
            raise ValueError("has no 'a' parameter")
    return wrapper

@check_a
def func(a, b):
    return a + b

func(5, 2)

3

In [79]:
@check_a
def func(b, c):
    return b + c

try:
    func(1, 2)
except ValueError as e:
    print(e)

has no 'a' parameter


下图简单的梳理了一下它们的关系：

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

#### 使用`getfullargspec`获取函数签名

除了使用`inspect.signature`，还可以使用`getfullargspec`获取详细的函数签名，如下：

In [80]:
def add(a, b, debug=False, *, c=3, **kwargs):
    return a + b

argspec = inspect.getfullargspec(add)
print(argspec)

FullArgSpec(args=['a', 'b', 'debug'], varargs=None, varkw='kwargs', defaults=(False,), kwonlyargs=['c'], kwonlydefaults={'c': 3}, annotations={})


In [81]:
'a' in argspec

False

其中`varargs`和`varkw`指的是`*args, **kwargs`形式的参数调用。

#### 修改函数签名

有时候我们可能在装饰器中要手动添加参数，此时有个问题就是如果添加了参数，而且又使用了`wraps`，则函数签名不会发生变化，因此需要手动修改函数签名，举个例子：

In [82]:
from functools import wraps
import inspect
from time import time


# 如下装饰器，如果传入的debug参数为True，则计时，否则原样返回原函数结果
def optional_debug(func):
    sig = inspect.signature(func)
    if 'debug' in sig.parameters:
        raise TypeError("debug argument is already defined!")
    @wraps(func)
    def wrapper(*args, debug=False, **kwargs):  # 装饰器添加了debug参数
        if debug:
            starttime = time()
            result = func(*args, **kwargs)
            endtime = time()
            elapse = endtime - starttime
            print(f"take {elapse} second")
            return result
        else:
            return func(*args, **kwargs)
    return wrapper

In [83]:
@optional_debug
def fibonacci(n):
    if n < 3:
        return n
    else:
        return fibonacci(n-1) + fibonacci(n-2)

In [84]:
fibonacci(20, debug=True)

take 0.005993843078613281 second


10946

In [85]:
fibonacci(20)

10946

此时，由于使用了`wraps`，原函数的签名替换了装饰器的函数签名，因此，查看此时装饰器的函数签名仍然为原函数的函数签名，缺少`debug`这个关键字参数：

In [86]:
sig = inspect.signature(fibonacci)
print(sig)

(n)


此时，需要在装饰器中，手动的把`default`关键字参数添加到函数签名中去：

In [87]:
def optional_debug(func):
    sig = inspect.signature(func)
    if 'debug' in sig.parameters:
        raise TypeError("debug argument is already defined!")
    @wraps(func)
    def wrapper(*args, debug=False, **kwargs):  # 装饰器添加了debug参数
        if debug:
            starttime = time()
            result = func(*args, **kwargs)
            endtime = time()
            elapse = endtime - starttime
            print(f"take {elapse} second")
            return result
        else:
            return func(*args, **kwargs)
    
    # 注意修改函数签名的步骤，只需要修改sig.parameters.values()即可，返回的是一个odict_values对象，无法修改，需要先转换成list
    params = list(sig.parameters.values())
    params.append(inspect.Parameter('debug', inspect.Parameter.KEYWORD_ONLY, default=False))
    # 普通函数是没有__signature__特殊方法的，添加了该方法后，inspect.signature会将该方法的返回值作为函数签名
    wrapper.__signature__ = sig.replace(parameters=params)
    return wrapper

In [88]:
@optional_debug
def fibonacci(n):
    if n < 3:
        return n
    else:
        return fibonacci(n-1) + fibonacci(n-2)

In [89]:
print(inspect.signature(fibonacci))

(n, *, debug=False)


可见，`debug`关键字参数已经添加到了返回的装饰器的函数签名中。

#### 函数内部获取自身的名称

1. 可以通过`sys._getframe().f_code.co_name`获取函数名称。
2. 也可以通过`inspect.stack()[0][3]`在函数内部获取自身的名称，注意：0,3是固定的，`stack`返回一个`FrameInfo`对象的列表：

In [90]:
import inspect


def func():
    print(inspect.stack()[0])
    print("=" * 100)
    for i in inspect.stack()[0]:
        print(i)
    print("=" * 100)
    print(f"My name is {inspect.stack()[0][3]}")


func()

FrameInfo(frame=<frame at 0x000001BB1D7D6550, file 'C:\\Users\\admin\\AppData\\Local\\Temp/ipykernel_11180/3736175315.py', line 5, code func>, filename='C:\\Users\\admin\\AppData\\Local\\Temp/ipykernel_11180/3736175315.py', lineno=5, function='func', code_context=['    print(inspect.stack()[0])\n'], index=0)
<frame at 0x000001BB1D7D6550, file 'C:\\Users\\admin\\AppData\\Local\\Temp/ipykernel_11180/3736175315.py', line 8, code func>
C:\Users\admin\AppData\Local\Temp/ipykernel_11180/3736175315.py
7
func
['    for i in inspect.stack()[0]:\n']
0
My name is func


### logging

Python自带的logging确实很强大，看起来很容易使用，但是坑很多，非常容易出错。 

#### 基础使用

python的logging日志记录模块非常强大，使用也很简单，但是特别容易出各种意外状况，打印各种出乎意料的log。最近对logging的一些原理进行了学习，再此做个记录，以备忘。  
首先全面的了解一下整体的结构。logging默认就有一个root的Logger对象，输入logging.root可以看到，默认为warning级别：  
```python
>>> logging.root
<RootLogger root (WARNING)>
```
用户自行创建的所有logger对象，都是root的子对象。
```
>>> logger = logging.getLogger('logger')
>>> logger.parent
<RootLogger root (WARNING)>
```
需要注意的是，当getLogger()不带参数时，返回的就是rootLogger对象本身。
```Python
>>> logger = logging.getLogger()
>>> logger
<RootLogger root (WARNING)>
>>> logger is logging.root
True
```
创建了Logger对象，接下来我们需要创建handler对象，handler对象是用来配置处理log时用的格式，级别等等特性的，我们可以根据需求创建各种不同的handler，比如将log记录保存在文件的FileHandler，将log输出到屏幕的StreamHandler，支持日志根据时间回滚的TimedRotatingFileHandler，根据文件大小回滚的RotatingFileHandler等等（回滚不太好理解，根据时间或文件大小回滚其实就是根据时间或者文件大小来保存日志，比如只保存3天的日志，超过3天的就自动删除，或者设置日志文件只能为一定大小，超过就删除）。  
各种handler网上各种文章都有介绍，或者查官方文档，这里就不列举了。稍微一提的是，最常用的FileHandler和StreamHandler在logging下，其它的handler在logging.handlers下。另外，logger和handler的level可以分别设置，以满足不同的需求。    
创建了handler，就要把它添加到logger对象中去，logger对象有一个handlers属性，其实就是一个简单的列表，可以看到所有添加给它的hanlder。如下：
```Python
>>> logger = logging.getLogger('spam')
>>> handler = logging.StreamHandler()
>>> logger.addHandler(handler)
>>> logger.handlers
[<StreamHandler <stderr> (NOTSET)>]
```
可见，logger对象添加了handler，是一个输出到stderr，级别未设置的handler。此时，就可以通过logger对象输出各种logger了，如：
```Python
>>> logger = logging.getLogger('spam')
>>> handler = logging.StreamHandler()
>>> formatter = logging.Formatter("%(asctime)s-%(levelname)s-%(message)s")
>>> handler.setFormatter(formatter)
>>> handler.setLevel(logging.INFO)
>>> logger.addHandler(handler)
>>> logger.handlers
[<StreamHandler <stderr> (INFO)>]
>>> logger.setLevel(logging.INFO)
>>> logger.info('info')
2019-03-31 11:59:41,933-INFO-info
```

#### 打印参数

使用logging打印消息的时候，除了输入`message`，有几个地方要注意：
1. 可以输入多个位置参数，除第一个是message外，后面的都对应着message的格式化参数，如：

In [91]:
import logging

logging.basicConfig(level=logging.DEBUG)
logging.info("%s wrong happend!", "TypeError")

INFO:root:TypeError wrong happend!


2. 如果要打印异常，可以传入一个`exc_info`的关键字参数，该参数可以等于某个异常实例或者异常三元组，也可以是布尔值，如果为True，默认取`sys.exc_info`返回的三元组，另外，要捕获异常的话，必须放在`try`这样包含异常的上下文中。

In [92]:
import logging

try:
    raise KeyError("key error")
except Exception:
    logging.error("found error", exc_info=True)

ERROR:root:found error
Traceback (most recent call last):
  File "C:\Users\admin\AppData\Local\Temp/ipykernel_11180/3558961636.py", line 4, in <module>
    raise KeyError("key error")
KeyError: 'key error'


3. 除了打印异常，还可以打印堆栈，只需要设置`stack_info`，注意堆栈不是异常，不需要在`try`这样的上下文中，另外3.8以后还有个`stacklevel`关键字参数，可以指定打印的层级。

#### 输出过滤

除了定制不同级别的level，logger还可以添加filter对象来对输出进行更加复杂的控制。filter和handler一样，先进行配置，然后再添加到logger对象中。所有日志在输出之前，都会先通过filter进行过滤。创建filter要先创建一个继承自logging.Filter的类，代码如下：

In [93]:
import logging
import sys


class ContextFilter(logging.Filter):
    def filter(self, record):
        if record.role == "admin":
            return True
        else:
            return False


logger = logging.getLogger("Wechat")
logger.setLevel(logging.DEBUG)
handler = logging.StreamHandler(sys.stdout)
formatter = logging.Formatter(
                '%(asctime)s %(levelname)s:%(message)s Role:%(role)s')
handler.setFormatter(formatter)
logger.addHandler(handler)

f = ContextFilter()
logger.addFilter(f)
logger.info('An info message with %s', 'some parameters',
            extra={"role": "admin"})
logger.info('An info message with %s', 'some parameters',
            extra={"role": "hacker"})

2023-10-10 10:38:13,420 INFO:An info message with some parameters Role:admin


INFO:Wechat:An info message with some parameters


从3.2以后，不一定非要创建一个logging.Filter子类，只要是有filter属性的任何对象或者函数都行，后台会检查这个对象是否有filter属性，如果有，则会调用这个对象的filter()方法，没有的话就把它当作一个callable对象，直接执行，并且把records当作一个参数传递给这个callable对象。
```Python
import logging
import sys


def myfilter(record):
    if record.role == "admin":
        return True
    else:
        return False


if __name__ == '__main__':
    logger = logging.getLogger("Wechat")
    logger.setLevel(logging.DEBUG)
    handler = logging.StreamHandler(sys.stdout)
    formatter = logging.Formatter(
            '%(asctime)s %(levelname)s: %(message)s Role: %(role)s')
    handler.setFormatter(formatter)
    logger.addHandler(handler)
    logger.addFilter(myfilter)
    logger.info('An info message with %s', 'some parameters',
                extra={"role":"admin"})
    logger.info('An info message with %s', 'some parameters',
                extra={"role":"hacker"}
```
需要注意的是，如果使用上面的例子，那么在每一条日志记录里面，都需要加上一条extra={"role":"xxx"}，因为所有的日志record对象都会先通过filter过滤，此时会检查record是否有role属性，如果没有设置，显然会报错。  
其实除了过滤这一种用法，filter还可以通过在函数里面给record添加属性，方便的增加自定义的字段。还是看例子：
```Python
def myfilter(record):
	record.user = 'telecomshy'
	return True

>>> logger = logging.getLogger()
>>> logger.addFilter(myfilter)
>>> import sys
>>> fmt = logging.Formatter("%(levelname)s-%(asctime)s-%(message)s-%(user)s")
>>> handler = logging.StreamHandler(sys.stdout)
>>> handler.setLevel("DEBUG")
>>> handler.setFormatter(fmt)
>>> logger.addHandler(handler)
>>> logger.setLevel("DEBUG")
>>> logger.info('hello world')
INFO-2019-04-05 11:55:28,764-hello world-telecomshy
```
如上，通过使用filter，现在可以在formatter里面使用'user'这个自定义的字段了。

#### 常见问题

##### 为什么log会输出重复内容

首先，平时在log输出的时候，经常会发现，莫名奇妙的会输出重复的内容，主要有以下几个可能的原因：  
1. 前面说过，任何自定义的logger对象都是rootLogger的子对象，就像这样，rootLogger(parent)->Logger(child)，而当你使用自定义的logger记录日志的时候，它会从子到父，从左到右依次执行所有的handler来输出，看代码：
```Python
>>> rootLogger = logging.getLogger()
>>> rootLogger.setLevel(logging.INFO)
>>> roothandler = logging.StreamHandler()
>>> fmt = logging.Formatter("%(name)s-%(levelname)s-%(message)s")
>>> roothandler.setLevel(logging.INFO)
>>> roothandler.setFormatter(fmt)
>>> rootLogger.addHandler(roothandler)
>>> rootLogger.handlers
[<StreamHandler <stderr> (INFO)>]
>>> childLogger = logging.getLogger("child")
>>> childLogger.setLevel(logging.INFO)
>>> childhandler = logging.StreamHandler()
>>> childhandler.setLevel(logging.INFO)
>>> childhandler.setFormatter(fmt)
>>> childLogger.addHandler(childhandler)
>>> childLogger.handlers
[<StreamHandler <stderr> (INFO)>]
>>> childLogger.info('i am child')
child-INFO-i am child
child-INFO-i am child
```
日志输出了2次，注意输出的logger name，虽然有一个是rootLogger的handler输出的，但是name还是子logger的。

2. 有人可能会说，上面这个情况不太可能会发生，因为我直接设置一个子logger就ok了，是这样没错，but，当你直接使用logging.basicConfig对rootLogger对象进行配置或者在创建自己的logger对象之前，用logging.info等命令输出过日志的时候，logging会自动的（偷偷摸摸的）给你创建一个streamhandler，如下：
```Python
>>> root = logging.getLogger()
>>> root.handlers
[]
>>> logging.basicConfig(level=logging.INFO)
>>> root.handlers
[<StreamHandler <stderr> (NOTSET)>]
```
```Python
>>> root = logging.getLogger()
>>> root.handlers
[]
>>> logging.info('i am root')
>>> root.handlers
[<StreamHandler <stderr> (NOTSET)>]
```
现在明白为什么有时候创建了一个logger以后，会莫名其妙重复多次输出日志了吧？  
再来看一个官网的例子：
```python
FORMAT = '%(asctime)-15s %(clientip)s %(user)-8s %(message)s'
logging.basicConfig(format=FORMAT)
d = {'clientip': '192.168.0.1', 'user': 'fbloggs'}
logger = logging.getLogger('tcpserver')
logger.warning('Protocol problem: %s', 'connection reset', extra=d)
```
输出为：
```python
2021-07-07 23:32:45,858 192.168.0.1 fbloggs  Protocol problem: connection reset
```
只有一行。查看logger.handlers为空，查看logger.root.handlers为`[<StreamHandler <stderr> (NOTSET)>]`。所以，实际上logger是没有handler的，warning消息向上传递，由root的handler处理了。真的是很容易出错啊。

##### 为什么某些IDE的log记录会越来越多

3、还有一种情况，也堪称巨坑。当使用IDE工具编程的时候，整个IDE会话不结束，logger的handlers列表不清空！这就导致反复运行程序的时候，handler会反复添加，结果你会发现log输出越来越多。。。。。如下：
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
第一次运行，一个handler，第二次运行，变2个了，怎么办呢？可以在程序结尾加一行代码root.removeHandler(handler)，或者简单粗暴一点，直接root.handlers=[]，每次程序运行完，将handlers列表全清空。  
差不多就这些吧，最后还有一个小知识点，有些同学会问，为啥我自定义的logger啥handler都没加的时候，也有输出呢？比如：
```Python
>>> import logging
>>> logger = logging.getLogger('child')
>>> logger.handlers
[]
>>> logging.root.handlers
[]
>>> logger.warning('i am child')
i am child
```
因为logging模块有一个默认的hanlder，可以通过logging.lastResort查看，如下：
```Python
>>> logging.lastResort
<_StderrHandler <stderr> (WARNING)>
```
这个handler没有和任何logger关联，专门处理用户啥都没配置的情况，可见，默认级别是warning，默认输出是stderr（注意是stderr而不是标准的stdout，因此如果你采取这种方式输出日志又进行了重定向，很有可能达不到想要的效果），仅仅输出一个message，其它啥都没有。   

##### 为什么basicConfig不起作用

某些情况下baseConfig设置不起作用，如下：

```python
import logging

logging.info("hello world!")  # 不会打印
logging.basicConfig(level=logging.INFO)
logging.info("hello world!")  # 仍然不打印，basicConfig设置不起作用
```
但是这样又可以打印了，不能运行上一行代码，否则不打印：

In [94]:
import logging
logging.basicConfig(level=logging.INFO)
logging.info("hello world!")  # basicConfig设置起作用了
logging.basicConfig(level=logging.WARNING)
logging.info("hello world!")  # basicConfig设置又不起作用了，仍然打印

INFO:root:hello world!
INFO:root:hello world!


个人推测，使用`basicConfig`进行配置的时候，会首先检查rootLogger是否包含handler，如果已经包含handler，则不会对rootLogger的level进行修改，如果不包含，则会给rootLogger添加一个没有设置级别的`StreamHandler`，然后再修改logger的level。

而如果你先运行了类似`logging.info`这样的打印语句，会偷偷给`rootLogger`添加一个没有设置级别的`StreamHandler`，因此再使用`basicConfig`设置`level`就不起作用了。