## datetime

UTC

timestamp

timestamp 1970年1月1日 00:00:00 UTC+00:00 epoch time

replace() 与 astimezone

### 小结
datetime表示的时间需要时区信息才能确定一个特定的时间，否则只能视为本地时间。

如果要存储datetime，最佳方法是将其转换为timestamp再存储，因为timestamp的值与时区完全无关。

### practise
假设你获取了用户输入的日期和时间如2015-1-21 9:01:30，以及一个时区信息如UTC+5:00，均是str，请编写一个函数将其转换为timestamp：

In [None]:
# -*- coding:utf-8 -*-

import re
from datetime import datetime, timezone, timedelta


def parse_utc_offset(offset_str: str) -> timezone:
    """将 'UTC+7:00' 或 'UTC-08:30' 转换为 datetime.timezone 对象"""
    match = re.fullmatch(r"UTC([+-])(\d{1,2}):(\d{2})", offset_str)
    if not match:
        raise ValueError(f"Invalid offset format: {offset_str}")
    
    sign, hours, minutes = match.groups()
    delta = timedelta(hours=int(hours), minutes=int(minutes))
    if sign == '-':
        delta = -delta
    return timezone(delta)

def to_timestamp(dt_str, tz_str):
    dt = datetime.strptime(dt_str, '%Y-%m-%d %H:%M:%S')
    dt = dt.replace(tzinfo=parse_utc_offset(tz_str))
    return dt.timestamp()

# 测试:
t1 = to_timestamp('2015-6-1 08:10:30', 'UTC+7:00')
assert t1 == 1433121030.0, t1

t2 = to_timestamp('2015-5-31 16:10:30', 'UTC-09:00')
assert t2 == 1433121030.0, t2

print('ok')

ok


## collections

- tuple 与 nametuple
```python
from collections import nametuple

Point = nametuple('Point', ['x', 'y'])
p = Point(1, 2)
```
- deque
- defaultdict
- OrderedDict (插入顺序)
- ChainMap
```python
combined = ChainMap(command_line_args, os.environ, defaults)
```
- Counter
### 小结
```collections```模块提供了一些有用的集合类，可以根据需要选用。

## argparse

- sys.argv 与 argparse

In [None]:
# backup.py

import argparse

def main():
    # 定义一个ArgumentParser实例:
    parser = argparse.ArgumentParser(
        prog='backup', # 程序名
        description='Backup MySQL database.', # 描述
        epilog='Copyright(r), 2023' # 说明信息
    )
    # 定义位置参数:
    parser.add_argument('outfile')
    # 定义关键字参数:
    parser.add_argument('--host', default='localhost')
    # 此参数必须为int类型:
    parser.add_argument('--port', default='3306', type=int)
    # 允许用户输入简写的-u:
    parser.add_argument('-u', '--user', required=True)
    parser.add_argument('-p', '--password', required=True)
    parser.add_argument('--database', required=True)
    # gz参数不跟参数值，因此指定action='store_true'，意思是出现-gz表示True:
    parser.add_argument('-gz', '--gzcompress', action='store_true', required=False, help='Compress backup files by gz.')


    # 解析参数:
    args = parser.parse_args()

    # 打印参数:
    print('parsed args:')
    print(f'outfile = {args.outfile}')
    print(f'host = {args.host}')
    print(f'port = {args.port}')
    print(f'user = {args.user}')
    print(f'password = {args.password}')
    print(f'database = {args.database}')
    print(f'gzcompress = {args.gzcompress}')

if __name__ == '__main__':
    main()

## Base64
- $2^6 = 64$
- 二进制 3 字节 -> 4 个编码后的字符
- 结尾补 ```\x00```, 并加上等号```=```，等号数目表示补了多少字节
- ```base64.b64encode()``` 与 ```base64.b64decode()```
- ```base64.urlsafe_b64encode()``` 与 ```base64.urlsafe_b64decode()```
- Base64 编码长度永远是 4 的倍数

### 小结
Base64是一种任意二进制到文本字符串的编码方法，常用于在URL、Cookie、网页中传输少量二进制数据。

### practise

请写一个能处理去掉=的base64解码函数：

In [6]:
import base64

def safe_base64_decode(s):
    s_len = len(s)
    if (s_len % 4):
        s = s + '=' * ((s_len % 4))
    return base64.b64decode(s)

# 测试:
assert b'abcd' == safe_base64_decode('YWJjZA=='), safe_base64_decode('YWJjZA==')
assert b'abcd' == safe_base64_decode('YWJjZA'), safe_base64_decode('YWJjZA')
print('ok')

ok


## struct
python 中用来处理字节数据类型的工具库

计算机中内存连续分布，内存地址逐渐增加。

big-endian: 数据的高位先存，也就是高位存在内存的低位（开端）。
little-endian: 数据的低位，也就是低位存在内存的低位（开端）。

## hashlib
Python的hashlib提供了常见的哈希算法，如MD5，SHA1等等。

什么是哈希算法呢？哈希算法又称摘要算法、散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串（通常用16进制的字符串表示）。

单向， 一个改动最终的结果就不同

- MD5
- SHA1
- SHA256
- SHA512

- 密码
- 安全
- 非加密
- 加盐


### 小结
哈希算法在很多地方都有广泛的应用。要注意哈希算法不是加密算法，不能用于加密（因为无法通过哈希反推明文），只能用于防篡改，但是它的单向计算特性决定了可以在不存储明文口令的情况下验证用户口令。

## hmac

hashlib + 盐

## itertools

创捷无限迭代器

- chain(): 将一组迭代器串联起来
- groupby(): 将相邻的重复元素放在一起返回。（可以通过函数定义这个重复）

## contextlib

上下文管理器，用来在指定的代码执行前后添加特定的功能。

例如打印相关信息，打开和关闭文件，连接服务器和断开服务器等。

- ```try...finally``` 和 ```with open```
- ```__enter__``` 和 ```__exit__```
- ```@contextmanager``` 与 ```yield```
- ```@closing```

## urllib

urllib提供了一系列用于操作URL的功能。

- get
- post
- Handler

### 小结
urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能，需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求，再根据浏览器的请求头来伪装，User-Agent头就是用来标识浏览器的。

## XML

- DOM 与 SAX
- 
### 小结
解析XML时，注意找出自己感兴趣的节点，响应事件时，把节点数据保存起来。解析完毕后，就可以处理数据。

## HTMLParser

HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

### 小结

利用HTMLParser，可以把网页中的文本、图像等解析出来。