# 常用的内建模块
"batteries included"，Python内置了很多有用的模块

## 1 datetime
处理日期和时间的标准库

###  1. 获取当前日期和时间

In [1]:
from datetime import datetime
now = datetime.now()
print('1.当前日期和时间:', now, type(now))

1.当前日期和时间: 2018-08-14 13:36:03.679281 <class 'datetime.datetime'>


### 2.获取指定日期和时间

In [2]:
from datetime import datetime
dt = datetime(2018, 7, 7, 12, 7)   # 用指定的时间创建一个datetime实例
print('1.指定的日期和时间:', dt)

1.指定的日期和时间: 2018-07-07 12:07:00


###  3.datetime转换为timestamp
自1970.01.01 00:00:00开始到当前的**秒数**称为timestamp

In [3]:
dt = datetime(2018, 7, 7, 12, 7)  # 用指定的时间创建一个datetime实例
print('1.指定日期的timestamp:', dt.timestamp())   # 把datetime转换为timestamp,+，小数点后的是毫秒

1.指定日期的timestamp: 1530936420.0


### 4.timestamp转换为datetime

In [4]:
t = 777777777
print(datetime.fromtimestamp(t))  # 将积累的秒数转换为日期

1994-08-25 09:22:57


一般的timestamp是不包含时区信息的，北京时间为：
2018-08-11 19:51:13 UTC+8:00


In [5]:
# 将本地时间转换到UTC标准时间
now = 1533989541.694892                    # 当前的时间timestamp
local_time = datetime.fromtimestamp(now)
print('1.本地时间:', local_time)
standard_time = datetime.utcfromtimestamp(now)   #北京是东八区，差8个小时
print('2.标准时间(UTC时间):', standard_time)

1.本地时间: 2018-08-11 20:12:21.694892
2.标准时间(UTC时间): 2018-08-11 12:12:21.694892


### 5.str与datetime互相转换

In [6]:
# 1. str转换到datetime，没有时区信息
from datetime import datetime
time_str = '2018-7-1 18:20:20'      # 日期的字符串
time_format = '%Y-%m-%d %H:%M:%S'   # 时间显示格式
cday = datetime.strptime(time_str, time_format)
print('1.字符串转为日期:', cday, type(cday))

1.字符串转为日期: 2018-07-01 18:20:20 <class 'datetime.datetime'>


In [7]:
# 2. datetime转换到str
now = datetime.now()
time_format = '%a, %b %d %H:%M'
time_str = now.strftime(time_format)
print('1.日期转字符串:', time_str, type(time_str))

1.日期转字符串: Tue, Aug 14 13:36 <class 'str'>


### 6.datetime加减

In [8]:
# 使用timedelta函数移动日期
from datetime import datetime, timedelta
now = datetime.now()
print('1.当前日期和时间:', now)
new_time = now + timedelta(hours=2, minutes=10)    # 直接使用+，可以快速推进时间
print('2.快进2个小时:', new_time)
new_time = now - timedelta(days=1, hours=1, minutes=1, seconds=20) 
print('3.快退后的时间:', new_time)

1.当前日期和时间: 2018-08-14 13:36:03.789575
2.快进2个小时: 2018-08-14 15:46:03.789575
3.快退后的时间: 2018-08-13 12:34:43.789575


### 7.时区转换

本地时间转换为UTC标准时间

北京时间：UTC+8:00，UTC时间:UTC+0:00

In [9]:
# 通过timezone为时间添加时区信息，初始化时区属性tzinfo，默认为None
from datetime import datetime, timezone, timedelta
tz_utc_8 = timezone(timedelta(hours=8))    # 创建时区UTC+8:00，如果是UTC-8:00直接将hours设为负数即可
print('1.新建时区:', tz_utc_8)
now = datetime.now()
print('2.当前日期和时间:', now)
new_time = now.replace(tzinfo=tz_utc_8)    # 添加时区信息
print('3.添加时区信息后的时间:', new_time.strftime('%Y-%m-%d %H:%M:%S %Z'))

1.新建时区: UTC+08:00
2.当前日期和时间: 2018-08-14 13:36:03.809630
3.添加时区信息后的时间: 2018-08-14 13:36:03 UTC+08:00


时区转换

In [10]:
# 先用utcnow()获取当前UTC的时间，再做转换
utc_dt = datetime.utcnow().replace(tzinfo=timezone.utc)
print('1.当前UTC的日期和时间:', utc_dt)
# 将时区转换为北京
bj_dt = utc_dt.astimezone(timezone(timedelta(hours=8)))       # 直接从UTC时区转换
print('2.北京的日期和时间:', bj_dt)
# 将时区转还为东京
tokyo_dt = utc_dt.astimezone(timezone(timedelta(hours=9)))    # 直接从UTC时区转换
print('3.东京的日期和时间:', tokyo_dt)
tokyo_dt2 = bj_dt.astimezone(timezone(timedelta(hours=9)))    # 从其他时区得到当前时区时间
print('  从北京得到东京的日期和时间:', tokyo_dt2)

1.当前UTC的日期和时间: 2018-08-14 05:36:03.821663+00:00
2.北京的日期和时间: 2018-08-14 13:36:03.821663+08:00
3.东京的日期和时间: 2018-08-14 14:36:03.821663+09:00
  从北京得到东京的日期和时间: 2018-08-14 14:36:03.821663+09:00


小结:
- timestamp的值与时区无关
- datetime需要添加时区信息才能得到一个特点的时间，否则当做本地时间

字符串转时间练习

In [11]:
# 将输入的日期和时区字符串信息转换为timestamp
# 方法一 使用列表切片
from datetime import datetime, timezone, timedelta
def str2timestamp(dt_str, tz_str):
    dt = datetime.strptime(dt_str, '%Y-%m-%d %H:%M:%S')    # 将str转换为datetime
    hours_num = int(tz_str[4:tz_str.index(':')])           # 提取出时区中的数
    flag = 1 if tz_str[3] == '+' else -1                   # 分辨时区的加或减
    dt_zone = timezone(timedelta(hours=flag*hours_num))    # 设置时区
    new_dt = dt.replace(tzinfo=dt_zone)                    # 添加时区的新时间
    print(new_dt.timestamp())
    return new_dt.timestamp()

t1 = str2timestamp('2015-6-1 08:10:30', 'UTC+7:00')
assert t1 == 1433121030.0, t1
t2 = str2timestamp('2015-5-31 16:10:30', 'UTC-09:00')
assert t2 == 1433121030.0, t2
print('ok')

1433121030.0
1433121030.0
ok


In [12]:
# 方法二 使用正则表达式
from datetime import datetime, timezone, timedelta
import re                # 正则表达式模块
def str2timestamp(dt_str, tz_str):
    dt = datetime.strptime(dt_str, '%Y-%m-%d %H:%M:%S') # dt_st要与格式相匹配
#     print(dt)
    zone_hours = int(re.match(r'^UTC([-+\d]+):\d+$', tz_str).group(1))   # 使用正则表达式提取hours
    dt_zone = timezone(timedelta(hours=zone_hours))
    new_dt = dt.replace(tzinfo=dt_zone)
#     print(new_dt)
    return new_dt.timestamp()
t1 = str2timestamp('2015-6-1 08:10:30', 'UTC+7:00')
assert t1 == 1433121030.0, t1
t2 = str2timestamp('2015-5-31 16:10:30', 'UTC-09:00')
assert t2 == 1433121030.0, t2
print('ok')

ok


## 2 colllections

Python的集合模块，提供许多有用的集合类

### 1.namedtuple
namedtuple('名称', [属性list])

为元组提供名称
例子：p=(1,2)，无法知道1,2的意义，如果定义类来表示元素的意义会增加复杂性，所以使用namedtuple

In [13]:
# 为元组提供意义
from collections import namedtuple
Point = namedtuple('Point_name', ['x', 'y'])  # Point_name只是表示该元组的类型名称，可以随意取
p = Point(1, 2)
print('1.点的坐标为:', p.x, p.y)
print('2.namedtuple的类型:', type(p))
print('3.namedtuple既是Point也是tuple:', isinstance(p, Point), isinstance(p, tuple))

1.点的坐标为: 1 2
2.namedtuple的类型: <class '__main__.Point_name'>
3.namedtuple既是Point也是tuple: True True


In [14]:
# 定义一个圆
Circle = namedtuple('Circle', ['x', 'y', 'r'])   # 定义有意义的元组
mycircle = Circle(2, 3, r=4)
print('1.定义的圆参数:', mycircle, type(mycircle))

1.定义的圆参数: Circle(x=2, y=3, r=4) <class '__main__.Circle'>


### 2.deque
双向列表实现高效的插入和删除操作，使用与队列和栈

In [15]:
# 用一个装饰器测试列表操作的时间
import time, functools
from collections import deque
def runtime(func): 
    @functools.wraps(func)       # 保证装饰后的函数名称前后一致,@符号别忘了加
    def wraper(*args, **kw):
        start_time = time.clock()     # 获取程序运行前的时间
        func(*args, **kw)             # 调用待装饰的函数
        execute_time = time.clock() - start_time   # 计算消耗的时间
        print('function {} consumes: {} ms'.format(func.__name__, execute_time *1000))
        return execute_time * 1000    # 返回消耗的时间
    return wraper                     #  返回装饰后的函数   

@runtime
def list_operation(mylist=[]):
    mylist = list(range(1000))
    mylist.append(1001)     # 列表尾部添加元素
    mylist.insert(0, -1)    # 列表头部添加元素
    mylist.pop(233)
    print(mylist[0], mylist[1000])
print('1.list操作消耗的时间:')
out = list_operation()

@runtime
def deque_operation(mydeque=[]):
    mydeque = deque(range(1000))
    mydeque.append(1001)      # 列表尾部添加元素
    mydeque.appendleft(-1)    # 列表头部添加元素
#     print(mydeque.pop()  )           # 从尾部删除一个元素
    print(mydeque[0], mydeque[100])
print('2.deque操作消耗的时间:')
out = deque_operation()

1.list操作消耗的时间:
-1 1001
function list_operation consumes: 0.045219414445050204 ms
2.deque操作消耗的时间:
-1 99
function deque_operation consumes: 0.06564108548475031 ms


In [16]:
# deque的功能
mydeque = deque([1,2,3,4,5,6,7])
print('1.原来的序列:', mydeque)
mydeque.append(8)       # 尾部添加新元素
print('2.append()尾部添加新元素:', mydeque)
mydeque.appendleft(0)
print('3.appendleft()头部添加新元素:', mydeque)
mydeque.pop()                                   # pop()中不可以加索引参数
print('4.pop()尾部删除元素:', mydeque)
mydeque.popleft()
print('5.popleft()头部删除元素:', mydeque)

1.原来的序列: deque([1, 2, 3, 4, 5, 6, 7])
2.append()尾部添加新元素: deque([1, 2, 3, 4, 5, 6, 7, 8])
3.appendleft()头部添加新元素: deque([0, 1, 2, 3, 4, 5, 6, 7, 8])
4.pop()尾部删除元素: deque([0, 1, 2, 3, 4, 5, 6, 7])
5.popleft()头部删除元素: deque([1, 2, 3, 4, 5, 6, 7])


### 3.defaultdict
在key不存在是可以返回设定的默认值，其他行为与dict一致

In [17]:
from collections import defaultdict
dd = defaultdict(lambda: 'N/A')    # 当访问不存在的key时，返回N/A
dd['key1'] = 'abc'
print('1.访问存在的key1:', dd['key1'])
print('2.访问不存在的key2，返回默认值:', dd['key2'])

1.访问存在的key1: abc
2.访问不存在的key2，返回默认值: N/A


### 4.OrderedDict
key有一定的顺序，按插入的顺序进行排练

In [18]:
from collections import OrderedDict
dic = OrderedDict([('a', 1), ('b', 2), ('c', 3)])
print('1.OrderedDict是有序的:', dic)
dic['x'] = 4
dic['y'] = 5
dic['z'] = 6
print('2.为OrderedDict添加元素:', dic)
dic.update({'o':22, 'p':33})
print('3.为OrderedDict连接新字典:', dic)
dic.pop('b')
print('4.删除key为b的值:', dic)

1.OrderedDict是有序的: OrderedDict([('a', 1), ('b', 2), ('c', 3)])
2.为OrderedDict添加元素: OrderedDict([('a', 1), ('b', 2), ('c', 3), ('x', 4), ('y', 5), ('z', 6)])
3.为OrderedDict连接新字典: OrderedDict([('a', 1), ('b', 2), ('c', 3), ('x', 4), ('y', 5), ('z', 6), ('o', 22), ('p', 33)])
4.删除key为b的值: OrderedDict([('a', 1), ('c', 3), ('x', 4), ('y', 5), ('z', 6), ('o', 22), ('p', 33)])


In [19]:
# OrderedDict实现一个FIFO的dict，当容量超出时，先删除最早添加的key
from collections import OrderedDict
class LastUpdateOrderedDict(OrderedDict):
    def __init__(self, capacity):
        super(LastUpdateOrderedDict,self).__init__()   # super().__init__() python3这样写就行
        self._capacity = capacity     
    def __setitem__(self, key, value):
        containsKey = 1 if key in self else 0      # 已经包含了该key
        if len(self) - containsKey >= self._capacity:  # 超出容量限制
            print(len(self), containsKey, self._capacity)
            last = self.popitem(last=False)            # 将头部的数据删除
            print('move:', last)
        if containsKey:
            del self[key]
            print('set:', (key, value))
        else:
            print('add:', (key, value))
        OrderedDict.__setitem__(self, key, value)      # 真正设置key-value的地方 
dic = LastUpdateOrderedDict(3)
dic['a'] = 1
dic['b'] = 2
dic['c'] = 3
print(dic)
dic['a'] = 4
print(dic)
dic['d'] = 5
print(dic)

add: ('a', 1)
add: ('b', 2)
add: ('c', 3)
LastUpdateOrderedDict([('a', 1), ('b', 2), ('c', 3)])
set: ('a', 4)
LastUpdateOrderedDict([('b', 2), ('c', 3), ('a', 4)])
3 0 3
move: ('b', 2)
add: ('d', 5)
LastUpdateOrderedDict([('c', 3), ('a', 4), ('d', 5)])


### 5.Counter
简单的计数器，统计字符出现的个数

In [20]:
from collections import Counter
c = Counter()                   # 以dict的形式统计字符 key-value key：字符，value：出现的次数
for ch in 'programming':
    c[ch] += 1
print('1.统计字符出现的次数:', c)

1.统计字符出现的次数: Counter({'r': 2, 'g': 2, 'm': 2, 'p': 1, 'o': 1, 'a': 1, 'i': 1, 'n': 1})


## 3 base64
Base64是任意二进制到文本字符串的编码方法，常用到URL、Cookie和网页中传输少量的二进制数据

二进制文件中的部分内容是无法显示的，所以转到字符串才能显示

![编码方式](base64编码.jpg)

base64对二进制数据处理：每3个字节一组，处理`3*8=24`bit，分为`4*6`的形式，每组6bit，得到4个数字作为索引，然后查表获取编码后的字符串

注意：用`\x00`字节在末尾补足，然后在末尾加1到2个`=`，表示补足的字节数，解码的时候去掉

In [21]:
# 1. base64模块练习
import base64
encode_out = base64.b64encode(b'binarystring_')
print('1.编码的结果:', encode_out)
decode_out = base64.b64decode(encode_out)
print('2.解码的结果:', decode_out)

1.编码的结果: b'YmluYXJ5c3RyaW5nXw=='
2.解码的结果: b'binarystring_'


In [22]:
# 2. url safe base64编码，+ / 变为- _来处理
out = base64.b64encode(b'i\xb7\x1d\xfb\xef\xff')
print('1.普通的base64编码:', out)
urlsafe_out = base64.urlsafe_b64encode(b'i\xb7\x1d\xfb\xef\xff')
print('2.url safe的base64编码:', urlsafe_out)
origin_out = base64.urlsafe_b64decode(urlsafe_out)
print('3.url safe的base64解码:', origin_out)

1.普通的base64编码: b'abcd++//'
2.url safe的base64编码: b'abcd--__'
3.url safe的base64解码: b'i\xb7\x1d\xfb\xef\xff'


小结:
- Base64编码的长度是4的倍数
- Base64编码是使用64个字符表示二进制文件的方法，最终得到表示二进制文件的字符串

base64练习

In [23]:
# 去掉=的base64解码函数
import base64
def safe_base64_decode(s):   # 将带==或不带==的编码结果，解码得到原始的内容
    temp = len(s) % 4        # 查看字符串长度是否是4的倍数
    s += temp * b'='         # bytes类型的数据
    return base64.b64decode(s)
assert b'abcd' == safe_base64_decode(b'YWJjZA=='), safe_base64_decode('YWJjZA==')
assert b'abcd' == safe_base64_decode(b'YWJjZA'), safe_base64_decode('YWJjZA')
print('ok')

ok


In [24]:
type(b'a' + b'c')

bytes

## 4 struct
实现bytes和其他二进制数据的转换

pack()函数将任意类型数据转为bytes，unpack()函数将bytes数据还原为原数据

In [25]:
# int转bytes的最原始方法
n = 10240099
b1 = (n & 0xff000000) >> 24
b2 = (n & 0xff0000) >> 16
b3 = (n & 0xff00) >> 8
b4 = n & 0xff
print([b1, b2, b3, b4])
bs = bytes([b1, b2, b3, b4])
print(bs)

[0, 156, 64, 99]
b'\x00\x9c@c'


In [26]:
# 使用struct模块，在bytes数据和其他类型数据间转换
import struct
pack_out = struct.pack('>I', 10240099)         # 将整数转换为bytes
print('1.转换为bytes数据的结果:', pack_out)
unpack_out = struct.unpack('>I', pack_out)     # 将bytes数据还原
print('2.转换为原数据的结果:', unpack_out)
unpack_out = struct.unpack('>IH', b'\xf0\xf0\xf0\xf0\x80\x80')  # 参数个数要和处理指令一致
print('3.转换为原数据的结果:', unpack_out)

1.转换为bytes数据的结果: b'\x00\x9c@c'
2.转换为原数据的结果: (10240099,)
3.转换为原数据的结果: (4042322160, 32896)


小结:
- `>`表示字节顺序是big-endian，`I`是4字节无符号整数，`H`是2字节无符号整数
- 参数个数要和处理指令一致

struct练习

In [27]:
# 1. 读取一张bmp图像，小端存储
# 两个字节：BM表示Windows位图，BA表示OS/2位图
with open('test_struct.bmp', 'rb') as img:
    start_bytes = img.read()[:30]       # 取前30个字节
    out = struct.unpack('<ccIIIIIIHH', start_bytes)
    print('1.前30个二进制数据:', start_bytes)
    print('2.bytes数据转换的结果:', out)

1.前30个二进制数据: b'BM\xf6\x89\x01\x00\x00\x00\x00\x006\x00\x00\x00(\x00\x00\x00\xc8\x00\x00\x00\xa8\x00\x00\x00\x01\x00\x18\x00'
2.bytes数据转换的结果: (b'B', b'M', 100854, 0, 54, 40, 200, 168, 1, 24)


bmp图像前30个字节包含了图像的信息：

|字节数(共30)|信息|
|-|-|
|前2个字节|BM表示Windows位图，BA表示os/2位图|
|4个字节|表示位图大小|
|4个字节|保留位，始终为0|
|4个字节|实际图像的偏移量|
|4个字节|Header的字节数|
|4个字节|图像宽度|
|4个字节|图像高度|
|2个字节|始终为1|
|2个字节|颜色数|

In [28]:
# 2.检查任意文件是否是位图，如果是打印大小和颜色数
import base64, struct
bmp_data = base64.b64decode('Qk1oAgAAAAAAADYAAAAoAAAAHAAAAAoAAAABABAAAAAAADICAAASCwAAEgsAAAAAAAAAAAAA/3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9/AHwAfAB8AHwAfAB8AHwAfP9//3//fwB8AHwAfAB8/3//f/9/AHwAfAB8AHz/f/9//3//f/9//38AfAB8AHwAfAB8AHwAfAB8AHz/f/9//38AfAB8/3//f/9//3//fwB8AHz/f/9//3//f/9//3//f/9/AHwAfP9//3//f/9/AHwAfP9//3//fwB8AHz/f/9//3//f/9/AHwAfP9//3//f/9//3//f/9//38AfAB8AHwAfAB8AHwAfP9//3//f/9/AHwAfP9//3//f/9//38AfAB8/3//f/9//3//f/9//3//fwB8AHwAfAB8AHwAfAB8/3//f/9//38AfAB8/3//f/9//3//fwB8AHz/f/9//3//f/9//3//f/9/AHwAfP9//3//f/9/AHwAfP9//3//fwB8AHz/f/9/AHz/f/9/AHwAfP9//38AfP9//3//f/9/AHwAfAB8AHwAfAB8AHwAfAB8/3//f/9/AHwAfP9//38AfAB8AHwAfAB8AHwAfAB8/3//f/9//38AfAB8AHwAfAB8AHwAfAB8/3//f/9/AHwAfAB8AHz/fwB8AHwAfAB8AHwAfAB8AHz/f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//3//f/9//38AAA==')
# 解码后得到原来的数据
# print(bmp_data)

def bmp_info(data):
    data_type = data[0:2]
    print((data_type).decode('utf-8'))   # bytes数据b'BM'可以解码为正常的字符串'BM'
    if data_type in (b'BM', b'BA'):      # 证明是位图
        start_bytes = bmp_data[0:30]
        out = struct.unpack('<ccIIIIIIHH', start_bytes)
#         print(out)
        return {
            'width' : out[6],
            'height': out[7],
            'color' : out[-1]
        }
# 测试
bi = bmp_info(bmp_data)
assert bi['width'] == 28         # 函数返回字典的用法
assert bi['height'] == 10
assert bi['color'] == 16
print('ok')

BM
ok


小结:
- return可以返回一个数、列表、元组或字典