# sys 模块简介

## 命令行参数

`sys.argv` 显示传入的参数：

In [22]:
import sys

In [24]:
%%writefile print_args.py
import sys
print(sys.argv)

Overwriting print_args.py


In [25]:
# 运行这个程序：
%run print_args.py 1 foo

['print_args.py', '1', 'foo']


第一个参数 （`sys.args[0]`） 表示的始终是执行的文件名，然后依次显示传入的参数。

删除刚才生成的文件：

In [26]:
import os
os.remove('print_args.py')

## 异常消息

`sys.exc_info()` 可以显示 `Exception` 的信息，返回一个 `(type, value, traceback)` 组成的三元组，可以与 `try/catch` 块一起使用： 

In [28]:
try:
    x = 1/0
except Exception:
    print(sys.exc_info())

(<class 'ZeroDivisionError'>, ZeroDivisionError('division by zero'), <traceback object at 0x0000021370584308>)


`sys.exc_clear()` 用于清除所有的异常消息。

## Python Path

`sys.path` 表示 Python 搜索模块的路径和查找顺序,在程序中可以修改，添加新的路径。

In [29]:
sys.path

['E:\\chen_gitlub\\python_notes',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\python37.zip',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\DLLs',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37',
 '',
 'C:\\Users\\admin\\AppData\\Roaming\\Python\\Python37\\site-packages',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib\\site-packages',
 'c:\\users\\admin\\appdata\\local\\programs\\python\\python37\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\admin\\.ipython']

# glob 模块

In [51]:
import glob

`glob` 模块提供了方便的文件模式匹配方法。

例如，找到所有以 `.ipynb` 结尾的文件名：

In [52]:
glob.glob("*.ipynb")

['Class即类的介绍.ipynb',
 'NumPy介绍.ipynb',
 'Pandas介绍.ipynb',
 'python基本知识.ipynb',
 'python基本编程.ipynb',
 'python进阶编程.ipynb',
 'String介绍.ipynb',
 '列表&元祖&集合&字典.ipynb',
 '常用模块介绍.ipynb']

`glob` 函数支持三种格式的语法：

- `*` 匹配单个或多个字符
- `?` 匹配任意单个字符
- `[]` 匹配指定范围内的字符，如：[0-9]匹配数字。

假设我们要匹配所有以`p`开头的 `.ipynb` 文件：

In [54]:
glob.glob("p?*.ipynb")

['Pandas介绍.ipynb', 'python基本知识.ipynb', 'python基本编程.ipynb', 'python进阶编程.ipynb']

# os 模块:与操作系统进行交互

`os` 模块提供了对系统文件进行操作的方法：

In [30]:
import os

## 文件路径操作

- `os.remove(path)` 或 `os.unlink(path)` ：删除指定路径的文件。路径可以是全名，也可以是当前工作目录下的路径。
- `os.removedirs`：删除文件，并删除中间路径中的空文件夹
- `os.chdir(path)`：将当前工作目录改变为指定的路径
- `os.getcwd()`：返回当前的工作目录
- `os.curdir`：表示当前目录的符号
- `os.rename(old, new)`：重命名文件
- `os.renames(old, new)`：重命名文件，如果中间路径的文件夹不存在，则创建文件夹
- `os.listdir(path)`：返回给定目录下的所有文件夹和文件名，不包括 `'.'` 和 `'..'` 以及子文件夹下的目录。（`'.'` 和 `'..'` 分别指当前目录和父目录）
- `os.mkdir(name)`：建立新文件夹
- `os.makedirs(name)`：建立新文件夹，如果中间路径的文件夹不存在，则创建文件夹

In [31]:
# 当前目录：
os.getcwd()

'E:\\chen_gitlub\\python_notes'

In [32]:
# 当前目录的符号：
os.curdir

'.'

In [33]:
# 当前目录下的文件：
os.listdir(os.curdir)

['.git',
 '.idea',
 '.ipynb_checkpoints',
 '1',
 'Class即类的介绍.ipynb',
 'input_data',
 'NumPy.ipynb',
 'output',
 'Pandas.ipynb',
 'python基本知识.ipynb',
 'python基本编程.ipynb',
 'python进阶编程.ipynb',
 'README.md',
 'String.ipynb',
 '__pycache__',
 '列表&元祖&集合&字典.ipynb',
 '常用Python标准库.ipynb',
 '常用模块介绍.ipynb']

In [34]:
# 产生文件
f = open("test.file", "w")
f.close()
print("test.file" in os.listdir(os.curdir))

True


In [35]:
# 重命名文件
os.rename("test.file", "test.new.file")
print("test.file" in os.listdir(os.curdir))
print("test.new.file" in os.listdir(os.curdir))

False
True


In [36]:
# 删除文件
os.remove("test.new.file")

`os.environ` 是一个存储所有环境变量的值的字典，可以修改。

In [40]:
os.environ['USERNAME']

'admin'

## os.path 模块

不同的操作系统使用不同的路径规范，这样当我们在不同的操作系统下进行操作时，可能会带来一定的麻烦，而 `os.path` 模块则帮我们解决了这个问题。

In [41]:
import os.path

**测试**：
- `os.path.isfile(path)` ：检测一个路径是否为普通文件
- `os.path.isdir(path)`：检测一个路径是否为文件夹
- `os.path.exists(path)`：检测路径是否存在
- `os.path.isabs(path)`：检测路径是否为绝对路径

**split和join**:
- `os.path.split(path)`：拆分一个路径为 `(head, tail)` 两部分
- `os.path.join(a, *p)`：使用系统的路径分隔符，将各个部分合成一个路径

**其他**：
- `os.path.abspath()`：返回路径的绝对路径
- `os.path.dirname(path)`：返回路径中的文件夹部分
- `os.path.basename(path)`：返回路径中的文件部分
- `os.path.splitext(path)`：将路径与扩展名分开
- `os.path.expanduser(path)`：展开 `'~'` 和 `'~user'`

# shutil 模块：高级文件操作

In [55]:
import shutil
import os

`shutil` 是 `Python` 中的高级文件操作模块。

## 复制文件

In [56]:
with open("test.file", "w") as f:
    pass

print ("test.file" in os.listdir(os.curdir))

True


`shutil.copy(src, dst)` 将源文件复制到目标地址：

In [57]:
shutil.copy("test.file", "test.copy.file")

print ("test.file" in os.listdir(os.curdir))
print ("test.copy.file" in os.listdir(os.curdir))

True
True


如果目标地址中间的文件夹不存在则会报错：

In [58]:
try:
    shutil.copy("test.file", "my_test_dir/test.copy.file")
except IOError as msg:
    print (msg)

[Errno 2] No such file or directory: 'my_test_dir/test.copy.file'


另外的一个函数 `shutil.copyfile(src, dst)` 与 `shutil.copy` 使用方法一致，不过只是简单复制文件的内容，并不会复制文件本身的读写可执行权限，而 `shutil.copy` 则是完全复制。

## 复制文件夹

将文件转移到 `test_dir` 文件夹：

In [59]:
os.renames("test.file", "test_dir/test.file")
os.renames("test.copy.file", "test_dir/test.copy.file")

使用 `shutil.copytree` 来复制文件夹：

In [60]:
shutil.copytree("test_dir/", "test_dir_copy/")

"test_dir_copy" in os.listdir(os.curdir)

True

## 删除非空文件夹

`os.removedirs` 不能删除非空文件夹：

In [61]:
try:
    os.removedirs("test_dir_copy")
except Exception as msg:
    print (msg)

[WinError 145] 目录不是空的。: 'test_dir_copy'


使用 `shutil.rmtree` 来删除非空文件夹：

In [62]:
shutil.rmtree("test_dir_copy")

## 移动文件夹

`shutil.move` 可以整体移动文件夹，与 `os.rename` 功能差不多。

## 产生压缩文件

查看支持的压缩文件格式：

In [63]:
shutil.get_archive_formats()

[('bztar', "bzip2'ed tar-file"),
 ('gztar', "gzip'ed tar-file"),
 ('tar', 'uncompressed tar file'),
 ('xztar', "xz'ed tar-file"),
 ('zip', 'ZIP file')]

产生压缩文件：

`shutil.make_archive(basename, format, root_dir)`

In [70]:
shutil.make_archive("test_archive", "zip", "test_dir/")

'E:\\chen_github\\python_notes\\test_archive.zip'

清理生成的文件和文件夹：

In [71]:
os.remove("test_archive.zip")
shutil.rmtree("test_dir/")

# datetime 模块

`datetime` 提供了基础时间和日期的处理。

In [48]:
from datetime import date,datetime,time,timedelta

## date 对象

可以使用 `date(year, month, day)` 产生一个 `date` 对象：

In [43]:
d1 = date(2007, 9, 25)

可以格式化 `date` 对象的输出：

In [44]:
print('\n',d1,
      '\n',d1.strftime('%A, %m/%d/%y'),
      '\n',d1.strftime('%a, %m-%d-%Y'))


 2007-09-25 
 Tuesday, 09/25/07 
 Tue, 09-25-2007


可以看两个日期相差多久,返回的是一个 `timedelta` 对象：

In [47]:
d2 = date(2008, 9, 25)
d = d2 - d1
print('\n',d,
      '\n',d.days,
      '\n',d.seconds)


 366 days, 0:00:00 
 366 
 0


## time 对象

可以使用 `time(hour, min, sec, us)` 产生一个 `time` 对象：

In [50]:
t1 = time(15, 38)
t2 = time(18)
print('\n',t1,
      '\n',t1.strftime('%I:%M, %p'),
      '\n',t1.strftime('%H:%M:%S, %p'))


 15:38:00 
 03:38, PM 
 15:38:00, PM


因为没有具体的日期信息，所以 `time` 对象不支持减法操作。

## datetime 对象

可以使用 `datetime(year, month, day, hr, min, sec, us)` 来创建一个 `datetime` 对象。 

获得当前时间：

In [51]:
d1 = datetime.now()
print(d1)

2019-10-04 23:55:37.527155


给当前的时间加上 `30` 天，`timedelta` 的参数是 `timedelta(day, hr, min, sec, us)`：

In [53]:
d2 = d1 + timedelta(30)
print(d2)

2019-11-03 23:55:37.527155


除此之外，我们还可以通过一些指定格式的字符串来创建 `datetime` 对象：

In [54]:
print(datetime.strptime('2/10/01', '%m/%d/%y'))

2001-02-10 00:00:00


## datetime 格式字符表

字符|含义
--|--
`%a` | 星期英文缩写
`%A` | 星期英文
`%w` | 一星期的第几天，`[0(sun),6]`
`%b` | 月份英文缩写
`%B` | 月份英文
`%d` | 日期，`[01,31]`
`%H` | 小时，`[00,23]`
`%I` | 小时，`[01,12]`
`%j` | 一年的第几天，`[001,366]`
`%m` | 月份，`[01,12]`
`%M` | 分钟，`[00,59]`
`%p` | AM 和 PM
`%S` | 秒钟，`[00,61]` （大概是有闰秒的存在）
`%U` | 一年中的第几个星期，星期日为第一天，`[00,53]`
`%W` | 一年中的第几个星期，星期一为第一天，`[00,53]`
`%y` | 没有世纪的年份
`%Y` | 完整的年份

# re 模块,正则表达式

## 正则表达式

[正则表达式](http://baike.baidu.com/view/94238.htm)是用来匹配字符串或者子串的一种模式，匹配的字符串可以很具体，也可以很一般化。

`Python` 标准库提供了 `re` 模块。 

In [2]:
import re

## re.match & re.search

在 `re` 模块中， `re.match` 和 `re.search` 是常用的两个方法：

    re.match(pattern, string[, flags])
    re.search(pattern, string[, flags])

两者都寻找第一个匹配成功的部分，成功则返回一个 `match` 对象，不成功则返回 `None`，不同之处在于：

1. `re.match` 只匹配字符串的开头部分；

2. `re.search` 匹配的则是整个字符串中的子串。

## 其他

* `re.findall(pattern, string)` 返回所有匹配的对象， `re.finditer` 则返回一个迭代器；

* `re.split(pattern, string[, maxsplit])` 按照 `pattern` 指定的内容对字符串进行分割；

* `re.sub(pattern, repl, string[, count])` 将 `pattern` 匹配的内容进行替换；

* `re.compile(pattern)` 生成一个 `pattern` 对象，这个对象有匹配，替换，分割字符串的方法。

## 正则表达式规则

正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义：

子表达式|匹配内容
---|---
`.`| 匹配除了换行符之外的内容
`\w` | 匹配所有字母和数字字符
`\d` | 匹配所有数字，相当于 `[0-9]`
`\s` | 匹配空白，相当于 `[\t\n\t\f\v]`
`\W,\D,\S`| 匹配对应小写字母形式的补
`[...]` | 表示可以匹配的集合，支持范围表示如 `a-z`, `0-9` 等
`(...)` | 表示作为一个整体进行匹配
&#166; | 表示逻辑或
`^` | 表示匹配后面的子表达式的补
`*` | 表示匹配前面的子表达式 0 次或更多次
`+` | 表示匹配前面的子表达式 1 次或更多次
`?` | 表示匹配前面的子表达式 0 次或 1 次
`{m}` | 表示匹配前面的子表达式 m 次
`{m,}` | 表示匹配前面的子表达式至少 m 次
`{m,n}` | 表示匹配前面的子表达式至少 m 次，至多 n 次

例如：

- `ca*t       匹配： ct, cat, caaaat, ...`
- `ab\d|ac\d  匹配： ab1, ac9, ...`
- `([^a-q]bd) 匹配： rbd, 5bd, ...`

## 例子

假设我们要匹配这样的字符串：

In [6]:
string = 'hello world'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
print(match)

<re.Match object; span=(0, 11), match='hello world'>


一旦找到了符合条件的部分，我们便可以使用 `group` 方法查看匹配的部分：

In [9]:
if match is not None:
    print(match.group(0))
    print(match.group(1))

hello world
world


我们可以改变 string 的内容：

In [10]:
string = 'hello there'
pattern = 'hello (\w+)'

match = re.match(pattern, string)
if match is not None:
    print(match.group(0))
    print(match.group(1))

hello there
there


通常，`match.group(0)` 匹配整个返回的内容，之后的 `1,2,3,...` 返回规则中每个括号（按照括号的位置排序）匹配的部分。

如果某个 `pattern` 需要反复使用，那么我们可以将它预先编译：

In [11]:
pattern1 = re.compile('hello (\w+)')

match = pattern1.match(string)
if match is not None:
    print(match.group(1))

there


由于元字符的存在，所以对于一些特殊字符，我们需要使用 `'\'` 进行逃逸字符的处理，使用表达式 `'\\'` 来匹配 `'\'` 。

但事实上，`Python` 本身对逃逸字符也是这样处理的：

In [12]:
pattern = '\\'
print(pattern)

\


因为逃逸字符的问题，我们需要使用四个 `'\\\\'` 来匹配一个单独的 `'\\'`：

In [15]:
pattern = '\\\\'
path = "C:\\foo\\bar\\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


这样看起来十分麻烦，好在 `Python` 提供了 `raw string` 来忽略对逃逸字符串的处理，从而可以这样进行匹配：

In [16]:
pattern = r'\\'
path = r"C:\foo\bar\baz.txt"
print(re.split(pattern, path))

['C:', 'foo', 'bar', 'baz.txt']


如果规则太多复杂，正则表达式不一定是个好选择。

## Numpy 的 fromregex()

In [18]:
%%file test.dat 
1312 foo
1534    bar
444  qux

Writing test.dat


    fromregex(file, pattern, dtype)

`dtype` 中的内容与 `pattern` 的括号一一对应：

In [19]:
pattern = "(\d+)\s+(...)"
dt = [('num', 'int64'), ('key', 'S3')]

from numpy import fromregex
output = fromregex('test.dat', pattern, dt)
print(output)

[(1312, b'foo') (1534, b'bar') ( 444, b'qux')]


显示 `num` 项：

In [20]:
print(output['num'])

[1312 1534  444]


In [21]:
import os
os.remove('test.dat')

# itertools 模块

`itertools` 包含很多与迭代器对象相关的工具，其中比较常用的是排列组合生成器 `permutations` 和 `combinations`，还有在数据分析中常用的 `groupby` 生成器：

In [1]:
from itertools import cycle, groupby, islice, permutations, combinations

`cycle` 返回一个无限的迭代器，按照顺序重复输出输入迭代器中的内容，`islice` 则返回一个迭代器中的一段内容：

In [4]:
print(list(islice(cycle('abcde'),0,10)))

['a', 'b', 'c', 'd', 'e', 'a', 'b', 'c', 'd', 'e']


`groupby` 返回一个字典，按照指定的 `key` 对一组数据进行分组，字典的键是 `key`，值是一个迭代器： 

In [7]:
animals = sorted(['pig', 'cow', 'giraffe', 'elephant',
                  'dog', 'cat', 'hippo', 'lion', 'tiger'], key=len)
# 按照长度进行分组
for k, g in groupby(animals, key=len):
    print (k, list(g))

3 ['pig', 'cow', 'dog', 'cat']
4 ['lion']
5 ['hippo', 'tiger']
7 ['giraffe']
8 ['elephant']


排列：

In [8]:
print([''.join(i) for i in permutations('abc')])

['abc', 'acb', 'bac', 'bca', 'cab', 'cba']


组合：

In [9]:
print([list(c) for c in combinations([1,2,3],r=2)])

[[1, 2], [1, 3], [2, 3]]


# pprint 模块

`pprint` 是 pretty printer 的缩写，用来打印 Python 数据结构，与 `print` 相比，它打印出来的结构更加整齐，便于阅读。

In [43]:
from pprint import pprint

生成一个 Python 对象：

In [44]:
data = (
    "this is a string", 
    [1, 2, 3, 4], 
    ("more tuples", 1.0, 2.3, 4.5), 
    "this is yet another string"
    )

我们对比下 `print`和 `pprint`

In [45]:
print(data)
print('#########')
pprint(data)

('this is a string', [1, 2, 3, 4], ('more tuples', 1.0, 2.3, 4.5), 'this is yet another string')
#########
('this is a string',
 [1, 2, 3, 4],
 ('more tuples', 1.0, 2.3, 4.5),
 'this is yet another string')


可以看到，这样打印出来的公式更加美观。

# pickle, cPickle 模块

`pickle` 模块实现了一种算法，可以将任意一个 `Python` 对象转化为一系列的字节，也可以将这些字节重构为一个有相同特征的新对象。

由于字节可以被传输或者存储，因此 `pickle` 事实上实现了传递或者保存 `Python` 对象的功能。

`cPickle` 使用 `C` 而不是 `Python` 实现了相同的算法，因此速度上要比 `pickle` 快一些。但是它不允许用户从 `pickle` 派生子类。如果子类对你的使用来说无关紧要，那么 `cPickle` 是个更好的选择。

备注：机器学习模型里，使用`sklearn`训练好的模型可以使用 `pickle` 来保存模型。

In [6]:
try:
    import cPickle as pickle
except:
    import pickle

## 编码和解码

使用 `pickle.dumps()` 可以将一个对象转换为字符串（`dump string`）：

In [7]:
data = [ { 'a':'A', 'b':2, 'c':3.0 } ]

data_string = pickle.dumps(data)

print ("DATA:")
print (data)
print ("PICKLE:")
print (data_string)

DATA:
[{'a': 'A', 'b': 2, 'c': 3.0}]
PICKLE:
b'\x80\x03]q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'


虽然 `pickle` 编码的字符串并不一定可读，但是我们可以用 `pickle.loads()` 来从这个字符串中恢复原对象中的内容（`load string`）：

In [8]:
data_from_string = pickle.loads(data_string)

print (data_from_string)

[{'a': 'A', 'b': 2, 'c': 3.0}]


## 编码协议

`dumps` 可以接受一个可省略的 `protocol` 参数（默认为 0），目前有 3 种编码方式：

- 0：原始的 `ASCII` 编码格式
- 1：二进制编码格式
- 2：更有效的二进制编码格式

当前最高级的编码可以通过 `HIGHEST_PROTOCOL` 查看：

In [9]:
print (pickle.HIGHEST_PROTOCOL)

4


In [10]:
data_string_1 = pickle.dumps(data, 1)

print ("Pickle 1:", data_string_1)

data_string_2 = pickle.dumps(data, 2)

print ("Pickle 2:", data_string_2)

Pickle 1: b']q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'
Pickle 2: b'\x80\x02]q\x00}q\x01(X\x01\x00\x00\x00aq\x02X\x01\x00\x00\x00Aq\x03X\x01\x00\x00\x00bq\x04K\x02X\x01\x00\x00\x00cq\x05G@\x08\x00\x00\x00\x00\x00\x00ua.'


如果 `protocol` 参数指定为负数，那么将调用当前的最高级的编码协议进行编码：

In [31]:
print (pickle.dumps(data, -1))

b'\x80\x04\x95#\x00\x00\x00\x00\x00\x00\x00]\x94}\x94(\x8c\x01a\x94\x8c\x01A\x94\x8c\x01b\x94K\x02\x8c\x01c\x94G@\x08\x00\x00\x00\x00\x00\x00ua.'


从这些格式中恢复对象时，不需要指定所用的协议，`pickle.load()` 会自动识别：

In [12]:
print ("Load 1:", pickle.loads(data_string_1))
print ("Load 2:", pickle.loads(data_string_2))

Load 1: [{'a': 'A', 'b': 2, 'c': 3.0}]
Load 2: [{'a': 'A', 'b': 2, 'c': 3.0}]


## 存储和读取 pickle 文件

除了将对象转换为字符串这种方式，`pickle` 还支持将对象写入一个文件中，通常我们将这个文件命名为 `xxx.pkl`，以表示它是一个 `pickle` 文件： 

存储和读取的函数分别为：

- `pickle.dump(obj, file, protocol=0)` 将对象序列化并存入 `file` 文件中
- `pickle.load(file)` 从 `file` 文件中的内容恢复对象

将对象存入文件：

In [27]:
# encoding:utf-8
with open("data.pkl", "wb") as f:
    pickle.dump(data, f)

从文件中读取：

In [28]:
with open("data.pkl",'rb') as f:
    data_from_file = pickle.load(f)
    
print (data_from_file)

[{'a': 'A', 'b': 2, 'c': 3.0}]


清理生成的文件：

In [29]:
import os
os.remove('data.pkl')

# json 模块

[JSON (JavaScript Object Notation)](http://json.org) 是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。

## JSON 基础

`JSON` 的基础结构有两种：键值对 (`name/value pairs`) 和数组 (`array`)。

`JSON` 具有以下形式：

- `object` - 对象，用花括号表示，形式为（数据是无序的）：
    - `{ pair_1, pair_2, ..., pair_n }`
- `pair` - 键值对，形式为：
    - `string : value`
- `array` - 数组，用中括号表示，形式为（数据是有序的）：
    - `[value_1, value_2, ..., value_n ]`
- `value` - 值，可以是
    - `string` 字符串
    - `number` 数字
    - `object` 对象
    - `array` 数组
    - `true / false / null` 特殊值
- `string` 字符串

例子：

```json
{
    "name": "echo",
    "age": 24,
    "coding skills": ["python", "matlab", "java", "c", "c++", "ruby", "scala"],
    "ages for school": { 
        "primary school": 6,
        "middle school": 9,
        "high school": 15,
        "university": 18
    },
    "hobby": ["sports", "reading"],
    "married": false
}
```

## JSON 与 Python 的转换

假设我们已经将上面这个 `JSON` 对象写入了一个字符串：

In [32]:
import json
from pprint import pprint

info_string = """
{
    "name": "echo",
    "age": 24,
    "coding skills": ["python", "matlab", "java", "c", "c++", "ruby", "scala"],
    "ages for school": { 
        "primary school": 6,
        "middle school": 9,
        "high school": 15,
        "university": 18
    },
    "hobby": ["sports", "reading"],
    "married": false
}
"""

我们可以用 `json.loads()` (load string) 方法从字符串中读取 `JSON` 数据：

In [35]:
info = json.loads('[1,2,3]')

pprint(info)

[1, 2, 3]


In [36]:
info = json.loads(info_string)

pprint(info)

{'age': 24,
 'ages for school': {'high school': 15,
                     'middle school': 9,
                     'primary school': 6,
                     'university': 18},
 'coding skills': ['python', 'matlab', 'java', 'c', 'c++', 'ruby', 'scala'],
 'hobby': ['sports', 'reading'],
 'married': False,
 'name': 'echo'}


此时，我们将原来的 `JSON` 数据变成了一个 `Python` 对象，在我们的例子中这个对象是个字典（也可能是别的类型，比如列表）：

In [37]:
type(info)

dict

可以使用 `json.dumps()` 将一个 `Python` 对象变成 `JSON` 对象：

In [46]:
pprint(json.dumps(info))

('{"name": "echo", "age": 24, "coding skills": ["python", "matlab", "java", '
 '"c", "c++", "ruby", "scala"], "ages for school": {"primary school": 6, '
 '"middle school": 9, "high school": 15, "university": 18}, "hobby": '
 '["sports", "reading"], "married": false}')


从中我们可以看到，生成的 `JSON` 字符串中，数组的元素顺序是不变的（始终是 `["python", "matlab", "java", "c", "c++", "ruby", "scala"]`），而对象的元素顺序是不确定的。

## 生成和读取 JSON 文件

与 `pickle` 类似，我们可以直接从文件中读取 `JSON` 数据，也可以将对象保存为 `JSON` 格式。

- `json.dump(obj, file)` 将对象保存为 JSON 格式的文件
- `json.load(file)` 从 JSON 文件中读取数据

In [47]:
with open("info.json", "w") as f:
    json.dump(info, f)

可以查看 `info.json` 的内容：

In [48]:
with open("info.json") as f:
    print (f.read())

{"name": "echo", "age": 24, "coding skills": ["python", "matlab", "java", "c", "c++", "ruby", "scala"], "ages for school": {"primary school": 6, "middle school": 9, "high school": 15, "university": 18}, "hobby": ["sports", "reading"], "married": false}


从文件中读取数据：

In [49]:
with open("info.json") as f:
    info_from_file = json.load(f)
    
pprint(info_from_file)

{'age': 24,
 'ages for school': {'high school': 15,
                     'middle school': 9,
                     'primary school': 6,
                     'university': 18},
 'coding skills': ['python', 'matlab', 'java', 'c', 'c++', 'ruby', 'scala'],
 'hobby': ['sports', 'reading'],
 'married': False,
 'name': 'echo'}


In [50]:
# 删除生成的文件
import os
os.remove('info.json')

# logging 模块

`logging` 模块可以用来记录日志：

In [75]:
import logging

`logging` 的日志类型有以下几种：

- `logging.critical(msg)`
- `logging.error(msg)`
- `logging.warning(msg)`
- `logging.info(msg)`
- `logging.debug(msg)`

级别排序为：`CRITICAL > ERROR > WARNING > INFO > DEBUG > NOTSET`

默认情况下，`logging` 的日志级别为 `WARNING`，只有不低于 `WARNING` 级别的日志才会显示在命令行。

In [76]:
logging.critical('This is critical message')
logging.error('This is error message')
logging.warning('This is warning message')

# 不会显示
logging.info('This is info message')
logging.debug('This is debug message')

CRITICAL:root:This is critical message
ERROR:root:This is error message


可以这样修改默认的日志级别：

In [77]:
logging.root.setLevel(level=logging.INFO)

logging.info('This is info message')

INFO:root:This is info message


可以通过 `logging.basicConfig()` 函数来改变默认的日志显示方式：

In [78]:
logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')

logger = logging.getLogger("this program")

logger.critical('This is critical message')

CRITICAL:this program:This is critical message


参考：[logging使用方法](https://www.jianshu.com/p/feb86c06c4f4)

# collections 模块

In [99]:
import collections

## 计数器

可以使用 `Counter(seq)` 对序列中出现的元素个数进行统计。

例如，我们可以统计一段文本中出现的单词及其出现的次数：

In [82]:
words_count = collections.Counter(['a','b','a','c'])

print (words_count)

Counter({'a': 2, 'b': 1, 'c': 1})


## 双端队列

双端队列支持从队头队尾出入队：

In [85]:
dq = collections.deque()

for i in range(10):
    dq.append(i)
    
print (dq)

for i in range(10):
    print (dq.pop(),) 

for i in range(10):
    dq.appendleft(i)
    
print (dq)

for i in range(10):
    print (dq.popleft(),)

deque([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
9
8
7
6
5
4
3
2
1
0
deque([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])
9
8
7
6
5
4
3
2
1
0


与列表相比，双端队列在队头的操作更快：

In [86]:
lst = []
dq = collections.deque()

%timeit -n100 lst.insert(0, 10)
%timeit -n100 dq.appendleft(10)

852 ns ± 277 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)
195 ns ± 6.53 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 有序字典

字典的 `key` 按顺序排列：

In [104]:
m = {'B':2,'A':1,'C':3}

regular_dict = m
ordered_dict = collections.OrderedDict(m)

print ('Regular Dict:')
for k in regular_dict:
    print (k, regular_dict[k])

print ('Ordered Dict:')
for s in ordered_dict:
    print (s, ordered_dict[s])

Regular Dict:
B 2
A 1
C 3
Ordered Dict:
B 2
A 1
C 3


这个结果有问题，需要再验证。

## 带默认值的字典

对于 `Python` 自带的词典 `d`，当 `key` 不存在的时候，调用 `d[key]` 会报错，但是 `defaultdict` 可以为这样的 `key` 提供一个指定的默认值，我们只需要在定义时提供默认值的类型即可，如果 `key` 不存在返回指定类型的默认值：

In [105]:
dd = collections.defaultdict(list)

print (dd["foo"])

dd = collections.defaultdict(int)

print (dd["foo"])

dd = collections.defaultdict(float)

print (dd["foo"])

[]
0
0.0


# requests 模块

In [106]:
import requests

Python 标准库中的 `urllib2` 模块提供了你所需要的大多数 `HTTP` 功能，但是它的 `API` 不是特别方便使用。

`requests` 模块号称 `HTTP for Human`，它可以这样使用：

In [107]:
r = requests.get("http://httpbin.org/get")
r = requests.post('http://httpbin.org/post', data = {'key':'value'})
r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")

## 传入 URL 参数

假如我们想访问 `httpbin.org/get?key=val`，我们可以使用 `params` 传入这些参数：

In [108]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)

查看 `url` ：

In [109]:
print(r.url)

https://httpbin.org/get?key1=value1&key2=value2


## 读取响应内容

`Requests` 会自动解码来自服务器的内容。大多数 `unicode` 字符集都能被无缝地解码。

In [110]:
r = requests.get('https://github.com/timeline.json')
from pprint import pprint
pprint (r.text)

('{"message":"Hello there, wayfaring stranger. If you’re reading this then you '
 'probably didn’t see our blog post a couple of years back announcing that '
 'this API would go away: http://git.io/17AROg Fear not, you should be able to '
 'get what you need from the shiny new Events API '
 'instead.","documentation_url":"https://developer.github.com/v3/activity/events/#list-public-events"}')


In [111]:
#查看编码
r.encoding

'utf-8'

每次改变文字编码，`text` 的内容也随之变化：

In [112]:
r.encoding = "ISO-8859-1"

r.text

'{"message":"Hello there, wayfaring stranger. If youâ\x80\x99re reading this then you probably didnâ\x80\x99t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://developer.github.com/v3/activity/events/#list-public-events"}'

`Requests` 中也有一个内置的 `JSON` 解码器处理 `JSON` 数据：

In [113]:
r.json()

{'documentation_url': 'https://developer.github.com/v3/activity/events/#list-public-events',
 'message': 'Hello there, wayfaring stranger. If youâ\x80\x99re reading this then you probably didnâ\x80\x99t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.'}

如果 `JSON` 解码失败， `r.json` 就会抛出一个异常。