# Tools Usage

In [9]:
from natsort import natsorted
import glob

## Natsort

Python中简单且灵活的排序库，使用一种更自然的方式来排序。

官方文档请查看[natsort](https://pypi.org/project/natsort/)。


In [16]:
a = ['2 ft 7 in', '1 ft 5 in', '10 ft 2 in', '2 ft 11 in', '7 ft 6 in']
print(sorted(a))  # 原生排序
b = natsorted(a)  # 根据意义来排序，更自然的排序方式
print(b)

['1 ft 5 in', '10 ft 2 in', '2 ft 11 in', '2 ft 7 in', '7 ft 6 in']
['1 ft 5 in', '2 ft 7 in', '2 ft 11 in', '7 ft 6 in', '10 ft 2 in']


## Glob

python在模块glob中定义了`glob()`函数，实现对文件目录内容进行匹配搜索，且可使用通配符，用它可以查找符合自己目的的文件。函数原型如下：

```bash
glob.glob(
    pathname='',
    recursive=False
)
```

- `pathname`: 为需要匹配的字符串，尽量使用`'r'`开头；
- `recursive`: 是否递归调用；

通配符列表：

- `*`: 匹配0或多个字符
- `?`: 匹配1个字符
- `[exp]`: 匹配指定范围内的字符，如: `[1-9]`匹配1至9范围内的字符
- `[!exp]`: 匹配不在指定范围内的字符

另还有`glob.iglob()`函数与上面函数功能基本一致，只是返回的是迭代器。

In [17]:
print(glob.glob(r'./*'))

['./tools_usage.ipynb', './advanced_usage.ipynb', './readme.md']


## Pickle

在机器学习中，我们常常需要把训练好的模型存储起来，这样在进行决策时直接将模型读出，而不需要重新训练模型，这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题，它可以**序列化对象并保存到磁盘中，并在需要的时候读取出来，任何对象都可以执行序列化操作**。

包含的函数包括：

- `pickle.dump(obj, file, [,protocol])`: 将obj对象序列化存入已经打开的file中。

  - `obj`：想要序列化的obj对象；
  - `file`：文件名称；

- `pickle.load(file)`: 将file中的对象序列化读出。

  - `file`：文件名称
  
- `pickle.dumps(obj[, protocol])`:将obj对象序列化为string形式，而不是存入文件中。

- `pickle.loads(string)`:从string中读出序列化前的obj对象。

In [22]:
import pickle  
dataList = [[1, 1, 'yes'],  
            [1, 1, 'yes'],  
            [1, 0, 'no'],  
            [0, 1, 'no'],  
            [0, 1, 'no']]  
dataDic = { 0: [1, 2, 3, 4],  
            1: ('a', 'b'),  
            2: {'c':'yes','d':'no'}}  

filename = "pickle_sample.txt"
  
#使用dump()将数据序列化到文件中  
fw = open(filename,'wb')  
# Pickle the list using the highest protocol available.  
pickle.dump(dataList, fw, -1)  
# Pickle dictionary using protocol 0.  
pickle.dump(dataDic, fw)  
fw.close()  
  
#使用load()将数据从文件中序列化读出  
print("Load...")
fr = open(filename,'rb')  
data1 = pickle.load(fr)  
print(data1)  
data2 = pickle.load(fr)  
print(data2)  
fr.close()  
  
#使用dumps()和loads()举例  
print("Loads...")
p = pickle.dumps(dataList)  
print( pickle.loads(p) )  
p = pickle.dumps(dataDic)  
print( pickle.loads(p) ) 

Load...
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}
Loads...
[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
{0: [1, 2, 3, 4], 1: ('a', 'b'), 2: {'c': 'yes', 'd': 'no'}}


## OrderedDict

传统的python字典是无序的，因为它是按照hash来存储的。 本对象实现了对字典对象中元素的有序存储。

实现例子如下:

In [5]:
from collections import OrderedDict
# 传统python字典
d={}
d['a']='A'
d['b']='B'
d['c']='C'
for k,v in d.items():
    print(k,v)
# OrderedDict
d1 = OrderedDict()
d1['a'] = 'A'
d1['b'] = 'B'
d1['c'] = 'C'
for k,v in d1.items():
    print(k,v)

b B
a A
c C
a A
b B
c C
