[《深度学习与计算机视觉》配套代码](https://frombeijingwithlove.github.io/dlcv_for_beginners/)

In [13]:
class A:
    """Class A"""
    def __init__(self, x, y, name):
        self.x = x
        self.y = y
        self._name = name
         
    def introduce(self):
        print(self._name)
        
    def greeting(self):
        print("What's up!")
        
    def __l2norm(self):
        return self.x**2 + self.y**2
    
    def cal_l2norm(self):
        return self.__l2norm()

In [14]:
a = A(11, 11, 'Leonardo')

In [15]:
#  获取文档字符串
A.__doc__ # "Class A"   

'Class A'

In [16]:
a.introduce() # "Leonardo"

Leonardo


In [17]:
a.greeting() # "What's up!"

What's up!


In [19]:
print(a._name) # 可以正常访问
print(a.cal_l2norm()) # 输出11*11+11*11=242
print(a._A__l2norm()) # 仍然可以访问，只是名字不一样

Leonardo
242
242


In [20]:
print(a.__l2norm()) # 报错: 'A' object has no attribute '__l2norm'

AttributeError: 'A' object has no attribute '__l2norm'

# 字符串

In [21]:
a = 'Life is short, you need Python'
a.lower() 

'life is short, you need python'

In [22]:
a.upper()

'LIFE IS SHORT, YOU NEED PYTHON'

In [23]:
a.count('i')

2

In [24]:
a.find('e')     # 从左向右查找'e'，3

3

In [25]:
a.rfind('need') # 从右向左查找'need'

19

In [26]:
a.replace('you', 'I')

'Life is short, I need Python'

In [29]:
tokens = a.split() 
tokens

['Life', 'is', 'short,', 'you', 'need', 'Python']

In [31]:
b = ' '.join(tokens)          # 用指定分隔符按顺序把字符串列表组合成新字符串
b

'Life is short, you need Python'

In [32]:
c = a + '\n'       # 加了换行符，注意 + 用法是字符串作为序列的用法
c

'Life is short, you need Python\n'

In [33]:
c.rstrip()    # 右侧去除换行符

'Life is short, you need Python'

In [34]:
c

'Life is short, you need Python\n'

In [35]:
[x for x in a] # 遍历每个字符并生成由所有字符按顺序构成的列表

['L',
 'i',
 'f',
 'e',
 ' ',
 'i',
 's',
 ' ',
 's',
 'h',
 'o',
 'r',
 't',
 ',',
 ' ',
 'y',
 'o',
 'u',
 ' ',
 'n',
 'e',
 'e',
 'd',
 ' ',
 'P',
 'y',
 't',
 'h',
 'o',
 'n']

In [36]:
'Python' in a 

True

In [37]:
a = 'I’m like a {} chasing {}.'
# 按顺序格式化字符串，'I’m like a dog chasing cars.'
a.format('dog', 'cars')

'I’m like a dog chasing cars.'

In [38]:
# 在大括号中指定参数所在位置
b = 'I prefer {1} {0} to {2} {0}'
b.format('food', 'Chinese', 'American')

'I prefer Chinese food to American food'

In [40]:
# >代表右对齐，>前是要填充的字符

for i in [1, 19, 256]:
    print('The index is {:0>6d}'.format(i))

The index is 000001
The index is 000019
The index is 000256


In [41]:
# 左对齐

for x in ['*', '****', '*******']:
    progress_bar = '{:-<10}'.format(x)
    print(progress_bar)

*---------
****------
*******---


In [46]:
for x in [0.0001, 1e17, 3e-18]:
    print('{:.6f}'.format(x))      # 按照小数点后 6 位的浮点数格式
    print('{:.1e}'.format(x))     # 按照小数点后 1 位的科学记数法格式
    print ('{:g}'.format(x))     # 系统自动选择最合适的格式
    print('-'*30)

0.000100
1.0e-04
0.0001
------------------------------
100000000000000000.000000
1.0e+17
1e+17
------------------------------
0.000000
3.0e-18
3e-18
------------------------------


In [47]:
template = '{name} is {age} years old.'
c = template.format(name='Tom', age=8)        # Tom is 8 years old.
d = template.format(age=7, name='Jerry')      # Jerry is 7 years old.

In [48]:
c

'Tom is 8 years old.'

In [49]:
d

'Jerry is 7 years old.'

# 文件操作和pickle

In [52]:
import pickle
lines = [
    "I'm like a dog chasing cars.",
    "I wouldn't know what to do if I caught one...",
    "I'd just do things."
]

with open('lines.pkl', 'wb') as f:     # 序列化并保存成文件
    pickle.dump(lines, f)
with open('lines.pkl', 'rb') as f:
    lines_back = pickle.load(f)
print(lines_back) # 和lines一样

["I'm like a dog chasing cars.", "I wouldn't know what to do if I caught one...", "I'd just do things."]


# 异常
相比起其他一些语言，在 Python 中我们可以更大胆地使用异常，因为异常在Python中是非常
常见的存在，比如下面这种简单的遍历：

In [53]:
a = ['Why', 'so', 'serious', '?']
for x in a:
    print(x)

Why
so
serious
?


当用 `for` 进行遍历时，会对要遍历的对象调用 `iter()`。这需要给对象创建一个迭代器用来依次返
回对象中的内容。为了能成功调用 `iter()`，该对象要么得支持迭代协议(定义 `__iter__()`)，要么得
支持序列协议(定义 `__getitem__()`)。当遍历结束时，`__iter__()` 或者 `__getitem__()` 都需要抛出一
个异常。`__iter__()` 会抛出 `StopIteration`，而 `__getitem__()` 会抛出 `IndexError`，于是遍历就会
停止。

在深度学习中，尤其是数据准备阶段，常常遇到 `IO` 操作。这时候遇到异常的可能性很高，采用
异常处理可以保证数据处理的过程不被中断，并对有异常的情况进行记录或其他动作：

```python
for filepath in filelist:    # filelist 中是文件路径的列表
    try:
        with open(filepath, 'r') as f:
            # 执行数据处理的相关工作
            ...
            print('{} is processed!'.format(filepath))
    except IOError:
        print('{} with IOError!'.format(filepath))
        # 异常的相应处理
        ...
```

# 多进程（multiprocessing）
深度学习中对数据高效处理常常会需要并行，这时多进程就派上了用场。考虑这样一个场景，
在数据准备阶段，有很多文件需要运行一定的预处理，正好有台多核服务器，我们希望把这些
文件分成 32 份，并行处理：

```py
from multiprocessing import Process        # freeze_support

def process_data(filelist):
    for filepath in filelist:
    print('Processing {} ...'.format(filepath))
    # 处理数据
    ...
if __name__ == '__main__':
    # 如果是在 Windows 下，还需要加上 freeze_support()
    # freeze_support()
    # full_list包含了要处理的全部文件列表
    ...
    n_total = len(full_list) # 一个远大于32的数
    n_processes = 32
    # 每段子列表的平均长度# 计算下标，尽可能均匀地划分输入文件列表
    indices = [int(round(i*length)) for i in range(n_processes+1)]
    # 生成每个进程要处理的子文件列表
    sublists = [full_list[indices[i]:indices[i+1]] for i in range(n_processes)]
    # 生成进程
    processes = [Process(target=process_data, args=(x,)) for x in sublists]
    # 并行处理
    for p in processes:
    p.start()
    for p in processes:
    p.join()
```

其中 `if __name__ == '__main__'` 用来标明在 `import` 时不包含，但是作为文件执行时运行的语
句块。为什么不用多线程呢？简单说就是 Python 中线程的并发无法有效利用多核，如果有兴
趣的读者可以从下面这个链接看起：[GlobalInterpreterLock - Python Wiki](https://wiki.python.org/moin/GlobalInterpreterLock)

# os模块
深度学习中的数据多是文件，所以数据处理阶段和文件相关的操作就非常重要。除了文件 IO，
Python 中一些操作系统的相关功能也能够非常方便地帮助数据处理。想象一下我们有一个文
件夹叫做 data，下边有3个子文件夹叫做 cat，dog 和 bat，里面分别是猫，狗和蝙蝠的照片。
为了训练一个三分类模型，我们先要生成一个文件，里面每一行是文件的路径和对应的标签。
定义 cat 是 $0$，dog 是$1$，bat 是 $2$，则可以通过如下脚本：

```python
import os
# 定义文件夹名称和标签的对应关系
label_map = {
    'cat': 0,
    'dog': 1,
    'bat': 2
}

with open('data.txt', 'w') as f:
    # 遍历所有文件，root为当前文件夹，dirs是所有子文件夹名，files是所有文件名
    for root, dirs, files in os.walk('data'):
        for filename in files:
            filepath = os.sep.join([root, filename]) # 获得文件完整路径
            dirname = root.split(os.sep)[-1] # 获取当前文件夹名称
            label = label_map[dirname] # 得到标签
            line = '{},{}\n'.format(filepath, label)
            f.write(line)
```

其中，`os.sep` 是当前操作系统的路径分隔符，在 Unix/Linux 中是 '/'，Windows中是 '\\'。有的
时候我们已经有了所有的文件在一个文件夹 data 下，希望获取所有文件的名称，则可以用
`os.listdir()`:

```py
filenames = os.listdir('data')
```

os 也提供了诸如拷贝，移动和修改文件名等操作。同时因为大部分深度学习框架最常见的都是
在 Unix/Linux 下使用，并且 Unix/Linux 的shell已经非常强大（比 Windows 好用太多），所以
只需要用字符串格式化等方式生成 shell 命令的字符串，然后通过 `os.system()` 就能方便实现很
多功能，有时比 os，还有 Python 中另一个操作系统相关模块 shutil 还要方便：

```py
import os, shutilfilepath1 = 'data/bat/IMG_000000.jpg'
# 修改文件名
os.system('mv {} {}'.format(filepath0, filepath1))
#os.rename(filepath0, filepath1)
# 创建文件夹
dirname = 'data_samples'
os.system('mkdir -p {}'.format(dirname))
#if not os.path.exists(dirname):
# os.mkdir(dirname)
# 拷贝文件
os.system('cp {} {}'.format(filepath1, dirname))
#shutil.copy(filepath1, dirname)
```