# Python 进阶教程
## 代码规范
### 1.1 名称
* 文件夹，小写或者小写下划线连接，比如：models, utils, train_utils...
* 文件，小写或者小写下划线连接，比如：train.py, multiple_gpus_train.py...
* 包名、模块名、函数名，小写或者小写下划线连接，比如：import torch, train_for_one_epoch(...)
* 类名，首字母大写式，比如：class AgentEncoder(nn.Module)
* 变量
  * 全局变量，大写或者大写下划线连接，比如：CONFIG = dict(), TRAIN_ARGS = dict()...
  * 局部变量，小写或者小写下划线连接，比如：optimizer = Optim.Adam(...), val_dataloader = DataLoader(...)

### 1.2 注释
* 方法必须使用标注注释，如果是公有方法或对外提供的API相关方法，则最好给出使用样例
* TODO注释：'#'+单个空格+'TODO'+单个空格+注释内容

## list, tuple, set, dict
| 类型    | 是否可修改    | 是否有序 | 元素要求   | 是否可哈希 | 转换         | 空定义                |
|-------|----------|------|--------|-------|------------|--------------------|
| list  | 是        | 是    | 无      | 否     | list(...)  | v = list()或v = []  |
| tuple | 否        | 是    | 无      | 是     | tuple(...) | v = tuple()或v = () |
| set   | 否        | 否    | 可哈希    | 否     | set(...)   | v = set()          |
| dict  | value可修改 | 否    | key可哈希 | 否     | dict(...)  | v = dict()或v = {}  |

__注意__：Python3.6之后，dict是有序的，体现在list(dict.keys())是按照插入的顺序返回的  
__注意__：1, True, 1.0作为key的时候是一样的，最后只会出现一组键值对

In [66]:
list_v = [1, 2, (1, 2), "str", True, {1: 1, 2: 2}, {1, 2}, 1.0]
tuple_v = (1, 2, (1, 2), "str", True, {1: 1, 2: 2}, {1, 2}, 1.0)
set_v = {1, 2, (1, 2), "str", True}
dict_v = {(1, 2): 0, "str": 2, True: 2}
for item in [list_v, tuple_v, set_v, dict_v]:
    print(item)
print(list(dict_v.keys()))

[1, 2, (1, 2), 'str', True, {1: 1, 2: 2}, {1, 2}, 1.0]
(1, 2, (1, 2), 'str', True, {1: 1, 2: 2}, {1, 2}, 1.0)
{1, 2, (1, 2), 'str'}
{(1, 2): 0, 'str': 2, True: 2}
[(1, 2), 'str', True]


## pass, continue, break
* pass是空语句，作用是保持程序结构的完整性.
* continue结束本次循环，继续下一次循环
* break结束本次循环，跳出循环

In [67]:
for i in range(5):
    print(f"loop: {i}".center(20, '-'))
    print(f"the num is {i}")
    if i == 0:
        pass
    if i == 1:
        print("continue: the num is {}".format(i))
        continue
    else:
        print("the num is {}".format(i))
    if i == 3:
        print("break: the num is %d" % i)
        break
    else:
        print("the num is %d" % i)


------loop: 0-------
the num is 0
the num is 0
the num is 0
------loop: 1-------
the num is 1
continue: the num is 1
------loop: 2-------
the num is 2
the num is 2
the num is 2
------loop: 3-------
the num is 3
the num is 3
break: the num is 3


## is和==的区别
* ==：比较值是否相等
* is：比较内存地址是否相同

In [68]:
v1, v2 = [], []
v3 = v2
print(v1 == v2)
print(v1 is v2)
print(v2 == v3)
print(v2 is v3)

True
False
True
True


## 文件操作
### 1. 文件读取和写入
#### 1.1 文件读取
* f.read(...)    # 不给参数时默认读取整个文件，如果文件过大，内存可能不够，给定参数n后，可读取特定的n个字符或字节
* f.readline()   # 从当前光标位置逐行读取
* f.readlines()  # 从当前光标位置逐行读取剩下的所有内容，并返回一个list

#### 1.2 文件写入
* f.write(...)   # 只是将内容写入了缓冲区，缓冲区机制是到达一个容量后才写入硬盘
* f.flush()      # 将当前缓冲区内的内容立刻写入硬盘  

__注意__：读取和写入的不同模式，会导致光标所在字节位置有变化

#### 1.3 上下文管理
可以实现自动关闭文件

In [69]:
file_object = open("materials/log.txt", mode='rt')
line = file_object.readline()
line = file_object.readlines()
file_object.close()
print(line)
assert len(line) > 0
file_object = open("materials/log.txt", mode='a')
if line[-1] != "this is a string written by file operation in Python. \n":
    file_object.write("this is a string written by file operation in Python. \n")
file_object.close()
with open("materials/log.txt", 'rt') as f:
    data = f.read()
    print(data)

['1. read\n', '2. write \n', 'this is a string written by file operation in Python. \n']
operation
1. read
2. write 
this is a string written by file operation in Python. 



### 2. 文件和文件夹路径相关

In [70]:
import os
base_dir = os.getcwd()
file_dir = os.path.join(base_dir, "materials", "log.txt")
print(base_dir, file_dir)
print(os.path.exists(file_dir))
print(os.path.isdir(file_dir))
print(os.path.isabs(file_dir))

/home/wsj/code_space/DL_Env_Configuration /home/wsj/code_space/DL_Env_Configuration/materials/log.txt
True
False
True


### 3. 文件移动、删除、复制
* shutil.rmtree(...)  # 参数为文件夹路径，将递归的删除文件夹内所有文件，最后删除该文件夹
* os.remove(...)  # 用于删除单个文件

In [71]:
import os
import shutil
file_dir = os.path.join(os.getcwd(), "materials", "log.txt")
new_file_dir = os.path.join(os.path.dirname(file_dir), 'log_copy.txt')
shutil.copyfile(file_dir, new_file_dir)
shutil.move(new_file_dir, os.path.join(os.path.dirname(new_file_dir), "log_rename.txt"))
os.remove(os.path.join(os.path.dirname(new_file_dir), "log_rename.txt"))

### 4. CSV格式文件
* csv文件是用逗号作为分隔符的纯文本数据存储格式
* 可以用传统文件读写操作处理，也可以使用第三方库：csv, pandas

In [72]:
import pandas as pd
df = pd.read_csv("materials/points.csv", header=0)
new_df = pd.DataFrame([["Shengjie Wu", 24, "NY", 99]])
if "Shengjie Wu" not in list(df["name"]):
    new_df.to_csv("materials/points.csv", mode='a', header=False, index=None)
print(list(df["point"]))
print(new_df)

[64, 92, 70, 70, 88, 57, 64, 92, 70, 70, 88, 570, 99]
             0   1   2   3
0  Shengjie Wu  24  NY  99


### 5. pickle格式文件
* 不同于普通的file函数只能存储和读取字符串格式的数据，pickle可以存储和读取其他格式比如list, dict, numpy.array()等
* pickle的经常存取的场景（保存和恢复状态）下读取效率相较file更加高效  

__注意__：在深度学习数据预处理时，就可以将处理后的数据保存成*.pickle，训练时直接load即可

In [73]:
import pickle
import numpy as np
pickle_data = {
    "feats": np.random.rand(3, 3),
    "idcs": [0, 1, 2]
}
if not os.path.exists("materials/data.pickle"):
    with open("materials/data.pickle", mode="wb") as f:
        pickle.dump(pickle_data, f, protocol=pickle.HIGHEST_PROTOCOL)
        print(pickle_data)
else:
    with open("materials/data.pickle", mode="rb") as f:
        data = pickle.load(f)
        print(data)

{'feats': array([[0.33487029, 0.39792792, 0.66601897],
       [0.11761664, 0.14704708, 0.12283957],
       [0.25814025, 0.12651752, 0.74917641]]), 'idcs': [0, 1, 2]}


### 6. YAML格式文件
* 与Python一样采用缩进区分层级，需要同一层级文件缩进相同，但是不能用TAB，用相同数量的空格
* '#' 表示注释，从它开始到行尾都被忽略
* 大小写敏感
* 以‘-’开头会被转换为list
* 包含':'转换为dictionary
* 单引号内内容按照字符串输出，不会变成转义字符，双引号内内容存在转义字符会转换

In [74]:
import yaml
with open('materials/config.yml', encoding="utf-8") as f:
    config = yaml.safe_load(f)
    print(config[0])
with open('materials/config.yml', mode='a', encoding='utf-8') as f:
    new_config = {
        'url': '/api/user/login', 
        'method': 'post', 
        'detail': '正常登录', 
        'data': {
            'username': 'Shengjie Wu', 
            'passwd': 'aA123456'
        }, 
        'check': ['userId', 'sign', '111', 222]
    }
    if "Shengjie Wu" not in [x['data']['username'] for x in config]:
        yaml.dump([new_config], f)

{'url': '/api/user/login', 'method': 'post', 'detail': '正常登录', 'data': {'username': 'niuhanyang', 'passwd': 'aA123456'}, 'check': ['userId', 'sign', '111', 222]}


## 函数相关
### 1. 参数和返回值
#### 1.1 函数的参数和返回值传递的都是内存地址
* 可以节省内存空间，避免多次调用函数时，开辟多个内存空间用于传递
* 对于可变类型：list, set, dict，在函数体内修改元素的值，则所有的地方都会改变
* 可以用new_data = copy.deepcopy(data)实现值传递
* python有缓存和驻留机制

In [75]:
def addr(data1, data2):
    print(data1, id(data1), data2, id(data2))
    data1.append(4)
    data2 = 10  # data2重新指向另外一个内存空间，所以不影响传入内存地址的值

v1 = [1, 2, 3]
v2 = 5
print(v1, id(v1), v2, id(v2))
addr(v1, v2)
print(v1, id(v1), v2, id(v2))

v1 = 1
v2 = 1
print(id(v1), id(v2))  # 理论上v1和v2指向的内存空间地址是不一样的，但是由于Python内部的缓存和驻留机制，相当于常见值的内存是共享的

[1, 2, 3] 140486805938752 5 94136217140832
[1, 2, 3] 140486805938752 5 94136217140832
[1, 2, 3, 4] 140486805938752 5 94136217140832
94136217140704 94136217140704



#### 1.2 动态参数
* *args
  * args是一个tuple
  * 只能按照位置传参
* **kwargs
  * kwargs是一个dict
  * 只能按照关键字传参(keyword args)

__注意__：python的字符串format就是典型的动态参数例子  
__注意__：实参也是支持* 和 ** ，但是数据会重新拷贝一份，而不是直接传递内存地址。加*相当于将输入的容器打散成一个个元素，然后按位置传参给函数的形参，本质和输入参数为一个list一样，只不过省略了v1 = list[0], v2 = list[1]...

In [76]:
def dynamic_args(*args, **kwargs):
    print(args)
    print(kwargs)

dynamic_args(1, 2, 3, name="Shengjie Wu", age=24)  # 关键字传参必须在置传参之后
print("name: {}, age: {}, gender: {}".format("Shengjie Wu", 24, "male"))  # 位置传参
print("name: {name}, age: {age}, gender: {gender}".format(name="Shengjie Wu", age=24, gender="male"))  # 关键字传参
print("name: {}, age: {}, gender: {gender}, points: {points}".format(*["Shengjie Wu", 24], **{"gender": "male", "points": 99}))  # 实参用*和**

# 实参加*和实参为list
def dynamic_real_args(v1, v2):
    print(v1, v2)
def normal_list_args(v):
    print(v[0], v[1])

dynamic_real_args(*[1, 2])
normal_list_args([1, 2])


(1, 2, 3)
{'name': 'Shengjie Wu', 'age': 24}
name: Shengjie Wu, age: 24, gender: male
name: Shengjie Wu, age: 24, gender: male
name: Shengjie Wu, age: 24, gender: male, points: 99
1 2
1 2


#### 1.3 默认参数
* Python在创建函数（未执行）时，如果发现函数参数中有默认值，则会在函数内部创建一块区域用来维护这个默认值
* 如果该默认值为可变数据类型（list, set, dict），并且在函数内部修改了之后，那么维护的内存空间里面的值也会改变

In [77]:
def default_args(v1, v2=[1, 2]):
    v2.append(3)
    print(v1, v2)
    return v2  # 这时候函数内部维护的内存空间被返回了，在外部的修改也会影响默认值

default_args(100)
default_args(200)
default_args(200, [7, 8])
default_args(300)

100 [1, 2, 3]
200 [1, 2, 3, 3]
200 [7, 8, 3]
300 [1, 2, 3, 3, 3]


[1, 2, 3, 3, 3]

### 2. 函数和函数名
函数必须先定义才能执行（解释型语言），C++可以先声明，后定义
#### 2.1 函数名作为元素
* 函数名可以作为list的元素，同时函数名也可以被hash，可以作为set的元素和dict的key
* 应用场景1：将不同函数用dict存储，根据key选择调用某个特定函数，这时候可以将不同函数的参数打包为一个列表，然后采用加*的方法按位置传参数，也可以在函数内部对列表元素处理
* 应用场景2：将不同函数用list存储，可以循环调用按顺序执行的操作

In [78]:
def func_as_args_1(v1):
    print(v1)
def func_as_args_2(v1, v2):
    print(v1, v2)
function_dict = {
    1: [func_as_args_1, ["v1"]],
    2: [func_as_args_2, ["v1", "v2"]]
}
for key in [1, 2]:
    item = function_dict[key]
    func = item[0]
    params = item[1]
    func(*params)

v1
v1 v2


#### 2.2 函数名赋值
* 函数名相当于一个变量指向该函数，如果将函数名指向别的内存空间，那么就不能指代原来的函数
* 如果同一函数名用来定义了多个函数，那么该函数名只会指向最后定义的函数

In [79]:
def func(v1):
    print(v1)
func("func")
func = "func"  # 此时func只是一个字符串变量

func


#### 2.3 函数名作为参数和返回值
* 和普通的数据类型是一样的，只不过该变量指向某个函数，可以调用而已

In [80]:
def func(v1):
    print(v1)
def handler(func, v1):
    func(v1)
    return func
res = handler(func, "func")
res("func")

func
func


### 3 作用域
* Python是以函数作为作用域，函数中用for循环定义的i，是可以在函数内部直接访问的，和C++不一样
* 定义在函数外面的是全局变量，在局部作用域中默认只能对全局变量进行读取，或者修改可变全局变量（list, set, dict）的元素。如果重新赋值，只是在该函数内部作用域下定义了新的变量，不会改变全局变量
* 如果需要在函数内部对全局变量进行重新赋值，需要使用global关键字

In [81]:
cities = ["Beijing", "Shanghai"]
def func_1():
    cities = ["Beijing", "Shanghai", "Chongqing"]
    print(cities)
def func_2():
    global cities
    cities = cities = ["Beijing", "Shanghai", "Chongqing"]
    print(cities)
func_1()
print(cities)
func_2()
print(cities)

['Beijing', 'Shanghai', 'Chongqing']
['Beijing', 'Shanghai']
['Beijing', 'Shanghai', 'Chongqing']
['Beijing', 'Shanghai', 'Chongqing']
