# Python基础

Python基础有很多内容，作为非CS专业的想快速上手的同学，没必要从头到尾照本宣科，因此这里主要把握基本内容。

这部分结构主要参考了[Python programming guide for Earth Scientists](http://python.hydrology-amsterdam.nl/manuals/hydro_python_manual.pdf)。

内容上参考了<https://www.liaoxuefeng.com/wiki/1016959663602400>，但主要是记录一些自己平常见到的，又不同于其他编程语言比如Java的一些特点。

思路是这样的：

- 首先，所有语言的练习都离不开的基础：安装python，使用IDE；
- 其次熟悉基本的语法（变量常量、数据类型、运算、循环for/while、条件if/switch等）；
- 接着就是函数及面向对象编程以及python中重要的函数式编程；
- 最后基础部分就是熟悉python的内置库，基础库的使用。

安装python及IDE就不赘述了，python安装anaconda即可，IDE可以直接使用anaconda自带的IPython或spider，个人推荐VScode和Pycharm社区版。

## 基础语法

整型、浮点型等特别基础的就不记录了，变量常量里重点记录一些字符串相关的内容。

### 字符串


In [None]:
# 数据和字符串转换
print(chr(65))
print(ord('A'))

print(int('2'))

""" 字符串包含"""
test_string = 'helloworld'
if 'world' in test_string:
    print('Exist')
else:
    print('Not exist')

# 字符串的子字符串，不像java用substring，而是直接使用索引取值
print(test_string[5:])

# 大小写转换
print(test_string.upper())          # 把所有字符中的小写字母转换成大写字母
print(test_string.lower())          # 把所有字符中的大写字母转换成小写字母
print(test_string.capitalize())     # 把第一个字母转化为大写字母，其余小写
print(test_string.title())          # 把每个单词的第一个字母转化为大写，其余小写 

zfill()函数：Python zfill() 方法返回指定长度的字符串，原字符串右对齐，前面填充0。


In [None]:
str = "this is string example....wow!!!";

print(str.zfill(40))
print(str.zfill(50))


### 基本数据结构

python几个最基本的数据结构有：

- list：可理解为可变大小的数组，python索引可以为负值，表示倒序。
- tuple：和list类似，区别是一经初始化就不能修改。
- dict：就是map，使用key-value存储，查找较快。
- set：和dict类似，也是一组key的集合，但不存储value，且由于key不能重复，这就意味着set中没有重复的元素。


In [2]:
# list
a=[1,2,3]
b=[4,5,6]
# list拼接
print(a+b)
# list 索引：直接使用[]即可，一个例子：找出c中非0值编号对应的d中的数字， 
c=[0,0,1,1]
d=[1,2,3,4]
e=[d[i] for i in range(len(c)) if c[i]>0] # 使用列表生成式很方便
print(e)

# 排序的set
mailto = ['cc', 'bbbb', 'afa', 'sss', 'bbbb', 'cc', 'shafa']
addr_to = list(set(mailto))
print(addr_to)
addr_to.sort(key=mailto.index)
print(addr_to)

[1, 2, 3, 4, 5, 6]
[3, 4]
['sss', 'bbbb', 'cc', 'shafa', 'afa']
['cc', 'bbbb', 'afa', 'sss', 'shafa']


### 基础运算

这里介绍一些python里面相对特殊的运算符。

#### "~"运算符

按位取反运算符：对数据的每个二进制位取反,即把1变为0,把0变为1 。~x 类似于 -x-1。


In [None]:
a = 60  # 60 = 0011 1100
c=~a
print(c) # -61 = 1100 0011
b1=True
d1=~b1
print(d1)
b2=False
d2=~b2
print(d2)


#### "//"运算符

In [None]:
# 基本数学运算符中，整除符号是//
a = 10
b = 5
c = a // b
print("c 的值为：", c)

#### and/or运算符

python中不使用&&和||来表示与或运算符，而是使用and和or。

In [None]:
num = 9
if num >= 0 and num <= 10:    # 判断值是否在0~10之间
    print('hello')
# 输出结果: hello

#### is和==的区别

主要参考：[Python中is和==的区别](https://juejin.im/entry/5a3b62446fb9a0451f311b5c)

在Python中一切都是对象。Python中对象包含的三个基本要素，分别是：id(身份标识)、type(数据类型)和value(值)。

对象之间比较是否相等可以用==，也可以用is，is和==都是对对象进行比较判断作用的，但对对象比较判断的内容并不相同。

- is比较的是两个对象的id值是否相等，也就是比较两个对象是否为同一个实例对象，是否指向同一个内存地址。
- ==比较的是两个对象的内容是否相等，默认会调用对象的__eq__()方法。


In [None]:
a = [1, 2, 3]
b = a
print(b is a) 
print(b == a)
b = a[:]
print(b is a) 
print(b == a)

#### 一些特别情况

计算机的数学运算中会遇到一些平时手算时不会碰到的错误。

In [None]:
# RuntimeWarning: invalid value encountered in double_scalars
kss = 0.22917998605606738
kg = 0.832161545953715
period_num_1d = 24
# 开方运算会遇到根式下为负数的情况，会得到复数，如果数据类型是float，那么运算结果会为nan
kss_period = (1 - (1 - (kss + kg)) ** (1 / period_num_1d)) / (1 + kg / kss)
print(type(kss_period))
print(kss_period)

## 函数、函数式编程与面向对象编程

函数就是直接编写，在脚本中调用即可，相关内容可参考开头提供的guide文档。这里重点介绍python特别的函数形式以及面向对象的基本内容。

### 函数

#### With语句

有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。
一个很好的例子是文件处理，你需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。

如果不用with语句，代码如下：

In [None]:
file = open("data.json")
data = file.read()
file.close()


这里有两个问题。一是可能忘记关闭文件句柄；二是文件读取数据发生异常，没有进行任何处理。下面是处理异常的加强版本。


In [None]:
file = open("data.json")
try:
    data = file.read()
finally:
    file.close()
    

虽然这段代码运行良好，但是太冗长了。这时候就是with一展身手的时候了。
除了有更优雅的语法，with还可以很好的处理上下文环境产生的异常。下面是with版本的代码


In [None]:
with open("data.json") as file:
    data = file.read()


with如何工作？

Python对with的处理还很聪明。基本思想是with所求值的对象必须有一个__enter__()方法，一个__exit__()方法。

紧跟with后面的语句被求值后，返回对象的__enter__()方法被调用，这个方法的返回值将被赋值给as后面的变量。
当with后面的代码块全部被执行完之后，将调用前面返回对象的__exit__()方法。

#### 回调函数

In [None]:
import time


def apply_async(func, args, *, callback):
    """回调函数的应用，python的函数很灵活，可以直接做函数参数"""
    # Compute the result
    result = func(*args)

    # Invoke the callback with the result
    callback(result)


def print_result(result):
    print('Got:', result)


def add(x, y):
    return x + y


apply_async(add, (2, 3), callback=print_result)

apply_async(add, ('hello', 'world'), callback=print_result)


In [None]:
def outer():
    var = 3

    def inner():
        print("the func is used: var=" + str(var))

    return inner

outer()  # no print
func = outer()
func()  # print 3
var = 5
func()  # print 3

#### 一些高级特性

切片比较简单，这里就不赘述。迭代稍微说一下：python的for循环抽象程度是很高的，可以作用于任何可迭代对象上。比如dict的遍历，默认情况下，dict迭代的是key。如果要迭代value，可以用for value in d.values()，如果要同时迭代key和value，可以用for k, v in d.items()。

In [None]:
d = {'a': 1, 'b': 2, 'c': 3}
for key in d:
    print(key)

对list也可以实现类似Java那样的下标循环，Python内置的enumerate函数可以把一个list变成索引-元素对，这样就可以在for循环中同时迭代索引和元素本身：

In [None]:
seq = ['one', 'two', 'three']
for i, element in enumerate(seq):
    print(i, element)

python还有一个很强大的列表生成式，直接看代码：

In [None]:
[x * x for x in range(1, 11)]

for循环后面还可以加上if判断：

In [None]:
[x * x for x in range(1, 11) if x % 2 == 0]

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而且，创建一个包含100万个元素的列表，不仅占用很大的存储空间，如果我们仅仅需要访问前面几个元素，那后面绝大多数元素占用的空间都白白浪费了。

所以，如果列表元素可以按照某种算法推算出来，那我们是否可以在循环的过程中不断推算出后续的元素呢？这样就不必创建完整的list，从而节省大量的空间。在Python中，这种一边循环一边计算的机制，称为生成器：generator。只要把一个列表生成式的[]改成()，就创建了一个generator。

generator保存的是算法，每次调用next(g)，就计算出g的下一个元素的值，直到计算到最后一个元素。更详细的信息在advanced-python一文中再解析。

In [None]:
g = (x * x for x in range(10))
g
for n in g:
    print(n)

而可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。

### 函数式编程

函数式编程思想更接近数学计算，是一种抽象程度很高的编程范式，纯粹的函数式编程语言编写的函数没有变量，因此任意一个函数只要输入是确定的，输出就是确定的。python允许使用变量，所以不是纯函数式编程语言。

函数式编程的一个特点就是允许把函数本身作为参数传入另一个函数，还允许返回一个函数。比如：

In [None]:
def add(x, y, f):
    return f(x) + f(y)

print(add(-5, 6, abs))

#### 一些高阶函数

python内建了map和reduce函数。

map()函数接收两个参数，一个是函数，一个是Iterable，map将传入的函数**依次作用到序列的每个元素**，并把结果作为新的Iterator返回。

map()作为高阶函数，事实上它把运算规则抽象了.

In [1]:
def f(x):
    return x * x

r = map(f, [1, 2, 3, 4, 5, 6, 7, 8, 9])
list(r)

[1, 4, 9, 16, 25, 36, 49, 64, 81]

当需要传递多个参数到函数时，map函数的使用就没那么直接了，要么把参数构造成一个集合作为一个参数，要么采用下面这种利用进程的方式，具体内容见后面“基本库使用”之“进程和线程”。

In [6]:
import multiprocessing
from itertools import product

def merge_names(a, b):
    return '{} & {}'.format(a, b)

names = ['Brown', 'Wilson', 'Bartlett', 'Rivera', 'Molloy', 'Opie']
with multiprocessing.Pool(processes=3) as pool:
    results = pool.starmap(merge_names, product(names, repeat=2))
print(results)

['Brown & Brown', 'Brown & Wilson', 'Brown & Bartlett', 'Brown & Rivera', 'Brown & Molloy', 'Brown & Opie', 'Wilson & Brown', 'Wilson & Wilson', 'Wilson & Bartlett', 'Wilson & Rivera', 'Wilson & Molloy', 'Wilson & Opie', 'Bartlett & Brown', 'Bartlett & Wilson', 'Bartlett & Bartlett', 'Bartlett & Rivera', 'Bartlett & Molloy', 'Bartlett & Opie', 'Rivera & Brown', 'Rivera & Wilson', 'Rivera & Bartlett', 'Rivera & Rivera', 'Rivera & Molloy', 'Rivera & Opie', 'Molloy & Brown', 'Molloy & Wilson', 'Molloy & Bartlett', 'Molloy & Rivera', 'Molloy & Molloy', 'Molloy & Opie', 'Opie & Brown', 'Opie & Wilson', 'Opie & Bartlett', 'Opie & Rivera', 'Opie & Molloy', 'Opie & Opie']


In [None]:
list(map(str, [1, 2, 3, 4, 5, 6, 7, 8, 9]))

reduce把一个函数作用在一个序列[x1, x2, x3, ...]上，这个函数必须接收两个参数，reduce把结果继续和序列的下一个元素做累积计算，其效果就是：reduce(f, [x1, x2, x3, x4]) = f(f(f(x1, x2), x3), x4)

In [None]:
from functools import reduce
def add(x, y):
    return x + y

reduce(add, [1, 3, 5, 7, 9])

In [None]:
from functools import reduce
def fn(x, y):
    return x * 10 + y

reduce(fn, [1, 3, 5, 7, 9])

In [1]:
from functools import reduce
def fn(x, y):
    return x * 10 + y

def char2num(s):
    digits = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}
    return digits[s]

reduce(fn, map(char2num, '13579'))

13579

上式可以整理为如下形式。

In [None]:
from functools import reduce

DIGITS = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 4, '5': 5, '6': 6, '7': 7, '8': 8, '9': 9}

def str2int(s):
    def fn(x, y):
        return x * 10 + y
    def char2num(s):
        return DIGITS[s]
    return reduce(fn, map(char2num, s))

python的filter()函数可以用于过滤序列。和map()类似，filter()也接收一个函数和一个序列。和map()不同的是，filter()把传入的函数依次作用于每个元素，然后根据返回值是True还是False决定保留还是丢弃该元素。

In [None]:
def is_odd(n):
    return n % 2 == 1

list(filter(is_odd, [1, 2, 4, 5, 6, 9, 10, 15]))

最后补充下sorted函数：

In [None]:
sorted([36, 5, -12, 9, -21])

#### 闭包
闭包概念：在一个内部函数中，对外部作用域的变量进行引用，(并且一般外部函数的返回值为内部函数)，那么内部函数就被认为是闭包。比如：

In [None]:
def outer():
    var = 3

    def inner():
        print("the func is used: var=" + str(var))

    return inner

outer()  # no print
func = outer()
func()  # print 3
var = 5
func()  # print 3

以上，函数inner和自有变量var的“引用”共同构成了闭包。var对于inner来说是自由变量。在一个内部函数中，对外部作用域的变量进行引用，并且外部函数的返回值为内部函数，那么内部函数就被认为是闭包。

闭包的作用是可以保存当前的运行环境。

In [None]:
def create(pos=[0, 0]):
    def go(direction, step):
        new_x = pos[0] + direction[0] * step
        new_y = pos[1] + direction[1] * step
        pos[0] = new_x
        pos[1] = new_y
        return pos

    return go


player = create()
print(player([1, 0], 10))
print(player([0, 1], 20))
print(player([-1, 0], 10))

闭包可以帮助实现lazy的运算。比如求和，不需要立刻求和，而是在调用之后再求和。

In [22]:
def lazy_sum(*args):
    def sum():
        ax = 0
        for n in args:
            ax = ax + n
        return ax
    return sum

f = lazy_sum(1, 3, 5, 7, 9)
f

<function __main__.lazy_sum.<locals>.sum()>

In [21]:
f()

25

#### 匿名函数

当我们在传入函数时，有些时候，不需要显式地定义函数，直接传入匿名函数更方便。

在Python中，对匿名函数提供了有限支持。还是以map()函数为例，计算f(x)=x2时，除了定义一个f(x)的函数外，还可以直接传入匿名函数：

In [23]:
list(map(lambda x: x * x, [1, 2, 3, 4, 5, 6, 7, 8, 9]))

[1, 4, 9, 16, 25, 36, 49, 64, 81]

关键字lambda表示匿名函数，冒号前面的x表示函数参数。匿名函数有个限制，就是只能有一个表达式，不用写return，返回值就是该表达式的结果。

### 面向对象

python的面向对象和java有所不同。python是一种动态编程语言，根据[动态语言与鸭子类型](https://juejin.im/post/59ae5865f265da249517b484)一文所述，动态语言就是只有等到程序运行时才知道一切，变量（严格来说叫名字，就像人的名字一样）不需要指定类型，变量本身没有任何类型信息，类型信息在对象身上，对象是什么类型，必须等到程序运行时才知道，动态类型语言的优点在于方便阅读，不需要写很多类型相关的代码；缺点是不方便调试，命名不规范时会造成读不懂，不利于理解等。

动态语言中经常提到鸭子类型，所谓鸭子类型就是：如果走起路来像鸭子，叫起来也像鸭子，那么它就是鸭子（If it walks like a duck and quacks like a duck, it must be a duck）。鸭子类型是编程语言中动态类型语言中的一种设计风格，一个对象的特征不是由父类决定，而是通过对象的方法决定的。

In [1]:
# python3
class Foo:
    def __iter__(self):
        pass

    def __next__(self):
        pass

from collections import Iterable
from collections import Iterator

print(isinstance(Foo(), Iterable)) # True
print(isinstance(Foo(), Iterator)) # True

True
True


  if __name__ == '__main__':
  # Remove the CWD from sys.path while we load stuff.


我们并不需要继承 Iterator 就可以实现迭代器的功能。当有一函数希望接收的参数是 Iterator 类型时，但是我们传递的是 Foo 的实例对象，其实也没问题，换成是Java等静态语言，就必须传递 Iterator或者是它的子类。鸭子类型通常得益于"不"测试方法和函数中参数的类型，而是依赖文档、清晰的代码和测试来确保正确使用，这既是优点也是缺点，缺点是需要通过文档才能知道参数类型，为了弥补这方面的不足，Python3.6引入了类型信息，定义变量的时候可以指定类型

In [None]:
def greeting(name: str) -> str:
    """该函数表示接收str类型的参数，并返回str类型的值"""
    return 'Hello ' + name

接下来，记录一些python面向对象的高级特性。

## python语法小结

本节主要对python中一些令人印象深刻的基础语法进行归纳总结，为更高级的python语句的理解做铺垫。

"*"和"_"等特殊符号在python语法中十分常见，本节先从这些符号开始说起。

### _号的用法

本小节主要参考：[Python中下划线的5种含义](https://zhuanlan.zhihu.com/p/36173202)。下划线在python变量、方法等的名称中都各有其含义，主要包括两个层面：

- 约定的含义，对程序员的提示；
- 由Python解释器严格执行的。

主要讨论5类下划线模式及对python程序的行为的影响：

- 单前导下划线（_var）：一个命名约定，表示变量或方法仅内部（比如类内，模块内等）使用；
- 单末尾下划线（var_）：一个命名约定，用来避免与关键字产生命名冲突；
- 双前导下划线（__var）：解释器会更改该变量的名称，以便在类被扩展的时候不冲突；
- 双前导和末尾下划线（__var__）：Python保留了这类名称用于特殊用途，最好避免在自己的程序中使用；
- 单下划线（_）：约定，表示这个变量是临时的，也是一个特殊变量，解释器评估的最近一个表达式的结果。

综上，单下划线的基本上属于约定类的，双下划线的则是解释器级的。下面给例子说明下__var和__var__

In [None]:
class Test:
   def __init__(self):
       self.foo = 11
       self._bar = 23
       self.__baz = 23
        
t = Test()
dir(t)

dir()函数可查看对象的属性，从上例中可以看出，__baz变量已经变为_Test__baz变量。也就是说双下划线变量的这种名称修饰对程序员是透明的，这是为了防止被意外修改。对方法的命名也是一样的，这里就不再赘述了。

首尾双下划线的例子，以__call__函数为例。

In [None]:
# __call__函数的作用
# /usr/bin/env python
class test:
    def __init__(self, a):
        self.a = a

    def __call__(self, b):
        c = self.a + b
        print(c)

    def display(self):
        print(self.a)


Test = test("This is test!")
Test.display()  # 调用display函数
Test("##Append something")  # __call__实际上是将一个类重载了"()"，也就是让一个类也可以像一个函数一样可以拿来调用了。因此这里会调用__call__函数

### *的用法

这部分主要参考：[Python函数中*和**的内涵究竟是什么呢？](https://www.zhihu.com/question/265519629)。

星号主要在函数定义和函数调用的时候使用：

- 函数定义：
  - 使用单个星号会将所有的参数放入一个元组tuple供函数使用；
  - 使用两个星号会将所有的参数放入一个字典dict供函数使用；
- 函数调用：
  - 在list、tuple、set前加一个星号会把容器中所有元素解包变成位置参数；
  - 在dict前加一个星号会把字典的键变成位置参数；
  - 在dict前加两个星号会把字典的键值对变成关键字参数。
  
结合以下例子便可理解。

In [None]:
def foo(*args):
    for a in args:
        print(a)
        
foo(1)
print()
foo(1,2,3)

In [None]:
def bar(**kwargs):
    for a in kwargs:
        print(a, kwargs[a])
        
bar(name='one', age=27)

In [None]:
def foo(x,y,z):
    print("x=" + str(x))
    print("y=" + str(y))
    print("z=" + str(z))
    
mylist = [1,2,3]
foo(*mylist)

In [None]:
mydict = {'x':1,'y':2,'z':3}
foo(**mydict)

In [None]:
def foo(param1, *param2):
    print(param1)
    print(param2)

def bar(param1, **param2):
    print(param1)
    print(param2)

foo(1,2,3,4,5)
bar(1,a=2,b=3)

### @的用法

这里涉及到python装饰器的一些内容。主要参考了：[如何理解Python装饰器](https://www.zhihu.com/question/26930016)和[Python装饰器和符号@](https://gohom.win/2015/10/25/pyDecorator/)

装饰器本质上是一个**Python函数**，它可以让其他函数在**不需要做任何代码变动**的前提下**增加额外功能**，装饰器的**返回值**也是一个**函数对象**，它经常用于有切面需求的场景（类似java里的注解），比如插入日志、性能测试等。

In [1]:
def log(func):
    def wrapper(*args, **kw):
        print('call %s():' % func.__name__)
        return func(*args, **kw)
    return wrapper

@log
def now():
    print('2015-10-26')
    return "done"
now()

call now():
2015-10-26


'done'

机制就是,调用now()实际调用log(now)() (前面@写法后,实际运行now=log(now)),也就是运行了wrapper(),并把now函数原有参数传递给了wrapper函数. wrapper在运行时,加入了新的处理print 'call %s():' % func.__name__一句, 并运行相应传递参数的func(*args,**kw)并把原有结果返回.

带参数的装饰器会稍微复杂一些，它是对原有装饰器的一个函数封装，并返回一个装饰器。

In [None]:
def log(text):
    def decorator(func):
        def wrapper(*args, **kw):
            print('%s %s():' % (text, func.__name__))
            return func(*args, **kw)
        return wrapper
    return decorator
@log('execute')
def now():
    print('2015-10-26')
    return "done"
now()

实际now=log('execute')(now)两个参数表就是执行了一次闭包decorator(now).执行该闭包后返回的才是真正的装饰器wrapper.

两层闭包的机制可以保证传递参数给内在的装饰器wrapper.第一层将参数传进行生成第一层闭包对应返回函数,第二层则将该参数继续留给真正的装饰器闭包。

此外，还有类装饰器，类装饰器有灵活度大、高内聚、封装性等优点，使用类装饰器要依靠类内部的__call__方法。

In [None]:
class Foo(object):
    def __init__(self, func):
        self._func = func

    def __call__(self):
        print ('class decorator runing')
        self._func()
        print ('class decorator ending')

@Foo
def bar():
    print ('bar')

bar()

使用装饰器会丢失一些原函数的元信息，这时候可以用functools.wraps，它把原函数的元信息拷贝到装饰器函数中。

此外，还有内置装饰器@staticmathod、@classmethod、@property等。

- [ ] classmethod v.s. staticmethod

### 其他符号

- "."符号除了取值时用，在from . import XXX中表示sessions当前文件夹里的初始化文件，也就是sessions所在目录下的__init__.py文件；from .. import XXX就是从上级目录里面的__init__.py文件导入XXX。
- "%"符号除了取余运算外，在字符串的格式化操作中起到占位符的作用。

In [None]:
print("%6.3f" % 2.3) # 6为显示宽度，3为小数点位数，f为浮点数类型，第二个"%"后面为显示的内容来源，输出结果右对齐，2.300长度为5，故前面有一空格
print("%+10x" % 10) # x为表示16进制，显示宽度为10，前面有8个空格
print("%-5x" % -10) #  "%-5x" 负号为左对齐，显示宽度为5，故-a后面有3个空格

pi=3.1415
print ("pi的值是%s"%pi)
print ("pi的值是%.8f"%pi)

print("%10.*f" % (4, 1.2))

## 基本库的使用

基本库的运用可以从这些方面着手：

- 数据结构操作
- 日期时间表达
- 文件读写
- 系统模块
- 进程和线程
- 电子邮件
- 调用其他语言程序

以下各小节，没有特别说明的话，都是主要引用了[廖雪峰python教程](https://www.liaoxuefeng.com/wiki/1016959663602400)

### 数据结构基本操作


In [None]:
# all()函数
print(all(['a', 'b', 'c', 'd']))  # 列表list，元素都不为空或0
print(all(['a', 'b', '', 'd']))
print(all([0, 1, 2, 3]))
print(all([]))
print(all(()))

# eval()函数
x = 7
# eval(expression[, globals[, locals]])用来执行一个字符串表达式，并返回表达式的值。
print(eval('3*x'))
print(eval('2+2'))
print(eval('pow(2,2)'))


### 日期时间

datetime是Python处理日期和时间的标准库。

获取当前日期和时间：

In [2]:
from datetime import datetime
now = datetime.now() # 获取当前datetime
print(now)

2019-11-21 20:58:23.505184


In [None]:
注意到datetime是模块，datetime模块还包含一个datetime类，通过from datetime import datetime导入的才是datetime这个类。

如果仅导入import datetime，则必须引用全名datetime.datetime。

datetime.now()返回当前日期和时间，其类型是datetime。

In [5]:
from datetime import datetime, timedelta
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt)
# str转换为datetime
cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')
print(cday)
# datetime转换为str
print(now.strftime('%a, %b %d %H:%M'))
# datetime加减
print(now + timedelta(hours=10))
now + timedelta(days=2, hours=12)

import calendar
print (calendar.isleap(1996))

2015-04-19 12:20:00
2015-06-01 18:19:59
Thu, Nov 21 20:58
2019-11-22 06:58:23.505184
True


### IO编程

IO就是输入输出，IO中有一个很重要的概念，就是流Stream，数据从网络、硬盘流入内存是Input stream，反过来就是output stream。

控制IO的方式有同步和异步两种，这是因为内存存取数据的速度是远高于外设的，因此就存在速度不匹配的问题，所以要么就忍者，快的等慢的，即同步的；要么就不等，快的告诉慢的你先弄着，我先去干别的，搞完了告诉我，这就是异步。异步优点是性能好，缺点是麻烦。

操作IO的能力都是操作系统提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用，Python也不例外。接下来就从一些常用操作开始说起。

#### 读写txt文件

在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写文件就是**请求操作系统打开一个文件对象**（通常称为文件描述符），然后，通过**操作系统提供的接口**从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

要以读文件的模式打开一个文件对象，使用Python内置的**open()函数**，传入文件名和标示符：

In [None]:
# open函数请求操作系统打开文件
f=open('test.txt','r')
# 打开后读取文件内容到内存中，是一个str对象
f.read()

最后，要记得关闭文件，因为其会占用操作系统的资源，操作系统同一时间能打开的文件数量是有限的。

In [None]:
f.close()

前面说过with的用法，因为有时候可能会有错误，所以读写文件这类操作通常会有try...finally来实现，但是这样写太麻烦，所以使用with语句。

In [None]:
with open('test.txt', 'r') as f:
    print(f.read())

如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

In [None]:
with open('test.txt', 'r') as f:
    for line in f.readlines():
        print(line.strip()) # 把末尾的'\n'删掉

另外还有readline方法，该方法比较适合读取大文件，for line in f将文件对象f视为一个迭代器，自动的采用缓冲IO和内存管理，所以不必担心大文件。让系统来处理，其实是最简单的方式，交给解释器，就万事大吉了。——[python读GB级大文件](https://github.com/Shuang0420/Shuang0420.github.io/wiki/python%E8%AF%BBGB%E7%BA%A7%E5%A4%A7%E6%96%87%E4%BB%B6)

In [None]:
with open('test.txt', 'r') as f:
    for line in f:
        print(line.strip()) # 把末尾的'\n'删掉

这三种方法的区别，参考：[Python中的read(),readline(),readlines()区别与用法](https://www.jianshu.com/p/a672f39287c4)

- read([size])方法从文件当前位置起读取size个字节，若无参数size，则表示读取至文件结束为止，它范围为字符串对象；
- 从字面意思可以看出，该方法每次读出一行内容，所以，读取时占用内存小，比较适合大文件，该方法返回一个字符串对象；
- readlines()方法读取整个文件所有行，保存在一个列表(list)变量中，每行作为一个元素，但读取大文件会比较占内存。

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

In [None]:
with open('test.txt', 'w') as f:
    f.write('Hello, world!')

以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果我们希望追加到文件末尾怎么办？可以传入'a'以追加（append）模式写入。

In [None]:
with open('test.txt', 'a') as f:
    # 字符串开头加\n，可以另起一行开始添加    
    f.write('\nHello, Owen!')

#### 读写json文件

json 模块提供了一种很简单的方式来编码和解码JSON数据。 

其中两个主要的函数是 json.dumps() 和 json.loads()，要比其他序列化函数库如pickle的接口少得多。

下面演示如何将一个Python数据结构转换为JSON

In [None]:
import json
# 写入json
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23
}

json_str = json.dumps(data)

# 读取
data = json.loads(json_str)


如果你要处理的是文件而不是字符串，你可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。例如：


In [None]:
# Writing JSON data
with open('data.json', 'w') as f:
    json.dump(data, f)

# Reading data back
with open('data.json', 'r') as f:
    data = json.load(f)


JSON编码支持的基本数据类型为 None ， bool ， int ， float 和 str ， 以及包含这些类型数据的lists，tuples和dictionaries。

对于dictionaries，keys需要是字符串类型(字典中任何非字符串类型的key在编码时会先转换为字符串)。

为了遵循JSON规范，你应该只编码Python的lists和dictionaries。 而且，在web应用程序中，顶层对象被编码为一个字典是一个标准做法。

在编码JSON的时候，还有一些选项很有用。 如果你想获得漂亮的格式化字符串后输出，可以使用 json.dumps() 的indent参数。 它会使得输出和pprint()函数效果类似。


In [None]:
print(json.dumps(data))
print(json.dumps(data, indent=4))

### 进程和线程

现代操作系统基本都是支持“多任务”的操作系统。“多任务”，简单地说，就是操作系统可以同时运行多个任务。

因为CPU的速度很快，为了不浪费资源，所以单核的时候就有让操作系统轮流执行多任务的犀利操作了。而有了多核CPU之后，就有了真正的并行多任务。但是，由于任务数量远远多于CPU的核心数量，所以，操作系统也会自动把很多任务轮流调度到每个核心上执行。

对于操作系统来说，一个任务就是一个进程（Process），比如打开一个浏览器就是启动一个浏览器进程。有些进程还不止同时干一件事，比如Word，它可以同时进行打字、拼写检查、打印等事情。在一个进程内部，要同时干多件事，就需要同时运行多个“子任务”，我们把进程内的这些“子任务”称为线程（Thread）。关于进程和线程的区别可以参考这篇[post](https://www.zhihu.com/question/25532384)。引用一句总结：线程共享了进程的上下文环境，是颗粒更小的CPU时间段的描述。

回到python，之前的程序基本都是单任务的进程，也就是只有一个线程，现在如果要同时执行多个任务怎么办？

多任务的实现有3种方式：

- 多进程模式；
- 多线程模式；
- 多进程+多线程模式

启动多个进程，每个进程再启动多个线程，这种模型更复杂，实际很少采用。

同时执行多个任务通常各个任务之间并不是没有关联的，而是需要相互通信和协调，有时，任务1必须暂停等待任务2完成后才能继续执行，有时，任务3和任务4又不能同时执行，所以，多进程和多线程的程序的**复杂度要远远高于**我们前面写的单进程单线程的程序。

不是迫不得已，也不想编写多任务。但是，有很多时候，没有多任务还真不行。想想在电脑上看电影，就必须由一个线程播放视频，另一个线程播放音频，否则，单线程实现的话就只能先把视频播放完再播放音频，或者先把音频播放完再播放视频，这显然是不行的。

#### 多进程

Unix/Linux操作系统提供了一个fork()系统调用，它非常特殊。普通的函数调用，调用一次，返回一次，但是**fork()调用一次，返回两次**，因为操作系统自动把当前进程（称为父进程）复制了一份（称为子进程），然后，分别在父进程和子进程内返回。

子进程永远返回0，而父进程返回子进程的ID。这样做的理由是，一个父进程可以fork出很多子进程，所以，父进程要记下每个子进程的ID，而子进程只需要调用getppid()就可以拿到父进程的ID。

Python的os模块封装了常见的系统调用，其中就包括fork，可以在Python程序中轻松创建子进程：

In [7]:
import os

print('Process (%s) start...' % os.getpid())
# Only works on Unix/Linux/Mac:
pid = os.fork()
if pid == 0:
    print('I am child process (%s) and my parent is %s.' % (os.getpid(), os.getppid()))
else:
    print('I (%s) just created a child process (%s).' % (os.getpid(), pid))

Process (31803) start...
I (31803) just created a child process (7406).
I am child process (7406) and my parent is 31803.


如果打算编写多进程的服务程序，Unix/Linux无疑是正确的选择。那么Windows没有fork调用，难道在Windows上无法用Python编写多进程的程序？

python提供的multiprocessing模块是跨平台版本的多进程模块。

multiprocessing模块提供了一个Process类来代表一个进程对象，下面的例子演示了启动一个子进程并等待其结束：

In [8]:
from multiprocessing import Process
import os

# 子进程要执行的代码
def run_proc(name):
    print('Run child process %s (%s)...' % (name, os.getpid()))

if __name__=='__main__':
    print('Parent process %s.' % os.getpid())
    p = Process(target=run_proc, args=('test',))
    print('Child process will start.')
    p.start()
    p.join()
    print('Child process end.')

Parent process 31803.
Child process will start.
Run child process test (5610)...
Child process end.


### 访问操作系统功能

这部分参考了[简书博客](https://www.jianshu.com/p/5ce082723fe6)。

OS模块是Python标准库中的一个用于**访问操作系统功能**的模块，OS模块提供了一种可移植的方法使用操作系统的功能。使用OS模块中提供的接口，可以实现跨平台访问。但是在OS模块中的接口并不是所有平台都通用，有些接口的实现是依靠特定平台下的接口的。在OS模块中提供了一系列访问操作系统功能的接口，便于编写跨平台的应用。

In [1]:
import os
# 系统名称，windows下为‘nt’，linux下为‘posix’
os.name

'nt'

在使用OS模块的时候，如果使用过程中出现了异常，OS模块会抛出OSError异常，表明：无效的路径名或文件名，或者给出的路径名或文件名无法访问，或者当前使用的系统不支持。

这里给出一些常用的os命令：

In [2]:
# 得到当前工作的目录
os.getcwd()
# 列出指定目录（默认是当前目录）下所有的文件和目录名
os.listdir()
# 判断指定对象是否为文件
print(os.path.isfile('test.txt'))
# 判断指定对象是否为目录
print(os.path.isdir('test.txt'))
# 检验指定的对象是否存在
print(os.path.exists('test.txt'))
# 返回路径的目录和文件名
print(os.path.split('test.txt'))
# 执行shell命令
os.system("echo 'hello world!'")
# 连接目录和文件名
os.path.join('1-basin-python', 'test.txt')

True
False
True
('', 'test.txt')


'1-basin-python\\test.txt'

补充一些os.path.join()的内容：

- 该函数会从第一个以”/”开头的参数开始拼接，之前的参数全部丢弃；
- 在上一种情况确保情况下，若出现”./”开头的参数，会从”./”开头的参数的上一个参数开始拼接。

In [None]:
print("1:",os.path.join('aaaa','/bbbb','ccccc.txt'))

print("2:",os.path.join('/aaaa','/bbbb','/ccccc.txt'))

print("3:",os.path.join('aaaa','./bbb','ccccc.txt'))
# 获取上上上级目录
os.path.abspath(os.path.join(os.getcwd(), "../../.."))

### 电子邮件

电子邮件的流程和传统邮件基本一致，假设自己的电子邮件地址是me@163.com，对方的电子邮件地址是friend@sina.com，梳理一下基本的流程：

1. 用Outlook或者Foxmail之类的软件写好邮件，填上对方的Email地址，点“发送”，电子邮件就发出去了。这些电子邮件软件被称为**MUA：Mail User Agent——邮件用户代理**；
2. Email从MUA发出去，不是直接到达对方电脑，而是发到**MTA：Mail Transfer Agent——邮件传输代理**，就是那些Email服务提供商，比如网易、新浪等等，本例中，Email首先被投递到网易提供的MTA，再由网易的MTA发到新浪的MTA；
3. 到达新浪的MTA后，新浪的MTA会把Email投递到邮件的最终目的地**MDA：Mail Delivery Agent——邮件投递代理**，Email到达MDA后，就静静地躺在新浪的某个服务器上，存放在某个文件或特殊的数据库里，我们将这个长期保存邮件的地方称之为电子邮箱；
4. 对方要取到邮件，必须通过MUA从MDA上把邮件取到自己的电脑上。

所以，一封电子邮件的旅程就是：

```
发件人 -> MUA -> MTA -> MTA -> 若干个MTA -> MDA <- MUA <- 收件人
```

因此要编写程序来发送和接收邮件，本质上就是：

- 编写MUA把邮件发到MTA；
- 编写MUA从MDA上收邮件。

发邮件时，MUA和MTA使用的协议就是**SMTP**：Simple Mail Transfer Protocol，后面的MTA到另一个MTA也是用SMTP协议。

收邮件时，MUA和MDA使用的协议有两种：**POP**：Post Office Protocol，目前版本是3，俗称POP3；**IMAP**：Internet Message Access Protocol，目前版本是4，优点是不但能取邮件，还可以直接操作MDA上存储的邮件，比如从收件箱移到垃圾箱，等等。

邮件客户端软件在发邮件时，会让你先**配置SMTP服务器**，也就是你要发到哪个MTA上。假设你正在使用163的邮箱，你就不能直接发到新浪的MTA上，因为它只服务新浪的用户，所以，你得填163提供的SMTP服务器地址：smtp.163.com，为了证明你是163的用户，SMTP服务器还要求你填写邮箱地址和邮箱口令，这样，MUA才能正常地把Email通过SMTP协议发送到MTA。

类似的，从MDA收邮件时，MDA服务器也要求**验证你的邮箱口令**，确保不会有人冒充你收取你的邮件，所以，Outlook之类的邮件客户端会要求你填写POP3或IMAP服务器地址、邮箱地址和口令，这样，MUA才能顺利地通过POP或IMAP协议从MDA取到邮件。

特别注意，目前大多数邮件服务商都需要手动打开SMTP发信和POP收信的功能。

接下来以谷歌邮箱为例记录邮件发送相关内容，这部分主要参考：[Python邮件发送，看这篇就够](https://juejin.im/post/5c6d64c7f265da2dca385d90)。

目前简单记录一些基本内容，详细内容可参考原文。

这里使用Gmail，需要调整Gmail账户的[安全设置](https://myaccount.google.com/lesssecureapps)来允许python代码访问，这可能泄露登陆信息的，因此最好用一个全新的账号专门来测试。

如果你不想降低Gmail帐户的安全设置，请查看Google的[文档](https://developers.google.com/gmail/api/quickstart/python)，了解如何使用Python脚本进行OAuth2授权来获取访问凭据。

使用 SMTP_SSL() 建立安全的SMTP连接:

In [None]:
import smtplib, ssl

port = 465  # For SSL
smtp_server = "smtp.gmail.com"
sender_email = "my@gmail.com"  # Enter your address
receiver_email = "your@gmail.com"  # Enter receiver address
password = input("Type your password and press enter: ")
message = """\
Subject: Hi there

This message is sent from Python."""

context = ssl.create_default_context()
with smtplib.SMTP_SSL(smtp_server, port, context=context) as server:
    server.login(sender_email, password)
    server.sendmail(sender_email, receiver_email, message)


### 调用R程序

水文水资源中有很多程序是R语言编写的，相关内容可参考文献：[Using R in hydrology](https://doi.org/10.5194/hess-23-2939-2019)，所以能调用R程序也是一个十分重要的基础技术。

在python中调用R语言的最常用的方式就是利用rpy2库。

#### 安装rpy2
rpy2是一个支持在python环境下调用R的库。是RPy1.x的更新版本。官网说明可以使用pip安装rpy2。

``` code
pip install rpy2
```

个人在使用上述方法安装时报错，怀疑是R的环境变量没有配置导致的，因此配置了R的环境。但是仍然报错，再次网上搜索]找到了[另一种安装方式](https://www.jianshu.com/p/0849c8f402c6)：

``` code
conda install -c r rpy2
```

尝试之后，安装成功。之后进行测试。不过运行官网的测试程序依然报错（可能是因为我下载的是2.9版本的，而2.9版的文档还没完成），但是查找rpy2的包，已经存在。

运行下列最基本代码也没问题。因此尝试直接运行robjects下的tests.py的程序。有如下报错：


In [None]:
import rpy2
print(rpy2.__version__)


``` python
C:\Users\hust2\Anaconda3\lib\site-packages\rpy2\robjects\packages.py:347: UserWarning: The symbol 'quartz' is not in this R namespace/package.
  warnings.warn("The symbol '%s' is not in this R namespace/package." % name)
```

因此，在命令行终端里，输入R，进入R环境，然后键入如下代码安装quartz库。

``` R
install.packages("quartz")
```

但是我是在VS2017下安装的R语言，因此默认的是新版本的R 3.6.1。该版本中没有quartz包。

因此，先搁置。继续往下看官网内容。

#### 基本内容

rpy2下有几个基本的文件夹。

- rpy2.rinterface：Low-level interface to R, 追求速度和灵活性时更多地使用. Close to R’s C-level API.
- rpy2.robjects：High-level interface, 简易上手. Should be the right pick for casual and general use. Based on the previous one.
- rpy2.interactive：High-level interface, 主要针对interactive work. Largely based on rpy2.robjects.
- rpy2.rpy_classic：High-level interface similar to the one in RPy-1.x. 为了兼容性, as well as to facilitate the migration to RPy2.
- rpy2.rlike：Data structures and functions to mimic some of R’s features and specificities in pure Python (no embedded R process).


In [None]:
from rpy2.rinterface import R_VERSION_BUILD
print(R_VERSION_BUILD)
import rpy2.robjects as robjects


接下来是一些基操。


In [None]:
from rpy2.robjects.packages import importr
# import R's "base" package
base = importr('base')

# import R's "utils" package
utils = importr('utils')
# R的object
pi = robjects.r['pi']
print(pi[0])

# 调用R函数
rsum = robjects.r['sum']
print(rsum(robjects.IntVector([1,2,3]))[0])

rsort = robjects.r['sort']
res = rsort(robjects.IntVector([1,2,3]), decreasing=True)
print(res.r_repr())