# Python基础

Python基础有很多内容，作为非CS专业的想快速上手的同学，没必要从头到尾照本宣科，因此这里主要把握基本内容。

这部分结构主要参考了[Python programming guide for Earth Scientists](http://python.hydrology-amsterdam.nl/manuals/hydro_python_manual.pdf)。

内容上参考了<https://www.liaoxuefeng.com/wiki/1016959663602400>，但主要是记录一些自己平常见到的，又不同于其他编程语言比如Java的一些特点。

思路是这样的：

- 首先，所有语言的练习都离不开的基础：安装python，使用IDE；
- 其次熟悉基本的语法（变量常量、数据类型、运算、循环for/while、条件if/switch等）；
- 接着就是函数及面向对象编程；
- 最后基础部分就是熟悉python的内置库，基础库的使用。

安装python及IDE就不赘述了，python安装anaconda即可，IDE可以直接使用anaconda自带的IPython或spider，个人推荐VScode和Pycharm社区版。

## 基础语法

整型、浮点型等特别基础的就不记录了，变量常量里重点记录一些字符串相关的内容。

### 字符串


In [13]:
# 数据和字符串转换
print(chr(65))
print(ord('A'))

print(int('2'))

""" 字符串包含"""
test_string = 'helloworld'
if 'world' in string:
    print('Exist')
else:
    print('Not exist')

# 字符串的子字符串，不像java用substring，而是直接使用索引取值
print(test_string[5:])

# 大小写转换
print(test_string.upper())          # 把所有字符中的小写字母转换成大写字母
print(test_string.lower())          # 把所有字符中的大写字母转换成小写字母
print(test_string.capitalize())     # 把第一个字母转化为大写字母，其余小写
print(test_string.title())          # 把每个单词的第一个字母转化为大写，其余小写 

"""enumerate函数的使用"""
seq = ['one', 'two', 'three']
for i, element in enumerate(seq):
    print(i, element)


A
65
2
Exist
world
HELLOWORLD
helloworld
Helloworld
Helloworld
0 one
1 two
2 three


zfill()函数：Python zfill() 方法返回指定长度的字符串，原字符串右对齐，前面填充0。


In [1]:
str = "this is string example....wow!!!";

print(str.zfill(40))
print(str.zfill(50))


00000000this is string example....wow!!!
000000000000000000this is string example....wow!!!


### 基本数据结构

python几个最基本的数据结构有：

- list：可理解为可变大小的数组，python索引可以为负值，表示倒序。
- tuple：和list类似，区别是一经初始化就不能修改。
- dict：就是map，使用key-value存储，查找较快。
- set：和dict类似，也是一组key的集合，但不存储value，且由于key不能重复，这就意味着set中没有重复的元素。


In [17]:
# list
a=[1,2,3]
b=[4,5,6]
# list拼接
print(a+b)

# 排序的set
mailto = ['cc', 'bbbb', 'afa', 'sss', 'bbbb', 'cc', 'shafa']
addr_to = list(set(mailto))
print(addr_to)
addr_to.sort(key=mailto.index)
print(addr_to)

[1, 2, 3, 4, 5, 6]
['afa', 'bbbb', 'sss', 'shafa', 'cc']
['cc', 'bbbb', 'afa', 'sss', 'shafa']


### 基础运算

这里介绍一些python里面相对特殊的运算符。

#### "~"运算符

按位取反运算符：对数据的每个二进制位取反,即把1变为0,把0变为1 。~x 类似于 -x-1。


In [2]:
a = 60  # 60 = 0011 1100
c=~a
print(c) # -61 = 1100 0011
b1=True
d1=~b1
print(d1)
b2=False
d2=~b2
print(d2)


-61
-2
-1


#### "//"运算符

In [1]:
# 基本数学运算符中，整除符号是//
a = 10
b = 5
c = a // b
print("c 的值为：", c)

c 的值为： 2


#### and/or运算符

python中不使用&&和||来表示与或运算符，而是使用and和or。

In [16]:
num = 9
if num >= 0 and num <= 10:    # 判断值是否在0~10之间
    print('hello')
# 输出结果: hello

hello


#### is和==的区别

#### 一些特别情况

计算机的数学运算中会遇到一些平时手算时不会碰到的错误。

In [None]:
# RuntimeWarning: invalid value encountered in double_scalars
kss = 0.22917998605606738
kg = 0.832161545953715
period_num_1d = 24
# 开方运算会遇到根式下为负数的情况，会得到复数，如果数据类型是float，那么运算结果会为nan
kss_period = (1 - (1 - (kss + kg)) ** (1 / period_num_1d)) / (1 + kg / kss)
print(type(kss_period))
print(kss_period)

## 函数与类

函数就是直接编写，在脚本中调用即可，相关内容可参考开头提供的guide文档。这里重点介绍python特别的函数形式以及面向对象的基本内容。

### With语句

有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。
一个很好的例子是文件处理，你需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。

如果不用with语句，代码如下：

In [None]:
file = open("data.json")
data = file.read()
file.close()


这里有两个问题。一是可能忘记关闭文件句柄；二是文件读取数据发生异常，没有进行任何处理。下面是处理异常的加强版本。


In [None]:
file = open("data.json")
try:
    data = file.read()
finally:
    file.close()
    

虽然这段代码运行良好，但是太冗长了。这时候就是with一展身手的时候了。
除了有更优雅的语法，with还可以很好的处理上下文环境产生的异常。下面是with版本的代码


In [None]:
with open("data.json") as file:
    data = file.read()


with如何工作？

Python对with的处理还很聪明。基本思想是with所求值的对象必须有一个__enter__()方法，一个__exit__()方法。

紧跟with后面的语句被求值后，返回对象的__enter__()方法被调用，这个方法的返回值将被赋值给as后面的变量。
当with后面的代码块全部被执行完之后，将调用前面返回对象的__exit__()方法。

### 回调函数

In [None]:

import time


def apply_async(func, args, *, callback):
    """回调函数的应用，python的函数很灵活，可以直接做函数参数"""
    # Compute the result
    result = func(*args)

    # Invoke the callback with the result
    callback(result)


def print_result(result):
    print('Got:', result)


def add(x, y):
    return x + y


apply_async(add, (2, 3), callback=print_result)

apply_async(add, ('hello', 'world'), callback=print_result)


### 闭包
闭包的基本点

In [None]:
def outer():
    var = 3

    def inner():
        print("the func is used: var=" + str(var))

    return inner


# 以上，函数inner和自有变量var的“引用”共同构成了闭包。var对于inner来说是自由变量。
# 在一个内部函数中，对外部作用域的变量进行引用，并且外部函数的返回值为内部函数，那么内部函数就被认为是闭包。
outer()  # no print
func = outer()
func()  # print 3
var = 5
func()  # print 3

# 闭包的作用可以保存当前的运行环境
def create(pos=[0, 0]):
    def go(direction, step):
        new_x = pos[0] + direction[0] * step
        new_y = pos[1] + direction[1] * step
        pos[0] = new_x
        pos[1] = new_y
        return pos

    return go


player = create()
print(player([1, 0], 10))
print(player([0, 1], 20))
print(player([-1, 0], 10))

## python语法小结

本节主要对python中一些令人印象深刻的基础语法进行归纳总结，为更高级的python语句的理解做铺垫。

"."和"*"和"_"等特殊符号在python语法中十分常见，本节先从这些符号开始说起。

### _号的用法

本小节主要参考：[Python中下划线的5种含义](https://zhuanlan.zhihu.com/p/36173202)。下划线在python变量、方法等的名称中都各有其含义，主要包括两个层面：

- 约定的含义，对程序员的提示；
- 由Python解释器严格执行的。

主要讨论5类下划线模式及对python程序的行为的影响：

- 单前导下划线（_var）：一个命名约定，表示变量或方法仅内部（比如类内，模块内等）使用；
- 单末尾下划线（var_）：一个命名约定，用来避免与关键字产生命名冲突；
- 双前导下划线（__var）：解释器会更改该变量的名称，以便在类被扩展的时候不冲突；
- 双前导和末尾下划线（__var__）：Python保留了这类名称用于特殊用途，最好避免在自己的程序中使用；
- 单下划线（_）：约定，表示这个变量是临时的，也是一个特殊变量，解释器评估的最近一个表达式的结果。

综上，单下划线的基本上属于约定类的，双下划线的则是解释器级的。下面给例子说明下__var和__var__

In [1]:
class Test:
   def __init__(self):
       self.foo = 11
       self._bar = 23
       self.__baz = 23
        
t = Test()
dir(t)

['_Test__baz',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_bar',
 'foo']

dir()函数可查看对象的属性，从上例中可以看出，__baz变量已经变为_Test__baz变量。也就是说双下划线变量的这种名称修饰对程序员是透明的，这是为了防止被意外修改。对方法的命名也是一样的，这里就不再赘述了。

首尾双下划线的例子，以__call__函数为例。

In [None]:
# __call__函数的作用
# /usr/bin/env python
class test:
    def __init__(self, a):
        self.a = a

    def __call__(self, b):
        c = self.a + b
        print(c)

    def display(self):
        print(self.a)


Test = test("This is test!")
Test.display()  # 调用display函数
Test("##Append something")  # __call__实际上是将一个类重载了"()"，也就是让一个类也可以像一个函数一样可以拿来调用了。因此这里会调用__call__函数

### *的用法

这部分主要参考：[Python函数中*和**的内涵究竟是什么呢？](https://www.zhihu.com/question/265519629)。

星号主要在函数定义和函数调用的时候使用：

- 函数定义：
  - 使用单个星号会将所有的参数放入一个元组tuple供函数使用；
  - 使用两个星号会将所有的参数放入一个字典dict供函数使用；
- 函数调用：
  - 在list、tuple、set前加一个星号会把容器中所有元素解包变成位置参数；
  - 在dict前加一个星号会把字典的键变成位置参数；
  - 在dict前加两个星号会把字典的键值对变成关键字参数。
  
结合以下例子便可理解。

In [4]:
def foo(*args):
    for a in args:
        print(a)
        
foo(1)
print()
foo(1,2,3)

1

1
2
3


In [5]:
def bar(**kwargs):
    for a in kwargs:
        print(a, kwargs[a])
        
bar(name='one', age=27)

name one
age 27


In [8]:
def foo(x,y,z):
    print("x=" + str(x))
    print("y=" + str(y))
    print("z=" + str(z))
    
mylist = [1,2,3]
foo(*mylist)

x=1
y=2
z=3


In [9]:
mydict = {'x':1,'y':2,'z':3}
foo(**mydict)

x=1
y=2
z=3


In [10]:
mytuple = (1, 2, 3)
foo(*mytuple)

x=1
y=2
z=3


In [11]:
def foo(param1, *param2):
    print(param1)
    print(param2)

def bar(param1, **param2):
    print(param1)
    print(param2)

foo(1,2,3,4,5)
bar(1,a=2,b=3)

1
(2, 3, 4, 5)
1
{'a': 2, 'b': 3}


### classmethod v.s. staticmethod

- [ ] classmethod v.s. staticmethod

## 基本库的使用

基本库的运用可以从这些方面着手：

- 数据结构操作
- 日期时间表达
- 文件读写
- 系统模块
- 电子邮件
- 调用其他语言程序

### 数据结构基本操作


In [17]:
# all()函数
print(all(['a', 'b', 'c', 'd']))  # 列表list，元素都不为空或0
print(all(['a', 'b', '', 'd']))
print(all([0, 1, 2, 3]))
print(all([]))
print(all(()))

# eval()函数
x = 7
# eval(expression[, globals[, locals]])用来执行一个字符串表达式，并返回表达式的值。
print(eval('3*x'))
print(eval('2+2'))
print(eval('pow(2,2)'))


True
False
False
True
True
21
4
4


### 日期时间

datetime是Python处理日期和时间的标准库。

获取当前日期和时间：

In [2]:
from datetime import datetime
now = datetime.now() # 获取当前datetime
print(now)

2019-10-28 10:25:21.187565


注意到datetime是模块，datetime模块还包含一个datetime类，通过from datetime import datetime导入的才是datetime这个类。

如果仅导入import datetime，则必须引用全名datetime.datetime。

datetime.now()返回当前日期和时间，其类型是datetime。



In [9]:
from datetime import datetime, timedelta
dt = datetime(2015, 4, 19, 12, 20) # 用指定日期时间创建datetime
print(dt)
# str转换为datetime
cday = datetime.strptime('2015-6-1 18:19:59', '%Y-%m-%d %H:%M:%S')
print(cday)
# datetime转换为str
print(now.strftime('%a, %b %d %H:%M'))
# datetime加减
print(now + timedelta(hours=10))
now + timedelta(days=2, hours=12)

2015-04-19 12:20:00
2015-06-01 18:19:59
Mon, Oct 28 10:27
2019-10-28 20:27:37.229108


datetime.datetime(2019, 10, 30, 22, 27, 37, 229108)

### IO编程

IO就是输入输出，IO中有一个很重要的概念，就是流Stream，数据从网络、硬盘流入内存是Input stream，反过来就是output stream。

控制IO的方式有同步和异步两种，这是因为内存存取数据的速度是远高于外设的，因此就存在速度不匹配的问题，所以要么就忍者，快的等慢的，即同步的；要么就不等，快的告诉慢的你先弄着，我先去干别的，搞完了告诉我，这就是异步。异步优点是性能好，缺点是麻烦。

操作IO的能力都是操作系统提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用，Python也不例外。接下来就从一些常用操作开始说起。

#### 读写txt文件

在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，所以，读写文件就是**请求操作系统打开一个文件对象**（通常称为文件描述符），然后，通过**操作系统提供的接口**从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

要以读文件的模式打开一个文件对象，使用Python内置的**open()函数**，传入文件名和标示符：

In [5]:
# open函数请求操作系统打开文件
f=open('test.txt','r')
# 打开后读取文件内容到内存中，是一个str对象
f.read()

'Hello, World!'

最后，要记得关闭文件，因为其会占用操作系统的资源，操作系统同一时间能打开的文件数量是有限的。

In [6]:
f.close()

前面说过with的用法，因为有时候可能会有错误，所以读写文件这类操作通常会有try...finally来实现，但是这样写太麻烦，所以使用with语句。

In [7]:
with open('test.txt', 'r') as f:
    print(f.read())

Hello, World!


如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

In [12]:
with open('test.txt', 'r') as f:
    for line in f.readlines():
        print(line.strip()) # 把末尾的'\n'删掉

Hello, world!
Hello, Owen!


另外还有readline方法，该方法比较适合读取大文件，for line in f将文件对象f视为一个迭代器，自动的采用缓冲IO和内存管理，所以不必担心大文件。让系统来处理，其实是最简单的方式，交给解释器，就万事大吉了。——[python读GB级大文件](https://github.com/Shuang0420/Shuang0420.github.io/wiki/python%E8%AF%BBGB%E7%BA%A7%E5%A4%A7%E6%96%87%E4%BB%B6)

In [14]:
with open('test.txt', 'r') as f:
    for line in f:
        print(line.strip()) # 把末尾的'\n'删掉

Hello, world!

Hello, Owen!


这三种方法的区别，参考：[Python中的read(),readline(),readlines()区别与用法](https://www.jianshu.com/p/a672f39287c4)

- read([size])方法从文件当前位置起读取size个字节，若无参数size，则表示读取至文件结束为止，它范围为字符串对象；
- 从字面意思可以看出，该方法每次读出一行内容，所以，读取时占用内存小，比较适合大文件，该方法返回一个字符串对象；
- readlines()方法读取整个文件所有行，保存在一个列表(list)变量中，每行作为一个元素，但读取大文件会比较占内存。

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

In [14]:
with open('test.txt', 'w') as f:
    f.write('Hello, world!')

以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果我们希望追加到文件末尾怎么办？可以传入'a'以追加（append）模式写入。

In [15]:
with open('test.txt', 'a') as f:
    # 字符串开头加\n，可以另起一行开始添加    
    f.write('\nHello, Owen!')

#### 读写json文件

json 模块提供了一种很简单的方式来编码和解码JSON数据。 

其中两个主要的函数是 json.dumps() 和 json.loads()，要比其他序列化函数库如pickle的接口少得多。

下面演示如何将一个Python数据结构转换为JSON

In [6]:
import json
# 写入json
data = {
    'name' : 'ACME',
    'shares' : 100,
    'price' : 542.23
}

json_str = json.dumps(data)

# 读取
data = json.loads(json_str)


如果你要处理的是文件而不是字符串，你可以使用 json.dump() 和 json.load() 来编码和解码JSON数据。例如：


In [8]:
# Writing JSON data
with open('data.json', 'w') as f:
    json.dump(data, f)

# Reading data back
with open('data.json', 'r') as f:
    data = json.load(f)


JSON编码支持的基本数据类型为 None ， bool ， int ， float 和 str ， 以及包含这些类型数据的lists，tuples和dictionaries。

对于dictionaries，keys需要是字符串类型(字典中任何非字符串类型的key在编码时会先转换为字符串)。

为了遵循JSON规范，你应该只编码Python的lists和dictionaries。 而且，在web应用程序中，顶层对象被编码为一个字典是一个标准做法。

在编码JSON的时候，还有一些选项很有用。 如果你想获得漂亮的格式化字符串后输出，可以使用 json.dumps() 的indent参数。 它会使得输出和pprint()函数效果类似。


In [9]:
print(json.dumps(data))
print(json.dumps(data, indent=4))


{"name": "ACME", "shares": 100, "price": 542.23}
{
    "name": "ACME",
    "shares": 100,
    "price": 542.23
}


#### netcdf文件

关于netcdf的介绍，参考[netcdf-intro](netcdf-intro.md)。

NAME
    NetCDF with Python
PURPOSE
    To demonstrate how to read and write data with NetCDF files using
    a NetCDF file from the NCEP/NCAR Reanalysis.
    Plotting using Matplotlib and Basemap is also shown.
PROGRAMMER(S)
    Chris Slocum
    Owenyy修改
REVISION HISTORY
    20140320 -- Initial version created and posted online
    20140722 -- Added basic error handling to ncdump
                Thanks to K.-Michael Aye for highlighting the issue
    20190505 -- basemap2020年断更，新的绘图包使用cartopy
REFERENCES
    netcdf4-python -- http://code.google.com/p/netcdf4-python/
    NCEP/NCAR Reanalysis -- Kalnay et al. 1996
        http://dx.doi.org/10.1175/1520-0477(1996)077<0437:TNYRP>2.0.CO;2


In [None]:
import datetime as dt  # Python standard library datetime  module
import numpy as np
from netCDF4 import Dataset  # http://code.google.com/p/netcdf4-python/
import matplotlib.pyplot as plt
import cartopy.crs as ccrs
import cartopy.feature as cfeature


def ncdump(nc_fid, verb=True):
    '''
    ncdump outputs dimensions, variables and their attribute information.
    The information is similar to that of NCAR's ncdump utility.
    ncdump requires a valid instance of Dataset.

    Parameters
    ----------
    nc_fid : netCDF4.Dataset
        A netCDF4 dateset object
    verb : Boolean
        whether or not nc_attrs, nc_dims, and nc_vars are printed

    Returns
    -------
    nc_attrs : list
        A Python list of the NetCDF file global attributes
    nc_dims : list
        A Python list of the NetCDF file dimensions
    nc_vars : list
        A Python list of the NetCDF file variables
    '''

    def print_ncattr(key):
        """
        Prints the NetCDF file attributes for a given key

        Parameters
        ----------
        key : unicode
            a valid netCDF4.Dataset.variables key
        """
        try:
            print("\t\ttype:", repr(nc_fid.variables[key].dtype))
            for ncattr in nc_fid.variables[key].ncattrs():
                print('\t\t%s:' % ncattr, \
                      repr(nc_fid.variables[key].getncattr(ncattr)))
        except KeyError:
            print("\t\tWARNING: %s does not contain variable attributes" % key)

    # NetCDF global attributes
    nc_attrs = nc_fid.ncattrs()
    if verb:
        print("NetCDF Global Attributes:")
        for nc_attr in nc_attrs:
            print('\t%s:' % nc_attr, repr(nc_fid.getncattr(nc_attr)))
    nc_dims = [dim for dim in nc_fid.dimensions]  # list of nc dimensions
    # Dimension shape information.
    if verb:
        print("NetCDF dimension information:")
        for dim in nc_dims:
            print("\tName:", dim)
            print("\t\tsize:", len(nc_fid.dimensions[dim]))
            print_ncattr(dim)
    # Variable information.
    nc_vars = [var for var in nc_fid.variables]  # list of nc variables
    if verb:
        print("NetCDF variable information:")
        for var in nc_vars:
            if var not in nc_dims:
                print('\tName:', var)
                print("\t\tdimensions:", nc_fid.variables[var].dimensions)
                print("\t\tsize:", nc_fid.variables[var].size)
                print_ncattr(var)
    return nc_attrs, nc_dims, nc_vars


# 读取nc文件的步骤一般是先创建一个Datase对象
nc_fid = Dataset('./air.sig995.2012.nc')  # Dataset is the class behavior to open the file
print(nc_fid)
# and create an instance of the ncCDF4 class，显示数据的全局属性、维度和变量信息
nc_attrs, nc_dims, nc_vars = ncdump(nc_fid)
# Extract data from NetCDF file
lats = nc_fid.variables['lat'][:]  # extract/copy the data
lons = nc_fid.variables['lon'][:]
time = nc_fid.variables['time'][:]
air = nc_fid.variables['air'][:]  # shape is time, lat, lon as shown above

# Python and NCEP reanalysis Daily Averages的数据集 are slightly off in time， so this fixes that problem
offset = dt.timedelta(hours=48)
# List of all times in the file as datetime objects，这里time的时间表示是与1-1-1 00:00:0.0的小时差
dt_time = [dt.date(1, 1, 1) + dt.timedelta(hours=t) - offset for t in time]
time_idx = 237  # some random day in 2012，随意选一天。
cur_time = dt_time[time_idx]

# Plot of global temperature on our random day
fig = plt.figure()
fig.subplots_adjust(left=0., right=1., bottom=0., top=0.9)
# 首先构建一个map对象，给定它投影以及一些特征，在cartopy中使用axes
ax = plt.axes(projection=ccrs.Mollweide(180))
# 绘制coastlines（各大洲的边界线）和borders（国家的边界）
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.BORDERS)
air_cyclic = air[time_idx, :, :]
# transform 和 projection易混。核心概念是坐标轴的projection独立于数据定义的坐标系。
# 当画图并决定最终的图像的投影时，使用projection参数；而transform参数是告诉Cartopy数据是用什么坐标系定义的。
# data defined on a regular latitude/longitude grid 的坐标系是PlateCarree（普通的线性投影）
# 当没有提供transform参数时，默认的是假设坐标系与投影相匹配。
# 最安全的做法是不管最后的projection是什么，都指定transform参数，这样可选任意的projection以显示数据
# cmap参数指定colormap的颜色
cs = plt.contourf(lons, lats, air_cyclic, 11, cmap=plt.cm.Spectral_r, transform=ccrs.PlateCarree())
# 增加彩色条状图显示颜色对应的数值范围
cbar = plt.colorbar(cs, orientation='horizontal', shrink=0.5)
cbar.set_label("%s (%s)" % (nc_fid.variables['air'].var_desc, nc_fid.variables['air'].units))
# 添加标题，包括数据信息和日期
plt.title("%s on %s" % (nc_fid.variables['air'].var_desc, cur_time))

# Writing NetCDF files
# For this example, we will create two NetCDF4 files. One with the global air
# temperature departure from its value at Darwin, Australia. The other with
# the temperature profile for the entire year at Darwin.
darwin = {'name': 'Darwin, Australia', 'lat': -12.45, 'lon': 130.83}

# Find the nearest latitude and longitude for Darwin
lat_idx = np.abs(lats - darwin['lat']).argmin()
lon_idx = np.abs(lons - darwin['lon']).argmin()

# Simple example: temperature profile for the entire year at Darwin.
# Open a new NetCDF file to write the data to. For format, you can choose from
# 'NETCDF3_CLASSIC', 'NETCDF3_64BIT', 'NETCDF4_CLASSIC', and 'NETCDF4'
# 参数mode='w'表示是“写”netcdf文件的模式
w_nc_fid = Dataset('darwin_2012.nc', 'w', format='NETCDF4')
# 创建的w_nc_fid是空的，没有信息，先给其增加描述信息，这里使用的是之前读取的netcdf数据的信息
w_nc_fid.description = "NCEP/NCAR Reanalysis %s from its value at %s. %s" % (nc_fid.variables['air'].var_desc.lower(), \
                                                                             darwin['name'], nc_fid.description)
# Using our previous dimension info, we can create the new time dimension。创建维度信息
# Even though we know the size, we are going to set the size to unknown
w_nc_fid.createDimension('time', None)
# 创建变量信息，包括变量名称、变量数据类型，坐标变量。返回的是Variable变量
w_nc_dim = w_nc_fid.createVariable('time', nc_fid.variables['time'].dtype, ('time',))
# 设置全局属性，包括units、long_name等。You can do this step yourself but 前面的数据里已经有相关信息了.
for ncattr in nc_fid.variables['time'].ncattrs():
    w_nc_dim.setncattr(ncattr, nc_fid.variables['time'].getncattr(ncattr))
# Assign the dimension data to the new NetCDF file.
w_nc_fid.variables['time'][:] = time
# 添加一个air变量，其数据类型是float64，坐标变量也是time
w_nc_var = w_nc_fid.createVariable('air', 'f8', ('time'))
# 手动设置全局属性如下，u应该表示的是编码格式
w_nc_var.setncatts({'long_name': u"mean Daily Air temperature", 'units': u"degK", 'level_desc': u'Surface', \
                    'var_desc': u"Air temperature", 'statistic': u'Mean\nM'})
# 数据使用之前读取的数据放入到当前的netcdf对象中
w_nc_fid.variables['air'][:] = air[time_idx, lat_idx, lon_idx]
w_nc_fid.close()  # close the new file

# A plot of the temperature profile for Darwin in 2012
fig = plt.figure()
# c表示color颜色，r是红色，b是蓝色，先绘出固定坐标所有dt_time时间的数据
plt.plot(dt_time, air[:, lat_idx, lon_idx], c='r')
# marker是点的标记形式，绘出这一点
plt.plot(dt_time[time_idx], air[time_idx, lat_idx, lon_idx], c='b', marker='o')
# ha是让点的横坐标数据cur_time显示在点的右侧，默认是左侧
plt.text(dt_time[time_idx], air[time_idx, lat_idx, lon_idx], cur_time, ha='right')
# 害怕横坐标刻度的数据显示重叠，因此让横坐标的刻度倾斜
fig.autofmt_xdate()
plt.ylabel("%s (%s)" % (nc_fid.variables['air'].var_desc, nc_fid.variables['air'].units))
plt.xlabel("Time")
plt.title("%s from\n%s for %s" % (nc_fid.variables['air'].var_desc, darwin['name'], cur_time.year))

# Complex example: global temperature departure from its value at Darwin
departure = air[:, :, :] - air[:, lat_idx, lon_idx].reshape((time.shape[0], 1, 1))

# Open a new NetCDF file to write the data to. For format, you can choose from
# 'NETCDF3_CLASSIC', 'NETCDF3_64BIT', 'NETCDF4_CLASSIC', and 'NETCDF4'
w_nc_fid = Dataset('air.departure.sig995.2012.nc', 'w', format='NETCDF4')
w_nc_fid.description = "The departure of the NCEP/NCAR Reanalysis %s from its value at %s. %s" % \
                       (nc_fid.variables['air'].var_desc.lower(), darwin['name'], nc_fid.description)
# 创建多维度。Using our previous dimension information, we can create the new dimensions
data = {}
for dim in nc_dims:
    w_nc_fid.createDimension(dim, nc_fid.variables[dim].size)
    data[dim] = w_nc_fid.createVariable(dim, nc_fid.variables[dim].dtype, \
                                        (dim,))
    # You can do this step yourself but someone else did the work for us.
    for ncattr in nc_fid.variables[dim].ncattrs():
        data[dim].setncattr(ncattr, nc_fid.variables[dim].getncattr(ncattr))
# Assign the dimension data to the new NetCDF file.
w_nc_fid.variables['time'][:] = time
w_nc_fid.variables['lat'][:] = lats
w_nc_fid.variables['lon'][:] = lons

# Ok, time to create our departure variable
w_nc_var = w_nc_fid.createVariable('air_dep', 'f8', ('time', 'lat', 'lon'))
w_nc_var.setncatts({'long_name': u"mean Daily Air temperature departure", \
                    'units': u"degK", 'level_desc': u'Surface', \
                    'var_desc': u"Air temperature departure", \
                    'statistic': u'Mean\nM'})
w_nc_fid.variables['air_dep'][:] = departure
w_nc_fid.close()  # close the new file

# Rounded maximum absolute value of the departure used for contouring
max_dep = np.round(np.abs(departure[time_idx, :, :]).max() + 5., decimals=-1)

# Generate a figure of the departure for a single day
fig = plt.figure()
fig.subplots_adjust(left=0., right=1., bottom=0., top=0.9)
ax = plt.axes(projection=ccrs.Mollweide(180))
# 绘制coastlines（各大洲的边界线）和borders
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.BORDERS)

dep_cyclic = departure[time_idx, :, :]
levels = np.linspace(-max_dep, max_dep, 11)
cs = plt.contourf(lons, lats, dep_cyclic, levels=levels, cmap=plt.cm.bwr, transform=ccrs.PlateCarree())
x, y = darwin['lon'], darwin['lat']
# 点如果直接用plt画，没法设置transform，会导致显示的坐标不正确，因此用ax。
ax.plot(x, y, c='c', marker='o', transform=ccrs.PlateCarree())
ax.text(x, y, 'Darwin,\nAustralia', color='r', weight='semibold', transform=ccrs.PlateCarree())
cbar = plt.colorbar(cs, orientation='horizontal', shrink=0.5)
cbar.set_label("%s departure (%s)" % (nc_fid.variables['air'].var_desc, nc_fid.variables['air'].units))
plt.title("Departure of Global %s from\n%s for %s" % (nc_fid.variables['air'].var_desc, darwin['name'], cur_time))
plt.show()

# Close original NetCDF file.
nc_fid.close()


### 访问操作系统功能

这部分参考了[简书博客](https://www.jianshu.com/p/5ce082723fe6)。

OS模块是Python标准库中的一个用于**访问操作系统功能**的模块，OS模块提供了一种可移植的方法使用操作系统的功能。使用OS模块中提供的接口，可以实现跨平台访问。但是在OS模块中的接口并不是所有平台都通用，有些接口的实现是依靠特定平台下的接口的。在OS模块中提供了一系列访问操作系统功能的接口，便于编写跨平台的应用。

In [2]:
import os
# 系统名称，windows下为‘nt’，linux下为‘posix’
os.name

'nt'

在使用OS模块的时候，如果使用过程中出现了异常，OS模块会抛出OSError异常，表明：无效的路径名或文件名，或者给出的路径名或文件名无法访问，或者当前使用的系统不支持。

这里给出一些常用的os命令：

In [30]:
# 得到当前工作的目录
os.getcwd()
# 列出指定目录（默认是当前目录）下所有的文件和目录名
os.listdir()
# 判断指定对象是否为文件
print(os.path.isfile('test.txt'))
# 判断指定对象是否为目录
print(os.path.isdir('test.txt'))
# 检验指定的对象是否存在
print(os.path.exists('test.txt'))
# 返回路径的目录和文件名
print(os.path.split('test.txt'))
# 执行shell命令
os.system("echo 'hello world!'")
# 连接目录和文件名
os.path.join('1-basin-python', 'test.txt')

True
False
True
('', 'test.txt')


'1-basin-python\\test.txt'

补充一些os.path.join()的内容：

- 该函数会从第一个以”/”开头的参数开始拼接，之前的参数全部丢弃；
- 在上一种情况确保情况下，若出现”./”开头的参数，会从”./”开头的参数的上一个参数开始拼接。

In [6]:
print("1:",os.path.join('aaaa','/bbbb','ccccc.txt'))

print("2:",os.path.join('/aaaa','/bbbb','/ccccc.txt'))

print("3:",os.path.join('aaaa','./bbb','ccccc.txt'))
# 获取上上上级目录
os.path.abspath(os.path.join(os.getcwd(), "../../.."))

1: /bbbb\ccccc.txt
2: /ccccc.txt
3: aaaa\./bbb\ccccc.txt


'C:\\Users\\hust2'

### 电子邮件

电子邮件的流程和传统邮件基本一致，假设自己的电子邮件地址是me@163.com，对方的电子邮件地址是friend@sina.com，梳理一下基本的流程：

1. 用Outlook或者Foxmail之类的软件写好邮件，填上对方的Email地址，点“发送”，电子邮件就发出去了。这些电子邮件软件被称为**MUA：Mail User Agent——邮件用户代理**；
2. Email从MUA发出去，不是直接到达对方电脑，而是发到**MTA：Mail Transfer Agent——邮件传输代理**，就是那些Email服务提供商，比如网易、新浪等等，本例中，Email首先被投递到网易提供的MTA，再由网易的MTA发到新浪的MTA；
3. 到达新浪的MTA后，新浪的MTA会把Email投递到邮件的最终目的地**MDA：Mail Delivery Agent——邮件投递代理**，Email到达MDA后，就静静地躺在新浪的某个服务器上，存放在某个文件或特殊的数据库里，我们将这个长期保存邮件的地方称之为电子邮箱；
4. 对方要取到邮件，必须通过MUA从MDA上把邮件取到自己的电脑上。

所以，一封电子邮件的旅程就是：

```
发件人 -> MUA -> MTA -> MTA -> 若干个MTA -> MDA <- MUA <- 收件人
```

因此要编写程序来发送和接收邮件，本质上就是：

- 编写MUA把邮件发到MTA；
- 编写MUA从MDA上收邮件。

发邮件时，MUA和MTA使用的协议就是**SMTP**：Simple Mail Transfer Protocol，后面的MTA到另一个MTA也是用SMTP协议。

收邮件时，MUA和MDA使用的协议有两种：**POP**：Post Office Protocol，目前版本是3，俗称POP3；**IMAP**：Internet Message Access Protocol，目前版本是4，优点是不但能取邮件，还可以直接操作MDA上存储的邮件，比如从收件箱移到垃圾箱，等等。

邮件客户端软件在发邮件时，会让你先**配置SMTP服务器**，也就是你要发到哪个MTA上。假设你正在使用163的邮箱，你就不能直接发到新浪的MTA上，因为它只服务新浪的用户，所以，你得填163提供的SMTP服务器地址：smtp.163.com，为了证明你是163的用户，SMTP服务器还要求你填写邮箱地址和邮箱口令，这样，MUA才能正常地把Email通过SMTP协议发送到MTA。

类似的，从MDA收邮件时，MDA服务器也要求**验证你的邮箱口令**，确保不会有人冒充你收取你的邮件，所以，Outlook之类的邮件客户端会要求你填写POP3或IMAP服务器地址、邮箱地址和口令，这样，MUA才能顺利地通过POP或IMAP协议从MDA取到邮件。

特别注意，目前大多数邮件服务商都需要手动打开SMTP发信和POP收信的功能。

接下来以谷歌邮箱为例记录邮件发送相关内容，这部分主要参考：[Python邮件发送，看这篇就够](https://juejin.im/post/5c6d64c7f265da2dca385d90)。

目前简单记录一些基本内容，详细内容可参考原文。

这里使用Gmail，需要调整Gmail账户的[安全设置](https://myaccount.google.com/lesssecureapps)来允许python代码访问，这可能泄露登陆信息的，因此最好用一个全新的账号专门来测试。

如果你不想降低Gmail帐户的安全设置，请查看Google的[文档](https://developers.google.com/gmail/api/quickstart/python)，了解如何使用Python脚本进行OAuth2授权来获取访问凭据。

使用 SMTP_SSL() 建立安全的SMTP连接:

In [2]:
import smtplib, ssl

port = 465  # For SSL
smtp_server = "smtp.gmail.com"
sender_email = "my@gmail.com"  # Enter your address
receiver_email = "your@gmail.com"  # Enter receiver address
password = input("Type your password and press enter: ")
message = """\
Subject: Hi there

This message is sent from Python."""

context = ssl.create_default_context()
with smtplib.SMTP_SSL(smtp_server, port, context=context) as server:
    server.login(sender_email, password)
    server.sendmail(sender_email, receiver_email, message)


Type your password and press enter: 


SMTPAuthenticationError: (501, b'5.5.2 Cannot Decode response x8sm7656903qkx.77 - gsmtp')

### 调用R程序

水文水资源中有很多程序是R语言编写的，相关内容可参考文献：[Using R in hydrology](https://doi.org/10.5194/hess-23-2939-2019)，所以能调用R程序也是一个十分重要的基础技术。

在python中调用R语言的最常用的方式就是利用rpy2库。

#### 安装rpy2
rpy2是一个支持在python环境下调用R的库。是RPy1.x的更新版本。官网说明可以使用pip安装rpy2。

``` code
pip install rpy2
```

个人在使用上述方法安装时报错，怀疑是R的环境变量没有配置导致的，因此配置了R的环境。但是仍然报错，再次网上搜索]找到了[另一种安装方式](https://www.jianshu.com/p/0849c8f402c6)：

``` code
conda install -c r rpy2
```

尝试之后，安装成功。之后进行测试。不过运行官网的测试程序依然报错（可能是因为我下载的是2.9版本的，而2.9版的文档还没完成），但是查找rpy2的包，已经存在。

运行下列最基本代码也没问题。因此尝试直接运行robjects下的tests.py的程序。有如下报错：


In [5]:
import rpy2
print(rpy2.__version__)


2.9.4


``` python
C:\Users\hust2\Anaconda3\lib\site-packages\rpy2\robjects\packages.py:347: UserWarning: The symbol 'quartz' is not in this R namespace/package.
  warnings.warn("The symbol '%s' is not in this R namespace/package." % name)
```

因此，在命令行终端里，输入R，进入R环境，然后键入如下代码安装quartz库。

``` R
install.packages("quartz")
```

但是我是在VS2017下安装的R语言，因此默认的是新版本的R 3.6.1。该版本中没有quartz包。

因此，先搁置。继续往下看官网内容。

#### 基本内容

rpy2下有几个基本的文件夹。

- rpy2.rinterface：Low-level interface to R, 追求速度和灵活性时更多地使用. Close to R’s C-level API.
- rpy2.robjects：High-level interface, 简易上手. Should be the right pick for casual and general use. Based on the previous one.
- rpy2.interactive：High-level interface, 主要针对interactive work. Largely based on rpy2.robjects.
- rpy2.rpy_classic：High-level interface similar to the one in RPy-1.x. 为了兼容性, as well as to facilitate the migration to RPy2.
- rpy2.rlike：Data structures and functions to mimic some of R’s features and specificities in pure Python (no embedded R process).


In [7]:
from rpy2.rinterface import R_VERSION_BUILD
print(R_VERSION_BUILD)
import rpy2.robjects as robjects


('3', '6.0', '', 76424)


接下来是一些基操。


In [16]:
from rpy2.robjects.packages import importr
# import R's "base" package
base = importr('base')

# import R's "utils" package
utils = importr('utils')
# R的object
pi = robjects.r['pi']
print(pi[0])

# 调用R函数
rsum = robjects.r['sum']
print(rsum(robjects.IntVector([1,2,3]))[0])

rsort = robjects.r['sort']
res = rsort(robjects.IntVector([1,2,3]), decreasing=True)
print(res.r_repr())

3.141592653589793
6
3:1
