# 注释

单行注释符号

In [1]:
print(100 * 100) #输出100*100

10000


多行注释符号
''''''

In [3]:
'''
这是单引号多行注释
可以将大段说明注释，放在这里
'''

'\n这是单引号多行注释\n可以将大段说明注释，放在这里\n'

In [4]:
"""
这是双引号多行注释
可以将大段说明注释，放在这里
"""
# print(mystr)

'\n这是双引号多行注释\n可以将大段说明注释，放在这里\n'

## 通过注释的方式设置方法说明信息

In [8]:
from lxml import etree
def gethtmlrootnodeforxpath(file):
    """
    Parse an HTML file from disk, then return the root
    node for next xpath parsing process.
    - @file: it must be html file format
    """
    with open(file, 'r', encoding='utf-8', errors='ignore') as f:
        htmlbytes = bytes(bytearray(f.read(), encoding='utf-8'))
        # 解决因乱码导致html对象为None的问题
        html = etree.HTML(htmlbytes, parser=etree.HTMLParser(encoding='utf-8'))
        return html

如果按照这种方式加入方法说明，即可按照通用的help方法，随时查看这个方法的说明信息了

In [9]:
help(gethtmlrootnodeforxpath)

Help on function gethtmlrootnodeforxpath in module __main__:

gethtmlrootnodeforxpath(file)
    Parse an HTML file from disk, then return the root
    node for next xpath parsing process.
    - @file: it must be html file format



# 异常处理

作为Python初学者，在刚学习Python编程时，经常会看到一些报错信息，在前面我们没有提及，这章节我们会专门介绍。

Python有两种错误很容易辨认：语法错误和异常。

## 语法错误

语法错误是初学python时，经常遇到的

In [10]:
print "Hello world"

SyntaxError: Missing parentheses in call to 'print' (<ipython-input-10-9fb80848b1b7>, line 1)

上述错误是因为，在Python3，print已经作为函数使用：

In [2]:
print('Hello world')

Hello world


## 异常

即便Python程序的语法是正确的，在运行它的时候，也有可能发生错误。运行期检测到的错误被称为异常。

例如：
>读取文件不存在<br>
网络连接超时错误<br>
内存溢出错误<br>
内部不足导致的错误<br>
下标越界错误<br>
空引用错误<br>

<b><font color='red'>90%以上的bug，源自下标越界或者空引用错误</font></b>

大多数的异常都不会被程序处理，都以错误信息的形式展现在这里:

In [11]:
a = None
print(a.format('ww'))

AttributeError: 'NoneType' object has no attribute 'format'

In [12]:
10 * (1/0)

ZeroDivisionError: division by zero

In [13]:
4 + spam*3

NameError: name 'spam' is not defined

In [16]:
2 + '2'
# '2' + 2

TypeError: unsupported operand type(s) for +: 'int' and 'str'

异常以不同的类型出现，这些类型都作为信息的一部分打印出来: 例子中的类型有 ZeroDivisionError，NameError 和 TypeError。

错误信息的前面部分显示了异常发生的上下文，并以调用栈的形式显示具体信息。

## 异常处理

以下例子中，让用户输入一个合法的整数，但是允许用户中断这个程序（使用 Control-C 或者操作系统提供的方法）。

用户中断的信息会引发一个 KeyboardInterrupt 异常。

此外，如果输入的内容，不能被转换为整数，也会触发这个异常

In [18]:
while True:
    try:
        x = int(input("Please enter a number: "))
        break
    except ValueError:
        print("Oops!  That was no valid number.  Try again   ")

Please enter a number: abc
Oops!  That was no valid number.  Try again   
Please enter a number: ee
Oops!  That was no valid number.  Try again   
Please enter a number: 1


try语句按照如下方式工作；

- 首先，执行try子句（在关键字try和关键字except之间的语句）
- 如果没有异常发生，忽略except子句，try子句执行后结束。
- 如果在执行try子句的过程中发生了异常，那么try子句余下的部分将被忽略。如果异常的类型和 except 之后的名称相符，那么对应的except子句将被执行。最后执行 try 语句之后的代码。
- 如果一个异常没有与任何的except匹配，那么这个异常将会传递给上层的try中。
- 一个 try 语句可能包含多个except子句，分别来处理不同的特定的异常。最多只有一个分支会被执行。

处理程序将只针对对应的try子句中的异常进行处理，而不是其他的 try 的处理程序中的异常。

一个except子句可以同时处理多个异常，这些异常将被放在一个括号里成为一个元组，例如:

In [19]:
try:
    pass
except (RuntimeError, TypeError, NameError):
    pass

最后一个except子句可以忽略异常的名称，它将被当作通配符使用。你可以使用这种方法打印一个错误信息，然后再次把异常抛出。

In [23]:
import sys
try:
    f = open('myfile.txt')
    s = f.readline()
    print(s)
    i = int(s.strip())
except OSError as err:
    print("OS error: {0}".format(err))
except ValueError:
    print("Could not convert data to an integer.")
except:
    print("Unexpected error:", sys.exc_info()[0])
    raise

100



try except 语句还有一个可选的else子句，如果使用这个子句，那么必须放在所有的except子句之后。

这个子句将在try子句没有发生任何异常的时候执行。例如:

In [24]:
for arg in sys.argv[1:]:
    print('Handle file: {0} begin'.format(arg))
    try:
        f = open(arg, 'r')
    except IOError:
        print('cannot open', arg)
    else:
        print(arg, 'has', len(f.readlines()), 'lines')
        f.close()
    print('Handle file: {0} end'.format(arg))

Handle file: -f begin
cannot open -f
Handle file: -f end
Handle file: C:\Users\bhe\AppData\Roaming\jupyter\runtime\kernel-abcd4e33-b8bd-4687-a1b9-1be656039f3e.json begin
C:\Users\bhe\AppData\Roaming\jupyter\runtime\kernel-abcd4e33-b8bd-4687-a1b9-1be656039f3e.json has 12 lines
Handle file: C:\Users\bhe\AppData\Roaming\jupyter\runtime\kernel-abcd4e33-b8bd-4687-a1b9-1be656039f3e.json end


使用 else 子句比把所有的语句都放在 try 子句里面要好，这样可以避免一些意想不到的、而except又没有捕获的异常。

异常处理并不仅仅处理那些直接发生在try子句中的异常，而且还能处理子句中调用的函数（甚至间接调用的函数）里抛出的异常。例如:

In [25]:
def this_fails():
    x = 1/0

try:
    this_fails()
except ZeroDivisionError as err:
    print('Handling run-time error:', err)

Handling run-time error: division by zero


## 抛出异常

Python 使用 raise 语句抛出一个指定的异常。例如:

In [27]:
a = 5
b = 100
if a + b > 100:
    raise ValueError('Sum should not greater than 100')

ValueError: Sum should not greater than 100

raise 唯一的一个参数指定了要被抛出的异常。它必须是一个异常的实例或者是异常的类（也就是 Exception 的子类）。

如果你只想知道这是否抛出了一个异常，并不想去处理它，那么一个简单的 raise 语句就可以再次把它抛出。

In [28]:
try:
    raise NameError('HiThere')
except NameError:
    print('An exception flew by!')
    raise

An exception flew by!


NameError: HiThere

## 获取完整堆栈信息

异常信息，有时还不是很完整，如果需要输出完整的堆栈信息，可以使用<b>traceback</b>包

<b>这对于调试跟踪异常代码，非常非常有用!!</b>

In [29]:
import traceback
try:
    raise NameError('HiThere')
except NameError as e:
    print(e)
    traceback.print_exc()

HiThere


Traceback (most recent call last):
  File "<ipython-input-29-3378560ec777>", line 3, in <module>
    raise NameError('HiThere')
NameError: HiThere


## 使用异常编码的技巧

### 重试因网络原因发生的异常

我们尝试下载文件，或者读取网站信息时，如果遇到超时或者连接错误，往往会进行重试操作，以下是相关的示范

In [20]:
import json
import time
from urllib import request

def querydatabyurl(url, headers):
    res = None
    count = 1
    while True:
        try:
            req = request.Request(url=url, headers=headers)
            res = request.urlopen(req)
            res = res.read().decode(encoding='utf-8', errors='ignore')
            break
        except Exception as e:
            print(e)
            time.sleep(3)
            if count == 20:
                break
        count += 1
    if res is not None:
        dic = json.loads(res)
        return dic['result']
    else:
        return None

### 处理文件时，异常是必须加入的

In [27]:
import os
import shutil


def removedocument(docfolder, doctxt=None):
    """
    删除某文件夹下方的所有文件，但保留文件夹结构，包括子文件夹
    """
    try:
        print('delete old folder local data start')
        if os.path.exists(docfolder):
            # 慎重使用，千万千万！！
            shutil.rmtree(docfolder)
        os.makedirs(docfolder)
        if doctxt != None and len(doctxt) > 0 and os.path.exists(doctxt):
            os.remove(doctxt)
        print('delete old folder local data end')
    except Exception as e:
        print(e)

### 某些子程序，哪怕处理遇到异常，也不希望影响主流程，就必须在子程序中加入异常处理

In [30]:
import datetime
effectivedate = '2018-05-01'
mydate = '2018-04-10'
def getproperdate(effectivedate, mydate):
    properdate = ''
    if len(mydate) == 10:
        try:
            comparedate = datetime.datetime.strptime(mydate, '%Y-%m-%d')
            if (effectivedate is None or 
                comparedate >= datetime.datetime.strptime(effectivedate, '%Y-%m-%d') 
                - datetime.timedelta(days=180)):
                if len(properdate) == 0:
                    properdate = mydate
                elif comparedate > datetime.datetime.strptime(properdate, '%Y-%m-%d'):
                    properdate = mydate
        except Exception as e:
            print(e)
    return properdate

print(getproperdate(effectivedate, mydate))

print('下面这句会出现异常')
mydate = '贰零壹捌四月十日零点'
print(getproperdate(effectivedate, mydate))

2018-04-10
下面这句会出现异常
time data '贰零壹捌四月十日零点' does not match format '%Y-%m-%d'

