# 构建结构化的程序
----
截止目前相信大家已经对使用python进行自然语言处理有了一定的了解。然而如果你之前并没有python的基础的话，可能在使用python时还是有各种不爽的地方。所以本章旨在帮您解决如下几个问题：

1. 如何构建具有良好结构、可读性强的、能够方便他人复用的程序？
2. python中诸如循环、函数以及赋值是如何工作的？
3. 使用python可能遇到的坑有哪些，如何避免踩坑？

本章中您会通过大量的例子巩固python编程基础，同时学会一些自然语言处理方面有用的可视化技术。如果您对python早有了解，则可以快速略过本章。若没有相关的程序设计经验，则通过仔细学习将会有很大提高。

本章中由于需要，将会涉及到许多和NLP技术相关的程序设计概念。我们并不会赘述很多，我们值关注对于NLP最为重要的那一部分。

# 本章导读

本章主要是介绍Python语言中的基础知识以及一些在自然语言处理中常用到的知识点，是对语言基础的一次补充。

主要以以下几个方面进行展开。

* 语言基础
* 更加Python风格的程序
* 函数式编程入门
* 程序开发与设计
* 算法和相关工具

# 一、语言基础

# 1、is 与 `==` 的区别

在python中，使用 `is` 关键字和 '==' 符号进行两个对象之间是否一致的判定。

其中 `is` 作用在于判定两个对象是否是同一对象，而 `==` 是对两个对象的值是否一致进行检测。

最为直观的例子是深拷贝之后的两个对象，其值是相同的，但是在内存中并不再指向统一区域，因此不是同一个对象，示例如下：

In [1]:
import copy

In [2]:
objA = [1,2,3,4,5,6]
objB = copy.deepcopy(objA)

In [3]:
objA is objB

False

In [4]:
objA == objB

True

## 运算符重载引起的变化

此处还有一点，在进行对象定义时，可以将其默认的成员函数 `__eq__`进行重载，重载之后，使用`==`对两个相同的对象进行euqal的判定时，就会调用这一函数进行全等的判断。

其他的常用的python中的魔法命令，请参见：http://pyzh.readthedocs.io/en/latest/python-magic-methods-guide.html

In [13]:
class object_equal:
    def __init__(self,param_a,param_b):
        self.member_a = 0
        self.member_b = 1
        self.version = '1.0'
    def __eq__(self,other):
        return self.version == other.version

In [14]:
equ_a = object_equal(0,1)
equ_b = object_equal(3,4)

In [15]:
equ_a == equ_b

True

# 2、深拷贝与浅拷贝

## 浅拷贝

浅拷贝类似于 Pass by Reference 传地址引用。拷贝的新对象和之前的对象在内存中共享一片存储区域

```a```和```b```共享同一块内存区域，因此针对```a```的修改对应会同步到```b```上。拷贝过程是，```b```作为一个指针，指向```a```所在的内存的位置。

如图所示，浅拷贝在内存中的表现：

![浅拷贝图解（图片来自网络）](./pic/shallow copy.png)

浅拷贝图解（图片来自网络）

In [16]:
a = [[],[],[]]

In [17]:
b = a.copy()

In [18]:
a[1].append(666)

In [19]:
a

[[], [666], []]

In [20]:
b

[[], [666], []]

In [21]:
b[2].append(777)

In [22]:
a

[[], [666], [777]]

In [23]:
b

[[], [666], [777]]

In [24]:
for i in a:
    print(id(i))

2068325120776
2068325290120
2068325121864


In [25]:
for p in b:
    print(id(p))

2068325120776
2068325290120
2068325121864


## 深拷贝
深拷贝类似于 Pass by Value 传值引用

`c`是`a`的一个值的copy，深拷贝的过程是，先申请和a同样大小的空间，将`a`的值复制到这片空间中。

这样过程之后`c`与`a`是两个相互独立的变量，并不共享任何空间。

深拷贝的过程如图所示：

![](./pic/deep copy.png)

深拷贝过程（图片来自网络）

In [26]:
c = copy.deepcopy(a)

In [27]:
c

[[], [666], [777]]

In [28]:
c[0].append(666)

In [29]:
c

[[666], [666], [777]]

In [30]:
a

[[], [666], [777]]

In [31]:
a = ()

In [32]:
type(a)

tuple

In [33]:
c

[[666], [666], [777]]

## 一个相关的例子

Python 中的语法糖，对列表使用乘法能够将当前列表中元素复制多份,然后首位相接。而这样的复制多份实际上也只是浅拷贝，扩充列表，然后将对应位置的指针指向之前的重复内容上。

In [49]:
p = [1,2,3] * 3

In [50]:
for q in p:
    print(id(q))

1785054960
1785054992
1785055024
1785054960
1785054992
1785055024
1785054960
1785054992
1785055024


对数组进行赋值时，将对应的位置上的值使用新值进行替换

In [51]:
p[0]= 0

In [52]:
p

[0, 2, 3, 1, 2, 3, 1, 2, 3]

In [53]:
for q in p:
    print(id(q))

1785054928
1785054992
1785055024
1785054960
1785054992
1785055024
1785054960
1785054992
1785055024


## 更直观一些的例子

对一个包含着空`list`的`list`进行重复操作。

可以看到，空`list`被重复了三份，但是指向同一对象。

对一个`list`的操作会同步到其他的`list`上。

In [45]:
list1 = [[]]*3

In [46]:
list1

[[], [], []]

In [47]:
for i in list1:
    print(id(i))

2280831016584
2280831016584
2280831016584


In [48]:
list1[1].append(666)

In [49]:
list1

[[666], [666], [666]]

但使用列表生成器的方式创建同样形式的`list`时，其结构和上面的结构已经大有不同。

内部的各个`list`成员都是不同的对象。

In [50]:
list2 = [[] for i in range(0,3)]

In [51]:
list2

[[], [], []]

In [52]:
for i in list2:
    print(id(i))

2280831016392
2280831278792
2280830880840


In [55]:
list2[1].append(666)

In [56]:
list2

[[], [666], []]

二者在使用 `is` 和 `==` 时产生的结果也是不一样的。

In [54]:
li1 = [[]]*3
li2 = [[] for i in range(3)]

In [55]:
li1 is li2

False

In [56]:
li1 == li2

True

In [58]:
li2[1].append(1)

In [59]:
li1 == li2

False

列表的生成与对比

In [1]:
list1 = [[]] * 3

In [3]:
list2 = [[] for i in range(0,3)]

In [4]:
list1 == list2

True

In [5]:
list1 is list2

False

In [6]:
list2[1].append(1)

In [7]:
list1 == list2

False

# 3、`if...else...` 和 `else` 的其他搭配

## 基础用法

分支结构，执行判断作用。

1、if...else...

当condition_a成立时，进入 `if` 下的block，执行语句`print('a right')`

否则进入 `else` 下的block，执行语句`print('a wrong')`

In [60]:
condition_a = True

In [61]:
if condition_a:
    print('a right')
else:
    print('a wrong')

a right


2、if...elif...else...

`elif` 操作类似于 `else if`操作，和相同缩进的最近的if搭配，组成连续的判断体。

仅当if条件判断失败时执行`elif`判断。

当所有的`if`和`elif`都判断失败时执行`else`语句block中语句。

In [62]:
condition_a = False
condition_b = True

In [63]:
if condition_a:
    print('a right')
elif condition_b:
    print('a wrong b right')
else:
    print('a wrong b wrong')

a wrong b right


3、for...else....

`for` 结构和 `else` 结构的搭配。仅当 `for` 正常完成全部循环时执行 `else` ，否则 `else`  中内容不执行。



In [66]:
for i in range(5):
    print('True')
else:
    print('Iter {0} times'.format(i+1))

True
True
True
True
True
Iter 5 times


In [67]:
for i in range(10):
    if i > 5:
        break
    print('True')
else:
    print('Iter {0} times'.format(i))

True
True
True
True
True
True


一个较好的用法是用于查找某一个值是否存在。

遍历一个列表，如果值存在，则输出这个值，之后跳出搜索过程。否则提示找不到该值。这样的写法能够减少部分代码量。

In [68]:
search_table = [i*2 for i in range(10)]

In [69]:
target = 3
for i in search_table:
    if i == target:
        print('我找到啦！')
else:
    print('没找到。')

没找到。


4、try...except...else...finally

`try`和`except`搭配，对`try` block内部的语句错误进行捕获处理。

而当对应的`try...except`结构没有能够捕获对应错误时，就会执行`else` block中的语句。

`finally`中的语句，是对`try...except...else...` 结构的收尾，无论前面执行情况如何都会执行。

In [70]:
def divide(x, y):
    try:
        result = x / y
    except ZeroDivisionError:
        print("division by zero!")
    else:
        print("result is", result)
    finally:
        print("executing finally clause")

In [71]:
divide(2,0)

division by zero!
executing finally clause


In [72]:
divide(2,1)

result is 2.0
executing finally clause


可以看到`else`中的语句重新引发了`try...except...`中没有捕获的错误。

In [73]:
divide('wo','si')

executing finally clause


TypeError: unsupported operand type(s) for /: 'str' and 'str'

# 4、`list` 和 `tuple`区别

`list` 为pyhton中序列结构，其存储为链表形式。在认知上一般来讲应当是存储同质数据的数据结构。即某一类对象的一序列形式的结果。

`tuple` 为python中用处较多的结构，一些默认方法往往会将 `tuple` 作为中间结果。`tuple`对象是不可变的，即组成结构是稳定的，一旦对象被创建，任何改变`tuple`结构的操作都是不允许的。

可以看到`tuple`创建之后自身的成员无法进行指定修改，但是成员对象本身的一些操作是允许的。

In [83]:
tp1 = tuple(([],1,2,3,'name'))

In [84]:
tp1

([], 1, 2, 3, 'name')

In [85]:
tp1[2] = 1

TypeError: 'tuple' object does not support item assignment

In [86]:
tp1[0].append(123)

In [87]:
tp1

([123], 1, 2, 3, 'name')

`tuple` 对象可以作为`dict`对象的键

In [88]:
dict1 = {
    (1,2):'zhang',
    (2,3):'wang',
}

In [89]:
dict1

{(1, 2): 'zhang', (2, 3): 'wang'}

# 5、`generator` 用法

一些情况下使用生成器能够节省时间和空间开销。

![](./pic/generator save time.png)

In [1]:
import nltk

In [16]:
text = 'The second line uses a generator expression. This is more than a notational convenience: in many language processing situations, generator\
expressions will be more efficient. In , storage for the list object must be allocated before the value of max() is computed. If the text is very large,\
this could be slow. In , the data is streamed to the calling function. Since the calling function simply has to find the maximum value — the word\
which comes latest in lexicographic sort order — it can process the stream of data without having to store anything more than the maximum value\
seen so far.'
text = text *10000

In [17]:
%timeit max([w.lower() for w in nltk.word_tokenize(text)])

1 loop, best of 3: 12.2 s per loop


In [18]:
%timeit max(w.lower() for w in nltk.word_tokenize(text))

1 loop, best of 3: 12.2 s per loop


# 6、`iterator` 用法

可以通过重载对象的\_\_next\_\_方法和 \_\_iter\_\_方法来实现自定义的迭代

In [32]:
class Reverse:
    def __init__(self,_list):
        self.__list = _list
        self.__len = len(_list)
    def __next__(self):
        if self.__len == 0:
            raise StopIteration
        else:
            self.__len -= 1
            return self.__list[self.__len]
    def __iter__(self):
        self.__len = len(self.__list)
        return self

In [33]:
rev = Reverse([i for i in range(0,10)])

In [34]:
[i for i in rev]

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

# 二、Pythonic

把程序写的更加Python化。

一般而言，Pythonic指书写更加具有python风格的程序，python语言本身融合了命令式语言、函数式语言、脚本语言、解释语言的特点。其拥有诸多语法糖在程序循环控制、分支控制、错误处理以及其他方面有着优化。目标在于使得程序结构更加清晰明了，减少重复和不必要的浪费，节省时间。

![](./pic/pythonic what.png)
什么是pythonic

![](./pic/pythonic why.png)
为什么要写的更pythonic

## 不是那么Pythonic的代码

In [44]:
def dict_process(input_dict):
    '''C/C++ like'''
    count = 0
    max_len = len(input_dict.keys())
    while count < max_len:
        print('Current key number:{0}'.format(count))
        key = input_dict.keys()[count]
        input_dict[key] += 17
        count += 1
    return input_dict

## 更加Pyhtonic的代码

In [45]:
def dict_process_pynic(input_dict):
    '''python way'''
    for num,key in enumerate(input_dict.keys()):
        print('Current key number:{0}'.format(num))
        input_dict[key] += 17
    return input_dict

# 如何将代码写的更pythonic

![](./pic/pythonic how1.png)

![](./pic/pythonic how2.png)

# 三、Function 与 函数式编程

详情请见附件的ppt内容。较为详细。

In [43]:
def swap(first,second):
    '''
    this function for swap two parameter
    input:
        first means first parameter
        second means second parameter
    
    return:
        two value swap their location
    '''
    new_first, new_second = second, first
    return new_first, new_second

In [None]:
swap()

In [42]:
def swap1(a,b):
    b,a=a,b
    return a,b

In [50]:
def use_position_arg(lng,lat,*pos_arg):
    print(pos_arg)

In [51]:
use_position_arg(24,36,'Raynor','Terran')

('Raynor', 'Terran')


In [52]:
def use_keywords_arg(lng,lat,**keyword_arg):
    print(keyword_arg)

In [55]:
use_keywords_arg(24,36,Name='Raynor',Species='Terran')

{'Name': 'Raynor', 'Species': 'Terran'}


函数自定义参数的一些使用方法

In [56]:
def both_arg(lng,lat,*p_arg,**k_arg):
    print('p_arg:',p_arg)
    print('k_arg:',k_arg)

In [59]:
both_arg(24,36,'laotie',666,Species='Terran',name='Raynor')

p_arg: ('laotie', 666)
k_arg: {'Species': 'Terran', 'name': 'Raynor'}


## isInstance check 检查实例是否一致

In [70]:
def order_by_dict_value(not_order):
    assert isinstance(not_order,dict),'input must be dictionary'
    ordered_key = sorted(not_order,key=lambda x:not_order[x],reverse=True)
    new_dict= {}
    for key in ordered_key:
        new_dict[key] = not_order[key]
    return new_dict

In [71]:
order_by_dict_value({'a':65,'b':43,'c':3123,'d':1})

{'c': 3123, 'a': 65, 'b': 43, 'd': 1}

# generator 函数式编程

In [12]:
def multiable():
    '''乘法表'''
    for i in range(1,10):
        for j in range(1,10):
            if j<i:
                continue
            else:
                yield '{0}*{1}'.format(i,j)

In [16]:
def _multiable():
    '''乘法表'''
    table = []
    for i in range(1,10):
        for j in range(1,10):
            if j<i:
                continue
            else:
                table.append('{0}*{1}'.format(i,j))
    return table

In [None]:
[i for i in multiable()]

In [None]:
_multiable()

# map & reduce 函数式编程

In [18]:
from functools import reduce

In [19]:
def reduce_sum(list_of_number):
    return reduce(lambda x,y:x+y,list_of_number,0)

In [20]:
reduce_sum([i for i in range(0,10)])

45

In [26]:
def reduce_mean(list_of_number):
    return reduce(lambda x,y:(x+y),list_of_number,0)/len(list_of_number)

In [27]:
reduce_mean([i for i in range(0,10)])

4.5

In [28]:
def square(numbers):
    return map(lambda x:x*x,numbers)

In [31]:
[p for p in square([i for i in range(0,10)])]

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

# filter 函数式编程

In [33]:
def odd(list_of_int):
    return filter(lambda x:x%2==1,list_of_int)

In [35]:
[p for p in odd([i for i in range(0,10)])]

[1, 3, 5, 7, 9]