# Appendix: Python语言精要

## 目录
+ 基础知识
    + 语言语义
        + 数据类型
        + 属性和方法
        + 是否可迭代
        + 引入
        + 二元运算符和比较运算符
        + 可变与不可变的对象
    + 标量类型
        + 数值类型
        + 字符串
        + 布尔值
        + 类型转换
        + None
        + 日期和时间
    + 控制流
		+ if, elif和else
		+ for循环
		+ while循环
		+ pass
		+ 异常处理
		+ range和xrange
		+ 三元表达式


+ 数据结构和序列
	+ 元组
		+ 元组拆包
		+ 元组方法
	+ 列表
		+ 添加和移除元素
		+ 合并列表
		+ 排序
		+ 二分搜索及维护有序列表
		+ 切片
	+ 内置的序列函数
		+ enumerate
		+ sorted
		+ zip
		+ reversed
   + 字典
		+ 从序列类型创建字典
		+ 默认值
		+ 字典键的有效类型
	+ 集合
	+ 列表、集合以及字典的推导式
		+ 列表推导式
		+ 集合推导式
		+ 字典推导式
		+ 嵌套列表推导式
        
        
+ 函数
	+ 命名空间、作用域，以及局部函数
	+ 返回多个值
	+ 函数亦为对象
	+ 匿名 (lambda) 函数
	+ 闭包：返回函数的函数
	+ 扩展调用语法和*args, **kwargs
	+ 柯里化：部分参数应用
	+ 生成器
		+ 生成器表达式
		+ itertools模块
        
        
+ 文件和操作系统
	+ Python的文件模式
	+ 重要的Python文件方法或属性

In [None]:
from numpy.random import randn
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series, DataFrame
import pandas as pd

## 基础知识

### 语言语义

#### 数据类型

In [None]:
a = 5
type(a)
a = 'foo'
type(a) # type函数，返回对象的类型

In [None]:
a = 5
isinstance(a, int) # isinstance函数，检查一个对象是否是某个特定类型的实例

In [None]:
a = 5; b = 4.5
isinstance(a, (int, float))
isinstance(b, (int, float)) # isinstance可以接受由类型组成的元组

#### 属性和方法
Python中的对象通常都既有属性（attribute，即存储在该对象“内部”的其他Python对象）又有方法（method，与该对象有关的能够访问其内部数据的函数）。它们都能通过obj.attribute_name这样的语法进行访问

In [None]:
dir(a) # dir可以获取对象的属性

#### 是否可迭代

In [None]:
from collections import Iterable # 引入Iterable类型
isinstance('a string', Iterable)
isinstance([1, 2, 3], Iterable)
isinstance(5, Iterable)

#### 引入
在Python中，模块就是一个含有函数和变量定义以及从其他.py文件引入的此类东西的.py文件

In [None]:
# 假设有一下some_module.py文件
PI = 3.14159

def f(x):
    return x + 2

def g(a, b):
    return a + b

In [None]:
# 如果想要引入some_module.py中定义的变量和函数，可以在同一目录下创建另一个.py文件
import some_module
result = some_module.f(5)
pi = some_module.PI

In [None]:
from some_module import f, g, PI
result = g(5, PI)

In [None]:
# 通过as关键字，定义别名
import some_module as sm
from some_module import PI as pi, g as gf

r1 = sm.f(pi)
r2 = gf(6, pi)

#### 二元运算符和比较运算符
+ a + b  
a加b
+ a - b  
a减b
+ a * b  
a乘以b
+ a / b  
a除以b
+ a // b  
a除以b后向下圆整，丢弃小数部分
+ a ** b  
a的b次方
+ a & b  
如果a和b均为True。对于整数，执行按位与操作
+ a | b  
如果a和b任何一个为True，则结果为True。对于整数，执行按位或操作
+ a ^ b  
对于布尔值，如果a或b为True（但不都为True），则结果为True。对于整数，执行按位异或操作
+ a == b  
如果a等于b，则结果为True
+ a != b  
如果a不等于b，则结果为True
+ a <= b、a < b  
如果a小于等于（或小于）b，则结果为True
+ a > b、a >= b  
如果a大于（或大于等于）b，则结果为True
+ a is b  
如果引用a和b指向同一个Python对象，则结果为True
+ a is not b  
如果引用a和b指向不同的Python对象，则结果为True

In [None]:
5 - 7
12 + 21.5
5 <= 2

In [None]:
a = [1, 2, 3]
b = a
# 注意，list函数始终会创建新列表
c = list(a)
a is b
a is not c

In [None]:
a == c # is与==不同，is用于判断两个引用（变量）是否指向同一个对象，==用于判断值是否相同

In [None]:
a = None
a is None # is和is not常常用于判断变量是否为None，因为None的实例只有一个

#### 可变与不可变的对象
+ 可变（mutable）对象（所包含的对象或值是可以被修改的）
    + 列表
    + 字典
    + NumPy数组
    + 大部分用户自定义类型（类）
+ 不可变（immutable）对象
    + 字符串
    + 元组

In [None]:
a_list = ['foo', 2, [4, 5]]
a_list[2] = (3, 4)
a_list

In [None]:
a_tuple = (3, 5, (4, 5))
a_tuple[1] = 'four'

### 标量类型
+ None  
Python的“null”值（None只存在一个实例对象）
+ str  
字符串类型。Python 2.x中只有ASCII值，而Python 3中则是Unicode
+ unicode  
Unicode字符串类型
+ float  
双精度（64位）浮点数。注意，这里没有专门的double类型
+ bool  
True或False
+ int  
有符号整数，其最大值由平台决定
+ long  
任意精度的有符号整数。大的int值会被自动转换为long

#### 数值类型

In [None]:
ival = 17239871
ival ** 6

In [None]:
fval = 7.243
fval2 = 6.78e-5

In [None]:
3 / 2

In [None]:
from __future__ import division # 整数除不尽时就会产生一个浮点数，而非整除

In [None]:
3 / float(2)

In [None]:
3 // 2

In [None]:
cval = 1 + 2j # 复数的虚部是用j表示的
cval.real # 实部
cval.imag # 虚部
cval.conjugate() # 求共轭复数

#### 字符串

In [None]:
a = 'one way of writing a string'
b = "another way"

In [None]:
c = """
This is a longer string that
spans multiple lines
""" # 对于带有换行符的多行字符串，可以使用三重引号

In [None]:
a = 'this is a string'
a[10] = 'f' # 字符串不可变
b = a.replace('string', 'longer string') # 字符串方法修改字符串

In [None]:
a = 5.6
s = str(a)

In [None]:
s = 'python'
list(s)
s[:3] # 字符串可以被当做序列类型进行处理

In [None]:
s = '12\\34'
print s # 反斜杠（/）是转义符，即可用于指定特殊字符

In [None]:
s = r'this\has\no\special\characters' # 在字符串最左边引号前面加上r，表示所有字符应该按照原本的样子解释，即禁用转义符

In [None]:
a = 'this is the first half '
b = 'and this is the second half'
a + b # 字符串加起来会产生一个新字符串

In [None]:
template = '%.2f %s are worth $%d' # 格式化字符串

In [None]:
template % (4.5560, 'Argentine Pesos', 1)

#### 布尔值

In [None]:
True and True
False or True # 布尔值可以用and和or关键字进行连接

In [None]:
a = [1, 2, 3]
if a:
    print 'I found something!'

b = []
if not b:
    print 'Empty!' # 几乎所有内置的Python类型以及任何定义了__nonzero__魔术方法的类，都能在if语句中被解释为True或False

In [None]:
bool([]), bool([1, 2, 3])
bool('Hello world!'), bool('')
bool(0), bool(1) # 要想知道某个对象究竟会被强制转换成哪个布尔值，使用bool函数即可

#### 类型转换
str、bool、int以及float等类型，也可以用作将值转换成该类型的函数

In [None]:
s = '3.14159'
fval = float(s)
type(fval)
int(fval)
bool(fval)
bool(0)

#### None
None是Python的空值类型
None不是一个保留关键字，它只是NoneType的一个实例而已
如果一个函数没有显式地返回值，则隐式返回None

In [None]:
a = None
a is None
b = 5
b is not None

In [None]:
# None是函数可选参数的一种常见默认值
def add_and_maybe_multiply(a, b, c=None):
    result = a + b

    if c is not None:
        result = result * c

    return result

#### 日期和时间
Python内置的datetime模块提供了datetime、date以及time等类型

In [None]:
from datetime import datetime, date, time
dt = datetime(2011, 10, 29, 20, 30, 21)
dt.day
dt.minute

In [None]:
dt.date() # 给定一个datetime实例，调用其date和time方法提取相应的date和time对象
dt.time()

In [None]:
dt.strftime('%m/%d/%Y %H:%M') # strftime方法用于将datetime格式化为字符串

In [None]:
datetime.strptime('20091031', '%Y%m%d') # 字符串可以通strptime函数转换（解析）为datetime对象

In [None]:
dt.replace(minute=0, second=0) # 替换datetime中的一些字段，例如将分和秒字段替换为0，并产生一个新对象

In [None]:
dt2 = datetime(2011, 11, 15, 22, 30)
delta = dt2 - dt
type(delta) # 两个datetime对象的差会产生一个datetime.timedelta类型

In [None]:
dt + delta #  将一个timedelta加到一个datetime上会产生一个新的datetime

### 控制流

#### if, elif和else

In [None]:
if x < 0:
    print 'It's negative'

In [None]:
# 一条if语句可以跟上一个或多个elif块以及一个“滴水不漏”的else块，如果任何一个条件为True，则其后的elif或else块就不会执行
if x < 0:
    print 'It's negative'
elif x == 0:
    print 'Equal to zero'
elif 0 < x < 5:
    print 'Positive but smaller than 5'
else:
    print 'Positive and larger than 5'

In [None]:
a = 5; b = 7
c = 8; d = 4
if a < b or c > d:
    print 'Made it' # 对于用and或or组成的复合条件，各条件是按从左到右的顺序求值，而且是短路型的

#### for循环

In [None]:
# for循环的标准语法
for value in collection:
    pass

In [None]:
# continue关键字用于使for循环提前进入下一次迭代（即跳过代码块的剩余部分）
sequence = [1, 2, None, 4, None, 5]
total = 0
for value in sequence:
    if value is None:
        continue # 对列表中的整数求和并跳过None值
    total += value

In [None]:
# break关键字用于使for循环完全退出
sequence = [1, 2, 0, 4, 6, 5, 2, 1]
total_until_5 = 0
for value in sequence:
    if value == 5: # 对列表的元素求和，遇到5就退出
        break
    total_until_5 += value

In [None]:
# 如果集合或迭代器的元素是序列类型，可以非常方便地将这些元素拆散成for语句中的多个变量
for a, b, c in iterator:
    pass

#### while循环
while循环定义了一个条件和一个代码块，只要条件不为False或循环没有被break显式终止，则代码块将一直不断地执行下去

In [None]:
x = 256
total = 0
while x > 0:
    if total > 500:
        break
    total += x
    x = x // 2

#### pass
pass是Python中的“空操作”语句，可以被用在那些没有任何功能的代码块中

In [None]:
if x < 0:
    print 'negative!'
elif x == 0:
    # TODO: put something smart here
    pass
else:
    print 'positive!'

In [None]:
def f(x, y, z):
    # 在开发一个新功能时，pass被用作代码中的占位符
    pass

#### 异常处理

In [None]:
float('1.2345')
float('something') # 许多函数只对特定类型的输入有效，float可以将字符串转换为浮点数，但是如果输入值不正确就会产生ValueError

In [None]:
# try/except块，只有当float(x)引发异常时，except块中的代码才会被执行
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [None]:
attempt_float('1.2345')
attempt_float('something')

In [None]:
float((1, 2)) # float还会引发ValueError以外的异常，如TypeError（输入参数不是字符串或数值）

In [None]:
# 只处理ValueError，在except后面加上异常类型
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [None]:
attempt_float((1, 2))

In [None]:
# 编写一个由异常类型组成的元组（圆括号是必需的）即可捕获多个异常
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

In [None]:
# finally块，不管try块代码成功与否都会被执行
f = open(path, 'w')

try:
    write_to_file(f)
finally:
    f.close()

In [None]:
# else块，只在try块成功时执行
f = open(path, 'w')

try:
    write_to_file(f)
except:
    print 'Failed'
else:
    print 'Succeeded'
finally:
    f.close()

#### range和xrange
在Python 3中，range始终返回迭代器，因此没有必要使用xrange函数

In [None]:
range(10) # 产生一组间隔平均的整数

In [None]:
range(0, 20, 2) # 指定起始值、结束值以及步长等信息

In [None]:
seq = [1, 2, 3, 4]
for i in range(len(seq)): # range常用于按索引对序列进行迭代
    val = seq[i]

In [None]:
sum = 0
for i in xrange(10000): # 不会预先产生所有的值并将它们保存到列表中，而是返回一个用于逐个产生整数的迭代器
    # %是求模运算符
    if x % 3 == 0 or x % 5 == 0:
        sum += i

#### 三元表达式

In [None]:
# 语法
value = true-expr if condition else false-expr

# 效果等同于
if condition:
    value = true-expr
else:
    value = false-expr

In [None]:
x = 5
value = 'Non-negative' if x >= 0 else 'Negative'

## 数据结构和序列

### 元组
元组（tuple）是一种一维的、定长的、不可变的Python对象序列

In [None]:
tup = 4, 5, 6 # 最简单的创建方式是一组以逗号隔开的值

In [None]:
nested_tup = (4, 5, 6), (7, 8) # 由元组组成的元组

In [None]:
tuple([4, 0, 2])
tup = tuple('string') # 通过调用tuple，任何序列或迭代器都可以被转换为元组

In [None]:
tup[0] # 元组的元素通过方括（[]）进行访问，序列从0开始索引

In [None]:
tup = tuple(['foo', [1, 2], True])
tup[1].append(3) # 存储在元组中的对象本身可能是可变的

In [None]:
(4, None, 'foo') + (6, 0) + ('bar',) # 元组可以通过加号（+）运算符连接起来以产生更长的元组（扁平化）

In [None]:
('foo', 'bar') * 4 # 对一个元组乘以一个整数，相当于是连接该元组的多个副本

#### 元组拆包

In [None]:
tup = (4, 5, 6)
a, b, c = tup # 如果对元组型变量表达式赋值，Python会尝试将等号右侧的值进行拆包

In [None]:
tup = 4, 5, (6, 7)
a, b, (c, d) = tup # 嵌套元组也能被拆包

In [None]:
b, a = a, b # 利用拆包功能交换变量名

In [None]:
seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
for a, b, c in seq: # 利用拆包功能对元组或列表组成的序列进行迭代
    pass

#### 元组方法

In [None]:
a = (1, 2, 2, 2, 3, 4, 2)
a.count(2) # count，计算指定值的出现次数

### 列表
列表（list）是变长的，内容也是可以修改的
可以通过方括号（[]）或list函数定义

In [None]:
a_list = [2, 3, 7, None] # 方括号定义

tup = ('foo', 'bar', 'baz')
b_list = list(tup) # list函数定义
b_list[1] = 'peekaboo' # 内容可以修改

#### 添加和移除元素

In [None]:
b_list.append('dwarf') # 通过append方法，可以将元素添加到列表的末尾

In [None]:
b_list.insert(1, 'red') # 通过insert方法，可以将元素插入到列表的指定位置

In [None]:
b_list.pop(2) # insert的逆运算是pop，用于移除并返回指定索引处的元素

In [None]:
b_list.append('foo')
b_list.remove('foo') # remove用于按值删除元素，它找到第一个符合要求的值然后将其从列表中删除

In [None]:
'dwarf' in b_list # 通过in关键字，判断列表中是否含有某个值

#### 合并列表

In [None]:
[4, None, 'foo'] + [7, 8, (2, 3)] # 用加号（+）将两个列表加起来即可实现合并

In [None]:
x = [4, None, 'foo']
x.extend([7, 8, (2, 3)]) # 对于一个已定义的列表，用extend方法一次性添加多个元素，扁平化

In [None]:
everything = []
for chunk in list_of_lists:
    everything.extend(chunk) # 列表合并必须创建一个新列表并将所有对象复制过去，因而用extend将元素附加到现有列表效率会高很多

In [None]:
everything = []
for chunk in list_of_lists:
    everything = everything + chunk # 合并比附加操作慢得多

#### 排序

In [None]:
a = [7, 2, 5, 1, 3]
a.sort() # 列表的sort方法可以实现就地排序

In [None]:
b = ['saw', 'small', 'He', 'foxes', 'six']
b.sort(key=len) # 次要排序键，能够产生可用于排序的值的函数（按照长度对一组字符串进行排序）

#### 二分搜索及维护有序列表
内置的bisect模块实现了二分查找以及对有序列表的插入操作
bisect.bisect可以找出新元素应该被插入到哪个位置才能保持原列表的有序性，而bisect.insort则确实地将新元素插入到那个位置上去

In [None]:
import bisect
c = [1, 2, 2, 2, 3, 4, 7]
bisect.bisect(c, 2)
bisect.bisect(c, 5) # bisect.bisect可以找出新元素应该被插入到哪个位置才能保持原列表的有序性
bisect.insort(c, 6) # bisect.insort则确实地将新元素插入到那个位置上去

#### 切片
通过切片标记法，可以选取序列类型（数组、元组、NumPy数组等）的子集

In [None]:
# 切片的形式由索引运算符（[]）以及传入其中的start:stop构成；start索引处的元素被包括，stop索引处的元素未被包括，结果中元素数量是stop-start
seq = [7, 2, 3, 7, 5, 6, 0, 1]
seq[1:5]

In [None]:
seq[3:4] = [6, 3] # 切片赋值

In [None]:
seq[:5]
seq[3:] # start或stop可以省略，分别默认为序列的起始处和结尾处

In [None]:
seq[-4:]
seq[-6:-2] # 负数索引从序列的末尾开始切片

In [None]:
seq[::2] # 第二个冒号后面加上步长（step）

In [None]:
seq[::-1] # 列表或元组的反序

### 内置的序列函数

#### enumerate
逐个返回序列的(i, value)元组

In [None]:
# 对序列进行迭代的同时，跟踪当前项的索引
for i, value in enumerate(collection):
    pass

In [None]:
# 求取一个将序列值（假定是唯一的）映射到其所在位置的字典
some_list = ['foo', 'bar', 'baz']
mapping = dict((v, i) for i, v in enumerate(some_list))
mapping = {v: i for i, v in enumerate(some_list)} # 以上两种方式等价

#### sorted
将任何序列返回一个新的有序列表

In [None]:
sorted([7, 1, 2, 6, 0, 3, 2])
sorted('horse race')
# 可以设置cmp参数实现自定义排序
# 同sort一样，可以通过设置key=function实现自定义排序

In [None]:
sorted(set('this is just some string')) # sorted和set结合起来使用，得到一个由序列中的唯一元素组成的有序列表

#### zip
用于将多个序列（列表、元组等）中的元素“配对”，从而产生一个新的元组列表

In [None]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zip(seq1, seq2)

In [None]:
seq3 = [False, True]
zip(seq1, seq2, seq3) # zip可以接受任意数量的序列，最终得到的元组数量由最短的序列决定

In [None]:
for i, (a, b) in enumerate(zip(seq1, seq2)):
    print('%d: %s, %s' % (i, a, b)) # zip与enumerate一起使用

In [None]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),
            ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers) # zip的逆操作——解压（unzip）

#### reversed
用于按逆序迭代序列中的元素，生成的是一个迭代器

In [None]:
list(reversed(range(10))) # 生成的是一个迭代器，用list函数组装成列表

### 字典
字典（dict）又称哈希映射（hash map）或相联数组（associative array）
字典是一种大小大小可变的键值对集，其中的键（key）和值（value）都是Python对象

In [None]:
empty_dict = {}
d1 = {'a' : 'some value', 'b' : [1, 2, 3, 4]} # 创建字典，使用大括号（{}）并用冒号分隔键和值

In [None]:
d1[7] = 'an integer'
d1['b'] # 访问（以及插入、设置）元素的语法

In [None]:
'b' in d1 # 判断字典中是否存在某个键

In [None]:
d1[5] = 'some value'
d1['dummy'] = 'another value'
del d1[5] # del关键字删除值
ret = d1.pop('dummy') # pop方法删除值，并将其返回

In [None]:
d1.keys()
d1.values() # keys和values方法分别用于获取键和值的列表，虽然键值没有特定的顺序，但这两个方法会以相同的顺序输出键和值

In [None]:
dl.iterkeys() # 生成键的迭代器
dl.itervalues() # 生成值的迭代器
dl.iteritems() # 生成键和值的迭代器

In [None]:
d1.update({'b' : 'foo', 'c' : 12}) # 利用update方法，一个字典可以被合并到另一个字典中去

#### 从序列类型创建字典

In [None]:
mapping = {}
for key, value in zip(key_list, value_list):
    mapping[key] = value # for循环创建字典

In [None]:
mapping = dict(zip(range(5), reversed(range(5)))) # dict(zip(list1, list2))，dict与zip合用创建字典

#### 默认值

In [None]:
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

In [None]:
value = some_dict.get(key[, default_value]) # 如果key不存在，则返回default_value，如果未设置该参数，则get默认返回None
value = some_dict.pop(key[, default_value]) # 如果key不存在，则返回default_value，如果未设置该参数，则pop默认引发一个异常

In [None]:
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}

for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

In [None]:
# dict.get与dict.setdefault相似，区别在于get仅仅返回value，setdefault不仅返回value或default_value，还可以对原字典进行修改
by_letter.setdefault(letter, []).append(word)

In [None]:
from collections import defaultdict # 向defaultdict的初始化器传入一个类型或函数（callable），即可创建出一个defaultdict
by_letter = defaultdict(list) # 传入类型，设置默认值为列表，方便后面使用append方法
for word in words:
    by_letter[word[0]].append(word)

In [None]:
counts = defaultdict(lambda: 4) # 传入函数，设置默认值为4

#### 字典键的有效类型
字典的值可以是任何Python对象，但键必须是不可变对象（可哈希性），如标量类型（整数、浮点数、字符串）或元组（元组中的所有对象也必须是不可变的）

In [None]:
hash('string') # 通过hash函数，可以判断某个对象是否是可哈希的（是否可以作为键）
hash((1, 2, (2, 3)))
hash((1, 2, [2, 3])) # 不可哈希，列表是可变的

In [None]:
d = {}
d[tuple([1, 2, 3])] = 5 # 如果要将列表当做键，最简单的办法就是将其转换成元组

### 集合
集合（set）是由唯一元素组成的无序集，可以将其看成是只有键而没有值的字典

| 函数        | 其他表示法           | 说明  |
| ------------- |:-------------| :-----|
| a.add(x)      | N/A | 将元素x添加到集合a |
| a.remove(x)     | N/A      |   将元素x从集合a中删除 |
| a.union(b)      |     |   a和b全部的唯一元素  |
| a.intersection(b)     | a & b      |   a和b都有的元素 |
| a.difference(b)     | a - b      |   a中不属于b的元素 |
| a.symmetric_difference(b)     | a ^ b      |   a或b中不同时属于a和b的元素 |
| a.issubset(b)     | N/A      |   如果a的全部元素都包含于b，则为True |
| a.issuperset(b)     | N/A      |   如果b的全部元素都包含于a，则为True |
| a.isdisjoint(b)     | N/A      |   如果a和b没有公共元素，则为True |

In [None]:
set([2, 2, 2, 1, 3, 3]) # set函数创建集合
{2, 2, 2, 1, 3, 3} # 大括号创建集合

In [None]:
a = {1, 2, 3, 4, 5}
b = {3, 4, 5, 6, 7, 8}
a | b  # 并（或）
a & b  # 交（与）
a - b  # 差
a ^ b  # 对称差（异或）

In [None]:
a_set = {1, 2, 3, 4, 5}
{1, 2, 3}.issubset(a_set) # 判断调用集合是否为参数集合的子集
a_set.issuperset({1, 2, 3}) # 判断调用集合是否为参数集合的超集

In [None]:
{1, 2, 3} == {3, 2, 1} # 判断两个集合的内容是否相等

### 列表、集合以及字典的推导式

#### 列表推导式
只需一条简洁的表达式，即可对一组元素进行过滤，并对得到的元素进行转换变形

In [None]:
# 语法
[expr for val in collection if condition]

# 相当于
result = []
for val in collection:
    if condition:
        result.append(val)

In [None]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2] # 滤除长度小于等于2的字符串，并将剩下的字符串转换成大写字母形式

#### 集合推导式

In [None]:
# 语法
set_comp = {expr for value in collection if condition}

In [None]:
unique_lengths = {len(x) for x in strings} # 构造一个集合，其内容为原列表字符串的各种长度

#### 字典推导式

In [None]:
# 语法
dict_comp = {key-expr : value-expr for value in collection if condition}

In [None]:
loc_mapping = {val : index for index, val in enumerate(strings)} # 为字符串创建一个指向其列表位置的映射关系

In [None]:
loc_mapping = dict((val, idx) for idx, val in enumerate(strings)) # 以上两种方式等价

#### 嵌套列表推导式

In [None]:
all_data = [['Tom', 'Billy', 'Jefferson', 'Andrew', 'Wesley', 'Steven', 'Joe'],
            ['Susie', 'Casey', 'Jill', 'Ana', 'Eva', 'Jennifer', 'Stephanie']]

In [None]:
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') > 2]
    names_of_interest.extend(enough_es)

In [None]:
result = [name for names in all_data for name in names
          if name.count('e') >= 2] # 以上两种方式等价，for循环先外层在内层，if对应最内层的for循环

In [None]:
some_tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]
flattened = [x for tup in some_tuples for x in tup] # 将由元组构成的列表扁平化

In [None]:
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x) # 以上两种方式等价，嵌套for循环中各个for的顺序是怎样的，嵌套推导式中各个for表达式的顺序就是怎样的

In [None]:
[[x for x in tup] for tup in some_tuples] # 列表推导式中的列表推导式，生成由列表构成的列表

## 函数

In [None]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y) # return显式返回，无显式返回则返回None

In [None]:
my_function(5, 6, z=0.7) # 关键字参数必须位于位置参数之后
my_function(3.14, 7, 3.5)

### 命名空间、作用域，以及局部函数

In [None]:
def func():
    a = []
    for i in range(5):
        a.append(i) # 在函数中赋值的变量默认是被分配到局部命名空间的，局部命名空间在函数被调用时创建，函数执行完毕后被销毁

In [None]:
a = []
def func():
    for i in range(5):
        a.append(i) # 在函数中可以对全局变量进行函数和方法的操作（与赋值操作不同）

In [None]:
a = None
def bind_a_variable():
    global a
    a = [] # 在函数中对全局变量进行赋值操作，必须用global关键字声明成全局的才行
bind_a_variable()
print a

In [None]:
def outer_function(x, y, z):
    def inner_function(a, b, c): # 在函数内部也可以进行函数声明
        pass
    pass

### 返回多个值

In [None]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c

a, b, c = f() # 元组形式返回

In [None]:
return_value = f()

In [None]:
def f():
    a = 5
    b = 6
    c = 7
    return {'a' : a, 'b' : b, 'c' : c} # 字典形式返回

### 函数亦为对象

In [None]:
states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
          'south   carolina##', 'West virginia?']

In [None]:
import re  # 正则表达式模块

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value) # 移除标点符号
        value = value.title()
        result.append(value)
    return result

In [None]:
In [15]: clean_strings(states)
Out[15]:
['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [None]:
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title] # 将需要在一组字符串上执行的所有运算做成一个列表

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [None]:
In [22]: clean_strings(states, clean_ops) # 多函数模式使你能在很高的层次上轻松修改字符串的转换方式
Out[22]:
['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [None]:
In [23]: map(remove_punctuation, states) # 将函数用作其他函数的参数，例如map函数，用于在一组数据上应用一个函数
Out[23]:
['   Alabama ',
 'Georgia',
 'Georgia',
 'georgia',
 'FlOrIda',
 'south   carolina',
 'West virginia']

### 匿名 (lambda) 函数

In [None]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2 # 以上两种方式等价

In [None]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2) # 以上两种方式等价

In [None]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [None]:
strings.sort(key=lambda x: len(set(list(x)))) # 根据字符串不同字母的数量对其进行排序

### 闭包：返回函数的函数
闭包就是由其他函数动态生成并返回的函数，其关键性质是，被返回的函数可以访问其创建者的局部命名空间中的变量  
当创建者返回闭包函数后，创建者的相关参数、变量（即局部命名空间）都保存在被返回的函数中，因而称之为“闭包”  
闭包的功能也可以用类来实现

In [None]:
def make_closure(a):
    def closure():
        print('I know the secret: %d' % a)
    return closure

closure = make_closure(5)

In [None]:
def make_watcher():
    have_seen = {}

    def has_been_seen(x):
        if x in have_seen:
            return True
        else:
            have_seen[x] = True
            return False

    return has_been_seen

In [None]:
watcher = make_watcher()
vals = [5, 6, 1, 5, 1, 6, 3, 5]
[watcher(x) for x in vals]

In [None]:
# 编写带有大量选项的一般化的函数，然后在组装出更简单更专门化的函数
def format_and_pad(template, space):
    def formatter(x):
        return (template % x).rjust(space)

    return formatter # 带有大量选项的一般化的函数

In [None]:
fmt = format_and_pad('%.4f', 15) # 组装出更简单更专门化的函数，('%.4f', 15)对应外层函数参数
fmt(1.756) # 1.756对应内层函数的参数

### 扩展调用语法和 *args, **kwargs

In [None]:
func(a, b, c, d=some, e=value)

In [None]:
# 当编写以上函数时，位置和关键字参数其实分别是被打包成元组和字典的。函数实际接收到的是一个元组args和一个字典kwargs，并在内部完成如下转换
a, b, c = args
d = kwargs.get('d', d_default_value)
e = kwargs.get('e', e_default_value)

In [None]:
def say_hello_then_call_f(f, *args, **kwargs):
    print 'args is', args
    print 'kwargs is', kwargs
    print("Hello! Now I'm going to call %s" % f)
    return f(*args, **kwargs)

def g(x, y, z=1):
    return (x + y) / z

In [None]:
In [8]:  say_hello_then_call_f(g, 1, 2, z=5.) # 允许将位置参数当成关键字参数那样进行指定（即使它们在函数定义中并不是关键字参数）
args is (1, 2)
kwargs is {'z': 5.0}
Hello! Now I'm going to call <function g at 0x2dd5cf8>
Out[8]: 0.6

### 柯里化：部分参数应用
偏函数

In [None]:
def add_numbers(x, y):
    return x + y

In [None]:
add_five = lambda y: add_numbers(5, y) # add_numbers的第二个参数称为“柯里化的”

In [None]:
from functools import partial # 内置的functools模块可以用partial函数将此过程简化
add_five = partial(add_numbers, 5)

In [None]:
# 计算时间序列x的60日移动平均
ma60 = lambda x: pandas.rolling_mean(x, 60)

# 计算data中所有时间序列的60日移动平均
data.apply(ma60)

### 生成器
生成器（generator）是构造新的可迭代对象的一种简单方式。一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续

In [None]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict:
    print key,

In [None]:
# 当编写for key in some_dict时，Python解释器首先会尝试从some_dict创建一个迭代器
dict_iterator = iter(some_dict)

In [None]:
# 迭代器是一种特殊对象，它可以在诸如for循环之类的上下文中向Python解释器输送对象
# 大部分能接受列表之类的对象的方法也可以接受任何可迭代对象。比如min、max、sum等内置方法以及list、tuple等类型构造器
list(dict_iterator)

In [None]:
# 创建一个生成器，只需将函数中的return替换为yeild
def squares(n=10):
    for i in xrange(1, n + 1):
        print 'Generating squares from 1 to %d' % (n ** 2)
        yield i ** 2

In [None]:
In [2]: gen = squares()

In [3]: gen
Out[3]: <generator object squares at 0x34c8280>

In [None]:
In [4]: for x in gen:
   ...:     print x,
   ...:
Generating squares from 0 to 100
1 4 9 16 25 36 49 64 81 100

In [None]:
def make_change(amount, coins=[1, 5, 10, 25], hand=None):
    hand = [] if hand is None else hand
    if amount == 0:
        yield hand
    for coin in coins:
        # 确保我们给出的硬币没有超过总额，且组合是唯一的
        if coin > amount or (len(hand) > 0 and hand[-1] < coin):
            continue

        for result in make_change(amount - coin, coins=coins,
                                  hand=hand + [coin]):
            yield result

In [None]:
for way in make_change(100, coins=[10, 25, 50]):
    print way
len(list(make_change(100)))

#### 生成器表达式
生成器表达式（generator expression）是构造生成器的最简单方式。其创建方式为，把列表推导式两端的方括号改成圆括号

In [None]:
gen = (x ** 2 for x in xrange(100))

In [None]:
def _make_gen():
    for x in xrange(100):
        yield x ** 2
gen = _make_gen() # 以上两种方式等价

In [None]:
sum(x ** 2 for x in xrange(100))
dict((i, i **2) for i in xrange(5)) # 生成器表达式可用于任何接受生成器的Python函数

#### itertools模块

标准库itertools模块中有一组用于许多常见数据算法的生成器
+ imap(func, *iterables)  
内置函数map的生成器版，将func应用于参数序列的各个打包元组
+ ifilter(func, iterable)  
内置函数filter的生成器版，当func(x)为True时输出元素x
+ combinations(iterable, k)  
生成一个由iterable中所有可能的k元元组组成的序列（不考虑顺序）
+ permutations(iterable, k)  
生成一个由iterable中所有可能的k元元组组成的序列（考虑顺序）
+ groupby(iterable[, keyfunc])  
为每个唯一键生成一个(key, sub-iterator)

In [None]:
import itertools
first_letter = lambda x: x[0]

names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter): # groupby函数的第二个参数必须callable
    print letter, list(names) # names是一个生成器（sub-iterator），因此外面要套上list函数

## 文件和操作系统

### Python的文件模式
+ r  
只读模式
+ w  
只写模式。创建新文件（删除通路径同名的任何文件）
+ a  
附加到现有文件（如果文件不存在则创建一个）
+ r+  
读写模式
+ b  
附加说明某模式用于二进制文件，即'rb'或'wb'
+ U  
通用换行模式。单独使用'U'或附加到其他读模式（如'rU'）

### 重要的Python文件方法或属性
+ read([siez])  
以字符串形式返回文件数据，可选的size参数用于说明读取的字节数
+ readlines([size])  
将文件返回为行列表，可选参数size
+ write(str)  
将字符串写入文件
+ close()  
关闭句柄
+ flush()  
清空内部I/O缓存区，并将数据强行写回磁盘
+ seek(pos)  
移动到指定的文件位置（整数）
+ tell()  
以整数形式返回当前文件位置
+ closed  
如果文件已关闭，则为True

In [None]:
path = 'ch13/segismundo.txt'
f = open(path) # f是文件句柄，默认情况下，文件以只读模式（'r'）打开

In [None]:
for line in f:
    pass

In [None]:
lines = [x.rstrip() for x in open(path)] # 从文件中取出的行都带有完整的行结束符（EOL），通过rstrip方法得到一组没有EOL的行

In [None]:
# 创建一个无空行版的segismundo.txt
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1) # 这里with的用处是防止忘记关闭句柄

In [None]:
open('tmp.txt').readlines()
os.remove('tmp.txt')