In [1]:
#执行一个python文件
%run helloworld.py

helloworld


## 基础知识

### 万物皆对象

> python语言的一个重要特点就是其对象模型的一致性。python解释器中的任何数值、字符串、数据结构、函数、类、模块等都待在它们自己的“盒子”里，而这个“盒子”也就是python对象。每个对象都有一个与之相关的类型(比如字符串或函数)以及内部数据。在实际工作当中，这使得python语言变得非常灵活，因为即使是函数也能被当做其他对象那样处理。 

### 注释

> 以'#'开头的行为注释，会被解释器忽略

### 函数调用和对象方法调用

In [None]:
#伪代码！！！
#带有0个或多个参数的函数调用,且把返回值赋值给其他变量
result = f(x,y,z)
g()
#方法调用，类似于函数，但是他属于对象内部的函数
obj.some_method(x,y,z)
#接受位置参数，也可以接受关键字参数
result = f(a,b,c,e='foo')

### 变量和按引用传递

In [3]:
#对变量赋值，就是在创建等号右侧对象的一个引用
a = [1,2,3]
b = a
#可以验证,修改a，b也会被修改
a.append(4)
print b

[1, 2, 3, 4]


> 赋值(assignment)操作也叫做绑定(binding)。因为赋值操作其实就是将一个名称绑定到一个对象上。已经赋过值的变量名有时也被称为已绑定变量。

In [4]:
#参数传递也只是传入了一个引用，不会发生复制
def append_element(some_list, element):
    some_list.append(element)

data = [1,2,3]
append_element(data, 4)
print data

[1, 2, 3, 4]


### 动态引用，强类型

In [5]:
#python对象引用没有与之关联的类型信息,a只是一个名称，可以绑定在任何类型的对象上
a = 5
print type(a)
a = 'foo'
print type(a)

<type 'int'>
<type 'str'>


In [8]:
#类型的隐式转换
#整型和浮点型之间运算可以自动类型转换
a = 4.5
b=2
print a/b
#整型和字符串类型之间进行运算不能自动类型转换，会报错
'5'+5

2.25


TypeError: cannot concatenate 'str' and 'int' objects

In [11]:
#判断对象的类型
a = 5
#判断对象a是否是整型
print isinstance(a,int)
#类型信息可以使用元组表示
print isinstance(a,(int, float))
b=4.5
print isinstance(b, (int,float))

True
True
True


### 属性和方法

> python对象通常都既有属性(attribute,即存储在该对象'内部'的其他python对象)又有方法(method,与该对象相关的能够访问其内部数据的函数)。访问方式为obj.attribute_name

In [14]:
#使用点运算符来访问
a = 'foo'
a.endswith

<function endswith>

In [16]:
#使用getattr函数来访问
#getattr、hasattr、setattr函数在编写通用的、可复用的代码时很有用
getattr(a,'split')

<function split>

### 鸭子"类型"

> 只要一个对象实现了迭代器协议(iterator protocol),你就可以确认它是可迭代的。这也意味着这个对象拥有一个__iter__魔术方法。还有比较便捷的验证方法。使用iter函数，如果没有引发TypeError那么就表示它是一个可迭代对象。

In [17]:
#判断一个对象是否是可迭代对象，类型判断
def isiterable(obj):
    try:
        iter(obj)
        return True
    except TypeError:
        return False

### 引入

In [18]:
#创建一个python文件，some_module.py,内容如下
PI=3.14159
def f(x):
    return x+2

def g(a,b):
    return a+b

In [19]:
#在同一个目录下创建另外一个文件，在文件中可以引用some_module.py的内容
import some_module
s = 2
result = some_module.f(s)
pi = some_module.PI

In [20]:
#还可以这样引入
from some_module import f,g,PI
result = g(5,PI)

In [21]:
import some_module as sm
from some_module import PI as pi,g as gf
r1 = sm.f(pi)
r2 = gf(6,pi)

### 二元运算符和比较运算符

In [22]:
5-7

-2

In [23]:
12+21.5

33.5

In [24]:
5<=2

False

In [25]:
#判断两个引用是否指向同一个对象，使用is关键字。
#判断两个引用是否不是指向同一个对象，使用is not
a = [1,2,3]
b = a
#list函数会创建新的列表
c = list(a)
print  a is b
print a is not c

True
True


In [26]:
#==运算符用于比较两个对象的值
a == c

True

In [27]:
#通常使用is、is not用于判断对象是否为None
a = None
a is None

True

### 二元运算符

- a+b——a加b
- a-b——a减b
- a*b——a乘以b
- a/b——a除以b
- a//b——a除以b后向下圆整，丢弃小数部分
- a**b——a的b次方
- a&b——如果a和b均为True，则结果为True。对于整数，执行按位与操作
- a|b——如果a和b任何一个为True，则结果为True。对于整数，执行按位或操作
- a^b——对于布尔值，如果a或b为True(但不同时为True)，则结果为True。对于整数，执行按位异或操作
- a==b——如果a等于b，则结果为True
- a!=b——如果a不等于b，则结果为True
- a<=b、a<b——如果a小于等于(小于)b，则结果为True
- a>b、a>=b——如果a大于(或大于等于)b,则结果为True
- a is b——如果引用a和b指向同一个python对象，则结果为True
- a is not b——如果引用a和b指向不同的python对象，则结果为True

### 严格与懒惰

> 通常情况下，python数值表达式是立即计算出结果的。但是可以通过迭代器、生成器这些技术实现延迟计算。类似于函数编程Haskell的延时计算思想

### 可变和不可变的对象

In [28]:
#列表、字典、numpy数组是可变对象
a_list = ['foo',1,2,[4,5]]

In [29]:
a_list[2] = (3,4)

In [30]:
a_list

['foo', 1, (3, 4), [4, 5]]

In [31]:
#字符串和元组为不可变的
a_tuple = (2,3,4,(4,5))

In [32]:
a_tuple[2] = 'foo'

TypeError: 'tuple' object does not support item assignment

> "可以修改某个对象"这种行为在编程中称为“副作用(side effect)“,任何副作用都应该通过该函数的文档或注释明确地告知用户。即使可以使用可变对象，也建议尽量避免副作用且注重不变性(immutability)

## 标量类型

**标准的python标量类型**
- None——python的‘null'值（None只存在一个实例对象）
- str——字符串类型。python 2.x中只有ASCII值，而python3中则是Unicode
- unicode——unicode字符串类型
- float——双精度(64位)浮点书。注意，这里没有专门的double类型
- bool——True或False
- int——有符号整数，其最大值由平台决定
- long——任意精度的有符号整数。大的int值会被自动转换为long

### 数值类型

In [36]:
#python3,整数相除，除不尽，产生浮点数
#3/2=1.5
#python 2.x返回整数
#3/2=1
#python 2.x通过from __future__ import division,可以实现python3的效果
from __future__ import division
print 3/2
#python2.x也可以显示把其中一个数转成浮点型
print 3/float(2)

1.5

In [37]:
3//2

1

In [38]:
#复数的表示和运算
cval = 1+2j
cval*(1-2j)

(5+0j)

### 字符串

In [1]:
a = 'one way of writing a string'
b = 'another way'

In [2]:
#带有换行符的多行字符串，使用三重引号('''或""")
c = """
this is a longer string that
spans multiple lines
"""

In [9]:
#字符串是不可变的。要修改字符串就只能创建一个新的
a = 'this is a string'

In [5]:
a[0] = 'f'

TypeError: 'str' object does not support item assignment

In [10]:
#修改字符串可以先把它转成可迭代的对象类型，修改完再还原回字符串
a = list(a)
a[0] = 'f'
a = ''.join(a)
print a

fhis is a string


In [12]:
#转义符——反斜杠\
s = '12\\34'
print s

12\34


In [13]:
#r表示所有字符应该按照原来的样子解释，不需要转义符，且转义符无效
s = r'this\has\on\special\characters'
print s

this\has\on\special\characters


In [14]:
#两个字符串加起来会产生一个新字符串
a = 'this is the first half'
b = 'and this is the second half'
a+b

'this is the first halfand this is the second half'

In [15]:
#字符串格式化。以%开头且后面跟着一个或多个格式字符的字符串是需要插入值的目标
template = '%.2f %s are worth $%d'
template % (4.556, 'Argentine Pesos', 1)

'4.56 Argentine Pesos are worth $1'

### 布尔值

In [17]:
#and、or关键字用于连接布尔值
print True and False
print True or False
print True and True
print False and False

False
True
True
False


In [18]:
a = [1,2,3]
if a:
    print 'I found something!'

I found something!


In [19]:
b = []
if not b:
    print 'Empty!'

Empty!


In [22]:
#使用bool函数可以知道某个对象究竟会被强制转换成哪个布尔值
bool([]),bool([1,2,3])

(False, True)

In [21]:
bool('Hello,world!'),bool('')

(True, False)

In [23]:
bool(0),bool(1)

(False, True)

### 类型转换

In [24]:
s = '3.14159'
fval = float(s)
print type(fval)
print int(fval)
print bool(fval)
print bool(0)

<type 'float'>
3
True
False


### None

In [25]:
#None是Python的空值类型。如果一个函数没有显式地返回值，则隐式返回None
a = None
a is None

True

In [26]:
b = 5
b is not None

True

In [27]:
#None还是函数可选参数的一种常用默认值
def add_and_maybe_multiply(a,b,c=None):
    result = a+b
    if c is not None:
        result = result + c
    return result

### 日期和时间

In [28]:
from datetime import datetime,date,time
dt = datetime(2011,10,29,20,30,21)
print dt.day
print dt.minute

29
30


In [29]:
print dt.date()
print dt.time()

2011-10-29
20:30:21


In [30]:
#strftime 用于将datetime格式化为字符串
dt.strftime('%m/%d/%Y %H:%M')

'10/29/2011 20:30'

In [31]:
#字符串可以通过strptime函数转换(解析)为datetime对象
datetime.strptime('20091031','%Y%m%d')

datetime.datetime(2009, 10, 31, 0, 0)

In [33]:
#datetime之差，datetime.timedelta类型
dt2 = datetime(2011,11,15,22,30)
delta = dt2 - dt
print delta
print type(delta)

17 days, 1:59:39
<type 'datetime.timedelta'>


In [34]:
#datetime和timedelta之和
dt + delta

datetime.datetime(2011, 11, 15, 22, 30)

## 控制流

In [37]:
#if,elif,else,条件语句
x = 0
if x < 0:
    print "it's negative"
elif x == 0:
    print "Equal to zero"
elif 0<x<5:
    print "Positive but smaller than 5"
else:
    print "Positive and larger than or equal to 5"

Equal to zero


In [38]:
#对于and或or组成的复合条件，复合条件是按从左到右的顺序求值的，而且是短路型
a = 5;b = 7
c = 8;d = 4
if a<b or c>d:
    print 'Made it'

Made it


### for循环
for循环用于对集合(比如列表或元组)或迭代器进行迭代。

In [40]:
#continue关键字用于使for循环提前进入下一次迭代
sequence = [1,2,None,4,None,5]
total = 0
for value in sequence:
    if value is None:
        continue
    total += value

In [41]:
#break关键字用于使for循环完全退出
sequence = [1,2,0,4,6,5,2,1]
total_until_5 = 0
for value in sequence:
    if value == 5:
        break
    total_until_5 += value

### while循环

In [42]:
x = 256
total = 0
while x>0:
    if total>500:
        break
    total += x
    x = x // 2

### pass
pass是python中的"空操作"语句。它可以被用在那些没有任何功能的代码块中

In [43]:
if x<0:
    print 'negative!'
elif x==0:
    #TODO:在这里放点代码
    pass
else:
    print 'positive'

positive


In [44]:
def f(x,y,z):
    #TODO: 实现这个函数！
    pass

### 异常处理
优雅地处理python错误或异常是构建健壮程序的重要环节。

In [45]:
float('12.345')

12.345

In [48]:
#编写一个在出错时能优雅地返回输入参数的改进版float函数。
def attempt_float(x):
    try:
        return float(x)
    except:
        return x

In [49]:
attempt_float('1.23')

1.23

In [50]:
attempt_float('something')

'something'

In [51]:
#只希望处理ValueError
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [52]:
attempt_float((1,2))

TypeError: float() argument must be a string or a number

In [53]:
#同时处理ValueError、TypeError
def attempt_float(x):
    try:
        return float(x)
    except(TypeError, ValueError):
        return x

In [None]:
#只希望有一段代码，不管try块代码成功与否都能被执行。使用finally即可达到这个目的
# f=open(path,'w')
#try:
#    write_to_file(f)
#finally:
#    f.close()

In [54]:
#让某些代码只在try块成功时执行。使用else即可
#f = open(path,'w')
#try:
#    write_to_file(f)
#except:
#    print 'Failed'
#else:
#    print 'Succeeded'
#finally:
#    f.close()

### range和xrange

In [55]:
#range函数用于产生一组间隔平均的整数
range(10)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [56]:
#指定起始值、结束值以及步长等信息
range(0,20,2)

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18]

In [57]:
#range常用于按索引对序列进行迭代
seq = [1,2,3,4]
for i in range(len(seq)):
    val = seq[i]

In [58]:
#对于非常长的范围，建议使用xrange，
#它不会预先产生所有的值并将它们保存到列表中。
#返回一个用于逐个产生整数的迭代器。
sum = 0
for i in xrange(10000):
    #%是求模运算符
    if x%3==0 or x%5==0:
        sum += i

**注意:python3中，range始终返回迭代器，xrange可以丢弃**

### 三元表达式
语法：value = true-expr if condition else false-expr

In [59]:
x=5
'Non-negative' if x>=0 else 'Negative'

'Non-negative'

## 数据结构和序列

### 元组
元组是一种一维的、定长的、不可变的python对象序列。

In [60]:
tup = 4,5,6
tup

(4, 5, 6)

In [61]:
nested_tup = (4,5,6),(7,8)
nested_tup

((4, 5, 6), (7, 8))

In [62]:
tuple([4,0,2])

(4, 0, 2)

In [63]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [64]:
tup[0]

's'

In [65]:
#存储在元组中的对象本身不可变，但创建完毕，存放在各个插槽中的对象就不能再被修改
tup = tuple(['foo',[1,2],True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [66]:
tup[1] = [1,2,3]

TypeError: 'tuple' object does not support item assignment

In [67]:
tup[1].append(3)

In [68]:
tup

('foo', [1, 2, 3], True)

In [69]:
#元组拼接
(4,None,'foo')+(6,0)+('bar',)

(4, None, 'foo', 6, 0, 'bar')

In [70]:
('foo','bar')*4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

### 元组拆包

In [71]:
tup = (4,5,6)
a,b,c=tup
b

5

In [72]:
#嵌套元组被拆包
tup = 4,5,(6,7)
a,b,(c,d) = tup
d

7

In [73]:
#利用该功能很便利的交换变量名
tmp = a
a = b
b = tmp

#下面的python风格代码等价于上面的C语言风格代码
b,a = a,b

In [74]:
#变量拆包功能常用于对由元组或列表组成的序列进行迭代
seq = [(1,2,3),(4,5,6),(7,8,9)]
for a,b,c in seq:
    pass

### 元组方法

In [76]:
#统计指定值出现的次数
a = (1,2,2,2,3,4,2)
a.count(2)

4

### 列表

In [1]:
a_list = [2,3,7,None]
tup = ['foo','bar','baz']
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [2]:
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

### 添加和移除元素

In [3]:
#append在列表的末尾添加元素
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [4]:
#把元素插入到列表的指定位置，计算量比append大
b_list.insert(1,'red')

In [5]:
b_list

['foo', 'red', 'peekaboo', 'baz', 'dwarf']

In [6]:
#insert的逆运算是pop，用于移除并返回指定索引处的元素
b_list.pop(2)

'peekaboo'

In [7]:
b_list

['foo', 'red', 'baz', 'dwarf']

In [8]:
b_list.append('foo')
b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [9]:
#remove用于按值删除元素，找到第一个符合要求的值然后将其从列表中删除
b_list.remove('foo')
b_list

['red', 'baz', 'dwarf', 'foo']

In [10]:
#通过关键字in,判断列表中是否含有某个值
'dwarf' in b_list

True

**注意:判断列表中是否含有某个值的操作比字典(dict)和集合(set)慢得多，因为python会对列表中的值进行线性扫描。而另外两个(基于哈希表)则可以瞬间完成判断**

### 合并列表

In [11]:
#使用+号将两个列表加起来
[4,None,'foo']+[7,8,(2,3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [12]:
#使用extend对已存在列表一次性添加多个元素
x = [4,None,'foo']
x.extend([7,8,(2,3)])

In [13]:
x

[4, None, 'foo', 7, 8, (2, 3)]

**注意：列表的加法合并是很浪费资源的操作，因为它需要创建新的列表，并将所有对象复制过去。而extend将元素附加到现有列表。因此加法和并比extend方法慢很多**

### 排序

In [14]:
#调用列表的sort方法可以实现就地排序
a = [7,2,5,1,3]
a.sort()

In [15]:
a

[1, 2, 3, 5, 7]

In [16]:
#sort的选项。次要排序键，即一个能够产生可用于排序的值的函数。
#通过长度对一组字符串进行排序
b = ['saw','small','He','foxes','six']
b.sort(key=len)
b

['He', 'saw', 'six', 'small', 'foxes']

### 二分搜索及维护有序列表
内置的bisect模块实现了二分查找以及对有序列表的插入操作。bisect.bisect可以找出新元素应该被插入到哪个位置才能保持原列表的有序性。而bisect.insort则确实地将新元素插入到那个位置上去。

In [17]:
import bisect

In [18]:
c = [1,2,2,2,3,4,7]

In [19]:
bisect.bisect(c,2)

4

In [20]:
bisect.bisect(c,5)

6

In [21]:
c

[1, 2, 2, 2, 3, 4, 7]

**bisect模块的函数不会判断原列表是否是有序的，因为这样做的开销太大了。因此，将它们用于无序列表虽然不会报错，但可能会导致不正确的结果**

### 切片
通过切片标记法，你可以选取序列类型的子集。

In [22]:
seq = [7,2,3,7,5,6,0,1]

In [23]:
seq[1:5]

[2, 3, 7, 5]

In [24]:
seq[3:4] = [6,3]

In [25]:
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [26]:
seq[:5]

[7, 2, 3, 6, 3]

In [28]:
seq[3:]

[6, 3, 5, 6, 0, 1]

In [29]:
seq[-4:]

[5, 6, 0, 1]

In [31]:
seq[-6:-2]

[6, 3, 5, 6]

In [32]:
#在第二个冒号后面加上步长(step)
seq[::2]

[7, 3, 3, 6, 1]

In [33]:
#-1实现列表或元组的反序
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

## 内置的序列函数

### enumerate

In [37]:
#对一个序列进行迭代时，常常需要跟踪当前项的索引
i = 0
collection = [1,2,3]
for value in collection:
    pass
    i += 1

In [38]:
#使用enumerate可以同时跟踪序列的索引和值
for i,value in enumerate(collection):
    #TODO
    pass

In [39]:
#求取一个将序列值映射到其所在位置的字典
some_list = ['foo','bar','baz']
mapping = dict((v,i) for i,v in enumerate(some_list))
mapping

{'bar': 1, 'baz': 2, 'foo': 0}

### sorted
sorted函数可以将任何序列返回为一个新的有序列表

In [40]:
sorted([7,1,2,6,0,3,2])

[0, 1, 2, 2, 3, 6, 7]

In [41]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

In [42]:
#常常将sorted和set结合起来使用以得到一个由序列中的唯一元素组成的有序列表
sorted(set('this is just some string'))

[' ', 'e', 'g', 'h', 'i', 'j', 'm', 'n', 'o', 'r', 's', 't', 'u']

### zip
用于将多个序列(列表、元组等)中的元素"配对"，从而产生一个新的元组列表

In [43]:
seq1 = ['foo','bar','baz']
seq2 = ['one','two','three']
zip(seq1,seq2)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [44]:
#接受任意数量的序列，最终的得到的元组数量由最短的序列决定
seq3 = [False,True]
zip(seq1,seq2,seq3)

[('foo', 'one', False), ('bar', 'two', True)]

In [45]:
for i,(a,b) in enumerate(zip(seq1,seq2)):
    print('%d: %s,%s' % (i,a,b))

0: foo,one
1: bar,two
2: baz,three


In [46]:
pitchers = [('Nolan','Ryan'),('Roger','Clemens'),('Schilling','Curt')]

In [47]:
first_names,last_names = zip(*pitchers)

In [48]:
first_names

('Nolan', 'Roger', 'Schilling')

In [49]:
last_names

('Ryan', 'Clemens', 'Curt')

### reversed
用于按逆序迭代序列中的元素

In [50]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## 字典

In [51]:
empty_dict = {}
d1 = {'a':'some value','b':[1,2,3,4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [52]:
#访问、插入、设置元素的语法跟元素、列表一样
d1[7] = 'an interger'

In [53]:
d1['b']

[1, 2, 3, 4]

In [54]:
#判断字典中是否存在某个键
'b' in d1

True

In [55]:
d1[5] = 'some value'

In [56]:
d1['dummy'] = 'another value'

In [57]:
d1

{5: 'some value',
 7: 'an interger',
 'a': 'some value',
 'b': [1, 2, 3, 4],
 'dummy': 'another value'}

In [58]:
#使用del关键字或pop方法删除值
del d1[5]
print d1
ret = d1.pop('dummy')
print ret

{'a': 'some value', 'dummy': 'another value', 'b': [1, 2, 3, 4], 7: 'an interger'}
another value


In [59]:
print d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an interger'}


In [60]:
d1.keys()

['a', 'b', 7]

In [61]:
d1.values()

['some value', [1, 2, 3, 4], 'an interger']

In [62]:
d1.items()

[('a', 'some value'), ('b', [1, 2, 3, 4]), (7, 'an interger')]

**注意：python3中，dict.keys()和dict.keys()会返回迭代器而不是列表**

In [63]:
#update 方法，一个字典可以被合并到另一个字典中去
d1.update({'b':'foo','c':12})

In [64]:
d1

{7: 'an interger', 'a': 'some value', 'b': 'foo', 'c': 12}

### 从序列类型创建字典

In [66]:
#字典本质上是一个二元元组集。所以可以用dict类型函数直接处理二元元组列表
mapping = dict(zip(range(5),reversed(range(5))))

In [67]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 默认值

In [74]:
#根据首字母对一组单词进行分类并最终产生一个由列表组成的字典
words = ['apple','bat','bar','atom','book']
by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

In [75]:
by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [82]:
#使用setdefault可以替代上面的if-else语句
by_letter1 = {}
for word in words:
    letter = word[0]
    by_letter1.setdefault(letter, []).append(word)

In [83]:
by_letter1

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [84]:
#内置的collections模块的defaultdict类，是过程更简单
#传入一个类型或函数(用于生成字典各插槽所使用的默认值)即可创建出一个defaultdict
from collections import defaultdict
by_letter = defaultdict(list)

In [85]:
for word in words:
    by_letter[word[0]].append(word)

In [86]:
by_letter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

In [87]:
#defaultdict初始化器只需要一个可调用对象。
#比如，想要将默认值设置为4,只需要传入一个能够返回4的函数即可
counts = defaultdict(lambda: 4)

### 字典键的有效类型
字典的键是不可变对象。

In [88]:
a = {}
a[['a']] = 1

TypeError: unhashable type: 'list'

In [89]:
#通过hash函数，你可以判断某个对象是否是可哈希的(即可以用作字典的键)
hash('string')

-9167918882415130555

In [90]:
hash((1,2,3))

2528502973977326415

In [91]:
hash([1,2])

TypeError: unhashable type: 'list'

In [92]:
#如果要将列表当作键，最简单的办法就是将其变成元组
d = {}
d[tuple([1,2,3])] = 5

In [93]:
d

{(1, 2, 3): 5}

## 集合
集合(set)是由唯一元素组成的无序集。可以将其看做只有键没有值的字典

In [94]:
set([1,2,3])

{1, 2, 3}

In [95]:
{2,2,3,4,5}

{2, 3, 4, 5}

In [96]:
a = {1,2,3,4,5}
b = {3,4,5,6,6}

In [97]:
#求并集
a|b

{1, 2, 3, 4, 5, 6}

In [98]:
#求交集
a&b

{3, 4, 5}

In [99]:
#求差集
a-b

{1, 2}

In [101]:
#求对称集，异或
a^b

{1, 2, 6}

In [102]:
#判断一个集合是否是另一个集合的子集(原集合包含于新集合)或超集(原集合包含新集合)
a_set = {1,2,3,4,5}
{1,2,3}.issubset(a_set)

True

In [103]:
#超集合
a_set.issuperset({1,2,3})

True

In [104]:
{1,2,3} == {1,3,2}

True

### python的集合运算
- a.add(x)——N/A——将元素x添加到集合a
- a.remove(x)——N/A——将元素x从集合a中删除
- a.union(b)——a|b——a和b全部的唯一元素
- a.intersection(b)——a&b——a和b都有的元素
- a.difference(b)——a-b——a中不属于b的元素
- a.symmetric_difference(b)——a^b——a或b中不同时属于a和b的元素
- a.issubset(b)——N/A——如果a的全部元素都包含于b，则为True
- a.issuperset(b)——N/A——如果b的全部元素都包含于a，则为True
- a.isdisjoint(b)——N/A——如果a和b没有公共元素，则为True

## 列表、集合以及字典的推导式
基本形式：[expr for val in collection if condition]<br>
相当于:<br>
result = []<br>
for val in collection:<br>
----if condition:<br>
--------result.append(expr)<br>

In [105]:
strings = ['a','as','bat','car','dove','python']
[x.upper() for x in strings if len(x)>2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

字典推导式形式如下:<br>
dict_comp = {key_expr: value-expr for value in collection if condition}

集合推导式形式如下:<br>
set_comp={expr for value in collection if condition}

In [106]:
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [107]:
loc_mapping = {val: index for index,val in enumerate(strings)}

In [108]:
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

In [109]:
loc_mapping = dict((val,idx) for idx,val in enumerate(strings))

In [110]:
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

### 嵌套列表推导式

In [111]:
all_data = [['Tom','Billy','Jefferson','Andrew','Wesley',
             'Steven','Joe'],['Susie','Casey','Jill','Ana',
                             'Eva','Jennifer','Stephanie']]

In [112]:
result = [name for names in all_data for name in names if name.count('e')>=2]

In [113]:
result

['Jefferson', 'Wesley', 'Steven', 'Jennifer', 'Stephanie']

In [114]:
#将一个由整数元组构成的列表“扁平化”为一个简单的整数列表
some_tuples = [(1,2,3),(4,5,6),(7,8,9)]
flattened = [x for tup in some_tuples for x in tup]

In [115]:
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [116]:
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

In [118]:
[tup for tup in some_tuples]

[(1, 2, 3), (4, 5, 6), (7, 8, 9)]

## 函数
关键字参数必须位于位置参数之后

### 命名空间、作用域、以及局部函数
函数可以访问两种不同作用域的变量：全局(global)和局部(local)。python有一种更科学的用于描述变量作用域的名称，即命名空间。任何在函数中赋值的变量默认都是被分配到局部命名空间中的。局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间。在函数执行完毕之后，局部命名空间就会被销毁。

In [120]:
def func(a):
    for i in range(5):
        a.append(i)

In [121]:
a = [1,2,3]
func(a)
print a

[1, 2, 3, 0, 1, 2, 3, 4]


In [124]:
#通过global关键字把局部函数变量转成全局变量
def bind_a_variable():
    global b
    b = [0,0,0]
bind_a_variable()
print b

[0, 0, 0]


In [125]:
#局部函数(在外层函数被调用之后才会被动态创建出来)
def outer_function(x,y,z):
    def inner_function(a,b,c):
        pass
    pass

### 返回多个值

In [126]:
def f():
    a = 5
    b = 6
    c = 7
    return a,b,c
a,b,c = f()

### 函数亦对象

In [127]:
states = ['   Alabama ','Georgia!', 'Georgia', 'geogia','FLOrIda',
         'south corolina##','West virginia?']

In [128]:
import re
def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]','',value) #移除标点符号
        result.append(value)
    return result

In [129]:
clean_strings(states)

['Alabama',
 'Georgia',
 'Georgia',
 'geogia',
 'FLOrIda',
 'south corolina',
 'West virginia']

In [130]:
def remove_punctuation(value):
    return re.sub('[!#?]','',value)

In [131]:
clean_ops = [str.strip,remove_punctuation,str.title]

In [132]:
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [133]:
clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Geogia',
 'Florida',
 'South Corolina',
 'West Virginia']

In [134]:
map(remove_punctuation, states)

['   Alabama ',
 'Georgia',
 'Georgia',
 'geogia',
 'FLOrIda',
 'south corolina',
 'West virginia']

## 匿名函数

In [135]:
def short_function(x):
    return x*2
equiv_anon = lambda x:x*2

In [136]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

In [137]:
ints = [4,0,1,5,6]
apply_to_list(ints, lambda x:x*2)

[8, 0, 2, 10, 12]

In [138]:
[x*2 for x in ints]

[8, 0, 2, 10, 12]

In [139]:
strings = ['foo','card','bar','aaa','abab']

In [140]:
strings.sort(key=lambda x:len(set(list(x))))

In [141]:
strings

['aaa', 'foo', 'abab', 'bar', 'card']

## 闭包:返回函数的函数
闭包是由其他函数动态生成并返回的函数。其关键性质是，被返回的函数可以访问其创建者的局部命名空间中的变量。

In [142]:
def make_closure(a):
    def closure():
        print('I know the secret: %d' % a)
    return closure
closure = make_closure(5)

In [143]:
closure()

I know the secret: 5


In [147]:
#返回一个能够记录自身参数(曾经传入到该函数的参数)的函数
def make_watcher():
    have_been = {}
    
    def has_been_seen(x):
        if x in have_been:
            return True
        else:
            have_been[x] = True
            return False
    return has_been_seen

In [148]:
watcher = make_watcher()

In [149]:
vals = [5,6,7,1,2,3]
[watcher(x) for x in vals]

[False, False, False, False, False, False]

In [150]:
[watcher(x) for x in [1,2]]

[True, True]

**注意：虽然可以修改任何内部状态对象，但不能绑定外层函数作用域中的变量。一个解决办法是:修改字典或列表，而不是绑定变量**

In [151]:
def make_counter():
    count = [0]
    def counter():
        #增加并返回当前的count
        count[0] += 1
        return count[0]
    return counter

counter = make_counter()

**应用场景：在实际工作中，可以编写带有大量选项的非常一般化的函数，然后再组装出更简单更专门化的函数**

In [152]:
def format_and_pad(template, space):
    def formatter(x):
        return (template % x).rjust(space)
    return formatter

In [153]:
#创建一个始终返回15位字符串的浮点数格式化器
fmt = format_and_pad('%.4f', 15)
fmt(1.756)

'         1.7560'

## 扩展调用语法和*args、**kwargs

In [154]:
def say_hello_then_call_f(f, *args, **kwargs):
    print 'args is', args
    print 'kwargs is',kwargs
    print("Hello!Now I'm going to call %s" % f)
    return f(*args, **kwargs)

In [158]:
def g(x,y,z=1):
    return (x+y)/z

In [159]:
say_hello_then_call_f(g,1,2,z=5.)

args is (1, 2)
kwargs is {'z': 5.0}
Hello!Now I'm going to call <function g at 0x7f1ad0268cf8>


0.6

## 柯里化：部分参数应用
柯里化(currying)是一个有趣的计算机科学术语，它指的是通过"部分参数应用"从现有函数派生出新函数的技术。

In [160]:
def add_numbers(x,y):
    return x+y

In [162]:
#通过上面的函数，派生出一个新的只有一个参数的函数——add_five,它用于对其参数加5
#add_numbers的第二个参数称为"柯里化的"
add_five = lambda y:add_numbers(5,y)

In [164]:
from functools import partial
add_five=partial(add_numbers,5)

## 生成器
通过一种叫做迭代器协议(iterator protocal,它是一种使对象可迭代的通用方式)的方式实现。<br>
迭代器是一种特殊对象，它可以在诸如for循环之类的上下文中向python解释器输送对象。

In [165]:
some_dict = {'a':1,'b':2,'c':3}

In [166]:
#使用for循环迭代的时候，python解释器首先会尝试从some_dict创建一个迭代器。

for key in some_dict:
    print key,

a c b


In [167]:
dict_iterator = iter(some_dict)
dict_iterator

<dictionary-keyiterator at 0x7f1ad01cff18>

生成器是构造新的可迭代对象的一种简单方式。一般的函数执行之后之后返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。**要创建一个生成器，只需将函数中的return替换为yeild即可。**

In [171]:
def squares(n=10):
    print 'Generating squares from 1 to %d' % (n**2)
    for i in xrange(1,n+1):
        yield i**2

In [172]:
gen =squares()
gen

<generator object squares at 0x7f1ad01c1af0>

In [173]:
for x in gen:
    print x

Generating squares from 1 to 100
1
4
9
16
25
36
49
64
81
100


In [175]:
def make_change(amount, coins=[1,5,10,25], hand=None):
    hand = [] if hand is None else hand
    if amount == 0:
        yield hand
    for coin in coins:
        #确保我们给出的硬币没有超过总额，且组合是唯一的
        if coin>amount or (len(hand))>0 and hand[-1]<coin:
            continue
        for result in make_change(amount-coin,coins=coins,\
                                  hand=hand+[coin]):
            yield result

In [176]:
for way in make_change(100, coins=[10,25,50]):
    print way

[10, 10, 10, 10, 10, 10, 10, 10, 10, 10]
[25, 25, 10, 10, 10, 10, 10]
[25, 25, 25, 25]
[50, 10, 10, 10, 10, 10]
[50, 25, 25]
[50, 50]


In [177]:
len(list(make_change(100)))

242

### 生成器表达式
生成器表达式是构造生成器的最简单方式。

In [178]:
gen = (x ** 2 for x in xrange(100))

In [179]:
gen

<generator object <genexpr> at 0x7f1ad01c1960>

In [181]:
#跟上面的表达式等效
def _make_gen():
    for x in xrange(100):
        yield x**2
        
gen = _make_gen()

In [182]:
sum(x ** 2 for x in xrange(100))

328350

In [183]:
dict((i,i**2) for i in xrange(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

### itertools模块
标准库itertools模块中有一组用于许多常见数据算法的生成器。

In [188]:
import itertools
first_letter = lambda x:x[0]

In [189]:
names = ['Alan','Adam','Wes','Will','Albert','Steven']

In [190]:
#groupby可以接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。
for letter,names in itertools.groupby(names, first_letter):
    print letter,list(names)

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


### 一些常用的itertools函数
- imap(func, *iterables)——内置函数map的生成器版，将func应用于参数序列的各个打包元组
- ifilter(func,iterable)——内置函数filter的生成器版,当func(x)为True时输出元素x
- combinations(iterable,k)——生成一个由iterable中所有可能的k元元组组成的序列(不考虑顺序)
- permutation(iterable,k)——生成一个由iterable中所有可能的k元元组组成的序列(考虑顺序)
- groupby(iterable[,keyfunc])——为每个唯一键生成一个(key,sub-iterator)