python的数据结构、函数和文件

**3.1 数据结构和序列**

**元组**

In [1]:
# 元组,是一个固定长度，不可改变的python序列对象。
tup = 4,5,6
tup

(4, 5, 6)

In [3]:
nested_tup = (4,5,6),(7,8)
print(nested_tup)
nested_tup

((4, 5, 6), (7, 8))


((4, 5, 6), (7, 8))

In [4]:
# tuple可以将任意序列或迭代器转换成元组
tuple([4,0,2])

(4, 0, 2)

In [6]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

In [7]:
# 可用方括号访问元组中的元素，序列从0开始。
tup[0]

's'

In [8]:
# 元组中存储的对象可能是可变对象。一旦创建了元组，元组中的对象就不能修改了。
tup = tuple(['foo', [1,2], True])
tup[2] = False

TypeError: 'tuple' object does not support item assignment

In [9]:
# 如果元组中的某个对象是可变的，如列表，可在原位进行修改。
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

In [10]:
# 可用加号运算符将元组串联起来
(4, None, 'foo') + (6, 0) + ('bar', 'ball',)

(4, None, 'foo', 6, 0, 'bar', 'ball')

In [11]:
# 元组乘以一个整数，像列表一样，会将几个元组的复制串联起来
('foo', 'bar') * 4

('foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'bar')

In [12]:
a = ('fool', 'seed')
a * 3

('fool', 'seed', 'fool', 'seed', 'fool', 'seed')

In [13]:
a # 对象本身没有被复制，只是引用了它

('fool', 'seed')

**拆分元组**

In [14]:
# 将元组赋值给类似元组的变量
tup = (4,5,6)
a, b, c = tup
c

6

In [16]:
# 含有元组的元组也会被拆分
tup = 4, 5, (6,7)
a, b, c = tup
c

(6, 7)

In [17]:
a, b, (c,d) = tup
d

7

In [18]:
# 替换 tmp = a; a = b; b = tmp。
a, b = 1,2
print('before: a: %r, b: %r' % (a,b))
b, a = a, b
print('after: a: %r, b: %r' % (a,b))

before: a: 1, b: 2
after: a: 2, b: 1


In [19]:
# 变量拆分常用来迭代元组或列表序列。或从函数返回多个值。
seq = [(1,2,3), (4,5,6), (7,8,9)]
for a,b,c in seq:
    print('a={0}, b={1}, c={2}'.format(a,b,c))

a=1, b=2, c=3
a=4, b=5, c=6
a=7, b=8, c=9


In [21]:
# 允许从元组的开头“摘取”几个元素。使用*rest，用在函数签名中以抓取任意长度列表的位置参数。
values = 1,2,3,4,5
a, b, *rest = values # rest的部分是想要舍弃的部分，rest的名字不重要。
print(a,b)
print(rest)
a,b

1 2
[3, 4, 5]


(1, 2)

**tuple方法**

In [22]:
# 元组的大小和内容不能修改。count()可统计某个值的出现频率。
a = (1,2,2,2,3,4,2)
a.count(2)

4

**列表**: 与元组相比，列表的长度可变，内容可被修改。可用方括号定义，或用list()

In [23]:
a_list = [2,3,7,None]
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [24]:
b_list[1] = 'peekaboo'
b_list

['foo', 'peekaboo', 'baz']

列表和元组的语义接近，许多函数可以交叉使用。

list()常用来在数据处理中实体化迭代器或生成器。

In [25]:
gen = range(10)
gen

range(0, 10)

In [26]:
list(gen)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [27]:
# 用append在列表末尾添加元素
b_list.append('dwarf')
b_list

['foo', 'peekaboo', 'baz', 'dwarf']

In [29]:
# insert可在特定的位置插入元素，插入的序号必须在0和列表长度之间。
b_list.insert(1, 'red')
b_list

['foo', 'red', 'red', 'peekaboo', 'baz', 'dwarf']

In [31]:
# insert的逆运算是pop，它移除并返回指定位置的元素。
b_list.pop(2)

'peekaboo'

In [32]:
b_list

['foo', 'red', 'baz', 'dwarf']

In [33]:
# 可用remove去除某个值，remove会寻找第一个值并除去。
b_list.append('foo')
b_list

['foo', 'red', 'baz', 'dwarf', 'foo']

In [34]:
b_list.remove('foo')
b_list

['red', 'baz', 'dwarf', 'foo']

In [35]:
# 用 in 检查列表是否包含某个值
'dwarf' in b_list

True

In [36]:
'dwarf' not in b_list

False

在列表中检查是否存在某个值远比字典和集合速度慢，因为python 是线性搜索列表中的值，但在字典和集合中，在同样的时间内还可以检查其他项（基于哈希表）

In [37]:
# 与元组类似，可用加号将两个列表串联起来
[4, None, 'foo'] + [7,8,(2,3)]

[4, None, 'foo', 7, 8, (2, 3)]

In [38]:
# 若已经定义了一个列表，用extend方法可以追加多个元素，比串联方法快。
x = [4, None, 'foo']
x.extend([7,8,(2,3)])
x

[4, None, 'foo', 7, 8, (2, 3)]

In [40]:
# 用sort()将一个列表原地排序（不创建新的对象）
a = [7,2,5,1,3]
a.sort()
a

[1, 2, 3, 5, 7]

In [42]:
# sort()中的二级排序key。
b = ['six', 'small', 'He', 'foxes', 'saw']
b.sort(key=len)
b

['He', 'six', 'saw', 'small', 'foxes']

**二分搜索和维护已排序的列表**

bisect 模块支持二分查找，和向已排序的列表插入值。bisect.bisect 可找到插入值后仍保证排序的位置，bisect.insort是向这个位置插入值。

注：bisect 模块不会检查列表是否已排好序，进行检查的话会耗费大量计算。因此，对未排序的列表使用bisect不会产生错误，但结果不一定正确。

In [43]:
import bisect
c = [1,2,2,2,3,4,7]
bisect.bisect(c,2)

4

In [44]:
bisect.bisect(c,5)

6

In [45]:
bisect.insort(c,6)
c

[1, 2, 2, 2, 3, 4, 6, 7]

**切片**

用切片选取大多数序列类型的一部分，切片的基本形式是在方括号中使用start:stop。

切片的起始元素是包括的，不包含结束元素。因此，结果中包含的元素个数是stop-start。

start或stop都可以被省略，省略之后，分别默认序列的开头和结尾。

In [47]:
seq = [7,2,3,7,5,6,0,1]
seq[1:5] 

[2, 3, 7, 5]

In [48]:
# 切片可以被序列赋值
seq[3:4] = [6,3]
seq

[7, 2, 3, 6, 3, 5, 6, 0, 1]

In [49]:
seq[:5]

[7, 2, 3, 6, 3]

In [50]:
seq[3:]

[6, 3, 5, 6, 0, 1]

In [51]:
# 负数表明从后向前切片
seq[-4:]

[5, 6, 0, 1]

In [52]:
seq[-6:-2]

[6, 3, 5, 6]

In [53]:
# 在第二个冒号后面使用step，可以隔一个取一个元素
seq[::2]

[7, 3, 3, 6, 1]

In [54]:
# 使用-1，可以将列表或元组颠倒过来。
seq[::-1]

[1, 0, 6, 5, 3, 6, 3, 2, 7]

**序列函数**

**enumerate函数**

迭代一个序列时，跟踪当前项的序号。

当你索引数据时，使用enumerate的一个好方法是计算序列（唯一的）dict映射到位置的值。

In [58]:
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i,v in enumerate(some_list):
    mapping[v] = i

mapping

{'foo': 0, 'bar': 1, 'baz': 2}

**sorted函数**

sorted()可以从任意序列的元素返回一个新的排好序的列表。

In [59]:
sorted([7,1,2,6,0,3,2])

[0, 1, 2, 2, 3, 6, 7]

In [60]:
sorted('horse race')

[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']

**zip函数**

zip()可以将多个列表、元组或其他序列成对组合成一个元组列表。

In [61]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [62]:
# zip可以处理任意多的序列，元素的个数取决于最短的序列。
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

In [63]:
# zip的常见用法是同时迭代多个序列，可能结合enumerate使用。
for i,(a,b) in enumerate(zip(seq1, seq2)):
    print('{0}: {1},{2}'.format(i,a,b))

0: foo,one
1: bar,two
2: baz,three


In [64]:
# 给出一个“被压缩的”序列，zip可被用来解压序列。也可当作把行的列表转换为列的列表。
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'), 
           ('Schilling', 'Curt')]
first_names, last_names = zip(*pitchers)
print(first_names)
print(last_names)
first_names

('Nolan', 'Roger', 'Schilling')
('Ryan', 'Clemens', 'Curt')


('Nolan', 'Roger', 'Schilling')

**reversed函数**

reversed可以从后向前迭代一个序列。

注：reversed是一个生成器，只有实体化（即列表或for循环）之后才能创建反转的序列。

In [65]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

**字典**

常见的名字为哈希映射或关联数组。它是键值对的大小可变集合，键和值都是python对象。创建字典的方法之一是使用尖括号，用冒号分隔键和值。

In [89]:
empty_dict = {}
d1 = {'a': 'some value', 'b':[1,2,3,4]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4]}

In [90]:
# 可像访问列表或元组中的元素一样，访问、插入或设定字典中的元素。
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

In [91]:
d1['b']

[1, 2, 3, 4]

In [92]:
# 可以用检查列表和元组是否包含某个值的方法，检查字典中是否包含某个键
'b' in d1

True

In [93]:
# 可用del关键字或pop方法(返回值的同时删除键)删除值。
d1[5] = 'some value'
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer', 5: 'some value'}

In [94]:
d1['dummy'] = 'another value'
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [95]:
del d1[5]
d1

{'a': 'some value',
 'b': [1, 2, 3, 4],
 7: 'an integer',
 'dummy': 'another value'}

In [96]:
ret = d1.pop('dummy')
ret

'another value'

In [97]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4], 7: 'an integer'}

key 和 values 是字典的键和值的迭代器方法。虽然键值对没有顺序，这两个方法可以用相同的顺序输出键和值。

In [98]:
list(d1.keys())

['a', 'b', 7]

In [99]:
list(d1.values())

['some value', [1, 2, 3, 4], 'an integer']

In [100]:
# 用 update方法可以将一个字典与另一个融合
d1.update({'b': 'foo', 'c': 12})
d1

{'a': 'some value', 'b': 'foo', 7: 'an integer', 'c': 12}

用序列创建字典

In [101]:
# 因为字典本质上是2元元组的集合，dict可以接受2元元组的列表。
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

**默认值**

In [103]:
"""
get默认会返回None，如果不存在键，pop会抛出一个例外。
关于设定值，常见的情况是在字典的值是属于其它集合，如列表。
例如，你可以通过首字母，将一个列表中的单词分类。
"""
words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letter = {}
for word in words:
    letter = word[0]
    if letter not in by_letter:
        by_letter[letter] = [word]
    else:
        by_letter[letter].append(word)

by_letter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [104]:
# setdefault方法可实现上述，for循环可改为
for word in words:
    letter = word[0]
    by_letter.setdefault(letter, []).append(word)

collections 模块有一个很有用的类，defaultdict，可以进一步简化上面的。传递类型或函数以生成每个位置的默认值。

In [105]:
from collections import defaultdict
by_letter = defaultdict(list)
for word in words:
    by_letter[word[0]].append(word)

**有效的键类型**

字典的值可以是任意python对象，而键通常是不可变的标量类型（整数、浮点型、字符串）或元组（元组中的对象必须是不可变的）。这被称为“可哈希性”。可用hash函数检测一个对象是否是可哈希的（可被用作字典的键）

In [106]:
hash('string')

915918004599332179

In [107]:
hash((1,2,(2,3)))

1097636502276347782

In [108]:
hash((1,2,[2,3]))

TypeError: unhashable type: 'list'

要用列表当作键，一种方法是将列表转化为元组，只要内部元素可以被哈希，它就可以被哈希。

In [109]:
d = {}
d[tuple([1,2,3])] = 5
d

{(1, 2, 3): 5}

**集合**

集合是无序的不可重复的元素的集合。可以将其当作字典，但只有键没有值。可用两种方式创建集合：通过set函数或使用尖括号set语句。

In [110]:
set([2,2,2,1,3,3])

{1, 2, 3}

In [111]:
{2,2,2,1,3,3}

{1, 2, 3}

In [112]:
# 集合支持合并、交集、差分和对称差等数学集合运算。

a = {1,2,3,4,5}
b = {3,4,5,6,7,8}

# 合并是取两个集合中不重复的元素。可以用union方法，或者|运算符。
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [113]:
a | b

{1, 2, 3, 4, 5, 6, 7, 8}

In [114]:
# 交集的元素包含在两个集合中。可用intersection 或 & 运算符。
a.intersection(b)

{3, 4, 5}

In [115]:
a & b

{3, 4, 5}

In [117]:
c = a.copy()
c |= b # c.update(b),c = c & b
c

{1, 2, 3, 4, 5, 6, 7, 8}

In [118]:
d = a.copy()
d &= b
d

{3, 4, 5}

In [119]:
# 与字典类似，集合元素通常都是不可变的。要获得类似列表的元素，必须转换为元组。
my_data = [1,2,3,4]
my_set = {tuple(my_data)}
my_set

{(1, 2, 3, 4)}

In [120]:
# 可以检测一个集合是否是另一个集合的子集或父集。
a_set = {1,2,3,4,5}
{1,2,3}.issubset(a_set)

True

In [121]:
a_set.issuperset({1,2,3})

True

In [122]:
# 集合的内容相同时，集合才对等。
{1,2,3} == {3,2,1}

True

**列表、集合和字典推导式**

列表推导式允许用户方便的从一个集合过滤元素，形成列表，在传递参数的过程中可以修改元素。

filter条件可以被忽略，只留下表达式就行。例如，给定一个字符串列表，可以过滤出长度在2及以下的字符串，并将其转换为大写。

In [123]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x)>2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

In [125]:
# 字符串的长度，用集合推导式
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [126]:
# map()可以进一步简化
set(map(len, strings))

{1, 2, 3, 4, 6}

In [127]:
# 创建一个字符串的查找映射表以确定它在列表中的位置。
loc_mapping = {val: index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

**嵌套列表推导式**

In [130]:
all_data = [['John', 'Emily', 'Michael', 'Mary', 'Steven'],
           ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']]

# 用一个列表包含所有的名字，这些名字中包含两个或更多的e。可用for循环来做。
names_of_interest = []
for names in all_data:
    enough_es = [name for name in names if name.count('e') >= 2]
    names_of_interest.extend(enough_es)
    
# 用嵌套列表推导式的方法。for的部分是根据嵌套的顺序，过滤条件还是放在最后。
result = [name for names in all_data for name in names
         if name.count('e') >= 2]
result

['Steven']

In [131]:
# 将一个整数元组的列表扁平化成一个整数列表。
some_tuples = [(1,2,3), (4,5,6), (7,8,9)]
flattened = [x for tup in some_tuples for x in tup]
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [132]:
# 记住：for表达式的顺序是与嵌套for循环的顺序一样。
flattened = []
for tup in some_tuples:
    for x in tup:
        flattened.append(x)

In [133]:
# 可有任意多级别的嵌套，但应考虑代码的可读性问题。
[[x for x in tup] for tup in some_tuples]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

**3.2函数**

代码的组织和复用。提高代码可读性。

使用def 关键字声明，用return关键字返回值。

同时拥有多条return语句也是可以的。如果到达函数末尾时没有遇到任何一条return语句，则返回None。

函数可有一些位置参数（positional）和一些关键字参数（keyword）。关键字参数通常用于指定默认值或可选参数。

函数参数的主要限制在于：关键字参数必须位于位置参数（如果有的话）之后。可以任何顺序指定关键字参数。

In [134]:
def my_function(x,y,z=1.5):
    if z > 1:
        return z * (x+y)
    else:
        return z / (x+y)

In [136]:
print(my_function(5,6,z=0.7))
print(my_function(3.14, 7, 3.5))
print(my_function(10,20))

0.06363636363636363
35.49
45.0


In [137]:
print(my_function(x=5,y=6,z=7))
print(my_function(y=6,x=5,z=7))

77
77


**命名空间、作用域和局部函数**

- 命名空间/namespace：用于描述变量作用域的名称。
- 局部命名空间/local namespace：实在函数被调用时创建的，函数参数会立刻填入该命名空间。在函数执行完毕之后，局部命名空间就会被销毁（会有例外）。任何在函数中赋值的变量默认都是被分配到局部命名空间中的。
- 可在函数中对全局变量进行赋值操作，但须用global关键字声明为全局。//建议不要频繁使用global关键字，因为全局变量一般是用于存放系统的某些状态的。//若用了很多，则须考虑面向对象编程（即使用类）。

In [138]:
def func():
    a = [] # a 会在该函数退出时被销毁。
    for i in range(5):
        a.append(i)
        
a = []
def func_():
    for i in range(5):
        a.append(i)

In [139]:
a = None
def bind_a_variable():
    global a
    a = []
bind_a_variable()
print(a)

[]


**函数可返回多个值**

函数其实只返回了一个对象，也就是一个元组，最后该元组会被拆分到各个结果变量中。

In [143]:
def f():
    a = 5; b = 6; c = 7
    return a, b, c

a,b,c = f()
return_value = f() # return_value返回一个含有3个返回值的三元元组

In [145]:
# 多值返回方式——返回字典
def f():
    a = 5; b = 6; c = 7
    return {'a': a, 'b': b, 'c': c}
f()

{'a': 5, 'b': 6, 'c': 7}

**函数是对象**

In [149]:
# 对一个字符串数组，进行数据清理工作并执行一堆转换
states = ['   Alabama', 'Georgial!', 'Georgia', 'georgia',
         'FlOrIda', 'south carolina##', 'West virginia?']

# 使用内建的字符串方法和正则表达式re模块。
# 去除空白符、删除各种标点符号、正确的大写格式等。

import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result
clean_strings(states)

['Alabama',
 'Georgial',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [150]:
# 将需要在一组给定字符串上执行的所有运算做成一个列表
def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result
clean_strings(states, clean_ops)

['Alabama',
 'Georgial',
 'Georgia',
 'Georgia',
 'Florida',
 'South Carolina',
 'West Virginia']

In [151]:
# 还可将函数用作其他函数的参数，比如内置的map函数，它用于在一组数据上应用一个函数。
for x in map(remove_punctuation, states):
    print(x)

   Alabama
Georgial
Georgia
georgia
FlOrIda
south carolina
West virginia


**匿名（lambda）函数**

- 仅由单条语句组成，该语句的结果就是返回值。
- 通过lambda关键字定义。
- 函数对象本身没有提供名称name属性。
- 在数据分析工作中很方便，很多数据转换函数都以函数作为参数。直接传入lambda函数比编写完整函数声明要清晰。

In [152]:
def short_function(x):
    return x*2

equiv_anon = lambda x: x*2

In [154]:
# [x*2 for x in ints]
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4,0,1,5,6]
apply_to_list(ints, lambda x: x*2)

[8, 0, 2, 10, 12]

In [155]:
# 根据各字符串不同字母的数量对一组字符串进行排序。
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']
strings.sort(key=lambda x: len(set(list(x))))
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

**柯里化（currying）：部分参数应用**

- 指的是通过“部分参数应用（partial argument application）”从现有函数派生出新函数的技术。

In [156]:
def add_numbers(x,y):
    return x + y

# 可通过add_numbers函数派生出一个新的只有一个参数的函数add_five
# add_numbers的第二个参数称为“柯里化”。
# 定义了一个可以调用现有函数的新函数。
add_five = lambda y: add_numbers(5,y)

# 内置的functools模块可用partial函数将此过程简化。
from functools import partial
add_five = partial(add_numbers, 5)

**生成器**

- python能以一种一致的方式对序列进行迭代（比如列表中的对象或文件中的行）。
- 通过迭代器协议（iterator protocol，一种使对象可迭代的通用方式）的方式实现的，一个原生的使对象可迭代的方法。
- 例子：对字典进行迭代，可得到其所有的键。

In [157]:
some_dict = {'a': 1, 'b': 2, 'c': 3}
for key in some_dict: # python解释器会从some_dict创建一个迭代器
    print(key)

a
b
c


In [158]:
dict_iterator = iter(some_dict)
dict_iterator

<dict_keyiterator at 0x28fb8f99818>

- 迭代器是一种特殊对象，可以在诸如for循环之类的上下文中向python解释器输送对象。大部分能接受列表之类的对象的方法也都可以接受任何可迭代对象。比如min、max、sum等内置方法以及list、tuple等类型构造器。
- 生成器（generator）是构造的可迭代对象的一种简单方式。一般的函数执行之后只会返回单个值，而生成器则是以延迟的方式返回一个值序列，即每返回一个值之后暂停，直到下一个值被请求时再继续。要创建一个生成器，只需要将函数中的return替换为yeild即可。

In [162]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))
    for i in range(1, n+1):
        yield i ** 2

# 调用该生成器时，没有任何代码会被立刻执行。
gen = squares()
gen

<generator object squares at 0x0000028FB8F967D8>

In [163]:
# 直到你从该生成器中请求元素时，它才会开始执行其代码。
for x in gen:
    print(x, end=' ')

Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

**生成器表达式**

另一种更简洁的构造生成器的方法是：使用生成器表达式（generator expression）。这是一种类似于列表、字典、集合推导式的生成器。其创建方式：把列表推导式两端的方括号改为圆括号。

In [164]:
gen = (x ** 2 for x in range(100))
gen

<generator object <genexpr> at 0x0000028FB8F96A40>

In [165]:
# 等同上述的生成器
def _make_gen():
    for x in range(100):
        yield x ** 2
gen = _make_gen()

In [166]:
# 生成器表达式也可以取代列表推导式，作为函数参数
sum(x ** 2 for x in range(100))

328350

In [167]:
dict((i, i**2) for i in range(5))

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16}

**itertools模块**

标准库itertools模块中有一组用于许多常见数据算法的生成器。例如，groupby可接受任何序列和一个函数。它根据函数的返回值对序列中的连续元素进行分组。

In [168]:
import itertools

first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names)) # names is a generator

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


**错误和异常处理**

写函数，在try/except中实现代码。

In [170]:
float('1.2345')

1.2345

In [171]:
float('something')

ValueError: could not convert string to float: 'something'

In [173]:
# 当float(x)抛出异常时，才会执行except部分。
def attempt_float(x):
    try:
        return float(x)
    except:
        return x
attempt_float('1.2345')

1.2345

In [174]:
attempt_float('something')

'something'

In [175]:
# float抛出的异常不仅是ValueError
float((1,2))

TypeError: float() argument must be a string or a number, not 'tuple'

In [176]:
# TypeError错误可能是合理的bug。可以写一个异常类型。
def attempt_float(x):
    try:
        return float(x)
    except ValueError:
        return x

In [177]:
attempt_float((1,2))

TypeError: float() argument must be a string or a number, not 'tuple'

In [178]:
# 可用元组包含多个异常
def attempt_float(x):
    try:
        return float(x)
    except (TypeError, ValueError):
        return x

In [179]:
attempt_float((1,2))

(1, 2)

**IPython的异常**

- 如果是在%run一个脚本或一条语句时抛出异常，IPython默认会打印完整的调用栈（traceback），在栈的每个点都会有几行上下文。
- 可以用魔术命令%xmode，从Plain（与Python标准解释器相同）到Verbose（带有函数的参数值）控制文本显示的数量。后面可以看到，发生错误之后，（用%debug或%pdb magics）可以进入stack进行事后调试。

**文件和操作系统**

- 为打开一个文件以便读写，可以使用内置的open函数以及一个相对或绝对的文件路径。

In [185]:
path = 'examples/segismundo.txt'
f = open(path)

默认情况下，文件是以只读模式('r')打开的。然后，可以像处理列表那样来处理这个文件柄f了，比如对行进行迭代。

In [186]:
for line in f:
    pass

从文件中取出的行都带有完整的行结束符（EOL），因此会常看到这样的代码（得到一组没有EOL的行）

In [187]:
lines = [x.rstrip() for x in open(path)]
lines

['Sue帽a el rico en su riqueza,',
 'que m谩s cuidados le ofrece;',
 '',
 'sue帽a el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sue帽a el que a medrar empieza,',
 'sue帽a el que afana y pretende,',
 'sue帽a el que agravia y ofende,',
 '',
 'y en el mundo, en conclusi贸n,',
 'todos sue帽an lo que son,',
 'aunque ninguno lo entiende.',
 '']

In [188]:
#如果使用open创建文件对象，一定要用close关闭它。关闭文件可以返回操作系统资源。
f.close()

#用with语句可以更容易地清理打开的文件。在退出代码块时，自动关闭文件。
with open(path) as f:
    lines = [x.rstrip() for x in f]

- 如果输入f =open(path,'w')，就会有一个新文件被创建在examples/segismundo.txt，并覆盖掉该位置原来的任何数据。另外有一个x文件模式，它可以创建可写的文件，但是如果文件路径存在，就无法创建。
- 对于可读文件，一些常用的方法是read、seek和tell。read会从文件返回字符。字符的内容是由文件的编码决定的（如UTF-8），如果是二进制模式打开的就是原始字节。
- read模式会将文件句柄的位置提前，提前的数量是读取的字节数。tell可以给出当前的位置。

In [189]:
f = open(path)
f.read(10)

'Sue帽a el r'

In [190]:
f2 = open(path,'rb') # Binary mode
f2.read(10)

b'Sue\xc3\xb1a el '

In [191]:
f.tell()

11

In [192]:
f2.tell()

10

In [193]:
# 用sys模块检查默认的编码
import sys
sys.getdefaultencoding()

'utf-8'

In [194]:
# seek 将文件位置更改为文件中的指定字节。
f.seek(3)

3

In [195]:
f.read(1)

'帽'

In [196]:
# 关闭文件
f.close()
f2.close()

向文件写入，可以使用文件的write或writelines方法。

In [197]:
# 创建一个无空行的prof_mod.py
with open('tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)
    
with open('tmp.txt') as f:
    lines = f.readlines()

lines

['Sue帽a el rico en su riqueza,\n',
 'que m谩s cuidados le ofrece;\n',
 'sue帽a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue帽a el que a medrar empieza,\n',
 'sue帽a el que afana y pretende,\n',
 'sue帽a el que agravia y ofende,\n',
 'y en el mundo, en conclusi贸n,\n',
 'todos sue帽an lo que son,\n',
 'aunque ninguno lo entiende.\n']

In [198]:
# 文件的字节和Unicode
with open(path) as f:
    chars = f.read(10)

chars

'Sue帽a el r'

In [199]:
with open(path, 'rb') as f:
    data = f.read(10)
data

b'Sue\xc3\xb1a el '

In [200]:
data.decode('utf8')

'Sueña el '

In [201]:
#取决于文本的编码，你可以将字节解码为str对象，但只有当每个编码的Unicode字符都完全成形时才能这么做
data[:4].decode('utf8')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc3 in position 3: unexpected end of data

In [205]:
# 文本模式结合了open的编码选项，提供了一种更方便的方法将Unicode转换为另一种编码
sink_path = 'sink.txt'
with open(path) as source:
    with open(sink_path, 'xt', encoding='iso-8859-1') as sink:
        sink.write(source.read())

FileExistsError: [Errno 17] File exists: 'sink.txt'

In [206]:
with open(sink_path, encoding='iso-8859-1') as f:
    print(f.read(10))




注意，不要在二进制模式中使用seek。如果文件位置位于定义Unicode字符的字节的中间位置，读取后面会产生错误

In [207]:
f = open(path)
f.read(5)

'Sue帽a'

In [208]:
f.seek(4)

4

In [209]:
f.read(1)

'盿'

In [210]:
f.close()