# Chapter III 数据结构、函数和文件

## 1 数据结构和序列

### 1.1 元组
元组是一个固定长度，不可改变的Python序列对象。创建元组的最简单方式，是用逗号分隔一列值：

In [93]:
tup = 4, 5, 6
tup

(4, 5, 6)

当用复杂的表达式定义元组，最好将值放在**圆括号**内，如下：

In [94]:
nested_tup = (4, 5, 6), (7, 8)
nested_tup

((4, 5, 6), (7, 8))

用`tuple`可以将任意序列or迭代器转换为元组：

In [95]:
tuple([4, 0, 2])

(4, 0, 2)

In [96]:
tup = tuple('string')
tup

('s', 't', 'r', 'i', 'n', 'g')

同样的，可以用方括号访问元组中的元素，序列从0开始

In [97]:
tup[0]

's'

**元组中存储的对象可能是可变对象，但一旦创建了元组，元组中的对象就不能修改了**
但是，如果元组中的某个对象是可变的，比如列表，可以在原位进行修改：

In [98]:
tup = tuple(['foo', [1, 2], True])
tup[1].append(3)
tup

('foo', [1, 2, 3], True)

可以用加号运算符将元组串联起来：

In [99]:
 (4, None, 'foo') + (6, 0) + ('bar',)

(4, None, 'foo', 6, 0, 'bar')

## 1.2 序列函数
Python有一些有用的序列函数

### 1.2.1 enumerate 函数
索引数据时，使用`enumerate`的一个好方法计算序列（唯一的）dict映射到位置的值，Python内建了一个`enumerate`函数，可以返回`(i, value)`元组序列

In [100]:
some_list = ['foo', 'bar', 'baz']
mapping = {}
for i, v in enumerate(some_list):
    mapping[v] = i
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

### 1.2.2 sorted 函数
可以接受和`sort`相同的参数，可以从任意序列的元素返回一个新的排好序的列表：

In [101]:
print(sorted([7, 1, 2, 6, 0, 3, 2]))
print(sorted('horse race'))

[0, 1, 2, 2, 3, 6, 7]
[' ', 'a', 'c', 'e', 'e', 'h', 'o', 'r', 'r', 's']


### 1.2.3 zip 函数
可以将多个列表、元组或其他序列成对组合成一个元组列表：

In [102]:
seq1 = ['foo', 'bar', 'baz']
seq2 = ['one', 'two', 'three']
zipped = zip(seq1, seq2)
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

可以处理任意多的序列，元素的个数取决于**最短的序列**

In [103]:
seq3 = [False, True]
list(zip(seq1, seq2, seq3))

[('foo', 'one', False), ('bar', 'two', True)]

给出一个”被压缩“的序列，`zip`可以被用来解压序列，也可以当作把行的列表转换为列的列表：

In [104]:
pitchers = [('Nolan', 'Ryan'), ('Roger', 'Clemens'),('Schilling', 'Curt')]
# *的作用： 解包操作，将一个可迭代对象解包为多个单独的值
first_names, last_names = zip(*pitchers)
first_names

('Nolan', 'Roger', 'Schilling')

### 1.2.4 reversed 函数
`reversed` 可以从后向前迭代一个序列
它是一个生成器，只有实体化（即列表或for循环）之后才能创建翻转的序列

In [105]:
list(reversed(range(10)))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### 1.2.5 用序列创建字典
字典本质上是2元元组的集合，dict可以接受2元元组的列表：

In [106]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 1.2.6 有效的键类型
字典的值可以是任意Python对象，而键通常是不可变的**标量类型**（整数、浮点型、字符串）or元组（元组中的对象必须是不可变的）。
称之为**可哈希性**，可以用`hash`函数检测一个对象是否可哈希：

In [107]:
print(hash('string'))
print(hash((1, 2, (2, 3))))

4107621223531632891
-9209053662355515447


## 2 列表、集合和字典推导式
允许用户方便地从一个集合过滤元素，形成列表，在传递参数地过程中还可以修改元素，格式如下：
```
[expr for val in collection if confdition]
```
等同于如下for循环：
```
result = []
for val in collection:
    if condition:
        result.append(expr)
```

In [108]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

用相似的方法，还可以推导集合和字典，如下：
```
dict_comp = {key-expr : value-expr for value in collection if condition}
```
```
set_comp = {expr for value in collection if condition}
```

In [109]:
unique_lengths = {len(x) for x in strings}
unique_lengths

{1, 2, 3, 4, 6}

In [110]:
loc_mapping = {val : index for index, val in enumerate(strings)}
loc_mapping

{'a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5}

## 3 函数
函数使用`def`关键字生命，用`return`关键字返回值
如果到达函数末尾时没有遇到任何一条return语句，则返回`None`
函数可以有一些**位置参数**（positional）和一些关键字参数（keyword）。关键字参数通常用于**指定默认值或可选参数**。
下面函数中，x和y是位置参数，而z则是关键字参数。

In [111]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)
    
# 可以通过下列方式进行调用
print(my_function(5, 6, z=0.7))
print(my_function(3.14, 7, 3.5))
print(my_function(10, 20))

0.06363636363636363
35.49
45.0


函数参数的主要限制在于：**关键字参数必须位于位置参数之后**。可以任何顺序指定关键字参数：

In [112]:
print(my_function(x=5, y=6, z=7))
print(my_function(y=6, x=5, z=7))

77
77


### 3.1 返回多个值
函数可以返回多个值

In [113]:
def f():
    a = 5
    b = 6
    c = 7
    return a, b, c
a, b, c = f()
print(a, b, c)

5 6 7


### 3.2 函数也是对象
Python的函数都是对象
假设有如下字符串，希望对其进行数据清理工作并执行一堆转换，我们可以将需要在一组给定字符串上执行的所有运算做成一个列表：

In [114]:
import re

states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda', 'south   carolina##', 'West virginia?']

def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

# 清理函数列表
clean_ops = [str.strip, remove_punctuation, str.title]

# 循环执行
def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

clean_strings(states, clean_ops)

['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

还可以将函数用作其他函数的参数，比如`map`函数，用于在一组数据上应用一个函数:

In [115]:
for x in map(remove_punctuation, states):
    print(x)

   Alabama 
Georgia
Georgia
georgia
FlOrIda
south   carolina
West virginia


### 3.3 匿名（Lambda）函数
由单条语句组成，语句的结果就是返回值，通过`lambda`关键字定义

In [116]:
def short_function(x):
    return x * 2
# 可以改写为
equiv_anon = lambda x: x * 2

### 3.4 柯里化：部分参数应用
柯里化（currying），指得是通过*部分参数应用*（partial argument application）从现有函数派生出新函数的技术
其实就只是定义了一个可以调用现有函数的新函数而已。

In [117]:
def add_numbers(x, y):
    return x + y
# 派生出函数，用于对其参数加5：
add_five = lambda y: add_numbers(5, y)

add_five(4)

9

内置的`functools`模块可以用`partial`函数将此过程简化:

In [118]:
from functools import partial
add_five = partial(add_numbers, 5)
add_five(6)

11

### 3.5 生成器
generator是构造新的可迭代对象的一种简单凡是，生成器以延迟的方式返回一个值序列，即返回每一个值之后暂停，直到下一个值被请求时再继续。
创建一个生成器，只需将函数中的return替换为yield即可：

In [119]:
def squres(n=10):
    print('Generating squares from 1 to {0}'.format(n ** 2))
    for i in range(1, n+1):
        yield i ** 2

# 调用生成器时，没有任何代码会被立即执行
# 直到从该生成器中请求元素时，它才会开始执行其代码
gen = squres()
print(gen)
for x in gen:
    print(x, end=' ')

<generator object squres at 0x000001BD1FBDAA70>
Generating squares from 1 to 100
1 4 9 16 25 36 49 64 81 100 

### 3.6 itertools模块
标准库`itertools`模块中由一组用于许多常见数据算法的生成器，例如`goupby`可以接受任何序列和一个函数，根据函数的返回值对序列中的连续元素进行分组：

In [120]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


## 4 文件和操作系统
为了打开一个文件以便读写，可以使用内置的`open`函数以及一个相对或绝对的文件路径：

In [121]:
path = '../files/lorem.txt'
f = open(path)
# 默认情况下，文件是以只读模式('r')打开的
# 可以像处理列表一样来处理文件句柄f，例如对其进行迭代：
for line in f:
    pass
# 从文件中取出的行都带有完整的行结束符（EOL）
lines = [x.rstrip() for x in open(path)]
print(lines)
# 如果使用open创建文件对象，一定要使用close关闭，关闭文件可以返回操作系统资源：
f.close()

['Lorem ipsum dolor sit amet, Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.', 'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fug

使用with语句可以更容易地清理打开的文件，这样可以再推出代码块时，自动关闭文件：

In [122]:
with open(path) as f:
    lines = [x.rstrip() for x in f]

如果输入f =open(path,'w')，就会有一个新文件被创建，下表列出了所有的读写模式
| 模式 | 说明                                   |
| ---- | -------------------------------------- |
| r    | 只读                                   |
| w    | 只写，创建新文件                       |
| a    | 附加到现有文件                         |
| r+   | 读写模式                               |
| b    | 附加说明某模式用于二进制文件，如 ‘rb’  |
| U    | 通用换行模式，单独使用or附加到其他模式 |

In [123]:
f = open(path)
print(f.read(11))
f2 = open(path, 'rb')
print(f2.read(11))

# read模式会将文件句柄的位置提前，提前的数量时读取的字节书。
# tell可以给出当前的位置
print('position of f: ', f.tell())
print('position of f2: ', f2.tell())
f.close()
f2.close()

Lorem ipsum
b'Lorem ipsum'
position of f:  11
position of f2:  11


向文件写入，可以使用文件的write或writelines方法：

In [124]:
with open('../files/tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)
with open('../files/tmp.txt') as f:
    lines = f.readlines()
lines

['Lorem ipsum dolor sit amet, Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. \n',
 'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu

一些常用的文件方法
| 方法              | 说明                                                   |
| ----------------- | ------------------------------------------------------ |
| read([size])      | 以字符串形式返回文件数据，可选参数size说明读取的字节数 |
| readlines([size]) | 将文件返回为行列表，可选参数size                       |
| write(str)        | 将字符串写入文件                                       |
| close()           | 关闭句柄                                               |
| flush             | 清空内部I/O缓存区，并将数据强行写回磁盘                |
| seek(pos)         | 移动到指定的文件位置（整数）                           |
| tell()            | 以整数形式返回当前文件位置                             |
| closed            | 如果文件已关闭，则为True                               |