## 3.1 数据结构与序列

**元组**

元组是一种固定长度，不可变的Python对象序列。

In [42]:
tup = 1, 2, 3

In [43]:
type(tup)

tuple

In [44]:
nested_tup = (4, 5, 6)

In [45]:
type(tup)

tuple

In [46]:
nested_tup_2 = (1, 2, 3), (4, 5, 6)

In [47]:
nested_tup_2

((1, 2, 3), (4, 5, 6))

元组是不可变的：

In [48]:
nested_tup[0]

4

In [49]:
nested_tup[0] = 13  # 这会报错

TypeError: 'tuple' object does not support item assignment

In [50]:
# 我们可以直接乘一个数字
tup_mul = (1, 2, 3) * 4

In [51]:
tup_mul

(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3)

我们可以对元组进行拆包：

In [52]:
tup = (1, 2, 3)

a, b, c = tup

In [53]:
a

1

In [54]:
b

2

In [55]:
c

3

In [56]:
# 计算元组的长度
tup = (1, 2, 3, 4, 5, 6, 7)
len(tup)

7

In [57]:
# 计算某一个数字出现的频率
tup = (1, 2, 3, 4, 5, 2, 2, 2)

tup.count(2)

4

**列表**

列表与元组不同，列表的长度可变的，包含的内容也是可变的。

In [58]:
list_1 = [1, 2, 3, 4, None]

In [59]:
list_1[1]

2

In [60]:
list_1[1] = 100

In [61]:
list_1

[1, 100, 3, 4, None]

In [62]:
# 使用append来在列表的尾部添加元素
list_1.append("Append")

In [63]:
list_1

[1, 100, 3, 4, None, 'Append']

In [64]:
# 使用insert方法来将元素插入到指定的列表位置

In [65]:
list_1.insert(1, "Yellow")

In [66]:
list_1

[1, 'Yellow', 100, 3, 4, None, 'Append']

In [67]:
# pop可以弹出指定的元素，如果没有给出指定，则默认为列表的最后一个元素

In [68]:
pop_ele = list_1.pop()

In [69]:
pop_ele

'Append'

In [70]:
list_1

[1, 'Yellow', 100, 3, 4, None]

In [71]:
# 给pop一个指定的位置
pop_ele_2 = list_1.pop(1)

In [72]:
pop_ele_2

'Yellow'

In [73]:
list_1

[1, 100, 3, 4, None]

In [74]:
# remove 则是移除第一个复合要求的元素
list_2 = [1, 1, 2, 3, 4, 4, 5, 6, 1, 1]
list_2.remove(4)

In [75]:
list_2

[1, 1, 2, 3, 4, 5, 6, 1, 1]

In [76]:
# in 和 not in 可以用来判断一个元素是否在列表中

1 in list_2

True

In [77]:
1 not in list_2

False

In [79]:
# 我们可以使用 + 来将连个列表连接在一起
list_left = [1, 2, 3]
list_right = [4, 5, 6]

list_left + list_right

[1, 2, 3, 4, 5, 6]

In [80]:
# 但是 + 的效率不如 extend
%timeit list_left + list_right

38.7 ns ± 0.818 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


**sort**

Python语言提供了内置的sort函数来对列表进行排序：

In [85]:
list_unsort = [1, 6, 4, 6, 8, 0, 2, 3, 4, 1, 5, 1]

In [86]:
list_unsort.sort()

In [87]:
list_unsort

[0, 1, 1, 1, 2, 3, 4, 4, 5, 6, 6, 8]

In [88]:
# 切片

list_unsort[0:6:2]

[0, 1, 2]

In [89]:
list_unsort[::-1]

[8, 6, 6, 5, 4, 4, 3, 2, 1, 1, 1, 0]

**enumerate**

我们经常需要在遍历一个序列的同时追踪当前元素的索引：

In [91]:
some_list = ['foo', 'bar', 'baz']

In [92]:
mapping = {}

In [93]:
for i,v in enumerate(some_list):
    mapping[v] = i

In [94]:
mapping

{'foo': 0, 'bar': 1, 'baz': 2}

**sorted**

sorted函数会返回一个已经排序的列表：

In [95]:
list_1 = [1, 4, 8, 2, 3, 7, 0, 9]

In [96]:
list_sorted = sorted(list_1)

In [97]:
list_1

[1, 4, 8, 2, 3, 7, 0, 9]

In [98]:
list_sorted

[0, 1, 2, 3, 4, 7, 8, 9]

**字典**

dict更为常用的名字是哈希表或者关联数组。

In [1]:
empty_dict = {}  # 创建一个空列表

In [2]:
dict_1 = {'a':'a value', 'b':'b value', 'c':[1, 2, 3, 4, 5]}

In [3]:
dict_1

{'a': 'a value', 'b': 'b value', 'c': [1, 2, 3, 4, 5]}

In [5]:
dict_1["a"]

'a value'

In [6]:
dict_1["c"]

[1, 2, 3, 4, 5]

In [8]:
"b" in dict_1

True

In [9]:
# pop可以用来进行弹出
dict_pop = dict_1.pop('c')

In [10]:
dict_pop

[1, 2, 3, 4, 5]

In [12]:
# keys和values 可以分为提供字典键和值的迭代器
dict_2 = {'a':'a value', 'b':'b value', 'c':'c value', 'd':'d value'}

list(dict_2.keys())

['a', 'b', 'c', 'd']

In [13]:
list(dict_2.values())

['a value', 'b value', 'c value', 'd value']

In [14]:
# update 可以将两个字典进行合并
dict_3 = {'e':'e values', 'f':'f values'}

dict_2.update(dict_3)

In [15]:
dict_2

{'a': 'a value',
 'b': 'b value',
 'c': 'c value',
 'd': 'd value',
 'e': 'e values',
 'f': 'f values'}

In [17]:
# 从序列生成字典
mapping = {}
key_list = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
value_list = ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"]

for key, value in zip(key_list, value_list):
    mapping[key] = value

In [18]:
mapping

{0: 'a',
 1: 'b',
 2: 'c',
 3: 'd',
 4: 'e',
 5: 'f',
 6: 'g',
 7: 'h',
 8: 'i',
 9: 'j'}

**集合**

集合是一种无序且元素唯一的容器。

In [19]:
set([1, 1, 2, 3, 4, 5, 6, 1, 2])

{1, 2, 3, 4, 5, 6}

In [20]:
a = {1, 2, 3, 4, 5, 6, 7}
b = {4, 5, 6, 7, 8, 9, 10}

In [25]:
a - b  # 差集

{1, 2, 3}

In [27]:
a & b  # 交集

{4, 5, 6, 7}

Python集合操作：

![image.png](attachment:22db2ba8-d0b8-4068-8ec7-dc8f3db75332.png)

## 3.2 函数

**创建函数**

函数是Python中最主要也是最重要的代码组织和复用手段。作为最重要的原则，如果你要重复使用相同或非常类似的代码，就需要写一个函数。通过给函数起一个名字，还可以提高代码的可读性。

函数使用def关键字声明，用return关键字返回值：

In [28]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x + y)
    else:
        return z / (x + y)

同时拥有多条return语句也是可以的。如果到达函数末尾时没有遇到任何一条return语句，则返回None。

函数可以有一些位置参数（positional）和一些关键字参数（keyword）。关键字参数通常用于指定默认值或可选参数。在上面的函数中，x和y是位置参数，而z则是关键字参数。也就是说，该函数可以下面这两种方式进行调用：

In [29]:
my_function(5, 6, z=0.7)
my_function(3.14, 7, 3.5)
my_function(10, 20)

45.0

函数参数的主要限制在于：关键字参数必须位于位置参数（如果有的话）之后。你可以任何顺序指定关键字参数。也就是说，你不用死记硬背函数参数的顺序，只要记得它们的名字就可以了。

In [30]:
my_function(x=5, y=6, z=7)
my_function(y=6, x=5, z=7)

77

**命名空间、作用域，和局部函数**

函数可以访问两种不同作用域中的变量：全局（global）和局部（local）。Python有一种更科学的用于描述变量作用域的名称，即命名空间（namespace）。任何在函数中赋值的变量默认都是被分配到局部命名空间（local namespace）中的。局部命名空间是在函数被调用时创建的，函数参数会立即填入该命名空间。在函数执行完毕之后，局部命名空间就会被销毁（会有一些例外的情况，具体请参见后面介绍闭包的那一节）。

In [31]:
def func():
    a = []
    for i in range(5):
        a.append(i)

调用func()之后，首先会创建出空列表a，然后添加5个元素，最后a会在该函数退出的时候被销毁。假如我们像下面这样定义a：

In [32]:
a = []
def func():
    for i in range(5):
        a.append(i)

虽然可以在函数中对全局变量进行赋值操作，但是那些变量必须用global关键字声明成全局的才行：

In [33]:
In [168]: a = None

In [169]: def bind_a_variable():
   .....:     global a
   .....:     a = []
   .....: bind_a_variable()
   .....:

In [170]: print(a)

[]


**匿名（lambda）函数**

Python支持一种被称为匿名的、或lambda函数。它仅由单条语句组成，该语句的结果就是返回值。它是通过lambda关键字定义的，这个关键字没有别的含义，仅仅是说“我们正在声明的是一个匿名函数”。

In [34]:
def short_function(x):
    return x * 2

equiv_anon = lambda x: x * 2

本书其余部分一般将其称为lambda函数。它们在数据分析工作中非常方便，因为你会发现很多数据转换函数都以函数作为参数的。

直接传入lambda函数比编写完整函数声明要少输入很多字（也更清晰），甚至比将lambda函数赋值给一个变量还要少输入很多字。

In [35]:
def apply_to_list(some_list, f):
    return [f(x) for x in some_list]

ints = [4, 0, 1, 5, 6]
apply_to_list(ints, lambda x: x * 2)

[8, 0, 2, 10, 12]

虽然你可以直接编写 [x *2 for x in ints] ，但是这里我们可以非常轻松地传入一个自定义运算给apply_to_list函数。

再来看另外一个例子。假设有一组字符串，你想要根据各字符串不同字母的数量对其进行排序：

In [36]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

这里，我们可以传入一个lambda函数到列表的sort方法：

In [37]:
strings.sort(key=lambda x: len(set(list(x))))

strings

['aaaa', 'foo', 'abab', 'bar', 'card']

## 3.3 文件和操作系统

打开文件进行读取或者写入，需要使用内建函数open和绝对路径或者相对路径。

In [41]:
path = "examples/segismundo.txt"

f = open(path)  # 默认情况之下文件是以只读模式来进行打开的

In [42]:
lines = [x.rstrip() for x in open(path)]

In [43]:
lines

['Sue帽a el rico en su riqueza,',
 'que m谩s cuidados le ofrece;',
 '',
 'sue帽a el pobre que padece',
 'su miseria y su pobreza;',
 '',
 'sue帽a el que a medrar empieza,',
 'sue帽a el que afana y pretende,',
 'sue帽a el que agravia y ofende,',
 '',
 'y en el mundo, en conclusi贸n,',
 'todos sue帽an lo que son,',
 'aunque ninguno lo entiende.']

如果是使用open创建文件对象，一定要用close关闭它。

关闭文件可以返回操作系统资源：

In [44]:
f.close()

或者我们可以使用with语句来更加容易的清理打开的文件：

In [48]:
with open(path) as f:
    lines = [x.rstrip() for x in f]
    print(lines)

['Sue帽a el rico en su riqueza,', 'que m谩s cuidados le ofrece;', '', 'sue帽a el pobre que padece', 'su miseria y su pobreza;', '', 'sue帽a el que a medrar empieza,', 'sue帽a el que afana y pretende,', 'sue帽a el que agravia y ofende,', '', 'y en el mundo, en conclusi贸n,', 'todos sue帽an lo que son,', 'aunque ninguno lo entiende.']


在退出代码块的时候，可以自动关闭文件。

如果输入f =open(path,'w')，就会有一个新文件被创建在examples/segismundo.txt，并覆盖掉该位置原来的任何数据。另外有一个x文件模式，它可以创建可写的文件，但是如果文件路径存在，就无法创建。表3-3列出了所有的读/写模式。

打开模式的常用列表如下所示：

![image.png](attachment:06173813-0e94-4e93-a429-88b3339c8e89.png)

In [51]:
with open('examples/tmp.txt', 'w') as handle:
    handle.writelines(x for x in open(path) if len(x) > 1)

In [53]:
with open('examples/tmp.txt') as f:
    lines = f.readlines()

In [54]:
lines

['Sue帽a el rico en su riqueza,\n',
 'que m谩s cuidados le ofrece;\n',
 'sue帽a el pobre que padece\n',
 'su miseria y su pobreza;\n',
 'sue帽a el que a medrar empieza,\n',
 'sue帽a el que afana y pretende,\n',
 'sue帽a el que agravia y ofende,\n',
 'y en el mundo, en conclusi贸n,\n',
 'todos sue帽an lo que son,\n',
 'aunque ninguno lo entiende.']

这是一些最常用的文件方法：

![image.png](attachment:4fdf50f2-c846-4f2d-95ce-dd7f1d78be2b.png)