## 数据结构和序列

### 元组

元组
- 一种**长度固定，不可变**的Python对象**序列**
- 创建元组
    -  简单的方式：**逗号**分隔序列值
    -  正式的方式： 用**圆括号**将逗号分隔的序列值括起来
    -  构造函数 `touple`将任意序列或迭代器转换为元组
    - 当只有一个元素的时候，必须添加一个逗号，否则被处理成了字符串或数值
- 元组属于序列，支持切片和索引操作
- 元组是不可变的，元组一旦创建，各个位置上的元素无法修改
    - 但是，元组中存储的对象可能是可变的，如列表。可以进行**内部修改**
- 元组的运算
    - `+` 连接两个元组，创建更长的元组
    - `*` 元组乘以整数，生成含有多份拷贝的元组
    - 注意：对象本身没有被复制，只是**指向他们的引用进行了复制**

In [2]:
tup = 4, 5,6 
tup, type(tup)

((4, 5, 6), tuple)

In [3]:
nested_tup = [1,2,3], '中国'
nested_tup, type(nested_tup)

(([1, 2, 3], '中国'), tuple)

In [4]:
tuple("中国")

('中', '国')

In [5]:
tuple("中国")[0]

'中'

![对象本身没有被复制，只是指向他们的引用进行了复制](https://gitee.com/zhao_long/image-store/raw/master/img/20201110120947.png)

In [6]:
tup = tuple(['foo',[1,2],True])
tup

('foo', [1, 2], True)

In [7]:
tup[1] = [1,2,3,4]

TypeError: 'tuple' object does not support item assignment

In [8]:
id(tup[1])

3017973461184

In [9]:
tup[1].append(100)
id(tup[1])

3017973461184

In [10]:
tup

('foo', [1, 2, 100], True)

元组拆包
- 将元组型的表达式赋值给变量时，Python会**对等边的表达式进行拆包**
- **等号左右两边的变量或元素必须对应**
- 嵌套的元素也可以拆包，但是对应的变量也必须是嵌套形式
- 常用场景
    1. 交还变量名
    2. 遍历元组或列表组成的序列
-  使用`*rest`获取从起始位置的一些元素，剩余的元素放到rest中，rest一般使用`_`，忽略不用

In [12]:
tup = 4, 5, 6
a,b,c = tup
a,b,c

(4, 5, 6)

In [14]:
tup = 4, 5, (6, 7)
a,b,(c,d) = tup 
d

7

In [15]:
a , b = 100, -1

In [16]:
b, a = a, b 
b,a

(100, -1)

In [18]:
tup = (1,2,3,4,5,6,7)
a, *rest = tup
a

1

In [19]:
rest

[2, 3, 4, 5, 6, 7]

In [20]:
for a,b,c in [(1,2,3),(4,5,6), (7,8,9)]: print(a)

1
4
7


元组的方法
- 元组是不可变的对象，实例方法很少，常用的就是`count`,计量某个数值在元组中出现的次数

In [21]:
a = (1,2,2,2,3,3,3,3,3,4,4,4)
a.count(2)

3

###  列表

- 长度可变，内容也可以被修改
- 使用`[]`或构造函数`list`来定义
- 和元组非常相似
- `list`函数**在数据处理中常用于将迭代器或者生成器转化为列表**

In [23]:
a_list = [1,2,3,None]
a_list

[1, 2, 3, None]

In [24]:
tup = ('foo', 'bar', 'baz')
b_list = list(tup)
b_list

['foo', 'bar', 'baz']

In [25]:
b_list[1] = 'foos'
b_list

['foo', 'foos', 'baz']

In [26]:
gen = range(100)
gen

range(0, 100)

In [28]:
list(gen)[:2]

[0, 1]

增加和删除元素
- append: 将元素添加到列表末尾
- insert：将元组插入到指定的列表位置
- pop：将特定位置的元素移除并返回
- remove： 将定位第一个符合条件的值并移除它
- in：检查一个值是否在列表中

In [29]:
b_list.append('drwa')
b_list

['foo', 'foos', 'baz', 'drwa']

In [34]:
b_list.insert(1, 'red')
b_list

['foo', 'red', 'baz', 'drwa']

In [31]:
b_list.pop(2)

'foos'

In [35]:
b_list.remove('red')
b_list

['foo', 'baz', 'drwa']

In [36]:
b_list.insert(1, 'red')
b_list.insert(1, 'red')
b_list.insert(1, 'red')
b_list.remove('red')
b_list

['foo', 'red', 'red', 'baz', 'drwa']

In [37]:
'red' in b_list

True

连接和联合列表
- `+`: 连接列表: **创建新的List**
- 如果已经存在一个列表，可以使用`extend`方法向该列表**添加多个元素**

In [38]:
x = [4, None, 'foo']
x.extend([7,8,[2,3]])
x

[4, None, 'foo', 7, 8, [2, 3]]

In [39]:
[4, None, 'foo'] + [7,8,[2,3]]

[4, None, 'foo', 7, 8, [2, 3]]

In [None]:
everything = []
for chunk in list_of_lists:
    everything.extendx(chunk)

In [None]:
# ❌ 耗费资源
everything = []
for chunk in list_of_lists:
    everything = everything + chunk

sort函数
- 对列表进行**就地排序**，而不产生新的列表
- 参数`key`:二级排序---- 一个**用于生成排序值的函数**

In [40]:
a = [5,9,0,-1,2]
a.sort()

In [41]:
a

[-1, 0, 2, 5, 9]

In [42]:
b = ['small', 'big', 'green', 'and', 'or']
b.sort()
b

['and', 'big', 'green', 'or', 'small']

In [43]:
b.sort(key=len)
b

['or', 'and', 'big', 'green', 'small']

二元搜索和已排序列表的维护
- 内建的`bisect`模块实现了**二元搜索和已排序列表的插值**
- `bisect.bisect`找到应当插入的位置
- `bisect.insort`:将元素插入到正确的位置

In [44]:
c = [1,2,2,2,2,3,3,3,3,4,4,4,4,9]

In [45]:
import bisect
bisect.bisect(c, 2)

5

In [47]:
bisect.bisect(c, 1)

1

In [49]:
bisect.insort(c, 1)
c

[1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 9]

切片
- 通过切片可以对大多数序列类型**选取其子集**， 基本形式 `start:stop`
- **可以将序列的切片赋值给其他变量，是通过切片创建了新的list对象，赋值给变量**
- 切片可以将序列赋值给变量
- 通过切片可以直接操作序列
- 给列表的切片赋值时，必须是list

In [50]:
d = [1,2,3,4,5]
d

[1, 2, 3, 4, 5]

In [51]:
e = d[1:4]
e

[2, 3, 4]

In [52]:
e[1] = 199
e, d

([2, 199, 4], [1, 2, 3, 4, 5])

![可以将序列的切片赋值给其他变量，是通过切片创建了新的list对象，赋值给变量](https://gitee.com/zhao_long/image-store/raw/master/img/20201110134022.gif)

In [58]:
d[3:4]

[4]

In [59]:
d[3:4] = [100,200,300]
d

[1, 2, 3, 100, 200, 300, 5]

![使用切片的赋值修改序列](https://gitee.com/zhao_long/image-store/raw/master/img/20201110134430.gif)

In [61]:
d[2:]

[3, 100, 200, 300, 5]

In [62]:
d[-2:]

[300, 5]

In [63]:
d[-2:-1]

[300]

In [64]:
d[::-1]

[5, 300, 200, 100, 3, 2, 1]

## 内建序列函数

### enumerate
遍历一个序列的**同时追踪当前元素的索引**很常见，Python内置了`enumerate`函数，**返回`(i, value)`元组的序列**
- i 元素的索引
- value 元素
- 当需要**对数据建立索引时**，有效的模式选择：使用`enumerate`构造一个**字典**，*将序列值(假设是唯一的)映射到索引位置上*

In [None]:
# 常规的方式
i = 0
for value in collectios:
    # TODO
    i += 1

In [None]:
#enumerate函数
for i, value in enumerate(collections):
    do something with value 

In [68]:
some_list = ['张三', '李四', '王五']
list(enumerate(some_list) )   

[(0, '张三'), (1, '李四'), (2, '王五')]

In [66]:
mapping = {}
for i, value in enumerate(some_list):
    mapping[value] = i

In [67]:
mapping

{'张三': 0, '李四': 1, '王五': 2}

![enumerate探索](https://gitee.com/zhao_long/image-store/raw/master/img/20201110160018.gif)

### sort
- 和列表的sort方法类似
- 返回一个根据任意序列中的元素**新建**的已排序列表

In [69]:
some_list = ['张三', '李四', '王五']

In [71]:
sorted(some_list, reverse=True)

['王五', '李四', '张三']

In [72]:
some_list

['张三', '李四', '王五']

### zip

- 将列表，元组或其他序列的**元素进行匹配/配对**，新建一个**包含已配对元素组成的元组的列表**
- 可以处理任意长度的序列，生成长度**默认由最短的序列决定**
- 常用场景： 同时遍历多个序列，有时候会和`enumerate`同时使用
- 构建坐标
- 🐖 但是给定一个已配对的列表时，zip函数有一种机智的方法去**拆分**序列, `zip(*list)` 也叫做`unzip` 
    - 另一种理解方式：**将行的列表转换为列的列表**
    - 也可以看做是**zip配对的反向操作**

In [73]:
seq1 = ['foo', 'bar', 'baz']
seq2= ['one', 'two', 'three']

In [75]:
zipped = zip(seq1, seq2)
zipped

<zip at 0x2bead27c740>

In [76]:
list(zipped)

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [77]:
seq3 = [True, False]
list(zip(seq1, seq2, seq3))

[('foo', 'one', True), ('bar', 'two', False)]

In [82]:
for i ,(a, b) in enumerate(zip(seq1, seq2)):
    print('{0}:{1},{2}'.format(i, a, b))

0:foo,one
1:bar,two
2:baz,three


In [85]:
zipped = zip(seq1, seq2)

In [86]:
zipped_list = list(zipped)
zipped_list

[('foo', 'one'), ('bar', 'two'), ('baz', 'three')]

In [88]:
a, b = zip(*zipped_list)

In [89]:
a

('foo', 'bar', 'baz')

In [90]:
b

('one', 'two', 'three')

### reversed

`reversed`函数将序列的元素**倒序排序**
- `reversed`是一个**生成器**，没有实例化的话，不会产生倒叙的序列

In [92]:
some_list = list(range(10))
some_list

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [94]:
reversed(some_list)

<list_reverseiterator at 0x2beade88130>

In [96]:
list(reversed(some_list))

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

## 字典

- dict 是Python内建数据结构中最重要的
- 更为常用的名字是 **哈希表/关联数组**
- **拥有灵活尺寸的键值对集合**
- 键值对并没有特定的顺序，即便有，也是添加的顺序

In [97]:
empty_dict = {}
d1 = {'a': 'some value', 'b': [1,2,3,4,5]}
d1

{'a': 'some value', 'b': [1, 2, 3, 4, 5]}

In [98]:
# 添加键值对
d1[7] = 'an integer'
d1

{'a': 'some value', 'b': [1, 2, 3, 4, 5], 7: 'an integer'}

创建
- `{}`创建字典，键值对之间用逗号分隔
- 创建空字典直接使用`{}`,之后使用[key]方法添加值
- 构造函数`dict`
    -  参数可以是**包含两元组的列表**
    -  或者逗号分隔的`key=value`

操作
- `in`： 检查字典中是否含有键
- `del`： 直接删除对应的key-value
- `pop`: 删除的时候返回被删的值,参数 键
- `dict[key]=value`: 访问，插入，设值字典中的元素
- `keys`和`values`: 返回字典的键，值的**迭代器**
- `update`: 将两个字典合并，当两个字典中拥有相同的键，则会被**覆盖**

In [99]:
7 in d1

True

In [100]:
d1[5] = 'some value'
d1['dummy'] = 'another value'
d1

{'a': 'some value',
 'b': [1, 2, 3, 4, 5],
 7: 'an integer',
 5: 'some value',
 'dummy': 'another value'}

In [101]:
del d1[5]
d1

{'a': 'some value',
 'b': [1, 2, 3, 4, 5],
 7: 'an integer',
 'dummy': 'another value'}

In [102]:
d1.pop('dummy')

'another value'

In [103]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4, 5], 7: 'an integer'}

In [104]:
d1.keys()

dict_keys(['a', 'b', 7])

In [105]:
d1.values()

dict_values(['some value', [1, 2, 3, 4, 5], 'an integer'])

In [106]:
d1.update({7: 123456, 9:1000000})

In [107]:
d1

{'a': 'some value', 'b': [1, 2, 3, 4, 5], 7: 123456, 9: 1000000}

### 从序列生成字典
- 通常情况下，**将两个序列进行配对**
- 但是，字典本质上就是`2-元组`的集合,可以接受一个`2-元组`的列表作为参数

In [None]:
mapping = {}
for k, v in zip(key_list, value_list):
    mapping[k] = v

In [108]:
mapping = dict(zip(range(5), reversed(range(5))))
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

### 默认值

当字典不存在键时，读取键，会报异常

In [109]:
mapping[10] # KeyError: 10

KeyError: 10

In [None]:
if key in some_dict:
    value = some_dict[key]
else:
    value = default_value

字典的`get`/`pop`方法提供这样的功能
- `value = some_dict.get(key, defalut_value)`
- 但是
    -  `get` 当不设置默认值时，，默认值是`None`
    -   `pop` 不设置默认值时，没有该键时，报错

In [110]:
mapping.get(10, '该键不存在')

'该键不存在'

In [111]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

In [113]:
mapping.get(10)

In [112]:
mapping.pop(10, "该键不存在")

'该键不存在'

In [114]:
mapping.pop(10)

KeyError: 10

In [115]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_latter = {}
for word in words:
    letter = word[0]
    if letter not in by_latter:
        by_latter[letter] = [word]
    else:
        by_latter[letter].append(word)
by_latter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

`setdefalut`:实现上面的功能
- 当存在键时，返回对应的值
- 当不存键时，在字典中添加`[key=defaultvalue]`键值对，返回`defaultvalue`

In [116]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_latter = {}

for word in words:
    letter = word[0]
    by_latter.setdefault(letter, []).append(word)
by_latter

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}

In [117]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0}

In [118]:
mapping.setdefault(100, [])

[]

In [119]:
mapping

{0: 4, 1: 3, 2: 2, 3: 1, 4: 0, 100: []}

内建的集合模块有一个`defaultdict`类,使得上面的更加简单
- 想要生成符合要求的字典，可以向字典中传入**类型或能在各位置生成默认值的函数**

In [120]:
from collections import defaultdict

In [121]:
by_latter = defaultdict(list)

In [122]:
by_latter

defaultdict(list, {})

In [123]:
by_latter[100]

[]

In [124]:
by_latter

defaultdict(list, {100: []})

In [125]:
words = ['apple', 'bat', 'bar', 'atom', 'book']

by_latter = defaultdict(list)
for word in words:
    letter = word[0]
    by_latter[letter].append(word)
by_latter

defaultdict(list, {'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']})

### 有效的字典键类型
- 字典的值可以是任何Python对象
- 但是**键必须是不可变对象**， 比如标量类型或元组（元组中的对象必须是不可变的）
- **哈希化**：通过`hash`函数检查一个对象是否可以哈希化

In [126]:
hash('string')

-3428593945362118081

In [127]:
hash([1,2,3]) # TypeError: unhashable type: 'list'

TypeError: unhashable type: 'list'

In [128]:
hash((1,2,3,[1,2]))

TypeError: unhashable type: 'list'

In [131]:
hash((1,2,3,(1,2)))

3525164641510781594

将列表作为键
- 将其转换为元组，元组只要它内部元素都可以哈希化，自己也就可以哈细化

## 集合

集合是一种**无序且元素唯一**的容器
- 可以认为集合也像字典，但是只有键没有值
- 集合有两种创建方式
    1. set函数
    2. 字面值与大括号的语法，但是不能用于创建空集合
    - `{}`表示空字典

In [132]:
set([1,1,1,2,2,23,3,])

{1, 2, 3, 23}

集合**支持数学上的集合操作**，例如交集，差集，对称差集，联合等

所有的逻辑集合运算都有对应的操作，**允许用操作的结果代替操作左边的集合内容**

In [133]:
a = set([1,2,3,4,5])
b = {3,4,5,6,7,8}

In [134]:
a.union(b)

{1, 2, 3, 4, 5, 6, 7, 8}

In [135]:
a.intersection(b)

{3, 4, 5}

In [136]:
a.difference(b)

{1, 2}

In [137]:
a.symmetric_difference(b)

{1, 2, 6, 7, 8}

In [139]:
c = a.copy()
c.intersection_update(b)
c

{3, 4, 5}

**集合的元素必须是不可变的，如果想要包含列表型的元素，必须先转换为元组**

In [140]:
my_data = [1,2,3,4]
my_set = {my_data}

TypeError: unhashable type: 'list'

In [142]:
my_data = {tuple(my_data)}
my_data

{((1, 2, 3, 4),)}

**仅当两个集合的内容一模一样时，两个集合才相等**， 元素相同，顺序无关

In [143]:
{1,2,3} == {3,2,1}

True

## 列表，集合和字典的推导式

> 列表推导式是最受欢迎的Python语言特性之一

**允许过滤一个容器的元素，用一种简明的表达式转换传递给过滤器的元素，从而生成一个新的列表**
- `[expr for val in collection if condition]`
- 过滤条件是可以忽略的，只保留表达式

In [None]:
result = []
for val in collection:
    if codition:
        result.appendp(val)

In [144]:
strings = ['a', 'as', 'bat', 'car', 'dove', 'python']
[x.upper() for x in strings if len(x) > 2]

['BAT', 'CAR', 'DOVE', 'PYTHON']

集合和字典的推导式是列表推导式的**自然扩展**，用相似的方式生成集合和字典
- {key_exp: value_exp for for val in collection if condition }
- {exp for for val in collection if condition }

In [145]:
{len(x) for x in strings}

{1, 2, 3, 4, 6}

In [151]:
{x: val  for x, val  in enumerate(strings)}

{0: 'a', 1: 'as', 2: 'bat', 3: 'car', 4: 'dove', 5: 'python'}

`map`函数可以简化这种表达，但是结构比较单一，没有推导式灵活

In [148]:
set(map(len, strings))

{1, 2, 3, 4, 6}

### 嵌套列表推导式

嵌套列表推导式对应嵌套的For循环，**列表推导式的for循环部分是根据嵌套的顺序排列的，所有的过滤条件像之前一样放在尾部**

In [152]:
some_tuples = [(1,2,3), (4,5,6), (7,8,9)]
flattened = [x for tup in some_tuples for x in tup]

In [153]:
flattened

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [156]:
some_tuples

[(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [157]:
[tup for tup in some_tuples]

[(1, 2, 3), (4, 5, 6), (7, 8, 9)]

In [161]:
[ [ x for x in tup] for tup in some_tuples ]

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]

**嵌套推导式的语法要和列表推导式中的列表推导式区分开**

## 函数

函数是Python中最重要，最基础的**代码组织和代码复用方式**
- 需要多次复制相同或者相似的代码，就非常值得编写一个可复用的函数
- 通过**一组Python语句一个函数名**，形成的函数使得代码更具有可读性

函数声明使用关键字`def`，函数返回时使用关键字`return`
- 可以有多条`return`语句
- Python达到函数结尾时，依然没有遇到`return`语句,就会自动返回`None`

每个函数都可以有**位置参数**和**关键字参数**
- 关键字参数常用于**指定默认值或可选参数**
- 主要限制： **关键字参数必须跟在位置参数后**
- 可以**按照任意顺序指定关键字参数**
- 也可以使用关键字参数向位置参数传参

In [162]:
def my_function(x, y, z=1.5):
    if z > 1:
        return z * (x+y)
    else:
        return z / (x + y)

In [163]:
my_function(1,1,1)

0.5

In [164]:
my_function(z=10, 1,1) # positional argument follows keyword argument

SyntaxError: positional argument follows keyword argument (<ipython-input-164-45a10c024717>, line 1)

In [165]:
my_function(x=10, y=20,z=30)

900

### 命名空间，作用域， 本地函数

函数有两种连接变量的方式： 全局和本地

Python中更贴切的**描述变量作用域的名称是命名空间**
- 函数内部，任意变量都是默认分配到本地命名空间
    - 本地命名空间是在函数调用时生成的，并立即由函数的参数填充
    - 当函数执行结束后，本地命名空间就会被销毁
- 修改函数外部的变量时需要添加`global`关键字，告诉编译器使用的是全局变量，不需要创建本地变量

In [171]:
a

{1, 2, 3, 4, 5}

In [174]:
def func():
    ab = []
    for i in range(4): ab.append(i)
func()

In [175]:
ab

NameError: name 'ab' is not defined

In [176]:
ab = ['a', 'b']
func()
ab

['a', 'b']

In [177]:
def func():
    global ab
    for i in range(4): ab.append(i)
func()

In [178]:
ab

['a', 'b', 0, 1, 2, 3]

### 返回多个值

Python的函数**可以一次性返回多个值**，但是其**本质上是返回了一个Python对象**，可以是元组
- 最常见的返回多个值，是返回元组，赋值的时候进行了 **拆包**

In [180]:
def f():
    a = 5; b= 6; c=7
    return a,b,c 

result = f()

In [181]:
type(result)

tuple

In [182]:
a,b,c = result

In [184]:
def f():
    a = 5; b= 6; c=7
    return {'a':a, 'b':b, 'c':c}

result = f()
type(result)

dict

### 函数是对象

Python函数是对象，可以完成一些在其他语言中比较困难的操作
- 将函数当做参数传递给其他函数

In [185]:
states = ['   Alabama', 'Georiga!', 'geo  ', 'lsess###', 'Wesr  tsdfs?']

In [186]:
import re

def clean_strings(strings):
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return  result

In [187]:
clean_strings(states)

['Alabama', 'Georiga', 'Geo', 'Lsess', 'Wesr  Tsdfs']

In [188]:
re.sub?

In [192]:
def remove_punctuation(value):
    return  re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for func in ops:
            value = func(value)
        result.append(value)
    return result
        

In [193]:
clean_strings(states, clean_ops)

['Alabama', 'Georiga', 'Geo', 'Lsess', 'Wesr  Tsdfs']

In [194]:
map(remove_punctuation, states)

<map at 0x2beae394400>

In [195]:
result = states
for ops in clean_ops:
    result = list(map(ops, result))
result

['Alabama', 'Georiga', 'Geo', 'Lsess', 'Wesr  Tsdfs']

### 匿名函数 Lambda

Python支持匿名函数或`lambda`函数
- 匿名函数是一种**通过单个语句生成函数的方式**
- 其结果就是返回值 `lambda 参数 : 返回值`

- 匿名函数使用关键字`lambda`定义，表示声明一个匿名函数
- 匿名函数在数据分析中非常有用，代码量小，将它作为参数传值，比写一个完整的函数或将匿名函数赋值给本地变量更好
- 匿名函数本身没有`__name__`属性

In [None]:
def  short_function(x):
    return x * 2

equiv_anon = lambda x: x*2

In [203]:
set('aaaa')

{'a'}

In [196]:
strings = ['foo', 'card', 'bar', 'aaaa', 'abab']

In [201]:
strings.sort(key=lambda x: len(set(x)))

In [202]:
strings

['aaaa', 'foo', 'abab', 'bar', 'card']

### 柯里化： 部分参数应用

柯里化是计算机术语，表示**通过部分参数应用的方式从已有的函数承衍生出新的函数**, `cuurid`

In [204]:
def add_number(x, y):
    return x+y

In [205]:
# 从上面的函数中衍生出一个只有一个变量的新函数
add_five = lambda y: add_number(5, y)

第二个参数对于函数add_numbers就是**柯里化**
- 我们真正做的事情就是，定义了一个新函数，新函数调用了已经存在的函数
- 内建的`functools`模块就可以使用`pratial`函数简化这种操作

In [206]:
from functools import partial
add_five = partial(add_number, 5)
add_five

functools.partial(<function add_number at 0x000002BEAD3EBD30>, 5)

In [208]:
add_five?? # add_five(y)

### 生成器

**通过一致的方式遍历序列**，例如列表中的对象或者文件中的一行行内容，这是Python的一个重要特性
- 这个特性是通过**迭代器协议**来实现的
- **迭代器协议是一种令对象可遍历的通用方式**

In [209]:
some_dict = {'a':1, 'b':2}
for key in some_dict:
    print(key)

a
b


**迭代器就是一种用于在上下文中向Python解释器生成对象的对象**
- 在`for`循环中，**Python解释器会首先尝试对遍历对象生成一个迭代器**
- 大部分**以列表或列表型对象为参数的方法都可以接受任意的迭代器对象**，包含内建的max，min，sum，以及类型构造函数list，tuple

In [210]:
iter(some_dict)

<dict_keyiterator at 0x2beae031c70>

In [211]:
list(iter(some_dict))

['a', 'b']

**生成器是构造可遍历对象的一种非常简洁的方式**
- 普通函数执行并以此返回单个结果
- 生成器“惰性”的返回一个**多结果序列**，在每一个元素产生之后暂停，知道下一个请求
- 创建生成器，只需要在函数中将返回关键字`return`替换为`yield`关键字
- **当实际调用生成器时，代码并不会立即执行，生成一个生成器对象**，直到请求生成器元素时，才会执行它的代码
- **当生成器请求元素之后，该元素就不存在了**

In [212]:
def squares(n=10):
    print('Generating squares from 1 to {0}'.format(n**2))
    for i in range(1, n+1):
        yield i**2

In [213]:
squares

<function __main__.squares(n=10)>

In [220]:
gen = squares() # generator 
gen

<generator object squares at 0x000002BEADAD82E0>

In [221]:
for i in  gen:
    print(i, end='\t')

Generating squares from 1 to 100
1	4	9	16	25	36	49	64	81	100	

#### 生成器表达式

**通过生成器表达式来创建生成器更为简单**。生成器表达式与列表，字典。集合的推导式很类似
- 创建一个生成器表达式，只需要将列表推导式的中括号替换为**小括号**即可
- 很多情况下，生成器表达式可以作为函数参数用于替代列表推导式

In [222]:
gen = ( x ** 2 for x in range(10))
gen

<generator object <genexpr> at 0x000002BEADAD80B0>

- 生成器表达式创建的生成器可以使用构造函数
- 生成器函数创建的生成器不能使用构造函数

In [223]:
list(gen)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [225]:
sum(( x ** 2 for x in range(10)))

285

#### itertools模块

标准库中的`itertools`模块是适用于大多数数据算法的**生成器集合**
- `groupby`: 根据任意序列和一个函数，通过函数的返回值对序列中连续的元素进行分组

In [234]:
import itertools
first_letter = lambda x: x[0]
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']
for letter, names in itertools.groupby(names, first_letter):
    print(letter, list(names))   # ( x ** 2 for x in range(10))

A ['Alan', 'Adam']
W ['Wes', 'Will']
A ['Albert']
S ['Steven']


In [244]:
names = ['Alan', 'Adam', 'Wes', 'Will', 'Albert', 'Steven']

In [245]:
comm = itertools.combinations(names, 2)

In [246]:
list(comm)

[('Alan', 'Adam'),
 ('Alan', 'Wes'),
 ('Alan', 'Will'),
 ('Alan', 'Albert'),
 ('Alan', 'Steven'),
 ('Adam', 'Wes'),
 ('Adam', 'Will'),
 ('Adam', 'Albert'),
 ('Adam', 'Steven'),
 ('Wes', 'Will'),
 ('Wes', 'Albert'),
 ('Wes', 'Steven'),
 ('Will', 'Albert'),
 ('Will', 'Steven'),
 ('Albert', 'Steven')]

In [247]:
list(itertools.permutations(names, 2))

[('Alan', 'Adam'),
 ('Alan', 'Wes'),
 ('Alan', 'Will'),
 ('Alan', 'Albert'),
 ('Alan', 'Steven'),
 ('Adam', 'Alan'),
 ('Adam', 'Wes'),
 ('Adam', 'Will'),
 ('Adam', 'Albert'),
 ('Adam', 'Steven'),
 ('Wes', 'Alan'),
 ('Wes', 'Adam'),
 ('Wes', 'Will'),
 ('Wes', 'Albert'),
 ('Wes', 'Steven'),
 ('Will', 'Alan'),
 ('Will', 'Adam'),
 ('Will', 'Wes'),
 ('Will', 'Albert'),
 ('Will', 'Steven'),
 ('Albert', 'Alan'),
 ('Albert', 'Adam'),
 ('Albert', 'Wes'),
 ('Albert', 'Will'),
 ('Albert', 'Steven'),
 ('Steven', 'Alan'),
 ('Steven', 'Adam'),
 ('Steven', 'Wes'),
 ('Steven', 'Will'),
 ('Steven', 'Albert')]

### 错误和异常处理

**优雅的处理Python的错误或异常是构建稳定程序的重要组成部分**

In [248]:
float('3.1314')

3.1314

In [249]:
float('some')

ValueError: could not convert string to float: 'some'

In [250]:
float((1,1,))

TypeError: float() argument must be a string or a number, not 'tuple'

想要在运行失败的时候优雅的处理错误，可以使用`try/except`代码块
- 将可以出错的代码放到`try`下
- `except` 捕获不同的异常，并提供解决方案
- `else` 当没有抛出异常时，执行`else`代码块
- `finally`: 不管有没有异常，都需要执行的代码块
- 可以在`except` **将多个异常类型写成元组的方式同时捕获多个异常**

In [251]:
def attemp_float(x):
    try:
        return float(x)
    except (ValueError,TypeError):
        return x
    else :
        print("没有异常")      

In [252]:
attemp_float('11')

11.0

### IPython中的异常

IPython会默认**打印出完整的调用堆栈跟踪(报错追溯)**，会将堆栈中每个错误点附近的几行上下文代码打印出

比标准Python解释器提供更多额外的上下文是IPYthon的一大进步，可以使用`%xmode`命令来控制上下文数量，可以从普通模式`Plain`（与标准Python解释器一致）切换到`Verbose`复杂模式

In [253]:
%run pydata-book/examples/ipython_bug.py

AssertionError: 

## 文件和操作系统

Python中**处理文件非常简单**，这也是Python能够在文本和文件处理领域如此流行的原因

打开文件进行读取和写入，需要使用内建的`open`函数和绝对，相对路径

In [258]:
path = 'pydata-book/examples/segismundo.txt'
for line in open(path):
    print(line, end=" ")

Sue帽a el rico en su riqueza,
 que m谩s cuidados le ofrece;
 
 sue帽a el pobre que padece
 su miseria y su pobreza;
 
 sue帽a el que a medrar empieza,
 sue帽a el que afana y pretende,
 sue帽a el que agravia y ofende,
 
 y en el mundo, en conclusi贸n,
 todos sue帽an lo que son,
 aunque ninguno lo entiende.
 
 

默认情况下，文件是以**只读`r`**模式打开的
- 行内容会在**行结尾标识(`EOF`)完整**的情况下全部读出
- 使用`open`创建文件对象时，在结束操作时显示地关闭文件是非常重要的，**关闭文件将会将资源释放会操作系统**

In [260]:
with open(path) as f:
    print(f)

<_io.TextIOWrapper name='pydata-book/examples/segismundo.txt' mode='r' encoding='cp936'>


对于可读文件
- `read`: 返回一定量的**字符**，不是字节
    - **构成字符的内容是由文件的编码决定的**
    - 二进制模式下打开文件的元素字节，和编码无关
    - **通过读取的字节数推进文件句柄的位置**，但是字符的个数和原生字节的个数有编码决定，并不固定
- `seek`：移动到指定的位置,特定的字节
- `tell`：返回文件句柄的当前位置

In [261]:
f = open(path)
fb = open(path, 'rb')

In [262]:
f.read(10) # 乱码的是两个字符  \xc3\xb1

'Sue帽a el r'

In [263]:
f.tell()

11

In [264]:
fb.read(10)

b'Sue\xc3\xb1a el '

In [265]:
fb.tell()

10

In [266]:
# 检查文件的默认编码
import sys
sys.getdefaultencoding()

'utf-8'

In [267]:
f.seek(1)

1

In [269]:
f.read(2)

'e帽'

In [270]:
f.tell()

5

In [271]:
f.close()
fb.close()

将文本写入文件
- `write`: 将字符串写入文件
- `wtitelines` 将**字符串序列**写入文件

In [275]:
with open('temp.txt', 'w', encoding='utf8') as f:
    f.write("\t长恨歌 \n")
    f.write("\t---白居易\n")
    f.writelines(["汉皇重色思倾国，御宇多年求不得 \n", "杨家有女初长成，养在深闺人未识。 \n", "天生丽质难自弃，一朝选在君王侧。 \n" ])
    

In [277]:
f = open('temp.txt',encoding='utf8')
f.read(1)

'长'

In [278]:
f.tell()

3

### 字节与Unicode文件

默认的Python文件行为是文本模式，意味着需要**处理字符串**， 与二进制不同，二进制模式中可以将`b`添加到文件模式中，然后进行读写
- **`UTF-8`是一种变长的Unicode编码**，当从文件中请求一定数量的字符时，Python从文件中读取了**足够的字节，并进行解码**
- **只有每个已编码的Unicode字符完整的情况下，才能进行解码**
- `open`的`encoding`参数：将文件内容从Unicode编码转换为其他类型的编码

In [None]:
62.234.99.208