# 可迭代对象

## Range

`range(start, stop[, step])` 是左闭右开的，返回 range 对象

可以用 `list()` 展开为 list，或 `tuple()` 展开为元组


In [5]:
print(type(range(1, 11)))
list(range(1, 11, 2))

<class 'range'>


[1, 3, 5, 7, 9]

## 序列

包括**字符串**、**元组**和**列表**

### 通用的操作符、方法和函数

操作、方法和函数|描述
--|--
x (not) in s|成员判断
`==`|比较运算
`for...in...`|遍历
s + t|连接
`s*n` 或 `n*s`|重复 n 次
s[i]|索引
s[m:n:k]|切片
len(s)|序列 size
min(s), max(s)|返回最值
s.index(x)|返回位置索引
s.index(x, i, j)|i 到 j 之间第一次出现 x 的位置索引
s.count(x)|出现 x 的总次数

### 序列封包和序列解包

本质是多对一、一对多、多对多的赋值方式

解包时，如果解包出来的元素个数和变量个数不对应，会引发`ValueError`异常，错误信息为：`too many values to unpack`（解包的值太多）或`not enough values to unpack`（解包的值不足）。

In [6]:
# 封包
a = 1, 10, 100
print(type(a), a)  # <class 'tuple'> (1, 10, 100)

# 解包
i, j, k = a
print(i, j, k)  # 1 10 100

a = 1, 10, 100, 1000
# i, j, k = a             # ValueError: too many values to unpack (expected 3)
# i, j, k, l, m, n = a    # ValueError: not enough values to unpack (expected 6, got 4)

(10, 20, 30)
<class 'tuple'>
20


有一种解决变量个数少于元素的个数方法，就是使用星号表达式。

需要注意的是，用星号表达式修饰的变量会变成一个列表，列表中有0个或多个元素。

在解包语法中，星号表达式只能出现一次。

In [3]:
# 部分解包，*代表一个列表（注意，不会是元组）
first, second, *rest = range(10) # first、second保存前2个元素，rest列表包含剩下的元素
print(first) 
print(second) 
print(rest) 
*begin, last = range(10) # last保存最后一个元素，begin保存前面剩下的元素
print(begin) 
print(last) 
first, *middle, last = range(10) # first保存第一个元素，last保存最后一个元素，middle保存中间剩下的元素
print(first) 
print(middle) 
print(last)

0
1
[2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8]
9
0
[1, 2, 3, 4, 5, 6, 7, 8]
9


### 元组

一旦用`()`或`tuple()`创建，不得被修改

**当元组只有一个元素时，要在元素后面加逗号**`('th',)`，否则就不是元组，而是改变运算优先级的圆括号，`('th')`等同于`'th'`

`tuple()`可以将 list, range 等对象转换为元组

In [25]:
# 定义一个三元组
t1 = (30, 10, 55)
# 定义一个四元组
t2 = ('骆昊', 40, True, '四川成都')

# 查看变量的类型
print(type(t1), type(t2))    # <class 'tuple'> <class 'tuple'>
# 查看元组中元素的数量
print(len(t1), len(t2))      # 3 4

# 通过索引运算获取元组中的元素
print(t1[0], t1[-3])         # 30 30
print(t2[3], t2[-1])         # 四川成都 四川成都

# 循环遍历元组中的元素
for member in t2:
    print(member)

# 成员运算
print(100 in t1)    # False
print(40 in t2)     # True

# 拼接
t3 = t1 + t2
print(t3)           # (30, 10, 55, '骆昊', 40, True, '四川成都')

# 切片
print(t3[::3])      # (30, '骆昊', '四川成都')

# 比较运算
print(t1 == t3)    # False
print(t1 >= t3)    # False
print(t1 < (30, 11, 55))    # True

<class 'tuple'> <class 'tuple'>
3 4
30 30
四川成都 四川成都
骆昊
40
True
四川成都
False
True
(30, 10, 55, '骆昊', 40, True, '四川成都')
(30, '骆昊', '四川成都')
False
False
True


#### 应用场景

交换两个变量的值

In [31]:
a, b = 1, 2
a, b = b, a

### 列表

列表用`[]`或`list()`创建，可以被修改（相比之下，字符串是不可变对象，不能被修改），可以装载不同类型的元素

`list()`可以将`tuple`, `range`等对象转换为列表

将列表/字典赋给一个变量时，实际上是将列表的“引用”赋给了该变量（相比之下，R语言在赋值时始终要复制变量，而非传递引用）；将字符串/整数或元组赋给一个变量时，变量就保存值本身。

In [16]:
ls = [1, 2, 3]
lt = ls # 仅赋值未创建，并没有拷贝，而是两个名字指向同一个对象
lt.append(4)
print(ls, lt) # lt 与 ls 是相同的
# 相比之下，R 中用向量赋值，默认发生拷贝

[1, 2, 3, 4] [1, 2, 3, 4]


#### 列表的方法

In [33]:
# dir(list)

方法|描述
--|--
`ls.copy()`|创建一个新列表并**复制**
`ls1 + ls2`|拼接
`ls * 3`|复制
`a in ls`|成员运算
`ls1 == ls2`|相等运算，需要对应元素均相等
`len(ls)`|size
`ls[n]`, `ls[m:n:k]`|索引和切片。索引可以为负值，表示从末尾往前数。切片中 m 省略表示 0，n 省略表示 -1
`ls.index(x, i, j)`|在 i, j 之间检索，返回 x 的 index
`ls.count(x)`|返回元素出现的次数
`ls.append(x)`|添加元素 x，**即使 x 为元组、列表，也将其作为元素添加，形成嵌套列表**
`ls.extend(x)`|添加 x 中的所有元素，避免形成嵌套列表
`ls.insert(index, x)`|x 作为一个元素（无论其本身是什么结构），在 index 的位置插入
`del ls[m:n:k]`|删除相应切片的子列。注意，del 不是函数，而是一个语句，可以删除任意对象。<br>删除子列也可以将这个子列赋值为空列表 `[]`
`ls.pop(i)`|i 位置元素取出并在原列表中删除；若不指定参数，则为出栈功能，取出最后一个元素。<br>如果索引的值超出了范围，会引发`IndexError`异常，错误消息是：`pop index out of range`。
`ls.remove(x)`|将 ls 中出现的第一个 x 删除，若找不到会引发`ValueError`异常，错误消息是：`list.remove(x): x not in list`
`ls.clear()`|清空列表
`ls.reverse()`|反转列表
`ls.sort(str, key, reverse=False)`|原地排序，不要写出`spam = spam.sort()`这样的代码。key 为函数，以它的返回值为排序依据。

In [11]:
ls = ['cat', 'dog', 'tiger', 1024]
ls[1:2] = [1, 2, 3, 4]
print(ls)
del ls[::3]
print(ls)
ls *= 2
print(ls)
ls.insert(3, 'add') # 在 3 的位置插入
print(ls)

['cat', 1, 2, 3, 4, 'tiger', 1024]
[1, 2, 4, 'tiger']
[1, 2, 4, 'tiger', 1, 2, 4, 'tiger']
[1, 2, 4, 'add', 'tiger', 1, 2, 4, 'tiger']


In [13]:
b_list = ['Python', 'Swift', 'Ruby', 'Go', 'Kotlin', 'Erlang']

b_list.sort() # 字符串默认按字典顺序排序
print(b_list)

b_list.sort(key=len) # 指定key为len，指定使用len函数对集合元素生成比较的键，也就是按字符串的长度比较大小
print(b_list) 

b_list.sort(key=len, reverse=True) # 指定反向排序
print(b_list)

['Erlang', 'Go', 'Kotlin', 'Python', 'Ruby', 'Swift']
['Go', 'Ruby', 'Swift', 'Erlang', 'Kotlin', 'Python']
['Erlang', 'Kotlin', 'Python', 'Swift', 'Ruby', 'Go']


In [17]:
items = ['Python', 'Java', 'Go', 'Kotlin']

# 使用append方法在列表尾部添加元素
items.append('Swift')
print(items)  # ['Python', 'Java', 'Go', 'Kotlin', 'Swift']

# 使用insert方法在列表指定索引位置插入元素
items.insert(2, 'SQL')
print(items)  # ['Python', 'Java', 'SQL', 'Go', 'Kotlin', 'Swift']

# 删除指定的元素
items.remove('Java')
print(items)  # ['Python', 'SQL', 'Go', 'Kotlin', 'Swift']

# 删除指定索引位置的元素
items.pop(0)
items.pop(len(items) - 1)
print(items)  # ['SQL', 'Go', 'Kotlin']

# 清空列表中的元素
items.clear()
print(items)  # []

['Python', 'Java', 'Go', 'Kotlin', 'Swift']
['Python', 'Java', 'SQL', 'Go', 'Kotlin', 'Swift']
['Python', 'SQL', 'Go', 'Kotlin', 'Swift']
['SQL', 'Go', 'Kotlin']
[]


### 列表推导式

用推导式生成列表的速度比 for 循环快得多

In [32]:
# 创建一个由'hello world'中除空格和元音字母外的字符构成的列表
items2 = [x for x in 'hello world' if x not in ' aeiou']
print(items2)  # ['h', 'l', 'l', 'w', 'r', 'l', 'd']

# 创建一个由个两个字符串中字符的笛卡尔积构成的列表
items3 = [x + y for x in 'ABC' for y in '12']
print(items3)  # ['A1', 'A2', 'B1', 'B2', 'C1', 'C2']

['h', 'l', 'l', 'w', 'r', 'l', 'd']
['A1', 'A2', 'B1', 'B2', 'C1', 'C2']


### 嵌套列表的一个问题

不能用`[[0] * 3] * 5]`这种方式来创建嵌套列表

In [21]:
scores = [[0] * 3] * 5
print(scores)
scores[0][0] = 95
print(scores) # 本意是对一个二层元素赋值，但结果很诡异

[[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]
[[95, 0, 0], [95, 0, 0], [95, 0, 0], [95, 0, 0], [95, 0, 0]]


In [24]:
scores = [[0] * 3 for _ in range(5)] # 创建嵌套列表的正确方式
scores[0][0] = 95
print(scores) # 这样就对了

[[95, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]


## 字典


### 结构
- 字典类型是“映射”的体现
- 字典是键值对的集合，键值对之间无序
- key 不允许重复
- key 必须是不可变的数据类型，因此元组可以作为 key，而列表不可以
- key 是索引的扩展。list 相当于 key 只能是整数的 dict，但也有一个重要的区别：list 不允许对不存在的索引赋值，而 dict 允许。

In [12]:
eggs = {'name': 'Zophie', 'species': 'cat', 'age': '8'}
ham = {'species': 'cat', 'age': '8', 'name': 'Zophie'}
eggs == ham

True

### 创建字典

- `{}`创建空字典
- `dict()`，`:`区分键和值，`,`区分键值对
  - `dict(zip(itr_key, itr_value))` 使用两个序列的对应元素作为键值对创建字典
- `{键值对推导式}`

In [10]:
# dict函数(构造器)中的每一组参数就是字典中的一组键值对
person = dict(name='王大锤', age=55, weight=60, home='中同仁路8号')
print(person)  # {'name': '王大锤', 'age': 55, 'weight': 60, 'home': '中同仁路8号'}

# 可以通过Python内置函数zip压缩两个序列并创建字典
items1 = dict(zip('ABCDE', '12345'))
print(items1)  # {'A': '1', 'B': '2', 'C': '3', 'D': '4', 'E': '5'}
items2 = dict(zip('ABCDE', range(1, 10)))
print(items2)  # {'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5}

# 用字典生成式语法创建字典
items3 = {x: x**3 for x in range(1, 6)}
print(items3)  # {1: 1, 2: 8, 3: 27, 4: 64, 5: 125}

stocks = {
    'AAPL': 191.88,
    'GOOG': 1186.96,
    'IBM': 149.24,
    'ORCL': 48.44,
    'ACN': 166.89,
    'FB': 208.09,
    'SYMC': 21.29
}
stocks2 = {key: value for key, value in stocks.items() if value > 100}
print(stocks2)

{'name': '王大锤', 'age': 55, 'weight': 60, 'home': '中同仁路8号'}
{'A': '1', 'B': '2', 'C': '3', 'D': '4', 'E': '5'}
{'A': 1, 'B': 2, 'C': 3, 'D': 4, 'E': 5}
{1: 1, 2: 8, 3: 27, 4: 64, 5: 125}
{'AAPL': 191.88, 'GOOG': 1186.96, 'IBM': 149.24, 'ACN': 166.89, 'FB': 208.09}


### 字典的索引：键

通过索引运算获取字典中的值时，如指定的键没有在字典中，将会引发`KeyError`异常。

In [8]:
person = {'name': '王大锤', 'age': 55, 'weight': 60, 'office': '科华北路62号'}

# 检查name和tel两个键在不在person字典中
print('name' in person, 'tel' in person)  # True False

# 通过age将person字典中对应的值修改为25
if 'age' in person:
    person['age'] = 25
print(person)

# 通过索引操作向person字典中存入新的键值对
person['tel'] = '13122334455'
person['signature'] = '你的男朋友是一个盖世垃圾，他会踏着五彩祥云去迎娶你的闺蜜'
print('name' in person, 'tel' in person)  # True True

# 检查person字典中键值对的数量
print(len(person))  # 6

# 对字典的键进行循环并通索引运算获取键对应的值
for key in person:
    print(f'{key}: {person[key]}')

True False
{'name': '王大锤', 'age': 25, 'weight': 60, 'office': '科华北路62号'}
True True
6
name: 王大锤
age: 25
weight: 60
office: 科华北路62号
tel: 13122334455
signature: 你的男朋友是一个盖世垃圾，他会踏着五彩祥云去迎娶你的闺蜜


### 字典的方法

In [6]:
# dir(dict)


方法|描述
--|--
`d.keys()`|返回字典 d 中所有的键
`d.values()`|返回字典 d 中所有的值
`d.items()`|返回字典 d 中所有的键值对
||**这3个字典方法返回的分别是dict_keys、dict_values和dict_items对象，不是真正的列表，不能被修改，没有append()方法。但这些数据类型（1）可以通过for循环遍历；（2）可以通过list()或[]生成列表；（3）也可以利用多重赋值的技巧，在for循环中将键和值赋给不同的变量。**
`k in d`/`k in d.keys()`|判断键 k 是否在字典 d 中，语法上可以省略`.keys()`
`v in d.values()`|判断值 v 是否在字典 d 中
`(k, v) in d.items()`|判断键值对 (k, v) 是否在字典 d 中
`d.get(k, <default>)`|索引语法的增强版，**这个函数非常重要，可以防止因键不存在产生错误**：<font color = 'red'>键 k 存在，则返回相应值；不存在，则返回`<default>`值</font>
`d.update(dict_new)`|更新键值对，相同的键会用新值覆盖掉旧值，不同的键会添加到字典中
`d.pop(k, <default>)`|键 k 存在，则取出相应值，并删除该键值对；不存在，则返回`<default>`值
`d.popitem()`|删除字典中最后一组键值对并返回对应的二元组，如果字典中没有元素，调用该方法将引发KeyError异常
`d.setdefault(k, v)`|若键k不在字典d中，添加键值对(k, v)；若键k在字典d中，返回与这个键对应的原本的值
`del d[k]`|删除键 k 对应的值
`d.clear()`|清空
`len(d)`|字典的规模
`pprint.pprint(d)`|打印字典，每个键值对为一行
`pprint.pformat(d)`|将字典转化为一个格式化好的大字符串，print() 可获得与 pprint() 相同的效果

In [9]:
cars = {'BMW': 8.5, 'BENS': 8.3, 'AUDI': 7.9}
ims = cars.items() # 获取字典所有的key-value对，返回一个dict_items对象
print(ims) # 返回结构可以遍历，但不是列表类型
print(type(ims)) 
print(list(ims)) # 将dict_items转换成列表
print(list(ims)[1]) # 访问第2个key-value对

kys = cars.keys() # 获取字典所有的key，返回一个dict_keys对象
print(kys)
print(type(kys)) 
print(list(kys)) # 将dict_keys转换成列表
print(list(kys)[1]) # 访问第2个key

vals = cars.values() # 获取字典所有的value，返回一个dict_values对象
print(vals)
print(type(vals)) 
print(list(vals)) # 将dict_values转换成列表
print(list(vals)[1]) # 访问第2个value

for k, v in cars.items():
    print('Key: ' + k + ' Value: ' + str(v))

dict_items([('BMW', 8.5), ('BENS', 8.3), ('AUDI', 7.9)])
<class 'dict_items'>
[('BMW', 8.5), ('BENS', 8.3), ('AUDI', 7.9)]
('BENS', 8.3)
dict_keys(['BMW', 'BENS', 'AUDI'])
<class 'dict_keys'>
['BMW', 'BENS', 'AUDI']
BENS
dict_values([8.5, 8.3, 7.9])
<class 'dict_values'>
[8.5, 8.3, 7.9]
8.3
Key: BMW Value: 8.5
Key: BENS Value: 8.3
Key: AUDI Value: 7.9


In [7]:
picnicItems = {'apples': 5, 'cups': 2}
'I am bringing ' + str(picnicItems.get('cups', 0)) + ' cups.'
'I am bringing ' + str(picnicItems.get('eggs', 0)) + ' eggs.'

d = {'中国':'北京', '美国':'华盛顿', '法国':'巴黎'}
'中国' in d
d.popitem()
print(d)

{'中国': '北京', '美国': '华盛顿'}


In [6]:
import pprint

# 统计字母或单字频数的程序
message = 'It was a bright cold day in April, and the clocks were striking thirteen.'
count = {} # 空字典

for character in message:
    count.setdefault(character, 0) # 对于新字母，加入字典，频数为0
    count[character] = count[character] + 1 # 频数加1

print(count)
pprint.pprint(count)
count_format = pprint.pformat(count)
print(count_format)
count_format
type(count_format)

{'I': 1, 't': 6, ' ': 13, 'w': 2, 'a': 4, 's': 3, 'b': 1, 'r': 5, 'i': 6, 'g': 2, 'h': 3, 'c': 3, 'o': 2, 'l': 3, 'd': 3, 'y': 1, 'n': 4, 'A': 1, 'p': 1, ',': 1, 'e': 5, 'k': 2, '.': 1}
{' ': 13,
 ',': 1,
 '.': 1,
 'A': 1,
 'I': 1,
 'a': 4,
 'b': 1,
 'c': 3,
 'd': 3,
 'e': 5,
 'g': 2,
 'h': 3,
 'i': 6,
 'k': 2,
 'l': 3,
 'n': 4,
 'o': 2,
 'p': 1,
 'r': 5,
 's': 3,
 't': 6,
 'w': 2,
 'y': 1}
{' ': 13,
 ',': 1,
 '.': 1,
 'A': 1,
 'I': 1,
 'a': 4,
 'b': 1,
 'c': 3,
 'd': 3,
 'e': 5,
 'g': 2,
 'h': 3,
 'i': 6,
 'k': 2,
 'l': 3,
 'n': 4,
 'o': 2,
 'p': 1,
 'r': 5,
 's': 3,
 't': 6,
 'w': 2,
 'y': 1}


str

### 字典的遍历

默认遍历键

```python
for k in d:
    <代码块>
```

## 集合

### 元素性质

- 无序，不支持索引
- 唯一，自动去重
- 元素类型必须为不可变的数据类型，如整数、浮点、字符串、元组等.

> 因此，列表、集合就不能作为集合元素。

### 建立集合

- `{x, y, z, ...}`. 建立空集合必须用`set()`，因为`{}`是留给创建字典类型的
- `set()`构造器
- `{推导式}`


In [2]:
B = set('python123') # set()将字符串拆分，每个字符作为集合的一个元素
B 

{'1', '2', '3', 'h', 'n', 'o', 'p', 't', 'y'}

In [3]:
C = {'A', 123, 'A', 123}
C # 元素唯一性

{123, 'A'}

In [1]:
set4 = {num for num in range(1, 20) if num % 3 == 0 or num % 5 == 0}
print(set4)  # {3, 5, 6, 9, 10, 12, 15, 18}

{3, 5, 6, 9, 10, 12, 15, 18}


### 集合关系运算

<img src="https://github.com/jackfrued/mypic/raw/master/20210819154520.png" width="90%">

`A op B`|返回
--|--
`&`或`set1.intersection(set2)`|交集
`^`或`set1.symmetric_difference(set2)`或`(set1 \| set2) - (set1 & set2)`|交集的补集，A 与 B 中的非共有元素
`\|`或`set1.union(set2)`|并集
`-`或`set1.difference(set2)`|差集^[在 A 但不在 B 中的元素。] 
`<=`或`<`|判断 A 与 B 的被包含关系
`>=`或`>`|判断 A 与 B 的包含关系
`set1.isdisjoint(set2)`|判断两个集合有没有相同的元素
**二元增强操作符**|运算且赋值
`\|=`|
`-=`|
`&=`|
`^=`|

In [4]:
set1 = {1, 3, 5}
set2 = {1, 2, 3, 4, 5}
set3 = set2
# <运算符表示真子集，<=运算符表示子集
print(set1 < set2, set1 <= set2)  # True True
print(set2 < set3, set2 <= set3)  # False True
# 通过issubset方法也能进行子集判断
print(set1.issubset(set2))  # True

# 反过来可以用issuperset或>运算符进行超集判断
print(set2.issuperset(set1))  # True
print(set2 > set1)  # True

# 有无相同元素
set1 = {'Java', 'Python', 'Go', 'Kotlin'}
set2 = {'Kotlin', 'Swift', 'Java', 'Objective-C', 'Dart'}
set3 = {'HTML', 'CSS', 'JavaScript'}
print(set1.isdisjoint(set2))  # False
print(set1.isdisjoint(set3))  # True


True True
False True
True
True
True
False
True


### 集合的方法和相关函数

方法和函数|说明
--|--
S.add(x)|添加元素
S.discard(x)|删除，若 x 不在 S 中，不报错 
S.remove(x)|删除，若 x 不在 S 中，报错 `KeyError`
S.clear()|清空整个集合
S.pop()|随机返回 S 的一个元素，将其从 S 中移除；若 S 为空，产生 KeyError 异常
S.copy()|返回集合的一个副本
len(S)|返回集合规模
x in S|判断是否在其中
x not in S|判断是否不在其中
set(x)|将其他类型转变为集合类型

In [4]:
A = {'python', 'R', 123}

try:
    while True:
        print(A.pop(), end = ' ')
except:
    pass

python 123 R 

### 不可变集合

Python中还有一种不可变类型的集合，名字叫`frozenset`。`set`跟`frozenset`的区别就如同`list`跟`tuple`的区别，`frozenset`由于是不可变类型，能够计算出哈希码，因此它可以作为`set`中的元素。除了不能添加和删除元素，`frozenset`在其他方面跟`set`基本是一样的

In [5]:
set1 = frozenset({1, 3, 5, 7})
set2 = frozenset(range(1, 6))
print(set1 & set2)  # frozenset({1, 3, 5})
print(set1 | set2)  # frozenset({1, 2, 3, 4, 5, 7})
print(set1 - set2)  # frozenset({7})
print(set1 < set2)  # False


frozenset({1, 3, 5})
frozenset({1, 2, 3, 4, 5, 7})
frozenset({7})
False


### 应用场景：数据去重

In [5]:
ls = [1, 2, 3, 2, 1]
s = set(ls)
s

{1, 2, 3}