# 城市设计分析技术Python自学教程10

### 集合

##### [计算城市设计实验室(Computational Urban Design Lab)](https://www.tjcud.cn/)

#### 10.1 从一个简单的例子开始

In [None]:
# 集合是一种以无顺序的方式装载了多个元素的数据结构
# 我们无法根据索引找到其中的元素，但是可以遍历集合中的元素
s = set([2,3,5])
print(3 in s)          # 打印出 True
print(4 in s)          # 打印出 False
for x in range(7):
    if (x not in s):
        print(x)       # 打印出 0 1 4 6

#### 10.2 创建列集合
#### 创建空集合

In [None]:
s = set()
print(s)     # 打印出 set()，代表空集合

#### 从列表建立集合

In [None]:
s = set(["cat", "cow", "dog"])
print(s)     # 打印出 {'cow', 'dog', 'cat'}

#### 创建一个静态分配集合

In [None]:
s = { 2, 3, 5 }
print(s)    # 打印出 { 2, 3, 5 }

#### 注意！ {} 并不表示一个新的集合

In [None]:
s = { }
print(type(s) == set)  # 错误!
print(type(s))         # 这其实是个字典，我们马上会学到

#### 10.3 使用集合

In [None]:
# 集合可以做很多列表和元组可以做到的事儿
s = set([1, 2, 3])

print(len(s)) # 打印出 3

print(2 in s) # 打印出 True
print(4 in s) # 打印出 False
print(4 not in s) # 打印出 True
print(2 not in s) # 打印出 False

s.add(7)      # 使用add而不是append来在集合中增加元素
s.remove(3)   # 删掉集合中的3，如果没有3就会报错

for item in s:
    print(item) # 我们可以遍历集合中的元素

#### 10.4 集合的属性
#### 尽管集合与列表和元组十分类似，但是也有很显著的不同点...

#### 集合中的元素是无序的

In [None]:
# 元素在集合中并没有固定的位置
# 所以无法进行索引
s = set([2,4,8])
print(s)          # 打印出 {8, 2, 4} ，在不同的编译器里结果不一样
for element in s: # 打印出 8, 2, 4
    print(element)

#### 集合中没有相同元素

In [None]:
# 创建或编辑集合时，重复的元素会被移除
s = set([2,2,2])
print(s)          # 打印出 {2}
print(len(s))     # 打印出 1

#### 集合中的元素一定是不可修改的

In [None]:
# 集合中只能装载无法被修改的元素
# 比如数字，元组，字符串和布尔值
a = ["lists", "are", "mutable"]
s = set([a])       # 报错： TypeError: unhashable type: 'list'
print(s)

#### 再来个例子:

In [None]:
s1 = set(["sets", "are", "mutable", "too"])
s2 = set([s1])     # 报错： TypeError: unhashable type: 'set'
print(s)

#### 集合的相关运算非常高效
集合存在的意义在于它们非常高效，大多数常见的操作都以 O(1)效率运行，包括添加元素、删除元素和检查是否存在。

#### 10.5 集合的工作方式：散列法（hashing）
集合使用一种称为散列的算法方法来实现其惊人的运行效率。

散列函数将任何值作为输入值来返回一个整数。
该函数每次在给定值上调用时都返回相同的整数，并且通常应该为不同的值返回不同的整数，尽管情况并非总是如此。
我们实际上不需要自己构建哈希函数，因为 Python 已经有一个名为 hash 的内置函数。

Python 通过创建一个哈希表将项目存储在一个集合中，哈希表是一个包含 N 个列表（称为“桶”）的列表。 
Python 使用 hash(element) % n 根据元素的哈希值为元素选择桶。
每个桶中的值没有排序，但每个桶的大小限制为某个常数 K。

我们得到 O(1)（恒定时间），如下所示：

计算桶索引 hash(element) % n - 需要 O(1)。

检索存储桶 hashTable[bucketIndex] —— 需要 O(1)。

将元素追加到存储桶中——需要 O(1)。


我们得到 O(1)（恒定时间）成员资格测试（'in'），如下所示：

计算桶索引 hash(element) % n - 需要 O(1)。

检索存储桶 hashTable[bucketIndex] —— 需要 O(1)。

检查桶中的每个值是否等于元素——需要 O(1)，因为桶中最多有 K 个值，而 K 是一个常数。

问：我们如何保证每个桶不大于大小 K？
答：好问题！
如果我们需要将第 (K+1) 个值添加到存储桶中，我们会调整哈希表的大小，使其变大两倍，然后我们重新哈希每个值，基本上将其添加到新的哈希表中。
这需要 O(N) 时间，但我们很少这样做，因此摊销的最坏情况仍然是 O(1)。

#### 集合如何比列表更快的实际示例如下所示：

In [None]:
# 0. 导入库
import time
n = 10000

# 1. 创建列表 [2,4,6,...,n] 然后查找[1,2,3,...,n] 中的元素是否存在于其中

# 不计算创建列表使用的时间
a = list(range(2,n+1,2))

print("使用一个列表...", end="")
start = time.time()
count = 0
for x in range(n+1):
    if x in a:
        count += 1
end = time.time()
elapsed1 = end - start
print(f'数量={count}， 用时 = {elapsed1:0.5f} 秒')

# 2. 用集合再来一次
print("使用一个集合.... ", end="")
start = time.time()
s = set(a)
count = 0
for x in range(n+1):
    if x in s:
        count += 1
end = time.time()
elapsed2 = end - start
print(f'数量={count}， 用时 = {elapsed2:0.5f} 秒')
print(f'在 n={n}时, 集合比列表快 ~{elapsed1/elapsed2:0.1f} 倍!')
print("n越大效果越明显哦!")

#### 10.6 一些集合的实际运用
#### isPermutation(L)

In [None]:
def isPermutation(L):
    # 返回 True 如果L是 [0,...,n-1]的变体（拥有相同元素但是顺序不同），否则返回False
    return (set(L) == set(range(len(L))))

def testIsPermutation():
    print("测试 isPermutation()...", end="")
    assert(isPermutation([0,2,1,4,3]) == True)
    assert(isPermutation([1,3,0,4,2]) == True)
    assert(isPermutation([1,3,5,4,2]) == False)
    assert(isPermutation([1,4,0,4,2]) == False)
    print("通过!")

testIsPermutation()

#### repeats(L)

In [None]:
def repeats(L):
    # 以按顺序排列的方式返回L中重复的元素
    seen = set()
    seenAgain = set()
    for element in L:
        if (element in seen):
            seenAgain.add(element)
        seen.add(element)
    return sorted(seenAgain)

def testRepeats():
    print("测试 repeats()...", end="")
    assert(repeats([1,2,3,2,1]) == [1,2])
    assert(repeats([1,2,3,2,2,4]) == [2])
    assert(repeats(list(range(100))) == [ ])
    assert(repeats(list(range(100))*5) == list(range(100)))
    print("通过!")

testRepeats()