# 05-Python数据结构

将其他类型的数据转换为元组: `tuple()`

In [None]:
msg = "hello world!"
chars = tuple(msg)
chars

In [None]:
numbers = tuple(range(1, 5))
numbers

In [None]:
d1 = {'a': 1, "b":2, 'c':3, 'd':4}
keys = tuple(d1)
keys

In [None]:
values = tuple(d1.values())
values

In [None]:
items = tuple(d1.items())
items

连接元组: `+`

In [None]:
tup1 = 1,2,3
tup2 = 4,5,6
tup3 = tup1 + tup2
tup3

重复元组: `*`

In [None]:
tup1 * 4

分解元组（unpack）

In [None]:
x, y, z = (1, 2, 3)
x, y, z

交换变量的值

In [None]:
x, y = y, x
x, y

统计元组中某元素的出现次数: `count(item)`

In [None]:
elements = (1, 2, 2, 2, 3, 2, 1)
elements.count(2)

应该如何使用元组
- 元组作为数据的记录
- 元组作为不变的列表

In [None]:
lax_coordinates = (33.9425, -118.4080)
lax_coordinates

遍历列表获取元组

元组作为不变的列表：
- 清晰，元组长度不可变
- 性能，元组消耗更少的内存速度更快

In [None]:
a = (1, 2, [30, 40])
a[-1].append(50)
a

将元组作为不变的列表不是设计元组的本意(但是这种用法非常普遍)：
>Making tuples behave as sequences was a hack.

列表的连接和重复: `+` 和 `*`

In [None]:
lst1 = [1, 2, 3]
lst2 = [4, 5, 6]
lst1 + lst2

In [None]:
lst1 * 4

如果重复嵌套的列表会发生什么？

In [None]:
nested_lst = [[1, 2, 3]] * 3
nested_lst

如果尝试修改嵌套列表中的元素会发生什么？

In [None]:
nested_lst[0][0] = 10
nested_lst

我们本来只想修改nested_lst[0][0]这一个元素，但是每行的第一个元素都被修改了，为什么？

In [None]:
nested_tup = ([1, 2, 3]) * 3
print(nested_tup)
nested_tup[0]
print(nested_tup)

![Python Tutor: Visualize code](./img/2023-09-04-20-05-20.png)

为什么元组相比列表的性能更高？
- 为了评估元组字面值，Python编译器会通过一次操作生成用于元组常量的字节码；
- 而对于列表字面值，生成的字节码会将每个元素作为单独的常量推送到数据栈中，然后再构建列表。
- 给定一个元组t，tuple(t)只会返回对同一t的引用。不需要复制。
- 相比之下，给定一个列表l，list(l)构造函数必须创建l的一个新副本。
- 由于元组具有固定长度，因此分配给元组实例的内存空间正好满足其需求。
- 另一方面，列表实例的分配空间则会多出一些，以摊销未来追加操作的成本。
- 元组中的元素引用保存在元组结构的数组中
- 而列表则保存对另外一个存储在其他地方的引用数组的指针。这种间接引用是必要的，因为当列表增长超出当前分配的空间时，Python需要重新分配引用数组的空间。这种额外的间接引用会减少CPU缓存的效果。

[原文链接](https://stackoverflow.com/questions/68630/are-tuples-more-efficient-than-lists-in-python/22140115#22140115)

In [None]:
# 字面量(literal)
x = 1  # 整数字面量
y = 1
print(x is y)
tup1 = (1, 2, 3)  # 元组字面量
tup2 = tuple(tup1)
print(tup1 is tup2)
lst1 = [1, 2, 3]
lst2 = list(lst1)
print(lst1 is lst2)

字典
- 从其他序列数据创建字典
- 读取字典和写字典时的默认值

In [None]:
# Creating a dictionary from a list of tuples
pairs = [("a", 1), ("b", 2), ("c", 3)]
dictionary = dict(pairs)
print(dictionary)  # Output: {'a': 1, 'b': 2, 'c': 3}

In [None]:
# Creating a dictionary from two sequences
keys = ["name", "age", "city"]
values = ["John Doe", 25, "New York"]

dictionary = dict(zip(keys, values))
print(dictionary)

读取字典时的默认值： `dict.get(key, default=None)`

In [None]:
alien_0 = {'color': 'green', 'speed': 'slow'}
# print(alien_0['points'])
print(alien_0.get('points', 'No point value assigned.'))

写字典时的默认值： `dict.setdefault()`

In [33]:
# 不使用setdeafult方法

words = ['apple', 'bat', 'bar', 'atom', 'book']
by_letters = {}
for word in words:
    letter = word[0]
    # 首字母的键不在字典中
    if letter not in by_letters:
        by_letters[letter] = [word]  # 新建单词列表
    
    # 首字母的键在字典中
    else:
        by_letters[letter].append(word) # 列表附加单词

print(by_letters)

{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


In [36]:
by_letters = {}
for word in words:
    letter = word[0]
    print(letter, word, by_letters.setdefault(letter, []))
    by_letters.setdefault(letter, []).append(word)
    
    
print(by_letters)

a apple []
b bat []
b bar ['bat']
a atom ['apple']
b book ['bat', 'bar']
{'a': ['apple', 'atom'], 'b': ['bat', 'bar', 'book']}


集合 `set`
- 集合是没有顺序（索引）的没有重复元素的数据集。
- 例如字典所有的键可以构成一个集合。
- 集合的元素放在花括号`{ }`中表示集合。

In [37]:
set([1,2, 2, 3, 4, 2, 3])

{1, 2, 3, 4}

In [38]:
{1, 2, 3} == {3, 2, 1}  # 逻辑上部分先后顺序

True

In [39]:
{1, 2, 3} is {3, 2, 1}  # 在物理存储上有区别

False

空的集合： `set()`

In [40]:
print(set())
print(type({})) # {} is a empty dict

set()
<class 'dict'>


集合的操作和方法

In [44]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}

In [45]:
a | b

{1, 2, 3, 4, 5, 6}

In [46]:
a & b

{3, 4}

In [47]:
a - b

{1, 2}

![集合的操作和方法](./img/2023-09-12-16-55-33.png)

字典合并

In [48]:
d1 = {'a':1, 'b':2}
d2 = {'a':2, 'c': 4, 'e': 6}
d1 | d2

{'a': 2, 'b': 2, 'c': 4, 'e': 6}

In [49]:
d1 |= d2
d1

{'a': 2, 'b': 2, 'c': 4, 'e': 6}

列表推导

`[expr for value in collection if condition]`

In [50]:
words = ['a', 'as', 'bat', 'car', 'dove', 'python']
upper_words = [ x.upper() for x in words if len(x)>2]
print(upper_words)

['A', 'AS', 'BAT', 'CAR', 'DOVE', 'PYTHON']


`[if-else-expr for value in collection if condition]`

In [51]:
# 长度大于2的单词大写，其他的不变
words2 = [ x.upper() if len(x)>2 else x   for x in words]
print(words2)

['a', 'as', 'BAT', 'CAR', 'DOVE', 'PYTHON']


嵌入的列表推导

In [52]:
all_names = [
    ['John', 'Emily', 'Michael', 'Mary', 'Steven'],
    ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']
]
names_2a = [   name for names  in all_names   # 遍历嵌套的列表
                for name in names            # 遍历嵌套的列表元素
                if name.count('a') >=2   # 名字包含两个字母a       
            ]
print(names_2a)

['Maria', 'Natalia']


返回嵌入的列表结构

In [53]:
all_names = [
    ['John', 'Emily', 'Michael', 'Mary', 'Steven'],
    ['Maria', 'Juan', 'Javier', 'Natalia', 'Pilar']
]
names_2a = [  [ name  for name in names if name.count('a')>=2 ]
            for names in all_names   ]
print(names_2a)

[[], ['Maria', 'Natalia']]


### 没有元组推导

集合推导

`{expr for value in collection if condition}`

打印名字中包含'SIGN'的字符的集合

In [54]:
from unicodedata import name
print({  chr(i) for i in range(32, 256) if 'SIGN' in name(chr(i),'')  })

{'÷', '×', '§', 'µ', '¥', '=', '¢', '°', '®', '<', '¶', '+', '%', '©', '>', '$', '±', '£', '#', '¤', '¬'}


字典推导

`dict_comp = {key-expr: value-expr for value in collection
             if condition}`

In [57]:
squares_dict = {i: i**2 for i in range(10) if i%2==0}
print(squares_dict)

{0: 0, 2: 4, 4: 16, 6: 36, 8: 64}


### 习题：从两个列表来创建字典
有两个列表，可能有不同的长度。第一个由 keys 组成，第二个由 values 组成。

写一个函数 createDict(keys, values) ，返回由 keys 和 values 创建的 dictionary。如果没有足够的值，其余的键应该有一个 None 值。如果没有足够的键，就忽略其余的值。

Examples:
```python
keys = ['a', 'b', 'c', 'd']
values = [1, 2, 3]
createDict(keys, values) # {'a': 1, 'b': 2, 'c': 3, 'd': None}

keys = ['a', 'b', 'c']
values = [1, 2, 3, 4]
createDic(keys, values) # {'a': 1, 'b': 2, 'c': 3}
```

In [None]:
def createDict(keys, values):
    
    return { 
            keys[i] : values[i]  
            if i<len(values) else None
            for i in range(len(keys))
    }

In [None]:
keys = ['a', 'b', 'c', 'd']
values = [1, 2, 3]
createDict(keys, values) # {'a': 1, 'b': 2, 'c': 3, 'd': None}

keys = ['a', 'b', 'c']
values = [1, 2, 3, 4]
createDic(keys, values) # {'a': 1, 'b': 2, 'c': 3}

习题：两个列表的差

你在这个kata中的目标是实现一个差值函数，从一个列表中减去另一个列表并返回结果。
它应该从列表a中删除所有在列表b中存在的值，并保持它们的顺序。
```python
array_diff([1,2],[1]) == [2]
```
如果一个值出现在b中，那么它的所有出现必须从另一个中删除。
```python
array_diff([1,2,2,2,3],[2]) == [1,3]
```

[题目地址](https://www.codewars.com/kata/523f5d21c841566fde000009)

In [None]:
def array_diff(a, b):
    return None