#Data Structures

##5.1 More on Lists

In [1]:
fruits = ["apple", "banana"]

# append
# 將項目 加到尾端
fruits.append("cherry")              # ['apple', 'banana', 'cherry']

# extend
# 將可疊代物件(iterable) 接到尾端
fruits.extend(["date", "elderberry"])# ['apple', 'banana', 'cherry', 'date', 'elderberry']

# insert
# 將一個項目插入至 list 中給定的位置。第一個引數為插入處前元素的索引值，所以 a.insert(0, x) 會插入在 list 首位
fruits.insert(1, "blueberry")        # ['apple', 'blueberry', 'banana', 'cherry', 'date', 'elderberry']

# remove
# 刪除 list 中第一個值等於 x 的元素。若 list 中無此元素則會觸發 ValueError。
fruits.remove("banana")              # ['apple', 'blueberry', 'cherry', 'date', 'elderberry']

# pop
# list.pop([i]): 移除 list 中給定位置的項目，並回傳它。如果沒有指定位置， a.pop() 將會移除 list 中最後的項目並回傳它。
last_fruit = fruits.pop()            # 回傳 'elderberry', fruits = ['apple', 'blueberry', 'cherry', 'date']

# clear
# 刪除 list 中所有項目
fruits.clear()
fruits = ['apple', 'blueberry', 'cherry', 'date']

# index
# 回傳 list 中第一個值等於 x 的項目之索引值（從零開始的索引）。若 list 中無此項目，則丟出 ValueError 錯誤。
idx = fruits.index("cherry")         # 2

# count
# 回傳 x 在 list 中所出現的次數。
count_date = fruits.count("date")    # 1

# sort
# list.sort(*, key=None, reverse=False)
# 將 list 中的項目排序。（可使用引數來進行客製化的排序)）
# 不是所有資料都可以被排序或比較。例如，[None, 'hello', 10] 就不可排序，因為整數不能與字串比較，而 None 不能與其他型別比較。
fruits.sort()                        # ['apple', 'blueberry', 'cherry', 'date']

# reverse
fruits.reverse()                     # ['date', 'cherry', 'blueberry', 'apple']

# copy
# 回傳一個淺複製 (shallow copy) 的 list。
fruits_copy = fruits.copy()

###5.1.1 將 List 作為 Stack（堆疊）使用

- 使用方法 append() 將一個項目放到堆疊的頂層。

- 使用方法 pop() 且不給定索引值去取得堆疊最上面的項目。

In [2]:
stack = [3, 4, 5]
stack.append(6)
stack.append(7)
print(stack)

stack.pop()
print(stack)

stack.pop()
top_item = stack.pop()
print(top_item)
print(stack)

[3, 4, 5, 6, 7]
[3, 4, 5, 6]
5
[3, 4]


### 5.1.2. 將 List 作為 Queue（佇列）使用

- 也可以將 list 當作 queue（佇列）使用。然而，list 在這種使用方式下效率較差:
    - 使用 append 和 pop 來加入和取出尾端的元素較快，
    - 而使用 insert 和 pop 來插入和取出頭端的元素較慢（因為其他元素都需要挪動一格）

- 如果要實作 queue，請使用 collections.deque，其被設計成能快速的從頭尾兩端加入和取出

In [3]:
from collections import deque
queue = deque(["Eric", "John", "Michael"])

queue.append("Sherry")      # Sherry arrives
queue.append("Jason")       # Jason arrives

queue.popleft()             # The first to arrive now leaves
queue.popleft()             # The second to arrive now leaves

print(queue)


deque(['Michael', 'Sherry', 'Jason'])


### 5.1.3. List Comprehensions（串列綜合運算）

常見的應用:
- 基於一個序列或 iterable（可疊代物件），將每一個元素經過某個運算的結果串接起來成為新的 list。
- 創建一個子序列，其每一個元素皆滿足一個特定的條件。

In [4]:
# 創建一個「平方的 list」
squares = []
for x in range(10):
    squares.append(x**2)

print(squares)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


In [5]:
squares = [x**2 for x in range(10)]

print(squares)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


一個 list comprehension 的組成，是在一對方括號內，
- 放入一個 expression（運算式）、
- 一個 for 子句、
- 再接著零個或多個 for 或 if 子句。

結果會是一個新的 list，內容是在後面的 for 和 if 子句情境下，對前面運算式求值的結果。

In [6]:
# Example: 組合兩個 list 中彼此相異的元素
[(x, y) for x in [1, 2, 3] for y in [3, 1, 4] if x != y]

[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]

In [7]:
# 等同於以下 (注意 for, if 的順序)
combs = []
for x in [1, 2, 3]:
    for y in [3, 1, 4]:
        if x != y:
            combs.append((x, y))

print(combs)

[(1, 3), (1, 4), (2, 3), (2, 1), (2, 4), (3, 1), (3, 4)]


In [8]:
# Examples:
vec = [-4, -2, 0, 2, 4]

# create a new list with the values doubled
print([x*2 for x in vec])

# filter the list to exclude negative numbers
print([x for x in vec if x >= 0])

# apply a function to all the elements
print([abs(x) for x in vec])

# call a method on each element
freshfruit = ['  banana', '  loganberry ', 'passion fruit  ']
print([x.strip() for x in freshfruit])

# create a list of 2-tuples like (number, square)
print([(x, x**2) for x in range(6)])


[-8, -4, 0, 4, 8]
[0, 2, 4]
[4, 2, 0, 2, 4]
['banana', 'loganberry', 'passion fruit']
[(0, 0), (1, 1), (2, 4), (3, 9), (4, 16), (5, 25)]


In [9]:
# the tuple must be parenthesized, otherwise an error is raised
[x, x**2 for x in range(6)]

SyntaxError: did you forget parentheses around the comprehension target? (ipython-input-3265058268.py, line 2)

In [10]:
# flatten a list using a listcomp with two 'for'
vec = [[1,2,3], [4,5,6], [7,8,9]]
[num for elem in vec for num in elem]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [11]:
# List comprehensions 可以含有複雜的 expression 和巢狀的函式：
from math import pi
[str(round(pi, i)) for i in range(1, 6)]

['3.1', '3.14', '3.142', '3.1416', '3.14159']

### 5.1.4 巢狀的 List Comprehensions



In [12]:
# 在 list comprehesion 中開頭的 expression 可以是任何形式的 expression，包括再寫一個 list comprehension。
# 考慮以下表示 3x4 矩陣的範例，使用 list 包含 3 個長度為 4 的 list
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
]

transposed = []
for i in range(4):
    transposed_row = []
    for row in matrix:
        transposed_row.append(row[i])
    transposed.append(transposed_row)

print(transposed)

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]


In [13]:
# list comprehension
[[row[i] for row in matrix] for i in range(4)]

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

In [14]:
# 在實際運用上，我們傾向於使用內建函式 (built-in functions) 而不是複雜的流程控制陳述式。
# 在這個例子中，使用 zip() 函式會非常有效率：
list(zip(*matrix))

[(1, 5, 9), (2, 6, 10), (3, 7, 11), (4, 8, 12)]

In [15]:
# zip
# zip() 是一個非常實用的內建函式，它的核心原理是將多個可疊代物件（iterables）
# 「並行打包」成一個個 tuple，並回傳一個迭代器。
# 這個迭代器會依序產生「第 i 個元素組合」的 tuple，直到最短的輸入序列耗盡為止。

# zip(iterable1, iterable2, ...)
# - 運作方式
#   - 同時從每個 iterable 取出一個元素，組成 tuple
#   - 當最短的 iterable 沒有更多元素時，停止產生
#   - zip() 回傳的是 zip 物件（迭代器），需要用 list() 或 tuple() 轉換才能看到全部內容

# 1. 記憶體效率高：因為回傳迭代器，不會一次建立完整列表
# 2. 搭配 enumerate：可同時取得索引與多序列元素
# 3. 處理長度不一致：zip() 會截斷到最短序列；若要補齊，可用 itertools.zip_longest()

In [16]:
from itertools import zip_longest

a = [1, 2, 3]
b = ['A', 'B']

print(list(zip(a, b)))

print(list(zip_longest(a, b, fillvalue='*')))

[(1, 'A'), (2, 'B')]
[(1, 'A'), (2, 'B'), (3, '*')]


In [17]:
# 搭配 enumerate() 同時取得索引與多序列元素
names = ['Jason', 'Sherry', 'Ruth']
scores = [60, 70, 80]

for idx, (name, score) in enumerate(zip(names, scores), start=1):
    print(f"{idx}, {name} - {score}")


1, Jason - 60
2, Sherry - 70
3, Ruth - 80


## 5.2 The del statement

In [18]:
# 有一個方法可以藉由索引而不是值來刪除 list 中的項目：del 陳述式。
# 這和 pop() method 傳回一個值不同，del 陳述式可以用來刪除 list 中的片段或者清空整個 list
a = [-1, 1, 66.25, 333, 333, 1234.5]

del a[0]
print(a)

del a[2:4]
print(a)

del a[:]
print(a)

[1, 66.25, 333, 333, 1234.5]
[1, 66.25, 1234.5]
[]


In [19]:
del a
print(a)

NameError: name 'a' is not defined

## 5.3. Tuples and Sequences

- tuple 是 immutable（不可變的），通常儲存異質的元素序列，並可經由拆解 (unpacking)或索引 (indexing) 來存取（或者在使用 namedtuples 的時候藉由屬性 (attribute) 來存取）。
- List 是 mutable（可變的），其元素通常是同質的且可藉由疊代整個 list 來存取。


In [20]:
# 一個 tuple 是由若干個值藉由逗號區隔而組成，例如：
t = 12345, 54321, 'hello!'
print(t)
print(t[0])

# Tuples may be nested:
u = t, (1, 2, 3, 4, 5)
print(u)


(12345, 54321, 'hello!')
12345
((12345, 54321, 'hello!'), (1, 2, 3, 4, 5))


In [21]:
# Tuples are immutable:
t[0] = 88888

TypeError: 'tuple' object does not support item assignment

In [22]:
# but they can contain mutable objects:
k = [1, 2, 3]
v = (k, [3, 2, 1])
print(v)

k.append(4)
print(v)

([1, 2, 3], [3, 2, 1])
([1, 2, 3, 4], [3, 2, 1])


In [23]:
# 陳述式 t = 12345, 54321, 'hello!' 就是一個 tuple packing 的例子：
# 12345，54321 和 'hello!' 一起被放進 tuple 裡。
# 反向操作也可以：
x, y, z = t
print(f"{x}, {y}, {z}")

# 這個正是序列拆解 (sequence unpacking)，可運用在任何位在等號右邊的序列。
# 序列拆解要求等號左邊的變數數量必須與等號右邊的序列中的元素數量相同。

12345, 54321, hello!


In [24]:
# 一個特別的議題是，關於創建一個含有 0 個或 1 個項目的 tuple：語法上會採納一些奇怪的用法。
# 空的 tuple 藉由一對空括號來創建；
# 含有一個項目的 tuple 經由一個值加上一個逗點來創建（用括號把一個單一的值包住是不夠的）。醜，但有效率
empty = ()
print(len(empty))

a = 'hello',    # <-- note trailing comma
print(a)
print(len(a))

0
('hello',)
1


## 5.4 Sets

- 一個 set 是一組無序且沒有重複的元素。
- 基本的使用方式包括了成員測試和消除重複元素。
- Set 物件也支援聯集、交集、差集和互斥等數學運算。

    - 大括號或 set() 函式都可以用來創建 set。
    - 注意：要創建一個空的 set，你必須使用 set() 而不是 {}；後者會創建一個空的 dictionary

In [25]:
basket = {'apple', 'orange', 'apple', 'pear', 'orange', 'banana'}
print(basket)                   # show that duplicates have been removed

print('orange' in basket)       # fast membership testing

print('candy' in basket)


{'apple', 'pear', 'orange', 'banana'}
True
False


In [26]:
# set operations on unique letters from two words
a = set('abracadabra')
b = set('alacazam')

print(a)        # unique letters in a

print(a - b)    # letters in a but not in b

print(a | b)    # letters in a or b or both

print(a & b)    # letters in both a and b

print(a ^ b)    # letters in a or b but not both


{'b', 'd', 'c', 'a', 'r'}
{'b', 'r', 'd'}
{'z', 'b', 'd', 'c', 'l', 'a', 'm', 'r'}
{'a', 'c'}
{'z', 'l', 'm', 'b', 'r', 'd'}


In [27]:
# 和 list comprehensions 類似，也有 set comprehensions（集合綜合運算）
a = {x for x in 'abracadabra' if x not in 'abc'}
print(a)

{'r', 'd'}


## 5.5. Dictionaries

 - Dictionary 有時被稱為「關聯記憶體」(associative memories) 或「關聯陣列」(associative arrays)。
 - 不像序列是由一個範圍內的數字當作索引，dictionary 是由鍵 (key) 來當索引，
    - 鍵可以是任何不可變的類型；字串和數字都可以當作鍵。Tuple 也可以當作鍵，如果他們只含有字串、數字或 tuple；
    - 若一個 tuple 直接或間接地含有任何可變的物件，它就不能當作鍵。
    - 你無法使用 list 當作鍵，因為 list 可以經由索引指派 (index assignment)、切片指派 (slice assignment) 或是像 append() 和 extend() 等 method 被修改。

- 思考 dictionary 最好的方式是把它想成是一組鍵值對 (key: value pair) 的 set，其中鍵在同一個 dictionary 裡必須是獨一無二的。
    - 使用一對大括號可創建一個空的 dictionary：{}。
    - 將一串由逗號分隔的鍵值對置於大括號則可初始化字典的鍵值對。

- 可以使用 del 來刪除鍵值對
- 對 dictionary 使用 list(d) 會得到一個包含該字典所有鍵的 list，其排列順序為插入時的順序。（若想要排序，則使用 sorted(d) 代替即可）。
- 如果想確認一個鍵是否已存在於字典中，可使用關鍵字 in。



In [28]:
tel = {'jason': 123, 'sherry': 456}

tel['ruth'] = 789
print(tel)

del tel['jason']
print(tel)

print(list(tel))

print(sorted(tel))

print('jason' in tel)

print('ruth' in tel)

{'jason': 123, 'sherry': 456, 'ruth': 789}
{'sherry': 456, 'ruth': 789}
['sherry', 'ruth']
['ruth', 'sherry']
False
True


In [29]:
# 函式 dict() 可直接透過一串鍵值對序列來創建 dictionary
dict([('jason', 123), ('sherry', 456), ('ruth', 789)])

{'jason': 123, 'sherry': 456, 'ruth': 789}

In [30]:
# dict comprehensions: 也可以透過任意鍵與值的運算式來創建 dictionary
{x: x**2 for x in (2, 4, 6)}

{2: 4, 4: 16, 6: 36}

In [31]:
# 當鍵是簡單的字串時，使用關鍵字引數 (keyword arguments) 有時會較為簡潔：
dict(jason=123, sherry=456, ruth=789)

{'jason': 123, 'sherry': 456, 'ruth': 789}

## 5.6 Looping Techniques



In [32]:
# 當對 dictionary 作迴圈時，鍵以及其對應的值可以藉由使用 items() method 來同時取得
knights = {'gallahad': 'the pure', 'robin': 'the brave'}
for key, val in knights.items():
    print(key, val)

gallahad the pure
robin the brave


In [33]:
# 要同時對兩個以上的序列作迴圈，可以將其以成對的方式放入 zip() 函式：
questions = ['name', 'quest', 'favorite color']
answers = ['lancelot', 'the holy grail', 'blue']
for q, a in zip(questions, answers):
    print(f"What is your {q}? It is {a}!")

What is your name? It is lancelot!
What is your quest? It is the holy grail!
What is your favorite color? It is blue!


In [34]:
# 要對序列作反向的迴圈，首先先寫出正向的序列，再對其使用 reversed() 函式; 但不會改變原本的序列:
a = [1, 2, 3, 4, 5]
for i in reversed(a):
    print(i)

print(a)

5
4
3
2
1
[1, 2, 3, 4, 5]


In [35]:
# 要以迴圈對序列作排序，使用 sorted() 函式會得到一個新的經排序過的 list ，但不會改變原本的序列：
basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana']
for i in sorted(basket):
    print(i)

print(basket)

apple
apple
banana
orange
orange
pear
['apple', 'orange', 'apple', 'pear', 'orange', 'banana']


In [36]:
# 對序列使用 set() 可去除重複元素。
# 對序列使用 sorted() 加上 set()，則是對經過排序後的非重複元素跑迴圈的慣用方法：
basket = ['apple', 'orange', 'apple', 'pear', 'orange', 'banana']
for i in sorted(set(basket)):
    print(i)

print(basket)

apple
banana
orange
pear
['apple', 'orange', 'apple', 'pear', 'orange', 'banana']


In [37]:
# 有時我們會想要以迴圈來改變的一個 list，但是，通常創建一個新的 list 會更簡單且安全：
import math
raw_data = [56.2, float('NaN'), float('NaN'), 51.7, float('NaN'), 47.8]

# wrong
for val in raw_data:
    if math.isnan(val):
        raw_data.remove(val)

print(raw_data)


[56.2, nan, 51.7, 47.8]


In [38]:
# correct
raw_data = [56.2, float('NaN'), float('NaN'), 51.7, float('NaN'), 47.8]

filtered_data = []
for val in raw_data:
    if not math.isnan(val):
        filtered_data.append(val)

print(filtered_data)

[56.2, 51.7, 47.8]


## 5.7 More on Conditions

- 比較運算子
    - `in` 和 `not in` 用於成員檢查，在容器中檢查一個值是否存在（或不存在）
    - `is` 和 `not is` 比較兩個物件是否真的是相同的物件
- 比較運算可以結合布林運算子 `and` 和 `or`


## 5.8 Comparing Sequences and Other Types

- 序列物件通常可以拿來和其他相同類型的物件做比較。這種比較使用詞典式 (lexicographical) 順序：
    - 首先比較各自最前面的那項，若不相同，便可決定結果；若相同，則比較下一項，以此類推，直到其中一個序列完全用完。
    - 如果被拿出來比較的兩項本身又是相同的序列類型，則詞典式比較會遞迴地執行。
    - 如果兩個序列所有的項目都相等，則此兩個序列被認為是相等的。

In [39]:
print(f"(1, 2, 3) < (1, 2, 4): {(1, 2, 3) < (1, 2, 4)}")

print(f"[1, 2, 3] < [1, 2, 4]: {[1, 2, 3] < [1, 2, 4]}")

print(f"(1, 2, 3, 4) < (1, 2, 4): {(1, 2, 3, 4) < (1, 2, 4)}")

# 如果其中一個序列的所有元素都比較完了，而另一個序列還有剩餘的元素，那麼較短的序列被視為 "較小"。
print(f"(1, 2) < (1, 2, -1): {(1, 2) < (1, 2, -1)}")

print(f"(1, 2, 3) == (1.0, 2.0, 3.0): {(1, 2, 3) == (1.0, 2.0, 3.0)}")

# 相等的話，繼續比下去
# 比較在此結束: 因為 'aa' < 'abc' 為 True，所以就不再往下比。最後結果為 True。
print(f"(1, 2, ('aa', 'ab')) < (1, 2, ('abc', 'a'), 4): {(1, 2, ('aa', 'ab')) < (1, 2, ('abc', 'a'), 4)}")


(1, 2, 3) < (1, 2, 4): True
[1, 2, 3] < [1, 2, 4]: True
(1, 2, 3, 4) < (1, 2, 4): True
(1, 2) < (1, 2, -1): True
(1, 2, 3) == (1.0, 2.0, 3.0): True
(1, 2, ('aa', 'ab')) < (1, 2, ('abc', 'a'), 4): True
