# Python 程式語言初級班工作坊

> Python 介紹，東吳大學，2021-05-06

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## 資料結構

## 什麼是資料結構

> 在電腦中用來儲存以及組織資料的機制，可以透過程式語言所提供的資料類型與自行定義類別實現，一個設計良好的資料結構，會在儘可能使用較少的時間與空間資源下，支援各種程式執行。

Source: <https://en.wikipedia.org/wiki/Data_structure>

## 為什麼需要資料結構

- 在軟體工程師日常的工作任務中，資料處理佔有相當高的比例。
- 需要有一個機制能夠協助他們輸入、處理最後輸出資料。
- 這個「機制」就是**資料結構**。

## 四個內建的 Python 基礎資料結構

- `list`
- `tuple`
- `dict` 字典的簡稱
- `set`

## `list`

- `list` 是一種「有序」且能夠「更新」的資料結構。
- `list` 可以透過「逗號」`,` 與「中括號」`[]` 宣告而成。

## 宣告一個 `list`

In [1]:
primes = [2, 3, 5, 7, 11]
type(primes) # use type() to check type

list

## 使用內建函數 `len`  得知一個 `list` 中有幾個資料值

In [2]:
len(primes) # use len() to check length

5

## 從一個 `list` 中取出資料的方式

- **Indexing** 索引指的是從一個 `list` 中取出特定位置的單個資料值。
- **Slicing** 切割指的是從一個 `list` 中擷取特定的片段。

## Indexing 索引 `[index]`

`list` 採用兩個方向的索引機制：
1. 由左至右：「從零開始」的索引機制。
2. 由右至左：「從負一開始」的索引機制。

In [3]:
print(primes[0])  # the first element
print(primes[1])  # the second element
print(primes[-1]) # the last element
print(primes[-2]) # the second last element

2
3
11
7


## Slicing 切割 `[start:stop:step]`

除了可以取出特定位置的單個資料值，`list` 也支援擷取特定片段，藉此獲得一個較短長度 `list` 的語法。

- `start` 起始位置（包含）。
- `stop` 終止位置（排除）。
- `step` 間隔。

In [4]:
print(primes[0:3:1])            # slicing the first 3 elements
print(primes[-3:len(primes):1]) # slicing the last 3 elements 
print(primes[0:len(primes):2])  # slicing every second element

[2, 3, 5]
[5, 7, 11]
[2, 5, 11]


## Slicing 切割如果沒有指定 `start:stop:step`，就採用其預設值

- `start` 起始位置（包含）預設為 `0`。
- `stop` 終止位置（排除）預設為 `list` 的長度。
- `step` 間隔預設為 `1`。

In [5]:
print(primes[:3])  # slicing the first 3 elements
print(primes[-3:]) # slicing the last 3 elements 
print(primes[::2]) # slicing every second element

[2, 3, 5]
[5, 7, 11]
[2, 5, 11]


## 透過宣告來更新 `list` 中的資料值

In [6]:
print(primes)   # before update
primes[-1] = 13 # update
print(primes)   # after update

[2, 3, 5, 7, 11]
[2, 3, 5, 7, 13]


## 也可以透過 `list` 的多種方法更新它

- `.append()`
- `.pop()`
- `.remove()`
- `.insert()`
- `.sort()`
- ...等

我們可以透過 `TAB` 與 `SHIFT - TAB` 在 Jupyter 介面中查詢方法的文件與提示。

In [7]:
primes = [2, 3, 5, 7, 11]
primes.append(13)         # appending an element to the end of a list
primes.pop()              # popping out the last element of a list
primes.remove(2)          # removing the first occurance of an element within a list
primes.insert(0, 2)       # inserting certain element at a specific index
primes.sort(reverse=True) # sorting a list, reverse=False => ascending order; reverse=True => descending order

## `tuple`

- `tuple` 是一種「有序」且「不能夠更新」的資料結構。
- `tuple` 可以透過「逗號」`,` 與「小括號」`()` 宣告而成。

## 宣告一個 `tuple`

In [8]:
primes = (2, 3, 5, 7, 11)
type(primes) # use type() to check type

tuple

## 使用內建函數 `len`  得知一個 `tuple` 中有幾個資料值

In [9]:
len(primes)

5

## `tuple` 在許多地方的表現與 `list` 相同，像是支援索引以及切割

In [10]:
print(primes[0])   # the first element
print(primes[:3])  # slicing the first 3 elements

2
(2, 3, 5)


## `tuple` 與 `list` 最大的不同點，在於 `tuple`「不能夠更新」的特性

透過 `TAB` 與 `SHIFT - TAB` 在 Jupyter 介面中查詢 `tuple` 是否具有更新的方法。

In [11]:
primes[-1] = 13

TypeError: 'tuple' object does not support item assignment

## 在 Python 中有眾多的應用場景會遭遇到 `tuple`

- 自行定義函數預設「多個輸出」的資料結構。
- `dict` 的 `items()` 方法輸出。
- 內建函數 `enumerate` 與 `zip` 的輸出。
- ...等。

## `dict`

- `dict` 是一種使用「鍵值對應」關係（mappings of keys to values）的資料結構。
- `dict` 可以透過「逗號」`,`、「鍵值對應」`key: value` 與「大括號」`{}` 宣告而成。

In [12]:
the_shawshank_redemption = {
    'title': 'The Shawshank Redemption',
    'year': 1994,
    'rating': 9.3,
    'director': 'Frank Darabont'
}
type(the_shawshank_redemption)

dict

## 使用內建函數 `len`  得知一個 `dict` 中有幾組鍵值對應

In [13]:
len(the_shawshank_redemption)

4

## `dict` 採用「以鍵取值」的索引機制

In [14]:
print(the_shawshank_redemption['title'])
print(the_shawshank_redemption['year'])
print(the_shawshank_redemption['rating'])
print(the_shawshank_redemption['director'])

The Shawshank Redemption
1994
9.3
Frank Darabont


## 用來檢視 `dict` 的三個方法

1. `.keys()` 檢視鍵。
2. `.values()` 檢視值。
3. `.items()` 檢視鍵值對應。

In [15]:
print(the_shawshank_redemption.keys())
print(the_shawshank_redemption.values())
print(the_shawshank_redemption.items())

dict_keys(['title', 'year', 'rating', 'director'])
dict_values(['The Shawshank Redemption', 1994, 9.3, 'Frank Darabont'])
dict_items([('title', 'The Shawshank Redemption'), ('year', 1994), ('rating', 9.3), ('director', 'Frank Darabont')])


## 透過宣告新增 `dict` 中的鍵值對應

In [16]:
the_shawshank_redemption['lead_actors'] = ['Tim Robbins', 'Morgan Freeman']
print(the_shawshank_redemption)

{'title': 'The Shawshank Redemption', 'year': 1994, 'rating': 9.3, 'director': 'Frank Darabont', 'lead_actors': ['Tim Robbins', 'Morgan Freeman']}


## 使用 `del` 保留字刪除 `dict` 中的鍵值對應

In [17]:
del the_shawshank_redemption['lead_actors']
print(the_shawshank_redemption)

{'title': 'The Shawshank Redemption', 'year': 1994, 'rating': 9.3, 'director': 'Frank Darabont'}


## `set`

- `set` 是一種「無序」、儲存「獨一值」並且能夠進行「集合運算」的資料結構。
- `set` 可以透過「逗號」`,` 與「大括號」`{}` 宣告而成。

In [18]:
primes = {2, 3, 5, 7, 11, 11} # 11 is duplicated
odds = {1, 3, 5, 7, 9, 9}     # 9 is duplicated
print(type(primes))
print(type(odds))

<class 'set'>
<class 'set'>


## 使用內建函數 `len`  得知一個 `set` 中有幾個獨一值

In [19]:
print(len(primes))
print(len(odds))

5
5


## `set` 最重要的特性是支援「集合運算」

- 交集：使用 `&` 或者 `.intersection()` 方法。
- 聯集：使用 `|` 或者 `.union()` 方法。
- 差集：使用 `-` 或者 `.difference()` 方法。
- 對稱差集：使用 `^` 或者 `.symmetric_difference()` 方法。

## 使用 `&` 或者 `.intersection()` 方法

In [20]:
print(primes & odds)             # with an operator
print(primes.intersection(odds)) # equivalently with a method

{3, 5, 7}
{3, 5, 7}


## 使用 `|` 或者 `.union()` 方法

In [21]:
print(primes | odds)      # with an operator
print(primes.union(odds)) # equivalently with a method

{1, 2, 3, 5, 7, 9, 11}
{1, 2, 3, 5, 7, 9, 11}


## 使用 `-` 或者 `.difference()` 方法

In [22]:
print(primes - odds)           # with an operator
print(primes.difference(odds)) # equivalently with a method
print(odds - primes)           # with an operator
print(odds.difference(primes)) # equivalently with a method

{2, 11}
{2, 11}
{1, 9}
{1, 9}


## 使用 `^` 或者 `.symmetric_difference()` 方法

In [23]:
print(primes ^ odds)                      # with an operator
print(primes.symmetric_difference(odds))  # equivalently with a method

{1, 2, 9, 11}
{1, 2, 9, 11}


## Python 資料結構最具威力的特性是「複合性」

複合性的意思是資料結構中能夠儲存異質的資料類型與包含不同的資料結構。 

- 資料類型：`int`/`float`/`str`/`bool`/`NoneType`
- 資料結構：`list`/`tuple`/`dict`/`set` 

## 載入資料

## 截至目前為止，我們透過手動輸入建立資料

常見的應用情境是透過「載入資料」成為資料結構進行資料處理與後續分析。

## 常見資料格式

- 無結構的文字資料（Non-structured texts）。
- JSON(**J**ava**S**cript **O**bject **N**otations)。
- 表格形式資料（Tabular data）。

## 無結構的文字資料

`the_shawshank_redemption_storyline.txt`

```
Chronicles the experiences of a formerly successful banker as a prisoner in the gloomy jailhouse of Shawshank after being found guilty of a crime he did not commit.
The film portrays the man's unique way of dealing with his new, torturous life; along the way he befriends a number of fellow prisoners, most notably a wise long-term inmate named Red.
```

## 載入無結構的文字資料

- 透過內建函數 `open` 建立一個 `TextIOWrapper`。
- 以 `TextIOWrapper` 的 `readlines` 方法將文字分行載入至 `list`。

In [24]:
file = open('the_shawshank_redemption_storyline.txt')
storyline = file.readlines()
file.close()
print(type(storyline))
print(storyline)

<class 'list'>
['Chronicles the experiences of a formerly successful banker as a prisoner in the gloomy jailhouse of Shawshank after being found guilty of a crime he did not commit.\n', "The film portrays the man's unique way of dealing with his new, torturous life; along the way he befriends a number of fellow prisoners, most notably a wise long-term inmate named Red."]


## 如果擔心忘記關閉檔案造成非預期的錯誤，可以使用 `with` 保留字

透過 `with` 可以確保檔案在縮排的區塊中使用完後會自動關閉。

In [25]:
with open('the_shawshank_redemption_storyline.txt') as file:
    storyline = file.readlines()
print(type(storyline))
print(storyline)

<class 'list'>
['Chronicles the experiences of a formerly successful banker as a prisoner in the gloomy jailhouse of Shawshank after being found guilty of a crime he did not commit.\n', "The film portrays the man's unique way of dealing with his new, torturous life; along the way he befriends a number of fellow prisoners, most notably a wise long-term inmate named Red."]


## 什麼是 JSON

> JSON (JavaScript Object Notation) 是一種輕量的資料交換格式，由兩種結構組合而成：一是具有鍵值對應關係的資料結構，在不同的程式語言中可能被稱為 object、record、struct、**dictionary**、hash table、keyed list 或者 associative array。二是有序清單的資料結構，在不同的程式語言中可能被稱為 array、vector、**list** 或者 sequence。

Source: <https://www.json.org/json-en.html>

## JSON

`the_shawshank_redemption.json`

```
{
    "title": "The Shawshank Redemption",
    "year": 1994,
    "rating": 9.3,
    "director": "Frank Darabont"
}
```

## 載入 JSON

- 透過內建函數 `open` 建立一個 `TextIOWrapper`。
- 以 `json` 套件的 `load` 函數將 JSON 載入。

In [26]:
import json

with open('the_shawshank_redemption.json') as file:
    the_shawshank_redemption = json.load(file)
print(type(the_shawshank_redemption))
print(the_shawshank_redemption)

<class 'dict'>
{'title': 'The Shawshank Redemption', 'year': 1994, 'rating': 9.3, 'director': 'Frank Darabont'}


## 什麼是表格形式資料

> 表格形式資料是由列（rows）與欄（columns）所構成的有序資料集合，其中欄位通常採用名稱來標記、列則通常採用整數索引標記，每一列與每一欄的交匯處則稱之為儲存格（cells）。

Source: <https://en.wikipedia.org/wiki/Table_(information)>

## 常見的表格形式資料

- CSV(Comma Separated Values)
- 試算表
- 儲存於資料庫中的資料表

## 在學習第三方套件 `pandas` 的時候，會介紹其中用來載入表格形式資料的函數

<https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html>

## 流程控制

## 什麼是流程控制

> 在程式執行時，特定區塊的程式碼執行的依據、重複次數以及先後順序等，像是特定條件成立的時候執行一段程式或者重複執行一段程式直到特定條件成立為止。

Source: <https://en.wikipedia.org/wiki/Control_flow>

## 常見的流程控制

- 條件判斷
- 迴圈
    - `while` 迴圈
    - `for` 迴圈

## 什麼是條件判斷

> 條件判斷是依指定變數或者運算的布林值為真或假時，來決定是否執行一段位於某區塊內的程式，透過 `if-else` 指令可以根據指定條件是否成立，決定後續要執行的程式，也可以組合多個 `if-else` 指令進行更複雜的條件判斷。

Source: https://en.wikipedia.org/wiki/Conditional_(computer_programming)

## 使用條件與縮排建立條件判斷

- 條件指的是一段能夠被解讀為布林（`bool`）的敘述。
- 縮排是 Python 用來辨識程式碼依附區塊的結構，要特別留意。

```python
if CONDITION:
    # statements to be executed if CONDITION is evaluated as True.
    # ...
```

## 多數程式語言使用大括號 `{}` 來標註程式碼所依附的指令

- Python 使用**縮排**來標注。
- 一段程式碼的依附關係從縮排開始直到第一個未縮排結束。
- 縮排必須隨著依附指令的數量而增加。

## 使用關係運算符或者邏輯運算符生成布林

- 關係運算符：`==`, `!=`, `>`, `<`, `>=`, `<=`, `in`, `not in`
- 邏輯運算符：`and`, `or`, `not`

## 使用 `if` 依據條件真假決定是否執行程式分支

```python
if CONDITION:
    # statements to be executed if CONDITION is evaluated as True.
    # ...
```

In [27]:
def return_msg_if_positive(x):
    if x >= 0:
        return "{} is positive.".format(x)

print(return_msg_if_positive(5566))
print(return_msg_if_positive(-5566))

5566 is positive.
None


## 使用 `if` 與 `else` 依據條件真假執行不同程式分支

```python
if CONDITION:
    # statements to be executed if CONDITION is evaluated as True.
    # ...
else:
    # statements to be executed if CONDITION is evaluated as False.
    # ...
```

In [28]:
def return_msg_whether_positive_or_not(x):
    if x >= 0:
        msg = "{} is positive.".format(x)
    else:
        msg = "{} is negative.".format(x)
    return msg

print(return_msg_whether_positive_or_not(5566))
print(return_msg_whether_positive_or_not(-5566))

5566 is positive.
-5566 is negative.


## 使用 `if`、`elif` 與 `else` 依據條件真假執行不同程式分支

```python
if CONDITION_A:
    # statements to be executed if CONDITION_A is evaluated as True.
    # ...
elif CONDITION_B:
    # statements to be executed if CONDITION_B is evaluated as True.
    # ...
elif CONDITION_C:
    # statements to be executed if CONDITION_C is evaluated as True.
    # ...
else:
    # statements to be executed if CONDITION_A, CONDITION_B, and CONDITION_C are all evaluated as False.
    # ...
```

In [29]:
def return_modulo_divided_by_three(x):
    if x % 3 == 1:
        msg = "The modulo of {} divided by 3 is 1.".format(x)
    elif x % 3 == 2:
        msg = "The modulo of {} divided by 3 is 2.".format(x)
    else:
        msg = "The modulo of {} divided by 3 is 0.".format(x)
    return msg

print(return_modulo_divided_by_three(54))
print(return_modulo_divided_by_three(55))
print(return_modulo_divided_by_three(56))

The modulo of 54 divided by 3 is 0.
The modulo of 55 divided by 3 is 1.
The modulo of 56 divided by 3 is 2.


## `if`、`elif` 與 `else` 形成的條件判斷結構僅會執行「一個」程式分支

- 如果條件彼此之間互斥，寫作條件的先後順序**沒有**影響。
- 如果條件彼此之間**非**互斥，寫作條件的先後順序**有**影響。

## 以「Fizz buzz」為例

<https://en.wikipedia.org/wiki/Fizz_buzz>

In [30]:
def fizz_buzz(x):
    if x % 15 == 0:
        ans = "Fizz Buzz"
    elif x % 3 == 0:
        ans = "Fizz"
    elif x % 5 == 0:
        ans = "Buzz"
    else:
        ans = x
    return ans

print(fizz_buzz(2))
print(fizz_buzz(3))
print(fizz_buzz(5))
print(fizz_buzz(15))

2
Fizz
Buzz
Fizz Buzz


## 什麼是迴圈

> 迴圈是一種常見的流程控制，雖然在程式中只會出現一次、但卻可能被連續執行多次的程式碼，迴圈中的程式碼會執行特定的次數、執行到特定條件成立時結束或者針對資料結構中的所有內容遍歷。

Source: <https://en.wikipedia.org/wiki/Control_flow#Loops>

## 迴圈的三個要素（與 Slicing 語法相同）

- `start` 迴圈的起始
- `stop` 迴圈的終止
- `step` 迴圈從起始前往終止的方式

## `while` 迴圈會在條件被評估為 `True` 的時候重複執行縮排內的程式碼

```python
i = 0 # start
while CONDITION: # stop
    # repeated statements
    # ...
    i += 1 # step
```

## 描述迴圈的 `step` 時常用賦值運算符（Assignment operators）

- `i += 1` 等同於 `i = i + 1` 
- `i -= 1` 等同於 `i = i - 1` 
- `i *= 1` 等同於 `i = i * 1` 
- `i /= 1` 等同於 `i = i / 1` 
- ...etc.

In [31]:
def print_first_five_odds():
    i = 1 # start
    while i < 11: # stop
        print(i)
        i += 2 # step

print_first_five_odds()

1
3
5
7
9


## `for` 迴圈會將 `in` 之後的可迭代變數中所有內容遍歷，直到它的尾端

```python
for i in ITERABLE: # start/stop/step
    # repeated statements
    # ...
```

## 宣告可迭代變數的當下就將迴圈的三個要素交代完整

- `start` 可迭代變數的第 0 項資料。
- `stop` 可迭代變數的最後一項（第 -1 項）。
- `step` 可迭代變數的逗號區隔。

In [32]:
def print_first_five_odds():
    for i in [1, 3, 5, 7, 9]: # start/stop/step
        print(i)

print_first_five_odds()

1
3
5
7
9


## 使用 `range` 函數宣告可迭代變數

In [33]:
help(range)

Help on class range in module builtins:

class range(object)
 |  range(stop) -> range object
 |  range(start, stop[, step]) -> range object
 |  
 |  Return an object that produces a sequence of integers from start (inclusive)
 |  to stop (exclusive) by step.  range(i, j) produces i, i+1, i+2, ..., j-1.
 |  start defaults to 0, and stop is omitted!  range(4) produces 0, 1, 2, 3.
 |  These are exactly the valid indices for a list of 4 elements.
 |  When step is given, it specifies the increment (or decrement).
 |  
 |  Methods defined here:
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(self, key, /)
 |      Return self[key].
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __hash__(self, /)
 |

## 運用程式碼視覺化工具協助理解流程控制

<http://www.pythontutor.com/visualize.html#mode=edit>

## 什麼是可迭代變數

可迭代變數（iterable）指的是 Python 中具有一次回傳其中一個資料值特性的類別，常見的可迭代變數包含文字與資料結構。

In [34]:
def iterate_a_string(a_string):
    for i in a_string:
        print(i)

may4th = "Luke, use the Force!"
iterate_a_string(may4th)

L
u
k
e
,
 
u
s
e
 
t
h
e
 
F
o
r
c
e
!


## 如何遍歷一個 `list`、`tuple` 或 `set` 中的值

In [35]:
def iterate_a_seq(a_seq):
    for i in a_seq:
        print(i)

iterate_a_seq([2, 3, 5])
print("===")
iterate_a_seq((2, 3, 5))
print("===")
iterate_a_seq({2, 3, 5})

2
3
5
===
2
3
5
===
2
3
5


## 如何遍歷一個 `dict`

善用三個常用方法：

1. `.keys()`
2. `.values()`
3. `.items()`

In [36]:
the_shawshank_redemption = {
    'title': 'The Shawshank Redemption',
    'year': 1994,
    'rating': 9.3,
    'director': 'Frank Darabont'
}

In [37]:
for k in the_shawshank_redemption.keys():
    print(k)

title
year
rating
director


In [38]:
for v in the_shawshank_redemption.values():
    print(v)

The Shawshank Redemption
1994
9.3
Frank Darabont


In [39]:
for k, v in the_shawshank_redemption.items():
    print("{}: {}".format(k, v))

title: The Shawshank Redemption
year: 1994
rating: 9.3
director: Frank Darabont


## 不可迭代的變數

- `int`
- `float`
- `bool`

In [40]:
def is_x_iterable(x):
    try:
        I = iter(x)
        return True
    except:
        x_type = type(x)
        return "{} is not iterable".format(x_type)

print(is_x_iterable(5566))
print(is_x_iterable(5566.0))
print(is_x_iterable(True))
print(is_x_iterable(False))

<class 'int'> is not iterable
<class 'float'> is not iterable
<class 'bool'> is not iterable
<class 'bool'> is not iterable


## 常見的迴圈應用

- 合併
- 計數
- 加總
- 遍歷複雜的資料結構

## 常見的迴圈應用：合併

透過 `list` 的 `.append()` 方法合併。

In [41]:
def find_odds_between_x_y(x, y):
    odds = []
    for i in range(x, y+1):
        if i % 2 == 1:
            odds.append(i)
    return odds

find_odds_between_x_y(55, 66)

[55, 57, 59, 61, 63, 65]

## 常見的迴圈應用：計數

透過 `count += 1` 計數。

In [42]:
def count_odds_between_x_y(x, y):
    count = 0
    for i in range(x, y+1):
        if i % 2 == 1:
            count += 1
    return count

count_odds_between_x_y(55, 66)

6

## 常見的迴圈應用：加總

透過 `summation += i` 加總。

In [43]:
def sum_odds_between_x_y(x, y):
    summation = 0
    for i in range(x, y+1):
        if i % 2 == 1:
            summation += i
    return summation

sum_odds_between_x_y(55, 66)

360

## 常見的迴圈應用：遍歷複雜的資料結構

透過巢狀迴圈遍歷複雜的資料結構。

In [44]:
batman_trilogy = {
    "titles": ["Batman Begins", "The Dark Knight", "The Dark Knight Rises"],
    "release_dates": ["June 15, 2005", "July 18, 2008", "July 20, 2012"],
    "director": ["Christopher Nolan", "Christopher Nolan", "Christopher Nolan"]
}
for v in batman_trilogy.values():
    for i in v:
        print(i)

Batman Begins
The Dark Knight
The Dark Knight Rises
June 15, 2005
July 18, 2008
July 20, 2012
Christopher Nolan
Christopher Nolan
Christopher Nolan
