# 成為初級資料分析師 | Python 程式設計

> 資料結構

## 郭耀仁

> Data structure takes data from ingredients to collections.

## 什麼是資料結構 

> 資料結構是電腦中儲存、組織資料的方式，Python 的基礎資料結構有四種：`list`、`tuple`、`dict` 與 `set`。

## Python 基礎資料結構的特性 

- 可以巢狀（nested）
- 可以迭代（iteratble）
- 多數可以索引（`set` 除外）

## 大綱

- `list`
- `tuple`
- `dict`
- `set`
- 隨堂練習

## `list`

## 以 `[]` 搭配 `,` 將多筆資料值收納到一個 `list` 中

```python
my_list = [val0, val1, val2, ...]
```

## 如何記錄電影的劇情類型

<https://www.imdb.com/title/tt4154756/>

- Action
- Adventure
- Sci-Fi

## 不使用 `list`

In [None]:
genre_0 = "Action"
genre_1 = "Adventure"
genre_2 = "Sci-Fi"

## 使用 `list`

In [None]:
genre = ["Action", "Adventure", "Sci-Fi"]
print(genre)
print(type(genre))

## 常用的 `list` 操作

- `len()` 觀察長度
- `.append()` 新增資料至末端
- `.pop()` 將最末端資料拋出
- `+` 連結另一個 `list`
- 支援 `in` 比較符號
- 索引（Indexing）
- 切割（Slicing）

In [None]:
# len()
genre = ["Action", "Adventure", "Sci-Fi"]
print(len(genre))

In [None]:
# .append()
genre = ["Action", "Adventure"]
print(genre)
genre.append("Sci-Fi")
print(genre)

In [None]:
# .pop()
genre = ["Action", "Adventure", "Sci-Fi"]
print(genre)
third_genre = genre.pop()
print(third_genre)
print(genre)

In [None]:
# +
genre = ["Action", "Adventure"]
print(genre)
genre += ["Sci-Fi"]
print(genre)

In [None]:
# in
genre = ["Action", "Adventure", "Sci-Fi"]
print("Drama" in genre)
print("Sci-Fi" in genre)

## 索引（indexing）

||index/value|index/value|index/value|
|-|-|-|-|
|從開頭數|0|1|2|
|值|"Action"|"Adventure"|"Sci-Fi"|
|從末端數|-3|-2|-1|

## 以 `0`、`1`、`2` 對應 `"Action"`、`"Adventure"`、`"Sci-Fi"`

In [None]:
# 從開頭數
genre = ["Action", "Adventure", "Sci-Fi"]
print(genre[0])
print(genre[1])
print(genre[2])

## 以 `-1`、`-2`、`-3` 對應 `"Sci-Fi"`、`"Adventure"`、`"Action"`

In [None]:
# 從末端數
genre = ["Action", "Adventure", "Sci-Fi"]
print(genre[-1])
print(genre[-2])
print(genre[-3])

## 切割（slicing）

- `start` 起始索引（包含）
- `stop` 結束索引（不包含）
- `step` 間距

```python
my_list[start:stop:step]
```

In [None]:
cast = ['Robert Downey Jr.',
        'Chris Hemsworth',
        'Mark Ruffalo',
        'Chris Evans',
        'Scarlett Johansson',
        'Don Cheadle',
        'Benedict Cumberbatch',
        'Tom Holland',
        'Chadwick Boseman',
        'Zoe Saldana',
        'Karen Gillan',
        'Tom Hiddleston',
        'Paul Bettany',
        'Elizabeth Olsen',
        'Anthony Mackie']

In [None]:
print(cast[0:3])
print(cast[:3])
print(cast[-3:])
print(cast[::2])
print(cast[::-1])

## `tuple`

## `tuple` 與 `list` 在許多方面都相似

以 `()` 搭配 `,` 將多筆資料值收納到一個 `tuple` 中。

```python
my_tuple = (val0, val1, val2, ...)
```

In [None]:
genre = ("Action", "Adventure", "Sci-Fi")
print(genre)
print(type(genre))

## 常用的 `tuple` 操作

- `len()` 觀察長度
- 索引（Indexing）
- 切割（Slicing）

In [None]:
genre = ("Action", "Adventure", "Sci-Fi")
# len()
print(len(genre))

In [None]:
# indexing
print(genre[1])

In [None]:
# slicing
print(genre[:2])

## `tuple` 與 `list` 最大的不同在於「無法更動」這個特性

一但創建之後，內容與長度都不能改變。

In [None]:
# 更動內容
genre = ["Action", "Adventure", "sci-fi"]
genre[2] = "Sci-Fi"
print(genre)

In [None]:
genre = ("Action", "Adventure", "sci-fi")
genre[2] = "Sci-Fi"

In [None]:
# 更動長度
genre = ["Action", "Adventure"]
genre.append("Sci-Fi")
print(genre)

In [None]:
genre = ("Action", "Adventure")
genre.append("Sci-Fi")
print(genre)

## 函式若需要多個輸出會預設以 `tuple` 回傳

In [None]:
def circle_metric(r):
    pi = 3.14159
    area = pi*r**2
    perimeter = 2*pi*r
    return area, perimeter
type(circle_metric(3))

## 函式多個輸出可以用相同數量的物件宣告

In [None]:
circle_area, circle_perimeter = circle_metric(3)

## `dict`

## `dict` 是一種將資料值與標籤綁定的彈性資料結構

以 `{}` 搭配 `key:value` 將資料值（value）與標籤（key）綁定起來。

```python
my_dict = {
    "key0": val0,
    "key1": val1,
    "key2": val2,
    ...
}
```

In [None]:
the_avengers = {
    "Iron Man": "Tony Stark",
    "Captain America": "Steve Rogers",
    "Hulk": "Bruce Banner",
    "Thor": "Thor",
    "Black Widow": "Natasha Romanoff",
    "Hawkeye": "Clint Barton"
}
print(the_avengers)
print(type(the_avengers))

## 以 `my_dict["key"]` 作索引取值

In [None]:
print(the_avengers["Iron Man"])
print(the_avengers["Captain America"])
print(the_avengers["Hulk"])
print(the_avengers["Thor"])
print(the_avengers["Black Widow"])
print(the_avengers["Hawkeye"])

## 獲取 `dict` 的標籤與資料

- `.keys()`：取得標籤
- `.values()`：取得資料
- `.items()`：同時取得標籤和資料

In [None]:
print(the_avengers.keys())

In [None]:
print(the_avengers.values())

In [None]:
print(the_avengers.items()) # 6 組 tuples

## `set`

## `set` 是能夠進行集合運算的資料結構

以 `{}` 搭配 `,` 將資料收納到 `set` 之中。

```python
my_set = {val0, val1, val2, ...}
```

In [None]:
primes = {2, 3, 5, 7, 11, 13}
print(primes)
print(type(primes))

## `set` 只儲存獨一值

In [None]:
primes = {2, 3, 3, 3, 5, 5}
print(primes)

## `set` 能支援集合運算的符號

- `|` 聯集
- `&` 交集
- `-` 差異
- `^` 對稱差異

In [None]:
primes = {2, 3, 5, 7, 11, 13}
odds = {1, 3, 5, 7, 9, 11, 13}

In [None]:
# 聯集
primes | odds

In [None]:
# 交集
primes & odds

In [None]:
# 差異
print(primes - odds)
print(odds - primes)

In [None]:
# 對稱差異
primes ^ odds

## 與資料結構相同名稱的內建函式

- `list()`
- `tuple()`
- `dict()`
- `set()`

## 常用來創建「空的」資料結構

In [None]:
empty_list = list()
print(empty_list)
print(type(empty_list))
print(len(empty_list))

In [None]:
empty_dict = dict()
print(empty_dict)
print(type(empty_dict))
print(len(empty_dict))

## 空的資料結構可以讓後面的程式碼加入資料值

In [None]:
empty_list.append('Robert Downey Jr.')
empty_list

In [None]:
empty_dict['Tony Stark'] = 'Robert Downey Jr.'
empty_dict

## 其他的資料結構可以透過標準、第三方套件載入使用

- `collections`
- `ndarray`
- `DataFrame`
- ...etc.

## 隨堂練習

In [None]:
cast = ['Robert Downey Jr.',
        'Chris Hemsworth',
        'Mark Ruffalo',
        'Chris Evans',
        'Scarlett Johansson',
        'Don Cheadle',
        'Benedict Cumberbatch',
        'Tom Holland',
        'Chadwick Boseman',
        'Zoe Saldana',
        'Karen Gillan',
        'Tom Hiddleston',
        'Paul Bettany',
        'Elizabeth Olsen',
        'Anthony Mackie']

In [None]:
the_avengers = {
    "release_dates": [
        {'USA': '11 April 2012'},
        {'Taiwan': '25 April 2012'}
    ],
    "genre": ["Action", "Adventure", "Sci-Fi"],
    "avengers": [
        {"Iron Man": "Tony Stark"},
        {"Captain America": "Steve Rogers"},
        {"Hulk": "Bruce Banner"},
        {"Thor": "Thor"},
        {"Black Widow": "Natasha Romanoff"},
        {"Hawkeye": "Clint Barton"}
    ]
}

## 隨堂練習：定義一個函式 `select_sw()` 將 `cast` 中飾演緋紅女巫（Scarlet Witch）的 Elizabeth Olsen 選出來

- 預期輸入：一個 list `cast`
- 預期輸出：一個文字

In [None]:
def select_sw(cast):
    """
    >>> select_sw(cast)
    'Elizabeth Olsen'
    """

## 隨堂練習：定義一個函式 `first_five()` 將 `cast` 中前五個演員選出來

- 預期輸入：一個 list `cast`
- 預期輸出：一個長度為 5 的 list

In [None]:
def first_five(cast):
    """
    >>> first_five(cast)
    ['Robert Downey Jr.', 'Chris Hemsworth', 'Mark Ruffalo', 'Chris Evans', 'Scarlett Johansson']
    """

## 隨堂練習：定義一個函式 `select_sh()` 將 `cast` 中曾演過 Sherlock Holmes 的 Robert Downey Jr.（電影）與 Benedict Cumberbatch（電視劇）選出來

- 預期輸入：一個 list `cast`
- 預期輸出：一個長度為 2 的 tuple

In [None]:
def select_sh(cast):
    """
    >>> select_sh(cast)
    ('Robert Downey Jr.', 'Benedict Cumberbatch')
    """

## 隨堂練習：定義一個函式 `get_release_dates()` 將 `the_avengers` 中美國與台灣的上映日期以一個 `tuple` 回傳

- 預期輸入：一個 dict `the_avengers`
- 預期輸出：一個長度為 2 的 tuple

In [None]:
def get_release_dates(the_avengers):
    """
    >>> get_release_dates(the_avengers)
    ('11 April 2012', '25 April 2012')
    """

## 隨堂練習：定義一個函式 `select_bw_hawkeye()` 將 `the_avengers` 中黑寡婦（Black Widow）與鷹眼（Hawkeye）的角色名 Natasha Romanoff 與 Clint Barton 回傳

- 預期輸入：一個 dict `the_avengers`
- 預期輸出：一個長度為 2 的 tuple

In [None]:
def select_bw_hawkeye(the_avengers):
    """
    >>> select_bw_hawkeye(the_avengers)
    ('Natasha Romanoff', 'Clint Barton')
    """

## 隨堂練習：定義一個函式 `tpe_zip_code(town)` 能讓使用者輸入台北市行政區名稱，並以文字的格式將 3 碼郵遞區號回傳

[臺灣地區郵遞區號一覽表#臺北市](https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E5%9C%B0%E5%8D%80%E9%83%B5%E9%81%9E%E5%8D%80%E8%99%9F%E4%B8%80%E8%A6%BD%E8%A1%A8#%E8%87%BA%E5%8C%97%E5%B8%82100%E2%94%80116)

- 預期輸入：一個文字 `town`
- 預期輸出：一個文字

In [None]:
def tpe_zip_code(town):
    """
    >>> tpe_zip_code('松山區')
    '105'
    >>> tpe_zip_code('信義區')
    '110'
    >>> tpe_zip_code('中山區')
    '104'
    """

In [None]:
%load ../test_cases/test_cases_05.py