# Python 資料分析

> Python 重要技巧：Comprehensions、Generators、環境與模組管理

[數據交點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

## Comprehensions

## 什麼是 Comprehensions

> Comprehensions 指的是依賴序列來建立序列的語法，Python 2 推出 List comprehension，Python 3 推出 Dictionary comprehension 以及 Set comprehension。

來源：<https://python-3-patterns-idioms-test.readthedocs.io/en/latest/>

## 建立 `list` 的傳統方式

In [1]:
primes = [2, 3, 5, 7, 11]
squared_primes = []
for p in primes:
    squared_primes.append(p**2)
print(squared_primes)

[4, 9, 25, 49, 121]


## 以 `List comprehension` 建立 `list`

In [2]:
primes = [2, 3, 5, 7, 11]
squared_primes = [p**2 for p in primes]
print(squared_primes)

[4, 9, 25, 49, 121]


## 在 `List comprehension` 中加入 `if` 條件判斷

In [3]:
primes = [2, 3, 5, 7, 11]
squared_odd_primes = [p**2 for p in primes if p % 2 == 1]
print(squared_odd_primes)

[9, 25, 49, 121]


## 在 `List comprehension` 中加入 `if-else` 條件判斷

In [4]:
primes = [2, 3, 5, 7, 11]
is_even_primes = [True if p % 2 == 0 else False for p in primes]
print(is_even_primes)

[True, False, False, False, False]


## 以 `Set comprehension` 建立 `set`

In [5]:
primes = [2, 3, 5, 7, 11]
squared_primes = {p**2 for p in primes}
print(squared_primes)
print(type(squared_primes))

{4, 9, 49, 121, 25}
<class 'set'>


## 以 `Dictionary comprehension` 建立 `dict`

In [6]:
primes = [2, 3, 5, 7, 11]
squared_primes = {p: p**2 for p in primes}
print(squared_primes)
print(type(squared_primes))

{2: 4, 3: 9, 5: 25, 7: 49, 11: 121}
<class 'dict'>


## 以 `List comprehension` 建立 `list` 時不小心使用了小括號而非中括號

In [7]:
primes = [2, 3, 5, 7, 11]
squared_primes = (p**2 for p in primes)
print(squared_primes)
print(type(squared_primes))

<generator object <genexpr> at 0x7f7ffb4a0040>
<class 'generator'>


## Generators

## 什麼是 Generators

Generators 與 Comprehensions 相似，不同的地方在於 Comprehensions 所產出的資料結構中儲存的資料值，Generators 則是儲存資料值的產生規則，必須經過實例化才會將資料值儲存到資料結構中。若是以料理來比喻，Comprehensions 的輸出就像是最後端上桌的菜餚，而 Generators 的輸出則像是菜餚的食譜。

## Generators 的特性

- 具備儲存與計算的效率性。
- 僅能實例化一次。

In [8]:
print(list(squared_primes))
print(list(squared_primes))

[4, 9, 25, 49, 121]
[]


## 我們為什麼需要認識 Generators

- 要混淆使用者的大腦（X）
- 很多內建函數的輸出有 Generators 的特性（O）

## 具有 Generators 特性的內建函數

- 迭代器函數
    - `enumerate`
    - `zip`
- 函數型函數
    - `map`
    - `filter`

## `enumerate` 函數

讓 `for` 迴圈可以同時走訪資料結構的「索引」與「資料值」。

In [9]:
avenger_movies = ['The Avengers', 'Avengers: Age of Ultron', 'Avengers: Infinity War', 'Avengers: Endgame']
enum = enumerate(avenger_movies)
print(enum)
print(list(enum))
print(list(enum))

<enumerate object at 0x7f7ffb497980>
[(0, 'The Avengers'), (1, 'Avengers: Age of Ultron'), (2, 'Avengers: Infinity War'), (3, 'Avengers: Endgame')]
[]


In [10]:
avenger_movies = ['The Avengers', 'Avengers: Age of Ultron', 'Avengers: Infinity War', 'Avengers: Endgame']
for index, item in enumerate(avenger_movies):
    print("{}: {}".format(index, item))

0: The Avengers
1: Avengers: Age of Ultron
2: Avengers: Infinity War
3: Avengers: Endgame


## `zip` 函數

讓 `for` 迴圈可以同時走訪多個資料結構的「資料值」。

In [11]:
avenger_movies = ['The Avengers', 'Avengers: Age of Ultron', 'Avengers: Infinity War', 'Avengers: Endgame']
release_years = [2012, 2015, 2018, 2019]
zipped = zip(release_years, avenger_movies)
print(zipped)
print(list(zipped))
print(list(zipped))

<zip object at 0x7f7ffb47fbc0>
[(2012, 'The Avengers'), (2015, 'Avengers: Age of Ultron'), (2018, 'Avengers: Infinity War'), (2019, 'Avengers: Endgame')]
[]


In [12]:
avenger_movies = ['The Avengers', 'Avengers: Age of Ultron', 'Avengers: Infinity War', 'Avengers: Endgame']
release_years = [2012, 2015, 2018, 2019]
for year, movie in zip(release_years, avenger_movies):
    print("{} was released in {}.".format(movie, year))

The Avengers was released in 2012.
Avengers: Age of Ultron was released in 2015.
Avengers: Infinity War was released in 2018.
Avengers: Endgame was released in 2019.


## `map` 函數

逐次把資料結構的「資料值」當作參數，依據傳給使用（呼叫）的函數，像 `map` 這樣的函數也稱為函數型函數（Functional functions）或者高階函數（Higher-order functions）。

In [13]:
release_years = [2012, 2015, 2018, 2019]
mapped = map(float, release_years)
print(mapped)
print(list(mapped))
print(list(mapped))

<map object at 0x7f7ffb478f40>
[2012.0, 2015.0, 2018.0, 2019.0]
[]


## `filter` 函數

逐次把資料結構的「資料值」當作參數，依據傳給使用（呼叫）的函數，保留函數回傳值為 `True` 的輸出，像 `filter` 這樣的函數也稱為函數型函數（Functional functions）或者高階函數（Higher-order functions）。

In [14]:
bools = [False, True, True, True, True]
filtered = filter(None, bools)
print(filtered)
print(list(filtered))
print(list(filtered))

<filter object at 0x7f7ffb49dfa0>
[True, True, True, True]
[]


## Python 使用者習慣將 `map` 與 `filter` 函數搭配 Lambda 函數

Lambda 函數也稱為「匿名函數」，不同於使用 `def` 語法定義函數，Lambda 可以在不指定函數名稱的情況下「同時」定義與使用，並且只有在定義的當下被使用。

In [15]:
def squared(x):
    return x**2
def larger_than_ten(x):
    return x>=10

primes = [2, 3, 5, 7, 11]
print(list(map(squared, primes)))
print(list(filter(larger_than_ten, primes)))

[4, 9, 25, 49, 121]
[11]


In [16]:
primes = [2, 3, 5, 7, 11]
print(list(map(lambda x: x**2, primes)))        # so we don't waste a function name for an easy operation
print(list(filter(lambda x: x >= 10, primes)))  # so we don't waste a function name for an easy operation

[4, 9, 25, 49, 121]
[11]


## 環境與模組管理

## 什麼是環境與模組管理

當開發專案數量增多時，就會開始有對應專案需求，而有不同的 Python 版本以及對應不同的模組版本需要安裝，在一台電腦管理軟體版本，確保各個專案的開發環境不會受到彼此影響，就稱為環境管理。

## Python 標準的環境與模組管理工具

- 環境管理：Python 的標準模組 `venv`：<https://docs.python.org/3/tutorial/venv.html>
- 模組管理：Python 的模組 `pip`：<https://pip.pypa.io/en/stable>

## Conda 既可以管理環境亦能夠管理模組

Conda 是一個開源的跨平台、跨程式語言軟體，能夠在 Windows、macOS 與 Linux 上安裝運行，它被設計作為 Python、R、Lua、Scala 與 Java 等任何程式語言的模組、依賴性以及工作環境管理軟體。

來源：<https://conda.io/projects/conda/en/latest/index.html>

## 獲得 conda 最簡便的方式

- 安裝 [Miniconda](https://docs.conda.io/en/latest/miniconda.html)
- 如何選擇？Miniconda 或者 Anaconda

## 運行 conda 的軟體

- Windows 使用者：Anaconda Prompt 或 Anaconda PowerShell
- macOS 使用者：Terminal（終端機）。

## 檢視 conda 版本與安裝是否完成

```bash
conda --version
```

## 檢視電腦中可使用與目前所在的環境

```bash
conda env list
```

## 建立全新且資源隔絕的環境

```bash
conda create --name pyda python=3
```

## 啟動環境

```bash
conda activate pyda
```

## 檢視目前環境的模組

```bash
conda list
```

## 在目前環境安裝模組

```bash
conda install ipykernel numpy pandas openpyxl matplotlib # conda install module_name=MAJOR.MINOR.PATCH
```

## 檢視 Jupyter Notebook 核心

```bash
jupyter kernelspec list
```

## 新增 Jupyter Notebook 核心

```bash
python -m ipykernel install --user --name pyda --display-name "Python Data Analysis"
```

## 移除 Jupyter Notebook 核心

```bash
jupyter kernelspec remove pyda
```

## 卸載環境

```bash
conda deactivate
```

## 移除環境

```bash
conda remove --name pyda --all
```