<p style="text-align:center">
    <a href="https://nbviewer.jupyter.org/github/twMr7/Python-Machine-Learning/blob/master/10-Coding_Project.ipynb">
        Open In Jupyter nbviewer
        <img style="float: center;" src="https://nbviewer.jupyter.org/static/img/nav_logo.svg" width="120" />
    </a>
</p>

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/twMr7/Python-Machine-Learning/blob/master/10-Coding_Project.ipynb)

# 10. 程式開發專案 Coding Project

使用互動式的 Jupyter QtConsole 或 Notebook 介面，只適合用來作先期的實驗測試，離開這些介面後原有的函式、變數都不會被保留，當然也沒辦法被其他程式重複使用。 因此，有需要重複執行的功能就通常會把測試過有用的程式碼集合起來，寫成一個副檔名是 **“.py”** 的 **script** 檔案。

當 script 越寫越長，會開始需要將程式碼有結構化的組織起來。 除了常用的功能可以定義成函式以外，不同性質的函式可以分類拆成多個不同的 script 檔案。 而根據經驗，將函式的功能定義得越簡單，程式碼越不容易出錯，所以時常可以看到稍大型一點的專案會把一個檔案就只放一個函式。

+ [**10.1 模組（Modules）**](#modules)
+ [**10.2 套件（Packages）**](#packages)


<a id="modules"></a>

## 10.1 模組 Modules

在 Python 環境裡，一個 script 檔案就是一個模組，模組的名稱就是檔案的名稱（不包括 .py 的副檔名），模組裡面所有定義的函式及變數都需要透過 `import` 才能被另外一個 script 檔案使用。 Python 要 import 一個模組時，會先從內建模組開始搜尋起，找不到的話則依序尋找以下位置：

1. 叫用 `import` 的 script 檔案的相同目錄。
2. 系統環境變數 `PYTHONPATH` 的搜尋路徑清單。
3. 標準函式庫的目錄。
4. 副檔名為 `.pth` 的路徑設定檔。
5. 其他函式庫套件 `Lib/site-packages` 路徑。

並不是只有副檔名是 .py 的 script 檔才能 `import`，由名稱選取的套件（package）或模組（module），可以是以下幾種格式：
+ 副檔名是 **.py** 的程式碼文字檔。
+ 副檔名是 **.pyc** 的編譯過的 byte code 檔案。
+ 目錄名稱符合，而且存在套件必要的 `__init__.py` 檔。
+ 由 C++ 程式編譯來的，副檔名是 **.pyd** 的動態連結延伸模組
+ 副檔名是 **.zip** 的壓縮檔，**import** 時會自動解壓縮。


兩種輸入模組的語法可以使用 `import ...` 以及 `from ... import ...`，差別在於是否需要透過模組名稱來存取模組內的函式或變數名字。

### `import` 陳述
```
import module1
import module2, module3
import module4 as m4
```
使用 `import` 的陳述，因為是整個模組物件直接輸入，必需透過模組名稱來存取模組內的函式或變數名字。 如：`module1.func1()`，`m4.func4()`，`module2.var2`。

### `from` 陳述
```
from module1 import func1
from module2 import func2, var2
from module3 import *
from package import module4 as m4
```
使用 `from` 的陳述，因為指定了要從模組輸入的函式或變數名字，因此不需要再透過模組名稱來存取。 如： `func1()`，`func2()`，`var2`。

### 模組 `import` 只會發生一次
由於一個模組的 `import` 是相當昂貴的操作，因此 `import` 只會在程式的執行生命週期內發生一次，輸入的模組只會有一份。


### 模組的使用模式： `__name__` 以及 `__main__`

所有的模組都有一個內建的 `__name__` 屬性，在 Python 建立該模組時就會自動指定。
+ 如果 script 檔是被執行成最上層的程式，`__name__` 屬性會被指定為 `'__main__'`，例如在命令列下指令 `python somescript.py`，或 `python -m somescript.py`，或是在 *ipython* 或 *jupyter notebook* 執行 `%run somescript.py`。
+ 如果 script 檔是被 `import` 方式載入的，`__name__` 屬性會被指定為模組的名字。

除了原本就是設計為程式進入點的 script 以外，也時常可以看到純函式的模組包含這樣的檢查：
```
if __name__ == '__main__':
    main()
```

編輯一個 script 儲存成 `"wordcount.py"`，`%%writefile` 是 ipython 內建的一個 cell magic 命令，用來將 cell 裡的程式碼存成檔案。

In [None]:
%%writefile wordcount.py
import string

def wordcount(line):
    """
    wordcount(line)
    ---------------
    Arguments:
        line - single text line
    Return:
        the number of words
    """
    # strip off punctuations
    word_or_not = [s.strip(string.punctuation).isalnum() for s in line.split()]
    return sum(word_or_not)

In [None]:
# 測試載入 wordcount 模組及函式
import wordcount as wc
wc.wordcount("the quick brown fox jumps over the lazy dog.")

編輯一個 script 儲存成 `"textsum.py"` 

In [None]:
%%writefile textsum.py
from pathlib import Path
import wordcount as wc
import sys
import argparse

parser = argparse.ArgumentParser(description='Summarize the contents of a text file')
parser.add_argument('input_file', type=str, help='The path of input file')

def main(input_path):
    """
    Arguments:
        input_path - path-like object
    """
    n_lines = n_words = 0
    with open(input_path, 'r', encoding='utf-8') as fin:
        for line in fin:
            n_lines += 1
            n_words += wc.wordcount(line)
    print('{}: Total {} lines and possible {} words.'.format(parser.prog, n_lines, n_words))

if __name__ == '__main__':
    args = parser.parse_args()
    input_path = Path(args.input_file)
    # exit if is not a valid file
    if (not input_path.exists()) or (not input_path.is_file()):
        print('{}: error! "{}" is not a valid file.'.format(parser.prog, args.input_file), file=sys.stderr)
        sys.exit(1)

    # processing the file
    print('{}: processing input file "{}"'.format(parser.prog, args.input_file))
    main(input_path)

In [None]:
# 命令列參數 -h 或 --help 可以檢視程式的使用說明
%run textsum.py -h

In [None]:
# 錯誤的路徑不會執行
%run textsum.py notexist.txt

In [None]:
# 用 wordcount.py 當計算行數和字數的輸入檔案
%run textsum.py wordcount.py

### 作業練習

`wordcount()` 函式有很多缺陷：
1. 字數的判斷有誤差，沒有考慮到很多特殊狀況，例如： utf-8 也應該是一個合法的 word。
2. 程式碼寫得很精簡，這樣很好，但是不易除錯。

請試著修改 `wordcount()` 函式：
1. 加入更多判斷及處理，讓字數的計算更精準。
2. 將一行 list comprehension 的寫法改成普通的 `for` 迴圈及 `if-else` 的判斷組合。
3. 使用一種整合式開發環境（IDE），練習使用中斷點、單步除錯、檢視執行時期變數值的功能。

<a id="packages"></a>

## 10.2 套件 Packages

套件是利用檔案系統來結構化組織模組的方式。 以設計一個音訊處理的 `sound` 套件為例（以下範例來自 [Python官方文件](https://docs.python.org/3/tutorial/modules.html#packages) ），不同聲音檔案格式的讀寫，適合有各自獨立的模組來處理，然後集合成一個 `formats` 的子套件。 然後音訊資料又可以套用許多不同的特效及濾波，以下是一個可能的套件結構。

```
sound/                          套件最上層目錄
      __init__.py               初始化 sound 套件
      formats/                  子套件： 檔案格式轉換
              __init__.py
              wavread.py
              wavwrite.py
              mp3read.py
              mp3write.py
              ...
      effects/                  子套件： 特效
              __init__.py
              echo.py
              surround.py
              reverse.py
              ...
      filters/                  子套件： 濾波
              __init__.py
              equalizer.py
              vocoder.py
              karaoke.py
              ...

```

+ 屬於 Python 套件的目錄下，必須要存在一個 `__init__.py` 的檔案，內容可以是空的。
+ `import` 的階層按照目錄的階層安排，如 `from sound.effects import echo`。
+ 如果要提供 `from sound.effects import *` 的功能，在 "sound/effects/__init__.py" 檔案裡要有一行 `__all__ = ['echo', 'surround', 'reverse']`，否則只會有 `sound.effects` 被 import。
+ 子套件之間需要交互 import 時，可以使用絕對或相對路徑兩種方式：
    - **絕對方式** - 例如 `sound.filters.karaoke` 需要使用 `echo` 模組的功能，可以用 `from sound.effects import echo`。
    - **相對路徑** - 例如在 `surround` 模組裡，可以這樣用 `from . import echo`，`from .. import formats`，或 `from ..filters import equalizer`。
+ 套件如果要執行成上層應用程式，必須透過 `python -m somepackage` 的方式，且套件裡要存在 `__main__.py` 的模組作為程式的主要進入點。
