# Teacher
> **何思賢**     
shho@fcu.edu.tw  
如需請益，務必事先以 email 聯繫，確認時間。  

<a id='HOME'></a>
# 7. File Processing
## 檔案處理

* [7.1 檔案操作](#file_operations)
    * [7.1.1 開啟檔案處理器的語法](#syntax_for_opening_a_file_handler)
    * [7.1.2 開啟檔案處理器的模式](#mode_of_opening_a_file_handler)
    * [7.1.3 使用 with... as... 語法](#syntax_for_using_'with...as...')
    * [7.1.4 檔案處理常用方法列表](#file_processing_methods_table)
* [7.2 檔案和目錄（資料夾）管理](#files_and_directories_management)
    * [7.2.1 os 模組處理檔案](#os_modules_to_process_files)
    * [7.2.2 os 模組處理目錄](#os_modules_to_process_directories)
    * [7.2.3 搭配例外處理](#collocate_with_exception_handlers)
* [7.3 CSV 檔處理](#csv_file_processing)
    * [7.3.1 CSV 檔讀取](#read_a_csv_file)
    * [7.3.2 CSV 檔寫入](#write_a_csv_file)
    * [7.3.3 CSV 檔批次處理](#batch_processing_of_csv_files)
* [7.4 其他類型的檔案與相關套件/模組](#other_types_of_files_and_related_packages/modules)

<a id='file_operations'></a>
## 7.1 檔案操作

* 我們一般情況下處理檔案時，例如按滑鼠右鍵跳出選單，點下 open 就會「讀取檔案」。
* 以 Python 操作檔案，最好將 `open()` 函式理解成開啟**檔案處理器**，根據選擇**模式**決定該如何操作檔案，例如：`r` 模式讀取檔案、`w` 模式覆寫檔案。
* 那麼，一般情況下處理檔案時選取 open 為什麼會逕行「讀取檔案」呢？我們可以這樣理解：若無特別指定模式，則檔案處理器默認為 `r` 模式。
    
**那麼，為什麼我們需要藉由 Python 操作檔案呢？**

* 我們可能下載了成千上萬個檔案，我們想要以「一致的原則」處理這些檔案，例如：圖檔裁剪成一致大小、對影音檔每隔 5 分鐘作分割、對適合以微軟的 Excel 開啟的檔案（xls, xlsx, csv），計算其中幾欄的平均值。    
* 假如我們只能手動操作，會耗費大量時間作「重複的工作」。
* 不難想像：這樣「重複的工作」比較適合藉由程式語言的「迴圈」來處理，這就是為什麼要學習寫程式來操作檔案。
* 補充：「從網路抓下大量檔案」其實也適合用程式來做，稱為「網站擷取」或「網路爬蟲」，這是後續課程的主題。

<a id='syntax_for_opening_a_file_handler'></a>
### 7.1.1 開啟檔案處理器的語法
[回目錄](#HOME)

* 開啟檔案處理器的語法是：  
`某種特殊的物件 = open(檔案路徑與名稱, mode=模式, encoding=編碼方式)`

    * 模式是選填，預設為 `r` （讀取）。
    * 編碼方式是選填，目前的 Python 3.9 版本預設值會取決於作業系統，例如 Windows 中文作業系統常常是 cp950。很多檔案不是來自同樣的作業系統，若是此項不填寫，出錯機率高。
    * 根據經驗，以 `utf-8` 作為編碼方式能避免最多問題。網路上的來源檔案的編碼方式可能有很多種，正確辨識後可以轉換成 `utf-8` 編碼。請養成習慣以 `utf-8` 作為後續檔案處理的編碼。參考 [維基百科](https://zh.wikipedia.org/wiki/UTF-8) 的介紹。

**底下分幾個小段介紹檔案路徑與名稱：**
* 若只填檔案名稱（而沒有路徑），則會針對同一層目錄的檔案作處理。
    * 例如：`f1 = open('test00ox.txt', mode='r', encoding='utf-8')`  
    在讀取模式下，test00ox.txt 必須與執行程式的腳本檔（通常副檔名是 py 或者是 ipynb）必須放在同一層。舉例來說，若直接把本講義 ipynb 檔案放在 Windows 系統的桌面，執行下面的區塊，若是桌面無 test0.txt 檔，則會報錯 `FileNotFoundError`。

In [None]:
# 直接執行這一區塊會報錯

# file_name = 'test00ox.txt'
# f0 = open(file_name, mode='r', encoding='utf-8')
# print(f0)
# f0.close()

* 在底下的例子中，我們可以先開一個檔案處理器，以寫入模式創建 test1.txt 檔於本講義同一處，**寫入**兩行文字：  
`Hello World!`  
`此時此刻是......我是臨時建構的檔案，有幸與你相遇！`  
再開另一個檔案處理器，**讀取**剛才建立的 test1.txt 檔，並將讀到的內容顯示出來。

In [None]:
# 本段程式碼是讀到此時此刻的時間，請參考「函式與模組」那一講中的 5.2.2 節
from time import localtime as lt
time_now = lt()
str1 = '此時此刻是 '
time_list = [' 年 ', ' 月 ', ' 日 ', ' 時 ', ' 分 ', ' 秒，'] 
for i in range(6):
    str1 += str(time_now[i]) + time_list[i] 
# print(str1)

# 創建 test1.txt 檔並寫入文字
file_name = 'test1.txt'
f1w = open(file_name, mode='w', encoding='utf-8')
print(f1w)

f1w.write('Hello World!\n')
f1w.write(str1)
f1w.write('我是臨時建構的檔案，有幸與你相遇！')
f1w.close()

# 讀取 text1.txt 檔並顯示讀取的內容
f1r = open(file_name, mode='r', encoding='utf-8')
print(f1r)

lines = f1r.read()    
print(lines)
f1r.close()

# 請先不要刪掉這個檔案，後續小節我們會用到

**檔案路徑與名稱（續）：通常我們會指定檔案的路徑。分為絕對路徑和相對路徑兩種情況。**
* 絕對路徑，以 Windows 作業系統為例：
    * `D:/zzztest/hahaha` 就是在 D 碟下 zzztest 資料夾下的 hahaha 子資料夾下。
* 相對路徑，是從執行程式的腳本檔（通常副檔名是 py 或者是 ipynb）所在位置為出發點，一樣以 Windows 作業系統為例：
    * 若你將本講義放在桌面（檔案的絕對路徑可能是 C:/Users/User/Desktop/），那麼 `../zzzztest/` 代表上一層底下的 zzzztest 資料夾（其對應的絕對路徑為 C:/Users/User/zzzztest/）。

In [None]:
# 我們稍後會介紹 os 模組，目前只要理解這一段是在 D 碟建立　zztest 資料夾和以及其下的 hahaha 資料夾
import os
path = 'D:/zztest/hahaha/'
os.makedirs(path) 

# 根據絕對路徑，創建 testzz.txt 檔並寫入文字
file_name = 'testzz.txt'
f = open(path+file_name, mode='w', encoding='utf-8')
f.write('這世界並不美麗，卻也因此美麗無比。')
f.close()

# 這時候你檢查電腦，會在 D 碟底下看到我們剛剛創立的資料夾與檔案
# 嗯，你看不順眼的話可以全部刪掉^.^

In [None]:
# 這裡先根據本講義所在位置的同一層底下建立 zzztest 資料夾
import os
path = 'zzztest/'
os.mkdir(path)

# 根據相對路徑，創建 testzzz.txt 檔並寫入文字
file_name = 'testzzz.txt'
f = open(path+file_name, mode='w', encoding='utf-8')
f.write('世故就是運用廢話的能力，\n或者說，是世界上大量道德廢話和政治廢話培育出來的一種人體機能。')
f.close()

# 這時候你檢查電腦，就會在本講義存放位置的同一層看到新資料夾 zzztest 以及其下的新文字檔 testzzz.txt
# 請先不要刪掉這個資料夾和檔案，後續小節我們會用到。

In [None]:
import os
path = '../zzzztest/'
os.mkdir(path)

# 根據相對路徑，創建 testzzzz.txt 檔並寫入文字
file_name = 'testzzzz.txt'
f = open(path+file_name, mode='w', encoding='utf-8')
f.write('與強權的鬥爭就是與遺忘的鬥爭。')
f.close()

# 這時候你檢查電腦，就會在本講義存放位置的上一層看到新資料夾 zzzztest 以及其下的新文字檔 testzzzz.txt
# 例外：假如你把講義放在根目錄 D:/ 下，那麼， zzzztest 資料夾會建立在同一層（可以把這一小段單獨複製出來開個 py 檔作測試）
# 嗯，你看不順眼的話可以全部刪掉^.^

* 開啟檔案處理器，操作完後，請記得用 `close()` 關閉它，關閉的理由請參考 [這串討論](https://stackoverflow.com/questions/25070854/why-should-i-close-files-in-python) 的第一個回覆。摘錄如下：
    * 若不關閉，會占用記憶體，並拖慢效能。
    * 當未把檔案處理器關閉時，你對程式作修改並重新執行，修改的部分可能不會起作用。
    * Windows 會鎖住開啟的檔案，此時未必能依賴預設（開啟此類型檔案）的程式讀取。


* 在 [7.1.4](#file_processing_methods_table) 小節的範例中，我們會測試上述第二點。
* 我們立即測試最後一點。在 Windows 作業系統中，預設以 Excel 開啟 csv 檔。（稍後的 [7.3](#csv_file_processing) 小節會介紹 csv 檔案。）
* 底下範例忘記關閉檔案處理器，則以 Excel 開啟檔案時， Windows 會跳出訊息說 csv0.csv 已經被其他使用者編輯而鎖定了。這時也無法直接刪除檔案。
* 必須重新執行程式，把檔案處理器關閉，才可以用 Excel 順利開啟，這時也才能刪除檔案。

In [None]:
'''
目前，你不必深究這段程式碼在做什麼（雖然很好理解），只需關心最後一行程式碼對檔案的影響。
補充：
1. 不管有無添加最後一行程式碼，執行整段程式碼會在本 IPYNB 檔的同一層資料夾新建一個 CSV 檔案。
2. 請開啟檔案看看，就能看出添加末行與否的差異。
3. 若無添加末行，執行程式出現一個數字，為 writerow() 的傳回值，與指針位置有關。
   然而，CSV 模組的官方手冊對此無明寫，應毋須細究。
'''

import csv
csvfile0 = 'test00.csv'

fhw = open(csvfile0, 'w', encoding = 'utf-8', newline='') 
writer = csv.writer(fhw)
writer.writerow(['number', 'gender', 'date'])
# fhw.close() # 添加這行把檔案處理器關閉

<a id='mode_of_opening_a_file_handler'></a>
### 7.1.2 開啟檔案處理器的模式
[回目錄](#HOME)

* 請參考 [這個網站](https://www.itread01.com/content/1550433618.html) 的說明，並配合 [7.1.4 檔案處理常用方法列表](#file_processing_methods_table) 理解其範例。
* 使用 `open()` 開啟檔案處理器的模式如下表：  

|模式 |能做的操作  |若檔案不存在|　若檔案存在，是否覆寫  | 文件指針初始位置 |
|----|------------|-----------|----------------------|----------------|
|r   |只能讀       |報錯       |-                     |檔頭            |
|r+  |可讀可寫     |報錯       |是，逐字元覆寫          |檔頭            |
|w   |只能寫       |建立       |是，整個文件覆寫        |檔頭            |
|w+  |可讀可寫     |建立       |是，整個文件覆寫        |檔頭            |
|a   |只能寫       |建立       |否，追加寫             |檔尾            |
|a+  |可讀可寫     |建立       |否，追加寫             |檔尾            |


* 基本模式是「讀取」和「寫入」兩種。
* 假設 `x` 是某種基本模式，那麼 `x+` 就是附加另一種模式，但是，檔案行為以基本模式判斷。
* `r` 表示 read, `w` 表示 write, `a` 表示 append.

<a id="syntax_for_using_'with...as...'"></a>
### 7.1.3 使用 with... as... 語法
[回目錄](#HOME)

* 前面提到，以 `open()` 函式開啟檔案處理器、操作完後，記得以 `close()` 關閉它。
* 有另一種替代語法，**語法結束後會自動關閉檔案**。如下：  
```python
with open(檔案路徑與名稱[, mode=模式] [, encoding=編碼方式]) as 檔案處理器名稱:
    程式區塊
```
    
    * `with... as... ` 後面的程式區塊必須縮排，脫離縮排就關閉檔案處理器。
    * 然而，若程式碼寫的不正確，導致**程式區塊未執行完就出錯中止，那麼，檔案處理器並未關閉，處理的檔案仍然是鎖定狀態**。

In [None]:
# 由於 with... as... 語法自動關閉檔案處理器，因此 test00.csv 能夠正常開啟或刪除

import csv
csvfile0 = 'test00.csv'

with open(csvfile0, 'w', encoding = 'utf-8', newline='') as fhw:
    writer = csv.writer(fhw)
    writer.writerow(['number', 'gender', 'date'])

<a id='file_processing_methods_table'></a>
### 7.1.4 檔案處理常用方法列表
[回目錄](#HOME)

* 下表統整了常見的檔案處理方法。
    
    * 「可以讀取」包括 [7.1.2](#mode_of_opening_a_file_handler) 小節所錄 `w`, `a` 以外的四種模式，「可以寫入」包含 `r` 以外的五種模式。

|方法　　　            |適用的模式 |說明  　　　　　　　　　　　　　　　　                                                   |
|:---------------------|:----------|:--------------------------------------------------------------------------------------|
|close()              |皆可    　 |關閉檔案處理器                                                                         |
|readable()           |皆可       |測試檔案可否讀取，傳回布林值。在 `w` 模式必定傳回 `False`                                |
|writable()           |皆可      |測試可否寫入，傳回布林值。在 `r` 模式必定傳回 `False`                                    |
|seek(n)              |皆可      |將指標移到文件前端數來第 n 個位置，當 n=0 代表文件初始位置　　　　　　　　　　　　　　　　　　|
|tell()               |皆可      |傳回目前文件位置                                                                       |
|read([size])         |可以讀取　 |讀取指定長度(size)的字元，若省略參數，則會讀取所有字元                                    |
|readline([size])     |可以讀取   |讀取目前文字指標**所在列**指定長度(size)的字元，若省略參數，則讀取一整列（包括換列符號\n）   |
|readlines()          |可以讀取   |讀取所有列，傳回一個串列，串列元素依序為逐列文字                                          |
|write(字串)          |可以寫入   |將指定字串寫入文件中，沒有傳回值                                                         |


In [None]:
# 本範例程式碼較長，建議貼到 Spyder 來執行，左右對照看

str2 = 'abcdefg_\nhijklmn_\nopqrstu_\nvwxyz'
print(str2)
'''
abcdefg,
hijklmn,
opqrstu,
vwxyz
'''
print(str2[7]) # _
print(str2[8]) # 換行符號跳一行，print()預設跳一行，共跳兩行
print(str2[9]) # h


file_name = 'test2.txt'
f2w = open(file_name, 'w', encoding='utf-8')
f2r = open(file_name, 'r', encoding='utf-8')
print(f2w.readable(), f2r.readable(), f2w.writable(), f2r.writable()) # False True True False

print(f2w.tell()) # 0
f2w.write(str2[:4]+', ')
print(f2w.tell()) # 6 前面有六個字元 ('abcd, ')
f2w.write(str2[4:12])
# 以下的數字是多少並不重要，只是為了顯示：目前操作，產生的檔尾位置是第 15 個字元
print(f2w.tell()) # 15 前面有十五個字元 (str2的前 12 個字元加上', ' 本來是 14 個字元，但換行符號在此佔2位置，所以再多1) 

print()
print('+++++++++++++++++++++++++++++++++++++++++++++++')

print('讀取:')
for line in f2r:
    print(line, end='')
print()
print(f2r.tell())

print()
print('read 讀取:')
f2r.seek(0)
print(f2r.read())
print(f2r.tell())

print()
print('readline 讀取:')
f2r.seek(1) # 移到第一個位置
print(f2r.readline(), end='') # 會換行是因為碰到換行符號
print(f2r.readline(1))
print(f2r.readline()) # 這一列還沒讀完，繼續讀下去
print(f2r.readline()) # 到底了，印出空行
print(f2r.tell())

print()
print('readlines 讀取:')
f2r.seek(2) # 移到第二個位置
line_list = f2r.readlines()
print(line_list)
for line in line_list:
    print(line, end='')
print()
print(f2r.tell())

print()
print('***********************************************')

f2w.seek(3) 
f2w.write(str2) # 從上一行 seek() 移到的指標位置開始覆寫
f2r.seek(0)
print('因為檔案處理器沒有關閉，內容並未更新:')
print(f2r.read()) # f2r 讀到的東西還未更新

f2w.close() # 此時　f2r 與　f2w 連鎖，為了讓 f2r 更新，必須連同 f2w 一起關閉
f2r.close()


f2r = open(file_name, 'r', encoding='utf-8')
print('相關檔案處理器內容皆已關閉，重新開啟，內容才更新:')
print(f2r.read()) # 注意 f2r 讀到的內容已經更新
f2r.close()

print()
print('-----------------------------------------------')
f2w = open(file_name, 'a', encoding='utf-8')
f2w.write('新增文字。')
f2w.seek(5) 
f2w.write('再度新增文字。') # 既然 a 模式是從原來就有的文擋末端開始添加, 上一行 seek 移到哪個位置沒有差別
f2w.close() # 假如 f2w 並未關閉，f2r 只會顯示第一次新增文字
f2r = open(file_name, mode='r', encoding='utf-8')
print(f2r.read())
f2r.close()

# 請先不要刪掉這個檔案，後續小節我們會用到

<a id='files_and_directories_management'></a>
## 7.2 檔案和目錄（資料夾）管理
[回目錄](#HOME)

* Python 除了能夠讀寫一份檔案，也能透過 `os` 模組管理檔案以及目錄，例如：獲取路徑名、複製、刪除等等。
    * `os`: operating system（作業系統）的簡寫。
    
* Python 的 `shutil` 模組提供更多功能，請參考專業的文檔說明： [中文說明](https://docs.python.org/zh-cn/3/library/shutil.html) 或 [英文說明](https://docs.python.org/3/library/shutil.html)；或者比較易懂的 [簡要說明](https://sean22492249.medium.com/introduction-e72bea2fc9a2)。
    * `shutil`: shell utility（殼層功能）的簡寫。[維基百科](https://zh.wikipedia.org/wiki/%E6%AE%BC%E5%B1%A4) 對殼層的說明。

<a id='os_modules_to_process_files'></a>
### 7.2.1 os 模組處理檔案
[回目錄](#HOME)
    
* 下表除了最後一列是 `shutil` 模組的函式，其餘皆是 `os` 模組的函式。
    * 不必細究 `os.abspath()` 與 `os.realpath()` 區別，但你真的想了解，這是 [相關說明](https://stackoverflow.com/questions/37863476/why-would-one-use-both-os-path-abspath-and-os-path-realpath)。

|語法               |功能    				|使用                               |傳回   |
|:-------------------|:-----------------------|:-----------------------------------|-------:|
|exists()			|檢查檔案或目錄是否存在		|os.path.exists('oops.txt')         |Boolean|
|isfile()			|檢查是否為檔案			|os.path.isfile('oops.txt')         |Boolean|
|rename()			|重命名檔案				|os.rename('ohno.txt', 'ohwell.txt')||
|abspath()			|獲取路徑名				|os.path.abspath('oops.txt')        |String|
|realpath()			|獲取真實的路徑名		|os.path.realpath('jeepers.txt')    ||
|remove()			|刪除檔案				|os.remove('oops.txt')              ||
|copy()				|複製檔案				|shutil.copy('oops.txt', 'ohno.txt')||

In [None]:
# 假如你遵照每一份區塊的註解，這份講義存放位置同層應該有 test1.txt, test2.txt 以及 zzztest 資料夾和其下的檔案 testzzz.txt

import os
import shutil as su

print('檢查檔案或目錄是否存在:')
print(os.path.exists('test1.txt')) # True
print(os.path.exists('test2.txt')) # True
print(os.path.exists('zzztest/testzzz.txt')) # True
print(os.path.exists('我達達的馬蹄是美麗的錯誤.txt')) # 除非你是非常奇特的人, 應該會是 False

print('檢查目錄是否存在:')
print(os.path.exists('zzztest')) # True
print(os.path.exists('zzztest/')) # True
print(os.path.exists('test2')) # 假定本講義同層沒有 test2 資料夾, 會是 False, 這裡顯示檔案要打全名, 否則會被判讀為資料夾
print(os.path.exists('我不是歸人，我是馬')) # 假如你沒事先作手腳, 應該會是 False

print('檢查是否為檔案:')
print(os.path.isfile('test1.txt')) # True
print(os.path.isfile('zzztest/testzzz.txt')) # True
print(os.path.isfile('zzztest')) # False
print(os.path.isfile('我達達的馬蹄是美麗的錯誤.txt')) # 除非你是非常奇特的人, 應該會是 False

print('檔案複製、改名與刪除:')
su.copy('test2.txt', 'zzztest/test3.txt')
print(os.path.exists('zzztest/test3.txt')) # True
os.rename('zzztest/test3.txt', 'zzztest/test3dada.txt')
print(os.path.exists('zzztest/test3.txt')) # False
print(os.path.exists('zzztest/test3dada.txt')) # True
os.remove('zzztest/test3dada.txt')
print(os.path.exists('test3dada.txt')) # False

print('獲取路徑名:')
print(os.path.abspath('test1.txt'))
print(os.path.abspath('dadididida/')) # 資料夾就算不存在也會給出一個路徑
print(os.path.realpath('zzztest/test1.txt')) # 檔案就算不存在也會給出一個路徑

<a id='os_modules_to_process_directories'></a>
### 7.2.2 os 模組處理目錄
[回目錄](#HOME)

* 下表除了最後一列是 `glob` 模組的函式，其餘皆是 `os` 模組的函式。

|語法       |功能    		|使用               |傳回   |
|:-----------|:---------------|:-------------------|-------:|
|mkdir()	|創建目錄		|os.mkdir('poems')  ||
|makedirs()	|依序創建目錄		|os.makedirs('poems/盛唐詩/李白')  ||
|rmdir()	|刪除目錄       |os.rmdir('poems')	||
|removedirs()	|依序移除目錄		|os.removedirs('poems/盛唐詩/李白')  ||
|isdir()    |檢查是否為資料夾|os.path.isdir('oops')|Boolean| 
|listdir()	|列出目錄內容	|os.listdir('poems')	||
|chdir()   	|修改當前目錄   |os.chdir('poems')	|| 
|glob()		|列出匹配文件	|glob.glob('m*')	|List|

In [None]:
# 假如你遵照每一份區塊的註解，這份講義存放位置同層應該有 test1.txt, test2.txt 以及 zzztest 資料夾和其下的檔案 testzzz.txt

import os 
from glob import glob as glob

print('創建目錄並列出目錄內容:')
os.mkdir('我不是歸人，我是馬')
os.makedirs('test_poem/盛唐/李白')
print(os.listdir('zzztest')) # ['testzzz.txt']
print(os.listdir('我不是歸人，我是馬')) # [] 剛建立一個空目錄, 裡面沒有任何內容
print(os.listdir('test_poem')) # ['盛唐'] 
print(os.listdir('.')) # 列出本層目錄內容
print(os.listdir('..')) # 列出上一層目錄內容　
print(glob('test*')) # 列出 test 開頭的所有檔案和目錄, 至少有 test1.txt, test2.txt, test_poem

print()
print('檢查是否為目錄:')
print(os.path.isdir('test1.txt')) # False
print(os.path.isdir('zzztest/testzzz.txt')) # False
print(os.path.isdir('zzztest')) # True
print(os.path.isdir('zzztest')) # True
print(os.path.isdir('我不是歸人，我是馬')) # True

print('移除剛剛創建的目錄：')
os.rmdir('我不是歸人，我是馬')
print(os.path.exists('我不是歸人，我是馬')) # False
# os.rmdir('test_poem') # 執行這行會報錯，因為 test_poem 不是空的, 有 "盛唐" 這個資料夾
# os.removedirs('test_poem/盛唐') # 執行這行會報錯，因為 test_poem/盛唐 不是空的, 有 "李白" 這個資料夾
os.removedirs('test_poem/盛唐/李白') # 移除相關目錄: "李白" 為空可移除; 移除後, "盛唐" 為空可移除; 再移除後, test_poem 為空可移除

<a id='collocate_with_exception_handlers'></a>
### 7.2.3 搭配例外處理
[回目錄](#HOME)

* 使用 `os` 模組操作時很容易出現錯誤，同樣的程式可成第一次執行沒問題，第二次就出錯了。
* 考慮以下情境：當資料夾已經存在，使用 `os.mkdir()` 創建會出錯。
    * 例如：寫一個程式會先創建目錄、最後再移除它。但是，程式可能在「創建目錄到移除目錄之間」就出錯了，從而中斷執行，因此「移除目錄」未發生作用。下次執行程式時，由於目錄已經創建，所以會在「創建目錄」這一步驟就出錯了。

* 對此可以用 `os.path.exists()` 先行判斷，目錄不存在才創建目錄。不過，這樣的語法稍嫌冗贅。
* 若使用**例外處理** `try... except... (else... finally...)` 的語法，程式將更顯得簡潔。

In [None]:
import os

# os.mkdir('testzzz') # 假定 zzztest 存在，執行這行會出現 FileExistsError 錯誤訊息

dir_name = 'zzz新資料夾zzz'
if not os.path.exists(dir_name):
    print('資料夾不存在, 我將創建它.')
    os.mkdir(dir_name)
else:
    print('資料夾已存在, 我將毀掉它!!!')
    os.rmdir(dir_name)
    
# 執行本區塊時，每次出現的訊息不同

In [None]:
import os

dir_name = 'zzz新資料夾zzz'

try: 
    os.mkdir(dir_name)
except FileExistsError:
    # print('I have foreseen it.')
    pass

<a id='csv_file_processing'></a>
## 7.3 csv 檔處理
[回目錄](#HOME)

* 逗點分隔（Comma-Separated Values，簡稱 CSV）是一種簡單的**文字檔格式**，以逗號分隔不同欄位的資料，很多軟體在儲存與交換表格資料時都支援這樣的格式。
* 我們以下面的範例來說明 CSV 檔的特性：

In [None]:
import os

with open('test_csv.txt', 'w', encoding='utf-8') as f:
    f.write('number,name,gender,age\n')
    f.write('1,John,male,23\n')
    f.write('2,Mary,female,20\n')
    f.write('3,Peter,male,26\n')
    f.write('4,Lily,female,19\n')
    
# 到此之前，我們創立一個五行文字檔，接著我們僅將檔案的副檔名 txt 改成 csv
os.rename('test_csv.txt', 'test_csv.csv')

* 執行完上面的文字區塊，你可以在本講義的同層位置看到一個新建立的 CSV 檔案 test_csv.csv。
* 在 Windows 系統底下，test_csv.csv　預設是用 Microsoft Excel 開啟，看起來和標準 Excel 檔呈現一樣。但是，你也可以用一般的文字編輯器 Notepad 或 Notepad++ 開啟，會看到五行文字。這裡說明了：**csv 格式本質就是文字檔，只是用逗號分隔來顯示結構**。 
    * 標準 Excel 文件（副檔名是 xls 或者 xlsx）不是文字檔，若你用文字編輯器 Notepad 或 Notepad++ 開啟任何一個標準 Excel 文件（就算是空文件），會看到一堆亂碼。


* 由於 CSV 檔格式簡單（就是文字檔嘛）、結構也簡單，所以適合儲存、交換表格類型的資料。
* 在 Python 中若要讀取或產生 CSV 的檔案，可以使用內建的 `csv` 模組，相關說明請參考 [官方文件](https://docs.python.org/3/library/csv.html)。下面三小節擇要敘述。

<a id='read_a_csv_file'></a>
### 7.3.1 CSV 檔讀取
[回目錄](#HOME)


* 先以 `open()` 開啟檔案處理器，才進一步使用 `csv` 模組。
* 讀取 CSV 檔時，我們可以替換 `read()`、`readline()` 或 `readlines()` 等函式（這些函式並未對「逗點」進一步處理，而「逗點」作為 CSV 檔的分隔結構，應該好好利用），改用 `csv` 模組的 `reader()` 或 `DictReader()` 函式。


* `csv` 模組的 `reader()` 必須配合 `open()` 的讀取模式，可以用來將 CSV 檔讀成串列格式，語法為：  
`串列生成器 = csv.reader(檔案處理器名稱)`

    * 每一個串列的元素都是字串。
    

* `csv` 模組的 `DictReader()` 必須配合 `open()` 的讀取模式，可以用來將 CSV 檔讀成字典格式，語法為：  
`字典生成器 = csv.DictReader(檔案處理器名稱)`
    
    * 它會自動把第一列（row）當作欄位的名稱，將第二列以後的每一列轉為字典，每一列的鍵 (key) 都是欄位名稱，值 (value) 分別是各列相應的內容。這樣我們就可以使用欄位的名稱來存取資料。
    * 每一個字典的鍵對應到的值都是字串。

In [None]:
# 前面已經創建了 test_csv.csv 

import csv

with open('test_csv.csv', encoding='utf-8', newline='') as fr: # 默認 'r' 模式，這裡補上 newline

    # 以串列模式讀取 CSV 檔案內容
    rows = csv.reader(fr)
    print(type(rows))
    
    for row in rows:
        print(row)
    
    print()
    print('最後一個串列的最後一個元素類型和其值:', type(row[-1]), row[-1]) # <class 'str'> 19
    print()
    
    print(list(rows)) # [], 串列生成器讀完了，會是空串列
    fr.seek(0) # 必須回到文件起點，否則底下讀不到任何內容
    row_list = list(csv.reader(fr)) # 直接將串列生成器轉成串列
    print(row_list)
    
    print()
    # 以字典模式讀取 CSV 檔案內容
    fr.seek(0) # 必須回到文件起點，否則底下讀不到任何內容
    rows = csv.DictReader(fr)
    print(rows)

    # 以迴圈輸出每一列
    for row in rows:
        print(row)
    
    print()
    print('最後一個字典的age鍵對應到的類型和其值:', type(row['age']) ,row['age']) # <class 'str'> 19
    print()

    print(list(rows)) # [], 字典生成器讀完了，會是空串列
    fr.seek(0) # 必須回到文件起點，否則底下讀不到任何內容
    row_dict = list(csv.DictReader(fr)) # 直接將字典生成器轉成串列，每個串列元素是一個字典
    print(row_dict)
    

<a id='write_a_csv_file'></a>
### 7.3.2 CSV 檔寫入
[回目錄](#HOME)

* 我們也可以用 `csv` 模組來產生（寫入） CSV 檔，此時要配合 `open()` 的寫入模式。
* 寫入模式亦分成以串列模式、字典模式寫入，也可分成：一維模式 `writerow()` 寫入和二維模式 `writerows()` 寫入。


* 前面 [7.1.1](#syntax_for_opening_a_file_handler) 小節說過，請養成 utf-8 檔處理檔案的習慣，然而，Windows 作業系統的 Microsoft Excel 預設編碼不是 utf-8，存儲檔案時也常擅自改變編碼，此乃用程式進行工作的大敵。底下建議幾種作法。
    * 除非要用到 Microsoft Excel 的強大功能，儘量利用通用文字編輯器 Notepad++ 或 Sublime Text 3 對檔案進行編輯。
    * 寫一個 BOM檔頭（參考 [維基百科](https://zh.wikipedia.org/wiki/%E4%BD%8D%E5%85%83%E7%B5%84%E9%A0%86%E5%BA%8F%E8%A8%98%E8%99%9F) 的說明）告訴 Microsoft Excel 本檔案採取 utf-8 編碼，不要來亂。  
        * 檔頭可能會造成額外的問題，但不難處理（你們之後碰到「額外的問題」應該能上網查詢並自行處理了）；  
        再者，Notepad++ 這種通用文字編輯器就能輕易增刪檔頭。
        
        
* 我們直接看底下的範例。    

In [None]:
# 串列模式寫入

import csv

# 底下兩行程式碼選擇一個
# 若選擇第二行，某些文字編輯器如 Notepad++ 讀起來沒問題
# 但是 Windows 內建開啟 csv 的軟體 Microsoft Excel 可能會讀成亂碼
# 因為 Excel 對中文的預設編碼是 cp950，不是通用的 utf-8

with open('test_csv1.csv', 'w', encoding='utf-8-sig', newline='') as fw:
# with open('test_csv1.csv', 'w', encoding='utf-8', newline='') as fw:
    
    # 在上面選擇第二行的情況，假如要讓 Microsoft Excel 開啟時不顯示亂碼
    # 可以加下面這行：寫一個 BOM 檔頭告訴 Excel 該用 utf-8 來讀文件
    # 這與和上面選擇第一行的效果相同，因此第一行其實就是第二行再加上一個檔頭
    # 但請記得，用 Python 讀取檔案時，也必須加個檔頭
    
    # fw.write('\ufeff') 
    
    # 建立 CSV 檔寫入器
    csvwriter = csv.writer(fw)
    
    # 欄位名稱
    csvwriter.writerow(['姓名', '身高', '體重'])
    
    # 一維模式寫入資料
    csvwriter.writerow(['張無忌', 180, 70])
    csvwriter.writerow(['趙敏', 165, 50])
    
    # 二維模式寫入資料
    rows = [['蕭峰', 190, 90], ['阿朱', 155, 45]]
    csvwriter.writerows(rows) # 二維模式寫入

In [None]:
# 字典模式寫入

with open('test_csv2.csv', 'w', encoding='utf-8-sig', newline='') as fw:  
    
    # 定義欄位
    headers = ['姓名', '身高', '體重']
    
    # 建立 CSV 檔寫入器（字典模式）
    csvwriter = csv.DictWriter(fw, fieldnames=headers)

    # 寫入第一列的欄位名稱
    csvwriter.writeheader()

    # 一維模式寫入資料
    csvwriter.writerow({'姓名': '令狐沖', '體重': 72, '身高': 178})
    csvwriter.writerow({'身高': 168, '體重': 53, '姓名': '任盈盈'})
    
    # 二維模式寫入資料
    rows = [{'姓名': '段譽', '身高': 170, '體重': 58}, {'體重': 50, '身高': 166, '姓名': '木婉清'}]
    csvwriter.writerows(rows) # 二維模式寫入

<a id='batch_processing_of_csv_files'></a>
### 7.3.3 CSV 檔批次處理
[回目錄](#HOME)

* 資料交換與存儲時，我們常常使用 CSV 檔，因此會涉及大量檔案的分拆、合併，以及資料分析。
* 想像一種最簡單的情境：我們從某個網站下載了一大批 CSV 檔，必須合併處理。
    * 例如：1991 年到 2020 年，每個月的資料都有一個 CSV 檔案，這樣 30 年就有 360 個檔案。
    * 我們想要將這些檔案統整在一個合併檔中。
    * 這 360 個檔案格式都是一致的，操作方式也是固定的，因此適合用迴圈來處裡。
    * 未來新增資料時（2021 年起，每個月新增 CSV 檔），我們也可以將之併入這個合併檔。
    

* 底下的範例示範怎麼進行合併：
    * 合併檔的檔名叫做 test_csv_combined.csv，這個合併檔本身已經有一些人物的資料（郭靖和黃蓉的身高體重）。
    * 我們打算將其他人物的資料（紀錄在前面兩小節創建的 test_csv1.csv 與 test_csv2.csv）合併在這個檔案中。
    * 每個檔案的第一列都是欄位名稱，但是除了合併檔本身的欄位名稱，其他都應該跳過，直接輸入人物的資料。

In [None]:
with open('test_csv_combined.csv', 'w', encoding='utf-8-sig', newline='') as fw:
    
    csvwriter = csv.writer(fw)
    csvwriter.writerow(['姓名', '身高', '體重'])
    csvwriter.writerow(['郭靖', 183, 75])
    csvwriter.writerow(['黃蓉', 160, 49])

# 文件 test_csv_combined.csv 已經加了檔頭，底下這行加或不加檔頭，效果一樣
with open('test_csv_combined.csv', 'a', encoding='utf-8', newline='') as fw: # a 模式添加內容
    csvwriter = csv.writer(fw)
    
    # 待合併的檔
    file_names = ['test_csv' + str(i) + '.csv' for i in [1,2]] # ['test_csv1.csv', 'test_csv2.csv']

    for file_name in file_names:
        
        with open(file_name, 'r', encoding='utf-8', newline='') as fr:
            fr.readline() # 跳過第一列欄位名稱，也可以改用　next(fr)
            
            rows = csv.reader(fr)
            for row in rows:
                csvwriter.writerow(row)

In [None]:
# 讀取有加上 BOM 檔頭的 utf-8 檔時，encoding 加或不加檔頭也有差異
with open('test_csv_combined.csv', 'r', encoding='utf-8', newline='') as fr_no_bom:
    rows=fr_no_bom.readlines()
    print(rows)
    print('\n上頭逐行讀取時，發現第一行多了 \\ufeff，就是檔頭。\n')
    
with open('test_csv_combined.csv', 'r', encoding='utf-8-sig', newline='') as fr_bom:
    rows=fr_bom.readlines()
    print(rows)

<a id='other_types_of_files_and_related_packages/modules'></a>
## 7.4 其他類型的檔案與相關套件/模組
[回目錄](#HOME)

* 本講定位為「基礎知識」，限於篇幅，只介紹最基本的「文字型」檔案的處理方式。
* 例如：Microsoft Excel 檔的副檔名是 xls 或者 xlsx，上面介紹的 `csv` 模組就無法處理。
* 對於不同類型的檔案，Python 提供更多套件/模組來處理它們。例如：`pandas` 就是功能強大的套件，可以處理能用 Microsoft Excel 開啟的檔案。
* 事實上，`pandas` 能做的事遠不僅於此，它是**資料科學**的常用工具，相關使用方式可以出一本 [數百頁的書](https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython/dp/1491957662/)，就算 [簡要介紹](https://leemeng.tw/practical-pandas-tutorial-for-aspiring-data-scientists.html) 篇幅也很長。


* 學海無涯，這系列講義只提供基本概念的介紹。
* 若是基本功打得紮實，到了這一階段，你們應該有能力自學各種套件/模組。
* 使用各種套件/模組，進而熟悉各種套件/模組，表示你能使用更多工具箱，你能做的事情就越多。
* 網路資源相當豐富。同學應該自行學習套件/模組的各種教學指引。
* 然而，教學指引或多或少會省略一些內容，你可能會因為任務需要，必須學習這些被省略的內容...... 
* 這表示你升級了，超過了教學指引的範圍！這時，你可以試著閱讀套件/模組的官方文檔。
* **高手都曾是新手**，他們成為高手之前，都是這樣逐步學習的：由淺入深，從簡化的教學指引、論壇的討論、一路看到本質的官方文檔。
* 希望學習 Python 的經驗，能讓你勇敢學習任何新事物。祝福你！