# 第五章：文件與 IO

#### 所有程序都要處理輸入和輸出。這一章將涵蓋處理不同類型的文件，包括文本和二 進制文件，文件編碼和其他相關的內容。對文件名和目錄的操作也會涉及到。 有時候會需要讀寫不同編碼的文件，如ASCII，UTF-8 或 UTF-16 編碼等。

## 7.1.2 解決方案
#### 使用帶有 rt 模式的 open() 函數讀取文本文件。如下所示： 

In [None]:
# Read the entire file as a single string 
with open('somefile.txt', 'rt') as f:
     data = f.read()
# Iterate over the lines of the file 
with open('somefile.txt', 'rt') as f:
    for line in f: # process line ...

In [11]:
with open('ToDoLIST.txt', 'rt') as f:
    data = f.read()
data

'1. 國泰\n2. Python Ch7\n3. TensorFlow 線上教學\n4. 老師paper (選三個資料，用不同dist. function來做分群/ Entropy???)\nhttp://magazine.amstat.org/blog/2016/01/01/data-science-the-evolution-or-the-extinction-of-statistics/\nhttp://magazine.amstat.org/blog/2015/11/01/statnews2015/\n\n\n'

#### 類似的，爲了寫入一個文本文件，使用帶有 wt 模式的 open() 函數，如果之前文 件內容存在則清除並覆蓋掉。如下所示： 

In [None]:
# Write chunks of text data 
with open('somefile.txt', 'wt') as f: 
    f.write(text1) 
    f.write(text2) ...
# Redirected print statement

In [None]:
with open('somefile.txt', 'wt') as f: 
    print(line1, file=f) 
    print(line2, file=f) ... 

#### 文件的讀寫操作默認使用系統編碼，可以通過 sys.getdefaultencoding() 來得到。在大多數機器上面都是 utf-8 編碼。如果你已經知道你要讀寫的文本是其他編碼 方式，那麼可以通過傳遞一個可選的 encoding 參數給 open() 函數。如下所示： 

In [3]:
import sys
sys.getdefaultencoding()

'utf-8'

In [None]:
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    ... 

#### Python 支持非常多的文本編碼。幾個常見的編碼是 ascii, latin-1, utf-8 和 utf-16。 在 web 應用程序中通常都使用的是 UTF-8。當讀取一個未知編碼的文本時使用 latin-1 編碼永遠不會產生解碼錯誤。使用 latin-1 編碼讀取一個文件的時候也許不能產生完全正確的文本解碼數據，但是它也能從中提取出足夠多的有用數據。


## 7.1.3 討論
#### 讀寫文本文件一般來講是比較簡單的。但是也幾點是需要注意的。首先，在例子程 序中的 with 語句給被使用到的文件創建了一個上下文環境，但 with 控制塊結束時， 文件會自動關閉。你也可以不使用 with 語句，但是這時候你就必須記得手動關閉文件：

In [None]:
f = open('somefile.txt', 'rt') 
data = f.read() 
f.close()

#### 最後一個問題就是文本文件中可能出現的編碼錯誤。但你讀取或者寫入一個文本文 件時，你可能會遇到一個編碼或者解碼錯誤。比如：

![hi](img-1.png)

#### 這個時候，你可以給 open() 函數傳遞一個可選的 errors 參數來處理這 些錯誤。下面是一些處理常見錯誤的方法：

![hi](img-2.png)

In [None]:
with open('d:/work/test.txt', 'wt') as f:
    print('Hello World!', file=f)