# 第五章：文件與 IO

#### 所有程序都要處理輸入和輸出。這一章將涵蓋處理不同類型的文件，包括文本和二 進制文件，文件編碼和其他相關的內容。對文件名和目錄的操作也會涉及到。 有時候會需要讀寫不同編碼的文件，如ASCII，UTF-8 或 UTF-16 編碼等。

## 7.1.2 解決方案
#### 使用帶有 rt 模式的 open() 函數讀取文本文件。如下所示： 

In [None]:
# Read the entire file as a single string 
with open('somefile.txt', 'rt') as f:
     data = f.read()
# Iterate over the lines of the file 
with open('somefile.txt', 'rt') as f:
    for line in f: # process line ...

In [11]:
with open('ToDoLIST.txt', 'rt') as f:
    data = f.read()
data

'1. 國泰\n2. Python Ch7\n3. TensorFlow 線上教學\n4. 老師paper (選三個資料，用不同dist. function來做分群/ Entropy???)\nhttp://magazine.amstat.org/blog/2016/01/01/data-science-the-evolution-or-the-extinction-of-statistics/\nhttp://magazine.amstat.org/blog/2015/11/01/statnews2015/\n\n\n'

#### 類似的，爲了寫入一個文本文件，使用帶有 wt 模式的 open() 函數，如果之前文 件內容存在則清除並覆蓋掉。如下所示： 

In [None]:
# Write chunks of text data 
with open('somefile.txt', 'wt') as f: 
    f.write(text1) 
    f.write(text2) ...
# Redirected print statement

In [None]:
with open('somefile.txt', 'wt') as f: 
    print(line1, file=f) 
    print(line2, file=f) ... 

#### 文件的讀寫操作默認使用系統編碼，可以通過 sys.getdefaultencoding() 來得到。在大多數機器上面都是 utf-8 編碼。如果你已經知道你要讀寫的文本是其他編碼 方式，那麼可以通過傳遞一個可選的 encoding 參數給 open() 函數。如下所示： 

In [3]:
import sys
sys.getdefaultencoding()

'utf-8'

In [None]:
with open('somefile.txt', 'rt', encoding='latin-1') as f:
    ... 

#### Python 支持非常多的文本編碼。幾個常見的編碼是 ascii, latin-1, utf-8 和 utf-16。 在 web 應用程序中通常都使用的是 UTF-8。當讀取一個未知編碼的文本時使用 latin-1 編碼永遠不會產生解碼錯誤。使用 latin-1 編碼讀取一個文件的時候也許不能產生完全正確的文本解碼數據，但是它也能從中提取出足夠多的有用數據。


## 7.1.3 討論
#### 讀寫文本文件一般來講是比較簡單的。但是也幾點是需要注意的。首先，在例子程 序中的 with 語句給被使用到的文件創建了一個上下文環境，但 with 控制塊結束時， 文件會自動關閉。你也可以不使用 with 語句，但是這時候你就必須記得手動關閉文件：

In [None]:
f = open('somefile.txt', 'rt') 
data = f.read() 
f.close()

#### 最後一個問題就是文本文件中可能出現的編碼錯誤。但你讀取或者寫入一個文本文 件時，你可能會遇到一個編碼或者解碼錯誤。比如：

![hi](img-1.png)

#### 這個時候，你可以給 open() 函數傳遞一個可選的 errors 參數來處理這 些錯誤。下面是一些處理常見錯誤的方法：

![hi](img-2.png)

## 7.2 打印輸出至文件中

#### 你想將 print() 函數的輸出重定向到一個文件中去。
#### 在 print() 函數中指定 file 關鍵字參數，像下面這樣(必須是.txt，如果是.bin會出現錯誤)：



In [2]:
with open('hello.txt', 'wt') as f:
    print("let's get it", file=f)

## 7.3 使用其他分隔符或行終止符打印
#### 你想使用 print() 函數輸出數據，但是想改變默認的分隔符或者行尾符。
#### 可以使用在 print() 函數中使用 sep 和 end 關鍵字參數，以你想要的方式輸出。 比如： 

In [3]:
print('ACME', 50, 91.5) 
print('ACME', 50, 91.5, sep=',') 
print('ACME', 50, 91.5, sep=',', end='!!\n') 

ACME 50 91.5
ACME,50,91.5
ACME,50,91.5!!


#### 使用 end 參數也可以在輸出中禁止換行。比如： 

In [11]:
for i in range(5): 
    print(i) 

0
1
2
3
4


In [10]:
for i in range(5):
    print(i, end=' ') 

0 1 2 3 4 

#### 當你想使用非空格分隔符來輸出數據的時候，給 print() 函數傳遞一個 sep 參數 是最簡單的方案。內容必須是string，如果是數字必須先經過轉換。 比如： 

In [12]:
print(','.join(('ACME','50','91.5'))) 

ACME,50,91.5


In [16]:
# 僅有字串才能使用此種方式
row = ('ACME', 50, 91.5) 
print(','.join(row)) 

TypeError: sequence item 1: expected str instance, int found

In [14]:
print(','.join(str(x) for x in row)) 

ACME,50,91.5


In [15]:
print(*row, sep=',') 

ACME,50,91.5


## 7.4 讀寫字節數據
#### 此章節介紹讀寫二進制文件(.bin，燒燒錄軟體的影像檔)，這部分跳過

## 7.5 文件不存在才能寫入
#### 你想將一個文件中寫入數據，前提必須是這個文件在文件系統上不存在。也就是不允許覆蓋已存在的文件內容。


#### 可以在 open() 函數中使用 x 模式來代替 w 模式的方法來解決這個問題。比如： 

In [45]:
with open('somefile', 'wt') as f:
    f.write('Hello\n') 

![HI](img-3.png)

In [46]:
# 照cookbook講的，'xt'應該要可以蓋過之前的檔案，但好像不行，反而'wt'可以蓋掉上一個檔案
with open('somefile', 'wt') as f: 
     f.write('HelloHIHIHI\n') 

In [47]:
# 'xt'無法蓋過之前的檔案
with open('somefile', 'xt') as f: 
     f.write('HelloOOOOOO\n') 

FileExistsError: [Errno 17] File exists: 'somefile'

#### 解決方案，是先測試這個文件是否存在，像下面這樣： 

In [48]:
import os 
if not os.path.exists('somefile'): 
    with open('somefile', 'wt') as f: 
        f.write('Hello\n')
else: 
     print('File already exists!') 

File already exists!


## 7.6 字符串的 I/O 操作
#### 你想使用操作類文件對象的程序來操作.txt或.bin字符串。
#### 使用 io.StringIO() 和 io.BytesIO() 類來創建類文件對象操作字符串數據。比如： 


In [62]:
import io
s = io.StringIO() 
s.write('123456789') 

9

In [63]:
print('1234', file=s) 

In [66]:
# Get all of the data written so far 
s.getvalue()

'1234567891234\n'

In [70]:
# Wrap a file interface around an existing string
s = io.StringIO('Hello\nWorld\n') 
s.read(3) 

'Hel'

In [71]:
s.read() 

'lo\nWorld\n'

## 7.7 讀寫壓縮文件
#### 你想讀寫一個 gzip(wiki:Gzip是若干種檔案壓縮程式的簡稱，通常指GNU計劃的實現) 或 bz2(baidu:bzip2是Julian Seward开发并按照自由软件/开源软件协议发布的数据压缩算法及程序。) 格式的壓縮文件。



#### 跳過

## 7.11  文件路徑名的操作
#### 你需要使用路徑名來獲取文件名，目錄名，絕對路徑等等。
#### 使用 os.path 模塊中的函數來操作路徑名。下面是一個交互式例子來演示一些關鍵的特性： 

In [83]:
import os
path = 'C:/Users/nohah/Desktop/ToDoLIST'

In [84]:
# Get the last component of the path 
os.path.basename(path)

'ToDoLIST'

In [85]:
# Get the directory name 
 os.path.dirname(path) 

'C:/Users/nohah/Desktop'

In [86]:
# Join path components together 
os.path.join('tmp', 'data', os.path.basename(path)) 

'tmp\\data\\ToDoLIST'

In [95]:
# Expand the user's home directory 
path = '~\Data\data.csv' 
os.path.expanduser(path) 

'C:\\Users\\nohah\\Data\\data.csv'

In [96]:
# Split the file extension 
os.path.splitext(path) 

('~\\Data\\data', '.csv')

## 7.12 測試文件是否存在

### 關於os.path官方說明
[https://docs.python.org/3.7/library/os.path.html](https://docs.python.org/3.7/library/os.path.html)

#### 使用 os.path 模塊來測試一個文件或目錄是否存在。比如： 

In [3]:
# 測試路徑是否存在
import os 
os.path.exists('C:/Users/nohah/Desktop') 

True

In [4]:
os.path.exists('/tmp/spam')

False

In [24]:
# Is a regular file 測試檔案是否存在
os.path.isfile('C:/Users/nohah/Desktop/ToDoLIST.txt') 

True

In [28]:
# Is a directory 
os.path.isdir('C:/Users/nohah/Desktop') 

True

In [31]:
# Is a symbolic link 
os.path.islink('Users/nohah') 

False

![HI](img-4.png)

In [35]:
# Get the file linked to
os.path.realpath('C:/Users/nohah/Desktop') 

'C:\\Users\\nohah\\Desktop'

#### 如果你還想獲取元數據 (比如文件大小或者是修改日期)，也可以使用 os.path 模塊來解決： 

In [45]:
os.path.getsize('C:/Users/nohah/Desktop/Sessions') 

8192

In [46]:
os.path.getmtime('C:/Users/nohah/Desktop/Sessions') 

1533981203.938726

In [47]:
# Return the time of last modification of path
import time 
time.ctime(os.path.getmtime('C:/Users/nohah/Desktop/Sessions')) 

'Sat Aug 11 17:53:23 2018'

## 7.13 獲取文件夾中的文件列表


#### 你想獲取文件系統中某個目錄下的所有文件列表
#### 使用 os.listdir() 函數來獲取某個directory中的列表，結果會回傳directory下所有的dir, files等等： 

In [84]:
import os 
names = os.listdir('C:/Users/nohah/Desktop') 
names

['Cathy2018',
 'Consult1071assg1.docx',
 'desktop.ini',
 'hello.txt',
 'img-1.png',
 'img-2.png',
 'img-3.png',
 'img-4.png',
 'music',
 'others',
 'PythonCookbook第三版繁體中文v2.0.0.pdf',
 'Sessions',
 'Spotify.lnk',
 'ToDoLIST.txt',
 '進度',
 '選課']

#### 如果你只想顯示files而不顯示directory，可以考慮結合 os.path中的一些函數來使用。 比如：

In [89]:
# Get all regular files 
names = [name for name in os.listdir('C:/Users/nohah/Desktop') 
         if os.path.isfile(os.path.join('C:/Users/nohah/Desktop', name))]
names

['Consult1071assg1.docx',
 'desktop.ini',
 'hello.txt',
 'img-1.png',
 'img-2.png',
 'img-3.png',
 'img-4.png',
 'PythonCookbook第三版繁體中文v2.0.0.pdf',
 'Spotify.lnk',
 'ToDoLIST.txt']

#### 只顯示directory而不顯示files

In [90]:
# Get all dirs 取得所有directory名稱
dirnames = [name for name in os.listdir('C:/Users/nohah/Desktop') 
            if os.path.isdir(os.path.join('C:/Users/nohah/Desktop', name))]
dirnames

['Cathy2018', 'music', 'others', 'Sessions', '進度', '選課']

#### 利用字串過濾，只取得特定檔案(如.png)

In [91]:
pngfiles = [name for name in os.listdir('C:/Users/nohah/Desktop') 
            if name.endswith('.png')]
pngfiles

['img-1.png', 'img-2.png', 'img-3.png', 'img-4.png']

#### 想要特定檔案，你可能會考慮使用 glob 或 fnmatch 模塊。比如： 

In [97]:
import glob 
pyfiles = glob.glob('C:/Users/nohah/tensorflow機器學習/*.ipynb')
pyfiles

['C:/Users/nohah/tensorflow機器學習\\ch-01_TensorFlow_101.ipynb',
 'C:/Users/nohah/tensorflow機器學習\\ch-02_TF_High_Level_Libraries.ipynb',
 'C:/Users/nohah/tensorflow機器學習\\code.ipynb']

In [98]:
from fnmatch import fnmatch 
pyfiles2 = [name for name in os.listdir('C:/Users/nohah/tensorflow機器學習') if fnmatch(name, '*.ipynb')]
pyfiles2

['ch-01_TensorFlow_101.ipynb',
 'ch-02_TF_High_Level_Libraries.ipynb',
 'code.ipynb']