## 課程內容
### 1. 存取純文字檔案
- 1-1. 檔案存取
- 1-2. 檔案讀取方式
- 1-3. 讀取時的定位
 

### 2. 存取 CSV 檔案
- 2-1. CSV 格式
- 2-2. 讀取 CSV 檔案
- 2-3. 寫入 CSV 檔案


### Python 檔案存取
- 使用Python內建函數open開啟檔案
- open(fileStr, mode=′r′, buffering=-1, encoding=None, … )
- 傳回一個檔案物件(屬於io模組)
- fileStr：連結的檔名
  - 相對路徑: abc.txt
  - 絕對路徑: D:\APCSClass\Examples\abc.txt


### Python 檔案存取
- open(file, mode=′r′, buffering=-1, encoding=None, … )
- mode：檔案開啟模式
  - r：讀取模式開啟，未指定模式時的**預設模式**
  - w：寫入模式開啟，**原檔案內容被覆蓋**
  - a：寫入模式開啟，內容附加在原檔案內容之後
  - x：建立新檔案模式，**檔案已存在則開啟失敗**
  - +：打開磁碟上的檔案進行更新，可讀可寫
  - b：資料以二進位模式存取


### Python 檔案存取
- open(file, mode=′r′, buffering=-1, encoding=None, … )
- buffering：緩衝設定
  - 緩衝值為 0，不使用緩衝(僅限binary模式)
  - 緩衝值為 1，使用line緩衝(僅限text模式)
  - 緩衝值大於 1 ，緩衝區大小為指定的數值
  - 緩衝值為-1(預設)，使用系統預設緩衝大小


### Python 檔案存取
- open(file, mode=′r′, buffering=-1, encoding=None, … )
- encoding：文字編碼設定
  - 未指定時使用預設編碼 (**Windows系統為cp950**)
  - 常用編碼
    - ascii(us-ascii) : 英文
    - latin_1(iso-8859-1): 西歐
    - big5(big5-tw) / cp950(ms950)：繁體中文
    - utf8(utf_8, utf_8_sig) : unicode

### Python 檔案存取
  - close()
    - 關閉開啟的檔案(資料流)

### 檔案物件-讀取內容操作
- 檔案物件方法
  - 將檔案物件當作一個清單來使用(用在for ... in 迴圈)
  - read(size=-1)
    - 從文件當前位置起讀取 size 個字元數量
    - 若無參數或size=-1，調用readall()方法讀取整個文件內容
  - readline(size=-1)
    - 讀取直到換行符號或檔案結尾(EOF)，傳回一個str(**包含換行字元**)
    - 若指定size大小，則至多讀size個字元
  - readlines()
    - 讀取多行文字置於清單中傳回

In [None]:
import os
print(os.listdir())

In [None]:
import locale
print(locale.getencoding()) # default encoding in windows is 'cp950'

In [5]:
# file read
# Note that : input1.txt is in utf-8 encoding, 
filename='input1.txt'
# fi = open(filename) # error: wrong encoding
fi = open(filename, encoding='utf_8') # specifying encoding is needed
for l in fi: # fi 用在 for in loop
    print(l,end='') # 不換行
fi.close()

905189987
這是中文字
This is English letters.

In [None]:
# file read
filename='input1.txt'
fi = open(filename, encoding='utf_8') 
l = fi.readline() # readline() 回傳包含換行符號
while l:
    print(l,end='') # 不換行
    l = fi.readline()
fi.close()

In [None]:
# input2.txt is in cp950 encoding.
#
filename='input2.txt'
fi = open(filename)
l = fi.readline()
while l:
    print(l,end='')
    l = fi.readline()
fi.close()

In [None]:
# try - except - finally
# ensure the file is closed afterall.
#
filename='input1.txt'
try: 
    fi = open(filename)
    l = fi.readline()
    while l:
        print(l,end='')
        l = fi.readline()
except Exception as e:
    print(type(e),str(e))
finally:
    fi.close()

### 檔案物件-輸出資料操作
- 使用print()輸出至檔案
  - print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False)
    - file參數預設為標準輸出**sys.stdout**，輸出至Console
    - 將file參數設定為檔案物件，列印內容輸出至指定檔案
    - flush=True, 將緩衝區的內容沖入輸出流

In [4]:
# Write to file
output_text='''兩隻老虎，兩隻老虎，
跑得快！跑得快！
一隻沒有眼睛，
一隻沒有尾巴，
真奇怪！真奇怪！'''
filename='output1.txt'
try: 
    fi=open(filename, mode='w', encoding='utf_8') # need to specify 'mode'
    print(output_text, file=fi) # output stream is the 'file object'
except Exception as e:
    print(type(e),str(e))
finally:
    fi.close()

### 檔案物件-輸出資料操作
- 檔案物件方法
  - write(s)
    - 將字串寫入到輸出流
    - 傳回寫出的字元數
  - flush()
    - 將緩衝區的內容沖入輸出流

In [20]:
# Append to file
output_text='''Frère Jacques,
Frère Jacques,
Dormez-vous?
Dormez-vous?
Sonnez les matines!
Sonnez les matines!
Ding, dang, dong.
Ding, dang, dong.'''
filename='output1.txt'
try: 
    fi=open(filename, mode='a', encoding='utf_8') # append mode
    fi.write(output_text)
except Exception as e:
    print(type(e),str(e))
finally:
    fi.close()

In [None]:
# Append to file
output_text='''賈克修士，
賈克修士，
您在睡覺嗎？
您在睡覺嗎？
快去敲做日課的鐘！
快去敲做日課的鐘！
叮，叮，鐺。
叮，叮，鐺。'''
filename='output1.txt'
try: 
    fi=open(filename, mode='x', encoding='utf_8') # append mode
    fi.write(output_text)
except Exception as e:
    print(type(e),str(e))
finally:
    fi.close()

### with … as 語法

- 檔案資源自動關閉
    - with … as 語法：
      - with open('file', 'r', encoding='utf_8') as f :
    - 檔案物件支援Context Manager(上下文管理器)
      - 當你在Python中使用with open(...) as ...語句時，這通常被稱為上下文管理器。這種結構允許以一種確保資源（例如文件操作）得到正確分配和釋放的方式來管理資源，即使在操作過程中發生錯誤。
      - 進入with區段時傳回file物件
      - 離開with區間，自動關閉file資源  =>  不必再呼叫close()


### Context Management Protocol 管理協定

- context management protocol 管理協定
  - \_enter()	
    - 進入with區段時執行
    - 方法傳回的物件，可以使用as指定給變數
  - \_exit\_()
    - 離開with區段時執行，釋放資源


In [None]:
output_text='''賈克修士，
賈克修士，
您在睡覺嗎？
您在睡覺嗎？
快去敲做日課的鐘！
快去敲做日課的鐘！
叮，叮，鐺。
叮，叮，鐺。'''
filename='output1.txt'
try: 
    with open(filename, mode='w', encoding='utf_8') as fi:
        fi.write(output_text)
except Exception as e:
    print(type(e),str(e))

# read it back
try: 
    with open(filename, encoding='utf_8') as fi:
        t = fi.read()
        print(t)
except Exception as e:
    print(type(e),str(e))
    


### 讀取時的定位
- tell( ) 方法
  - 讀得目前存取文件所在的位元位置。
- seek（offset [, whence=0]）方法
  - 更改目前存取文件所在的位元位置
  - offset 參數表示偏移的位元數。
  - whence 參數指定偏移的參考點位置
    - os.SEEK_SET 或 0：代表以文件的**開頭**作為參考點
    - os.SEEK_CUR 或 1：代表以文件的**當前位置**作為參考點
    - os.SEEK_END 或 2：代表以文件的**結尾**作為參考點
  - 備注: 存取文字檔案時，當偏移量不等於 0 時，無法在當前位置 / 文件結尾設置參考點。

In [None]:
filename='input1.txt'
from os import SEEK_SET
with open(filename, encoding='utf_8') as fi:
    print("目前存取位置(位元):", fi.tell())
    t = fi.read(17) # (text文件, read()讀取字元, 17代表字元數目)
    print(t)
    print("目前存取位置(位元):",fi.tell()) # 注意tell()回傳所在的位元位置, utf-8中的每一個中文字佔3個位元寬, 換行符號為\r\n
    fi.seek(4, SEEK_SET) # or fi.seek(4,0)
    print("目前存取位置(位元):",fi.tell())
    t = fi.read(1) 
    print(t)

In [None]:
filename='input1.txt'
from os import SEEK_SET, SEEK_CUR, SEEK_END
with open(filename, mode='rb') as fi:
    print("目前存取位置(位元):", fi.tell())
    t = fi.read(17) # (binary文件, read()讀取位元, 17代表位元數目)
    print(t)
    print("目前存取位置(位元):",fi.tell()) # 注意tell()回傳所在的位元位置, utf-8中的每一個中文字佔3個位元寬, 換行符號為\r\n
    #
    fi.seek(4, SEEK_SET) # or fi.seek(4,0)
    print("目前存取位置(位元):",fi.tell())
    t = fi.read(1) 
    print(t)
    print("目前存取位置(位元):",fi.tell())
    #
    fi.seek(4, SEEK_CUR) # or fi.seek(4,1)
    print("目前存取位置(位元):",fi.tell())
    t = fi.read(1) 
    print(t)
    #
    fi.seek(0, SEEK_END) # or fi.seek(0,2) to goto end of file position.
    print('檔案大小(位元數):', fi.tell())
    #
    fi.seek(-4, SEEK_END) # or fi.seek(-4,2)
    print("目前存取位置(位元):",fi.tell())
    t = fi.read(1) 
    print(t)

### 練習：檔案內容英文單字出現次數

- 修改英文單字出現次數程式
  - 輸入讀取檔案名稱
  - 使用例外處理防止檔案不存在錯誤
  - 讀入檔案資料，計算各單字出現次數
  - 忽略大小寫差異
  - 移除標點符號
  - 列印出出現最多次數前十名的單字

In [None]:
def remove_symbol(word):
    c_list=[]
    for c in word:
        if c.isalpha():
            c_list.append(c)
    return ''.join(c_list)
#filename = 'lyrics.txt'
filename = input('Enter the file name to read:')
try:
    with open(filename) as fi:
        lyrics=fi.read()
except:
    print(f'Error: Can not open file {filename}')
else:
    words = lyrics.split()
    import collections
    word_dict = collections.defaultdict(int)
    for word in words:
        if word.isalpha():
            word_dict[word.lower()]+=1
        else:
            word = remove_symbol(word)
            word_dict[word.lower()]+=1
    # sort on word counts
    n = 0
    for word in sorted(word_dict,key=lambda k: word_dict[k], reverse=True):
        if n==10:
            break
        print(f'{word}-> {word_dict[word]}')
        n+=1