### 簡單字串處理
<br>
  
* 在某些資料處理的場合，我們會希望在未經整理的字串中找出有資訊價值的子字串
* 例如，現在有大量如下格式的字串需要處理
  
> From stephen.marquard@uct.ac.za Sat Jan  5 09:14:16 2008  
  
* 假設現在我們只對 $\rm{email}$ 後半段 ($\rm{uct.ac.za}$) 的寄件人網域感興趣，該怎麼做?

In [None]:
# 利用 find() 與切片
data = 'From stephen.marquard@uct.ac.za Sat Jan  5 09:14:16 2008'
at_pos = data.find('@')
print(at_pos)
space_pos = data.find(' ', at_pos)
print(space_pos)
host = data[at_pos+1:space_pos]
print(host)

In [None]:
# 利用 split()
data = 'From stephen.marquard@uct.ac.za Sat Jan  5 09:14:16 2008'
words = data.split()
print(words)
email = words[1].split('@')
print(email)
domain = email[1]
print(domain)

### 開啟檔案
<br>
  
* 無論想要讀取或寫入檔案，首先都必須$\color{orange}{開啟}$檔案
* 打開檔案是一個與作業系統溝通的過程，因為系統知道每個檔案的資料存放的位置
* 當我們打開檔案時，實際上我們是在要求作業系統
    * 用檔案名稱尋找檔案
    * 確認檔案是否存在
* 在下面的例子裡，我們打開 $\rm{mlist\_ short.txt}$ 這個檔案
    * 先確認它和 $\rm{lec08}$ 放在同一個目錄下

In [None]:
with open('mlist_short.txt', 'r') as file:

* 開啟檔案的語法為 $\rm\color{orange}{with\space open(檔名,\space 模式)\space as\space 代碼(別名):}$ (注意冒號！)
    1. 注意$\color{orange}{檔名}$和$\color{orange}{模式}$都是$\color{orange}{字串}$格式
    2. 若不在同一目錄，需要將檔名部分改為完整路徑；同一目錄下只需輸入檔名即可。本學期課程不會學到不同路徑下的檔案處理
    3. 檔名必須包含$\color{orange}{副檔名}$
    4. 模式的部分，常用的有三種：「$\rm{r}$」讀取、「$\rm{w}$」寫入、「$\rm{a}$」附加。若省略則會使用預設值「$\rm{r}$」
    <br><br>

* 上面程式碼中的 $\rm{file}$ 稱為檔案代碼 ($\rm{file\space handle}$)。正規的解釋有一點抽象，所以先把它當成是我們給被開啟的那個檔案的別名
    * 開啟之後到結束處理之前，都必須使用這個別名來稱呼這個檔案，並藉此進行處理

### 讀取純文字檔案
<br>

* 一般而言有下列 $3$ 種常用的方法
    1. $\rm\color{orange}{read()}$: 一次讀取整份文字檔。用在檔案不大，且我們想對整份文件做處理的時候。處理巨大文字檔時要考慮一下電腦記憶體的大小
    2. $\rm\color{orange}{readlines()}$: 一次讀取整份文字檔，並把每一行文字存成獨立的字串，最後把這些字串放入一個串列中回傳
    3. 如果只是想要逐行讀取，那麼對檔案代碼使用$\color{orange}{迴圈}$即可
        * 在使用迴圈逐行讀取檔案時，程式會偵測換行字元「$\rm{\backslash n}$」的位置，並且把它當作每一行的最後一個字元
        * 「$\rm{\backslash n}$」的下一個字則是下一行的第一個字，一直到又遇到下一個換行字元
        * 因為每次只讀一行，所以在讀取檔案的時候不會受到檔案大小的影響
        * 又因為每次只有「讀取一行、捨棄目前這行之後讀取新的一行」兩個簡單的動作，所以執行的速度非常快

In [None]:
with open('mlist_short.txt', 'r') as file:
#     print(file.read())
#     print(file.readlines())
    for line in file:
        line = line.strip()
        print(line)

* 利用逐行讀取的方式，可以輕鬆得到文字檔的總行數

In [None]:
line_count = 0
with open('mlist_short.txt', 'r') as file:
    for line in file:
        line_count += 1
    print(line_count)

### 搜尋並篩選檔案內容
<br>
  
* 搜尋檔案中的資料時，程式會逐行讀取並進行比對，然後只處理滿足特定條件的行
* 我們可以將檔案讀取與字串方法結合起來，構建簡單的搜尋機制
* 比方說，我們只想要印出檔案中以「$\rm{From:}$」作為開頭的行
* 那麼，可以使用前面學過的字串方法 $\rm{startswith()}$ 來篩選這些資料

In [None]:
with open('mlist_short.txt', 'r') as file:
    for line in file:
#         line = line.strip()
        if line.startswith('From:'):
            print(line)

* 輸出結果很不錯，但為什麼行與行之間多了一個空行？
* 這是因為：
    1. 每一行的結尾都有一個隱形的換行字元$\rm\color{orange}{「\backslash n」}$
    2. $\rm{print()}$ 本身也帶一個$\rm\color{orange}{「\backslash n」}$
* 因此，相當於印完一行資料之後按了兩次 $\rm{enter}$ 鍵
* 怎麼把這些隱形的東西都清除掉？

In [None]:
with open('mlist_short.txt', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('From:'):
            print(line)

* 上面的寫法也可改以 $\rm{continue}$ 來建構
* 執行搜尋功能時其實還滿常用到 $\rm{continue}$ 的

In [None]:
with open('mlist_short.txt', 'r') as file:
    for line in file:
        line = line.strip()
        if not line.startswith('From:'):
            continue
        print(line)

* 對於有興趣的關鍵字不在開始或結尾的情況，可以利用 $\rm{find()}$
* 例如，我們希望找出 $\rm{mlist\_short.txt}$ 中含有 $\rm{@uct.ac.za}$ 這個 $\rm{email}$ 網域的該行資料
* 使用 $\rm{find()}$ 和 $\rm{in}$ 的效果是一樣的。下面的範例也可使用 $\rm{in}$ 來改寫

In [None]:
with open('mlist_short.txt', 'r') as file:
    for line in file:
        line = line.strip()
#         if line.find('@uct.ac.za') != -1:
#             print(line)
        if '@uct.ac.za' in line:
            print(line)

* 找出 $\rm{mlist\_ short.txt}$ 中所有以「$\rm{Received:}$」開頭的資料行，並將它們全部轉成大寫之後輸出

In [None]:
with open('mlist_short.txt', 'r') as file:
    for line in file:
        line = line.strip()
        if line.startswith('Received:'):
            print(line.upper())

* 找出 $\rm{mlist\_ short.txt}$ 中，含有「umich.edu」的總行數

In [25]:
line_count = 0
with open('mlist_short.txt', 'r') as file:
    for line in file:
#         line = line.strip()
        if 'umich.edu' in line:
            line_count += 1
    print(line_count)

191


1. 寫出一個程式，讓使用者輸入
    1. 想要開啟的檔案名稱
    2. 想要在該檔案中尋找的字串
<br><br>
2. 然後
    1. 印出每一行含有該字串的資料
    2. 並且在最後輸出含有該資料的總行數
<br><br>
3. 完成之後，請尋找並印出 $\rm{vt.edu}$ 在 $\rm{mlist.txt}$ 中出現的總行數

### 利用 $\rm{split()}$ 做簡單資料處理
<br>


* $\rm{letter\_freq.txt}$ 儲存了每個英文字母出現的頻率 (${\%}$)。想要知道 $\rm{k}$ 出現的頻率，該怎麼做?

In [29]:
with open('letter_freq.txt', 'r') as file:
    for line in file:
        words = line.strip().split()
        if words[0] == 'k':
            print(words[1])

0.772


### 字數統計
<br>

* 如果想針對某份文件做字數統計，該怎麼利用已經學過的方法來實作？
* 我們固然可以計算逐行的字數後加總，但一口氣讀進來之後再利用 $\rm{split()}$ 切開計數，可能會是比較俐落的方式