### 字數統計
<br>

* 如果想針對某份文件做字數統計，該怎麼利用已經學過的方法來實作？
    1. 逐行讀取，每一列讀進來的字數總量，就是把該列資料切開之後的串列長度，然後逐行加總
    2. 若檔案不大，可考慮一次讀取整份文件，直接切開計算

In [3]:
# word_count = 0
# with open('mlist.txt', 'r') as file:
#     for line in file:
#         words = line.strip().split()
# #         print(words)
#         word_count += len(words)
#     print(word_count)
with open('mlist.txt', 'r') as f:
    article = f.read()
    words = article.split()
    print(len(words))

547789


* 計算 $\rm{letter\_freq.txt}$ 當中，各個字母出現的頻率總和

In [5]:
total = 0
with open('letter_freq.txt', 'r') as file:
    for line in file:
        data = line.strip().split()
#         print(data)
        total += float(data[1])
    print(total)

99.999


### 簡單字數計算
<br>

* 如何得知愛麗絲夢遊仙境的文本 $\rm{(alice.txt)}$ 當中，$\rm{Alice}$ 與 $\rm{time}$ 這兩個詞出現的次數？
* 如何能確保得到正確的計數？

In [7]:
alice_count = 0
time_count = 0
with open('alice.txt', 'r') as file:
    article = file.read().lower()
    alice_count = article.count('alice')
    time_count = article.count('time')
    print(f'Alice: {alice_count}')
    print(f'time: {time_count}') # 是否有遺漏的數量?

Alice: 399
time: 82


* 計算綠野仙蹤文本 $\rm{oz.txt}$ 中，$\rm{Scarecrow}$、$\rm{Woodman}$ 與 $\rm{Lion}$ 等三個詞出現的次數

In [16]:
with open('oz.txt', 'r', encoding='UTF-8') as file:
    article = file.read().lower()
    print(f'Scarecrow: {article.count("scarecrow")}')
    print(f'Woodman: {article.count("woodman")}')
    print(f'Lion: {article.count("lion")}')

Scarecrow: 226
Woodman: 182
Lion: 181


* 開啟檔案時，很常會遇到 $\rm{UnicodeDecodeError:\space 'cp950'\space codec\space can't\space encode\space character\space ...}$ 的錯誤
    * 這個錯誤代表編碼的轉換出現問題
    * 通常這不是 $\rm{Python}$ 的問題，而是作業系統的問題。因此在程式需要跨平台使用時要注意
    * 一勞永逸的解決方式就是在開啟檔案時直接指定編碼 ($\rm\color{orange}{encoding}$) 為 $\rm\color{orange}{UTF-8}$
<br><br>
* 字串 (包括 $\rm{f}$-字串) 在需要使用兩次引號時，要特別留意

### 純文字檔的寫入
<br>
  
#### 開啟檔案所要求的權限
  
        with open('完整檔名', 'w') as 代碼(別名):
  
* 與讀取時的語法一樣，只是此時對系統要求的權限為「$\rm{w}$」
* 若檔名不存在，系統會自動建立；若已存在，會$\color{orange}{被覆寫}$
---
#### 寫入純文字檔的語法

* 寫入的語法有兩種：$\rm\color{orange}{write()}$ 以及 $\rm\color{orange}{writelines()}$
* $\rm{write()}$ 的語法如下：
  
        別名.write('欲寫入的內容')
  
* 注意
    1. 寫入的內容必須是$\color{orange}{字串}$
    2. 程式不會幫我們分行，所以在連續寫入時，會緊接在上次結束的位置之後
    3. 因此，若希望每次的寫入都是獨立的一行，要記得在結尾加上 $\rm\color{orange}{\backslash n}$
<br><br>
* 本學期課程與考試以 $\rm{write()}$ 為主；$\rm{writelines()}$ 留待有合適的實務資料檔時再一併練習實作

In [17]:
with open('my_file.txt', 'w', encoding='UTF-8') as file:
    while True:
        line = input('Add a new line of data to the file, Q/q to quit: ')
        if line == 'Q' or line == 'q':
            break
        file.write(line + '\n')

Add a new line of data to the file, Q/q to quit: jdfwieourik
Add a new line of data to the file, Q/q to quit: 273343824
Add a new line of data to the file, Q/q to quit: 0983864dfhdf
Add a new line of data to the file, Q/q to quit: hahaha
Add a new line of data to the file, Q/q to quit: q


In [18]:
data = ['第一行', '第二行', '第三行']
with open('my_file.txt', 'w') as file:
    for line in data:
        file.write(line + '\n')

### 讀取檔案，獲取所需資訊之後，寫入另一檔案
<br>

* 比方說，我們想要執行如下的處理：
    1. 把 $\rm{mlist.txt}$ 中含有 $\rm{umich.edu}$ 的資料列都擷取出來
    2. 計算總行數
    3. 把 $1.$ 和 $2.$ 的內容寫入一個叫 $\rm{mlist\_umich.txt}$ 的檔案裡
* 此時，我們可利用如下語法，一次開啟兩個檔案：
  
        with open(檔案1, 權限1) as 別名1, open(檔案2, 權限2) as 別名2:
  

In [19]:
line_count = 0
with open('mlist.txt', 'r') as fin, open('mlist_umich.txt', 'w') as fout:
    for line in fin:
        if 'umich.edu' in line:
            line_count += 1
            fout.write(line)
    fout.write('\nTotal line counts: ' + str(line_count))

* 計算 $\rm{there}$、$\rm{you}$ 和 $\rm{then}$ 在愛麗絲夢遊仙境文本中出現的次數，並把結果分行寫入 $\rm{alice\_freq.txt}$，格式如下：
  
        there: xxx  
        you: xxx  
        then: xxx

In [20]:
with open('alice.txt', 'r') as fin, open('alice_freq.txt', 'w') as fout:
    article = fin.read().lower()
    fout.write('there: ' + str(article.count('there')) + '\n')
    fout.write('you: ' + str(article.count('you')) + '\n')
    fout.write('then: ' + str(article.count('then')) + '\n')

* 計算 $\rm{alice.txt}$ 檔案中的$\color{orange}{總列數}$、$\color{orange}{總字數}$與$\color{orange}{總空格數}$，然後分行寫入一個叫 $\rm{alice\_stat.txt}$ 的檔案中

In [21]:
line_count = 0
space_count = 0
word_count = 0
with open('alice.txt', 'r') as fin, open('alice_stat.txt', 'w') as fout:
    for line in fin:
        line_count += 1
        space_count += line.strip().count(' ')
        word_count += len(line.strip().split())
    fout.write('line: ' + str(line_count) + '\n')
    fout.write('word: ' + str(word_count) + '\n')
    fout.write('space: ' + str(space_count) + '\n')

### 串列方法
<br>

* 最常用的功能：新增、刪除、排序
* 在之前已經學過利用非串列方法來新增和刪除元素

In [24]:
# 非串列方法新增元素
k = ['apple', 'banana', 'orange']
print(k)
k += ['watermelon'] # 注意串列只能與串列相加
print(k)
k += ['kiwi', 'grape'] # 可一次新增一個以上的元素
print(k)
print()

# 非串列方法刪除元素
del k[2]
print(k)
del k[2:4]
print(k)


['apple', 'banana', 'orange']
['apple', 'banana', 'orange', 'watermelon']
['apple', 'banana', 'orange', 'watermelon', 'kiwi', 'grape']

['apple', 'banana', 'watermelon', 'kiwi', 'grape']
['apple', 'banana', 'grape']


* 使用 $\rm{append()/remove()}$ 來新增/移除$\color{orange}{一個}$串列元素
  
        串列名稱.append(欲新增的元素)
  
* 使用 $\rm{extend()}$ 來新增一個串列中的所有元素
  
        串列名稱.extend(將欲新增的一個以上元素置於串列中)

In [28]:
k = ['apple', 'banana', 'orange']
print(k)
k.append('watermelon')
print(k)
# k.append('kiwi', 'grape') # append() 中只能放一個元素
# k.append(['kiwi', 'grape']) # 注意差別
# print(k)
s = ['kiwi', 'grape']
k.extend(s)
print(k)
print()

# k.remove('grape') # remove() 中放的是值，而使用 del 刪除則要使用索引值
# print(k)
# k.remove('kiwi')
# k.remove('orange')
# print(k)

['apple', 'banana', 'orange']
['apple', 'banana', 'orange', 'watermelon']
['apple', 'banana', 'orange', 'watermelon', 'kiwi', 'grape']



* 使用 $\rm{sort()}$ 則可將一個串列做排序
  
        串列名稱.sort()
  
* 可在當中利用參數 $\rm\color{orange}{reverse}$ 來控制排序的方向。預設值為 $\rm{False}$，代表由小到大，改為 $\rm{True}$ 則為由大到小

In [32]:
n = [35, 11, 8, 26, 13, -9]
print(n)
n.sort()
print(n)
n.sort(reverse=True)
print(n)

# 可用內建函式來取總和、最大值與最小值
a = sum(n)
b = max(n)
c = min(n)
print(a, b, c, sum(n)/len(n))

[35, 11, 8, 26, 13, -9]
[-9, 8, 11, 13, 26, 35]
[35, 26, 13, 11, 8, -9]
84 35 -9 14.0


* $\rm{scene\_recog.txt}$ 是 [MIT SUN Database](https://groups.csail.mit.edu/vision/SUN/hierarchy.html) 中的部分圖片資料，請利用目前所學，找出此份純文字檔中含有幾個圖片類別

In [36]:
category = []
with open('scene_recog.txt', 'r') as file:
    for line in file:
        data = line.strip().split('/')
#         print(data)
        if data[2] not in category:
            category.append(data[2])
#     print(category)
    print(f'Total categories: {len(category)}')

Total categories: 362
