# Challenge 3

打開指定檔案，計算內容中，有多少個 "lorem" 並輸出結果到檔案。

## 第一步 - 考慮使用甚麼方式計算一段文字裏有多少個指定文字

* 使用 `count`

In [24]:
line = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.'

line.count('Lorem')

1

結果應為 1

➡️ 問題： "Lorem" 和 "lorem" 是有分別的!

In [25]:
line = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit. Lorem lorem lorem.'

line.count('Lorem') # Only count uppercase (result should be 2)
line.count('lorem') # Only count lowercase (result should be 2)
line.lower().count('lorem') # Count upper and lower (result should be 4)

4

## 第二步 - 編寫 Function `count_words`

* 計算一段文字中有多少個指定的字串 "lorem"

In [26]:
# line 是每次讀取一行的字串
# word 是需要尋找的文字
def count_words(line, word):
    return line.lower().count(word.lower()) # Try to find how many [word] in [line] and return

## 第三步 - 讀取檔案，使用上面的 Function 處理每一行

In [27]:
total = 0 # Result should be saved in [total]
with open("data/lorem.txt") as f: # Read data/lorem.txt
    for line in f: # Loop through each line
        total = total + count_words(line, 'Lorem') # Call count_words

結果應為：`13`

## 第四步 - 將結果寫到 challenge/result.txt

In [28]:
# write [total] to challenge/result.txt
with open("challenge/result.txt", "w") as f:
    f.write(f'{total}') 

`result.txt` 的內容應為 `13`

---

# 延伸功能

1. 計算檔案內所有文字出現的次數
2. 將結果按出現次數的多至少排序
3. 將結果用以下檔式寫到 challenge/result_plus.csv 中
```
    lorem,10
    test,5
    word,1
```

## 如何處理每一行文字

### 手動拆開每一個字

➡️ 問題：不知道檔案內容有甚麼，不能使用 `count`。

💡 提示：使用 `split` 拆開文字

In [29]:
line = 'Lorem ipsum dolor sit amet, consectetur   adipiscing elit.'

print(line.split(' ')) # Split by one space
print(line.split()) # Split by any space(s)

['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', '', '', 'adipiscing', 'elit.']
['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit.']


### 2. 將每一個字換成小寫，並去除標點

* 用 `[str].lower()` 去將文字轉換成小寫
* 去除標點
    * 在每一個字使用 `[str].replace([search], [replacement])` 取代每一個符號為空白字串
    * 使用 `re.sub([regex], [replacement], [str])` 取代任何符號為空白字串

In [30]:
word_list = ['Lorem', 'ipsum', 'elit.']

# Convert to lowercase
for word in word_list:
    print(word.lower())

lorem
ipsum
elit.


### 使用 `[str].replace`

* `string.punctuation` 列出了所有符號

In [31]:
import string
print(string.punctuation)

# Easy version
word = 'elit.'
for punc in string.punctuation:
    word = word.replace(punc, '')
print(word)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
elit


### 使用 re.sub 及 re.escape

* `re.sub([regex], [replacement], [str])`
* `re.escape([str])` 用於

In [32]:
import re

# Using Regex
word = 'elit.'
# substitute
new_word = re.sub('[' + re.escape(string.punctuation) + ']', '', word)
print('[' + string.punctuation + ']')
print(new_word)


[!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~]
elit


## 組合在一起

1. 讀取每一行
2. 將交由 count_words_by 處理
   * 手動拆解每一行
   * 將每一個字換成小寫，並去除標點
   * 將每一個字與 counter 比對，如已有記錄，則 +1，否則建立記錄
3. 將 counter 重新排序，並記錄到 result
4. 將 result 按照格式寫到檔案

In [33]:
import string
import re

# Save occurance in counter
counter = {}

# 2. Process each line
def count_words_by(line):
    word_list = line.split()
    for each_word in word_list:
        word_to_search = re.sub('[' + re.escape(string.punctuation) + ']', '', each_word.lower())

        if word_to_search in counter:
            counter[word_to_search] += 1
        else:
            counter[word_to_search] = 1

# 1. Open file and count words
with open('challenge/lorem.txt') as f:
    for line in f:
        count_words_by(line)

# 3. Sort counter and saved in result
result = sorted(counter.items(), key=lambda tup: tup[1], reverse=True)

# 4. Write result to challenge/result_plus.csv
with open('challenge/result_plus.csv', 'w') as f:
    for word, count in result:
        f.write(f'{word},{count}\n')
    

➡️ 問題：有多少個獨特(different)的字(word)?

In [34]:
print(len(result))

185


---

# 交功課

* 將這個 Challenge 檔案及 challenge 資料夾壓縮後，交到網址 https://www.dropbox.com/request/QjAznGp5njHFX2Eh8VDQ
* 請交功課時輸入你的名稱以作為檔案名稱：\[name\].zip