# Python & Data - Week 3

問題：讀取文字檔案內容並做處理

## 本週內容

1. [Weekly Challenge](challenge3.html) | [ipynb 檔案](challenge3.ipynb) 

[打包下載](../week3.zip)

### 如何讀取一個文字檔案

In [None]:
with open("data/lorem.txt") as f:
    # prints only one line (with line ending at the end)
    print(f.readline())

### 如何讀取檔案的全部行

In [None]:
with open("data/lorem.txt") as f:
    for line in f:
        print(line)

### 如何將資料寫入一個文字檔案

➡️ 在 `open()` 第二個參數使用 'w' (Write)

In [None]:
with open("data/write_file.txt", 'w') as f:
    f.writelines('Hi! My name is Samuel')

# check data/write_file.txt

### 如何將資料寫入已存在檔案的最後 (Append)?

➡️ 在 `open()` 第二個參數使用 'a' (Append)

In [None]:
for i in range(1, 11): # 10 times
    with open("data/append_file.txt", 'a') as f:
        f.writelines(f'Hi! This is the {i} time I see you!\n') # \n is line break

# check data/append_file.txt

### 將結果寫成特定的格式 (CSV)

➡️ 有甚麼好處?

💡 將資料寫成特定的格式，可以將不同的程式連接起來，交換數據和互通。使用公開的格式，可以更便利資料互通。

In [None]:
data = [
    ("Python", 10),
    ("PHP", 8.5),
    ("JavaScript", 9.5),
    ("Dart", 7),
    (".net", 7.5), 
    ("Java", 8.5)
]
with open("data/write_csv.csv", 'w') as f:
    for language, score in data:
        f.writelines(f'{language},{score}\n')

# check data/write_csv.txt

### 讀取及寫入 UTF-8 編碼的檔案 (Python 2 only)

➡️ 中文等語言，不能使用一般的 ASCII 格式讀取及儲存，需要使用 Unicode (UTF-8) 編碼。Python 3 起，UTF-8 是預設 Encoding，

In [None]:
speedy = '郵差叔叔送信純熟迅速送出🤐'

with open("data/write_utf8.txt", 'w', encoding='utf-8') as f:
    f.writelines(speedy)

with open("data/write_utf8.txt", encoding='utf-8') as f:
    if f.readline() == speedy:
        print('Encoding correct')
    else:
        print('Encoding wrong!')

### 還有甚麼其他的格式?

#### 1. JSON (JavaScript Object Notation / 直譯：JavaScript 物件表示法)

一種基於文字的資料格式，由 JavaScript 演化而成，有不少語言都內置讀取(Decode)、寫入(Encode)這個格式。

特點：
* 簡潔
* 易讀
* 佔用空間少

```json
[
    {
        "name": "小明",
        "scores": [100, 99, 100, 80, 75]
    },
    {
        "name": "Samuel",
        "scores": [75, 80, 90, 99, 95]
    }
]
```

#### 2. XML (eXtensible Markup Language)

一種基於文字的資料格式，由 HTML 演化成的一個標準，歷史較長，也是一種較廣為接受的格式。

特點：

* 能夠表示較複雜的資料類型
* 由於使用 Tag 包住內容，能夠從 Tag 的名稱猜出含意
* 由於歷史悠久，以及商業的支持，為較多大型軟件支持
* 佔用空間較多
* 結構較複雜，使用人手寫容易出錯

```xml
<student-scores>
    <student name="小明">
        <scores>
            <score>100</score>
            <score>99</score>
            <score>100</score>
            <score>80</score>
            <score>75</score>
        </scores>
    </student>
    <student name="Samuel">
        <scores>
            <score>75</score>
            <score>80</score>
            <score>90</score>
            <score>99</score>
            <score>95</score>
        </scores>
    </student>
</student-scores>
```

#### 3. XLS / XLSX (Excel 的檔案格式)

XLS 為二進制格式，XLSX 為基於 XML 的 Excel 格式。是 Microsoft Excel 的專用檔案格式，大多數程式語言都有程式庫讀取及寫入這檔案格式。

特點：

* 由於佔有率，較為多一般非技術人員所接受
* 封閉的格式，較難讀取和生成 (一般要使用 Package)
* 通常為了製作報表才使用