### CSV 格式
- Comma-Separated Values 逗號分隔值
- 通用的簡單資料格式
  - 資訊領域很早開始使用，沒有一致性的標準
  - 廣泛的應用在程式之間表格資料轉移


### CSV格式資料特性
- 每一行是一筆資料
- 資料有多個欄位, 通常用，隔開
- 欄位為純文字型態
- 可以被不同軟體開啟
  - 純文字編輯器、Excel、…
- 不限定使用的字元集(ASCII、UTF-8 、BIG5…)

### 標準函式庫 csv 模組
- 提供存取CSV格式表格數據的類別
  - 程式輸出可供EXCEL讀取的數據
  - 讀取以EXCEL編輯的數據至程式中
- reader/writer 物件：每一行資料以**清單**型態處理
- DictReader/DictWriter 物件：每一行資料以**字典**型態處理

### 使用 reader 物件讀取CSV 檔案
- 匯入csv模組
  - import csv
- 建立 reader 物件
  - csv.reader(csvfile, dialect='excel', **fmtparams)
- 使用 for-in 迴圈，逐行取出資料
- CSV 檔案中每一行資料被包裝為一個清單，使用索引值讀取


### 使用 reader 物件讀取CSV 檔案
- csv.reader(csvfile, dialect='excel', **fmtparams)
  - csvfile：要開啟的檔案物件
  - dialect：指定特定CSV方言(指定一組的格式參數設定)
    - excel (.csv)
    - excel-tab (.tsv)
    - unix
  - fmtparams：覆蓋掉指定方言中的特定格式參數

### 使用 reader 物件讀取CSV 
- 檔案常用格式參數
  - delimiter：設定欄位分隔符號。預設為','
  - quotechar：設定引用符號。預設為 ' " '
  - lineterminator：設定換行符號。預設為 '\r\n'
  - strict：csv格式錯誤時是否拋出例外。預設為 False
  - quoting：設定引用模式。預設為 QUOTE_MINIMAL。
    - csv.QUOTE_ALL - 所有資料均使用引用符號。
    - csv.QUOTE_MINIMAL - 只有在字串包含特殊字符時才使用引用符號。
    - csv.QUOTE_NONNUMERIC - 引用所有不是數值的字串。
    - csv.QUOTE_NONE - 任何資料均不使用引用符號。

In [None]:
# 資料來源: https://data.gov.tw/dataset/127023
# csv module
# filename : data.csv (utf-8 encoding with BOM)
import csv
with open('data.csv', encoding='utf_8') as f:
    csvCursor = csv.reader(f)
    for line in csvCursor:
        print(line) # The first field of the first line contains BOM

### 字元順序標記(Byte Order Mark, BOM)
- 字元順序標記（BOM）是一種特殊的標記，通常位於文件的開頭，用於指示文件的字元順序（endianness）和所使用的編碼。它在處理Unicode文件時尤其重要。

### BOM的目的

**指示字元順序：**  
在Unicode的上下文中，特別是UTF-16和UTF-32編碼中，BOM指示字元順序為：
- 大端序（Big-Endian）：最重要的字元（MSB）首先存儲（例如：0xFEFF）。
- 小端序（Little-Endian）：最不重要的字元（LSB）首先存儲（例如：0xFFFE）。

**指定編碼：**  
BOM也可以顯示文件是以UTF-8、UTF-16或UTF-32編碼的。雖然UTF-8不需要BOM，但仍然可以使用。BOM的存在可以幫助軟件識別文件的編碼。

### 常見的BOM值

- **UTF-8:** EF BB BF
- **UTF-16 大端序:** FE FF
- **UTF-16 小端序:** FF FE
- **UTF-32 大端序:** 00 00 FE FF
- **UTF-32 小端序:** FF FE 00 00

### BOM的使用

- 當文件以BOM保存時，編輯器和應用程序可以讀取BOM以確定正確的編碼和字元順序，這有助於正確顯示文件。BOM可以增強不同系統和軟件之間的兼容性，確保文件無論在什麼平台上都能正確解釋。
- 然而，一些應用程序可能無法正確處理BOM，導致顯示奇怪字符或將BOM視為文本的一部分等問題。這在UTF-8文件中更為常見，因為許多系統不期望在UTF-8編碼的文件中出現BOM。
- 通常建議在UTF-16和UTF-32文件中使用BOM，而在UTF-8中，使用BOM則是可選的，並且取決於具體情境。
- 在網頁文件和其他以UTF-8為標準的情境中，許多開發者更傾向於避免使用BOM，以防止兼容性問題。

### U+FEFF：零寬不換行空格 (Zero Width No-Break Space, ZWNBSP)

1. **不可見字符**：
   - ZWNBSP 是一個不可見的字符。它在渲染(render)時不會產生任何可見的空間，因此在需要使用不具可視表示的字符時非常有用。

2. **不換行空格**：
   - 作為不換行空格，它可防止在其位置自動換行（單詞換行）。這在文本處理中非常重要，當你希望將某些元素保持在一起而不被拆分到不同的行時。

3. **編碼中的使用**：
   - 在文件編碼的上下文中，U+FEFF 也可以用作 **字元順序標記（BOM）**，當它出現在文件的開頭時。
   - 它指示文件的字元順序（大端序或小端序）以及所使用的編碼（如 UTF-16 或 UTF-32）。
   - 當它在文件中的其他位置出現時，則純粹作為零寬不換行空格使用。

4. **應用**：
   - 它有時在文件處理應用程序和標記語言中被用來管理格式和排版，而不會引入可見的空隙或換行。

### 總結

總之，U+FEFF 在 Unicode 中有雙重用途：作為文件中的零寬不換行空格和作為編碼場景中的字元順序標記。其不可見性使其成為管理文本佈局而不改變可見內容的獨特工具。

In [None]:
# csv module
# filename : data.csv (utf-8 encoding with BOM)
import csv
with open('data.csv', encoding='utf_8') as f:
    csvCursor = csv.reader(f)
    for line in csvCursor:
        for field in line:
            print(field.encode(), end='\t')
        print()

In [None]:
# csv module
# filename : data.csv (utf-8 encoding with BOM)
import csv
with open('data.csv', encoding='utf_8') as f:
    csvCursor = csv.reader(f)
    for line in csvCursor:
        for field in line:
            print(field, end='\t')
        print()

In [None]:
# csv module
# filename : data.csv (utf-8 encoding with BOM)
# encoding of utf_8_sig means utf-8 with BOM signature
import csv
with open('data.csv', encoding='utf_8_sig') as f:
    csvCursor = csv.reader(f)
    for line in csvCursor:
        print(line)

在Python中，`utf-8-sig`是一種特定的編碼選項，用於處理包含字元順序標記（BOM）的UTF-8編碼文件。

### 什麼是utf-8-sig？

- **帶BOM的UTF-8:** `utf-8-sig`編碼實質上是UTF-8編碼，並具有識別和處理可能出現在文件開頭的BOM（0xEF 0xBB 0xBF）的一項附加功能。
- **目的:** BOM用於顯示文件是以UTF-8編碼的。雖然UTF-8並不需要BOM，但對於需要了解文件編碼的軟件來說，它是有幫助的。使用`utf-8-sig`編碼時，如果文件中存在BOM，則在讀取文件時會自動檢測並刪除該BOM。

### 為什麼使用utf-8-sig？

- **兼容性:** 一些文本文件，特別是由某些應用程序（如Microsoft Excel）創建的文件，可能會包含BOM。使用`utf-8-sig`可以讓Python正確讀取這些文件，而無需手動去除BOM。

In [None]:
# using quoting parameter: QUOTE_NONNUMERIC
# Instructs reader objects to convert all non-quoted fields to type float.
import csv
with open('data2.csv', encoding='utf-8-sig') as f:
    csvCursor = csv.reader(f,quoting=csv.QUOTE_NONNUMERIC)
    for line in csvCursor:
        print(line)

In [None]:
# data3.csv using cp950 encoding (the default in Windows)
# It uses 'tab' as the delimiter symbol
import csv
with open('data3.csv') as f: 
    csvCursor = csv.reader(f, quoting=csv.QUOTE_NONNUMERIC, dialect='excel-tab')
    for line in csvCursor:
        print(line)

### 使用 DictReader 物件讀取CSV 檔案
- 匯入csv模組
  - import csv
- 建立 DictReader 物件
  - csv.DictReader(csvfile, fields=None, restkey=None, restval=None, dialect= 'excel', *args, **kwds)
- 使用 for-in 迴圈， 逐行取出資料
- CSV 檔案中每一行資料被包裝為一個dict，使用欄位名稱(key)讀取


- csv.DictReader(csvfile, fields=None, restkey=None, restval=None, 	dialect= 'excel', *args, **kwds)
  - csvfile：要開啟的檔案物件
  - fields：資料欄位名稱清單，未指定則以檔案第一行做為名稱
  - restkey：資料欄位比名稱清單多時，剩餘數據使用此名稱
  - restval：名稱清單比資料欄位多時，剩餘名稱使用此數據
  - dialect：指定特定CSV方言(代表一組的格式參數設定)
  - *args：額外的位置參數
  - **kwds：額外的名稱參數


In [None]:
# https://catalog.data.gov/dataset/adoptable-pets
import csv
filename='Adoptable_Pets.csv'
with open(filename) as fi:
    dictReader = csv.DictReader(fi)
    for record in dictReader:
        # Pet name,Animal Type,Pet Age,Breed
        print(record['Pet name'], record['Animal Type'], record['Pet Age'], record['Breed'], sep=', ')


### 使用 writer 物件輸出至CSV 檔案
  - 匯入csv模組
    - import csv
  - 建立 writer 物件
    - csv.writer(csvfile, dialect='excel', **fmtparams)
      - csvfile：要輸出的檔案物件
      - dialect：指定特定CSV方言(代表一組的格式參數設定)
      - fmtparams：覆蓋指定方言中的特定格式參數


### 使用 writer 物件輸出至CSV 檔案
  - csv.writer.writerow(row)：寫出一筆資料
    - Row：資料以清單形式組成
    - 清單資料會被轉成一行以分隔符號隔開的字串後寫出
      - 非字串型態資料透過str() 轉成字串
      - None 會轉成空字串
  - csv.writer.writerows(rows)：寫出多筆資料
    - rows：清單資料集合

In [None]:
# DC year to Ming-Guo year
import csv
data=[]
with open('data.csv', encoding='utf-8-sig') as f:
    csvCursor = csv.reader(f)
    n = 0
    for line in csvCursor:
        if n>=1:
            y = line[0]
            mgn = str(int(y[:4])-1911)
            line[0]=line[0].replace(y[:4],mgn)
        data.append(line)
        n+=1
print(data)
with open('data_mgn.csv', mode = 'w', encoding='utf-8-sig') as f:
    csvCursor = csv.writer(f)
    for line in data:
        csvCursor.writerow(line) 

### Problem
- Extra blank lines are being output between each record.
- To resolve this, use `open(newline='')`.
- If `newline=''` is not specified, newlines embedded within quoted fields may not be interpreted correctly. Additionally, on platforms that use `\r\n` line endings during writing, an extra `\r` may be added. 
- It is always advisable to specify `newline=''`, as the `csv` module handles newline characters universally on its own.
- **In the output generated by the above program for 'data_mgn.csv', you can observe an additional '\r' for each occurrence of '\r\n' (i.e., resulting in '\r\r\n')** (Use a binary viewer tool to check it).

### 問題
- 每條記錄之間輸出多餘的空行。
- 為了解決這個問題，請使用 `open(newline='')`。
- 如果不指定 `newline=''`，則嵌入在引號字段中的換行符可能無法正確解釋。此外，**在使用 `\r\n` 換行符的平臺上寫入時，可能會添加額外的 `\r`**。
- 始終建議在存取csv檔案時, open()指定 `newline=''`，亦即open()不去處理通用的換行字元, 而讓`csv` 模組自行進行通用的換行字元處理。
- 在上述程序生成的 'data_mgn.csv' 輸出中，您可以觀察到每個 `\r\n` 會多出一個 `\r`（即，結果為 `\r\r\n`）。

In [None]:
# open() with newline=''
import csv
data=[]
with open('data.csv', encoding='utf-8-sig', newline='') as f:
    csvCursor = csv.reader(f)
    n = 0
    for line in csvCursor:
        if n>=1:
            y = line[0]
            mgn = str(int(y[:4])-1911)
            line[0]=line[0].replace(y[:4],mgn)
        data.append(line)
        n+=1
print(data)
with open('data_mgn.csv', mode = 'w', encoding='utf-8-sig', newline='') as f:
    csvCursor = csv.writer(f)
    for line in data:
        csvCursor.writerow(line) 

### 使用 DictWriter物件輸出至CSV 檔案
- 匯入csv模組
  - import csv
- 建立 DictWriter物件
  - csv.DictWriter(csvfile, fieldnames, restval='', extrasaction='raise', dialect='excel',
*args, **kwds)
- csv.DictWriter.writeheader()：寫出欄位名稱標頭清單
- csv.DictWriter.writerow(row)：寫出一筆資料
  - row：資料以字典dict形式組成

### 使用 DictWriter物件輸出至CSV 檔案

- csv.DictWriter(csvfile, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)
  - csvfile：要開啟的檔案物件
  - fieldnames：資料欄位名稱清單
  - restval：名稱清單比資料欄位多時，剩餘名稱使用此數據
  - extrasaction：資料包含未指定欄位時操作行為
    - raise：拋出 ValueError / ignore ：忽略此欄位
  - dialect：指定特定CSV方言(代表一組的格式參數設定)
  - *args：額外的位置參數
  - **kwds：額外的名稱參數

In [48]:
# Original fields: Animal ID,Intake Type,In Date,Pet name,Animal Type,Pet Age,Pet Size,Color,Breed,Sex,URL Link ,Crossing
# Fields reduced to Pet name,Animal Type,Pet Age,Breed
# The Pet name is changed to the capitalized form
import csv
filename='Adoptable_Pets.csv'
data = []
with open(filename) as fi:
    dictReader = csv.DictReader(fi)
    for record in dictReader:
        data.append(record)
#
filename = 'Reduced_Adoptable_Pets.csv'
field_names = ['Pet name','Animal Type','Pet Age','Breed']
with open(filename, mode = 'w', newline='') as fi:
    # ignore the extra field values in data
    dictWriter = csv.DictWriter(fi, fieldnames=field_names, extrasaction='ignore')
    dictWriter.writeheader()
    for record in data:
        record['Pet name']=record['Pet name'].lower().title()
        dictWriter.writerow(record)