# 資料預處理

資料預處理是機器學習/深度學習中的第一步，讓資料可以順利交給模型分析。本練習透過實作一支資料預處理程式，讓大家開始利用 python 語言開發深度學習模型。

## 1. 介紹

### 1.1 簡介

資料預處理包涵許多面向，針對深度學習模型的特性，本練習專注在將類別形式的資料，轉換為數字形式。舉例來說有一筆原始資料如下：

```
性別：男, 身高：175 公分, 體重：70 公斤, 年齡：20 歲
```

可以將其轉換成如下的數字形式：

```
0, 175, 70, 20
```

第一個數字 0 代表性別為男，如果性別為女就改成數字 1，**注意這些數字的對映由開發者自行決定**。後面的三個數字則分別代表身高、體重與年齡。

### 1.2 原始資料

原始資料通常會以檔案的形式存在，例如一份 Excel 檔案。本練習選擇常用的 **csv (comma seprated values) 檔案**。csv 檔案可以看做 Excel 檔案的簡易版，用換行來區隔每筆資料，用逗號來區隔每個欄位。以下為一個 csv 檔案範例：

```
性別,身高,體重,年齡
男,175,70,20
男,170,68,22
女,165,50,21
女,160,48,20
```

第一行代表每個欄位的名稱，從第二行開始則記錄了每一筆資料的內容。注意 csv 檔案並沒有強制規定第一行要說明欄位名稱，因此，以下也是合法的 csv 檔案：

```
男,175,70,20
男,170,68,22
女,165,50,21
女,160,48,20
```

接下來的實作中，原始資料將會是 csv 檔案。

## 2. 實作練習

有了上述觀念後，這個小節將帶領大家用 python 實作一個簡單的資料預處理程式。會將一個內容如下的 csv 檔案：

```
1,2,3,4
5,6,7,8
9,10,11,12
```

存成 python 語言中的 [list](http://www.runoob.com/python3/python3-list.html) 型態：

```
[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]
```

這在 python 中相當於下面這個矩陣：

$
\begin{bmatrix}
    1 & 2 & 3 & 4 \\
    5 & 6 & 7 & 8 \\
    9 & 10 & 11 & 12
\end{bmatrix}
$

下面分別介紹程式的三個主要步驟：

1. 讀取檔案
2. 字串處理
3. 將處理好的資料存成 list 型態

### 2.1 讀取檔案

利用 [open()](https://ithelp.ithome.com.tw/articles/10161708) 打開 `raw_data.csv` 檔案：

In [None]:
# 利用 open() 來讀取檔案，括號中第一個位置為要讀取的檔案，第二個位置 'r' 代表 read
f = open('raw_data.csv', 'r')
# 之後便可透過 f 這個變數來讀取 raw_data.csv 的內容

# python 提供了 read(), readline(), readlines() 等方法來獲得檔案內容
lines = f.readlines()
# lines 變數會是 list 型態

# 取得檔案內容後，記得將它關起來
f.close()

# 查看檔案內容
print(lines)

# 可以按 Ctrl+Enter 觀看程式執行結果

readlines() 會將檔案的內容依據每一行依序存放進 list 中(程式碼中的 `lines` 變數)，list 的一個元素代表 csv 檔案的一行。每個元素最後出現 `\n` 稱作[換行字元](https://zh.wikipedia.org/wiki/%E6%8F%9B%E8%A1%8C)。正常的 csv 檔案中每一行最後都有換行字元，只是無法直接看到。

### 2.2 字串處理

在 python 中，字串型態的 `'1'` 並不是數字型態的 `1`，無法進行加減等數值運算。因此，讀取檔案內容後，需要將每一行字串轉換成數字，具體來說分為以下三步：

1. 去除換行字元
2. 依據分隔符號(逗號)分割字串
3. 將分隔好的字串轉換為數字

為了達成上述目的，這邊會介紹兩個 python 函式：

#### [rstrip()](https://python-reference.readthedocs.io/en/latest/docs/str/rstrip.html)

將行末的特定字元刪除，這邊就可以對應到上述第一步。以下面程式碼為例：

In [None]:
string = 'abcdrrr'
print('Before use rstrip():', string)
string = string.rstrip('r')
print('After use rstrip():', string)

原本的字串 `abcdrrr` 因為 `rstrip()` 把行末所有的 `r` 刪掉了，變成 `abcd`。

#### [split()](https://python-reference.readthedocs.io/en/latest/docs/str/split.html?highlight=split)

將字串依據指定的字元分割，這邊可以對應到上述第二步，以下面程式碼為例：

In [None]:
string = 'a,b,c,d'
print('Before use split():', string)
string = string.split('b')
print('After use split():', string)

`split()` 將字串 `a,b,c,d` 分割成有四個元素的 list `['a', 'b', 'c', 'd']`。有了上述的兩個函式後，就可以將 csv 檔案內容轉換成數字了。具體程式碼如下：

In [None]:
# 用 for 迴圈逐行處理檔案內容
for line in lines:
    
    # 使用 rstrip() 來去除行末的換行字元
    line = line.rstrip('\n')
    
    # 使用 split() 來依據逗號分割欄位
    fields = line.split(',')
    
    # 用 for 迴圈逐欄位處理
    for field in fields:
        
        # 將字串轉換成數字
        num = float(field)
        
        # 將每個處理好的數字印出來
        print(num)

可以看到檔案內容全部被處理成數字了。可以試著將 `print(num)` 改成以下幾行，看看轉換前的 `field` 跟轉換後的 `num` 有什麼不同：
1. `print(field)`
2. `print(field+1)`
3. `print(num+1)`

### 2.3 將處理好的資料存成 list 型態

最後需要將每個處理好的數字依序存進 list 當中，將 2.2 小節的程式碼修改如下：

In [None]:
# 宣告一個 list 來存放結果矩陣
data_matrix = []

for line in lines:
    
    # 宣告一個 list 來存放一筆資料
    row_vector = []
    
    line = line.rstrip('\n')
    fields = line.split(',')
    
    for field in fields:
        num = float(field)
        
        # 將處理好的數字逐一放入 row_vector
        row_vector.append(num)
    
    # 將資料逐一放入 data_matrix
    data_matrix.append(row_vector)

# 印出結果
print(data_matrix)

以上便是一個簡易的資料預處理程式。

## 3. 作業

介紹完資料預處理後，接下來將由各位親自動手實作。以下有兩個檔案，分別為 `ex1.csv` 與 `ex2.txt`。請先嘗試 `ex1.csv` 的資料預處理，有餘裕的人可以嘗試 `ex2.txt` 的資料預處理。`ex2.txt` 並不是 csv 檔案，請先打開資料檔案觀察一下，再設計對應的資料預處理程式，這也是實務上的做法。接下來的程式區塊可以自由使用，以下是作業說明：

### ex1.csv

將其進行資料預處理並存入 list。檔案第一欄是類別形式，需要 [one-hot 編碼](https://itw01.com/GJFRE5J.html)，該欄位共有 4 種類別(0~3)。舉例來說，`ex1.csv` 前兩行如下：

```
2,168.5,20.1,64.5,83.2,66.0
0,169.1,24.5,50.9,75.0,83.8
```

需要轉換成：

```
[
 [0, 0, 1, 0, 168.5, 20.1, 64.5, 83.2, 66.0],
 [1, 0, 0, 0, 169.1, 24.5, 50.9, 75.0, 83.6]
]
```

In [None]:
# 開啟 ex1.csv，存入 f

# 讀取 f 內容，存入 lines

# 關閉 f

# 宣告 data_matrix 為空 list 來存放結果矩陣

# for 迴圈逐行處理 lines:

    # 宣告 row_vector 為空 list 來存放一筆資料

    # 去除換行字元 '\n'
    
    # 依 ',' 分割字串
    
    # 宣告 one_hot 為 [0, 0, 0, 0] 的 list
    
    # 根據第一個欄位在 one_hot 中適當位置填入 1
    
    # 將 one_hot 放入 row_vector
    
    # for 迴圈逐欄位處理:
        
        # 將字串轉成數字
        
        # 將數字存入 row_vector
        
    # 將 row_vector 存入 data_matrix

# 印出結果

### ex2.txt

將其進行資料預處理並存入 list。檔案第一欄是類別形式，需要 one-hot 編碼，該欄位共有 23 種類別(0~22)。同時檔案中有缺值(missing value)，在檔案中以 `none` 表示，讀到缺值需補 0。另外，欄位之間由 tab 分隔，在 python 中 tab 字元以 `\t` 表示。

In [None]:
# 開啟 ex2.txt，存入 f

# 讀取 f 內容，存入 lines

# 關閉 f

# 宣告 data_matrix 為空 list 來存放結果矩陣

# for 迴圈逐行處理 lines:

    # 宣告 row_vector 為空 list 來存放一筆資料
    
    # 去除換行字元 '\n'
    
    # 以 '\t' 分割字串
    
    # 宣告 one_hot 為有 23 個 0 的 list
    
    # 根據第一個欄位在 one_hot 中適當位置填入 1
    
    # 將 one_hot 放入 row_vector
    
    # for 迴圈逐欄位處理:
        
        # 如果字串為 'none':
      
            # 將 0 存入 row_vector
            
        # 否則:
        
            # 將字串轉成數字
        
            # 將數字存入 row_vector
        
    # 將 row_vector 存入 data_matrix        

## 最後

上面的教學幫助了解程式的運作，但實務運用時，**請一定要站在前人的肩膀上**！