# 資料預處理

## 1. 介紹

### 1.1 簡介

在建立機器學習或深度學習模型之前，需要先將手上的原始資料處理成數字的形式，如此模型才有辦法看得懂每一筆資料，舉例來說有一筆資料如下：

**性別：男 , 身高：175 公分 , 體重：70 公斤 , 年齡：20 歲**

我們可以將其轉換成如下的數字形式：

**0, 175, 70, 20**

第一個數字 0 代表性別為男，如果性別為女就改成數字 1 ，**必須注意的是，這些數字的對映是使用者自行決定的**，
<br/>
而後面的三個數字 175, 70, 20 則分別代表身高, 體重, 年齡

### 1.2 原始資料

原始資料通常會以任意的檔案的形式存在，舉例來說：一份 excel 檔案，而在機器學習領域中，最常用的文件形式為 **csv 檔案**，接著會簡單介紹 csv 檔案的格式

csv 檔案可以看做 excel 檔案的簡易版，用逗號以及換行來區隔每一行跟每一列，以下為一個簡易的 csv 檔案內容：

```
性別,身高,體重,年齡
男,175,70,20
男,170,68,22
女,165,50,21
女,160,48,20
```

可以很容易就看出第一行代表每一個欄位的意思，從第二行開始則記錄了每一筆資料的內容

必須注意的是：
1. 並不是每一份 csv 檔案都有第一行來告知其他讀者每個欄位的意思
2. csv 檔案並不一定會用逗號來區隔每一欄，用任何符號都行，只要同一份檔案中統一用該符號即可，例如：空白

根據上述的注意事項，如下檔案內容也是屬於 csv 的格式：

```
男 175 70 20
男 170 68 22
女 165 50 21
女 160 48 20
```

接下來的實作中，原始資料將會是 csv 檔案

## 2. 實作練習

有了上述觀念後，這個小節將帶領大家用 python 實作一個簡單的資料預處理流程，這個流程會分為以下三個步驟：

1. 讀取檔案
2. 字串操作
3. 將處理好的資料存入 list

### 2.1 讀取檔案

首先已經事先放了一個 raw_data.csv 了，所以這邊會利用 **open()** 來打開檔案，程式碼如下：

In [1]:
# 利用 open() 來讀取膽案，括號中第一個位置為要讀取的檔案，第二個位置 "r" 代表 "read"
f = open('raw_data.csv', 'r')

# 使用 open() 以後並不會直接得到檔案的內容，需要在用 read(), readline(), readlines() 等方法來獲得檔案內容
content = f.readlines()

# 取得檔案內容後，記得將它關起來
f.close()

# 查看檔案內容
print(content)

['1,2,3,4\n', '5,6,7,8\n', '2,2,3,4\n', '1,2,5,6\n', '10,3,4,11\n']


之所以會出現上面的結果是因為 readlines() 的關係，它會將檔案的內容依據每一行依序存放進 list 中，所以 list 的每個位置就是 csv 檔案的一行

而每一行最後出現的 **\n** 稱作**換行字元**，這邊不探討它的意義，但是必須注意，正常的 csv 檔案中每一行最後都會有換行字元，只是讀者無法直接看到

### 2.2 字串操作

讀取但檔案內容後，需要將每一行字串轉換成數字，具體來說分為以下三步：

1. 去除換行字元
2. 依據區隔符號(逗號)分割字串
3. 將分隔好的字串轉換為數字

為了達成上述目的，這邊會介紹兩個 python 函式：

#### rstrip()

rstrip() 可以將行末的特定字元刪除，這邊就可以對應到第一步的去除換行字元，舉個例子來說，考慮以下程式碼

In [2]:
string = 'abcdrrr'

print('Before use rstrip():', string)

string = string.rstrip('r')

print('After use rstrip():', string)

Before use rstrip(): abcdrrr
After use rstrip(): abcd


從上面的結果可以看到原本的字串 'abcdrrr' 因為 rstrip() 把行末所有的 r 刪掉了，所以變成 'abcd'

#### split()

split() 可以將字串依據指定的字元分割，因此可以對應到上述第二步，舉個例子可以考慮以下程式碼

In [3]:
string = 'a,b,c,d'

print('Before use split():', string)

string = string.split(',')

print('After use split():', string)

Before use split(): a,b,c,d
After use split(): ['a', 'b', 'c', 'd']


從上面的結果可以看到，split() 將字串 'a,b,c,d' 分割成 \['a', 'b', 'c','d'\]

這邊必須注意的是**字串分割完後會是 list**，而這個 list 裡面存放每個分割出來的結果



－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

有了上述的兩個 python 函式後，就可以將 csv 檔案內容轉換成數字了，具體程式碼如下：

In [4]:
# 用 for 迴圈逐行處理檔案內容
for line in content:
    
    # 使用 rstrip() 來去除行末的換行字元
    line = line.rstrip('\n')
    
    # 使用 split() 來依據逗號分割字串
    line = line.split(',')
    
    # 將分割後產生的 list 逐字轉換成數字
    for num in line:
        
        # 字串轉換成數字
        num = float(num)
        
        # 將每個處理好的數字印出來
        print(num)

1.0
2.0
3.0
4.0
5.0
6.0
7.0
8.0
2.0
2.0
3.0
4.0
1.0
2.0
5.0
6.0
10.0
3.0
4.0
11.0


可以看到檔案內容全部被處理成數字了，必須注意**字串與數字的差別在於有沒有用引號在其前後**，有引號的是字串，數字沒有引號，字串與數字其他細節的差異這裡將不探討

### 2.3 將處理好的資料存入 list

首先要解釋這個步驟的目的之前必須要瞭解到：所有機器學習與深度學習的模型都是由數學式所組成，而這些數學式都是由**矩陣**構成

因此需要將原始資料處理成矩陣的形式，舉例來說如下的 csv 檔案內容：

```
1,2,3,4
5,6,7,8
9,10,11,12
```

可以表示成如下的矩陣：

$
\begin{bmatrix}
    1 & 2 & 3 & 4 \\
    5 & 6 & 7 & 8 \\
    9 & 10 & 11 & 12
\end{bmatrix}
$

而在 python 中則可以用 list 來表示該矩陣如下：

\[ [1,2,3,4], [5,6,7,8], [9,10,11,12] \]

從上述可以知道最終原始資料會以在 list 中存放 list 的形式保存，所以將 2.2 小節的程式碼修改如下：

In [5]:
# 宣告一個 list 來保存原始資料的所有數字
data_matrix = []

for line in content:
    
    # 宣告一個 list 來保存單一資料的數字
    sample = []
    
    line = line.rstrip('\n')
    line = line.split(',')
    
    for num in line:
        num = float(num)
        
        # 將處理好的數字逐一放入保存單一資料的 list
        sample.append(num)
    
    # 將保存單一資料的 list 放入保存所有資料的 list
    data_matrix.append(sample)
   
# 印出結果
print(data_matrix)

[[1.0, 2.0, 3.0, 4.0], [5.0, 6.0, 7.0, 8.0], [2.0, 2.0, 3.0, 4.0], [1.0, 2.0, 5.0, 6.0], [10.0, 3.0, 4.0, 11.0]]


以上便是一個簡易的資料預處理流程

## 3. 作業

介紹完資料預處理後，接下來將由各位親自手動實作，以下有兩個 csv 檔案，分別為 hw1.csv 與 hw2.csv，只須完成 hw1.csv 的資料預處理即可，有餘裕的人可以嘗試 hw2.csv 的資料預處理，接下來的 cell 可以自由使用，以下是作業說明：

### hw1.csv

將其進行資料預處理存入 list 當中，其中檔案的第一欄是 label，label 需要做 One-hot 編碼處理，label 總共有 4 種 (0 ~ 3)

偽程式碼如下：

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

宣告 f 打開 hw1.csv

宣告 content 讀取 f 內容

關閉 f

宣告 data_matrix 為空 list 以存取全部資料

for 迴圈逐行處理 content:

    宣告 sample 為空 list 以存取單一資料

    去除換行字元 '\n'
    
    依區隔字元 ',' 分割字串
    
    宣告 one_hot 為 list: [0, 0, 0, 0]
    
    根據分割後的字串的第一個字元 (label欄位的值) 在 one_hot 中適當位置填入 1
    
    將 one_hot 中的值放入 sample
    
    for 迴圈逐字處理剩餘分割後的字串:
        
        將字串轉換成數字
        
        將數字存入 sample
        
    將 sample 存入 data_matrix
        
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

### hw2.csv

將其進行資料預處理存入 list 當中，其中檔案的第一欄是 label，label 需要做 One-hot 編碼處理，label 總共有 23 種 (0 ~ 22)，同時檔案中有缺值( missing value )，在檔案中缺值將以 "none" 表示，檔案的區隔符號由逗號改為 tab (tab 字元為 '\t')


偽程式碼如下：

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

宣告 f 打開 hw2.csv
宣告 content 讀取 f 內容
關閉 f

宣告 data_matrix 為空 list 以存取全部資料

for 迴圈逐行處理 content:

    宣告 sample 為空 list 以存取單一資料
    
    去除換行字元 '\n'
    
    依區隔字元 '\t' 分割字串
    
    宣告 one_hot 為 list 且內含 23 個 0
    
    根據分割後的字串的第一個字元 (label欄位的值) 在 one_hot 中適當位置填入 1
    
    將 one_hot 中的值放入 sample
    
    for 迴圈逐字處理剩餘分割後的字串:
        
        如果字串 == 'none':
      
            將 0 存入 sample
            
        否則:
        
            將字串轉換成數字
        
            將數字存入 sample
        
    將 sample 存入 data_matrix
        
－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－