## 本課程由成大與台南二中共同開發的人工智慧高中教材改編

# 實作範例 2.1 - 資料預處理 Data Preprocessing

當我們在收集到所需的資料後，常常會遇到各種資料不全、缺失的情況，因此需要對資料進行整理，以便後續的分析。本範例將介紹使用 Python 套件 **pandas**、**scikit-learn** 來練習資料的操作與補值。

## 套件安裝及載入

### 使用到的 Python 套件

* [pandas](https://pandas.pydata.org/)
  - 比 Python 內建資料型態更有彈性的一維與二維資料型態
  - 包含許多操作資料與統計的函式
  - 提供數種方便的資料載入模組 (e.g., CSV, Excel, Database…)
* [scikit-learn](https://scikit-learn.org/)
  - 建立於 NumPy, SciPy 之上的 Python 機器學習套件
  - 內建許多常見的機器學習演算法
  - 本範例中我們將使用該模組的內建資料集當示範

### 安裝套件
 
如果讀者是初學者或者使用 Windows 作業系統，我們建議直接下載 [Anaconda](https://www.anaconda.com/download/ )，Anaconda 是一個已經包裝好 Python 本體與資料分析的常用套件及各種工具、IDE 等等的軟體包，裡面已經內含我們的實作範例中所需的所有工具。

或者讀者也能使用 `pip` 套件管理工具安裝，請在命令列環境下鍵入以下指令：
```
pip install pandas
pip install sklearn
```

### 載入套件

我們使用以下指令載入所需的 Python 套件與函式庫 (libraries)：

In [1]:
from sklearn import datasets # 載入 sciket-learn 套件內的 datasets 模組
import pandas as pd # 載入 pandas 套件
import numpy as np # 載入 NumPy 套件 (此套件的使用請參考 NumPy 的實作章節，本範例中僅使用 np.nan 來表示無值)
import random # 載入 Python 內建 random 函式庫

## 資料集

### 所使用的資料集：鳶尾花卉資料集 (Iris flower dataset)

本範例中使用了 scikit-learn 套件中內建的[鳶尾花卉資料集](https://en.wikipedia.org/wiki/Iris_flower_data_set) (以下簡稱 iris 資料集)，iris 資料集中收集了 150 個鳶尾花的樣本，這些樣本都屬於鳶尾屬下的三個物種：*山鳶尾 (setosa)*、*變色鳶尾 (versicolor*) 和*維吉尼亞鳶尾 (virginica)*；而每個樣本帶有四個特徵，分別是*[花萼](https://zh.wikipedia.org/zh-tw/%E8%8A%B1%E8%90%BC)的長/寬 (sepal length/width)* 與*花瓣的長寬 (petal length/width)*。**透過分析這些樣本的特徵，便可知道該樣本是屬於鳶尾屬下的哪個物種。**

這個資料集最初是由美國植物學家  Edgar Anderson 於 1936 年從加拿大加斯佩半島上的鳶尾屬花朵中收集的，用於量化上述鳶尾屬的三個物種在花朵形態上的變異，後來經過英國統計與生物學家 Ronald Fisher 整理，並發展出一套基於[線性判別分析](https://zh.wikipedia.org/zh-tw/%E7%B7%9A%E6%80%A7%E5%88%A4%E5%88%A5%E5%88%86%E6%9E%90) (Linear discriminant analysis, LDA) 來分析特徵並確定屬種的方法。

接著我們將使用 iris 資料集來練習 pandas 的操作與補缺失值的練習。

### 載入資料集

首先使用 `sklearn.datasets.load_iris()` 載入 scikit-learn 內建的 iris 資料集至記憶體：

In [10]:
iris = datasets.load_iris() # 載入 iris 資料集
print('datasets 的資料型態:', type(iris))
print(iris.DESCR) # 看看這組資料集的說明

datasets 的資料型態: <class 'sklearn.utils.Bunch'>
Iris Plants Database

Notes
-----
Data Set Characteristics:
    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20  0.76     0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :Dat

In [17]:
print(iris.data.shape) # 資料集的 data 是一個 150 * 4 的二維 ndarray
print(type(iris.data))
print(iris.data) # 先印出來試試看吧


(150, 4)
<class 'numpy.ndarray'>
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4

我們可以看到在 `data` 的部份共有 150 筆資料，每筆共有 4 個特徵；`target` 陣列則是有 150 個元素，代表著 `data` 中的每筆資料屬於哪個物種；而可以從 `target_names` 看到 `target` 中的 `0`, `1`, `2` 分別代表 `setosa`、`'versicolor`、`virginica`三個物種；`feature_names`則是四個特徵個名稱：`sepal length (cm)`、`sepal width (cm)`、`petal length (cm)`、`petal width (cm)`；另外則有一些零零總總關於該資料集的敘述。

### 同場加映：scikit-learn 中的其他內建資料集

scikit-learn 中除了 iris 資料集之外，還內建了許許多多的資料集。scikit-learn 將其內建的資料集分為兩類：
* [**Toy datasets**](https://scikit-learn.org/stable/datasets/index.html#toy-datasets)
   - 顧名思義就是用來測試與練習的資料集，這類資料集通常較**小**，適合快速測試 scikit-learn 套件內建或自行實作的演算法的效果、以及練習使用 scikit-learn 等用途。
   - 可以使用 `sklearn.datasets.load_`開頭的函式載入。
* [**Real world datasets**](https://scikit-learn.org/stable/datasets/index.html#real-world-datasets)
   - 這類資料集通常較**大**，且*可能需從外部的網站下載*。將演算法套用在該類資料集上可能需要耗費不少時間，適合進一步驗證與分析演算法的效能與性質。
   - 可以使用 `sklearn.datasets.fetch_`開頭的函式載入。

另外，scikit-learn 也提供了[許多函式](https://scikit-learn.org/stable/datasets/index.html#sample-generators) (以 `sklearn.datasets.make_` 開頭) 用來產生一些人造的假資料 (synthetic dataset)。有時候我們可能找不到適合的真實世界資料來驗證演算法的效果、或者為了方便，這時透過產生人造的假資料，某種程度上也能達到驗證與分析演算法效能的目的。

除了本範例中使用的 iris 資料集外，也推薦一些 scikit-learn 內建的資料集供讀者們嘗試：

* [波士頓房價資料集](https://scikit-learn.org/stable/datasets/index.html#boston-house-prices-dataset)
   - 包含 506 筆房屋的價格，每筆資料共 13 個特徵，包含該區域的犯罪率、房間個數等。
* [手寫數字資料集](https://scikit-learn.org/stable/datasets/index.html#optical-recognition-of-handwritten-digits-dataset)
   - 包含 5,620 筆手寫數字的資料集，每筆資料由 8x8 的圖片所組成 (64 個特徵)，可用於[光學字元辨識](https://en.wikipedia.org/wiki/Optical_character_recognition) (Optical Character Recognition, OCR) 相關演算法。

有興趣想進一步了解的讀者們可以前往官網查看相關資料：

* [An introduction to machine learning with scikit-learn: Loading an example dataset](https://scikit-learn.org/stable/tutorial/basic/tutorial.html#loading-example-dataset)
* [scikit-learn API Reference: Dataset loading utilities](https://scikit-learn.org/stable/datasets/index.html)

## pandas 基本操作

將資料載入後，我們使用 pandas 套件來處理資料：

### pandas 資料類型

pandas 有兩種可以存放數據的資料類型，分別是 **Series** 與 **DataFrame**：

* Series
  - 儲存**一維**資料，每個元素擁有自己的標籤。
* DataFrame
  - 儲存**二維**資料，每列或欄擁有自己的標籤。

我們將上面的 iris 資料集轉為 DataFrame 操作。

### 將資料轉為 DataFrame

我們使用 `pandas.DataFrame()` 來將資料集轉為 DataFrame 並存在變數 `iris_df` 中：

In [22]:
# 將 iris["data"] 轉成 DataFrame, 每個欄位的名稱則指定為 iris["feature_names"]
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names) 
print('資料型態:', type(iris_df))
iris_df # 看看 iris_df 的內容吧

資料型態: <class 'pandas.core.frame.DataFrame'>


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


上面就是 iris 資料集的所有內容，總共 150 筆，每筆資料總共有四個特徵，分別是 `sepal length 花萼長度 (cm)`、`sepal width 花萼寬度 (cm)`、`petal length 花瓣長度(cm)`、`petal width 花瓣寬度(cm)`。

我們可以用 `pandas.DataFrame.info()` 與 `pandas.DataFrame.describe()` 來取得簡單的 DataFrame 屬性：

In [0]:
iris_df.info() # 取得 iris_df 的資訊，可以看到資料的筆數、欄位數、資料是否有缺失值與型態等

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
sepal length (cm)    150 non-null float64
sepal width (cm)     150 non-null float64
petal length (cm)    150 non-null float64
petal width (cm)     150 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB


In [0]:
iris_df.describe() # 取得 iris_df 的簡單統計描述，包含每個欄位的平均值、最大/最小值、標準差等

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### 取得指定範圍資料

pandas 提供了許多彈性的函式來取得 DataFrame 中不同範圍的資料，以下舉例：

* `pandas.DataFrame.head(n)`
   - 取得最前 n 筆資料
* `pandas.DataFrame.tail(n)`
   - 取得最後 n 筆資料

我們實際來操作一下：

In [0]:
iris_df.head(5) # 取得 iris_df 中前 5 筆資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [0]:
iris_df.tail(5) # 取得 iris_df 中最後 5 筆資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


而要取得特定範圍的資料，我們可以使用 `[]` 運算子：

In [25]:
# 用 python list 來表示所要取得的欄位名稱

# 取得 sepal length (cm), sepal width (cm) 兩個欄位的資料，記得要用 Python list 把它們包起來
iris_df[['sepal length (cm)', 'sepal width (cm)']].head()

Unnamed: 0,sepal length (cm),sepal width (cm)
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6


In [0]:
iris_df[5:10] # 取得「標籤」範圍為 5 ~ "9" 的資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


所以，如果要取得特定資料列與欄位的資料，我們可以將他們寫在一起：

In [26]:
# 取得標籤範圍為 5 ~ "9" 中 sepal length (cm), sepal width (cm) 兩個欄位的資料
iris_df[5:10][['sepal length (cm)', 'sepal width (cm)']] 

Unnamed: 0,sepal length (cm),sepal width (cm)
5,5.4,3.9
6,4.6,3.4
7,5.0,3.4
8,4.4,2.9
9,4.9,3.1


利用 `pandas.DataFrame.loc` 也能達到篩選的作用，但要注意，在 `pandas.DataFrame.loc` 中的範圍是**包含停止點**的。例如在 Python 中範圍 `5:10` 並不包含停止點 10，但在 `pandas.DataFrame.loc`中是**有**包含的：

In [27]:
# 取得標籤範圍為 5 ~ "10" 中 sepal length (cm), sepal width (cm) 兩個欄位的資料
iris_df.loc[5:10][['sepal length (cm)', 'sepal width (cm)']] 

Unnamed: 0,sepal length (cm),sepal width (cm)
5,5.4,3.9
6,4.6,3.4
7,5.0,3.4
8,4.4,2.9
9,4.9,3.1
10,5.4,3.7


In [0]:
iris_df.loc[5:10:2][['sepal length (cm)', 'sepal width (cm)']] # 也能加入間隔數作條件！

Unnamed: 0,sepal length (cm),sepal width (cm)
5,5.4,3.9
7,5.0,3.4
9,4.9,3.1


當然，這兩個方法也能與 `pandas.DataFrame.head(n)` 與 `pandas.DataFrame.tail(n)` 一起用：

In [0]:
iris_df.loc[5:10][['sepal length (cm)', 'sepal width (cm)']].head(3)

Unnamed: 0,sepal length (cm),sepal width (cm)
5,5.4,3.9
6,4.6,3.4
7,5.0,3.4


甚至直接以條件篩資料：

In [33]:
df = iris_df.loc[ iris_df['sepal length (cm)'] > 7.0] # 取得 sepal length (cm) 欄位大於 7.0 的資料列
print(df)

df = iris_df[iris_df['sepal length (cm)'] > 7.0] # 取得 sepal length (cm) 欄位大於 7.0 的資料列
print(df)

     sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)
102                7.1               3.0                5.9               2.1
105                7.6               3.0                6.6               2.1
107                7.3               2.9                6.3               1.8
109                7.2               3.6                6.1               2.5
117                7.7               3.8                6.7               2.2
118                7.7               2.6                6.9               2.3
122                7.7               2.8                6.7               2.0
125                7.2               3.2                6.0               1.8
129                7.2               3.0                5.8               1.6
130                7.4               2.8                6.1               1.9
131                7.9               3.8                6.4               2.0
135                7.7               3.0                6.1     

上面的方法都是以「標籤」作為基準篩選資料的，如果想用 index (類似於第 n 筆資料，但是數字從 **0** 開始) 篩選資料，可以使用 `pandas.DataFrame.iloc`：

In [34]:
iris_df.iloc[5:10] # 注意"不"包含標籤為 10 的資料喔 (左閉右開)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.4,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


更多關於 Python 中 `[]` 運算子的用法，可以參考 Stack Overflow 的這篇文章：[Understanding slice notation in Python](https://stackoverflow.com/questions/509211/understanding-slice-notation)

### 新增資料欄位

我們可以利用 `[]` 運算子來篩選資料，也能用它來新增欄位，並載入現有的資料作為新欄位的資料內容：

In [41]:
# iris.target 是一個 ndarray
print(type(iris.target))
print(iris.target)
iris_df["target"] = iris.target # 將新欄位取名為  "target"，並以 iris.target 作為新欄位的內容(ndarray)

iris_df.head(5) # 取前 5 筆資料來看看結果

<class 'numpy.ndarray'>
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### 資料分組處理

我們也能將資料以某個條件分成若干組，並針對特定組別做操作：

In [40]:
sector = iris_df.groupby("target") # 以 "target" 欄位作為分組依據

sector.get_group(0).head(4) # 取得 target 為 0 的前四筆資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,4.4,2.9,1.4,0.2,0
9,4.9,3.1,1.5,0.1,0


In [0]:
sector.get_group(1).head(4) # 取得 target 為 1 的前四筆資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
50,7.0,3.2,4.7,1.4,1
51,6.4,3.2,4.5,1.5,1
52,6.9,3.1,4.9,1.5,1
53,5.5,2.3,4.0,1.3,1


In [0]:
sector.get_group(2).head(4) # 取得 target 為 2 的前四筆資料

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
100,6.3,3.3,6.0,2.5,2
101,5.8,2.7,5.1,1.9,2
102,7.1,3.0,5.9,2.1,2
103,6.3,2.9,5.6,1.8,2


被分組的資料還能進行許多操作，讀者可以參考[官方的 GroupBy API Reference](https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html) 自行練習。

## 利用 pandas 進行資料補值

接著我們來介紹 pandas 進行資料補值的方法，一般而言，缺失資料的處理不外乎下列幾種方法：

* 用平均值、中值、分位數、眾數、隨機值等替代
   - 效果一般，因為等於人為增加了雜質。
* 直接將資料刪除
   - 僅能在資料量大的時候使用
* 用其他變數做預測模型來算出缺失變數
   - 如果其他變數和缺失變數無關，則預測的結果無意義；如果預測結果相當準確，則又說明這個變數是沒必要加入建模的

針對缺失值，在 pandas 中我們可以使用以下函式處理缺失值：

* `DataFrame.fillna(x)`
   - 將 DataFrame 中所有的缺失值補為 x
* `DataFrame.dropna()`
   - 將所有含有缺失值的資料捨棄
* `DataFrame.interpolate(method=<method>)`
   - 自動補值，`method` 可以填入以下幾種模式：
      - `linear`：忽略索引值，視為等間距
      - `index`：參考索引的數值差做內差
      - `time`：以時間差做為內差比例，以插入給定的間隔長度
      - [(more...)](http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.interpolate.html)

首先我們隨機產生一份練習用的含有缺失值的資料：

In [0]:
for row in range(iris_df.size):
    if random.randrange(100) > 60:
        col = random.randrange(4)
        iris_df.iloc[row:row+1, col:col+1] = np.nan # 將第 [row][col] 筆資料設為 NaN (Not a number, 缺失值)

iris_df.head(20) # 取前 20 筆資料看看結果

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,,3.1,1.5,0.1


然後先等等！我們可以用前面提過的 `pandas.DataFrame.info()` 重新觀察一下 `iris_df`的屬性：

In [0]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
sepal length (cm)    117 non-null float64
sepal width (cm)     124 non-null float64
petal length (cm)    122 non-null float64
petal width (cm)     132 non-null float64
dtypes: float64(4)
memory usage: 4.8 KB


然後跟前面的結果對照，我們可以發現原先四個欄位的 `150 non-null` 都變成了各種數字不等的 non-null，這個數字代表了該欄位中**不為無值的資料筆數**，我們可以藉由比較資料的總筆數與該數字**快速地判斷一個資料集內是否有缺失值**，如果這個數字*小於*資料的總筆數，那就代表這個欄位有缺失值囉！

那麼，首先我們使用 `DataFrame.fillna(x)` 來試試看，我們能填入一個固定的數字，例如 0：

In [0]:
iris_df.fillna(0.0).head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,0.0,3.1,1.5,0.2,0
4,5.0,0.0,1.4,0.2,0
5,5.4,3.9,1.7,0.4,0
6,4.6,3.4,1.4,0.3,0
7,5.0,3.4,1.5,0.2,0
8,0.0,2.9,1.4,0.2,0
9,4.9,3.1,0.0,0.1,0


有沒有看到所有 `NaN` 的地方都變成 `0.0` 了呢？

或是我們也能指定某些欄位填入特定值：

In [0]:
values_to_fill = {'sepal length (cm)': 0.0, 'sepal width (cm)':0.0 } # 指定將 sepal length (cm) 與 sepal width (cm) 兩個欄位的缺失值填入 0.0
iris_df.fillna(value = values_to_fill).head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,0.0,3.1,1.5,0.1


我們也能利用 `DataFrame.mean()` 來算出每個欄位的平均值，再將它填入 iris_df 中：

In [0]:
iris_df.mean()

sepal length (cm)    5.784615
sepal width (cm)     3.033065
petal length (cm)    3.738525
petal width (cm)     1.181061
dtype: float64

In [0]:
iris_df.fillna(iris_df.mean()).head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,3.738525,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,5.784615,3.1,1.5,0.1


我們亦能利用 `DataFrame.dropna()`來將含有缺失值的資料列丟棄：

In [0]:
iris_df.dropna().head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
11,4.8,3.4,1.6,0.2
15,5.7,4.4,1.5,0.4


我們可以從資料列的編號觀察到，所有包含缺失值的資料列都被丟棄了。

接著我們示範使用 `DataFrame.interpolate()`：

我們可以利用interpolate裡所提供的方法來進行插值`,最常使用的有以下4種插值法

* linear
  * 預設方法，將缺失值以線性插值法捕入
* index
  * 利用索引值的資訊與其他已知資料計算並插入缺失值
* value
  * 當索引值為小數型態時所需使用之方法，效果與使用index方法相同
* time
  * 當索引值為時間戳記時所需使用之方法，效果與使用index方法相同

如果對其他插值法有興趣的讀者，可以參考[官方文件](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.interpolate.html)說明

在以下的範例中，我們將針對linear方法以及index方法進行操作及說明

In [0]:
iris_df.interpolate('linear').head(20)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
5,5.4,3.9,1.7,0.4
6,4.6,3.4,1.6,0.3
7,5.0,3.4,1.5,0.2
8,4.4,2.9,1.4,0.2
9,4.9,3.1,1.5,0.1


可以看到在使用 linear 方法下，pandas 會參考缺失值的前後值做線性計算欲插入的值，但是並未考慮到各資料索引間的差距。

我們可以下面這個例子來更清楚分辨linear方法與index方法的差異：

In [0]:
data = pd.Series([0, 1, np.nan, np.nan, 3], index=[1, 2, 3, 6, 7]) # 先利用 pandas.Series 創造出一個含有缺失值的一維資料
data

1    0.0
2    1.0
3    NaN
6    NaN
7    9.0
dtype: float64

In [0]:
data.interpolate(method='linear') # 使用 linear 方法自動補缺值

1    0.000000
2    1.000000
3    1.666667
6    2.333333
7    3.000000
dtype: float64

In [0]:
data.interpolate(method='index') # 使用 index 方法自動補缺值

1    0.0
2    1.0
3    1.4
6    2.6
7    3.0
dtype: float64

我們可以發現 linear 方法就是單純依照缺失值的前後值做線性插入，並未考慮到其索引之間的差距

如在上述資料中，若是使用linear方法，則插值時會將2-3的距離以及3-6的距離當成相同距離進行線性差值運算(因均為前後一筆之差距)

而 index 方法則是將 index 的值加入考慮，計算缺失值。

因此我們可以看到在插值運算時，2-3的距離已與3-6的距離有所分別

如果想了解更多有關插值知識的讀者，請參考pandas 中關於interpolate的[官方文件](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.interpolate.html)說明

以上，關於 pandas 的簡單介紹與練習至此，DataFrame 能進行的操作遠不僅止於此，有興趣的讀者可以參考[官方的 DataFrame Reference](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html) 與 [pandas 官方手冊](https://pandas.pydata.org/pandas-docs/stable/index.html)，並跟著一起實作。一般而言，官方提供的文件與教學是最準確、最完整、時效性最高的，在 Google 教學之前不妨參考看看唷。

### 同場加映：使用 scikit-learn 補值

在 scikit-learn 中，我們也能利用 `sklearn.impute.SimpleImputer` 來插入缺失值，`missing_values` 定義什麼是缺失值，`strategy` 則是要怎麼補值：

In [0]:
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean') # 這邊的 mean 指的是利用平均值來補缺失值，效果與上面的 fillna(iris_df.mean()) 相同
imp.fit(iris_df)
print(imp.transform(iris_df))

[[5.1        3.5        1.4        0.2        0.        ]
 [4.9        3.         1.4        0.2        0.        ]
 [4.7        3.2        1.3        0.2        0.        ]
 [5.86544118 3.1        1.5        0.2        0.        ]
 [5.         3.06330935 1.4        0.2        0.        ]
 [5.4        3.9        1.7        0.4        0.        ]
 [4.6        3.4        1.4        0.3        0.        ]
 [5.         3.4        1.5        0.2        0.        ]
 [5.86544118 2.9        1.4        0.2        0.        ]
 [4.9        3.1        3.71171875 0.1        0.        ]
 [5.4        3.7        1.5        1.20447761 0.        ]
 [4.8        3.4        3.71171875 0.2        0.        ]
 [4.8        3.         1.4        1.20447761 0.        ]
 [4.3        3.         1.1        0.1        0.        ]
 [5.8        4.         1.2        0.2        0.        ]
 [5.7        4.4        3.71171875 0.4        0.        ]
 [5.4        3.9        1.3        0.4        0.        ]
 [5.1        3

`SimpleImputer` 除了 `mean` 之外，尚提供了許多的補值方法，有興趣的讀者可以參考[官方的 API Reference](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) 實作看看。