# 數據準備

[原始筆記本來源：*Data Science: Introduction to Machine Learning for Data Science Python and Machine Learning Studio by Lee Stott*](https://github.com/leestott/intro-Datascience/blob/master/Course%20Materials/4-Cleaning_and_Manipulating-Reference.ipynb)

## 探索 `DataFrame` 資訊

> **學習目標：** 完成本小節後，您應該能夠熟練地查找存儲在 pandas DataFrame 中的數據的一般資訊。

當您將數據載入 pandas 後，數據通常會以 `DataFrame` 的形式存在。然而，如果您的 `DataFrame` 中的數據集有 60,000 行和 400 列，您該如何開始了解自己正在處理的內容呢？幸運的是，pandas 提供了一些方便的工具，可以快速查看 `DataFrame` 的整體資訊，以及前幾行和後幾行的內容。

為了探索這些功能，我們將導入 Python 的 scikit-learn 庫，並使用一個每位數據科學家都看過數百次的經典數據集：英國生物學家 Ronald Fisher 在其 1936 年的論文《The use of multiple measurements in taxonomic problems》中使用的 *Iris* 數據集：


In [1]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris['data'], columns=iris['feature_names'])

### `DataFrame.shape`
我們已經將 Iris 數據集載入到變數 `iris_df` 中。在深入分析數據之前，了解我們擁有的數據點數量以及整個數據集的大小是很有價值的。查看我們正在處理的數據量是很有幫助的。


In [2]:
iris_df.shape

(150, 4)

我們正在處理 150 行和 4 列的數據。每一行代表一個數據點，每一列代表與數據框相關的一個特徵。基本上，這裡有 150 個數據點，每個數據點包含 4 個特徵。

`shape` 在這裡是數據框的一個屬性，而不是一個函數，所以它的後面沒有一對括號。


### `DataFrame.columns`
現在讓我們深入了解這個數據框的四個欄位。每個欄位具體代表什麼呢？`columns` 屬性將提供數據框中欄位的名稱。


In [3]:
iris_df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

正如我們所見，有四（4）列。`columns`屬性告訴我們列的名稱，基本上沒有其他內容。當我們想要識別數據集包含的特徵時，這個屬性就顯得重要了。


### `DataFrame.info`
透過 `shape` 屬性提供的數據量以及透過 `columns` 屬性提供的特徵或列名稱，可以讓我們對數據集有初步了解。現在，我們希望更深入地探索數據集。`DataFrame.info()` 函數在這方面非常有用。


In [4]:
iris_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
dtypes: float64(4)
memory usage: 4.8 KB


從這裡，我們可以作出以下幾點觀察：
1. 每列的數據類型：在這個數據集中，所有數據都以64位浮點數形式存儲。
2. 非空值的數量：處理空值是數據準備中的重要步驟，稍後會在筆記本中處理。


### DataFrame.describe()
假設我們的數據集中有大量的數值數據。像平均值、中位數、四分位數等單變量統計計算可以分別對每一列進行。`DataFrame.describe()` 函數可以為我們提供數據集中數值列的統計摘要。


In [5]:
iris_df.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


上面的輸出顯示了每列的數據點總數、平均值、標準差、最小值、下四分位數（25%）、中位數（50%）、上四分位數（75%）和最大值。


### `DataFrame.head`
透過以上所有的函數和屬性，我們已經對數據集有了一個高層次的概覽。我們知道數據集中有多少個數據點，有多少個特徵，每個特徵的數據類型，以及每個特徵中非空值的數量。

現在是時候看看數據本身了。讓我們來看看我們的 `DataFrame` 的前幾行（前幾個數據點）是什麼樣子：


In [6]:
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


在此輸出中，我們可以看到數據集的五（5）個條目。如果查看左側的索引，我們會發現這是前五行。


### 練習：

從上面的例子可以看出，預設情況下，`DataFrame.head` 會返回 `DataFrame` 的前五行。在下面的程式碼單元中，你能找到方法顯示超過五行嗎？


In [7]:
# Hint: Consult the documentation by using iris_df.head?

### `DataFrame.tail`
另一種查看數據的方法是從結尾開始（而不是從開頭）。`DataFrame.head` 的反面是 `DataFrame.tail`，它會返回 `DataFrame` 的最後五行：


In [8]:
iris_df.tail()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3
149,5.9,3.0,5.1,1.8


在實際操作中，能夠輕鬆查看 `DataFrame` 的前幾行或後幾行非常有用，特別是在檢查有序數據集中的異常值時。

上面展示的所有函數和屬性，通過代碼示例的幫助，讓我們能夠快速了解數據的概況。

> **重點提示：** 即使僅僅查看 `DataFrame` 的元數據或其中的前幾個和最後幾個值，也能讓你立即對所處理數據的大小、形狀和內容有一個初步的了解。


### 缺失數據
讓我們深入了解缺失數據。缺失數據是指某些欄位中沒有存儲任何值。

舉個例子：假設某人對自己的體重非常在意，因此在調查中不填寫體重欄位。那麼，該人的體重值就會是缺失的。

在現實世界的數據集中，缺失值是非常常見的。

**Pandas 如何處理缺失數據**

Pandas 有兩種方式來處理缺失值。第一種方式你可能在之前的章節中已經見過：`NaN`，即「非數字」（Not a Number）。這實際上是一個特殊值，是 IEEE 浮點規範的一部分，僅用於表示缺失的浮點值。

對於非浮點類型的缺失值，Pandas 使用 Python 的 `None` 對象。雖然遇到兩種不同的值來表示同樣的事情可能會讓人感到困惑，但這種設計選擇有其合理的編程原因。實際上，這樣的設計使得 Pandas 能夠在絕大多數情況下提供良好的平衡。不過，無論是 `None` 還是 `NaN`，它們都帶有一些限制，這些限制需要注意，特別是在使用它們時的方式上。


### `None`：非浮點型的缺失數據
由於 `None` 是 Python 的一部分，因此它不能用於數據類型不是 `'object'` 的 NumPy 和 pandas 陣列。請記住，NumPy 陣列（以及 pandas 中的數據結構）只能包含一種數據類型。這正是它們在大規模數據和計算工作中展現強大能力的原因，但同時也限制了它們的靈活性。這類陣列必須向“最低共同分母”進行類型提升，即能夠涵蓋陣列中所有內容的數據類型。當陣列中包含 `None` 時，意味著您正在處理 Python 對象。

以下示例陣列可以幫助您理解這一點（注意它的 `dtype`）：


In [9]:
import numpy as np

example1 = np.array([2, None, 6, 8])
example1

array([2, None, 6, 8], dtype=object)

數據類型向上轉型的現實帶來了兩個副作用。首先，操作將在解釋型的 Python 代碼層面執行，而不是編譯型的 NumPy 代碼層面。基本上，這意味著任何涉及包含 `None` 的 `Series` 或 `DataFrame` 的操作都會變得較慢。雖然你可能不會注意到這種性能下降，但對於大型數據集來說，這可能會成為一個問題。

第二個副作用源於第一個副作用。由於 `None` 本質上將 `Series` 或 `DataFrame` 拉回到原生 Python 的世界，因此在包含 ``None`` 值的數組上使用像 `sum()` 或 `min()` 這樣的 NumPy/pandas 聚合操作通常會產生錯誤：


In [10]:
example1.sum()

TypeError: ignored

**主要重點**：整數與 `None` 值之間的加法（以及其他運算）是未定義的，這可能會限制您對包含這些值的數據集所能執行的操作。


### `NaN`：缺失的浮點值

與 `None` 不同，NumPy（因此也包括 pandas）支援使用 `NaN` 來進行快速的向量化操作和 ufuncs。壞消息是，任何涉及 `NaN` 的算術運算結果都會是 `NaN`。例如：


In [11]:
np.nan + 1

nan

In [12]:
np.nan * 0

nan

好消息：在包含 `NaN` 的數組上運行的聚合不會出現錯誤。壞消息：結果並不一律有用：


In [13]:
example2 = np.array([2, np.nan, 6, 8]) 
example2.sum(), example2.min(), example2.max()

(nan, nan, nan)

### 運動：


In [11]:
# What happens if you add np.nan and None together?


請記住：`NaN` 只適用於缺失的浮點值；整數、字符串或布爾值並沒有 `NaN` 的等效。


### `NaN` 和 `None`：pandas 中的空值

儘管 `NaN` 和 `None` 的行為可能略有不同，但 pandas 已設計成可以互換處理它們。為了更清楚地了解，請考慮一個整數的 `Series`：


In [15]:
int_series = pd.Series([1, 2, 3], dtype=int)
int_series

0    1
1    2
2    3
dtype: int64

### 運動：


In [16]:
# Now set an element of int_series equal to None.
# How does that element show up in the Series?
# What is the dtype of the Series?


在將數據類型向上轉型以建立 `Series` 和 `DataFrame` 的數據一致性過程中，pandas 會自動在缺失值之間切換 `None` 和 `NaN`。由於這種設計特性，將 `None` 和 `NaN` 視為 pandas 中兩種不同形式的「空值」是很有幫助的。事實上，pandas 中一些處理缺失值的核心方法名稱也反映了這一點：

- `isnull()`：生成一個布爾掩碼，用於指示缺失值
- `notnull()`：與 `isnull()` 相反
- `dropna()`：返回過濾後的數據版本
- `fillna()`：返回填充或估算缺失值後的數據副本

這些方法非常重要，掌握並熟悉它們是必不可少的，因此我們將逐一深入探討這些方法。


### 檢測空值

既然我們已經了解了缺失值的重要性，在處理它們之前，我們需要在數據集中檢測它們。  
`isnull()` 和 `notnull()` 是檢測空值的主要方法。這兩個方法都會返回布爾掩碼，覆蓋你的數據。


In [17]:
example3 = pd.Series([0, np.nan, '', None])

In [18]:
example3.isnull()

0    False
1     True
2    False
3     True
dtype: bool

仔細看看輸出結果，有沒有令你感到驚訝的地方？雖然 `0` 是一個算術上的空值，但它仍然是一個完全有效的整數，pandas 也將其視為整數。至於 `''` 則稍微微妙一些。雖然我們在第 1 節中使用它來表示空字串值，但它本質上仍然是一個字串物件，而不是 pandas 所認為的空值。

現在，讓我們換個角度，使用這些方法更接近實際應用的方式。你可以直接使用布林遮罩作為 ``Series`` 或 ``DataFrame`` 的索引，這在處理孤立的缺失值（或存在值）時非常有用。

如果我們想要計算缺失值的總數，只需對 `isnull()` 方法生成的遮罩進行求和即可。


In [19]:
example3.isnull().sum()

2

### 運動：


In [20]:
# Try running example3[example3.notnull()].
# Before you do so, what do you expect to see?


**主要重點**：當在資料框中使用 `isnull()` 和 `notnull()` 方法時，兩者會產生相似的結果：它們會顯示結果以及這些結果的索引，這將在您處理數據時提供極大的幫助。


### 處理缺失數據

> **學習目標：** 完成本小節後，您應該了解如何以及何時替換或移除 DataFrame 中的空值。

機器學習模型無法直接處理缺失數據。因此，在將數據傳入模型之前，我們需要先處理這些缺失值。

如何處理缺失數據涉及微妙的取捨，可能會影響您的最終分析結果以及實際應用的效果。

主要有兩種處理缺失數據的方法：

1.   刪除包含缺失值的行
2.   用其他值替換缺失值

我們將詳細討論這兩種方法及其優缺點。


### 刪除空值

我們傳遞給模型的數據量會直接影響其性能。刪除空值意味著減少數據點的數量，從而減少數據集的大小。因此，當數據集相當大時，建議刪除包含空值的行。

另一種情況可能是某一行或列有大量缺失值。在這種情況下，可以刪除它們，因為該行/列的大部分數據都缺失，對分析的價值不大。

除了識別缺失值之外，pandas 還提供了一種方便的方法來從 `Series` 和 `DataFrame` 中移除空值。為了更好地理解這一點，我們可以回到 `example3`。`DataFrame.dropna()` 函數可以幫助刪除包含空值的行。


In [21]:
example3 = example3.dropna()
example3

0    0
2     
dtype: object

請注意，這應該看起來像您從 `example3[example3.notnull()]` 的輸出。這裡的不同之處在於，`dropna` 不僅僅是基於遮罩值進行索引，而是已經從 `Series` `example3` 中移除了那些缺失值。

由於 DataFrame 是二維的，因此它提供了更多刪除數據的選項。


In [22]:
example4 = pd.DataFrame([[1,      np.nan, 7], 
                         [2,      5,      8], 
                         [np.nan, 6,      9]])
example4

Unnamed: 0,0,1,2
0,1.0,,7
1,2.0,5.0,8
2,,6.0,9


（你是否注意到 pandas 將其中兩列提升為浮點型，以容納 `NaN` 值？）

你無法從 `DataFrame` 中刪除單個值，因此必須刪除整行或整列。根據你的需求，你可能需要選擇其中一種方式，因此 pandas 提供了兩種選項。在數據科學中，列通常代表變量，行則代表觀察值，因此你更可能刪除數據的行；`dropna()` 的預設設定是刪除所有包含任何空值的行：


In [23]:
example4.dropna()

Unnamed: 0,0,1,2
1,2.0,5.0,8


如果需要，您可以從列中刪除 NA 值。使用 `axis=1` 來完成：


In [24]:
example4.dropna(axis='columns')

Unnamed: 0,2
0,7
1,8
2,9


請注意，這可能會刪除許多您可能希望保留的數據，特別是在較小的數據集中。如果您只想刪除包含多個甚至所有空值的行或列該怎麼辦？您可以在 `dropna` 中使用 `how` 和 `thresh` 參數來指定這些設置。

預設情況下，`how='any'`（如果您想自行檢查或查看該方法的其他參數，可以在代碼單元中運行 `example4.dropna?`）。您也可以選擇指定 `how='all'`，以便僅刪除包含所有空值的行或列。讓我們擴展示例 `DataFrame`，在下一個練習中看看這是如何運作的。


In [25]:
example4[3] = np.nan
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


> 關鍵要點：
1. 只有在數據集足夠大的情況下，刪除空值才是明智的選擇。
2. 如果整行或整列的大部分數據都缺失，可以刪除這些行或列。
3. `DataFrame.dropna(axis=)` 方法可用於刪除空值。`axis` 參數表示是刪除行還是列。
4. `how` 參數也可以使用。默認情況下設置為 `any`，因此它只刪除包含任何空值的行或列。可以設置為 `all`，以指定僅刪除所有值均為空的行或列。


### 運動:


In [22]:
# How might you go about dropping just column 3?
# Hint: remember that you will need to supply both the axis parameter and the how parameter.


`thresh` 參數提供更細緻的控制：您設定一行或一列需要擁有的*非空*值的數量，以便保留該行或列：


In [27]:
example4.dropna(axis='rows', thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,5.0,8,


這裡，第一行和最後一行已被刪除，因為它們僅包含兩個非空值。


### 填充空值

有時候，用可能有效的值來填充缺失值是合理的。有幾種方法可以填充空值。第一種方法是使用領域知識（即數據集所基於主題的知識）來大致估算缺失值。

你可以使用 `isnull` 直接進行操作，但這可能會很繁瑣，特別是當你需要填充大量值時。由於這是數據科學中非常常見的任務，pandas 提供了 `fillna` 方法，它會返回一個 `Series` 或 `DataFrame` 的副本，並將缺失值替換為你選擇的值。讓我們創建另一個示例 `Series`，來看看這在實際操作中的效果。


### 類別型數據（非數字型）
首先讓我們來看看非數字型數據。在數據集中，我們有一些包含類別型數據的欄位，例如性別、True 或 False 等。

在大多數情況下，我們會用該欄位的 `眾數` 來替換缺失值。假設我們有 100 個數據點，其中 90 個選擇 True，8 個選擇 False，還有 2 個未填寫。那麼，我們可以將這 2 個未填寫的值替換為 True，基於整個欄位的情況。

此外，我們也可以在這裡使用領域知識。讓我們來看一個用眾數填充的例子。


In [28]:
fill_with_mode = pd.DataFrame([[1,2,"True"],
                               [3,4,None],
                               [5,6,"False"],
                               [7,8,"True"],
                               [9,10,"True"]])

fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,
2,5,6,False
3,7,8,True
4,9,10,True


現在，讓我們先找到眾數，再用眾數填充 `None` 值。


In [29]:
fill_with_mode[2].value_counts()

True     3
False    1
Name: 2, dtype: int64

所以，我們將把 None 替換為 True


In [30]:
fill_with_mode[2].fillna('True',inplace=True)

In [31]:
fill_with_mode

Unnamed: 0,0,1,2
0,1,2,True
1,3,4,True
2,5,6,False
3,7,8,True
4,9,10,True


正如我們所見，空值已被替換。毋庸置疑，我們本可以在此處寫任何內容或 `'True'`，它都會被替代。


### 數值數據
現在來談談數值數據。這裡有兩種常見的方法來替換缺失值：

1. 用行的中位數替換
2. 用行的平均值替換

如果數據偏斜且有異常值，我們會選擇用中位數替換。因為中位數對異常值具有穩健性。

當數據已經正規化時，我們可以使用平均值，因為在這種情況下，平均值和中位數會非常接近。

首先，我們選擇一個正態分佈的列，並用該列的平均值填充缺失值。


In [32]:
fill_with_mean = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [np.nan,4,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,,4,5
3,1.0,6,7
4,2.0,8,9


該列的平均值是


In [33]:
np.mean(fill_with_mean[0])

0.0

用平均值填充


In [34]:
fill_with_mean[0].fillna(np.mean(fill_with_mean[0]),inplace=True)
fill_with_mean

Unnamed: 0,0,1,2
0,-2.0,0,1
1,-1.0,2,3
2,0.0,4,5
3,1.0,6,7
4,2.0,8,9


正如我們所見，缺失值已被其平均值替換。


現在讓我們嘗試另一個數據框，這次我們將用該列的中位數替換 None 值。


In [35]:
fill_with_median = pd.DataFrame([[-2,0,1],
                               [-1,2,3],
                               [0,np.nan,5],
                               [1,6,7],
                               [2,8,9]])

fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,,5
3,1,6.0,7
4,2,8.0,9


第二列的中位數是


In [36]:
fill_with_median[1].median()

4.0

以中位數填充


In [37]:
fill_with_median[1].fillna(fill_with_median[1].median(),inplace=True)
fill_with_median

Unnamed: 0,0,1,2
0,-2,0.0,1
1,-1,2.0,3
2,0,4.0,5
3,1,6.0,7
4,2,8.0,9


如我們所見，NaN 值已被該列的中位數取代


In [38]:
example5 = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
example5

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

您可以使用單一值（例如 `0`）填充所有的空值條目：


In [39]:
example5.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

> 主要重點：
1. 填補缺失值應在數據較少或有策略填補缺失值的情況下進行。
2. 可以利用領域知識來估算並填補缺失值。
3. 對於分類數據，通常使用該列的眾數來替代缺失值。
4. 對於數值型數據，缺失值通常使用該列的平均值（針對已正規化的數據集）或中位數來填補。


### 運動：


In [40]:
# What happens if you try to fill null values with a string, like ''?


您可以使用**前向填充**空值，即使用最後一個有效值來填充空值：


In [41]:
example5.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

您亦可**回填**以向後傳播下一個有效值來填補空值：


In [42]:
example5.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

正如你可能猜到的，這與 DataFrames 的操作方式相同，但你也可以指定一個 `axis` 來填充空值：


In [43]:
example4

Unnamed: 0,0,1,2,3
0,1.0,,7,
1,2.0,5.0,8,
2,,6.0,9,


In [44]:
example4.fillna(method='ffill', axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,7.0,7.0
1,2.0,5.0,8.0,8.0
2,,6.0,9.0,9.0


請注意，當前一個值不可用於向前填充時，空值將保持不變。


### 運動：


In [45]:
# What output does example4.fillna(method='bfill', axis=1) produce?
# What about example4.fillna(method='ffill') or example4.fillna(method='bfill')?
# Can you think of a longer code snippet to write that can fill all of the null values in example4?


您可以創意地使用 `fillna`。例如，我們再次查看 `example4`，但這次我們將缺失值填充為 `DataFrame` 中所有值的平均值：


In [46]:
example4.fillna(example4.mean())

Unnamed: 0,0,1,2,3
0,1.0,5.5,7,
1,2.0,5.0,8,
2,1.5,6.0,9,


注意，第 3 欄仍然是空的：預設方向是按行填充值。

> **重點提示：** 處理數據集中缺失值的方法有很多。你採用的具體策略（刪除、替換，甚至替換的方式）應該根據該數據的具體情況來決定。隨著你處理和接觸更多數據集，你將更能掌握如何應對缺失值的技巧。


### 編碼分類數據

機器學習模型只能處理數字和任何形式的數值數據。它無法分辨「是」和「否」，但能區分 0 和 1。因此，在填補缺失值之後，我們需要將分類數據編碼成某種數字形式，讓模型能夠理解。

編碼可以通過兩種方式完成。我們接下來會討論這些方法。


**標籤編碼**

標籤編碼基本上是將每個類別轉換為一個數字。例如，假設我們有一個航空乘客的數據集，其中有一列包含他們的艙位類別，類別包括 ['商務艙', '經濟艙', '頭等艙']。如果對這些類別進行標籤編碼，則會被轉換為 [0,1,2]。讓我們通過代碼示例來看看。由於我們會在接下來的筆記本中學習 `scikit-learn`，所以這裡不會使用它。


In [47]:
label = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
label

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


要對第一列進行標籤編碼，我們首先需要描述每個類別到數字的映射，然後再進行替換


In [48]:
class_labels = {'business class':0,'economy class':1,'first class':2}
label['class'] = label['class'].replace(class_labels)
label

Unnamed: 0,ID,class
0,10,0
1,20,2
2,30,1
3,40,1
4,50,1
5,60,0


正如我們所見，輸出結果與我們預期的一致。那麼，我們什麼時候使用標籤編碼呢？標籤編碼通常在以下情況之一或兩者中使用：
1. 當類別數量很大時
2. 當類別具有順序性時。


**獨熱編碼**

另一種編碼方式是獨熱編碼。在這種編碼方式中，每個欄位的類別都會被新增為一個獨立的欄位，而每個數據點會根據是否包含該類別而被賦予 0 或 1 的值。因此，如果有 n 個不同的類別，則會在資料框中新增 n 個欄位。

例如，讓我們以同樣的飛機艙等例子來說。類別包括：['商務艙', '經濟艙', '頭等艙']。如果我們進行獨熱編碼，以下三個欄位將被新增到數據集中：['class_business class', 'class_economy class', 'class_first class']。


In [49]:
one_hot = pd.DataFrame([
                      [10,'business class'],
                      [20,'first class'],
                      [30, 'economy class'],
                      [40, 'economy class'],
                      [50, 'economy class'],
                      [60, 'business class']
],columns=['ID','class'])
one_hot

Unnamed: 0,ID,class
0,10,business class
1,20,first class
2,30,economy class
3,40,economy class
4,50,economy class
5,60,business class


讓我們對第一列進行獨熱編碼


In [50]:
one_hot_data = pd.get_dummies(one_hot,columns=['class'])

In [51]:
one_hot_data

Unnamed: 0,ID,class_business class,class_economy class,class_first class
0,10,1,0,0
1,20,0,0,1
2,30,0,1,0
3,40,0,1,0
4,50,0,1,0
5,60,1,0,0


每個獨熱編碼的列包含 0 或 1，指定該數據點是否存在該類別。


我們何時使用獨熱編碼？獨熱編碼通常在以下其中一種或兩種情況下使用：

1. 當分類數量和數據集的規模較小時。
2. 當分類沒有特定的順序時。


> 主要重點：
1. 編碼是將非數值數據轉換為數值數據的過程。
2. 編碼分為兩種類型：標籤編碼和獨熱編碼，可根據數據集的需求進行選擇。


## 移除重複數據

> **學習目標：** 完成本小節後，您應該能夠熟練識別並移除 DataFrame 中的重複值。

除了缺失數據外，您在現實世界的數據集中經常會遇到重複的數據。幸運的是，pandas 提供了一個簡便的方法來檢測和移除重複的條目。


### 識別重複值：`duplicated`

你可以使用 pandas 的 `duplicated` 方法輕鬆找出重複值。該方法會返回一個布林遮罩，指示 `DataFrame` 中某個條目是否是之前條目的重複值。我們來創建另一個範例 `DataFrame`，看看這個方法的實際應用。


In [52]:
example6 = pd.DataFrame({'letters': ['A','B'] * 2 + ['B'],
                         'numbers': [1, 2, 1, 3, 3]})
example6

Unnamed: 0,letters,numbers
0,A,1
1,B,2
2,A,1
3,B,3
4,B,3


In [53]:
example6.duplicated()

0    False
1    False
2     True
3    False
4     True
dtype: bool

### 刪除重複項：`drop_duplicates`
`drop_duplicates` 會返回一份數據副本，其中所有 `duplicated` 值均為 `False`：


In [54]:
example6.drop_duplicates()

Unnamed: 0,letters,numbers
0,A,1
1,B,2
3,B,3


`duplicated` 和 `drop_duplicates` 預設會考慮所有列，但你可以指定它們僅檢查 `DataFrame` 中的一部分列：


In [55]:
example6.drop_duplicates(['letters'])

Unnamed: 0,letters,numbers
0,A,1
1,B,2


> **重點:** 移除重複數據是幾乎每個數據科學項目中不可或缺的一部分。重複數據可能會改變分析結果，並導致不準確的結論！


## 真實世界數據質量檢查

> **學習目標：** 在本節結束時，你應該能夠熟練地檢測和修正常見的真實世界數據質量問題，包括不一致的分類值、異常的數值（離群值）以及帶有變化的重複實體。

雖然缺失值和完全重複的數據是常見問題，但真實世界的數據集往往還包含更微妙的問題：

1. **不一致的分類值**：同一分類以不同方式拼寫（例如："USA"、"U.S.A"、"United States"）
2. **異常的數值**：極端的離群值，可能表明數據輸入錯誤（例如，年齡 = 999）
3. **近似重複的行**：表示同一實體但有輕微變化的記錄

接下來，我們將探討檢測和處理這些問題的技術。


### 建立一個範例「髒」數據集

首先，讓我們建立一個範例數據集，其中包含我們在真實世界數據中常見的問題類型：


In [None]:
import pandas as pd
import numpy as np

# Create a sample dataset with quality issues
dirty_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12],
    'name': ['John Smith', 'Jane Doe', 'John Smith', 'Bob Johnson', 
             'Alice Williams', 'Charlie Brown', 'John  Smith', 'Eva Martinez',
             'Bob Johnson', 'Diana Prince', 'Frank Castle', 'Alice Williams'],
    'age': [25, 32, 25, 45, 28, 199, 25, 31, 45, 27, -5, 28],
    'country': ['USA', 'UK', 'U.S.A', 'Canada', 'USA', 'United Kingdom',
                'United States', 'Mexico', 'canada', 'USA', 'UK', 'usa'],
    'purchase_amount': [100.50, 250.00, 105.00, 320.00, 180.00, 90.00,
                       102.00, 275.00, 325.00, 195.00, 410.00, 185.00]
})

print("Sample 'Dirty' Dataset:")
print(dirty_data)

### 1. 檢測不一致的分類值

注意到 `country` 欄位中，同一個國家有多種表示方式。讓我們找出這些不一致之處：


In [None]:
# Check unique values in the country column
print("Unique country values:")
print(dirty_data['country'].unique())
print(f"\nTotal unique values: {dirty_data['country'].nunique()}")

# Count occurrences of each variation
print("\nValue counts:")
print(dirty_data['country'].value_counts())

#### 標準化分類值

我們可以建立一個映射來標準化這些值。一個簡單的方法是將值轉換為小寫，並建立一個映射字典：


In [None]:
# Create a standardization mapping
country_mapping = {
    'usa': 'USA',
    'u.s.a': 'USA',
    'united states': 'USA',
    'uk': 'UK',
    'united kingdom': 'UK',
    'canada': 'Canada',
    'mexico': 'Mexico'
}

# Standardize the country column
dirty_data['country_clean'] = dirty_data['country'].str.lower().map(country_mapping)

print("Before standardization:")
print(dirty_data['country'].value_counts())
print("\nAfter standardization:")
print(dirty_data[['country_clean']].value_counts())

**替代方法：使用模糊匹配**

對於更複雜的情況，我們可以使用 `rapidfuzz` 庫進行模糊字符串匹配，自動檢測相似的字符串：


In [None]:
try:
    from rapidfuzz import process, fuzz
except ImportError:
    print("rapidfuzz is not installed. Please install it with 'pip install rapidfuzz' to use fuzzy matching.")
    process = None
    fuzz = None

# Get unique countries
unique_countries = dirty_data['country'].unique()

# For each country, find similar matches
if process is not None and fuzz is not None:
    print("Finding similar country names (similarity > 70%):")
    for country in unique_countries:
        matches = process.extract(country, unique_countries, scorer=fuzz.ratio, limit=3)
        # Filter matches with similarity > 70 and not identical
        similar = [m for m in matches if m[1] > 70 and m[0] != country]
        if similar:
            print(f"\n'{country}' is similar to:")
            for match, score, _ in similar:
                print(f"  - '{match}' (similarity: {score}%)")
else:
    print("Skipping fuzzy matching because rapidfuzz is not available.")

### 2. 檢測異常數值（離群值）

查看 `age` 欄位時，我們發現一些可疑的數值，例如 199 和 -5。讓我們使用統計方法來檢測這些離群值。


In [None]:
# Display basic statistics
print("Age column statistics:")
print(dirty_data['age'].describe())

# Identify impossible values using domain knowledge
print("\nRows with impossible age values (< 0 or > 120):")
impossible_ages = dirty_data[(dirty_data['age'] < 0) | (dirty_data['age'] > 120)]
print(impossible_ages[['customer_id', 'name', 'age']])

#### 使用 IQR（四分位距）方法

IQR 方法是一種穩健的統計技術，用於檢測異常值，對極端值的敏感度較低：


In [None]:
# Calculate IQR for age (excluding impossible values)
valid_ages = dirty_data[(dirty_data['age'] >= 0) & (dirty_data['age'] <= 120)]['age']

Q1 = valid_ages.quantile(0.25)
Q3 = valid_ages.quantile(0.75)
IQR = Q3 - Q1

# Define outlier bounds
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

print(f"IQR-based outlier bounds for age: [{lower_bound:.2f}, {upper_bound:.2f}]")

# Identify outliers
age_outliers = dirty_data[(dirty_data['age'] < lower_bound) | (dirty_data['age'] > upper_bound)]
print(f"\nRows with age outliers:")
print(age_outliers[['customer_id', 'name', 'age']])

#### 使用 Z 分數方法

Z 分數方法根據與平均值的標準差來識別異常值：


In [None]:
try:
    from scipy import stats
except ImportError:
    print("scipy is required for Z-score calculation. Please install it with 'pip install scipy' and rerun this cell.")
else:
    # Calculate Z-scores for age, handling NaN values
    age_nonan = dirty_data['age'].dropna()
    zscores = np.abs(stats.zscore(age_nonan))
    dirty_data['age_zscore'] = np.nan
    dirty_data.loc[age_nonan.index, 'age_zscore'] = zscores

    # Typically, Z-score > 3 indicates an outlier
    print("Rows with age Z-score > 3:")
    zscore_outliers = dirty_data[dirty_data['age_zscore'] > 3]
    print(zscore_outliers[['customer_id', 'name', 'age', 'age_zscore']])

    # Clean up the temporary column
    dirty_data = dirty_data.drop('age_zscore', axis=1)

#### 處理異常值

一旦檢測到異常值，可以用以下幾種方式處理：
1. **移除**：刪除包含異常值的行（如果它們是錯誤）
2. **限制**：用邊界值替換
3. **替換為 NaN**：視為缺失數據並使用填補技術
4. **保留**：如果它們是合法的極端值


In [None]:
# Create a cleaned version by replacing impossible ages with NaN
dirty_data['age_clean'] = dirty_data['age'].apply(
    lambda x: np.nan if (x < 0 or x > 120) else x
)

print("Age column before and after cleaning:")
print(dirty_data[['customer_id', 'name', 'age', 'age_clean']])

### 3. 檢測近似重複的行

注意，我們的數據集中有多個 "John Smith" 的條目，且數值略有不同。我們來基於名字相似度識別潛在的重複項。


In [None]:
# First, let's look at exact name matches (ignoring extra whitespace)
dirty_data['name_normalized'] = dirty_data['name'].str.strip().str.lower()

print("Checking for duplicate names:")
duplicate_names = dirty_data[dirty_data.duplicated(['name_normalized'], keep=False)]
print(duplicate_names.sort_values('name_normalized')[['customer_id', 'name', 'age', 'country']])

#### 使用模糊匹配尋找近似重複項

為了進行更高級的重複檢測，我們可以使用模糊匹配來尋找相似的名稱：


In [None]:
try:
    from rapidfuzz import process, fuzz

    # Function to find potential duplicates
    def find_near_duplicates(df, column, threshold=90):
        """
        Find near-duplicate entries in a column using fuzzy matching.
        
        Parameters:
        - df: DataFrame
        - column: Column name to check for duplicates
        - threshold: Similarity threshold (0-100)
        
        Returns: List of potential duplicate groups
        """
        values = df[column].unique()
        duplicate_groups = []
        checked = set()
        
        for value in values:
            if value in checked:
                continue
                
            # Find similar values
            matches = process.extract(value, values, scorer=fuzz.ratio, limit=len(values))
            similar = [m[0] for m in matches if m[1] >= threshold]
            
            if len(similar) > 1:
                duplicate_groups.append(similar)
                checked.update(similar)
        
        return duplicate_groups

    # Find near-duplicate names
    duplicate_groups = find_near_duplicates(dirty_data, 'name', threshold=90)

    print("Potential duplicate groups:")
    for i, group in enumerate(duplicate_groups, 1):
        print(f"\nGroup {i}:")
        for name in group:
            matching_rows = dirty_data[dirty_data['name'] == name]
            print(f"  '{name}': {len(matching_rows)} occurrence(s)")
            for _, row in matching_rows.iterrows():
                print(f"    - Customer {row['customer_id']}: age={row['age']}, country={row['country']}")
except ImportError:
    print("rapidfuzz is not installed. Skipping fuzzy matching for near-duplicates.")

#### 處理重複項目

一旦識別出來後，你需要決定如何處理重複項目：
1. **保留第一次出現**：使用 `drop_duplicates(keep='first')`
2. **保留最後一次出現**：使用 `drop_duplicates(keep='last')`
3. **聚合信息**：合併重複行的資訊
4. **人工審查**：標記以供人工審查


In [None]:
# Example: Remove duplicates based on normalized name, keeping first occurrence
cleaned_data = dirty_data.drop_duplicates(subset=['name_normalized'], keep='first')

print(f"Original dataset: {len(dirty_data)} rows")
print(f"After removing name duplicates: {len(cleaned_data)} rows")
print(f"Removed: {len(dirty_data) - len(cleaned_data)} duplicate rows")

print("\nCleaned dataset:")
print(cleaned_data[['customer_id', 'name', 'age', 'country_clean']])

### 摘要：完整的數據清理流程

讓我們將所有內容整合成一個全面的清理流程：


In [None]:
def clean_dataset(df):
    """
    Comprehensive data cleaning function.
    """
    # Create a copy to avoid modifying the original
    cleaned = df.copy()
    
    # 1. Standardize categorical values (country)
    country_mapping = {
        'usa': 'USA', 'u.s.a': 'USA', 'united states': 'USA',
        'uk': 'UK', 'united kingdom': 'UK',
        'canada': 'Canada', 'mexico': 'Mexico'
    }
    cleaned['country'] = cleaned['country'].str.lower().map(country_mapping)
    
    # 2. Clean abnormal age values
    cleaned['age'] = cleaned['age'].apply(
        lambda x: np.nan if (x < 0 or x > 120) else x
    )
    
    # 3. Remove near-duplicate names (normalize whitespace)
    cleaned['name'] = cleaned['name'].str.strip()
    cleaned = cleaned.drop_duplicates(subset=['name'], keep='first')
    
    return cleaned

# Apply the cleaning pipeline
final_cleaned_data = clean_dataset(dirty_data)

print("Before cleaning:")
print(f"  Rows: {len(dirty_data)}")
print(f"  Unique countries: {dirty_data['country'].nunique()}")
print(f"  Invalid ages: {((dirty_data['age'] < 0) | (dirty_data['age'] > 120)).sum()}")

print("\nAfter cleaning:")
print(f"  Rows: {len(final_cleaned_data)}")
print(f"  Unique countries: {final_cleaned_data['country'].nunique()}")
print(f"  Invalid ages: {((final_cleaned_data['age'] < 0) | (final_cleaned_data['age'] > 120)).sum()}")

print("\nCleaned dataset:")
print(final_cleaned_data[['customer_id', 'name', 'age', 'country', 'purchase_amount']])

### 🎯 挑戰練習

現在輪到你了！以下是一行包含多個質量問題的新數據。你能否：

1. 找出這行數據中的所有問題
2. 編寫程式碼來清理每個問題
3. 將清理後的數據添加到數據集

以下是有問題的數據：


In [None]:
# New problematic row
new_row = pd.DataFrame({
    'customer_id': [13],
    'name': ['  Diana  Prince  '],  # Extra whitespace
    'age': [250],  # Impossible age
    'country': ['U.S.A.'],  # Inconsistent format
    'purchase_amount': [150.00]
})

print("New row to clean:")
print(new_row)

# TODO: Your code here to clean this row
# Hints:
# 1. Strip whitespace from the name
# 2. Check if the name is a duplicate (Diana Prince already exists)
# 3. Handle the impossible age value
# 4. Standardize the country name

# Example solution (uncomment and modify as needed):
# new_row_cleaned = new_row.copy()
# new_row_cleaned['name'] = new_row_cleaned['name'].str.strip()
# new_row_cleaned['age'] = np.nan  # Invalid age
# new_row_cleaned['country'] = 'USA'  # Standardized
# print("\nCleaned row:")
# print(new_row_cleaned)

### 關鍵要點

1. **分類不一致**在真實世界的數據中很常見。務必檢查唯一值，並使用映射或模糊匹配來標準化它們。

2. **異常值**可能會對分析產生重大影響。結合領域知識和統計方法（如 IQR、Z-score）來檢測它們。

3. **近似重複項**比完全重複項更難檢測。考慮使用模糊匹配並對數據進行標準化（如轉小寫、去除空格）來識別它們。

4. **數據清理是迭代的過程**。可能需要應用多種技術並審查結果，才能最終完成清理後的數據集。

5. **記錄你的決策**。追蹤你所採用的清理步驟及其原因，這對於可重現性和透明度非常重要。

> **最佳實踐：**務必保留一份原始的“髒”數據副本。切勿覆蓋你的源數據文件——創建清理版本並使用清晰的命名規則，例如 `data_cleaned.csv`。



---

**免責聲明**：  
本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。雖然我們致力於提供準確的翻譯，但請注意，自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於重要信息，建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。
