## 異常值處理方法

**刪除異常值**

刪除異常值是最簡單的處理異常值的方法。但是，這種方法可能會導致資料量的減少，從而影響資料分析結果的準確性。

**將異常值替換為平均值或中位數**

這種方法是使用統計方法來估算異常值。平均值是將所有非異常值的平均值用於替換異常值。中位數是將所有非異常值的眾數用於替換異常值。

## 缺失值的處理方法

**刪除包含缺失值的樣本**

刪除包含缺失值的樣本是最簡單的處理缺失值的方法。但是，這種方法可能會導致資料量的減少，從而影響資料分析結果的準確性。

**使用平均值、中位數或眾數填充缺失值**

這種方法是使用統計方法來估算缺失值。平均值是使用所有非缺失值的平均值來填充缺失值。中位數是使用所有非缺失值的眾數來填充缺失值。眾數是使用所有非缺失值出現最多的值來填充缺失值。

**使用插補方法填充缺失值**

插補方法是使用相鄰資料點的值來估算缺失值。常用的插補方法包括線性插補、拋物線插補和三次曲線插補。
通常在時間序列的資料中會使用到

**使用機器學習方法填充缺失值**

機器學習方法可以自動估算缺失值。常用的機器學習方法包括 KNN 等等模型。


## 插值法

- [官方連結](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.interpolate.html)

```
DataFrame.interpolate(method='linear', axis=0, limit=None, fill_value=None, inplace=False, **kwargs)
```
- method：插補方法。默認為 linear，即線性插補。其他可選值包括：
  - nearest：最近鄰居插補
  - zero：用 0 填充缺失值
  - slinear：線性插補，但只使用相鄰的非缺失值
  - quadratic：拋物線插補
  - cubic：三次曲線插補
  - polynomial：多項式插補
  - spline：樣條插補
  - piecewise_polynomial：分段多項式插補
  - from_derivatives：從導數插補
  - pchip：PCHIP 插補
  - akima：Akima 插補


In [2]:
import numpy as np

# 讀取資料
data = pd.read_csv('dataset/time_series_data.csv')

data["Date"] = pd.to_datetime(data["Date"])
print(data)
data = data.set_index("Date")
# 填充缺失值
inter_data = data.interpolate()
print(inter_data)

        Date   Open  High  Low  Close  Volume
0 2023-01-01  100.0   105   95    100   10000
1 2023-01-02  101.0   106   96    101   10100
2 2023-01-03  102.0   107   97    102   10200
3 2023-01-04  103.0   108   98    103   10300
4 2023-01-05  104.0   109   99    104   10400
5 2023-01-06    NaN   110  100    105   10500
6 2023-01-07  106.0   111  101    106   10600
7 2023-01-08  107.0   112  102    107   10700
8 2023-01-09    NaN   113  103    108   10800
9 2023-01-10  109.0   114  104    109   10900
             Open  High  Low  Close  Volume
Date                                       
2023-01-01  100.0   105   95    100   10000
2023-01-02  101.0   106   96    101   10100
2023-01-03  102.0   107   97    102   10200
2023-01-04  103.0   108   98    103   10300
2023-01-05  104.0   109   99    104   10400
2023-01-06  105.0   110  100    105   10500
2023-01-07  106.0   111  101    106   10600
2023-01-08  107.0   112  102    107   10700
2023-01-09  108.0   113  103    108   10800
2023-01-10

## 平均值的優缺點

### 優點：

- 計算簡單
- 可以保留數據的原始信息

### 缺點：

- 容易受到異常值的影響
- 不適用於非正態分布的數據

## 眾數的優缺點

### 優點：

- 不受異常值的影響
- 適用於非正態分布的數據

### 缺點：

- 可能會降低數據的準確性
- 不適用於數值型特徵

### 重點整理
- 對於正態分布的數據，可以使用平均值填充缺失值。
- 對於非正態分布的數據，可以使用眾數填充缺失值。
- 對於數值型特徵，可以使用平均值填充缺失值。
- 對於類別型特徵，可以使用眾數填充缺失值。

此外，還可以使用一些更複雜的填充方法，例如插補法和機器學習。這些方法可以更好地保留數據的原始信息，但計算量也更大。

在實際應用中，可以根據具體情況選擇合適的缺失值填充方式。


- 在資料分析和機器學習中，標準化（standardization）是將資料轉換為具有零均值和單位變異數的標準正態分佈，以確保每個特徵對模型的重要性均衡。以下是一個有標準化與沒標準化對於資料分析影響的實例：

### 資料集說明
假設我們有一個包含三個特徵（特徵A、特徵B、特徵C）的資料集，用於預測某個目標變數（Target）。特徵A的數值範圍是0到1，特徵B的數值範圍是0到1000，特徵C的數值範圍是0到10。

- 沒有標準化的影響

當我們在沒有標準化的情況下使用這個資料集進行分析或訓練模型，特徵B的數值範圍比其他特徵大得多，這會導致以下問題：

- 特徵的重要性失衡：模型可能會偏重於特徵B，因為它的數值範圍較大，導致模型對特徵A和特徵C的忽略。

距離計算失真：在使用基於距離的模型（如KNN、K-means）時，特徵B的影響將遠遠大於其他特徵，導致模型性能下降。

## 資料的格式統一

### 標準化的適用情境

標準化適用於以下情境：

1. 資料服從正態分布
2. 需要計算資料之間的距離

### 歸一化的適用情境

歸一化適用於以下情境：

1. 資料不服從正態分布
2. 資料的範圍不確定

In [2]:
import numpy as np
from sklearn.datasets import load_iris

# 讀取資料
iris = load_iris()
data = iris.data

# 輸出結果
print(data)

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [69]:
from sklearn.preprocessing import MinMaxScaler

# 歸一化資料
scaler_minmax = MinMaxScaler()
data_minmax = scaler_minmax.fit_transform(data)

# 輸出結果
print(data_minmax)


[[0.22222222 0.625      0.06779661 0.04166667]
 [0.16666667 0.41666667 0.06779661 0.04166667]
 [0.11111111 0.5        0.05084746 0.04166667]
 [0.08333333 0.45833333 0.08474576 0.04166667]
 [0.19444444 0.66666667 0.06779661 0.04166667]
 [0.30555556 0.79166667 0.11864407 0.125     ]
 [0.08333333 0.58333333 0.06779661 0.08333333]
 [0.19444444 0.58333333 0.08474576 0.04166667]
 [0.02777778 0.375      0.06779661 0.04166667]
 [0.16666667 0.45833333 0.08474576 0.        ]
 [0.30555556 0.70833333 0.08474576 0.04166667]
 [0.13888889 0.58333333 0.10169492 0.04166667]
 [0.13888889 0.41666667 0.06779661 0.        ]
 [0.         0.41666667 0.01694915 0.        ]
 [0.41666667 0.83333333 0.03389831 0.04166667]
 [0.38888889 1.         0.08474576 0.125     ]
 [0.30555556 0.79166667 0.05084746 0.125     ]
 [0.22222222 0.625      0.06779661 0.08333333]
 [0.38888889 0.75       0.11864407 0.08333333]
 [0.22222222 0.75       0.08474576 0.08333333]
 [0.30555556 0.58333333 0.11864407 0.04166667]
 [0.22222222 

In [8]:
from sklearn.preprocessing import StandardScaler

# 標準化資料
scaler_standard = StandardScaler()
data_standard = scaler_standard.fit_transform(data)

# 輸出結果
print(data_standard)


[0.82530129 0.43441097 1.75940407 0.75969263]
[1. 1. 1. 1.]


## 練習
- 判定一下我們的 mushroom 資料集，哪些資料適合標準化哪些資料、哪些資料不適合標準化、哪些不應該處理


## 練習
- 將一個欄位標準化後存進原本的表格之中，並且列印出表格

## 練習
- 練習看看，有標準化的資料跟沒有標準化的資料使用 Logestic Regression 在同樣的 10 次迭代 max_iter 時他們是否有差異。

## 回家作業
- 自行練習將 mushroom 資料做前處理，包含異常值檢查過濾、缺失值處理、資料轉換，根據欄位的特性決定該欄位該做何種處理後，再去比較沒處理並且使用相同模型預測出來的結果。
- 比較方式在將資料切成 train 與 test 兩份，最終觀察以 test 的 f1-score 來去做評斷。

hint: 所以你會需要訓練兩個 Logestic Regression