# D11 pandas 類別資料與缺失值處理

## 類別資料

無法以數值表示的統計資料，如航班編號、性別、學歷、旅遊同伴、頭髮顏色、宗教等，需利用一組的標記、類別、性質或名稱以區別每個基本單位的特徵、屬性即稱為類別資料。類別資料中可以分為順序性與一般性兩種。

- 順序性：類別之間存在順序性，例如：衣服尺寸[XL,L,M]、長度[短,中,長]
- 一般性：類別之間沒有順序關係，例如：顏色[黃,綠,藍]、性別[男,女]

大部分的模型都是基於數學運算，因為字串無法套入數學模型進行運算，因此遇到類別資料時，需要進行類別資料數位化，對其進行 encoding 編碼(將類別資料轉成數字)才能進一步對其做分析。

- 順序性類別資料：需要有順序性的 encoding 方法，可以使用 sklearn 中的 LabelEncoder()。
- 一般性類別資料：不需要有順序的編碼，可以使用 pandas 中的 get_dummies()


## 順序性類別資料，使用 LabelEncoder

In [1]:
#載入 pandas
import pandas as pd

In [3]:
df = pd.DataFrame([['green', 'M', 'male', 'short'],
                  ['red', 'L', 'female', 'normal'],
                  ['blue', 'XL', 'male', 'long']])

df.columns = ['color', 'size', 'sex', 'length']

df

Unnamed: 0,color,size,sex,length
0,green,M,male,short
1,red,L,female,normal
2,blue,XL,male,long


In [18]:
#載入LabelEncoder
from sklearn.preprocessing import LabelEncoder
df['size_label'] = LabelEncoder().fit_transform(df['size'].values)
df

Unnamed: 0,color,size,sex,length,size_label
0,green,M,male,short,1
1,red,L,female,normal,0
2,blue,XL,male,long,2


In [15]:
#藉由ord()查看內建順序
print('L的順序：', ord('L'),
      'M的順序：', ord('M'))

L的順序： 76 M的順序： 77


## 一般性類別資料：get_dummies()

In [20]:
#針對color這個欄位做 get_dummies (one-hot encoder)
pf = pd.get_dummies(df[['color']])

df = pd.concat([df, pf], axis=1)
df

Unnamed: 0,color,size,sex,length,size_label,color_blue,color_green,color_red,color_blue.1,color_green.1,color_red.1
0,green,M,male,short,1,0,1,0,0,1,0
1,red,L,female,normal,0,0,0,1,0,0,1
2,blue,XL,male,long,2,1,0,0,1,0,0


## 缺失值處理方法與應用函式

只要缺失值將會填上 nan 代替缺失值，大部分的模型不能處理缺失值的問題，一般來說會將有缺失值的資料整筆直接刪除，但是這樣會損失其它欄位的資料，所以如果缺失情況不嚴重，傾向於將缺失值補上數值，以下最常見兩種補值方式。

- 定值補值：將缺失值都補上一個定值
- 前(後)補值：補前(後)一列的值

### 缺值處理方法一：定值補值 fillna()

In [21]:
temp_data = pd.DataFrame([['2020-11-01', 24.8],
                          ['2020-11-02', 24.8],
                          ['2020-11-03', None],
                          ['2020-11-04', 25]], columns = ['date', 'current_temp'])
temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


In [24]:
#以0填補缺失值
print('以 0 填補缺失值：\n',temp_data.fillna(0))

以 0 填補缺失值：
          date  current_temp
0  2020-11-01          24.8
1  2020-11-02          24.8
2  2020-11-03           0.0
3  2020-11-04          25.0


In [29]:
#以平均值填補缺失值
print('以平均值填補缺失值：\n',
     temp_data.fillna(temp_data.current_temp.mean()))

以平均值填補缺失值：
          date  current_temp
0  2020-11-01     24.800000
1  2020-11-02     24.800000
2  2020-11-03     24.866667
3  2020-11-04     25.000000


In [30]:
#以中位數填補缺失值
print('以中位數填補缺失值：\n',
     temp_data.fillna(temp_data.current_temp.median()))

以中位數填補缺失值：
          date  current_temp
0  2020-11-01          24.8
1  2020-11-02          24.8
2  2020-11-03          24.8
3  2020-11-04          25.0


### 缺失值補遺方法二：前後值補遺

- 前(後)補值最常使用在金融上，有時候因為颱風天導致沒有開盤，這時沒開盤那天的數值空了通常都會補前一天的價錢。
- 函式一樣使用 fillna()，運用參數 method=‘ffill’ 即可填補前一列數值， method=‘bfill’ 填補後一列數值。


In [32]:
temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


In [33]:
#用前一筆資料進行補遺
temp_data.fillna(method='ffill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


In [34]:
#用後一筆資料進行補遺
temp_data.fillna(method='bfill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,25.0
3,2020-11-04,25.0
