範例題目:<br>
1. 認識類別資料
2. 實做缺值處理方法與應用函式


範例重點:<br>
1. 類別資料，有分順序型與一般型，使用的編碼方式不同
2. 缺失值有很多處理方式，在這邊簡單介紹2種常見的方式

In [1]:
import pandas as pd

In [2]:
df = pd.DataFrame([['green', 'M', 'male', 'short'],
          ['red', 'L', 'female', 'normal'],
          ['blue', 'XL', 'male', 'long']])
df.columns =['color', 'size', 'sex', 'lenght']
df

Unnamed: 0,color,size,sex,lenght
0,green,M,male,short
1,red,L,female,normal
2,blue,XL,male,long


In [3]:
# 順序性類別資料，編碼也需要有順序性
# 將類別資料依序編碼由0到n-1，其中n為類別總數，因此類別之間會有順序關係0<1<2<…

from sklearn.preprocessing import LabelEncoder
df['size_label'] = LabelEncoder().fit_transform(df['size'].values)
df

Unnamed: 0,color,size,sex,lenght,size_label
0,green,M,male,short,1
1,red,L,female,normal,0
2,blue,XL,male,long,2


In [6]:
# 排序依照python內建順序，可以藉由ord()查看內建順序

ord('L'),ord('M'), ord('X')

(76, 77, 88)

In [7]:
# get_dummies()把資料表中的每個類別 對應的欄位，經過One-hot Encoding(一位有效編碼)
# One-hot Encoding(一位有效編碼) 是沒有順序性的編碼

pf = pd.get_dummies(df[['color']])
df = pd.concat([df, pf], axis=1)
df

Unnamed: 0,color,size,sex,lenght,size_label,color_blue,color_green,color_red
0,green,M,male,short,1,0,1,0
1,red,L,female,normal,0,0,0,1
2,blue,XL,male,long,2,1,0,0


In [8]:
temp_data = pd.DataFrame([
    ['2020-11-01', 24.8], 
    ['2020-11-02', 24.8],
    ['2020-11-03', None],
    ['2020-11-04', 25]], 
    columns=['date','current_temp'])

temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


In [9]:
# 以 0 填補

temp_data.fillna(0)

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,0.0
3,2020-11-04,25.0


In [10]:
# 以該欄位所有資料的算術平均數做填補

temp_data.fillna(temp_data.current_temp.mean())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.866667
3,2020-11-04,25.0


In [11]:
# 以該欄位所有資料的中位數做填補

temp_data.fillna(temp_data.current_temp.median())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


In [12]:
# 運用參數method=‘ffill’即可填補前一列數值 "Forward Fill"

temp_data.fillna(method='ffill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


In [13]:
# method=‘bfill’填補後一列數值 "Back Fill"

temp_data.fillna(method='bfill')  

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,25.0
3,2020-11-04,25.0


In [14]:
# 內差法補值

temp_data.interpolate()

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.9
3,2020-11-04,25.0
