# 範例題目:

1. 認識類別資料
   
   順序性類別資料，編碼也需要有順序性，將類別資料依序編碼由0到n-1，其中n為類別總數，因此類別之間會有順序關係0<1<2<….

   - 類別資料轉換 : 

     由於機器學習無法了解每個類別所代表的意思，必須將輸入的資料轉換成為數值，因此我們必須將類別變數轉換成數值。

     常用的有 LabelEncoder 和 OneHotEncoder。
     
    - get_dummies()把資料表中的每個類別 對應的欄位，經過One-hot Encoding ，One-hot Encoding 是**沒有順序性**的編碼<br>
<br>
   - 排序依照python內建順序，可以藉由**ord()查看內建順序**
    
    

2. 實做缺值處理方法與應用函式

   - 填補 NaN :<br>
     `.fillna()`<br>
     - method=‘ffill’即可填補前一列數值 : 向前填充
     - method=‘bfill’填補後一列數值 : 向後填充
     
     內差法補值 : `.interpolate()`
     
   


# 範例重點:

1. 類別資料，有分順序型與一般型，使用的編碼方式不同
2. 缺失值有很多處理方式，在這邊簡單介紹2種常見的方式


# [教學目標]

* 知道如何使用 DataFrame 中的運算
* 了解 DataFrame 運算的特性
* 知道 DataFrame 中統計與字串的操作
  - 相同欄位的算術運算
  - 不同欄位的算術運算
  - DataFrame 也有廣播的特性
    - DataFrame 和 Array 有點不一樣
  - DataFrame 也有遮罩運算
  - DataFrame 中的排序
    - `.sort_values(by, ascending)`

In [4]:
import pandas as pd

In [12]:
df = pd.DataFrame([['green', 'M', 'male', 'short'],
          ['red', 'L', 'female', 'normal'],
          ['blue', 'XL', 'male', 'long']])
df.columns =['color', 'size', 'sex', 'lenght']
df

Unnamed: 0,color,size,sex,lenght
0,green,M,male,short
1,red,L,female,normal
2,blue,XL,male,long


順序性類別資料，編碼也需要有順序性，將類別資料依序編碼由0到n-1，其中n為類別總數，因此類別之間會有順序關係0<1<2<….

類別資料轉換 : 

由於機器學習無法了解每個類別所代表的意思，必須將輸入的資料轉換成為數值，因此我們必須將類別變數轉換成數值。

常用的有 LabelEncoder 和 OneHotEncoder。

In [15]:
from sklearn.preprocessing import LabelEncoder
df['size_label'] = LabelEncoder().fit_transform(df['size'])
df

Unnamed: 0,color,size,sex,lenght,size_label
0,green,M,male,short,1
1,red,L,female,normal,0
2,blue,XL,male,long,2


In [16]:
from sklearn.preprocessing import LabelEncoder
df['size_label'] = LabelEncoder().fit_transform(df['size'].values)
df

Unnamed: 0,color,size,sex,lenght,size_label
0,green,M,male,short,1
1,red,L,female,normal,0
2,blue,XL,male,long,2


排序依照python內建順序，可以藉由**ord()查看內建順序**

In [17]:
ord('L'),ord('M')

(76, 77)

get_dummies()把資料表中的每個類別 對應的欄位，經過One-hot Encoding

One-hot Encoding 是**沒有順序性**的編碼

In [20]:
pf = pd.get_dummies(df[['color']])
df = pd.concat([df, pf], axis=1)            #axis=1
df

Unnamed: 0,color,size,sex,lenght,size_label,color_blue,color_green,color_red,color_blue.1,color_green.1,color_red.1
0,green,M,male,short,1.0,0,1,0,0,1,0
1,red,L,female,normal,0.0,0,0,1,0,0,1
2,blue,XL,male,long,2.0,1,0,0,1,0,0
0,,,,,,0,1,0,0,0,0
1,,,,,,0,0,1,0,0,0
2,,,,,,1,0,0,0,0,0


In [21]:
temp_data = pd.DataFrame([['2020-11-01', 24.8], 
              ['2020-11-02', 24.8],
              ['2020-11-03', None],
              ['2020-11-04', 25]],columns=['date','current_temp'])
temp_data

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,
3,2020-11-04,25.0


填補 NaN :<br>
`.fillna()`

以0填補 NaN<br>
`.fillna(0)`

In [22]:
temp_data.fillna(0)

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,0.0
3,2020-11-04,25.0


以該欄位所有資料的算術平均數做填補NaN

算術平均數 : `.mean()`

In [25]:
temp_data.fillna(temp_data.current_temp.mean())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.866667
3,2020-11-04,25.0


以該欄位所有資料的中位數做填補

中位數 : `.median()`

In [26]:
temp_data.fillna(temp_data.current_temp.median())

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


運用參數method=‘ffill’即可填補前一列數值 : 向前填充

In [28]:
temp_data.fillna(method='ffill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.8
3,2020-11-04,25.0


method=‘bfill’填補後一列數值 : 向後填充

In [30]:
temp_data.fillna(method='bfill')

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,25.0
3,2020-11-04,25.0


內差法補值

In [31]:
temp_data.interpolate()

Unnamed: 0,date,current_temp
0,2020-11-01,24.8
1,2020-11-02,24.8
2,2020-11-03,24.9
3,2020-11-04,25.0


# Numpy 運算

相同欄位的算術運算

In [33]:
import pandas as pd

df1 = pd.DataFrame([[1, 2, 3]])
df2 = pd.DataFrame([[1, 1, 1]])

print(df1 + df2)
print(df1 - df2)
print(df1 * df2)
print(df1 / df2)

   0  1  2
0  2  3  4
   0  1  2
0  0  1  2
   0  1  2
0  1  2  3
     0    1    2
0  1.0  2.0  3.0


不同欄位的算術運算

In [34]:
import pandas as pd

df1 = pd.DataFrame([[1, 2, 3]], columns=['a', 'b', 'c'])
df2 = pd.DataFrame([[1, 1, 1]], columns=['c', 'd', 'e'])

print(df1 + df2)
#        a       b      c     d       e
# 0 NaN NaN     4 NaN NaN

    a   b  c   d   e
0 NaN NaN  4 NaN NaN


DataFrame 也有廣播的特性

In [35]:
import pandas as pd

df1 = pd.DataFrame([[1, 2, 3]])

print(df1 + 1)
#    0  1  2
# 0  2  3  4

   0  1  2
0  2  3  4


DataFrame 和 Array 有點不一樣

In [43]:
import pandas as pd

df = pd.DataFrame([[1, 2, 3]])

print(df + 1)
#    0  1  2
# 0  2  3  4
print(df + pd.DataFrame([1]))
#    0   1   2
# 0  2 NaN NaN

print(pd.DataFrame([1]))

   0  1  2
0  2  3  4
   0   1   2
0  2 NaN NaN
   0
0  1


In [37]:
import numpy as np

a = np.array([[1, 2, 3]])

print(a + 1)
# [[2 3 4]]

print(a + np.array([1]))
# [[2 3 4]]


[[2 3 4]]
[[2 3 4]]


DataFrame 也有遮罩運算

In [38]:
print(df > 2)
#        A      B     C
# a  False  False  True
# b   True   True  True

print(df[df > 2])
#      A    B  C
# a  NaN  NaN  3
# b  4.0  5.0  6


       0      1     2
0  False  False  True
    0   1  2
0 NaN NaN  3


In [39]:
print(df['A'] > 2)
# a    False
# b     True
# Name: A, dtype: bool

print(df[df['A'] > 2])
#    A  B  C
# b  4  5  6

KeyError: 'A'

DataFrame 中的排序<br>
`.sort_values(by, ascending)`

In [40]:
import pandas as pd

df = pd.DataFrame({
    'col1': ['A', 'a', 'B', 'B', 'B', 'b'],
    'col2': [2, 1, 2, 3, 1, 8],
})

df.sort_values(by=['col1'])

Unnamed: 0,col1,col2
0,A,2
2,B,2
3,B,3
4,B,1
1,a,1
5,b,8


In [41]:
df.sort_values(by=['col1', 'col2'])

Unnamed: 0,col1,col2
0,A,2
4,B,1
2,B,2
3,B,3
1,a,1
5,b,8


In [42]:
df.sort_values(by='col2', ascending=False)

Unnamed: 0,col1,col2
5,b,8
3,B,3
0,A,2
2,B,2
1,a,1
4,B,1
