# [教學目標]
- 知道 DataFrame 如何檢視欄位的型態數量以及各欄型態, 以及 Label Encoding / One Hot Encoding 如何寫?

# [範例重點]
- 檢視 DataFrame 的資料型態 (In[3], In[4])
- 了解 Label Encoding 如何寫 (In[6])
- 了解 One Hot Encoding 如何寫 (In[7])

In [None]:
import os
import numpy as np
import pandas as pd

In [None]:
## 設定數據集路徑
data_path = 'data/'
train_path = os.path.join(data_path, 'application_train.csv')
test_path = os.path.join(data_path, 'application_test.csv')
print(train_path)
print(test_path)
## 讀取數據集
app_train = pd.read_csv(train_path)
app_test = pd.read_csv(test_path)

In [None]:
app_train.head()

In [None]:
app_test.head()

In [None]:
## 把所有特徵的數據類型列出來
print(app_train.dtypes)
print(app_test.dtypes)

檢視資料中各個欄位類型的數量

In [None]:
app_train.dtypes.value_counts()

In [None]:
app_test.dtypes.value_counts()

檢視資料中類別型欄位各自類別的數量

In [None]:
## pd.Series.nunique: 用來獲取唯一值的統計次數
## select_dtypes: 用來指定特定數據類型的特徵欄位

In [None]:
## 過濾出資料類型為int64的欄位
app_train.select_dtypes(include = ["int64", "float64"])

In [None]:
## 檢視符合int64資料類型的特徵欄位中各自類別的數量
app_train.select_dtypes(include = ["int64"]).apply(pd.Series.nunique, axis = 0)

In [None]:
app_train.select_dtypes(include = ["float64"]).apply(pd.Series.nunique, axis = 0)

In [None]:
app_train.select_dtypes(include=["object"]).apply(pd.Series.nunique, axis = 0)

#### Label encoding
有仔細閱讀[參考資料](https://medium.com/@contactsunny/label-encoder-vs-one-hot-encoder-in-machine-learning-3fc273365621)的人可以發現，Label encoding 的表示方式會讓同一個欄位底下的類別之間有大小關係 (0<1<2<...)，所以在這裡我們只對有類別數量小於等於 2 的類別型欄位示範使用 Label encoding，但不表示這樣處理是最好的，一切取決於欄位本身的意義適合哪一種表示方法

In [None]:
app_train.head()

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
## 將所有為object資料類型，且其中的類別數量小於2的特徵進行Label Encoding

## 創建Label Encoder物件
le = LabelEncoder()
## 用來紀錄執行Label Encoding的次數
le_count = 0

## 開始遍歷各個特徵欄位
for col in app_train:
    ## 檢查當此特徵欄位為object資料類型(字符串)
    if app_train[col].dtype == 'object':
        ## 檢查當此欄位的類別數量小於2，就執行Label Encoding轉換
        if len(list(app_train[col].unique())) <= 2:
            ## 擬和
            le.fit(app_train[col])
            ## 轉換
            app_train[col] = le.transform(app_train[col])
            app_test[col] = le.transform(app_test[col])
    
            ## 紀錄執行label Encoding的次數加1
            le_count += 1
        
print('%d columns were label encoded.'%le_count)

In [None]:
# Create a label encoder object
le = LabelEncoder()
le_count = 0

# Iterate through the columns
for col in app_train:
    if app_train[col].dtype == 'object':
        # If 2 or fewer unique categories
        if len(list(app_train[col].unique())) <= 2:
            # Train on the training data
            le.fit(app_train[col])
            # Transform both training and testing data
            app_train[col] = le.transform(app_train[col])
            app_test[col] = le.transform(app_test[col])
            
            # Keep track of how many columns were label encoded
            le_count += 1
            
print('%d columns were label encoded.' % le_count)

In [None]:
app_train.head()

#### One Hot encoding
pandas 中的 one hot encoding 非常方便，一行程式碼就搞定

In [None]:
app_train = pd.get_dummies(app_train)
app_test = pd.get_dummies(app_test)

print(app_train['CODE_GENDER_F'].head())
print(app_train['CODE_GENDER_M'].head())
print(app_train['NAME_EDUCATION_TYPE_Academic degree'].head())

app_train

可以觀察到原來的類別型欄位都轉為 0/1 了

## 作業
將下列部分資料片段 sub_train 使用 One Hot encoding, 並觀察轉換前後的欄位數量 (使用 shape) 與欄位名稱 (使用 head) 變化

In [None]:
app_train = pd.read_csv(f_app_train)
sub_train = pd.DataFrame(app_train['WEEKDAY_APPR_PROCESS_START'])
print(sub_train.shape)
sub_train.head()

In [None]:
"""
Your Code Here
"""