## DataFrame 運算上的例子1

進行 feature selection 時, 會有把不同 label 的結果分開去做的時候 (例如 BW ratio). 這時<font color = orange>如果 sample 跟 feature 一起進行, 則會造成運算時間上的浪費, 所以要分開做.</font>

舉例來說, row 是 sample ($y=0,1$), col 是 feature 的 data. 每個 feature 都要做 BW ratio, 不要每次取一個 feature 時, 都去把 row 的 $0,1$ 分出來, 而是先把 row 的 $0,1$ 分出來後再去取 feature.

主要原因在於, <font color = orange>如果 label 跟 feature 一起進行, 每次算 feature 都會找一次 label; 如果先找 label 再找 feature, 則只會需要找一次的 label.</font> 

*   假設每個步驟都算一次執行, 每個 sample 都看一次 label, 則會需要看 nrow 次. 每次都要決定要算哪個 featrue, 所以會決定 ncol 次. 
*   如果 label 跟 feature 一起進行, 因為每次算 feature 都會找一次 label, 所以會需要進行 nrow * ncol 次.
*   如果先找 label 再找 feature, 則只會需要找一次的 label, 所以只需要進行 nrow + ncol 次

以下以計算各個 feature 在不同 label 的情況下, mean 是多少為例.

In [104]:
import pandas as pd
import numpy as np
import time

In [148]:
np.random.seed(1)
X = np.random.random((200,10001)) # X1~X1000
X[:,0] = np.random.binomial(1,0.6, 200)  # Y
data = pd.DataFrame(X) 
data[0] = data[0].astype('int') # 修改 Y 的 type
#data

In [149]:
## 用比較花時間的方法計算每個 feature 在不同 label 的 mean
T1 = time.time()
N = len(data.columns) - 1
feature_mean_0 = []
feature_mean_1 = []
for i in range(N):
    feature_mean_0.append(np.mean(data[data[0] == 0][i + 1]))
    feature_mean_1.append(np.mean(data[data[0] == 1][i + 1]))
T2 = time.time()
print(T2-T1)


71.04712677001953


In [150]:
## 用比較省時間的方法計算每個 feature 在不同 label 的 mean
T1 = time.time()
N = len(data.columns) - 1
Feature_mean_0 = []
Feature_mean_1 = []
data1 = data[data[0] == 0]
data2 = data[data[0] == 1]
for i in range(N):
    Feature_mean_0.append(np.mean(data1[i + 1]))
    Feature_mean_1.append(np.mean(data2[i + 1]))
T2 = time.time()
print(T2-T1)

1.8956003189086914


In [151]:
s = 0
for i in range(N):
    if feature_mean_0[i] != Feature_mean_0[i]:
        s += 1
        print('不同')
if s == 0:
    print('相同')

相同
