In [1]:
import pandas as pd
import glob

# 1. 獲取所有CSV檔案的檔案路徑
# glob找尋符合的檔案
file_paths = glob.glob('./*.csv')

# 2. 讀取所有CSV檔案並存儲為DataFrame列表
dataframes = [pd.read_csv(file) for file in file_paths]


In [2]:
import numpy as np
from scipy.stats import levene
from scipy.stats import ttest_ind

# 獲取所有標籤
for df in dataframes:
    labels = df['Label'].unique()   # [True, False]
    # 分成真實(True)和合成(False)兩類
    real_label = df[df['Label'] == labels[0]]
    fake_label = df[df['Label'] == labels[1]]

    for col in df.columns[1:-1]:
        statistic, p_value = levene(real_label[col], fake_label[col])
        if p_value > 0.05:  # 變異數沒有顯著差異
            # 執行t檢定
            stat, p_val = ttest_ind(real_label[col], fake_label[col], equal_var=True, alternative='two-sided')
            if p_val < 0.05:    # 顯著差異
                print('Column:', f'=={col}==', end=' , ')
                print('統計量：%.2f'%stat, end=' , ')
                print('p-value:%.2f'%p_val, end=', ')
                print("具有顯著差異")

Column: ==tonnetz_1== , 統計量：9.64 , p-value:0.00, 具有顯著差異
Column: ==tonnetz_2== , 統計量：2.76 , p-value:0.01, 具有顯著差異
Column: ==tonnetz_5== , 統計量：11.78 , p-value:0.00, 具有顯著差異


In [3]:
import numpy as np
from scipy.stats import levene
from scipy.stats import ttest_ind

# 獲取所有標籤
for df in dataframes:
    labels = df['Label'].unique()   # [True, False]
    # 分成真實(True)和合成(False)兩類
    real_label = df[df['Label'] == labels[0]]
    fake_label = df[df['Label'] == labels[1]]

    for col in df.columns[1:-1]:
        statistic, p_value = levene(real_label[col], fake_label[col])
        if p_value < 0.05:  # 變異數有顯著差異
            # 執行Welch's t-test
            stat, p_val = ttest_ind(real_label[col], fake_label[col], equal_var=False, alternative='two-sided')
            if p_val < 0.05:    # 顯著差異
                print('Column:', f'=={col}==', end=' , ')
                print('統計量：%.2f'%stat, end=' , ')
                print('p-value:%.2f'%p_val, end=', ')
                print("具有顯著差異")

Column: ==Chroma_1== , 統計量：10.35 , p-value:0.00, 具有顯著差異
Column: ==Chroma_2== , 統計量：7.27 , p-value:0.00, 具有顯著差異
Column: ==Chroma_3== , 統計量：5.07 , p-value:0.00, 具有顯著差異
Column: ==Chroma_4== , 統計量：4.88 , p-value:0.00, 具有顯著差異
Column: ==Chroma_5== , 統計量：9.33 , p-value:0.00, 具有顯著差異
Column: ==Chroma_6== , 統計量：12.58 , p-value:0.00, 具有顯著差異
Column: ==Chroma_7== , 統計量：11.87 , p-value:0.00, 具有顯著差異
Column: ==Chroma_8== , 統計量：12.17 , p-value:0.00, 具有顯著差異
Column: ==Chroma_9== , 統計量：11.40 , p-value:0.00, 具有顯著差異
Column: ==Chroma_10== , 統計量：11.04 , p-value:0.00, 具有顯著差異
Column: ==Chroma_11== , 統計量：11.42 , p-value:0.00, 具有顯著差異
Column: ==Chroma_12== , 統計量：11.78 , p-value:0.00, 具有顯著差異
Column: ==mel-spec_1== , 統計量：-2.23 , p-value:0.03, 具有顯著差異
Column: ==mel-spec_3== , 統計量：1.97 , p-value:0.05, 具有顯著差異
Column: ==mel-spec_5== , 統計量：-4.68 , p-value:0.00, 具有顯著差異
Column: ==mel-spec_6== , 統計量：-11.49 , p-value:0.00, 具有顯著差異
Column: ==mel-spec_7== , 統計量：-15.90 , p-value:0.00, 具有顯著差異
Column: ==mel-spec_8== , 統計量：-19.04 , 

小結: 這次結論也跟中文完全不一樣，但一樣用t-test劃分的話有多種特徵是明顯不同的