In [None]:
# 讀取 HDF5 資料檔案
# 這個 notebook 會讀取 `data_train.hdf5` 檔案並顯示其中的資料結構和樣本資料。

In [1]:
import h5py
import numpy as np
import os

# 檔案路徑
file_path = os.path.join(
    "brain-to-text-25",
    "t15_copyTask_neuralData", 
    "hdf5_data_final",
    "t15.2023.08.11",
    "data_train.hdf5"
)

print(f"檔案路徑: {file_path}")
print(f"檔案是否存在: {os.path.exists(file_path)}")

檔案路徑: brain-to-text-25\t15_copyTask_neuralData\hdf5_data_final\t15.2023.08.11\data_train.hdf5
檔案是否存在: True


In [15]:
# 開啟 HDF5 檔案並查看結構
with h5py.File(file_path, 'r') as f:
    print("=" * 60)
    print("HDF5 檔案的頂層鍵值:")
    print("=" * 60)
    for key in f.keys():
        print(f"\n鍵名: {key}")
        item = f[key]
        if isinstance(item, h5py.Dataset):
            print(f"  類型: Dataset")
            print(f"  形狀: {item.shape}")
            print(f"  資料類型: {item.dtype}")
        elif isinstance(item, h5py.Group):
            print(f"  類型: Group")
            print(f"  子鍵: {list(item.keys())}")

HDF5 檔案的頂層鍵值:

鍵名: trial_0000
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0001
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0002
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0003
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0004
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0005
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0006
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0007
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0008
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0009
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0010
  類型: Group
  子鍵: ['input_features', 'seq_class_ids', 'transcription']

鍵名: trial_0011
  類型: Group
 

In [16]:
# 讀取並顯示幾筆資料
with h5py.File(file_path, 'r') as f:
    print("=" * 60)
    print("顯示資料樣本 (前 3 個 trials):")
    print("=" * 60)
    
    # 獲取所有 trial 的鍵名
    trial_keys = list(f.keys())[:3]  # 只看前3個
    
    for i, key in enumerate(trial_keys, 1):
        print(f"\n【Trial {i}: {key}】")
        trial_group = f[key]
        
        # 如果是 Group，顯示其中的資料集
        if isinstance(trial_group, h5py.Group):
            print(f"  這是一個 Group，包含以下資料集:")
            for subkey in trial_group.keys():
                dataset = trial_group[subkey]
                print(f"\n  - {subkey}:")
                data = dataset[()]
                print(f"    形狀: {data.shape}")
                print(f"    類型: {data.dtype}")
                
                # 顯示部分資料
                if isinstance(data, np.ndarray):
                    if len(data.shape) == 1 and len(data) <= 10:
                        print(f"    資料: {data}")
                    elif len(data.shape) == 2 and data.shape[0] <= 3:
                        print(f"    資料:\n{data}")
                    else:
                        print(f"    統計: min={np.min(data):.4f}, max={np.max(data):.4f}, mean={np.mean(data):.4f}")
                elif isinstance(data, bytes):
                    try:
                        print(f"    資料: {data.decode('utf-8')}")
                    except:
                        print(f"    資料: {data}")
                else:
                    print(f"    資料: {data}")
        
        print("-" * 60)

顯示資料樣本 (前 3 個 trials):

【Trial 1: trial_0000】
  這是一個 Group，包含以下資料集:

  - input_features:
    形狀: (321, 512)
    類型: float32
    統計: min=-2.4102, max=10.0000, mean=-0.0001

  - seq_class_ids:
    形狀: (500,)
    類型: int32
    統計: min=0.0000, max=40.0000, mean=0.7020

  - transcription:
    形狀: (500,)
    類型: int32
    統計: min=0.0000, max=116.0000, mean=2.9540
------------------------------------------------------------

【Trial 2: trial_0001】
  這是一個 Group，包含以下資料集:

  - input_features:
    形狀: (481, 512)
    類型: float32
    統計: min=-2.3710, max=10.0000, mean=-0.0301

  - seq_class_ids:
    形狀: (500,)
    類型: int32
    統計: min=0.0000, max=40.0000, mean=0.8600

  - transcription:
    形狀: (500,)
    類型: int32
    統計: min=0.0000, max=121.0000, mean=3.7000
------------------------------------------------------------

【Trial 3: trial_0002】
  這是一個 Group，包含以下資料集:

  - input_features:
    形狀: (480, 512)
    類型: float32
    統計: min=-2.2610, max=10.0000, mean=-0.0444

  - seq_class_ids:
    形狀: (500,

In [17]:
# 詳細查看第一個 trial 的實際資料
with h5py.File(file_path, 'r') as f:
    trial = f['trial_0000']
    
    print("=" * 60)
    print("【Trial 0000 詳細資料】")
    print("=" * 60)
    
    # Input features (神經訊號特徵)
    input_features = trial['input_features'][()]
    print("\n1. Input Features (神經訊號特徵):")
    print(f"   形狀: {input_features.shape} (時間步 × 特徵維度)")
    print(f"   前 5 個時間步的前 10 個特徵:")
    print(input_features[:5, :10])
    
    # Sequence class IDs
    seq_class_ids = trial['seq_class_ids'][()]
    print("\n2. Sequence Class IDs:")
    print(f"   形狀: {seq_class_ids.shape}")
    print(f"   前 30 個值: {seq_class_ids[:30]}")
    print(f"   非零值的索引: {np.where(seq_class_ids != 0)[0][:10]}")
    
    # Transcription (轉錄文字)
    transcription = trial['transcription'][()]
    print("\n3. Transcription (轉錄):")
    print(f"   形狀: {transcription.shape}")
    print(f"   前 30 個值: {transcription[:30]}")
    print(f"   非零值的索引: {np.where(transcription != 0)[0][:10]}")

【Trial 0000 詳細資料】

1. Input Features (神經訊號特徵):
   形狀: (321, 512) (時間步 × 特徵維度)
   前 5 個時間步的前 10 個特徵:
[[ 2.3076649  -0.78699756 -0.64687246 -0.5465877   0.25500455 -0.37754795
  -0.31888878 -0.43742913 -0.552158   -0.6198629 ]
 [-0.5859305  -0.78699756 -0.64687246 -0.5465877  -0.83641505 -0.37754795
  -0.31888878 -0.43742913 -0.552158   -0.6198629 ]
 [-0.5859305  -0.78699756 -0.64687246 -0.5465877  -0.83641505 -0.37754795
   2.2401936  -0.43742913  0.76075107 -0.6198629 ]
 [ 0.8608672   1.2421287  -0.64687246 -0.5465877  -0.83641505 -0.37754795
  -0.31888878 -0.43742913 -0.552158   -0.6198629 ]
 [-0.5859305  -0.78699756 -0.64687246 -0.5465877  -0.83641505 -0.37754795
   2.2401936  -0.43742913 -0.552158   -0.6198629 ]]

2. Sequence Class IDs:
   形狀: (500,)
   前 30 個值: [ 7 28 17 24 40 17 31 40 20 21 25 29 12 40  0  0  0  0  0  0  0  0  0  0
  0  0  0  0  0  0]
   非零值的索引: [0 1 2 3 4 5 6 7 8 9]

3. Transcription (轉錄):
   形狀: (500,)
   前 30 個值: [ 66 114 105 110 103  32 105 116  32  99 108 111

In [18]:
# 解碼轉錄文字 (transcription 看起來是 ASCII 編碼)
with h5py.File(file_path, 'r') as f:
    print("=" * 60)
    print("前 5 個 Trials 的轉錄文字:")
    print("=" * 60)
    
    for i in range(min(5, len(f.keys()))):
        trial_key = f'trial_{i:04d}'
        if trial_key in f:
            transcription = f[trial_key]['transcription'][()]
            
            # 移除填充的 0
            text_bytes = transcription[transcription != 0]
            
            # 解碼為文字
            try:
                text = ''.join([chr(c) for c in text_bytes])
                print(f"\nTrial {i}: {text}")
            except:
                print(f"\nTrial {i}: 無法解碼")
                print(f"  原始資料: {text_bytes[:50]}")
    
    print("\n" + "=" * 60)
    print(f"總共有 {len(f.keys())} 個 trials")
    print("=" * 60)

前 5 個 Trials 的轉錄文字:

Trial 0: Bring it closer.

Trial 1: My family is closer.

Trial 2: What do they like?

Trial 3: How is that good?

Trial 4: Need help here?

總共有 288 個 trials


## 資料總結

這個 HDF5 檔案包含了腦機介面的訓練資料：

- **總計**: 288 個 trials (試驗)
- 每個 trial 包含三個資料集:
  1. **input_features**: 神經訊號特徵 (時間步 × 512維特徵)
  2. **seq_class_ids**: 序列分類 ID (長度 500)
  3. **transcription**: 轉錄文字 (ASCII 編碼，長度 500)

資料的任務是將大腦活動（神經訊號）轉換為文字輸出。

## Input Features 視覺化

接下來我們將針對神經訊號特徵 (input_features) 進行視覺化分析。

In [2]:
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

print("Imported Plotly successfully!")

Imported Plotly successfully!


In [14]:
print(f"完整的 input_features 形狀: {input_features.shape}")

完整的 input_features 形狀: (321, 512)


In [None]:
# 2. 互動式時序圖：顯示特徵維度隨時間變化
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    fig = go.Figure()
    
    # 繪製前 5 個特徵維度
    for i in range(5):
        fig.add_trace(go.Scatter(
            x=list(range(len(input_features))),
            y=input_features[:, i],
            mode='lines',
            name=f'Feature {i}',
            line=dict(width=1.5),
            hovertemplate='Time Step: %{x}<br>Value: %{y:.4f}<extra></extra>'
        ))
    
    fig.update_layout(
        title="Trial 0000 First 5 Feature Dimensions Over Time",
        xaxis_title="Time Step",
        yaxis_title="Feature Value",
        width=1000,
        height=500,
        hovermode='x unified',
        showlegend=True
    )
    
    fig.show()

In [12]:
# 3. 互動式直方圖：顯示所有特徵值的分布
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    fig = go.Figure(data=[go.Histogram(
        x=input_features.flatten(),
        nbinsx=100,
        marker=dict(color='skyblue', line=dict(color='black', width=1)),
        hovertemplate='Range: %{x}<br>Count: %{y}<extra></extra>'
    )])
    
    fig.update_layout(
        title="Trial 0000 Feature Value Distribution",
        xaxis_title="Feature Value",
        yaxis_title="Frequency",
        width=1000,
        height=500,
        showlegend=False
    )
    
    fig.show()
    
    print(f"特徵值統計:")
    print(f"  最小值: {np.min(input_features):.4f}")
    print(f"  最大值: {np.max(input_features):.4f}")
    print(f"  平均值: {np.mean(input_features):.4f}")
    print(f"  標準差: {np.std(input_features):.4f}")

特徵值統計:
  最小值: -2.4102
  最大值: 10.0000
  平均值: -0.0001
  標準差: 0.9993


In [13]:
# 4. 互動式長條圖：比較不同 trials 的平均特徵值
with h5py.File(file_path, 'r') as f:
    num_trials = min(10, len(f.keys()))  # 比較前 10 個 trials
    mean_values = []
    trial_names = []
    
    for i in range(num_trials):
        trial_key = f'trial_{i:04d}'
        if trial_key in f:
            features = f[trial_key]['input_features'][()]
            mean_values.append(np.mean(features))
            trial_names.append(f'Trial {i}')
    
    fig = go.Figure(data=[go.Bar(
        x=trial_names,
        y=mean_values,
        marker=dict(color='coral', line=dict(color='black', width=1)),
        hovertemplate='%{x}<br>Mean Value: %{y:.6f}<extra></extra>'
    )])
    
    fig.update_layout(
        title="Comparison of Mean Feature Values Across First 10 Trials",
        xaxis_title="Trial",
        yaxis_title="Mean Feature Value",
        width=1000,
        height=500,
        showlegend=False
    )
    
    fig.show()

In [14]:
# 5. 互動式箱型圖：顯示每個特徵維度的分布情況
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    # 選擇前 20 個特徵維度進行視覺化
    selected_features = input_features[:, :20]
    
    fig = go.Figure()
    
    for i in range(20):
        fig.add_trace(go.Box(
            y=selected_features[:, i],
            name=f'{i}',
            marker=dict(color='lightblue'),
            line=dict(color='black'),
            boxmean='sd',  # 顯示平均值和標準差
            hovertemplate='Feature %{x}<br>Value: %{y:.4f}<extra></extra>'
        ))
    
    fig.update_layout(
        title="Trial 0000 First 20 Feature Dimensions Box Plot",
        xaxis_title="Feature Dimension",
        yaxis_title="Feature Value",
        width=1000,
        height=600,
        showlegend=False
    )
    
    fig.show()

## 視覺化總結

我們使用 Plotly 為 input_features（神經訊號特徵）創建了五種互動式視覺化：

1. **互動式熱圖**：顯示神經訊號特徵在時間和特徵維度上的分布模式。您可以縮放、平移，並將滑鼠懸停在圖上查看精確數值。

2. **互動式時序圖**：展示前 5 個特徵維度隨時間的變化。將滑鼠懸停可查看數值，點擊圖例項目可顯示/隱藏軌跡。

3. **互動式直方圖**：顯示所有特徵值的分布情況。資料接近標準常態分布（平均值 ≈ 0，標準差 ≈ 1），表示資料可能已經過標準化處理。

4. **互動式長條圖**：比較前 10 個 trials 的平均特徵值。將滑鼠懸停可查看精確的平均值。

5. **互動式箱型圖**：顯示前 20 個特徵維度的統計分布，包括中位數、四分位數和異常值。有助於理解各個特徵的變異程度。

In [None]:
## Neural Features 離散化

## 接下來我們將對神經訊號特徵進行離散化處理，將連續數值轉換為離散的類別。

In [4]:
# 方法 1: 基於分位數的離散化（將數值分為 5 個等級）
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    # 使用 NumPy 的 quantile 進行離散化
    # 將特徵值分為 5 個等級：很低、低、中、高、很高
    n_bins = 5
    quantiles = np.linspace(0, 1, n_bins + 1)
    
    # 計算分位數
    thresholds = np.quantile(input_features.flatten(), quantiles)
    print(f"分位數閾值: {thresholds}")
    
    # 離散化：使用 digitize 函數
    discretized_features = np.digitize(input_features, thresholds[1:-1]) + 1
    # 調整邊界值
    discretized_features[discretized_features > n_bins] = n_bins
    discretized_features[discretized_features < 1] = 1
    
    print(f"\n離散化結果:")
    print(f"原始特徵形狀: {input_features.shape}")
    print(f"離散化特徵形狀: {discretized_features.shape}")
    print(f"離散化後的值範圍: {np.min(discretized_features)} - {np.max(discretized_features)}")
    print(f"各等級的分布:")
    unique, counts = np.unique(discretized_features, return_counts=True)
    for level, count in zip(unique, counts):
        percentage = count / discretized_features.size * 100
        print(f"  等級 {level}: {count} 個值 ({percentage:.2f}%)")

分位數閾值: [-2.41020155 -0.72627991 -0.48891827 -0.10279016  0.6843008  10.        ]

離散化結果:
原始特徵形狀: (321, 512)
離散化特徵形狀: (321, 512)
離散化後的值範圍: 1 - 5
各等級的分布:
  等級 1: 32871 個值 (20.00%)
  等級 2: 32794 個值 (19.95%)
  等級 3: 32844 個值 (19.98%)
  等級 4: 32972 個值 (20.06%)
  等級 5: 32871 個值 (20.00%)


In [5]:
# 方法 2: 基於標準差的離散化（Z-score 方法）
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    # 計算 Z-score
    mean_val = np.mean(input_features)
    std_val = np.std(input_features)
    z_scores = (input_features - mean_val) / std_val
    
    # 基於標準差進行離散化
    # -2σ以下：1, -1σ到-2σ：2, -1σ到1σ：3, 1σ到2σ：4, 2σ以上：5
    discretized_zscore = np.ones_like(z_scores, dtype=int)
    discretized_zscore[(z_scores >= -2) & (z_scores < -1)] = 2
    discretized_zscore[(z_scores >= -1) & (z_scores < 1)] = 3
    discretized_zscore[(z_scores >= 1) & (z_scores < 2)] = 4
    discretized_zscore[z_scores >= 2] = 5
    
    print(f"基於標準差的離散化:")
    print(f"各等級的分布:")
    unique, counts = np.unique(discretized_zscore, return_counts=True)
    for level, count in zip(unique, counts):
        percentage = count / discretized_zscore.size * 100
        if level == 1:
            label = "極低 (< -2σ)"
        elif level == 2:
            label = "低 (-2σ to -1σ)"
        elif level == 3:
            label = "正常 (-1σ to 1σ)"
        elif level == 4:
            label = "高 (1σ to 2σ)"
        else:
            label = "極高 (> 2σ)"
        print(f"  等級 {level} {label}: {count} 個值 ({percentage:.2f}%)")

基於標準差的離散化:
各等級的分布:
  等級 1 極低 (< -2σ): 12 個值 (0.01%)
  等級 2 低 (-2σ to -1σ): 11473 個值 (6.98%)
  等級 3 正常 (-1σ to 1σ): 128559 個值 (78.22%)
  等級 4 高 (1σ to 2σ): 16227 個值 (9.87%)
  等級 5 極高 (> 2σ): 8081 個值 (4.92%)


In [6]:
# 離散化結果的視覺化比較
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=("原始特徵分布", "分位數離散化", "標準差離散化", "離散化熱圖比較"),
    specs=[[{"secondary_y": False}, {"secondary_y": False}],
           [{"secondary_y": False}, {"secondary_y": False}]]
)

# 1. 原始特徵分布
fig.add_trace(
    go.Histogram(x=input_features.flatten(), nbinsx=50, name="原始分布"),
    row=1, col=1
)

# 2. 分位數離散化結果
unique_q, counts_q = np.unique(discretized_features, return_counts=True)
fig.add_trace(
    go.Bar(x=[f"等級 {i}" for i in unique_q], y=counts_q, name="分位數離散化"),
    row=1, col=2
)

# 3. 標準差離散化結果
unique_z, counts_z = np.unique(discretized_zscore, return_counts=True)
labels_z = ["極低", "低", "正常", "高", "極高"]
fig.add_trace(
    go.Bar(x=[labels_z[i-1] for i in unique_z], y=counts_z, name="標準差離散化"),
    row=2, col=1
)

# 4. 離散化熱圖（前50x50）
fig.add_trace(
    go.Heatmap(
        z=discretized_features[:50, :50],
        colorscale='RdYlBu_r',
        showscale=True,
        name="離散化熱圖"
    ),
    row=2, col=2
)

fig.update_layout(
    title="Neural Features 離散化結果比較",
    height=800,
    width=1200,
    showlegend=False
)

fig.show()

In [7]:
# 方法 3: 自定義閾值離散化（針對神經訊號特性）
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    # 基於神經訊號特性設定閾值
    # 由於數據已標準化，我們可以設定合理的閾值
    thresholds = [-1.5, -0.5, 0.5, 1.5]  # 4個閾值，產生5個等級
    
    # 進行離散化
    discretized_custom = np.digitize(input_features, thresholds) + 1
    
    # 確保值在正確範圍內
    discretized_custom = np.clip(discretized_custom, 1, 5)
    
    print(f"自定義閾值離散化:")
    print(f"使用的閾值: {thresholds}")
    print(f"各等級的分布:")
    unique, counts = np.unique(discretized_custom, return_counts=True)
    level_names = ["極低活躍", "低活躍", "正常活躍", "高活躍", "極高活躍"]
    for level, count in zip(unique, counts):
        percentage = count / discretized_custom.size * 100
        print(f"  等級 {level} ({level_names[level-1]}): {count} 個值 ({percentage:.2f}%)")

自定義閾值離散化:
使用的閾值: [-1.5, -0.5, 0.5, 1.5]
各等級的分布:
  等級 1 (極低活躍): 588 個值 (0.36%)
  等級 2 (低活躍): 64093 個值 (39.00%)
  等級 3 (正常活躍): 59701 個值 (36.33%)
  等級 4 (高活躍): 25415 個值 (15.46%)
  等級 5 (極高活躍): 14555 個值 (8.86%)


In [8]:
# 比較多個 trials 的離散化結果
def discretize_features(features, method='quantile', n_bins=5):
    """
    離散化特徵的函數
    
    參數:
    - features: 輸入特徵矩陣
    - method: 離散化方法 ('quantile', 'zscore', 'custom')
    - n_bins: 分箱數量
    """
    if method == 'quantile':
        quantiles = np.linspace(0, 1, n_bins + 1)
        thresholds = np.quantile(features.flatten(), quantiles)
        discretized = np.digitize(features, thresholds[1:-1]) + 1
        discretized = np.clip(discretized, 1, n_bins)
    
    elif method == 'zscore':
        mean_val = np.mean(features)
        std_val = np.std(features)
        z_scores = (features - mean_val) / std_val
        discretized = np.ones_like(z_scores, dtype=int)
        discretized[(z_scores >= -2) & (z_scores < -1)] = 2
        discretized[(z_scores >= -1) & (z_scores < 1)] = 3
        discretized[(z_scores >= 1) & (z_scores < 2)] = 4
        discretized[z_scores >= 2] = 5
    
    elif method == 'custom':
        thresholds = [-1.5, -0.5, 0.5, 1.5]
        discretized = np.digitize(features, thresholds) + 1
        discretized = np.clip(discretized, 1, 5)
    
    return discretized

# 比較前3個trials的離散化結果
with h5py.File(file_path, 'r') as f:
    print("比較前3個 Trials 的離散化結果:")
    print("=" * 60)
    
    for i in range(3):
        trial_key = f'trial_{i:04d}'
        if trial_key in f:
            features = f[trial_key]['input_features'][()]
            
            # 使用分位數方法離散化
            discretized = discretize_features(features, method='quantile')
            
            print(f"\nTrial {i}:")
            print(f"  原始形狀: {features.shape}")
            print(f"  離散化值範圍: {np.min(discretized)} - {np.max(discretized)}")
            
            # 計算各等級分布
            unique, counts = np.unique(discretized, return_counts=True)
            print(f"  等級分布: ", end="")
            for level, count in zip(unique, counts):
                percentage = count / discretized.size * 100
                print(f"等級{level}({percentage:.1f}%) ", end="")
            print()

比較前3個 Trials 的離散化結果:

Trial 0:
  原始形狀: (321, 512)
  離散化值範圍: 1 - 5
  等級分布: 等級1(20.0%) 等級2(20.0%) 等級3(20.0%) 等級4(20.1%) 等級5(20.0%) 

Trial 1:
  原始形狀: (481, 512)
  離散化值範圍: 1 - 5
  等級分布: 等級1(19.9%) 等級2(20.0%) 等級3(20.0%) 等級4(20.0%) 等級5(20.0%) 

Trial 2:
  原始形狀: (480, 512)
  離散化值範圍: 1 - 5
  等級分布: 等級1(20.0%) 等級2(20.0%) 等級3(20.0%) 等級4(20.0%) 等級5(20.0%) 


## 離散化總結

我們實現了三種不同的神經特徵離散化方法：

### 1. **分位數離散化 (Quantile-based)**
- 將特徵值按分位數分為 5 個等級
- 每個等級包含大約相同數量的數據點
- 適合數據分布不均勻的情況

### 2. **標準差離散化 (Z-score based)**
- 基於標準差將數據分為 5 個等級
- 能保留原始數據的統計特性
- 適合已標準化的神經訊號數據

### 3. **自定義閾值離散化 (Custom threshold)**
- 根據神經訊號特性設定特定閾值
- 可以根據領域知識調整分類邊界
- 更適合特定應用場景

離散化的優點：
- **降低雜訊**：將連續值轉為類別可以減少雜訊影響
- **簡化模型**：離散特徵可以簡化機器學習模型
- **提高解釋性**：類別標籤比連續數值更容易理解
- **處理異常值**：離散化可以減輕極端值的影響

In [10]:
# 詳細統計數值計算
import pandas as pd
from scipy import stats

def calculate_detailed_statistics(original_features, discretized_features, method_name):
    """
    計算原始特徵和離散化特徵的詳細統計數值
    """
    stats_dict = {}
    
    # 原始特徵統計
    stats_dict['原始特徵統計'] = {
        '樣本數': original_features.size,
        '平均值': np.mean(original_features),
        '中位數': np.median(original_features),
        '標準差': np.std(original_features),
        '變異數': np.var(original_features),
        '最小值': np.min(original_features),
        '最大值': np.max(original_features),
        '偏度 (Skewness)': stats.skew(original_features.flatten()),
        '峰度 (Kurtosis)': stats.kurtosis(original_features.flatten()),
        '第25百分位數': np.percentile(original_features, 25),
        '第75百分位數': np.percentile(original_features, 75),
        '四分位距 (IQR)': np.percentile(original_features, 75) - np.percentile(original_features, 25)
    }
    
    # 離散化特徵統計
    unique_levels, counts = np.unique(discretized_features, return_counts=True)
    percentages = counts / discretized_features.size * 100
    
    stats_dict['離散化特徵統計'] = {
        '等級數量': len(unique_levels),
        '最常見等級': unique_levels[np.argmax(counts)],
        '最常見等級占比': np.max(percentages),
        '最少見等級': unique_levels[np.argmin(counts)],
        '最少見等級占比': np.min(percentages),
        '熵 (Entropy)': stats.entropy(counts),
        '等級分布均勻度': 1 - (np.max(percentages) - 20) / 20  # 理想情況下每級20%
    }
    
    # 各等級詳細統計
    level_stats = {}
    for level in unique_levels:
        mask = discretized_features == level
        original_values = original_features[mask]
        level_stats[f'等級_{level}'] = {
            '數量': np.sum(mask),
            '占比': np.sum(mask) / discretized_features.size * 100,
            '對應原始值範圍': f"{np.min(original_values):.4f} ~ {np.max(original_values):.4f}",
            '對應原始值平均': np.mean(original_values),
            '對應原始值標準差': np.std(original_values)
        }
    
    stats_dict['各等級統計'] = level_stats
    
    return stats_dict

# 計算所有三種方法的統計數值
with h5py.File(file_path, 'r') as f:
    input_features = f['trial_0000']['input_features'][()]
    
    # 重新計算三種離散化結果
    # 1. 分位數方法
    quantiles = np.linspace(0, 1, 6)
    thresholds_q = np.quantile(input_features.flatten(), quantiles)
    discretized_quantile = np.digitize(input_features, thresholds_q[1:-1]) + 1
    discretized_quantile = np.clip(discretized_quantile, 1, 5)
    
    # 2. Z-score方法
    mean_val = np.mean(input_features)
    std_val = np.std(input_features)
    z_scores = (input_features - mean_val) / std_val
    discretized_zscore = np.ones_like(z_scores, dtype=int)
    discretized_zscore[(z_scores >= -2) & (z_scores < -1)] = 2
    discretized_zscore[(z_scores >= -1) & (z_scores < 1)] = 3
    discretized_zscore[(z_scores >= 1) & (z_scores < 2)] = 4
    discretized_zscore[z_scores >= 2] = 5
    
    # 3. 自定義方法
    thresholds_custom = [-1.5, -0.5, 0.5, 1.5]
    discretized_custom = np.digitize(input_features, thresholds_custom) + 1
    discretized_custom = np.clip(discretized_custom, 1, 5)
    
    # 計算統計數值
    methods = [
        (discretized_quantile, "分位數離散化"),
        (discretized_zscore, "標準差離散化"), 
        (discretized_custom, "自定義閾值離散化")
    ]
    
    all_stats = {}
    for discretized, method_name in methods:
        all_stats[method_name] = calculate_detailed_statistics(input_features, discretized, method_name)

print("=" * 80)
print("神經特徵離散化統計數值總結")
print("=" * 80)

神經特徵離散化統計數值總結


In [11]:
# 顯示詳細統計結果
for method_name, stats in all_stats.items():
    print(f"\n{'='*60}")
    print(f"【{method_name}】")
    print(f"{'='*60}")
    
    # 原始特徵統計
    print("\n📊 原始特徵統計:")
    original_stats = stats['原始特徵統計']
    print(f"  樣本數: {original_stats['樣本數']:,}")
    print(f"  平均值: {original_stats['平均值']:.6f}")
    print(f"  中位數: {original_stats['中位數']:.6f}")
    print(f"  標準差: {original_stats['標準差']:.6f}")
    print(f"  變異數: {original_stats['變異數']:.6f}")
    print(f"  範圍: {original_stats['最小值']:.4f} ~ {original_stats['最大值']:.4f}")
    print(f"  偏度: {original_stats['偏度 (Skewness)']:.6f}")
    print(f"  峰度: {original_stats['峰度 (Kurtosis)']:.6f}")
    print(f"  四分位距: {original_stats['四分位距 (IQR)']:.6f}")
    
    # 離散化特徵統計
    print("\n🔢 離散化特徵統計:")
    discrete_stats = stats['離散化特徵統計']
    print(f"  等級數量: {discrete_stats['等級數量']}")
    print(f"  最常見等級: {discrete_stats['最常見等級']} (占比: {discrete_stats['最常見等級占比']:.2f}%)")
    print(f"  最少見等級: {discrete_stats['最少見等級']} (占比: {discrete_stats['最少見等級占比']:.2f}%)")
    print(f"  熵值: {discrete_stats['熵 (Entropy)']:.6f}")
    print(f"  分布均勻度: {discrete_stats['等級分布均勻度']:.4f}")
    
    # 各等級詳細統計
    print("\n📈 各等級詳細統計:")
    level_stats = stats['各等級統計']
    for level_name, level_data in level_stats.items():
        print(f"  {level_name}:")
        print(f"    - 數量: {level_data['數量']:,} ({level_data['占比']:.2f}%)")
        print(f"    - 原始值範圍: {level_data['對應原始值範圍']}")
        print(f"    - 原始值平均: {level_data['對應原始值平均']:.6f}")
        print(f"    - 原始值標準差: {level_data['對應原始值標準差']:.6f}")
    
    print("-" * 60)


【分位數離散化】

📊 原始特徵統計:
  樣本數: 164,352
  平均值: -0.000065
  中位數: -0.330673
  標準差: 0.999275
  變異數: 0.998551
  範圍: -2.4102 ~ 10.0000
  偏度: 1.675351
  峰度: 4.402008
  四分位距: 1.134322

🔢 離散化特徵統計:
  等級數量: 5
  最常見等級: 4 (占比: 20.06%)
  最少見等級: 2 (占比: 19.95%)
  熵值: 1.609436
  分布均勻度: 0.9969

📈 各等級詳細統計:
  等級_1:
    - 數量: 32,871 (20.00%)
    - 原始值範圍: -2.4102 ~ -0.7263
    - 原始值平均: -0.962432
    - 原始值標準差: 0.192996
  等級_2:
    - 數量: 32,794 (19.95%)
    - 原始值範圍: -0.7263 ~ -0.4889
    - 原始值平均: -0.608400
    - 原始值標準差: 0.063476
  等級_3:
    - 數量: 32,844 (19.98%)
    - 原始值範圍: -0.4889 ~ -0.1029
    - 原始值平均: -0.320683
    - 原始值標準差: 0.113427
  等級_4:
    - 數量: 32,972 (20.06%)
    - 原始值範圍: -0.1028 ~ 0.6843
    - 原始值平均: 0.271518
    - 原始值標準差: 0.231148
  等級_5:
    - 數量: 32,871 (20.00%)
    - 原始值範圍: 0.6843 ~ 10.0000
    - 原始值平均: 1.617148
    - 原始值標準差: 0.893038
------------------------------------------------------------

【標準差離散化】

📊 原始特徵統計:
  樣本數: 164,352
  平均值: -0.000065
  中位數: -0.330673
  標準差: 0.999275
  變異數: 0.998551


In [12]:
# 建立統計數值比較表格
print("\n" + "="*80)
print("三種離散化方法統計數值比較表")
print("="*80)

# 建立比較DataFrame
comparison_data = []
for method_name, stats_data in all_stats.items():
    original_stats = stats_data['原始特徵統計']
    discrete_stats = stats_data['離散化特徵統計']
    
    comparison_data.append({
        '方法': method_name,
        '平均值': f"{original_stats['平均值']:.6f}",
        '標準差': f"{original_stats['標準差']:.6f}",
        '偏度': f"{original_stats['偏度 (Skewness)']:.4f}",
        '峰度': f"{original_stats['峰度 (Kurtosis)']:.4f}",
        '熵值': f"{discrete_stats['熵 (Entropy)']:.4f}",
        '分布均勻度': f"{discrete_stats['等級分布均勻度']:.4f}",
        '最常見等級占比': f"{discrete_stats['最常見等級占比']:.2f}%"
    })

# 顯示比較表格
df_comparison = pd.DataFrame(comparison_data)
print(df_comparison.to_string(index=False, justify='center'))

# 信息損失分析
from scipy.stats import entropy
print("\n" + "="*80)
print("信息損失分析")
print("="*80)

original_entropy = entropy(np.histogram(input_features.flatten(), bins=100)[0] + 1e-10)
print(f"原始特徵熵值 (100 bins): {original_entropy:.6f}")

for method_name, stats_data in all_stats.items():
    discrete_entropy = stats_data['離散化特徵統計']['熵 (Entropy)']
    information_loss = (original_entropy - discrete_entropy) / original_entropy * 100
    print(f"{method_name}: 信息損失 {information_loss:.2f}%")

# 方法推薦
print("\n" + "="*80)
print("方法推薦")
print("="*80)
print("🎯 根據統計分析結果:")
print("  1. 分位數離散化: 分布最均勻，適合需要平衡樣本的情況")
print("  2. 標準差離散化: 保留統計特性，適合已標準化的數據")
print("  3. 自定義閾值離散化: 最符合神經訊號特性，適合領域特定應用")
print("\n💡 建議:")
print("  - 若要保持數據平衡: 使用分位數離散化")
print("  - 若要保留統計意義: 使用標準差離散化")
print("  - 若有領域知識: 使用自定義閾值離散化")


三種離散化方法統計數值比較表
   方法       平均值      標準差      偏度     峰度     熵值    分布均勻度  最常見等級占比
  分位數離散化 -0.000065 0.999275 1.6754 4.4020 1.6094  0.9969  20.06%
  標準差離散化 -0.000065 0.999275 1.6754 4.4020 0.7554 -1.9111  78.22%
自定義閾值離散化 -0.000065 0.999275 1.6754 4.4020 1.2586  0.0501  39.00%

信息損失分析
原始特徵熵值 (100 bins): 3.251637
分位數離散化: 信息損失 50.50%
標準差離散化: 信息損失 76.77%
自定義閾值離散化: 信息損失 61.29%

方法推薦
🎯 根據統計分析結果:
  1. 分位數離散化: 分布最均勻，適合需要平衡樣本的情況
  2. 標準差離散化: 保留統計特性，適合已標準化的數據
  3. 自定義閾值離散化: 最符合神經訊號特性，適合領域特定應用

💡 建議:
  - 若要保持數據平衡: 使用分位數離散化
  - 若要保留統計意義: 使用標準差離散化
  - 若有領域知識: 使用自定義閾值離散化


In [13]:
# 多個 trials 的統計比較
from scipy.stats import entropy
print("\n" + "="*80)
print("多個 Trials 統計比較")
print("="*80)

def analyze_multiple_trials(file_path, num_trials=5):
    """分析多個 trials 的統計特性"""
    trial_stats = []
    
    with h5py.File(file_path, 'r') as f:
        for i in range(min(num_trials, len(f.keys()))):
            trial_key = f'trial_{i:04d}'
            if trial_key in f:
                features = f[trial_key]['input_features'][()]
                
                # 使用分位數方法離散化
                quantiles = np.linspace(0, 1, 6)
                thresholds = np.quantile(features.flatten(), quantiles)
                discretized = np.digitize(features, thresholds[1:-1]) + 1
                discretized = np.clip(discretized, 1, 5)
                
                # 計算統計數值
                trial_stats.append({
                    'Trial': f'Trial_{i}',
                    '時間步數': features.shape[0],
                    '特徵維度': features.shape[1],
                    '總數據點': features.size,
                    '原始平均值': np.mean(features),
                    '原始標準差': np.std(features),
                    '原始最小值': np.min(features),
                    '原始最大值': np.max(features),
                    '離散化熵值': entropy(np.bincount(discretized.flatten(), minlength=6)[1:])
                })
    
    return pd.DataFrame(trial_stats)

# 分析前5個trials
trials_df = analyze_multiple_trials(file_path, 5)
print("前5個 Trials 統計比較:")
print(trials_df.round(6).to_string(index=False))

# 計算 trials 間的變異性
print(f"\n📊 Trials 間變異性分析:")
print(f"時間步數變異係數: {(trials_df['時間步數'].std() / trials_df['時間步數'].mean()):.4f}")
print(f"原始平均值變異係數: {(trials_df['原始平均值'].std() / abs(trials_df['原始平均值'].mean())):.6f}")
print(f"原始標準差變異係數: {(trials_df['原始標準差'].std() / trials_df['原始標準差'].mean()):.6f}")
print(f"離散化熵值變異係數: {(trials_df['離散化熵值'].std() / trials_df['離散化熵值'].mean()):.6f}")

print(f"\n📈 結論:")
print(f"  - 各 trials 的統計特性相對穩定")
print(f"  - 時間步數有所變化（{trials_df['時間步數'].min()} ~ {trials_df['時間步數'].max()}）")
print(f"  - 神經訊號的統計分布在不同 trials 間保持一致性")


多個 Trials 統計比較
前5個 Trials 統計比較:
  Trial  時間步數  特徵維度   總數據點     原始平均值    原始標準差     原始最小值  原始最大值    離散化熵值
Trial_0   321   512 164352 -0.000065 0.999275 -2.410202   10.0 1.609436
Trial_1   481   512 246272 -0.030121 0.988911 -2.370978   10.0 1.609436
Trial_2   480   512 245760 -0.044427 0.972956 -2.261048   10.0 1.609438
Trial_3   502   512 257024 -0.035594 0.983586 -2.333907   10.0 1.609437
Trial_4   402   512 205824 -0.062248 0.967479 -2.673242   10.0 1.609434

📊 Trials 間變異性分析:
時間步數變異係數: 0.1723
原始平均值變異係數: 0.660288
原始標準差變異係數: 0.012879
離散化熵值變異係數: 0.000001

📈 結論:
  - 各 trials 的統計特性相對穩定
  - 時間步數有所變化（321 ~ 502）
  - 神經訊號的統計分布在不同 trials 間保持一致性
