In [6]:
import os
import glob
import pandas as pd
import numpy as np
from tqdm import tqdm
from scipy.stats import zscore
import torch
import torch.nn as nn 
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from sklearn.metrics import accuracy_score, cohen_kappa_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
import seaborn as sns
import matplotlib.pyplot as plt



In [7]:
all_files = glob.glob(r"C:\\Users\\ADMIN\\Desktop\\Sleep recording\\data\\*.csv")

print(f"เจอไฟล์ทั้งหมด {len(all_files)} ไฟล์:")
for f in all_files:
    print("  →", f.split("\\")[-1])  # แสดงแค่ชื่อไฟล์

# ส่วนที่เหลือเหมือนเดิมทุกอย่าง
dfs = []
for f in all_files:
    df = pd.read_csv(f, header=None)
    df.columns = ['Time', '1', '2', '3', '4', '5', '6', '7', '8', 'Annotation']
    dfs.append(df)
data = pd.concat(dfs, ignore_index=True)
print(f"รวมข้อมูลทั้งหมด: {len(data):,} แถว จาก {len(all_files)} คืน")

เจอไฟล์ทั้งหมด 15 ไฟล์:
  → SN001.csv
  → SN002.csv
  → SN003.csv
  → SN005.csv
  → SN006.csv
  → SN007.csv
  → SN008.csv
  → SN009.csv
  → SN010.csv
  → SN011.csv
  → SN012.csv
  → SN015.csv
  → SN016.csv
  → SN017.csv
  → SN018.csv


  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)
  df = pd.read_csv(f, header=None)


รวมข้อมูลทั้งหมด: 109,145,103 แถว จาก 15 คืน


In [8]:
# ----------------------------- ตั้งค่าพารามิเตอร์ -----------------------------
OUTPUT_DIR = r"C:\\Users\\ADMIN\\Desktop\\Sleep recording\\dataeeg_custom_10s"  # ชื่อโฟลเดอร์ใหม่เพื่อไม่ทับ
SELECT_CHANNEL = '2'  # เปลี่ยนได้ เช่น '1' = EEG F4-M1, '2' = C4-M1, '6' = EOG E1-M2 ฯลฯ

SAMPLING_RATE = 256          # Hz - ข้อมูลของคุณ
EPOCH_SEC = 10               # วินาที
EPOCH_SIZE = EPOCH_SEC * SAMPLING_RATE  # = 2660 samples ต่อ epoch

# Channel map (สำหรับ reference เท่านั้น ไม่ได้ใช้ใน code แต่ดีไว้ดู)
channel_map = {
    "1": "EEG F4-M1",
    "2": "EEG C4-M1",
    "3": "EEG O2-M1",
    "4": "EEG C3-M2",
    "5": "EMG chin",
    "6": "EOG E1-M2",
    "7": "EOG E2-M2",
    "8": "ECG"
}

# Label mapping ตามที่คุณให้มา (สำคัญมาก – ต้องตรงกับตอน train)
label_map = {
    'Sleep stage N1': 0,
    'Sleep stage N2': 1,
    'Sleep stage N3': 2,
    'Sleep stage R': 3,
    'Sleep stage W': 4,
    # เพิ่มกรณีที่อาจเจอในข้อมูลจริง
    'N1': 0, 'N2': 1, 'N3': 2, 'REM': 3, 'Wake': 4,
    'W': 4, 'R': 3,
    'Sleep stage ?': -1,
    'Movement time': -1,
    '?': -1
}
os.makedirs(OUTPUT_DIR, exist_ok=True)

In [9]:
# วนลูปทีละไฟล์อีกครั้งเพื่อสร้าง .npz (จำเป็นเพราะต้องรู้ subject)
for csv_file in tqdm(all_files, desc="Creating .npz files"):
    subject_name = os.path.basename(csv_file).rsplit('.', 1)[0]
    
    # โหลดไฟล์เดิมอีกครั้ง (เพราะ data ใหญ่รวมแล้วแยก subject ไม่ได้แล้ว)
    df = pd.read_csv(csv_file, header=None)
    df.columns = ['Time', '1', '2', '3', '4', '5', '6', '7', '8', 'Annotation']
    
    signal = df[SELECT_CHANNEL].values.astype(np.float32)
    annotations = df['Annotation'].values
    
    total_samples = len(signal)
    if total_samples < EPOCH_SIZE:
        print(f"  ข้าม {subject_name}: ข้อมูลสั้นเกินไป")
        continue
    
    # ตัดให้ครบ epoch
    new_length = (total_samples // EPOCH_SIZE) * EPOCH_SIZE
    signal = signal[:new_length]
    annotations = annotations[:new_length]
    
    X = []
    y = []
    
    for i in range(len(signal) // EPOCH_SIZE):
        start = i * EPOCH_SIZE
        ann_raw = str(annotations[start]).strip()
        
        if ann_raw not in label_map:
            continue
        label = label_map[ann_raw]
        if label == -1:
            continue
        
        epoch = zscore(signal[start:start + EPOCH_SIZE])
        X.append(epoch)
        y.append(label)
    
    if len(X) == 0:
        print(f"  ข้าม {subject_name}: ไม่มี epoch ที่มี label ถูกต้อง")
        continue
    
    X = np.array(X)[:, :, np.newaxis]  # (n_epochs, 2660, 1)
    y = np.array(y)
    
    npz_path = os.path.join(OUTPUT_DIR, f"{subject_name}.npz")
    np.savez(npz_path, X=X, y=y)
    
    counts = np.unique(y, return_counts=True)
    counts_str = ", ".join([f"{int(k)}:{v}" for k, v in zip(counts[0], counts[1])])
    print(f"  ✓ {subject_name}.npz → {len(X)} epochs | Labels: {counts_str}")  

print(f"\nเสร็จสิ้น! สร้างไฟล์ .npz ทั้งหมดเรียบร้อย")
print(f"โฟลเดอร์: {OUTPUT_DIR}")
print("พร้อมนำไป train โมเดล เช่น DeepSleepNet, TinySleepNet, หรือ LSTM ของคุณเองได้เลย!")

  df = pd.read_csv(csv_file, header=None)
Creating .npz files:   7%|▋         | 1/15 [00:07<01:39,  7.10s/it]

  ✓ SN001.npz → 2562 epochs | Labels: 0:327, 1:1290, 2:69, 3:423, 4:453


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  13%|█▎        | 2/15 [00:12<01:21,  6.26s/it]

  ✓ SN002.npz → 2568 epochs | Labels: 0:201, 1:927, 2:672, 3:522, 4:246


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  20%|██        | 3/15 [00:19<01:15,  6.32s/it]

  ✓ SN003.npz → 2862 epochs | Labels: 0:243, 1:504, 2:450, 3:456, 4:1209


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  27%|██▋       | 4/15 [00:25<01:09,  6.28s/it]

  ✓ SN005.npz → 2877 epochs | Labels: 0:423, 1:1023, 2:447, 3:381, 4:603


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  33%|███▎      | 5/15 [00:30<01:00,  6.03s/it]

  ✓ SN006.npz → 2598 epochs | Labels: 0:459, 1:1050, 2:498, 3:195, 4:396


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  40%|████      | 6/15 [00:37<00:56,  6.23s/it]

  ✓ SN007.npz → 3102 epochs | Labels: 0:261, 1:1422, 2:573, 3:645, 4:201


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  47%|████▋     | 7/15 [00:43<00:48,  6.00s/it]

  ✓ SN008.npz → 2541 epochs | Labels: 0:219, 1:1338, 2:261, 3:606, 4:117


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  53%|█████▎    | 8/15 [00:49<00:42,  6.06s/it]

  ✓ SN009.npz → 2703 epochs | Labels: 0:267, 1:654, 2:1137, 3:372, 4:273


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  60%|██████    | 9/15 [00:55<00:36,  6.04s/it]

  ✓ SN010.npz → 2772 epochs | Labels: 0:363, 1:981, 2:303, 3:408, 4:717


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  67%|██████▋   | 10/15 [01:02<00:32,  6.50s/it]

  ✓ SN011.npz → 3422 epochs | Labels: 0:750, 1:1512, 2:603, 3:111, 4:446


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  73%|███████▎  | 11/15 [01:09<00:25,  6.45s/it]

  ✓ SN012.npz → 2811 epochs | Labels: 0:165, 1:840, 2:672, 3:582, 4:552


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  80%|████████  | 12/15 [01:15<00:18,  6.26s/it]

  ✓ SN015.npz → 2601 epochs | Labels: 0:381, 1:483, 2:396, 3:306, 4:1035


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  87%|████████▋ | 13/15 [01:22<00:13,  6.61s/it]

  ✓ SN016.npz → 3263 epochs | Labels: 0:57, 1:1269, 2:1026, 3:840, 4:71


  df = pd.read_csv(csv_file, header=None)
Creating .npz files:  93%|█████████▎| 14/15 [01:30<00:07,  7.04s/it]

  ✓ SN017.npz → 3342 epochs | Labels: 0:402, 1:1191, 2:852, 3:609, 4:288


  df = pd.read_csv(csv_file, header=None)
Creating .npz files: 100%|██████████| 15/15 [01:36<00:00,  6.45s/it]

  ✓ SN018.npz → 2585 epochs | Labels: 0:183, 1:1329, 2:57, 3:495, 4:521

เสร็จสิ้น! สร้างไฟล์ .npz ทั้งหมดเรียบร้อย
โฟลเดอร์: C:\\Users\\ADMIN\\Desktop\\Sleep recording\\dataeeg_custom_10s
พร้อมนำไป train โมเดล เช่น DeepSleepNet, TinySleepNet, หรือ LSTM ของคุณเองได้เลย!



