## .data 轉換成 CSV 格式的檔案

In [4]:
import pandas as pd

# 定義欄位名稱（來自官方 UCI 說明）
columns = [
    'lettr', 'x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar',
    'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx'
]

# 讀取資料（使用逗號作為分隔符）
df = pd.read_csv("dataSets/raw_data/letter-recognition.data", header=None, names=columns)

# 儲存為 CSV
df.to_csv("dataSets/raw_data/letter-recognition.csv", index=False)



print("已成功轉換為 CSV 檔案：letter-recognition.csv")


已成功轉換為 CSV 檔案：letter-recognition.csv


## split train valid 無異常值

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 讀取 training.csv
df = pd.read_csv("dataSets/raw_data/training.csv")

# 切割成 70% 訓練集和 30% 測試集
train_data, val_data = train_test_split(df, test_size=0.18, random_state=42)

# 儲存切割後的資料
train_data.to_csv("dataSets/train_data.csv", index=False)
val_data.to_csv("dataSets/raw_data/val_data_raw.csv", index=False)

# 印出資料及大小
# print("訓練資料 (train_data):")
# print(train_data.head())  # 顯示訓練資料的前幾行
print("訓練資料大小(train_data):", train_data.shape[0])  # 顯示訓練資料的大小

# print("\n測試資料 (test_data):")
# print(test_data.head())  # 顯示測試資料的前幾行
print("測試資料大小(valid_data):", val_data.shape[0])  # 顯示測試資料的大小

# 顯示每個字母 (lettr欄位) 的資料筆數
letter_counts = train_data['lettr'].value_counts()
print("\n每個字母的資料筆數(train_data):", letter_counts)

letter_counts = val_data['lettr'].value_counts()
print("\n每個字母的資料筆數:", letter_counts)


print("成功切割資料為 15% 訓練集和 85% 測試集。")


訓練資料大小(train_data): 3444
測試資料大小(valid_data): 756

每個字母的資料筆數(train_data): lettr
K    607
Z    582
N    579
E    572
X    553
B    551
Name: count, dtype: int64

每個字母的資料筆數: lettr
B    149
X    147
E    128
N    121
Z    118
K     93
Name: count, dtype: int64
成功切割資料為 15% 訓練集和 85% 測試集。


## create valid data 加入異常數值數值

In [6]:
import pandas as pd
import numpy as np
from sklearn.utils import shuffle

# 讀取無異常值資料 (valid_data)
valid_data = pd.read_csv("dataSets/raw_data/val_data_raw.csv")  # 假設已經有了 valid_data.csv 檔案

# 讀取異常值資料 (letter-recognition_no6Feature.csv)
anomaly_data = pd.read_csv("dataSets/raw_data/letter-recognition_no6Feature.csv")

# 從異常資料中隨機選取 500 筆
anomaly_sample = anomaly_data.sample(n=600, random_state=42)

letter_counts = anomaly_sample['lettr'].value_counts()
print("\n每個字母的資料筆數:", letter_counts)

# # 標註資料
# valid_data['label'] = 0  # 無異常值資料標註為 0
# anomaly_sample['label'] = 1  # 異常值資料標註為 1

# 合併無異常資料與異常資料
combined_data = pd.concat([valid_data, anomaly_sample])

# 隨機打亂資料
combined_data = shuffle(combined_data, random_state=42)

# 儲存結果
combined_data.to_csv("dataSets/valid_data.csv", index=False)

# 印出合併後的資料集大小
print(f"合併後的資料集大小: {combined_data.shape}")
print(f"合併後的資料集樣本: \n{combined_data.head()}")



每個字母的資料筆數: lettr
Q    40
Y    35
F    35
H    34
U    33
I    32
G    31
M    31
C    31
S    31
T    30
J    30
O    29
R    29
P    29
W    29
A    27
D    26
L    22
V    16
Name: count, dtype: int64
合併後的資料集大小: (1356, 17)
合併後的資料集樣本: 
      lettr  x-box  y-box  width  high  onpix  x-bar  y-bar  x2bar  y2bar  \
49        E      1      0      1     1      1      5      7      5      7   
14839     Y      2      2      3     3      1      7     10      1      6   
12821     U      3      3      4     1      1      5      8      5      6   
363       B      5      8      7     6      7      8      7      6      6   
15063     Y      7      6      6     9      4      9      6      5      5   

       xybar  x2ybr  xy2br  x-ege  xegvy  y-ege  yegvx  
49         7      6     12      0      8      6      9  
14839      7     11      9      1     11      1      8  
12821     10      9      9      3     10      2      6  
363        9      6      6      5     10      7      9  
15063      5  