In [13]:
import os
import cv2
import numpy as np
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, f1_score

def resize_with_aspect_ratio(image, target_size):
    height, width = image.shape[:2]
    target_width, target_height = target_size
    width_ratio = target_width / width
    height_ratio = target_height / height
    ratio = min(width_ratio, height_ratio)
    resized_image = cv2.resize(image, (int(width * ratio), int(height * ratio)), interpolation=cv2.INTER_LINEAR)
    return resized_image

# 提取HOG特徵的函數
def extract_hog_features(image):
    # 初始化HOG描述符
    hog = cv2.HOGDescriptor((128, 128), (64, 64), (32, 32), (64, 64), 5)
    # 計算圖像的HOG特徵
    hog_features = hog.compute(image)
    # 將特徵展平為一維數組
    hog_features = hog_features.flatten()
    return hog_features

def load_img(file_path, target_size):
    f = open(file_path)
    lines = f.readlines()
    imgs, lab = [], []
    for idx, line in enumerate(lines, start=1):
        fn, label = line.strip().split(' ')
        image = cv2.imread(fn)
        resized_image = resize_with_aspect_ratio(image, target_size)
        hog_features = extract_hog_features(resized_image)
        imgs.append(hog_features)
        lab.append(int(label))
        if idx % 1000 == 0: 
            print(f"已處理 {idx} 筆資料") 
    imgs = np.asarray(imgs, np.float32)
    lab = np.asarray(lab, np.int32)
    return imgs, lab 

dd=os.listdir('/home/blueee/DL_Homework_1/TIN')
f1 = open('train.txt', 'w')
f2 = open('test.txt', 'w')
for i in range(len(dd)):
    d2 = os.listdir ('./TIN/%s/images/'%(dd[i]))
    for j in range(len(d2)-2):
        str1='TIN/%s/images/%s'%(dd[i], d2[j])
        f1.write("%s %d\n" % (str1, i))
    str1='TIN/%s/images/%s'%(dd[i], d2[-1])
    f2.write("%s %d\n" % (str1, i))
f1.close()
f2.close()

target_size = (256, 256)
x, y = load_img('train.txt', target_size)
tx, ty = load_img('test.txt', target_size)

print("訓練數據的圖像數據形狀:", x.shape)
print("訓練數據的標籤數據形狀:", y.shape)
print("測試數據的圖像數據形狀:", tx.shape)
print("測試數據的標籤數據形狀:", ty.shape)

已處理 1000 筆資料
已處理 2000 筆資料
已處理 3000 筆資料
已處理 4000 筆資料
已處理 5000 筆資料
已處理 6000 筆資料
已處理 7000 筆資料
已處理 8000 筆資料
已處理 9000 筆資料
已處理 10000 筆資料
已處理 11000 筆資料
已處理 12000 筆資料
已處理 13000 筆資料
已處理 14000 筆資料
已處理 15000 筆資料
已處理 16000 筆資料
已處理 17000 筆資料
已處理 18000 筆資料
已處理 19000 筆資料
已處理 20000 筆資料
已處理 21000 筆資料
已處理 22000 筆資料
已處理 23000 筆資料
已處理 24000 筆資料
已處理 25000 筆資料
已處理 26000 筆資料
已處理 27000 筆資料
已處理 28000 筆資料
已處理 29000 筆資料
已處理 30000 筆資料
已處理 31000 筆資料
已處理 32000 筆資料
已處理 33000 筆資料
已處理 34000 筆資料
已處理 35000 筆資料
已處理 36000 筆資料
已處理 37000 筆資料
已處理 38000 筆資料
已處理 39000 筆資料
已處理 40000 筆資料
已處理 42000 筆資料
已處理 43000 筆資料
已處理 44000 筆資料
已處理 45000 筆資料
已處理 46000 筆資料
已處理 47000 筆資料
已處理 48000 筆資料
已處理 49000 筆資料
已處理 50000 筆資料
已處理 51000 筆資料
已處理 52000 筆資料
已處理 53000 筆資料
已處理 54000 筆資料
已處理 55000 筆資料
已處理 56000 筆資料
已處理 57000 筆資料
已處理 58000 筆資料
已處理 59000 筆資料
已處理 60000 筆資料
已處理 61000 筆資料
已處理 62000 筆資料
已處理 63000 筆資料
已處理 64000 筆資料
已處理 65000 筆資料
已處理 66000 筆資料
已處理 67000 筆資料
已處理 68000 筆資料
已處理 69000 筆資料
已處理 70000 筆資料
已處理 71000 筆資料
已處理 72000 筆資料
已處理 73000 筆資料
已

In [14]:
%%time
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

knn_classifier = KNeighborsClassifier(n_neighbors=5, algorithm='auto')
knn_classifier.fit(x, y)

y_pred = knn_classifier.predict(tx)

accuracy = accuracy_score(ty, y_pred)
f1 = f1_score(ty, y_pred, average='weighted')

print(f"HOG + KNN準確率: {accuracy:.4f}")
print(f"F1分數: {f1:.4f}")

HOG + KNN準確率: 0.0200
F1分數: 0.0083
CPU times: user 2.02 s, sys: 3.04 ms, total: 2.03 s
Wall time: 93.9 ms


In [15]:
%%time
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

rf_model = RandomForestClassifier(random_state=42, n_jobs=-1)

rf_model.fit(x, y)

y_pred = rf_model.predict(tx)

accuracy = accuracy_score(ty, y_pred)
f1 = f1_score(ty, y_pred, average='weighted')

print(f"HOG + RF准确率: {accuracy:.4f}")
print(f"F1分数: {f1:.4f}")

HOG + RF准确率: 0.0550
F1分数: 0.0337
CPU times: user 28min 52s, sys: 21.8 s, total: 29min 14s
Wall time: 42.5 s
Parser   : 155 ms


In [16]:
%%time
from sklearn.model_selection import train_test_split

svm_classifier = LinearSVC(C=0.8, dual=False, verbose=0)

svm_classifier.fit(x, y)

y_pred = svm_classifier.predict(tx)

accuracy = accuracy_score(ty, y_pred)
f1 = f1_score(ty, y_pred, average='weighted')

print(f"HOG + svm準確率: {accuracy:.4f}")
print(f"F1分數: {f1:.4f}")

HOG + svm準確率: 0.0500
F1分數: 0.0294
CPU times: user 1h 39min 19s, sys: 1min 29s, total: 1h 40min 49s
Wall time: 1h 40min 49s
