In [None]:
import numpy as np
import os
from sklearn.model_selection import train_test_split
from skimage.feature import hog
from skimage.io import imread

# 检查 OpenCV 是否可用
try:
    import cv2
    use_opencv = True
    print("OpenCV 可用，使用 OpenCV 进行 HOG 特征提取")
except ImportError:
    use_opencv = False
    print("OpenCV 不可用，使用 skimage 进行 HOG 特征提取")

# 设置数据目录和输出目录
data_dir = "data"
output_dir = "src"
os.makedirs(output_dir, exist_ok=True)

# 定义 HOG 特征提取参数
if use_opencv:
    hog_descriptor = cv2.HOGDescriptor((64, 64), (16, 16), (8, 8), (8, 8), 9)

# 提取标签
def get_label_from_filename(filename):
    set_str = filename.strip("Locate{}.jpg")
    label = int(set_str.split(",")[-1]) - 1
    return label

# 初始化数据容器
img_arrs = []
labels = []

print("开始处理图片...")
for i, filename in enumerate(os.listdir(data_dir)):
    file_path = os.path.join(data_dir, filename)
    try:
        img = imread(file_path, as_gray=True)
        if use_opencv:
            img = cv2.resize(img, (64, 64))
            img_arr = hog_descriptor.compute(img).flatten()
        else:
            img_arr = hog(img, pixels_per_cell=(8, 8), cells_per_block=(2, 2), block_norm='L2-Hys')
        label = get_label_from_filename(filename)
        img_arrs.append(img_arr)
        labels.append(label)
        
        # 打印进度
        if (i + 1) % 1000 == 0:
            print(f"已处理 {i + 1} 张图片")

    except Exception as e:
        print(f"处理 {filename} 时出错: {e}")

print("图片处理完成")

OpenCV 可用，使用 OpenCV 进行 HOG 特征提取
开始处理图片...
已处理 1000 张图片
已处理 2000 张图片
已处理 3000 张图片
已处理 4000 张图片
已处理 5000 张图片
已处理 6000 张图片
已处理 7000 张图片
已处理 8000 张图片
已处理 9000 张图片
已处理 10000 张图片
已处理 11000 张图片
已处理 12000 张图片
已处理 13000 张图片
已处理 14000 张图片
已处理 15000 张图片
图片处理完成


注意上面这部分代码，我使用条件语句来动态调整 `HOG` 特征提取的方法：

1. 如果 `OpenCV` 可用，则优先用其处理数据。
2. 如果不可用，则使用 `skimage` 来处理数据。

当然，如果你按照[实验三环境搭建指南](https://github.com/CQULeaf/Big-Data_Course_Resources/blob/main/Lab/Lab3_CHN/%E5%AE%9E%E9%AA%8C%E4%B8%89%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA%E6%8C%87%E5%8D%97.md)进行 `OpenCV` 的下载安装，是一定能像我这样使用 `OpenCV` 处理图片成功的。

In [3]:
# 转换为数组并分割数据集
x = np.array(img_arrs)
y = np.array(labels)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# 生成 CSV 数据
train_data = np.hstack((x_train, y_train.reshape(-1, 1)))
test_data = np.hstack((x_test, y_test.reshape(-1, 1)))

# 保存数据到 CSV 文件
np.savetxt(os.path.join(output_dir, "train.csv"), train_data, delimiter=",", fmt="%.4f")
np.savetxt(os.path.join(output_dir, "test.csv"), test_data, delimiter=",", fmt="%.4f")

print("数据保存成功，文件已生成在 src 目录中")

数据保存成功，文件已生成在 src 目录中
