In [1]:
!pip install shap
!pip install pandas
!pip install -U scikit-learn

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting shap
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/9e/3f/247e0017d52eeef37c170d71357eb3a12a2c06718d2e184c9929b6f3d9ed/shap-0.43.0-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl (532 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m532.9/532.9 kB[0m [31m71.5 MB/s[0m eta [36m0:00:00[0m
Collecting slicer==0.0.7 (from shap)
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/78/c2/b3f55dfdb8af9812fdb9baf70cacf3b9e82e505b2bd4324d588888b81202/slicer-0.0.7-py3-none-any.whl (14 kB)
Collecting numba (from shap)
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/ed/13/b66627125b35f2987bd9872cf028b5e1e1ffcbc8d1e182ac4e84eed3998f/numba-0.58.1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m168.9 MB/s[0m eta [36m0:00:00[0m
[

In [5]:
!featurize dataset download 0b3523e6-71ba-4e66-9fab-fa73ecc0f58c

100%|████████████████████████████████████████| 202M/202M [00:01<00:00, 185MiB/s]
🍬  下载完成，正在解压...
🏁  数据集已经成功添加


In [8]:
import os
import numpy as np

# 假设的根目录
root_directory = "data/datall"

# 需要保留的列
columns_to_keep = [15, 17, 18, 21, 23, 24, 39, 40, 41, 42, 43, 44, 45, 47, 49, 50, 51, 52]

# 用于处理单个文件的函数
def process_file(file_path):
    try:
        # 加载矩阵数据
        matrix = np.loadtxt(file_path)

        # 检查矩阵尺寸
        if matrix.shape != (32, 512):
            print(f"文件 {file_path} 的矩阵尺寸不正确。")
            return False

        # 将不需要的列置为0
        all_columns = set(range(512))
        columns_to_zero = all_columns - set(columns_to_keep)
        matrix[:, list(columns_to_zero)] = 0

        # 保存处理后的矩阵
        np.savetxt(file_path, matrix)
        return True
    except Exception as e:
        print(f"处理文件 {file_path} 时出错: {e}")
        return False

# 遍历所有子文件夹和文件
for folder in os.listdir(root_directory):
    folder_path = os.path.join(root_directory, folder)
    if os.path.isdir(folder_path):
        for file in os.listdir(folder_path):
            file_path = os.path.join(folder_path, file)
            if os.path.isfile(file_path) and file_path.endswith(".txt"):
                # 处理每个文件
                process_file(file_path)

# 代码运行完成
print("数据预处理完成。")


数据预处理完成。


In [9]:
import torch
from torchvision import datasets, transforms
from torch import optim
from torch.nn import functional as F
from torch.utils.data import DataLoader, Dataset
import torch.nn as nn

from resnet import resnet50 as self_resnet50

import os
import numpy as np
from sklearn.model_selection import train_test_split
from tqdm import tqdm


# //////////////////////////////////////////////////////
# 自定义数据集类
class MyDataset(Dataset):
    def __init__(self, root_dir):
        self.root_dir = root_dir
        self.classes = os.listdir(root_dir)
        self.file_paths = []
        self.labels = []
        for i, class_name in enumerate(self.classes):
            class_path = os.path.join(root_dir, class_name)
            files = os.listdir(class_path)
            self.file_paths.extend([os.path.join(class_path, file) for file in files])
            self.labels.extend([i] * len(files))

    def __len__(self):
        return len(self.file_paths)

    def __getitem__(self, idx):
        file_path = self.file_paths[idx]
        label = self.labels[idx]
        data = np.loadtxt(file_path).reshape(32, 512)
        data = torch.from_numpy(data).float()
        return data, label
    
    def get_info(self, idx):
        """ 返回文件路径和标签 """
        return self.file_paths[idx], self.labels[idx]


if __name__ == "__main__":
    # 设置随机种子
    torch.manual_seed(42)

    # 数据集目录和文件路径
    #'D:\PychramProject\transzero'
    # data_dir = 'data/'
    # C:\Users\ZHY\Desktop\data_txt
    # data_dir = 'D:/PychramProject/transzero/data55-512/'
    data_dir = 'data/datall/'
    class_names = os.listdir(data_dir)

    # 构建数据集
    dataset = MyDataset(data_dir)

    # 划分训练集和测试集
    train_indices, test_indices = train_test_split(range(len(dataset)), test_size=0.2, random_state=42)
    train_dataset = torch.utils.data.Subset(dataset, train_indices)
    test_dataset = torch.utils.data.Subset(dataset, test_indices)
    # 创建数据加载器
    batch_size = 256
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=4)
    test_dataloader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=4)
    # //////////////////////////////////////////////////////

    resnet50 = self_resnet50(num_classes=9)

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # 网络模型cuda
    resnet50 = resnet50.cuda()

    # loss
    loss_fn = nn.CrossEntropyLoss()
    if torch.cuda.is_available():
        loss_fn = loss_fn.cuda()


    # optimizer
    learning_rate = 0.01
    optimizer = torch.optim.SGD(resnet50.parameters(), lr=learning_rate, momentum=0.9, nesterov=True, )


    # 设置网络训练的一些参数
    # 记录训练的次数
    total_train_step = 0
    # 记录测试的次数
    total_test_step = 0
    # 训练的轮数
    epoch = 50

    best_acc = 0
    predictions = []
    targets = []
    probabilities = []
    acc = 0

    for i in range(epoch):
        print("-------第{}轮训练开始-------".format(i + 1))
        resnet50.train()
        # 训练步骤开始
        for data in tqdm(train_dataloader, ncols=100, desc='Train'):
            imgs, targets = data
            if torch.cuda.is_available():
                # 图像cuda；标签cuda
                # 训练集和测试集都要有
                imgs = imgs.cuda()
                targets = targets.cuda()
            imgs = imgs.reshape(-1, 1, 32, 512)
            # imgs1 = torch.cat((imgs, imgs), 1)
            # imgs2 = torch.cat((imgs, imgs1), 1)
            outputs = resnet50(imgs)
            loss = loss_fn(outputs, targets)

            # 优化器优化模型
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

            total_train_step = total_train_step + 1
            # if total_train_step % 100 == 0:
        print("训练次数：{}, Loss: {:.4f}".format(total_train_step, loss.item()))
                # writer.add_scalar("train_loss", loss.item(), total_train_step)

        # 测试集
        # predictions = []
        # targets = []
        # probabilities = []
        #
        resnet50.eval()
        total_test_loss = 0
        with torch.no_grad():
            # test
            total_correct = 0
            total_num = 0

            for data in test_dataloader:
                imgs, targets = data
                if torch.cuda.is_available():
                    # 图像cuda；标签cuda
                    # 训练集和测试集都要有
                    imgs = imgs.cuda()
                    targets = targets.cuda()
                imgs = imgs.reshape(-1, 1, 32, 512)
                # imgs1 = torch.cat((imgs, imgs), 1)
                # imgs2 = torch.cat((imgs, imgs1), 1)
                outputs = resnet50(imgs)
                #
                # intermediate_layer = resnet50.layer4[-1].conv3  # Modify this line to select the desired intermediate layer
                # visualize_features(outputs)
                #
                _, predicted = torch.max(outputs, 1)
                predictions.extend(predicted.tolist())
                #
                loss = loss_fn(outputs, targets)
                total_test_loss += loss.item()
                total_test_step += 1

                # logits = resnet50(imgs)
                logits = outputs
                pred = logits.argmax(dim=1)
                correct = torch.eq(pred, targets).float().sum().item()
                total_correct += correct
                total_num += imgs.size(0)
                #
                softmax = nn.Softmax(dim=1)
                probs = softmax(outputs)
                probabilities.extend(probs.tolist())


                # if total_test_step % 100 == 0:
            print("测试次数：{}，Loss：{:.4f}".format(total_test_step, total_test_loss))
            acc = total_correct / total_num
            print(epoch, 'test acc:', acc)
            #
            # print("定性预测结果：", predictions)
            # print("定量预测结果：", probabilities)
            # 保存最优模型
            if acc > best_acc:
                best_acc = acc
                torch.save(resnet50.state_dict(), 'best_model.pt')

    # 将结果写入文件
    result_file = 'result.txt'
    with open(result_file, 'w') as f:
        f.write(f"Accuracy: {acc:.4f}\n")
        f.write("定性预测结果：\n")
        for pred in predictions:
            f.write(f"{pred}+','")
        f.write("定量预测结果：\n")
        for prob in probabilities:
            f.write(f"{prob}+','")

-------第1轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.32it/s]

训练次数：272, Loss: 0.6462





测试次数：68，Loss：43.1034
50 test acc: 0.7876258992805756
-------第2轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：544, Loss: 0.4827





测试次数：136，Loss：38.6722
50 test acc: 0.8163453237410072
-------第3轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：816, Loss: 0.4309





测试次数：204，Loss：36.9394
50 test acc: 0.824978417266187
-------第4轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：1088, Loss: 0.4802





测试次数：272，Loss：34.5446
50 test acc: 0.8386762589928057
-------第5轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：1360, Loss: 0.4777





测试次数：340，Loss：33.4663
50 test acc: 0.8426474820143884
-------第6轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：1632, Loss: 0.4888





测试次数：408，Loss：31.4208
50 test acc: 0.8528345323741007
-------第7轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：1904, Loss: 0.3454





测试次数：476，Loss：30.6981
50 test acc: 0.8550215827338129
-------第8轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：2176, Loss: 0.2673





测试次数：544，Loss：32.2054
50 test acc: 0.8519136690647482
-------第9轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：2448, Loss: 0.4763





测试次数：612，Loss：31.1966
50 test acc: 0.8546762589928057
-------第10轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：2720, Loss: 0.2720





测试次数：680，Loss：29.8582
50 test acc: 0.8616978417266187
-------第11轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：2992, Loss: 0.4079





测试次数：748，Loss：31.4202
50 test acc: 0.8573812949640288
-------第12轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：3264, Loss: 0.4132





测试次数：816，Loss：30.4337
50 test acc: 0.8589352517985611
-------第13轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：3536, Loss: 0.3716





测试次数：884，Loss：29.4323
50 test acc: 0.867453237410072
-------第14轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：3808, Loss: 0.2606





测试次数：952，Loss：29.3930
50 test acc: 0.8650935251798562
-------第15轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：4080, Loss: 0.3850





测试次数：1020，Loss：31.9347
50 test acc: 0.8623884892086331
-------第16轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：4352, Loss: 0.2774





测试次数：1088，Loss：29.8531
50 test acc: 0.8679136690647482
-------第17轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:58<00:00,  2.30it/s]

训练次数：4624, Loss: 0.4303





测试次数：1156，Loss：29.7298
50 test acc: 0.8689496402877698
-------第18轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：4896, Loss: 0.3127





测试次数：1224，Loss：30.2203
50 test acc: 0.8640575539568345
-------第19轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：5168, Loss: 0.2432





测试次数：1292，Loss：30.4325
50 test acc: 0.8679712230215827
-------第20轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：5440, Loss: 0.2546





测试次数：1360，Loss：32.5138
50 test acc: 0.8634244604316547
-------第21轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：5712, Loss: 0.3115





测试次数：1428，Loss：31.1256
50 test acc: 0.870043165467626
-------第22轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：5984, Loss: 0.2916





测试次数：1496，Loss：33.2856
50 test acc: 0.8630215827338129
-------第23轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：6256, Loss: 0.3364





测试次数：1564，Loss：31.4431
50 test acc: 0.8688345323741007
-------第24轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：6528, Loss: 0.2418





测试次数：1632，Loss：31.1263
50 test acc: 0.8714244604316547
-------第25轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：6800, Loss: 0.3343





测试次数：1700，Loss：31.1545
50 test acc: 0.8679712230215827
-------第26轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：7072, Loss: 0.3960





测试次数：1768，Loss：30.4000
50 test acc: 0.8722302158273382
-------第27轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：7344, Loss: 0.2900





测试次数：1836，Loss：31.7396
50 test acc: 0.8730935251798562
-------第28轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：7616, Loss: 0.3193





测试次数：1904，Loss：33.1132
50 test acc: 0.8718848920863309
-------第29轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：7888, Loss: 0.2803





测试次数：1972，Loss：31.6356
50 test acc: 0.8729784172661871
-------第30轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：8160, Loss: 0.1764





测试次数：2040，Loss：31.5170
50 test acc: 0.8715395683453238
-------第31轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：8432, Loss: 0.1837





测试次数：2108，Loss：35.2097
50 test acc: 0.8703309352517986
-------第32轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：8704, Loss: 0.2340





测试次数：2176，Loss：36.1050
50 test acc: 0.8131798561151079
-------第33轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：8976, Loss: 0.2038





测试次数：2244，Loss：31.4542
50 test acc: 0.8711942446043165
-------第34轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：9248, Loss: 0.1924





测试次数：2312，Loss：32.9314
50 test acc: 0.8714244604316547
-------第35轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：9520, Loss: 0.1656





测试次数：2380，Loss：33.3485
50 test acc: 0.8695827338129496
-------第36轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：9792, Loss: 0.2051





测试次数：2448，Loss：35.4950
50 test acc: 0.8701582733812949
-------第37轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：10064, Loss: 0.2214





测试次数：2516，Loss：35.7428
50 test acc: 0.8686043165467626
-------第38轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：10336, Loss: 0.2238





测试次数：2584，Loss：34.0300
50 test acc: 0.8738417266187051
-------第39轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：10608, Loss: 0.2137





测试次数：2652，Loss：35.6851
50 test acc: 0.8717122302158273
-------第40轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：10880, Loss: 0.2004





测试次数：2720，Loss：38.6530
50 test acc: 0.868546762589928
-------第41轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：11152, Loss: 0.1915





测试次数：2788，Loss：36.3584
50 test acc: 0.8687194244604316
-------第42轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：11424, Loss: 0.2396





测试次数：2856，Loss：38.0470
50 test acc: 0.8722302158273382
-------第43轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：11696, Loss: 0.2347





测试次数：2924，Loss：38.2575
50 test acc: 0.8721151079136691
-------第44轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：11968, Loss: 0.2641





测试次数：2992，Loss：38.7819
50 test acc: 0.8726906474820144
-------第45轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：12240, Loss: 0.2019





测试次数：3060，Loss：37.4509
50 test acc: 0.8696978417266187
-------第46轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：12512, Loss: 0.3286





测试次数：3128，Loss：37.7145
50 test acc: 0.865726618705036
-------第47轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：12784, Loss: 0.2585





测试次数：3196，Loss：36.1893
50 test acc: 0.8665323741007194
-------第48轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：13056, Loss: 0.2215





测试次数：3264，Loss：40.3181
50 test acc: 0.86831654676259
-------第49轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：13328, Loss: 0.3322





测试次数：3332，Loss：36.9908
50 test acc: 0.8722302158273382
-------第50轮训练开始-------


Train: 100%|██████████████████████████████████████████████████████| 272/272 [01:57<00:00,  2.31it/s]

训练次数：13600, Loss: 0.1458





测试次数：3400，Loss：38.5689
50 test acc: 0.8714820143884892
