## TextCNN

TextCNN（Text Convolutional Neural Network）是一种用于文本分类的卷积神经网络模型。它利用卷积神经网络的思想，将卷积操作应用于文本数据，从而有效地提取文本中的特征并实现分类。

这里是TextCNN的主要结构和步骤：

1. **嵌入层（Embedding Layer）**：
   - 首先，将文本中的词语转换为词向量（例如Word2Vec或GloVe）。
   - 这些词向量作为输入，形成一个二维矩阵，其中每一行对应一个词的向量表示。

2. **卷积层（Convolutional Layer）**：
   - 使用一维卷积核（kernel）来对词向量进行卷积操作。
   - 卷积核的宽度与词向量的维度相同，高度可以根据任务设置。
   - 多个不同大小的卷积核用于提取不同尺度的特征。

3. **池化层（Pooling Layer）**：
   - 通过最大池化（Max-Pooling）或平均池化（Average-Pooling）来降低维度。
   - 池化操作提取每个特征向量的最重要信息。

4. **全连接层（Fully Connected Layer）**：
   - 将池化后的特征向量连接成一个长向量。
   - 通过全连接层进行分类，最终输出预测结果。

TextCNN的优点在于它能够捕捉不同尺度的局部相关性，有效地提取文本中的关键特征。它在文本分类、情感分析等NLP任务中表现良好。
![ffb26ec91c60479d9f10adf84a4cf135-2.png](attachment:ffb26ec91c60479d9f10adf84a4cf135-2.png)

In [2]:
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.utils.data as Data
import torchvision
import numpy as np
from gensim.models import KeyedVectors
from sklearn.model_selection import train_test_split
import pandas as pd
from collections import Counter
from sklearn.metrics import classification_report
import torch.nn.functional as F
import math

In [None]:
#cuda安装教程https://blog.csdn.net/qq_46390120/article/details/123582479
#https://blog.csdn.net/2302_76726543/article/details/134722054

In [3]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')   # 设备
print(device)

cuda


In [4]:
#读取数据
df = pd.read_csv('分词后data.csv')
df = df.dropna()
print(df.head())

                                                  文本  标签
0                       商业秘密 秘密性 维系 商业价值 垄断 地位 前提条件    0
1  南口 阿玛施 新春 第一批 限量 春装 店 春暖花开 淑女 裙冰 蓝色 公主 衫 气质 粉小...   1
2                                 带给 常州 一场 壮观 视觉 盛宴    0
3                                     原因 不明 泌尿系统 结石    0
4                                    年 盐城 拉回来 麻麻 嫁妆    0


In [5]:
data = df['文本'].tolist()
label = df['标签'].tolist()
print(len(data), len(label)) #查看语料信息
print(Counter(label)) #查看不同标签文本数量

1241 1241
Counter({0: 1119, 1: 122})


In [6]:
texts = [each.split() for each in data]
print(data[0:5])

['商业秘密 秘密性 维系 商业价值 垄断 地位 前提条件 ', '南口 阿玛施 新春 第一批 限量 春装 店 春暖花开 淑女 裙冰 蓝色 公主 衫 气质 粉小 西装 冰丝 女王 长半裙 皇 ', '带给 常州 一场 壮观 视觉 盛宴 ', '原因 不明 泌尿系统 结石 ', '年 盐城 拉回来 麻麻 嫁妆 ']


In [7]:
#构建词表，将文本中的字符单词替换为数字索引
word_vocb=[]
word_vocb.append('')
for text in texts:
    for word in text:
        word_vocb.append(word)
word_vocb=set(word_vocb)
vocb_size=len(word_vocb)

In [8]:
print(vocb_size)

5919


In [9]:
#词表与索引的映射
word_to_idx={word:i for i,word in enumerate(word_vocb)}
idx_to_word={word_to_idx[word]:word for word in word_to_idx}

In [10]:
import pickle

In [9]:
#保存词表与索引，每次生成不同，为读取以保存CNN模型使用
with open('word_to_idx.pkl',mode='wb') as f3:
    pickle.dump(word_to_idx,f3)
    pickle.dump(idx_to_word,f3)

In [10]:
#读取词表与索引
with open('word_to_idx.pkl',mode='rb') as f4:
    word_to_idx=pickle.load(f4)
    idx_to_word=pickle.load(f4)

In [11]:
print(word_to_idx['商业价值'])
print(idx_to_word[101])

4560
试


In [12]:
#演示文本最大长度设置为30
max_len = 30
#生成训练数据，删除超过max_len的部分，不够的补0
texts_with_id=np.zeros([len(texts),max_len])
for i in range(0,len(texts)):
    if len(texts[i])<max_len:
        for j in range(0,len(texts[i])):
            texts_with_id[i][j]=word_to_idx[texts[i][j]]
        for j in range(len(texts[i]),max_len):
            texts_with_id[i][j] = word_to_idx['']
    else:
        for j in range(0,max_len):
            texts_with_id[i][j]=word_to_idx[texts[i][j]]

In [13]:
print(texts_with_id.shape)
print(texts_with_id[0])

(1241, 30)
[3434. 4844. 4571. 4560. 1271.  665. 2444.    0.    0.    0.    0.    0.
    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.    0.
    0.    0.    0.    0.    0.    0.]


In [14]:
#word2vec词向量
cn_model = KeyedVectors.load_word2vec_format('F:/sgns.weibo.word.bz2', binary=False)

In [15]:
#embedding层的参数大小为vocb_size*dim，即词汇表大小乘词向量的维度 又称为lookup表
embedding_dim = 300

embedding_matrix = np.zeros((vocb_size, embedding_dim))

for word, i in word_to_idx.items():
    if word in cn_model:
        embedding_vector = cn_model[word]
        if embedding_vector is not None:
            # words not found in embedding index will be all-zeros.
            embedding_matrix[i] = embedding_vector
embedding_matrix=torch.Tensor(embedding_matrix)

## ChatGPT 生成的代码解释：

以下代码定义了一个TextCNN模型，用于文本分类任务。下面是对代码中各部分的解释：

1. `__init__`方法：模型的初始化方法，定义了模型的结构和参数。参数包括词汇表大小（`vocab_size`）、词嵌入维度（`embedding_dim`）、类别数量（`num_classes`）、卷积核大小列表（`kernel_sizes`）和卷积核数量（`num_filters`）。在初始化方法中，首先调用了父类`nn.Module`的初始化方法`super(TextCNN, self).__init__()`，然后定义了模型的各个组件。

2. `self.embedding`：词嵌入层，使用`nn.Embedding`创建，将词汇表中的词映射为指定维度的词向量。其中`_weight=embedding_matrix`是一个可选参数，用于传入预训练的词向量矩阵，如果不需要预训练词向量，则可以不传入这个参数。

3. `self.convs`：卷积层列表，使用`nn.ModuleList`创建，包含多个不同尺寸的卷积核。每个卷积核的输入通道数为词嵌入维度，输出通道数为`num_filters`，卷积核大小由`kernel_sizes`指定。

4. `self.fc`：全连接层，将卷积层的输出连接起来并映射到类别数量的输出。输入大小为所有卷积核输出的总维度（`len(kernel_sizes) * num_filters`），输出大小为`num_classes`。

5. `forward`方法：模型的前向传播方法，接收输入`x`，进行词嵌入、卷积、激活、池化和全连接操作，最终输出类别预测结果。其中，首先通过词嵌入层将输入序列`x`映射为词向量表示，然后调整维度使得词向量的维度在最后一维，接着对每个卷积核进行卷积操作并通过ReLU激活函数，然后对每个卷积核的输出进行最大池化操作，将每个卷积核的最大值提取出来，最后将所有卷积核的最大值拼接在一起作为文本的表示，通过全连接层进行分类预测。

这样，TextCNN模型通过卷积和池化操作能够捕获句子中的局部特征，从而实现对文本的分类。

In [16]:
class TextCNN(nn.Module):
    def __init__(self, vocab_size, embedding_dim, num_classes, kernel_sizes, num_filters):
        super(TextCNN, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, _weight=embedding_matrix)
        self.convs = nn.ModuleList([
            nn.Conv1d(in_channels=embedding_dim, out_channels=num_filters, kernel_size=kernel_size)
            for kernel_size in kernel_sizes
        ])
        self.fc = nn.Linear(len(kernel_sizes) * num_filters, num_classes)
        
    def forward(self, x):
        x = self.embedding(x)  # (batch_size, max_seq_len, embedding_dim)
        x = x.permute(0, 2, 1)  # (batch_size, embedding_dim, max_seq_len)
        x = [F.relu(conv(x)) for conv in self.convs]  # [(batch_size, num_filters, max_seq_len - kernel_size + 1), ...]
        x = [F.max_pool1d(conv_out, conv_out.size(2)).squeeze(2) for conv_out in x]  # [(batch_size, num_filters), ...]
        x = torch.cat(x, dim=1)  # (batch_size, len(kernel_sizes) * num_filters)
        x = self.fc(x)  # (batch_size, num_classes)
        return x

# 示例参数
embedding_dim = 300
num_classes = 2
kernel_sizes = [3, 4, 5]
num_filters = 100
# 创建TextCNN模型
model = TextCNN(vocb_size, embedding_dim, num_classes, kernel_sizes, num_filters).to(device)
print(model) #输出模型结构

TextCNN(
  (embedding): Embedding(5919, 300)
  (convs): ModuleList(
    (0): Conv1d(300, 100, kernel_size=(3,), stride=(1,))
    (1): Conv1d(300, 100, kernel_size=(4,), stride=(1,))
    (2): Conv1d(300, 100, kernel_size=(5,), stride=(1,))
  )
  (fc): Linear(in_features=300, out_features=2, bias=True)
)


In [17]:
total_params = 0
for name, parameters in model.named_parameters():
    if not parameters.requires_grad: continue
    print(name, ':', parameters.size())
    total_params += parameters.numel()
print("模型需要训练参数为：", total_params)

embedding.weight : torch.Size([5919, 300])
convs.0.weight : torch.Size([100, 300, 3])
convs.0.bias : torch.Size([100])
convs.1.weight : torch.Size([100, 300, 4])
convs.1.bias : torch.Size([100])
convs.2.weight : torch.Size([100, 300, 5])
convs.2.bias : torch.Size([100])
fc.weight : torch.Size([2, 300])
fc.bias : torch.Size([2])
模型需要训练参数为： 2136602


In [18]:
#参数设置
EPOCH = 3; #轮次，根据训练情况设置
LR = 0.001 #学习率，根据训练情况设置
optimizer = torch.optim.Adam(model.parameters(), lr=LR) #优化器
#损失函数
loss_function = nn.CrossEntropyLoss()
#训练批次大小，和内存显存相关
epoch_size=100;
texts_len=len(texts_with_id)
print(texts_len)
#划分训练数据和测试数据
x_train, x_test, y_train, y_test = train_test_split(texts_with_id, label, test_size=0.2, random_state=42)
 
test_x=torch.LongTensor(x_test)
test_y=torch.LongTensor(y_test)
train_x=x_train
train_y=y_train
 
test_epoch_size=200;

1241


In [19]:
print(x_train.shape)
print(label[0:10])
print(y_train[0:10])

(992, 30)
[0, 1, 0, 0, 0, 0, 1, 0, 1, 0]
[0, 0, 1, 0, 0, 0, 0, 0, 0, 0]


In [20]:
for epoch in range(EPOCH):
    train_acc_all = 0
    for i in range(0, math.ceil(len(train_x)/epoch_size)):
 
        b_x = Variable(torch.LongTensor(train_x[i*epoch_size:i*epoch_size+epoch_size]).to(device))
        b_y = Variable(torch.LongTensor((train_y[i*epoch_size:i*epoch_size+epoch_size])).to(device))
        output = model(b_x)
        loss = loss_function(output, b_y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        print('batch: ' + str(i) + " 损失:" + str(loss.data))
        pred_y = torch.max(output, 1)[1].data.squeeze()
        acc = (b_y == pred_y).cpu()
        acc = acc.numpy().sum()
        train_acc_all = train_acc_all + acc
 
    acc_all = 0;
    for j in range(0, math.ceil(len(test_x) / test_epoch_size)):
        b_x = Variable(test_x[j * test_epoch_size:j * test_epoch_size + test_epoch_size]).to(device)
        b_y = Variable(test_y[j * test_epoch_size:j * test_epoch_size + test_epoch_size]).to(device)
        test_output = model(b_x)
        pred_y = torch.max(test_output, 1)[1].data.squeeze()
        # print(pred_y)
        # print(test_y)
        acc = (pred_y == b_y).cpu()
        acc = acc.numpy().sum()
        #print("准确率 " + str(acc / b_y.size(0)))
        acc_all = acc_all + acc
 
    train_accuracy = train_acc_all / len(train_y)
    test_accuracy = acc_all / (test_y.size(0))
    print("epoch " + str(epoch) + "训练集准确率：" + str(train_accuracy) + " 测试集准确率：" + str(test_accuracy))

batch: 0 损失:tensor(0.6072, device='cuda:0')
batch: 1 损失:tensor(0.5388, device='cuda:0')
batch: 2 损失:tensor(0.4039, device='cuda:0')
batch: 3 损失:tensor(0.2826, device='cuda:0')
batch: 4 损失:tensor(0.3114, device='cuda:0')
batch: 5 损失:tensor(0.3480, device='cuda:0')
batch: 6 损失:tensor(0.3083, device='cuda:0')
batch: 7 损失:tensor(0.3174, device='cuda:0')
batch: 8 损失:tensor(0.3480, device='cuda:0')
batch: 9 损失:tensor(0.2433, device='cuda:0')
epoch 0训练集准确率：0.9042338709677419 测试集准确率：0.891566265060241
batch: 0 损失:tensor(0.1893, device='cuda:0')
batch: 1 损失:tensor(0.3605, device='cuda:0')
batch: 2 损失:tensor(0.2329, device='cuda:0')
batch: 3 损失:tensor(0.1392, device='cuda:0')
batch: 4 损失:tensor(0.1667, device='cuda:0')
batch: 5 损失:tensor(0.2158, device='cuda:0')
batch: 6 损失:tensor(0.1716, device='cuda:0')
batch: 7 损失:tensor(0.1606, device='cuda:0')
batch: 8 损失:tensor(0.1533, device='cuda:0')
batch: 9 损失:tensor(0.1368, device='cuda:0')
epoch 1训练集准确率：0.9405241935483871 测试集准确率：0.9317269076305221
bat

In [23]:
test_output = model(test_x.to(device))
pred_y = torch.max(test_output, 1)[1].data.squeeze()
#输出结果报告
print(classification_report(test_y, pred_y.cpu(), digits=4, target_names = ['正常短信', '垃圾短信']))

              precision    recall  f1-score   support

        正常短信     0.9328    1.0000    0.9652       222
        垃圾短信     1.0000    0.4074    0.5789        27

    accuracy                         0.9357       249
   macro avg     0.9664    0.7037    0.7721       249
weighted avg     0.9401    0.9357    0.9233       249

