# 文本分类实例

## 1. 导入相关包

In [37]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

## 2. 加载数据

In [38]:
import pandas as pd

In [39]:
data = pd.read_csv("./dataset/online_shopping_10_cats.csv")
data.head()

Unnamed: 0,cat,label,review
0,书籍,1,﻿做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持...
1,书籍,1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2,书籍,1,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3,书籍,1,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4,书籍,1,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...


In [40]:
data

Unnamed: 0,cat,label,review
0,书籍,1,﻿做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持...
1,书籍,1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2,书籍,1,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3,书籍,1,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4,书籍,1,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...
...,...,...,...
62769,酒店,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...
62770,酒店,0,房间很小，整体设施老化，和四星的差距很大。毛巾太破旧了。早餐很简陋。房间隔音很差，隔两间房间...
62771,酒店,0,我感觉不行。。。性价比很差。不知道是银川都这样还是怎么的！
62772,酒店,0,房间时间长，进去有点异味！服务员是不是不够用啊！我在一楼找了半个小时以上才找到自己房间，想找...


In [41]:
# 清理null数据
data = data.dropna()
data

Unnamed: 0,cat,label,review
0,书籍,1,﻿做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持...
1,书籍,1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2,书籍,1,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3,书籍,1,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4,书籍,1,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...
...,...,...,...
62769,酒店,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...
62770,酒店,0,房间很小，整体设施老化，和四星的差距很大。毛巾太破旧了。早餐很简陋。房间隔音很差，隔两间房间...
62771,酒店,0,我感觉不行。。。性价比很差。不知道是银川都这样还是怎么的！
62772,酒店,0,房间时间长，进去有点异味！服务员是不是不够用啊！我在一楼找了半个小时以上才找到自己房间，想找...


## 3. 创建Dataset

In [43]:
from torch.utils.data import Dataset

class MyDataset(Dataset):
    def __init__(self) -> None:
        super().__init__()
        self.data = pd.read_csv("./dataset/online_shopping_10_cats.csv")
        self.data = self.data.dropna()
    
    def __getitem__(self, index):
        """
        [summary] 获取单个数据的条目
        
        :@param param: [description]
        :@type param: [type]
        
        :return: [description]
        :rtype: [type]
        """
        return self.data.iloc[index]["review"], self.data.iloc[index]["label"]
    
    def __len__(self):
        """
        [summary] 返回当前数据集的大小
        
        :@param param: [description]
        :@type param: [type]
        
        :return: [description]
        :rtype: [type]
        """
        return len(self.data)

In [44]:
dataset = MyDataset()

for i in range(5):
    print(dataset[i])

('\ufeff做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持一颗年轻的心。我想，这是他能很好的和孩子沟通的一个重要因素。读刘墉的文章，总能让我看到一个快乐的平易近人的父亲，他始终站在和孩子同样的高度，给孩子创造着一个充满爱和自由的生活环境。很喜欢刘墉在字里行间流露出的做父母的那种小狡黠，让人总是忍俊不禁，父母和子女之间有时候也是一种战斗，武力争斗过于低级了，智力较量才更有趣味。所以，做父母的得加把劲了，老思想老观念注定会一败涂地，生命不息，学习不止。家庭教育，真的是乐在其中。', 1)
('作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到真理的火花。整本书的结构颇有特点，从当时（本书写于八十年代）流行的计算机话题引入，再用数学、物理学、宇宙学做必要的铺垫——这些内容占据了大部分篇幅，最后回到关键问题：电脑能不能代替人脑。和现在流行的观点相反，作者认为人的某种“洞察”是不能被算法模拟的。也许作者想说，人的灵魂是无可取代的。', 1)
('作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产率？为什么在文化上有着深刻纽带关系的中国和日本却在经济发展上有着极大的差异？为什么英国的北美殖民地造就了经济强大的美国，而西班牙的北美殖民却造就了范后的墨西哥？……很有价值，但不包括【中国近代史专业】。', 1)
('作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延续，没有战后的民发反思，没有～，就不会让日本成为一个经济强国．当然，美国人也给日本人带来了耻辱．对日中关系也造成了深远的影响．文中揭露了＂东京审判＂中很多鲜为人知的东西．让人惊醒．唉！中国人民对日本的了解是不是太少了．', 1)
('作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵的有两点，一是他的理科知识不错，虽不能媲及罗素，但与理科知识很差的作家相比，他的文章可读性要强；其二是他人格和文风的朴实，不造作，不买弄，让人喜欢。读他的作品，犹如听一个好友和你谈心，常常唤起心中的强烈的共鸣。他的作品90年后的更好些。衷心祝愿周国平健康快乐，为世人写出更多好作品。', 1)


## 4. 划分数据集

In [45]:
from torch.utils.data import random_split

train_set, valid_set = random_split(dataset, lengths=[0.9, 0.1])
len(train_set), len(valid_set)

(56496, 6277)

In [46]:
for i in range(10):
    print(train_set[i])

('还行，昨天刚收到，没有什么毛病，工作用，看后期情况吧。', 1)
('房间很小,酒店比较酒,但服务很好.风景还可以.前台的小妹服务周到也很漂亮', 1)
('没的说了，经常接不到电话。。。哎。。太垃圾了。。。', 0)
('这是我第1次给全五星哦^_^超级快!这是最快收到书的一次了.我是中午的时候订的,结果第2天上午就收到了,算了一下,1天的时间都还没到呢!在此,感激下当当的服务...我的确是很急需这本书呢.关于书的本身,也很不错.内容还是很丰富的,值得推荐,对于训练和培养逻辑思维套式有一定的帮助,推荐一下~还有祝朋友们都面试成功,哈哈哈~', 1)
('拿到的当天给他装xp，折腾n久没搞定，上网查才发现此款驱动比较搞，建议要买此款的买好vista盘先', 0)
('环境不错,但服务速度稍慢。希望服务人员脸上多带些笑容。', 1)
('下盘我们公司开职代会，我也要带个小孩，需要喂乳那种。我是男的，所以喂人奶是不可能的了，只有脖子上挂两个大奶瓶，左边奶瓶写蒙牛，右边奶瓶是伊利。嵌入式广告，支持民族产业！', 1)
('你马28的腰比别人30的都大，', 0)
('个头不大，有伤疤，以后不会回购', 1)
('分辨率果然如大家说的不行啊，全是颗粒感。买来就是追剧的，下超清的看上去只能勉强是高清。充电真的慢，5分钟充一个电，这也就算了，耗电也太快了吧，3到4分钟一个电，这还怎么玩？收到货打开看上去像是别人的退货的。本来想买小米的，就是唯一一个不能接受，看电影黑边太大了，所以才买了这个。说真的，很后悔。早知道分期买苹果平板了。对了，我是劵后969入的，一分钱一分货吧。不推荐买。', 0)


## 5. 创建Dataloader

In [47]:
import torch
tokenizer = AutoTokenizer.from_pretrained("rb3_download")

def collate_func(batch):
    """
    [summary] # 把数据变成两个list (texts, label)
    
    """
    texts, labels = [], []
    for item in batch:
        texts.append(item[0])
        labels.append(item[1])
    inputs = tokenizer(texts, max_length=128, padding="max_length", truncation=True, return_tensors="pt") # truncation截断，padding补充到最大长度
    inputs["labels"] = torch.tensor(labels)
    return inputs

In [48]:
from torch.utils.data import DataLoader

train_loader = DataLoader(train_set, batch_size=32, shuffle=True, collate_fn=collate_func)
valid_loader = DataLoader(valid_set, batch_size=64, shuffle=False, collate_fn=collate_func)

In [49]:
next(enumerate(train_loader))[1]

{'input_ids': tensor([[ 101, 3025, 1814,  ..., 6011, 2094,  102],
        [ 101, 3241, 4157,  ...,  511, 3309,  102],
        [ 101, 6821, 5741,  ...,    0,    0,    0],
        ...,
        [ 101, 2140, 6564,  ...,    0,    0,    0],
        [ 101, 6132, 7566,  ...,    0,    0,    0],
        [ 101, 3362, 4197,  ...,    0,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]]), 'labels': tensor([0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0,
        1, 0, 1, 0, 0, 1, 0, 0])}

## 6. 创建模型及优化器

In [50]:
from torch.optim import Adam

model = AutoModelForSequenceClassification.from_pretrained("rb3_download")

if torch.cuda.is_available():
         model = model.cuda()

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at rb3_download and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [51]:
model.parameters

<bound method Module.parameters of BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0): BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): L

In [52]:
optimizer = Adam(model.parameters(), lr=2e-5)

## 7. 训练与验证

In [53]:
def evaluate():
    model.eval()
    acc_num = 0
    with torch.inference_mode():
        for batch in valid_loader:
            if torch.cuda.is_available():
                batch = {k: v.cuda() for k, v in batch.items()}
            output = model(**batch)
            pred = torch.argmax(output.logits, dim=-1)
            acc_num += (pred.long() == batch["labels"].long()).float().sum()
    return acc_num / len(valid_set)


def train(epoch=3, log_step=100):
    
    global_step = 0
    for ep in range(epoch):
        model.train()
        for batch in train_loader:
            if torch.cuda.is_available():
                batch = {k: v.cuda() for k, v in batch.items()}
            optimizer.zero_grad()
            output = model(**batch)
            output.loss.backward()
            optimizer.step()
            if global_step % log_step == 0:
                print(f"ep: {ep}, global_step: {global_step}, loss: {output.loss.item()}")
            global_step += 1
        acc = evaluate()
        print(f"ep: {ep}, acc: {acc}")

## 8. 模型训练

In [54]:
train()

ep: 0, global_step: 0, loss: 0.6799103617668152
ep: 0, global_step: 100, loss: 0.3358294665813446
ep: 0, global_step: 200, loss: 0.2951325476169586
ep: 0, global_step: 300, loss: 0.19659896194934845
ep: 0, global_step: 400, loss: 0.16728521883487701
ep: 0, global_step: 500, loss: 0.18494035303592682
ep: 0, global_step: 600, loss: 0.20518630743026733
ep: 0, global_step: 700, loss: 0.0730476900935173
ep: 0, global_step: 800, loss: 0.07030397653579712
ep: 0, global_step: 900, loss: 0.13092800974845886
ep: 0, global_step: 1000, loss: 0.2755790650844574
ep: 0, global_step: 1100, loss: 0.24902208149433136
ep: 0, global_step: 1200, loss: 0.16527876257896423
ep: 0, global_step: 1300, loss: 0.16887883841991425
ep: 0, global_step: 1400, loss: 0.31376320123672485
ep: 0, global_step: 1500, loss: 0.298563688993454
ep: 0, global_step: 1600, loss: 0.08292162418365479
ep: 0, global_step: 1700, loss: 0.1765248030424118
ep: 0, acc: 0.939620852470398
ep: 1, global_step: 1800, loss: 0.09606095403432846
ep

## 9. 模型预测

In [58]:
sen = "我觉得这家酒店不错，饭很好吃"
id2lable = {0: "差评", 1: "好评"}
model.eval()
with torch.inference_mode():
    inputs = tokenizer(sen, return_tensors="pt")
    inputs = {k: v.cuda() for k, v in inputs.items()}
    logits = model(**inputs).logits
    pred = torch.argmax(logits, dim=-1)
    print(f"输入：{sen} \n 模型预测结果：{id2lable.get(pred.item())}")

输入：我觉得这家酒店不错，饭很好吃 
 模型预测结果：好评


In [59]:
from transformers import pipeline

pipe = pipeline("text-classification", model = model, tokenizer=tokenizer, device=0)

In [60]:
pipe(sen)

[{'label': 'LABEL_1', 'score': 0.9609529376029968}]

In [61]:
from transformers import pipeline

model.config.id2label = id2lable

pipe = pipeline("text-classification", model = model, tokenizer=tokenizer, device=0)

In [62]:
pipe(sen)

[{'label': '好评', 'score': 0.9609529376029968}]