# 文本分类实例

## Step1 导入相关包

In [43]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

## Step2 加载数据

In [44]:
import pandas as pd

data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
data

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"
...,...,...
7761,0,尼斯酒店的几大特点：噪音大、环境差、配置低、服务效率低。如：1、隔壁歌厅的声音闹至午夜3点许...
7762,0,盐城来了很多次，第一次住盐阜宾馆，我的确很失望整个墙壁黑咕隆咚的，好像被烟熏过一样家具非常的...
7763,0,看照片觉得还挺不错的，又是4星级的，但入住以后除了后悔没有别的，房间挺大但空空的，早餐是有但...
7764,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...


In [45]:
data = data.dropna()
data

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"
...,...,...
7761,0,尼斯酒店的几大特点：噪音大、环境差、配置低、服务效率低。如：1、隔壁歌厅的声音闹至午夜3点许...
7762,0,盐城来了很多次，第一次住盐阜宾馆，我的确很失望整个墙壁黑咕隆咚的，好像被烟熏过一样家具非常的...
7763,0,看照片觉得还挺不错的，又是4星级的，但入住以后除了后悔没有别的，房间挺大但空空的，早餐是有但...
7764,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...


## Step3 创建Dataset

In [46]:
from torch.utils.data import Dataset

class MyDataset(Dataset):

    def __init__(self) -> None:
        super().__init__()
        self.data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
        self.data = self.data.dropna()

    def __getitem__(self, index):
        return self.data.iloc[index]["review"], self.data.iloc[index]["label"]
    
    def __len__(self):
        return len(self.data)

In [47]:
dataset = MyDataset()
for i in range(5):
    print(dataset[i])

('距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.', 1)
('商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!', 1)
('早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。', 1)
('宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小，但加上低价位因素，还是无超所值的；环境不错，就在小胡同内，安静整洁，暖气好足-_-||。。。呵还有一大优势就是从宾馆出发，步行不到十分钟就可以到梅兰芳故居等等，京味小胡同，北海距离好近呢。总之，不错。推荐给节约消费的自助游朋友~比较划算，附近特色小吃很多~', 1)
('CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风', 1)


## Step4 划分数据集

In [48]:
from torch.utils.data import random_split


trainset, validset = random_split(dataset, lengths=[0.9, 0.1])
len(trainset), len(validset)

(6989, 776)

In [49]:
for i in range(10):
    print(trainset[i])

('一，房间舒适卫生，且较为宽敞（豪华标间）。二，酒店服务还可以。三，所处地理位置极佳。强烈推荐！', 1)
('房间小，地点差，交通不便，最可恶的是变相恶意宰客。建议到连云港千万不要入住该处。否则后果很严重。', 0)
('非常不错的一家酒店。没有什么可以挑剔的了。', 1)
('在临沂，这个酒店算是比较有档次的了，给外国客人的服务也比较合格。可惜电视内容比较单调，国外的频道很少。服务态度不错。', 1)
('酒店的服务非常好，工作人员很热情很有效率。大厅超级大，房间装修有一点点旧，不过不影响本人对这家酒店的好感。酒店离机场10分钟车程，非常方便。门口是在建的高架，周围环境目前一般。', 1)
('酒店大堂像住宅公寓一楼大厅，所谓的“套房”的卧室比我住过的任何一个五星级的一间普通标房还小，两张床挨得紧得半米距离都不到，更令人气愤的是卫生间小得两个人在里面会打架！这是我住过的最垃圾的套房，竟然还卖807元一晚，真是把人民币看得太不值钱了！美国豪生集团旗下有这样一家酒店真是砸自己的招牌！请携程认真考察每一家签约协议往来客户的真实情况，不要让携程忠实客户一次次受到欺骗！补充点评2008年6月16日：一家性价比很低并让人十分失望的酒店！宾馆反馈2008年6月20日：感谢您选择入住上海绿地豪生全套房酒店，并给予我们忠恳的建议。首先，请允许我们为您简单介绍一下我们的酒店概况。我们属于一家国际性连锁酒店集团，提供高优质标准的酒店式服务，迎合不同种类客户的需求，希望给为您及其他客人带来回家的感觉。我们的客房最小面积为65平方米，最大至100平方米不等，每间套房均配备简洁齐全的现代化厨房设备。酒店提供餐饮、商务中心、酒吧、健身等一系列设施。此次您所入住的行政套房其面积为75平方米，每晚807元的房价，我店客房其设计风格和建筑布局比例以客厅为主，在同区域五星级酒店中具有较高的性价比，如客户想追求更加豪华、舒适的套房，也可选择我们的贵宾套房，其房型为85平方米。其次，我们酒店与携程旅行网是合作伙伴关系，我们总是以最优惠的价格，最好的房型提供给携程的客户们，以保持长期、友好的合作关系。相信携程旅行网也秉承同样的宗旨，认真负责地将每一家签约酒店推荐给忠实的客户。最后，再次感谢您的忠实建议，希望下次能有机会为您提供更优质的服务。谢谢！', 0)
('交通比较方便.机场班车就在门口(回程在对面

## Step5 创建Dataloader

In [50]:
import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/rbt3")

def collate_func(batch):
    texts, labels = [], []
    for item in batch:
        texts.append(item[0])
        labels.append(item[1])
    inputs = tokenizer(texts, max_length=128, padding="max_length", truncation=True, return_tensors="pt")
    inputs["labels"] = torch.tensor(labels)
    return inputs



In [51]:
from torch.utils.data import DataLoader

trainloader = DataLoader(trainset, batch_size=32, shuffle=True, collate_fn=collate_func)
validloader = DataLoader(validset, batch_size=64, shuffle=False, collate_fn=collate_func)

In [52]:
next(enumerate(validloader))[1]

{'input_ids': tensor([[ 101, 2692, 1912,  ...,    0,    0,    0],
        [ 101, 6983, 2421,  ...,    0,    0,    0],
        [ 101,  671,  510,  ..., 6639, 4760,  102],
        ...,
        [ 101, 7478, 2382,  ...,    0,    0,    0],
        [ 101, 6983, 2421,  ...,    0,    0,    0],
        [ 101, 4384, 1862,  ...,  679, 7770,  102]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1]]), 'labels': tensor([1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1,
        1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1,
        1, 1, 1

## Step6 创建模型及优化器

In [53]:
from torch.optim import Adam

model = AutoModelForSequenceClassification.from_pretrained("hfl/rbt3")

# if torch.cuda.is_available():
#     model = model.cuda()

device = torch.device("mps" if torch.has_mps else "cpu")

model.to(device)


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at hfl/rbt3 and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
  device = torch.device("mps" if torch.has_mps else "cpu")


BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-2): 3 x BertLayer(
          (attention): BertAttention(
            (self): BertSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, e

In [54]:
optimizer = Adam(model.parameters(), lr=2e-5)

## Step7 训练与验证

In [55]:
def evaluate():
    model.eval()
    acc_num = 0
    with torch.inference_mode():
        for batch in validloader:
            # if torch.cuda.is_available():
            #     batch = {k: v.cuda() for k, v in batch.items()}
            batch = {k: v.to(device) for k, v in batch.items()}
            output = model(**batch)
            pred = torch.argmax(output.logits, dim=-1)
            acc_num += (pred.long() == batch["labels"].long()).float().sum()
    return acc_num / len(validset)

def train(epoch=3, log_step=100):
    global_step = 0
    for ep in range(epoch):
        model.train()
        for batch in trainloader:
            # if torch.cuda.is_available():
            #     batch = {k: v.cuda() for k, v in batch.items()}
            batch = {k: v.to(device) for k, v in batch.items()}
            optimizer.zero_grad()
            output = model(**batch)
            output.loss.backward()
            optimizer.step()
            if global_step % log_step == 0:
                print(f"ep: {ep}, global_step: {global_step}, loss: {output.loss.item()}")
            global_step += 1
        acc = evaluate()
        print(f"ep: {ep}, acc: {acc}")

## Step8 模型训练

In [56]:
train()

ep: 0, global_step: 0, loss: 1.1291415691375732
ep: 0, global_step: 100, loss: 0.6340263485908508
ep: 0, global_step: 200, loss: 0.336114764213562
ep: 0, acc: 0.8878865838050842
ep: 1, global_step: 300, loss: 0.2788461446762085
ep: 1, global_step: 400, loss: 0.10129670798778534
ep: 1, acc: 0.9110824465751648
ep: 2, global_step: 500, loss: 0.15386611223220825
ep: 2, global_step: 600, loss: 0.21484988927841187
ep: 2, acc: 0.905927836894989


## Step9 模型预测

In [57]:
sen = "我觉得这家酒店不错，饭很好吃！"
id2_label = {0: "差评！", 1: "好评！"}
model.eval()
with torch.inference_mode():
    inputs = tokenizer(sen, return_tensors="pt")
    # inputs = {k: v.cuda() for k, v in inputs.items()}
    inputs = {k: v.to(device) for k, v in inputs.items()}
    logits = model(**inputs).logits
    pred = torch.argmax(logits, dim=-1)
    print(f"输入：{sen}\n模型预测结果:{id2_label.get(pred.item())}")

输入：我觉得这家酒店不错，饭很好吃！
模型预测结果:好评！


In [58]:
from transformers import pipeline

model.config.id2label = id2_label
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)

In [59]:
pipe(sen)

[{'label': '好评！', 'score': 0.9927546381950378}]