## 文本分类实例

### Step1 导入相关包

In [1]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

### Step2 加载数据

In [2]:
import pandas as pd
data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
data

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"
...,...,...
7761,0,尼斯酒店的几大特点：噪音大、环境差、配置低、服务效率低。如：1、隔壁歌厅的声音闹至午夜3点许...
7762,0,盐城来了很多次，第一次住盐阜宾馆，我的确很失望整个墙壁黑咕隆咚的，好像被烟熏过一样家具非常的...
7763,0,看照片觉得还挺不错的，又是4星级的，但入住以后除了后悔没有别的，房间挺大但空空的，早餐是有但...
7764,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...


In [3]:
data = data.dropna()
data

Unnamed: 0,label,review
0,1,"距离川沙公路较近,但是公交指示不对,如果是""蔡陆线""的话,会非常麻烦.建议用别的路线.房间较..."
1,1,商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!
2,1,早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。
3,1,宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小...
4,1,"CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风"
...,...,...
7761,0,尼斯酒店的几大特点：噪音大、环境差、配置低、服务效率低。如：1、隔壁歌厅的声音闹至午夜3点许...
7762,0,盐城来了很多次，第一次住盐阜宾馆，我的确很失望整个墙壁黑咕隆咚的，好像被烟熏过一样家具非常的...
7763,0,看照片觉得还挺不错的，又是4星级的，但入住以后除了后悔没有别的，房间挺大但空空的，早餐是有但...
7764,0,我们去盐城的时候那里的最低气温只有4度，晚上冷得要死，居然还不开空调，投诉到酒店客房部，得到...


### Step3 创建DataSet

In [4]:
from torch.utils.data import Dataset

In [5]:
class MyDataset(Dataset):
    def __init__(self) -> None:
        super().__init__()
        self.data = pd.read_csv("./ChnSentiCorp_htl_all.csv")
        self.data = self.data.dropna()
    
    def __getitem__(self, index):
        return self.data.iloc[index]["review"], self.data.iloc[index]["label"]
    
    def __len__(self):
        return len(self.data)

In [6]:
dataset = MyDataset()
for i in range(5):
    print(dataset[i])

('距离川沙公路较近,但是公交指示不对,如果是"蔡陆线"的话,会非常麻烦.建议用别的路线.房间较为简单.', 1)
('商务大床房，房间很大，床有2M宽，整体感觉经济实惠不错!', 1)
('早餐太差，无论去多少人，那边也不加食品的。酒店应该重视一下这个问题了。房间本身很好。', 1)
('宾馆在小街道上，不大好找，但还好北京热心同胞很多~宾馆设施跟介绍的差不多，房间很小，确实挺小，但加上低价位因素，还是无超所值的；环境不错，就在小胡同内，安静整洁，暖气好足-_-||。。。呵还有一大优势就是从宾馆出发，步行不到十分钟就可以到梅兰芳故居等等，京味小胡同，北海距离好近呢。总之，不错。推荐给节约消费的自助游朋友~比较划算，附近特色小吃很多~', 1)
('CBD中心,周围没什么店铺,说5星有点勉强.不知道为什么卫生间没有电吹风', 1)


### Step4 划分数据集

In [7]:
from torch.utils.data import random_split

In [8]:
trainset,validset = random_split(dataset,lengths=[0.9,0.1])

In [9]:
len(trainset),len(validset)

(6989, 776)

In [10]:
for i in range(10):
    print(trainset[i],validset[i])

('总体来说，还不错。房间比较干净，服务也不错', 1) ('十次到常州九次会选择这里，朋友和同事到酒店看了后都说值，本来不想多说什么的，但这次发现了一个小问题，提出来希望酒店看到后可以改进。酒店早餐时间是7：30--9：30，我是9：05左右进入餐厅的，吃了一会儿发现服务人员开始把一些菜牌给撤了，结果我吃完饭喝咖啡的时候，由于没有提示把酸奶当作牛奶加入咖啡了，可想而知又酸又苦。这时候时间肯定没过9：30.希望服务员以后可以等全部结束再收拾。宾馆反馈2008年5月29日：尊敬的宾客：首先非常感谢您一直以来对酒店的支持以及提出的宝贵意见，由于我们的疏忽给您带来的不便，我们深表歉意。于此同时，我们也会积极整改。欢迎您再次入住！小提示：酒店的早餐时间是7：00--9：30', 1)
('不错如果是欧美人士入住，那将是一个不错的选择因为酒店主要提供英语服务其他区亚裔地区的语言服务就没有可日本客人入住的话会很困扰', 1) ('位置非常接近浦展;然是二面路,但相,不有太多。服素一般,只是早餐相差,只有:吃或不吃', 1)
('上周住了三天，酒店服务还不错，但感觉有些旧。在文昌阁那边见到几家经济型酒店，感觉比较气派。', 1) ('很不错，前台彬彬有礼，房间干净整洁，出门就是客运中心，走到美食林和休闲场所都很方便。注意，听当地人说报国寺的美食林东西整整是峨嵋市里美食林的两倍，我们逛了逛，服务也怪怪的，就到对面峨眉山大酒店的仙林小厨和避风港分别解决了肚子问题，毕竟那里看起来正规些。整个峨嵋景区的管理还是很好的，明码标价，服务也不错，值得推荐。', 1)
('一流得酒店,一流得设施.服务在5星酒店算是二流,本人工作在4星假日酒店.对于酒店得服务做的并不是太好.经常发现不管是餐厅,还是前台得员工在聊天.不能尽快得给予客人服务.对于5星酒店得客户要求还是差的较远.竟然客房部敲门问什么时候可以打扫房间?每天基本都是,很无奈,只能离开酒店让他们打扫!态度实在不可恭维.PriorityClub之事,当时承诺1个月卡会寄存给客人,没有落实', 1) ('我买的是“亲子套票”。该酒店的硬件很好！房间的东西很新，而且很干净，不愧是国际品牌！对于楼下所说的那些抱怨问题，本人也碰到了。但都能很好地解决！在此建议大家在出发前多花点时间打电话和酒店预先沟通，就会减少麻烦！还能免费升级到行政楼层的海景房。'

### Step5 创建Dataloader

#### 未使用collate_func

In [11]:
from torch.utils.data import DataLoader

trainloader = DataLoader(trainset, batch_size=32, shuffle=True)
validloader = DataLoader(validset, batch_size=64, shuffle=False)

In [12]:
next(enumerate(trainloader))[1]

[('服务基本上没有！非常失望，其酒店的服务和周围的优雅环境很不相称...总而言之,非常失望,更不用谈性价比了.',
  '国际饭店虽然挂牌3星，但是设施和服务差了一些，而且携程提供的价格不大有竞争力，在另外一个酒店：梅林大酒店住过两次，前台的价格就256，设施比国际要好不少。另外：邯郸现在有个赵王宾馆刚刚盖了新楼，是4星的，已经开始营业，住过一次，够4星标准，应该是邯郸目前最好的宾馆，标间前台的价格384，建议携程联系下。补充点评2008年5月7日：强力推荐赵王宾馆',
  '酒店比较旧，靠近机场，能听到很大的噪音。而且早餐非常差，简直就是没东西吃。我再也不会住在这个酒店的。宾馆反馈2008年3月14日：尊敬的客人您好，非常感谢您的宝贵意见，对于您入住期间遇到的不愉快经历，我们深表歉意，以下是我们关于您的意见的反馈情况：1.关于您提到的噪音和酒店陈旧问题，由于酒店地处厦门主要干线-湖里大道西段，距离机场10分钟车程，这是酒店交通便利的主要优势。但随之而来的就是噪音问题。厦门联发集团于2007年5月份投入巨资对酒店重新进行装修，在隔音方面做了最大的改进和提高。酒店装修完工投入使用以来，未收到客人关于噪音的投诉。2.早餐：针对前几年团队为主的早餐，酒店在人员配备和早餐种类及数量都做了很大的改进，目前早餐包括了小菜、饮料、热菜、糕点、主食、沙拉等40多种菜品，能够满足各种客人的不同喜好。我们非常珍惜每一位客人的投诉，非常珍惜每次能为客人提供服务的机会。也许酒店方面现在还不能做到十全十美，但是我们一直在努力，希望您能再次光临丽轩酒店，感受到我们的改变。最后再次感谢您的意见和建议，因为正是有了您这样的客人，才使丽轩一直进步、不断完善。谢谢！',
  '是一家非常不的酒店，物有所值，境非常好，前看我是2人一起去的，又送了一份免的早餐，定的候明只有一份的，人感。唯一不足的是生的淋浴房的玻璃好像不能，有水。',
  '很破的宾馆和招待所差不多，服务也有问题多找钱还给她连声谢谢都不说气死我拉，早饭跟本不是人吃的，房间送餐送完了就没人来拿餐具了晕倒，点了一个红烧牛肉牛肉上都是淋巴都不敢吃而且要48元一份。只有网速很快能到2M，不过建议不要入住太差拉。',
  '我觉得这是我在如家服务最好的酒店了..交通方便,就是不好订到房间,要住的朋友最好提前几天订哦',
  '地理位置不错,房间对

#### 使用collate_func

In [26]:
import torch
tokenizer = AutoTokenizer.from_pretrained("./rbt3")

def collate_func(batch):
    texts,labels = [],[]
    for item in batch:
        texts.append(item[0])
        labels.append(item[1])
    inputs = tokenizer(texts,max_length=128,truncation=True,padding="max_length",return_tensors="pt")  # 返回pytorch tensor格式
    # inputs = tokenizer(texts,max_length=128,truncation=True,padding="max_length")
    inputs["labels"] = torch.tensor(labels)
    return inputs

In [28]:
trainloader = DataLoader(trainset, batch_size=64, shuffle=True, collate_fn=collate_func)
validloader = DataLoader(validset, batch_size=32, shuffle=False, collate_fn=collate_func)
next(enumerate(trainloader))[1]

{'input_ids': tensor([[ 101, 3315, 3613,  ..., 1961, 2769,  102],
        [ 101, 6983, 2421,  ...,    0,    0,    0],
        [ 101,  122,  510,  ...,  897, 8020,  102],
        ...,
        [ 101, 1372, 5543,  ...,    0,    0,    0],
        [ 101, 6983, 2421,  ...,    0,    0,    0],
        [ 101, 4692,  679,  ...,    0,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]]), 'labels': tensor([0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1, 0,
        1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0,
        0, 1, 1

### Step6 创建模型及优化器

In [40]:
from torch.optim import Adam
model = AutoModelForSequenceClassification.from_pretrained("rbt3")

if torch.cuda.is_available():
    model = model.cuda()

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at rbt3 and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [44]:
optimizer = Adam(model.parameters(), lr=2e-5)

### Step7 训练与验证

In [49]:
def evaluate():
    model.eval()
    acc_num = 0
    with torch.inference_mode():
        for batch in validloader:
            if torch.cuda.is_available():
                batch = {k: v.cuda() for k, v in batch.items()}
            output = model(**batch)
            pred = torch.argmax(output.logits, dim=-1)
            acc_num += (pred.long() == batch["labels"].long()).float().sum()
    return acc_num / len(validset)


def train(epoch=3, log_step=100):
    global_step = 0
    for ep in range(epoch):
        model.train()
        for batch in trainloader:
            if torch.cuda.is_available():
                batch = {k: v.cuda() for k, v in batch.items()}
            optimizer.zero_grad()
            output = model(**batch)
            output.loss.backward()
            optimizer.step()
            if global_step % log_step == 0:
                print(f"ep: {ep}, global_step: {global_step}, loss: {output.loss.item()}")
            global_step += 1
        acc = evaluate()
        print(f"ep: {ep}, acc: {acc}")

In [50]:
train()

  attn_output = torch.nn.functional.scaled_dot_product_attention(


ep: 0, global_step: 0, loss: 0.6566935777664185
ep: 0, global_step: 100, loss: 0.39207786321640015
ep: 0, global_step: 200, loss: 0.255473792552948
ep: 0, acc: 0.8917525410652161
ep: 1, global_step: 300, loss: 0.1308319866657257
ep: 1, global_step: 400, loss: 0.09422533214092255
ep: 1, acc: 0.8994845151901245
ep: 2, global_step: 500, loss: 0.33339324593544006
ep: 2, global_step: 600, loss: 0.2502152919769287
ep: 2, acc: 0.8969072103500366


### Step9 模型预测

In [64]:
sen = "我觉得这家酒店不错，饭很好吃！"
id2_label = {0: "差评！", 1: "好评！"}
model.eval()
with torch.inference_mode():
    inputs = tokenizer(sen, return_tensors="pt")
    inputs = {k: v.cuda() for k, v in inputs.items()}
    logits = model(**inputs).logits
    pred = torch.argmax(logits, dim=-1)
    score = torch.softmax(logits, dim=-1)
    print(f"输入：{sen}\n模型预测结果:{id2_label.get(pred.item())}\nScore:{score[0][pred.item()]}")

输入：我觉得这家酒店不错，饭很好吃！
模型预测结果:好评！
Score:0.9874188303947449


In [65]:
from transformers import pipeline

model.config.id2label = id2_label
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)

In [56]:
pipe(sen)

[{'label': '好评！', 'score': 0.9874188303947449}]