In [None]:
# -*- coding: utf-8 -*-
# @Time    : 2023/6/9 上午
# @Author  : 东光太狼 游六一
# @Content : 预训练语言模型入门系列笔记（一）
# 该系列笔记将介绍基于transformer的预训练语言模型，使用该模型解决现实NLP任务。
# （一）环境搭建

## 1. 搭建编程环境
目前学界业界主流使用python来进行机器学习任务，根据硬件设施条件，可以选择不同的环境搭建方法。
1. 本地主机  
本地安装Anaconda或者Miniconda  
优点：免费，锻炼自己动手能力和耐心  
缺点：环境、框架自己搭建和适配（时间成本高，往往搞得自己崩溃）；  
本地CPU和GPU性能有限且拓展性差，训练期间本地网络可能不稳定

2. 算力平台  
平台一：https://www.autodl.com/home  
平台二：https://gpushare.com  
优点：环境和框架搭建完善，无需手动安装pytorch；  
提供GPU和CPU且可拓展性强，适合大规模部署和个人使用  
缺点：有一定费用，需要向平台传输数据费时间  

3. 在线环境  
Google Colab  
优点：环境和框架搭建完善，无需费劲安装torch，有些提供GPU；  
缺点：免费额度有限，配置较低，不适用大规模数据训练，需要安全上网  

最后，该系列笔记均以jupyternotebook形式提供，上述三种本地Anaconda、算力平台、Google Colab中均可以打开该类型文件(.ipynb)

## 2. 深度学习框架
深度学习框架有很多，选择pytorch！pytorch！pytorch！
1. 学界主流，大多数AI论文的深度学习框架，能够满足语言、文本、音频大多数任务
2. 为了适配GPU，需要下载对应版本的pytorch-cuda（本地主机很麻烦，不建议自己适配）

In [5]:
#安装torch相关包
#!conda install pytorch torchvision torchaudio pytorch-cuda=11.6 -c pytorch -c nvidia
#测试torch是否安装成功
import torch
x = torch.empty(5,3)
print(x)
#测试能否调用GPU
torch.cuda.is_available()

tensor([[-3.4713e-25,  4.5887e-41, -7.4800e-25],
        [ 3.0770e-41,  7.1041e-25,  3.0770e-41],
        [ 6.7604e-25,  3.0770e-41,  4.4842e-44],
        [ 0.0000e+00,  6.7262e-44,  0.0000e+00],
        [ 6.7997e-25,  3.0770e-41,  2.1891e-27]])


False

## 3. 深度学习开发包
1. Transformers是自然语言处理任务常用的模型，是HuggingFace开源的机器学习库。
项目组安装Transformers后，可以下载和使用众多开源的中文预训练模型，有助于快速训练所需模型
2. small-text是一个模块化的python库，它为文本分类和多标签任务提供了主动学习方法。
它集成了PyTorch和transformers，使得python生态系统可以轻松访问最先进的主动学习。
通过small-text实现模型的部署，并通过其内置的主动学习算法进一步优化模型，达到更好的分类效果。

In [8]:
#安装transfromers
!pip install transformers
#调用预训练模型mengzi-bert-base，用于后续任务
from transformers import AutoTokenizer
transformer_model_name = "Langboat/mengzi-bert-base"
tokenizer = AutoTokenizer.from_pretrained(
    transformer_model_name)

Looking in indexes: https://repo.huaweicloud.com/repository/pypi/simple
Collecting transformers
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/17/aa/a89864288afe45abe1ab79f002140a20348140e86836d96096d8f8a3bac0/transformers-4.29.2-py3-none-any.whl (7.1 MB)
[K     |████████████████████████████████| 7.1 MB 43.0 MB/s eta 0:00:01
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/fa/33/acfd230f5c3e7d19bfae949dca45c230fbf1d4d6f62a0b2365caac17c37a/tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[K     |████████████████████████████████| 7.6 MB 39.4 MB/s eta 0:00:01      | 4.2 MB 39.4 MB/s eta 0:00:014 MB/s eta 0:00:01
Collecting transformers
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/e8/b5/ddb16f9de207e6571ab7cc5db0cc538fa2d6d91cf024565496462af4c1ce/transformers-4.29.1-py3-none-any.whl (7.1 MB)
[K     |████████████████████████████████| 7.1 MB 33.6 M

Downloading (…)lve/main/config.json:   0%|          | 0.00/849 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/110k [00:00<?, ?B/s]

In [9]:
#安装small_text
!pip install small_text
#调用常用模块
from small_text import TransformersDataset
from small_text import TransformerModelArguments
from small_text import TransformerBasedClassificationFactory

Looking in indexes: https://repo.huaweicloud.com/repository/pypi/simple
Collecting small_text
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/09/00/2c766b4f301282b84ee5a2fbe4e80abb3a957ca64208239861d2cb8110bc/small_text-1.3.0-py3-none-any.whl (202 kB)
[K     |████████████████████████████████| 202 kB 1.3 MB/s eta 0:00:01
Collecting scikit-learn>=0.24.1
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/f0/95/0ea0a2412e33080a47ec02802210c008a7a540471581c95145f030d304b4/scikit_learn-1.2.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (9.8 MB)
[K     |████████████████████████████████| 9.8 MB 25.5 MB/s eta 0:00:01
[?25hCollecting dill
  Downloading https://repo.huaweicloud.com/repository/pypi/packages/12/ff/3b1a8f5d59600393506c64fa14d13afdfe6fe79ed65a18d64026fe9f8356/dill-0.3.5.1-py2.py3-none-any.whl (95 kB)
[K     |████████████████████████████████| 95 kB 4.4 MB/s eta 0:00:011
Collecting threadpoolctl>=2.0.0
  Downloading https://repo.huaw