# 1-使用Token访问在线模型

开启科学上网，进入Hugging Face官网，在Models中搜索需要的模型，例如下载一个gpt2的中文模型
https://huggingface.co/models?sort=trending&search=gpt2-chinese-cluecorpussmall


![image.png](attachment:f6f7c4d5-5eee-41fb-a535-a214f3b5f011.png)

#编写通过token在线访问代码：

In [None]:
import requests
#使用Token访问在线模型

API_URL = "https://api-inference.huggingface.co/models/uer/gpt2-chinese-cluecorpussmall"
API_TOKEN = "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"
headers = {"Authorization": f"Bearer {API_TOKEN}"}

response = requests.post(API_URL,headers=headers,json={"inputs":"你好，Hugging face"})
print(response.json())
#注意，该段代码已经经过验证可运行，后面如果运行收不到回复请检查是否科学上网和AIP_TOKEN还是否有效

# 2-将模型下载到本地调用

## 外网在线下载模型到本地

In [None]:
#AutoModelForCausalLM是模型，AutoTokenizer是分词器
from transformers import AutoModelForCausalLM, AutoTokenizer, AutoModel

#将模型和分词器下载到本地，并指定保存路径
model_name="uer/gpt2-chinese-cluecorpussmall"#模型名称
cache_dir="model/uer/gpt2-chinese-cluecorpussmall"#模型保存路径

#下载模型
AutoModelForCausalLM.from_pretrained(model_name,cache_dir=cache_dir)
#下载分词器
AutoTokenizer.from_pretrained(model_name,cache_dir=cache_dir)

print(f"模型分词器已下载到：{cache_dir}")

模型目录结构如下：

![image.png](attachment:7a842f6b-c51c-44e0-9828-1fb7cf78aaae.png)

其中"vocab_size": 21128 代表的是模型字典的数量

## 本地离线调用gpt2

In [1]:
#本地离线调用gpt2
from openpyxl.styles.builtins import output
from transformers import AutoModelForCausalLM,AutoTokenizer,pipeline

#设置具体包含config.json的目录，注意，这个只支持绝对路径
model_dir=r"D:\AI\model\gpt2-chinese-cluecorpussmall\models--uer--gpt2-chinese-cluecorpussmall\snapshots\c2c0249d8a2731f269414cc3b22dff021f8e07a3"

#加载模型和分词器
model=AutoModelForCausalLM.from_pretrained(model_dir)
tokenizer=AutoTokenizer.from_pretrained(model_dir)

#使用加载的模型和分词器创建生成文本的pipeline
#用cup来跑
#generator=pipeline("text-generation",model=model,tokenizer=tokenizer,device="cpu")
#用GPU来跑
generator=pipeline("text-generation",model=model,tokenizer=tokenizer,device="cuda")

#生成文本
# output = generator("你好，我是一款语言模型，",max_length=50,num_return_sequences=1)
output = generator(
    "你好，我是一款语言模型，",#生成文本的输入种子文本（prompt）。模型会根据这个初始文本，生成后续的文本
    max_length=50,#指定生成文本的最大长度。这里的 50 表示生成的文本最多包含 50 个标记（tokens）
    num_return_sequences=1,#参数指定返回多少个独立生成的文本序列。值为 1 表示只生成并返回一段文本。
    truncation=True,#该参数决定是否截断输入文本以适应模型的最大输入长度。如果 True，超出模型最大输入长度的部分将被截断；如果 False，模型可能无法处理过长的输入，可能会报错。
    temperature=0.7,#该参数控制生成文本的随机性。值越低，生成的文本越保守（倾向于选择概率较高的词）；值越高，生成的文本越多样（倾向于选择更多不同的词）。0.7 是一个较为常见的设置，既保留了部分随机性，又不至于太混乱。
    top_k=50,#该参数限制模型在每一步生成时仅从概率最高的 k 个词中选择下一个词。这里 top_k=50 表示模型在生成每个词时只考虑概率最高的前 50 个候选词，从而减少生成不太可能的词的概率。
    top_p=0.9,#该参数（又称为核采样）进一步限制模型生成时的词汇选择范围。它会选择一组累积概率达到 p 的词汇，模型只会从这个概率集合中采样。top_p=0.9 意味着模型会在可能性最强的 90% 的词中选择下一个词，进一步增加生成的质量。
    clean_up_tokenization_spaces=True#该参数控制生成的文本中是否清理分词时引入的空格。如果设置为 True，生成的文本会清除多余的空格；如果为 False，则保留原样。默认值即将改变为 False，因为它能更好地保留原始文本的格式。
)
print(output)


Device set to use cuda


[{'generated_text': '你好，我是一款语言模型， 于 2016 年 4 月 27 日 正 式 上 线 ， 是 一 款 基 于 java 开 发 的 可 扩 展 的 语 言 模 型 。 本 模 型 是 一 个'}]


# 3-bert-分类模型

In [3]:
#BertForSequenceClassification是Bert做语句分类的模型，BertTokenizer是Bert的分词器
from transformers import BertTokenizer, BertForSequenceClassification, pipeline

#将模型和分词器下载到本地，并指定保存路径,第一次从网上下载用相对路径，如果模型已经下载完成用绝对路径就会用本地的模型
#model_dir=r"model\bert-base-chinese"#从网上下
model_dir=r"D:\AI\model\bert-base-chinese\models--bert-base-chinese\snapshots\c30a6ed22ab4564dc1e3b2ecbf6e766b0611a33f"#加载本地的

#加载模型和分词器,采用这种方式加载模型不管本地是否有模型都会先访问谷歌云盘，然后验证本地是否有模型如果本地有则用本地的，如果没有则从网上下
model=BertForSequenceClassification.from_pretrained("bert-base-chinese",cache_dir=model_dir)
tokenizer=BertTokenizer.from_pretrained("bert-base-chinese",cache_dir=model_dir)

#创建分类pipeline模型device="cuda"获取“cpu
classifier=pipeline("text-classification",model=model,tokenizer=tokenizer,device="cuda")

#进行文本分类
result=classifier("你好，我是一款语言模型")
print(result)
print(model)



config.json:   0%|          | 0.00/624 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


model.safetensors:   0%|          | 0.00/412M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-chinese and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/110k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/269k [00:00<?, ?B/s]

Device set to use cuda


[{'label': 'LABEL_0', 'score': 0.7426913380622864}]
BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(21128, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)