# 大模型介绍学习目标：
- 大模型的基本概念
- 什么是语言模型，常见的语言模型有哪些
- 大模型有哪些评估指标
- LLM主要架构类别有哪些类别，分别介绍


# 1、什么是大模型（LLM）？
定义：参数量超过百亿的模型，才能被称为大模型

# 2、什么是语言模型？
- 定义：判断一句话发生的概率（你可以把语言模型想象成一个“猜词游戏”高手）
- 标准：假如一个句子为s=[w1, w2, w3, ··· wn]语言模型是计算当前句子发生的概率，即：P(s)=P(w1, w2, w3, ··· wn)如果符合人类日常用语表达，P(s)就更大，否则就是小
- 分类：
N-gram 是“统计词组”，神经网络模型是“理解词义”，Transformer 是“理解语言与推理”。

# 3、大模型评估有哪些指标？（精确率、召回率、F1-Secore）
- BLEU指标：评估文本翻译质量（BLEU值范围0～1，值越大翻译质量越好，反之越差）BLUE更关注准确率
- ROUGE指标：均可以衡量生成结果和标准结果的匹配度，不同的是ROUGE基于召回率
![ppl公式](./img/ppl公式.png)
- 困惑度PPL：PPL是用来衡量一个概率分布或者概率模型预测样本的好坏

# 4、LLM主要架构有哪些类型？（下面分类都是基于Transformer架构）
![transformer架构](./img/transformer架构.png)
- Encoder-Only(自编码模型)：对于输入文本进行随机mask，利用上下文来预测mask；代表模型BERT
- Decoder-Only（自回归模型）：一般从左到右，有上文生成下文；代表模型GPT
- Encoder-Decoder（序列到序列模型）：将所有的NLP任务，转换为统一架构格式（文本生成任务）：text2text；代表模型T5




In [21]:
# 导入torch机器学习模型核心模块
import torch
# 导入自然语言处理工具包nltk
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
# 导入数学公式包
import math

def cumulative_bleu(references, candidates):
    '''
    评估生成文本与参考文本相似性的一种方法
    :param references: 
    :param candidates: 
    :return: 
    '''
    function = SmoothingFunction()
    
    bleu_one_gram = sentence_bleu(references, candidates, weights=(1, 0, 0, 0), smoothing_function=function.method1)
    bleu_two_gram = sentence_bleu(references, candidates, weights=(0.5, 0.5, 0, 0), smoothing_function=function.method1)
    bleu_three_gram = sentence_bleu(references, candidates, weights=(0.33, 0.33, 0.33, 0), smoothing_function=function.method1)
    bleu_four_gram = sentence_bleu(references, candidates, weights=(0.25, 0.25, 0.25, 0.25), smoothing_function=function.method1)
    
    return bleu_one_gram, bleu_two_gram, bleu_three_gram, bleu_four_gram

# 1、生成文本
candidate_text = ["This", "is",  "some",  "generated", "text"]

# 2、参照文本列表
reference_texts =[["This", "is",  "a",  "reference", "text"]]

# 3、计算出BLEU指标
c_bleu = cumulative_bleu(reference_texts, candidate_text)
print(f'The bleu score is {c_bleu}')

The bleu score is (0.6, 0.3872983346207417, 0.17404441896107775, 0.12574334296829354)


In [33]:
# 导入rouge模块
from rouge import Rouge

# 生成的文本
generated_text = "This is some generated text."
# 参考文本
reference_text = ["This is another generated reference text."]

# 计算GOUGE指标
rouge = Rouge()
scores_arr = rouge.get_scores(generated_text, reference_text[0])
print(f'scores:{scores_arr}')

# 打印结果
rouge_one = scores_arr[0]["rouge-1"]
# print(f'rouge_one:{rouge_one}')
# 
# print(rouge_one["p"])

print(f'ROUGE-1 precision: {rouge_one["p"]}')
print(f'ROUGE-1 recall: {rouge_one["r"]}')
print(f'ROUGE-1 f1-score: {rouge_one["f"]}')

scores:[{'rouge-1': {'r': 0.6666666666666666, 'p': 0.8, 'f': 0.7272727223140496}, 'rouge-2': {'r': 0.2, 'p': 0.25, 'f': 0.22222221728395072}, 'rouge-l': {'r': 0.6666666666666666, 'p': 0.8, 'f': 0.7272727223140496}}]
ROUGE-1 precision: 0.8
ROUGE-1 recall: 0.6666666666666666
ROUGE-1 f1-score: 0.7272727223140496


In [38]:
# 导入math库
import math
# 定义语料库
sentences = [
    ['I', 'have', 'a', 'pen'],
    ['He', 'has', 'a', 'book'],
    ['She', 'has', 'a', 'cat']
]

# 定义语言模型
unigram = {
    'I': 1/12, 
    'have': 1/12, 
    'a': 3/12, 
    'pen': 1/12,
    'He': 1/12, 
    'has': 2/12,
    'book': 1/12,
    'She': 1/12, 
    'cat': 1/12
}

perplexity = 0
for sentence in sentences:
    sentence_prob = 1
    # print(f'sentence :{sentence}')
    for word in sentence:
        sentence_prob *= unigram[word]
        # print(f'word :{word}')
    # 计算 log(sentence_prob)^2
    temp = -math.log(sentence_prob, 2)/ len(sentence)
    # 计算 perplexity = perplexity + x^temp
    perplexity += 2**temp
perplexity = perplexity /len(sentences)
print(f'困惑度：{perplexity}')


困惑度：8.150887576576553


In [36]:
math.log(1, 2)

0.0