# 《GPT图解 大模型是怎样构建的》

### 1.3 创建一个Bigram字符预测模型

In [2]:
# 构建一个玩具数据集
corpus = ['我喜欢吃苹果',
          '我喜欢吃香蕉',
          '她喜欢吃葡萄',
          '他不喜欢吃香蕉',
          '他喜欢吃苹果',
          '她喜欢吃草莓',]

In [3]:
# 定义一个分词函数，将文本转换为单个字符的列表
def tokenize(text):
    return [char for char in text] # 将文本拆分为字符列表

In [12]:
# 定义计算N-Gram词频的函数
from collections import defaultdict, Counter 

def count_ngrams(corpus, n):
    ngrams_count = defaultdict(Counter) # 创建一个字典，存储N-Gram计数
    for text in corpus: # 遍历语料库中的每个文本
        tokens = tokenize(text) # 对文本进行分词
        for i in range(len(tokens)-n+1): # 遍历分词结果，生成N-Gram
            ngram = tuple(tokens[i:i+n]) # 创建一个N-Gram元组
            prefix = ngram[:-1] # 获取N-Gram的前缀
            token = ngram[-1] # 获取N-Gram的目标单字
            ngrams_count[prefix][token] += 1 # 更新N-Gram计数
    return ngrams_count

bigram_counts = count_ngrams(corpus, 2) # 计算Bigram词频
print('Bigram词频：')
for prefix, counts in bigram_counts.items():
    print(f'{"".join(prefix)}: {dict(counts)}')

###
# print(bigram_counts)

Bigram词频：
我: {'喜': 2}
喜: {'欢': 6}
欢: {'吃': 6}
吃: {'苹': 2, '香': 2, '葡': 1, '草': 1}
苹: {'果': 2}
香: {'蕉': 2}
她: {'喜': 2}
葡: {'萄': 1}
他: {'不': 1, '喜': 1}
不: {'喜': 1}
草: {'莓': 1}


In [13]:
# 定义计算N-Gram出现概率的函数
def ngram_probabilities(ngram_counts):
    ngram_probs = defaultdict(Counter) # 创建一个字典，存储N-Gram出现的概率
    for prefix, tokens_count in ngram_counts.items(): # 遍历N-Gram前缀
        total_count = sum(tokens_count.values()) # 计算当前前缀的N-Gram计数
        for token, count in tokens_count.items(): # 遍历每个前缀的N-Gram
            ngram_probs[prefix][token] = count / total_count # 计算每个N-Gram出现的概率
    return ngram_probs

bigram_probs = ngram_probabilities(bigram_counts) # 计算Bigram出现的概率
print('\nbigram出现的概率：')
for prefix, probs in bigram_probs.items():
    print(f'{"".join(prefix)}: {dict(probs)}')


bigram出现的概率：
我: {'喜': 1.0}
喜: {'欢': 1.0}
欢: {'吃': 1.0}
吃: {'苹': 0.3333333333333333, '香': 0.3333333333333333, '葡': 0.16666666666666666, '草': 0.16666666666666666}
苹: {'果': 1.0}
香: {'蕉': 1.0}
她: {'喜': 1.0}
葡: {'萄': 1.0}
他: {'不': 0.5, '喜': 0.5}
不: {'喜': 1.0}
草: {'莓': 1.0}
