# 大语言模型入门 🤖

## 欢迎来到大语言模型的世界！

想象一下，如果你能让计算机学会"聊天"和"写作"，是不是很神奇？这就是大语言模型的魅力！

在这个notebook中，我们将一起探索：
- 什么是大语言模型？
- 为什么要大语言模型？
- 如何用Python实现简单的大语言模型？

准备好了吗？让我们开始吧！

## 1. 什么是大语言模型？ 🤔

### 生活中的例子
想象你在：
- 和ChatGPT聊天
- 用智能助手写文章
- 用翻译软件翻译文章

这就是大语言模型！计算机也可以学会这种技能。

### 小测验
1. 下面哪些是大语言模型的例子？
   - [x] ChatGPT
   - [x] 智能助手
   - [ ] 计算1+1=2
   - [x] 自动写作

2. 为什么需要大语言模型？
   - 帮助我们生成文字
   - 让计算机学会"聊天"和"写作"
   - 提高工作效率

3. 你能想到哪些大语言模型的例子？
   - 比如：ChatGPT、智能助手、自动写作...

In [None]:
# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from transformers import pipeline
import torch

# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

print("工具准备完毕！让我们开始吧！")

## 2. 文本生成：让计算机学会写作 ✍️

### 生活中的例子
- 自动写文章
- 生成故事
- 写代码

让我们用Python实现一个简单的文本生成器！

In [None]:
# 加载预训练模型
generator = pipeline('text-generation', model='gpt2')

# 生成文本
prompt = "Once upon a time"
generated_text = generator(prompt, max_length=50, num_return_sequences=1)
print(f'生成的文本：{generated_text[0]["generated_text"]}')

# 显示生成过程
plt.figure(figsize=(10, 4))
plt.plot(range(len(generated_text[0]["generated_text"].split())), 
         [1] * len(generated_text[0]["generated_text"].split()), 'b-')
plt.title('文本生成过程')
plt.xlabel('词数')
plt.ylabel('生成概率')
plt.show()

### 动手做一做
1. 修改提示文本，观察生成效果如何变化
2. 尝试使用不同的生成参数
3. 观察生成文本的质量

### 思考题
1. 为什么需要预训练模型？
2. 你能想到其他可以用文本生成解决的问题吗？

## 3. 对话生成：让计算机学会聊天 💬

### 生活中的例子
- 智能客服
- 聊天机器人
- 智能助手

让我们学习如何生成对话！

In [None]:
# 加载对话模型
chatbot = pipeline('conversational', model='microsoft/DialoGPT-medium')

# 生成对话
conversation = [
    "你好，请问你是谁？",
    "我是一个AI助手，很高兴认识你！",
    "你能做什么？",
    "我可以回答问题、聊天、写文章等等。"
]

# 显示对话
for i, text in enumerate(conversation):
    if i % 2 == 0:
        print(f'用户: {text}')
    else:
        print(f'AI: {text}')

# 可视化对话
plt.figure(figsize=(10, 4))
plt.plot(range(len(conversation)), [1] * len(conversation), 'b-')
plt.title('对话生成过程')
plt.xlabel('对话轮数')
plt.ylabel('生成概率')
plt.show()

### 动手做一做
1. 修改对话内容，观察生成效果如何变化
2. 尝试使用不同的对话模型
3. 观察对话的连贯性

### 思考题
1. 为什么需要对话模型？
2. 你能想到其他可以用对话生成解决的问题吗？

## 4. 模型评估：如何判断生成的好坏？ 📊

### 生活中的例子
- 对话质量评估
- 文本质量评估
- 生成效果评估

让我们评估一下我们的模型！

In [None]:
# 评估生成文本
def evaluate_text(text):
    # 计算文本长度
    length = len(text.split())
    # 计算词汇多样性
    vocabulary = set(text.split())
    diversity = len(vocabulary) / length
    return length, diversity

# 评估生成的文本
text = generated_text[0]["generated_text"]
length, diversity = evaluate_text(text)
print(f'文本长度: {length}')
print(f'词汇多样性: {diversity:.2f}')

# 可视化评估结果
plt.figure(figsize=(10, 4))
plt.bar(['长度', '多样性'], [length, diversity])
plt.title('文本评估结果')
plt.show()

### 动手做一做
1. 修改评估指标，观察结果如何变化
2. 尝试使用不同的评估方法
3. 比较不同模型的性能

### 思考题
1. 为什么需要评估模型？
2. 你能想到其他评估模型的方法吗？

## 5. 趣味练习 🎯

### 练习1：文本生成
1. 收集一些提示文本
2. 设计一个生成器
3. 测试生成效果

### 练习2：对话生成
1. 收集一些对话数据
2. 设计一个对话模型
3. 测试对话效果

### 练习3：模型评估
1. 收集一些评估数据
2. 设计一个评估器
3. 评估模型性能

## 6. 知识总结 📝

### 今天学到了什么？
1. 大语言模型的基本概念
2. 不同的大语言模型算法
3. 如何用Python实现大语言模型

### 下节课预告
下次我们将学习如何用机器学习进行深度学习基础，让计算机学会更复杂的任务！

## 7. 趣味问答 🤔

1. 选择题
   - 下面哪个不是大语言模型的例子？
     a) ChatGPT
     b) 计算1+1=2
     c) 智能助手
     d) 自动写作

2. 判断题
   - 大语言模型就是让计算机"聊天"和"写作"（对/错）
   - 预训练对大语言模型很重要（对/错）

3. 开放题
   - 你能想到哪些有趣的大语言模型问题？
   - 为什么大语言模型很重要？
   - 你觉得大语言模型会如何改变我们的生活？