# echuu v3 - AI VTuber 直播引擎

> **V3 改进**: 两阶段沉浸生成 + 随机 Few-shot + 情绪断点 + 认知特征标注

## 核心架构

```
标注数据 → Pattern Analyzer
               ↓
用户输入 (角色设定 + 话题)
               ↓
┌──────────────────────────────────────────────────────┐
│  Phase 1: 预生成完整剧本 (100s)                       │
│  • 10-15句完整台词，有起承转合                        │
│  • 每句标注 key_info（关键信息点）                   │
│  • 设置 interruption_cost                            │
└──────────────────────────────────────────────────────┘
               ↓
┌──────────────────────────────────────────────────────┐
│  Phase 2: 实时表演 + 记忆系统                         │
│                                                       │
│  🧠 记忆系统                                          │
│  ├─ 剧本进度（说到第几句）                            │
│  ├─ 已提到信息（避免重复）                            │
│  ├─ 弹幕记忆（已回应/待回答）                         │
│  └─ 承诺追踪（说了"等会告诉你"要兑现）                │
│                                                       │
│  ⚡ 统一弹幕处理                                      │
│  priority = base + relevance_bonus + sc_bonus        │
│  • 相关性是最重要因素                                 │
│  • 高相关问题 > 低相关SC                              │
│                                                       │
│  🔍 答案查找机制                                      │
│  在 key_info 中匹配问题 → 决定叙事策略                │
│  • 答案还没说：吊胃口 + 记录承诺                      │
│  • 答案在1-3句后：可跳跃（高优先级）                  │
│  • 答案已说过：提醒观众                               │
└──────────────────────────────────────────────────────┘
               ↓
     输出: 台词 + 🔊 语音 + 记忆状态可视化
```

## 核心创新

1. **完整剧本预生成** - 100s完整故事，避免车轱辘话
2. **key_info 标注** - 每句话的关键信息，用于匹配弹幕问题
3. **记忆系统** - 追踪已说内容、弹幕、承诺
4. **统一弹幕处理** - 相关性为王的优先级系统
5. **承诺追踪** - 说了"等会告诉你"必须兑现
6. **答案查找** - 在剧本中定位问题答案，决定叙事策略

## Part 1: 环境准备

In [1]:
# 安装依赖
!pip install anthropic dashscope python-dotenv -q
!pip install requests pydub numpy

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


In [2]:
import json
import os
import sys
import re
import random
import threading
import base64
from pathlib import Path
from dataclasses import dataclass, field
from typing import List, Dict, Optional, Tuple, Callable
from enum import Enum
from collections import defaultdict, Counter
from datetime import datetime
import io

from IPython.display import display, HTML, Markdown, Audio

# 加载环境变量
from dotenv import load_dotenv

# 自动查找项目根目录
PROJECT_ROOT = Path.cwd()
while PROJECT_ROOT.name != 'echuu-agent' and PROJECT_ROOT.parent != PROJECT_ROOT:
    PROJECT_ROOT = PROJECT_ROOT.parent

load_dotenv(PROJECT_ROOT / '.env')

print(f"📁 项目根目录: {PROJECT_ROOT}")
print(f"🔑 ANTHROPIC_API_KEY: {'✅ 已配置' if os.getenv('ANTHROPIC_API_KEY') else '❌ 未配置'}")
print(f"🔑 DASHSCOPE_API_KEY: {'✅ 已配置' if os.getenv('DASHSCOPE_API_KEY') else '❌ 未配置'}")
print(f"\n✅ 导入完成（已添加 re, random 等V2所需模块）")

# 剧本管理工具
try:
    from script_manager_patch import save_script_to_file, show_script_progress
    scripts_dir = PROJECT_ROOT / "output" / "scripts"
    scripts_dir.mkdir(parents=True, exist_ok=True)
    print("✅ 剧本管理工具已加载")
except ImportError:
    print("⚠️ script_manager_patch 未找到，部分功能不可用")
    save_script_to_file = None
    show_script_progress = None


📁 项目根目录: d:\vtuberclip\echuu-agent
🔑 ANTHROPIC_API_KEY: ✅ 已配置
🔑 DASHSCOPE_API_KEY: ✅ 已配置

✅ 导入完成（已添加 re, random 等V2所需模块）
✅ 剧本管理工具已加载


## Part 2: 数据加载与模式分析

包含：
- PatternAnalyzer（从真实数据学习口语模式）
- 加载标注数据
- 查看示例数据

In [3]:
class PatternAnalyzer:
    """从标注数据中提取模式"""
    
    def __init__(self, annotated_clips: List[Dict]):
        self.clips = annotated_clips
        self.all_segments = []
        for clip in annotated_clips:
            self.all_segments.extend(clip.get("segments", []))
    
    def _normalize_field(self, value, default="self"):
        """处理字段值，如果是列表则取第一个元素"""
        if isinstance(value, list):
            return value[0] if value else default
        return value if value else default
    
    def compute_attention_transitions(self) -> Dict[str, Dict[str, float]]:
        """计算attention转移概率"""
        trans = defaultdict(lambda: defaultdict(int))
        for clip in self.clips:
            segs = clip.get("segments", [])
            for i in range(len(segs) - 1):
                f = self._normalize_field(segs[i].get("attention_focus"), "self")
                t = self._normalize_field(segs[i+1].get("attention_focus"), "self")
                trans[f][t] += 1
        
        prob = {}
        for f, tos in trans.items():
            total = sum(tos.values())
            prob[f] = {t: c/total for t, c in tos.items()}
        return prob
    
    def infer_baseline_costs(self) -> Dict[str, float]:
        """推断不同attention下的打断代价"""
        focus_stats = defaultdict(lambda: {"total": 0, "ignored": 0})
        
        for seg in self.all_segments:
            focus = self._normalize_field(seg.get("attention_focus"), "self")
            trigger = self._normalize_field(seg.get("trigger"), "self")
            act = self._normalize_field(seg.get("speech_act"), "narrate")
            
            if trigger == "danmaku":
                focus_stats[focus]["total"] += 1
                if act != "respond":
                    focus_stats[focus]["ignored"] += 1
        
        costs = {}
        for focus, stats in focus_stats.items():
            if stats["total"] > 0:
                costs[focus] = stats["ignored"] / stats["total"]
            else:
                costs[focus] = 0.5
        return costs
    
    def extract_skeletons(self) -> List[Tuple[str, int]]:
        """提取叙事骨架"""
        skeletons = [c.get("skeleton", "") for c in self.clips if c.get("skeleton")]
        return Counter(skeletons).most_common(10)
    
    def extract_catchphrases(self, language: str = None) -> List[Tuple[str, int]]:
        """提取口癖"""
        cps = []
        for c in self.clips:
            if language and c.get("language") != language:
                continue
            cps.extend(c.get("catchphrases", []))
        return Counter(cps).most_common(20)
    
    def extract_hooks(self, language: str = None) -> List[str]:
        """提取开场示例"""
        hooks = []
        for c in self.clips:
            if language and c.get("language") != language:
                continue
            segs = c.get("segments", [])
            if segs:
                hooks.append(segs[0].get("text", "")[:100])
        return hooks[:10]
    
    def get_report(self) -> str:
        """生成分析报告"""
        lines = [
            "="*50,
            "📊 Pattern Analysis Report",
            "="*50,
            f"Total clips: {len(self.clips)}, Total segments: {len(self.all_segments)}",
        ]
        
        lines.append("\n### Attention Transitions")
        for f, tos in self.compute_attention_transitions().items():
            top = sorted(tos.items(), key=lambda x: -x[1])[:3]
            lines.append(f"- `{f}` → " + ", ".join(f"`{t}`:{p:.0%}" for t, p in top))
        
        lines.append("\n### Inferred Interruption Costs")
        for focus, cost in self.infer_baseline_costs().items():
            bar = "█" * int(cost * 10) + "░" * (10 - int(cost * 10))
            lines.append(f"- `{focus}`: {bar} {cost:.2f}")
        
        lines.append("\n### Top Catchphrases")
        cps = self.extract_catchphrases()[:10]
        lines.append(", ".join(f'"{c}"({n})' for c, n in cps))
        
        return "\n".join(lines)

### 2.2 加载标注数据

In [4]:
# 加载标注数据
DATA_PATH = PROJECT_ROOT / "data" / "annotated_clips.json"

with open(DATA_PATH, "r", encoding="utf-8") as f:
    annotated_clips = json.load(f)

print(f"✅ 加载了 {len(annotated_clips)} 个clips")

# 创建分析器
analyzer = PatternAnalyzer(annotated_clips)

# 显示报告
display(Markdown(analyzer.get_report()))

✅ 加载了 30 个clips


==================================================
📊 Pattern Analysis Report
==================================================
Total clips: 30, Total segments: 101

### Attention Transitions
- `specific` → `self`:58%, `specific`:25%, `audience`:17%
- `audience` → `audience`:40%, `self`:40%, `specific`:13%
- `self` → `self`:59%, `audience`:27%, `content`:7%
- `content` → `self`:33%, `content`:33%, `audience`:33%

### Inferred Interruption Costs
- `self`: ██████████ 1.00
- `audience`: ███░░░░░░░ 0.33
- `specific`: ██░░░░░░░░ 0.20

### Top Catchphrases
"you know"(13), "like"(11), "我觉得"(4), "对吧"(3), "you know what I mean"(3), "uhm"(3), "what the f***"(3), "对不对"(2), "我跟你们说"(2), "oh my god"(2)

In [5]:
# 查看示例数据
print("\n📝 开场 Hook 示例 (中文):")
for i, hook in enumerate(analyzer.extract_hooks("zh")[:3], 1):
    print(f"  {i}. {hook[:60]}...")

print("\n📝 叙事骨架示例:")
for skel, count in analyzer.extract_skeletons()[:5]:
    print(f"  [{count}次] {skel[:50]}...")


📝 开场 Hook 示例 (中文):
  1. 所以说你只能把这条路走完，这个就是很多时候我们会很畏首畏尾的一个原因，就是因为有这个沉没成本在这里。...
  2. 猫猫怎么了？你也想要上镜是不是，小猫猫？小猫猫你也想要上镜，那你上镜啊，小猫猫！你上镜我就给你准备上镜礼物。是陈子又冠名...
  3. 谢谢XX的SC，"也可以先从宝宝起名开始"。不行不行不行，给活物起名是我的第一线。有很多人啊，他做选择是什么，他就想赖别...

📝 叙事骨架示例:
  [1次] 共情→自我经历→对比→建议→升华...
  [1次] 互动→抱怨→对比（外面的猫）→感慨→收尾...
  [1次] 拒绝→心理分析（举例）→延伸（宠物/孩子）→总结...
  [1次] 吐槽→自我发现→担忧→自嘲→反转...
  [1次] 开场悬念→背景铺垫（穷）→核心故事（偷吃腰果）→高潮（坦白）→释放→收尾（广告）...


## Part 3: TTS 语音合成（通义千问）

包含：
- TTSClient 核心类
- Voice Design 自定义音色
- 音色缓存机制
- 测试工具

In [6]:
class TTSClient:
    """通义千问 CosyVoice TTS 客户端（增强版）"""
    
    # 📋 所有可用音色列表（从官方文档提取 2025-11-27）
    # 参考: https://help.aliyun.com/zh/model-studio/qwen-tts-realtime
    AVAILABLE_VOICES = [
        # ===== 🎀 可爱/萌系女声 =====
        "Cherry",           # 芊悦 - 阳光积极、亲切自然小姐姐
        "Serena",           # 苏瑶 - 温柔小姐姐
        "Chelsie",          # 千雪 - 二次元虚拟女友 ⭐推荐VTuber
        "Momo",             # 茉兔 - 撒娇搞怪，逗你开心 ⭐推荐VTuber
        "Vivian",           # 十三 - 拽拽的，可爱的小暴躁
        "Bunny",            # 萌小姬 - 萌属性爆棚的小萝莉 ⭐推荐VTuber
        "Bella",            # 萌宝 - 喝酒不打醉拳的小萝莉
        "Mia",              # 乖小妹 - 温顺如春水，乖巧如初雪
        "Stella",           # 少女阿月 - 甜到发腻的迷糊少女音
        "Nini",             # 声拉长了的'哥哥'，甜得骨头都酥了
        
        # ===== 👩 知性/成熟女声 =====
        "Katerina",         # 卡捷琳娜 - 御姐音色，韵律回味十足
        "Maia",             # 四月 - 知性与温柔的碰撞
        "Seren",            # 小婉 - 温和舒缓，助眠声线
        "Bellona",          # 燕铮莹 - 声音洪亮，吐字清晰，热血江湖
        "Elias",            # 墨讲师 - 学科严谨，叙事技巧
        "Jennifer",         # 詹妮弗 - 品牌级电影质感美语女声
        
        # ===== 👨 阳光/年轻男声 =====
        "Ethan",            # 晨煦 - 标准普通话，阳光温暖活力朝气
        "Ryan",             # 甜茶 - 节奏拉满，戏感炸裂
        "Aiden",            # 艾登 - 精通厨艺的美语大男孩
        "Moon",             # 月白 - 率性帅气
        "Kai",              # 凯 - 耳朵的一场SPA
        "Nofish",           # 不吃鱼 - 不会翘舌音的设计师
        
        # ===== 👴 成熟/磁性男声 =====
        "Andre",            # 安德雷 - 声音磁性，自然舒服沉稳
        "Vincent",          # 田叔 - 沙哑烟嗓，千军万马江湖豪情
        "Eldric_Sage",      # 沧明子 - 沉稳睿智老者，沧桑如松
        "Arthur",           # 徐大爷 - 质朴嗓音，满村奇闻异事
        "Neil",             # 阿闻 - 专业新闻主持人，字正腔圆
        
        # ===== 🌍 外语/方言特色 =====
        "Dolce",            # 多尔切 - 慵懒意大利大叔（男）
        "Sohee",            # 素熙 - 温柔开朗韩国欧尼（女）
        "Ono_Anna",         # 小野杏 - 鬼灵精怪青梅竹马（女，日系）
        "Lenn",             # 莱恩 - 叛逆德国青年（男）
        "Emilien",          # 埃米尔安 - 浪漫法国大哥哥（男）
        "Li",               # 南京老李 - 耐心瑜伽老师（男，南京话）
        "Marcus",           # 秦川 - 老陕味道（男，陕西话）
        "Roy",              # 阿杰 - 诙谐直爽台湾哥仔（男，闽南语）
        "Peter",            # 李彼得 - 天津相声捧哏（男，天津话）
        "Sunny",            # 晴儿 - 甜到心里的川妹子（女，四川话）
        "Eric",             # 程川 - 跳脱市井成都男子（男，四川话）
        
        # ===== 👶 儿童/特殊 =====
        "Mochi",            # 沙小弥 - 聪明伶俐小大人，童真早慧（男童）
        "Pip",              # 顽屁小孩 - 调皮捣蛋充满童真（男童）
        "Ebona",            # 诡婆婆 - 幽暗角落，童年阴影恐惧（特殊）
    ]
    
    # 🎯 VTuber推荐音色
    VTUBER_RECOMMENDED = ["Chelsie", "Momo", "Bunny", "Cherry", "Vivian", "Stella"]
    
    def __init__(self):
        self.enabled = False
        self.synthesizer_class = None
        self.audio_format = None
        
        # 情绪控制参数
        self.rate = 1.0      # 语速 0.5-2.0
        self.pitch = 0       # 音调 -500到500
        self.volume = 50     # 音量 0-100
        
        # 录制缓存
        self.recording_buffer = []
        
        # Voice Design 音色缓存（避免重复创建）
        # 格式: {(emotion, base_voice, intensity): voice_name}
        self.voice_cache = {}
        
        # 音色配置文件路径
        self.voice_cache_file = PROJECT_ROOT / "output" / "voice_cache.json"
        
        # 加载已保存的音色缓存
        self._load_voice_cache()
        
        api_key = os.getenv("DASHSCOPE_API_KEY")
        if api_key:
            try:
                import dashscope
                from dashscope.audio.tts_v2 import SpeechSynthesizer, AudioFormat
                
                dashscope.api_key = api_key
                self.synthesizer_class = SpeechSynthesizer
                self.audio_format = AudioFormat.MP3_22050HZ_MONO_256KBPS
                self.model = os.getenv("TTS_MODEL", "cosyvoice-v3-flash")
                self.voice = os.getenv("TTS_VOICE", "Bella")  # 默认音色改为Bella（萌宝 - 喝酒不打醉拳的小萝莉）
                self.enabled = True
                print(f"✅ TTS 已启用: model={self.model}, voice={self.voice}")
                print(f"   情绪参数: rate={self.rate}, pitch={self.pitch}, volume={self.volume}")
                print(f"   可用音色: {len(self.AVAILABLE_VOICES)} 个")
            except ImportError:
                print("⚠️ dashscope 未安装")
        else:
            print("⚠️ 未设置 DASHSCOPE_API_KEY，TTS 已禁用")
    
    def synthesize(self, text: str, emotion_boost: float = 0.0) -> Optional[bytes]:
        """
        合成语音，返回音频数据（使用 QwenTtsRealtime API）
        
        Args:
            text: 要合成的文本
            emotion_boost: 情绪增强系数 0.0-1.0（暂未实现，保留接口）
                          0.0 = 正常语速
                          1.0 = 最大情绪变化（语速±50%，音调±200）
        
        Returns:
            MP3格式的音频数据（bytes），失败返回None
        """
        # #region agent log
        import json, time, os
        log_path = r"d:\vtuberclip\echuu-agent\.cursor\debug.log"
        try:
            os.makedirs(os.path.dirname(log_path), exist_ok=True)
            with open(log_path, "a", encoding="utf-8") as f:
                f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"A","location":"TTSClient.synthesize:entry","message":"synthesize called","data":{"text_len":len(text),"emotion_boost":emotion_boost,"voice":self.voice,"enabled":self.enabled},"timestamp":int(time.time()*1000)})+"\n")
        except Exception as log_err:
            print(f"[DEBUG] Log error: {log_err}")
        # #endregion
        
        if not self.enabled:
            return None
        
        try:
            from dashscope.audio.qwen_tts_realtime import QwenTtsRealtime, QwenTtsRealtimeCallback, AudioFormat
            from pydub import AudioSegment
            
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"B","location":"TTSClient.synthesize:before_realtime","message":"before QwenTtsRealtime init","data":{"voice":self.voice,"model":"qwen3-tts-flash-realtime"},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            
            # 使用 qwen3-tts-flash-realtime 模型（支持预设音色如 Bella）
            model = 'qwen3-tts-flash-realtime'
            voice_name = self.voice
            
            # 创建回调收集音频
            audio_chunks = []
            complete_event = threading.Event()
            
            class TempCallback(QwenTtsRealtimeCallback):
                def on_event(self, response):
                    # #region agent log
                    try:
                        with open(log_path, "a", encoding="utf-8") as f:
                            f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"C","location":"TempCallback.on_event","message":"callback event","data":{"type":response.get('type')},"timestamp":int(time.time()*1000)})+"\n")
                    except: pass
                    # #endregion
                    
                    if response.get('type') == 'response.audio.delta':
                        audio_chunks.append(base64.b64decode(response['delta']))
                    elif response.get('type') == 'session.finished':
                        complete_event.set()
            
            callback = TempCallback()
            
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"D","location":"TTSClient.synthesize:before_connect","message":"before connect","data":{"model":model,"voice":voice_name},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            
            # 重试逻辑：websocket 连接可能因网络问题失败
            max_retries = 3
            last_error = None
            
            for attempt in range(max_retries):
                try:
                    qwen_tts = QwenTtsRealtime(
                        model=model,
                        callback=callback,
                        url='wss://dashscope.aliyuncs.com/api-ws/v1/realtime'
                    )
                    qwen_tts.connect()
                    break  # 连接成功，跳出重试循环
                except TimeoutError as e:
                    last_error = e
                    if attempt < max_retries - 1:
                        print(f"[TTS] 连接超时，重试 {attempt + 2}/{max_retries}...")
                        time.sleep(2)  # 等待2秒后重试
                    else:
                        raise  # 最后一次尝试仍然失败，抛出异常
            
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"E","location":"TTSClient.synthesize:after_connect","message":"after connect","data":{},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            
            # 设置音色和参数（server_commit 模式）
            qwen_tts.update_session(
                voice=voice_name,
                response_format=AudioFormat.PCM_24000HZ_MONO_16BIT,
                mode='server_commit'
            )
            
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"F","location":"TTSClient.synthesize:after_update_session","message":"after update_session","data":{"voice":voice_name},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            
            # 发送文本
            qwen_tts.append_text(text)
            qwen_tts.finish()
            
            # 等待完成（最多30秒）
            complete_event.wait(timeout=30)
            qwen_tts.close()
            
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"G","location":"TTSClient.synthesize:after_finish","message":"after finish","data":{"audio_chunks_count":len(audio_chunks)},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            
            if audio_chunks:
                # 将PCM转换为MP3
                pcm_data = b''.join(audio_chunks)
                audio = AudioSegment(
                    pcm_data,
                    frame_rate=24000,
                    channels=1,
                    sample_width=2
                )
                mp3_buffer = io.BytesIO()
                audio.export(mp3_buffer, format="mp3")
                audio_data = mp3_buffer.getvalue()
                
                # #region agent log
                try:
                    with open(log_path, "a", encoding="utf-8") as f:
                        f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"H","location":"TTSClient.synthesize:success","message":"synthesize success","data":{"audio_size":len(audio_data)},"timestamp":int(time.time()*1000)})+"\n")
                except: pass
                # #endregion
                
                # 添加到录制缓存
                if audio_data:
                    self.recording_buffer.append(audio_data)
                
                return audio_data
            else:
                # #region agent log
                try:
                    with open(log_path, "a", encoding="utf-8") as f:
                        f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"I","location":"TTSClient.synthesize:no_audio","message":"no audio chunks received","data":{},"timestamp":int(time.time()*1000)})+"\n")
                except: pass
                # #endregion
                print("[TTS] 未收到音频数据")
                return None
                
        except Exception as e:
            # #region agent log
            try:
                with open(log_path, "a", encoding="utf-8") as f:
                    f.write(json.dumps({"sessionId":"debug-session","runId":"run1","hypothesisId":"J","location":"TTSClient.synthesize:error","message":"synthesize error","data":{"error":str(e),"error_type":type(e).__name__},"timestamp":int(time.time()*1000)})+"\n")
            except: pass
            # #endregion
            print(f"[TTS] 错误: {e}")
            import traceback
            traceback.print_exc()
            return None
    
    def change_voice(self, voice: str):
        """切换音色"""
        if voice in self.AVAILABLE_VOICES:
            self.voice = voice
            print(f"🔊 音色已切换为: {voice}")
        else:
            print(f"⚠️ 未知音色: {voice}")
            print(f"   可用音色: {', '.join(self.AVAILABLE_VOICES[:5])}...")
    
    def set_emotion_params(self, rate: float = None, pitch: int = None, volume: int = None):
        """设置情绪参数"""
        if rate is not None:
            self.rate = max(0.5, min(2.0, rate))
        if pitch is not None:
            self.pitch = max(-500, min(500, pitch))
        if volume is not None:
            self.volume = max(0, min(100, volume))
        print(f"🎛️ 情绪参数已更新: rate={self.rate}, pitch={self.pitch}, volume={self.volume}")
    
    def start_recording(self):
        """开始录制"""
        self.recording_buffer = []
        print("🔴 开始录制直播音频...")
    
    def save_recording(self, output_path: str):
        """保存录制的音频"""
        if not self.recording_buffer:
            print("⚠️ 没有可保存的音频")
            return
        
        try:
            from pydub import AudioSegment
            import io
            
            # 合并所有音频片段
            combined = AudioSegment.empty()
            for audio_data in self.recording_buffer:
                audio = AudioSegment.from_file(io.BytesIO(audio_data), format="mp3")
                combined += audio
            
            # 保存
            combined.export(output_path, format="mp3")
            print(f"💾 直播音频已保存到: {output_path}")
            print(f"   总时长: {len(combined)/1000:.1f}秒")
        except ImportError:
            print("⚠️ 需要安装 pydub: pip install pydub")
            # 简单保存：拼接原始数据（不推荐）
            with open(output_path, "wb") as f:
                for audio_data in self.recording_buffer:
                    f.write(audio_data)
            print(f"💾 音频已保存（未合并）: {output_path}")
        except Exception as e:
            print(f"❌ 保存失败: {e}")
    
    # ==================== Voice Design 功能 ====================
    
    def _load_voice_cache(self):
        """从文件加载音色缓存"""
        if self.voice_cache_file.exists():
            try:
                with open(self.voice_cache_file, "r", encoding="utf-8") as f:
                    self.voice_cache = json.load(f)
                print(f"✅ 已加载 {len(self.voice_cache)} 个已保存的音色")
            except Exception as e:
                print(f"⚠️ 加载音色缓存失败: {e}")
                self.voice_cache = {}
        else:
            self.voice_cache = {}
    
    def _save_voice_cache(self):
        """保存音色缓存到文件"""
        try:
            self.voice_cache_file.parent.mkdir(parents=True, exist_ok=True)
            with open(self.voice_cache_file, "w", encoding="utf-8") as f:
                json.dump(self.voice_cache, f, ensure_ascii=False, indent=2)
        except Exception as e:
            print(f"⚠️ 保存音色缓存失败: {e}")
    
    def get_voice_cache_key(self, emotion: str, base_voice: str, intensity: float) -> str:
        """生成音色缓存的键"""
        # 将intensity四舍五入到1位小数，避免浮点数精度问题
        intensity_rounded = round(intensity, 1)
        # 将小数点替换为下划线，确保preferred_name只包含字母、数字和下划线
        intensity_str = str(intensity_rounded).replace('.', '_')
        return f"{base_voice}_{emotion}_{intensity_str}"
    
    def list_saved_voices(self) -> Dict[str, str]:
        """列出所有已保存的音色"""
        return self.voice_cache.copy()
    
    def get_or_create_voice(self,
                           emotion: str = "neutral",
                           base_voice: str = "Bella",
                           intensity: float = 0.5,
                           force_create: bool = False) -> Optional[str]:
        """
        获取或创建音色（带缓存）
        
        Args:
            emotion: 情绪类型
            base_voice: 基础音色
            intensity: 情绪强度
            force_create: 是否强制重新创建（忽略缓存）
        
        Returns:
            音色名称，失败返回None
        """
        cache_key = self.get_voice_cache_key(emotion, base_voice, intensity)
        
        # 检查缓存
        if not force_create and cache_key in self.voice_cache:
            voice_name = self.voice_cache[cache_key]
            print(f"✅ 使用已保存的音色: {voice_name} (缓存键: {cache_key})")
            return voice_name
        
        # 创建新音色
        print(f"🎨 创建新音色 (缓存键: {cache_key})...")
        voice_name = self.create_voice_with_emotion(
            emotion=emotion,
            base_voice=base_voice,
            intensity=intensity,
            preferred_name=cache_key  # 使用缓存键作为音色名称
        )
        
        if voice_name:
            # 保存到缓存
            self.voice_cache[cache_key] = voice_name
            self._save_voice_cache()
            print(f"💾 音色已保存到缓存: {cache_key} -> {voice_name}")
        
        return voice_name
    
    def generate_emotion_prompt(self, 
                                emotion: str = "neutral",
                                base_voice: str = "Bella",
                                intensity: float = 0.5,
                                additional_attributes: str = "") -> str:
        """
        生成情绪描述提示词（voice_prompt）
        
        Args:
            emotion: 情绪类型 (neutral, happy, sad, excited, angry, gentle, serious, etc.)
            base_voice: 基础音色描述 (默认Bella: 萌宝小萝莉)
            intensity: 情绪强度 0.0-1.0
            additional_attributes: 额外的声学属性描述
        
        Returns:
            完整的voice_prompt描述文本
        """
        # 基础音色描述
        base_descriptions = {
            "Bella": "萌宝小萝莉，音色稚嫩可爱",
            "Cherry": "阳光积极、亲切自然的小姐姐",
            "Ethan": "标准普通话，阳光温暖的男性声音",
            "Serena": "温柔的小姐姐",
        }
        base_desc = base_descriptions.get(base_voice, "年轻女性声音")
        
        # 情绪描述映射
        emotion_descriptions = {
            "neutral": "平静自然",
            "happy": "开心愉快，语调上扬，充满活力",
            "sad": "悲伤低沉，语速偏慢，情绪浓烈，带有哭腔，语调哀怨",
            "excited": "兴奋激动，语调不断上扬，快速而充满活力的节奏，音量响亮",
            "angry": "愤怒严厉，音量增大，语速加快，语调强硬",
            "gentle": "温柔舒缓，语速适中，音调柔和",
            "serious": "严肃认真，语调平稳，发音清晰精准",
            "playful": "调皮活泼，音调偏高且起伏明显，营造出黏人、做作的听觉效果",
            "enthusiastic": "热情洋溢，高亢的嗓音，语调随兴奋情绪不断上扬",
            "crying": "极度悲伤，带着明显哭腔，声音沙哑，语速缓慢，情感强烈",
        }
        
        emotion_desc = emotion_descriptions.get(emotion.lower(), emotion)
        
        # 根据强度调整描述
        if intensity > 0.7:
            intensity_modifier = "非常"
        elif intensity > 0.4:
            intensity_modifier = ""
        else:
            intensity_modifier = "略微"
        
        # 构建完整描述
        prompt_parts = [f"{base_desc}"]
        
        if emotion != "neutral":
            prompt_parts.append(f"{intensity_modifier}{emotion_desc}")
        
        if additional_attributes:
            prompt_parts.append(additional_attributes)
        
        # 添加通用描述
        prompt_parts.append("发音清晰，表达自然流畅")
        
        full_prompt = "，".join(prompt_parts) + "。"
        
        return full_prompt
    
    def create_voice_with_emotion(self,
                                  emotion: str = "neutral",
                                  base_voice: str = "Bella",
                                  intensity: float = 0.5,
                                  preview_text: str = "你好，我是AI主播，今天来给大家讲个有趣的故事！",
                                  preferred_name: str = None,
                                  language: str = "zh",
                                  additional_attributes: str = "") -> Optional[str]:
        """
        使用Voice Design API创建带情绪的自定义音色
        
        Args:
            emotion: 情绪类型
            base_voice: 基础音色
            intensity: 情绪强度 0.0-1.0
            preview_text: 预览文本
            preferred_name: 音色名称（可选）
            language: 语言代码 (zh/en)
            additional_attributes: 额外的声学属性描述
        
        Returns:
            创建的音色名称，失败返回None
        """
        if not self.enabled:
            print("⚠️ TTS 未启用")
            return None
        
        try:
            import requests
            import base64
            
            api_key = os.getenv("DASHSCOPE_API_KEY")
            if not api_key:
                print("⚠️ 未设置 DASHSCOPE_API_KEY")
                return None
            
            # 生成voice_prompt
            voice_prompt = self.generate_emotion_prompt(
                emotion=emotion,
                base_voice=base_voice,
                intensity=intensity,
                additional_attributes=additional_attributes
            )
            
            # 生成音色名称（确保符合API要求：只包含字母、数字、下划线，最大16字符）
            if not preferred_name:
                # 使用缓存键格式，但需要清理以确保符合API要求
                cache_key = self.get_voice_cache_key(emotion, base_voice, intensity)
                preferred_name = cache_key
            else:
                # 清理preferred_name：只保留字母、数字、下划线
                import re
                preferred_name = re.sub(r'[^a-zA-Z0-9_]', '_', preferred_name)
            
            # 确保长度不超过16字符
            if len(preferred_name) > 16:
                preferred_name = preferred_name[:16]
            
            # API端点（根据地域选择）
            # 北京地域: https://dashscope.aliyuncs.com/api/v1/services/audio/tts/customization
            # 新加坡地域: https://dashscope-intl.aliyuncs.com/api/v1/services/audio/tts/customization
            url = os.getenv("DASHSCOPE_URL", "https://dashscope.aliyuncs.com/api/v1/services/audio/tts/customization")
            if "intl" not in url and "dashscope.aliyuncs.com" in url:
                # 默认使用北京地域
                pass
            
            headers = {
                "Authorization": f"Bearer {api_key}",
                "Content-Type": "application/json"
            }
            
            data = {
                "model": "qwen-voice-design",
                "input": {
                    "action": "create",
                    "target_model": "qwen3-tts-vd-realtime-2025-12-16",
                    "voice_prompt": voice_prompt,
                    "preview_text": preview_text,
                    "preferred_name": preferred_name,
                    "language": language
                },
                "parameters": {
                    "sample_rate": 24000,
                    "response_format": "wav"
                }
            }
            
            print(f"🎨 正在创建自定义音色...")
            print(f"   情绪: {emotion} (强度: {intensity:.1f})")
            print(f"   描述: {voice_prompt[:50]}...")
            
            response = requests.post(url, headers=headers, json=data, timeout=60)
            
            if response.status_code == 200:
                result = response.json()
                voice_name = result["output"]["voice"]
                
                # 保存预览音频（可选）
                if "preview_audio" in result["output"]:
                    base64_audio = result["output"]["preview_audio"]["data"]
                    audio_bytes = base64.b64decode(base64_audio)
                    preview_filename = f"{voice_name}_preview.wav"
                    with open(preview_filename, "wb") as f:
                        f.write(audio_bytes)
                    print(f"✅ 音色创建成功: {voice_name}")
                    print(f"   预览音频已保存: {preview_filename}")
                else:
                    print(f"✅ 音色创建成功: {voice_name}")
                
                return voice_name
            else:
                print(f"❌ 创建音色失败: {response.status_code}")
                print(f"   错误信息: {response.text}")
                return None
                
        except Exception as e:
            print(f"❌ 创建音色时出错: {e}")
            import traceback
            traceback.print_exc()
            return None
    
    def synthesize_with_emotion(self,
                     text: str,
                     emotion: str = "neutral",
                     base_voice: str = "Bella",
                     intensity: float = 0.5,
                     use_voice_design: bool = True,
                     additional_attributes: str = "") -> Optional[bytes]:
        """
        使用指定情绪合成语音
        
        Args:
            text: 要合成的文本
            emotion: 情绪类型
            base_voice: 基础音色
            intensity: 情绪强度
            use_voice_design: 是否使用Voice Design API（True）或使用系统音色+emotion_boost（False）
            additional_attributes: 额外的声学属性描述
        
        Returns:
            音频数据
        """
        if not self.enabled:
            return None
        
        if use_voice_design:
            # 使用Voice Design获取或创建自定义音色（带缓存）
            voice_name = self.get_or_create_voice(
                emotion=emotion,
                base_voice=base_voice,
                intensity=intensity,
                force_create=False  # 使用缓存，避免重复创建
            )
            
            if voice_name:
                # 使用创建的自定义音色进行合成
                # 注意：需要使用qwen3-tts-vd-realtime-2025-12-16模型
                try:
                    from dashscope.audio.qwen_tts_realtime import QwenTtsRealtime, AudioFormat
                    import threading
                    import time
                    import base64
                    
                    # 创建临时回调来收集音频
                    audio_chunks = []
                    complete_event = threading.Event()
                    
                    class TempCallback:
                        def on_event(self, response):
                            if response.get('type') == 'response.audio.delta':
                                audio_chunks.append(base64.b64decode(response['delta']))
                            elif response.get('type') == 'session.finished':
                                complete_event.set()
                    
                    callback = TempCallback()
                    qwen_tts = QwenTtsRealtime(
                        model="qwen3-tts-vd-realtime-2025-12-16",
                        callback=callback,
                        url='wss://dashscope.aliyuncs.com/api-ws/v1/realtime'
                    )
                    
                    qwen_tts.connect()
                    qwen_tts.update_session(
                        voice=voice_name,
                        response_format=AudioFormat.PCM_24000HZ_MONO_16BIT,
                        mode='server_commit'
                    )
                    
                    qwen_tts.append_text(text)
                    qwen_tts.finish()
                    complete_event.wait(timeout=30)
                    qwen_tts.close()
                    
                    if audio_chunks:
                        # 将PCM转换为MP3（需要pydub）
                        try:
                            from pydub import AudioSegment
                            import io
                            import numpy as np
                            
                            # 合并PCM数据
                            pcm_data = b''.join(audio_chunks)
                            # 转换为AudioSegment
                            audio = AudioSegment(
                                pcm_data,
                                frame_rate=24000,
                                channels=1,
                                sample_width=2
                            )
                            # 转换为MP3
                            mp3_buffer = io.BytesIO()
                            audio.export(mp3_buffer, format="mp3")
                            audio_data = mp3_buffer.getvalue()
                            
                            if audio_data:
                                self.recording_buffer.append(audio_data)
                            return audio_data
                        except ImportError:
                            print("⚠️ 需要安装 pydub 和 numpy 来转换音频格式")
                            return None
                    else:
                        print("⚠️ 未收到音频数据")
                        return None
                        
                except Exception as e:
                    print(f"❌ 使用自定义音色合成失败: {e}")
                    # 降级到使用系统音色
                    return self.synthesize(text, emotion_boost=intensity)
            else:
                # Voice Design创建失败，降级到系统音色
                print("⚠️ Voice Design创建失败，使用系统音色")
                return self.synthesize(text, emotion_boost=intensity)
        else:
            # 使用系统音色 + emotion_boost
            return self.synthesize(text, emotion_boost=intensity)


# 初始化 TTS
tts = TTSClient()

✅ 已加载 1 个已保存的音色
✅ TTS 已启用: model=cosyvoice-v3-flash, voice=Bella
   情绪参数: rate=1.0, pitch=0, volume=50
   可用音色: 41 个


In [7]:
# 🎤 TTS 测试和音色切换工具
if tts.enabled:
    print("🎤 测试 TTS...")
    test_audio = tts.synthesize("你好，我是echuu AI主播，今天来给大家讲个有趣的故事！")
    if test_audio:
        print(f"✅ 生成音频: {len(test_audio)} bytes")
        display(Audio(test_audio, autoplay=False))
    
    # 显示 VTuber 推荐音色
    print(f"\n⭐ VTuber 推荐音色:")
    for voice in tts.VTUBER_RECOMMENDED:
        print(f"  • {voice}")
    
    # 显示所有可用音色（按分类）
    print(f"\n🎨 所有可用音色 ({len(tts.AVAILABLE_VOICES)}个):")
    categories = {
        "🎀 萌系女声": ["Cherry", "Serena", "Chelsie", "Momo", "Vivian", "Bunny", "Bella", "Mia", "Stella", "Nini"],
        "👩 知性女声": ["Katerina", "Maia", "Seren", "Bellona", "Elias", "Jennifer"],
        "👨 阳光男声": ["Ethan", "Ryan", "Aiden", "Moon", "Kai", "Nofish"],
        "👴 磁性男声": ["Andre", "Vincent", "Eldric_Sage", "Arthur", "Neil"],
        "🌍 方言特色": ["Li", "Marcus", "Roy", "Peter", "Sunny", "Eric"],
        "🌐 外语": ["Dolce", "Sohee", "Ono_Anna", "Lenn", "Emilien"],
        "👶 儿童/特殊": ["Mochi", "Pip", "Ebona"],
    }
    for cat, voices in categories.items():
        print(f"  {cat}: {', '.join(voices)}")
    
    # 测试情绪增强
    print("\n🔥 测试情绪增强 (emotion_boost=0.8):")
    emotional_audio = tts.synthesize("天哪！你们是不是不相信？！真的超级好笑！", emotion_boost=0.8)
    if emotional_audio:
        print(f"✅ 情绪化音频: {len(emotional_audio)} bytes")
        display(Audio(emotional_audio, autoplay=False))
else:
    print("⚠️ TTS 未启用，跳过测试")

# 💡 快速切换音色的辅助函数
def test_voice(voice_name: str, text: str = "你好，我是六螺，这是我的声音测试。"):
    """快速测试某个音色"""
    if not tts.enabled:
        print("⚠️ TTS 未启用")
        return
    
    tts.change_voice(voice_name)
    audio = tts.synthesize(text)
    if audio:
        print(f"🔊 播放音色: {voice_name}")
        display(Audio(audio, autoplay=True))

print("\n💡 使用示例:")
print("   test_voice('Chelsie', '大家好呀~ 我是千雪！今天来讲个有趣的故事~')  # 二次元女友")
print("   test_voice('Momo', '喵~ 今天也要开心哦！')  # 撒娇搞怪")
print("   test_voice('Bunny', '萌萌哒~ 宝贝们好呀！')  # 萝莉音")
print("   test_voice('Ethan', '各位好，今天来给大家讲个故事')  # 阳光男声")

🎤 测试 TTS...
✅ 生成音频: 20589 bytes



⭐ VTuber 推荐音色:
  • Chelsie
  • Momo
  • Bunny
  • Cherry
  • Vivian
  • Stella

🎨 所有可用音色 (41个):
  🎀 萌系女声: Cherry, Serena, Chelsie, Momo, Vivian, Bunny, Bella, Mia, Stella, Nini
  👩 知性女声: Katerina, Maia, Seren, Bellona, Elias, Jennifer
  👨 阳光男声: Ethan, Ryan, Aiden, Moon, Kai, Nofish
  👴 磁性男声: Andre, Vincent, Eldric_Sage, Arthur, Neil
  🌍 方言特色: Li, Marcus, Roy, Peter, Sunny, Eric
  🌐 外语: Dolce, Sohee, Ono_Anna, Lenn, Emilien
  👶 儿童/特殊: Mochi, Pip, Ebona

🔥 测试情绪增强 (emotion_boost=0.8):
✅ 情绪化音频: 18093 bytes



💡 使用示例:
   test_voice('Chelsie', '大家好呀~ 我是千雪！今天来讲个有趣的故事~')  # 二次元女友
   test_voice('Momo', '喵~ 今天也要开心哦！')  # 撒娇搞怪
   test_voice('Bunny', '萌萌哒~ 宝贝们好呀！')  # 萝莉音
   test_voice('Ethan', '各位好，今天来给大家讲个故事')  # 阳光男声


## Part 4: LLM 大模型客户端

In [8]:
class LLMClient:
    """Claude LLM 客户端"""
    
    def __init__(self):
        self.client = None
        self.model = os.getenv("claude-sonnet-4-20250514", "claude-sonnet-4-20250514")
        
        api_key = os.getenv("ANTHROPIC_API_KEY")
        if api_key:
            try:
                import anthropic
                self.client = anthropic.Anthropic(api_key=api_key)
                print(f"✅ LLM 已初始化: {self.model}")
            except ImportError:
                print("⚠️ anthropic 未安装")
        else:
            print("⚠️ 未设置 ANTHROPIC_API_KEY，使用 Mock 模式")
    
    def call(self, prompt: str, system: str = None, max_tokens: int = 1000) -> str:
        """调用 LLM"""
        if self.client:
            try:
                kwargs = {
                    "model": self.model,
                    "max_tokens": max_tokens,
                    "messages": [{"role": "user", "content": prompt}]
                }
                if system:
                    kwargs["system"] = system
                
                response = self.client.messages.create(**kwargs)
                return response.content[0].text
            except Exception as e:
                print(f"[LLM] 错误: {e}")
        
        return self._mock_response(prompt)
    
    def _mock_response(self, prompt: str) -> str:
        """Mock 响应"""
        import random
        
        if "JSON数组" in prompt or "script" in prompt.lower():
            return '''[
{"stage": "Hook", "goal": "用悬念开场", "attention": "audience", "speech_act": "elicit", "duration": 20, "cost": 0.3, "hint": "提问开场"},
{"stage": "Build-up", "goal": "铺垫背景", "attention": "self", "speech_act": "narrate", "duration": 40, "cost": 0.6, "hint": "描述情况"},
{"stage": "Climax", "goal": "关键转折", "attention": "self", "speech_act": "narrate", "duration": 40, "cost": 0.9, "hint": "情感爆发"},
{"stage": "Resolution", "goal": "总结感悟", "attention": "audience", "speech_act": "opine", "duration": 20, "cost": 0.4, "hint": "分享心得"}
]'''
        else:
            return json.dumps({
                "inner_monologue": random.choice(["让我想想...", "有意思...", "继续...", "嗯..."]),
                "decision": "continue",
                "speech": random.choice(["说起这个事儿啊...", "你们知道吗...", "我跟你们讲..."]),
                "emotion": "neutral"
            }, ensure_ascii=False)


# 初始化 LLM
llm = LLMClient()

✅ LLM 已初始化: claude-sonnet-4-20250514


## Part 5: 数据结构定义

包含：
- ScriptLine（剧本台词，含 V3 新字段）
- Danmaku（弹幕）
- PerformerMemory（记忆系统）
- PerformanceState（表演状态）

In [9]:
# ==================== 核心数据结构 ====================

@dataclass
class ScriptLine:
    """剧本台词（带key_info标注 + V3新增字段）"""
    id: str                          # 唯一ID
    text: str                        # 台词内容
    stage: str                       # Hook/Build-up/Climax/Resolution
    interruption_cost: float         # 0.0-1.0
    key_info: List[str] = field(default_factory=list)  # 🔑 关键信息点（用于匹配弹幕）
    
    # V3 新增字段
    disfluencies: List[str] = field(default_factory=list)  # 认知特征标记 ["数字模糊", "自我修正", "跑题"]
    emotion_break: Optional[Dict] = None  # 情绪断点 {"level": 1, "trigger": "想起画面", "recovery": "自嘲化解"}
    
    def __repr__(self):
        info_str = ", ".join(self.key_info[:2])
        emotion_str = f" [情绪L{self.emotion_break['level']}]" if self.emotion_break else ""
        return f"[{self.stage}]{emotion_str} {self.text[:30]}... (keys: {info_str})"


@dataclass
class Danmaku:
    """弹幕（带优先级计算）"""
    text: str
    user: str = "观众"
    is_sc: bool = False
    amount: int = 0              # SC金额
    
    # 计算得出的属性
    relevance: float = 0.0       # 与当前话题的相关性 0.0-1.0
    priority: float = 0.0        # 最终优先级
    
    @classmethod
    def from_text(cls, text: str) -> "Danmaku":
        """解析弹幕"""
        is_sc = False
        amount = 0
        
        # 检测SC
        if "SC" in text or "¥" in text or "$" in text:
            is_sc = True
            # 简单提取金额
            import re
            match = re.search(r'[¥$]?\s*(\d+)', text)
            if match:
                amount = int(match.group(1))
        
        return cls(text=text, is_sc=is_sc, amount=amount)
    
    def is_question(self) -> bool:
        """判断是否是问题"""
        return "?" in self.text or "？" in self.text


@dataclass
class PerformerMemory:
    """
    记忆系统 - 可视化展示AI记住了什么
    """
    
    # 📖 剧本进度
    script_progress: Dict = field(default_factory=lambda: {
        "current_line": 0,
        "total_lines": 0,
        "completed_stages": [],
        "current_stage": "Hook",
    })
    
    # 💬 弹幕记忆
    danmaku_memory: Dict = field(default_factory=lambda: {
        "received": [],          # 收到的所有弹幕
        "responded": [],         # 已回应的
        "ignored": [],           # 被忽略的
        "pending_questions": [], # 待回答的问题
    })
    
    # 🤝 承诺追踪
    promises: List[Dict] = field(default_factory=list)
    # 例如: {"content": "室友生不生气", "made_at_step": 3, "fulfilled": False, "answer_at_line": 9}
    
    # 🎭 故事要点
    story_points: Dict = field(default_factory=lambda: {
        "mentioned": [],         # 已经提到的信息
        "upcoming": [],          # 即将要说的关键点
        "revealed": [],          # 已揭示的"答案"
    })
    
    # 😊 情绪轨迹
    emotion_track: List[Dict] = field(default_factory=list)
    
    def to_display(self) -> str:
        """生成用户可见的记忆状态"""
        lines = []
        lines.append("┌─────────────────────────────────────────────┐")
        lines.append("│ 🧠 AI记忆状态                               │")
        lines.append("├─────────────────────────────────────────────┤")
        
        # 剧本进度
        prog = self.script_progress
        current = prog.get("current_line", 0)
        total = prog.get("total_lines", 0)
        if total > 0:
            percent = int(current / total * 10)
            bar = "█" * percent + "░" * (10 - percent)
            lines.append(f"│ 📖 剧本: [{bar}] {current}/{total} ({prog.get('current_stage', '?')})  │")
        
        # 弹幕记忆
        dm = self.danmaku_memory
        responded = len(dm.get("responded", []))
        pending = len(dm.get("pending_questions", []))
        lines.append(f"│ 💬 弹幕: 已回应{responded}条, 待回答{pending}个问题         │")
        
        # 承诺
        unfulfilled = [p for p in self.promises if not p.get("fulfilled", False)]
        if unfulfilled:
            lines.append("│ 🤝 待兑现承诺:                              │")
            for p in unfulfilled[:2]:
                content = p.get("content", "")[:20]
                lines.append(f"│    • {content}...                         │")
        
        # V3: 情绪轨迹
        if self.emotion_track:
            lines.append("│ 🎭 情绪轨迹:                                │")
            for emo in self.emotion_track[-2:]:
                level_name = {1: "微破防", 2: "明显破防", 3: "完全破防"}.get(emo.get('level', 0), "?")
                trigger = emo.get('trigger', '')[:12]
                lines.append(f"│    {level_name}: {trigger}...              │")
        
        # 已提到要点
        mentioned = self.story_points.get("mentioned", [])
        if mentioned:
            lines.append("│ ✅ 已提到:                                  │")
            for point in mentioned[-3:]:
                lines.append(f"│    ✓ {point[:20]}...                      │")
        
        lines.append("└─────────────────────────────────────────────┘")
        return "\n".join(lines)
    
    def to_context(self) -> str:
        """生成给LLM的上下文摘要"""
        parts = []
        
        # 剧本进度
        prog = self.script_progress
        parts.append(f"剧本进度: {prog.get('current_line')}/{prog.get('total_lines')} ({prog.get('current_stage')})")
        
        # 已提到的信息
        mentioned = self.story_points.get("mentioned", [])
        if mentioned:
            parts.append(f"已提到: {', '.join(mentioned[-5:])}")
        
        # 待回答问题
        pending = self.danmaku_memory.get("pending_questions", [])
        if pending:
            parts.append(f"待回答: {', '.join(q[:20] for q in pending[:3])}")
        
        # 未兑现承诺
        unfulfilled = [p for p in self.promises if not p.get("fulfilled", False)]
        if unfulfilled:
            parts.append(f"待兑现承诺: {', '.join(p['content'][:15] for p in unfulfilled[:2])}")
        
        return " | ".join(parts)


@dataclass
class PerformanceState:
    """表演状态"""
    name: str
    persona: str
    background: str
    topic: str
    
    # 完整剧本（预生成）
    script_lines: List[ScriptLine] = field(default_factory=list)
    current_line_idx: int = 0
    current_step: int = 0
    
    # 记忆系统
    memory: PerformerMemory = field(default_factory=PerformerMemory)
    
    # 弹幕队列
    danmaku_queue: List[Danmaku] = field(default_factory=list)
    
    # 口癖
    catchphrases: List[str] = field(default_factory=list)

## Part 6: 弹幕处理系统

包含：
- DanmakuEvaluator（优先级评估）
- DanmakuHandler（统一处理器）
- SC 响应优化

In [10]:
# ==================== 工具函数 ====================

def extract_keywords(text: str) -> List[str]:
    """提取关键词（简单版）"""
    import re
    # 移除标点
    text = re.sub(r'[，。！？、：；""''（）【】《》…~]', ' ', text)
    # 分词（简单按空格）
    words = text.split()
    # 过滤停用词
    stopwords = {'的', '了', '在', '是', '我', '你', '他', '她', '它', '们', 
                 '这', '那', '有', '和', '就', '不', '也', '都', '说', '很',
                 '吗', '吧', '呢', '啊', '哦', '嗯', '哈', '呀'}
    keywords = [w for w in words if len(w) >= 2 and w not in stopwords]
    return keywords[:5]  # 最多5个


# ==================== 弹幕处理器 ====================

class DanmakuEvaluator:
    """
    弹幕评估器 - 计算优先级
    
    优先级公式:
    priority = base_score + relevance_bonus + sc_bonus
    """
    
    def evaluate(self, danmaku: Danmaku, state: PerformanceState) -> Danmaku:
        """评估单条弹幕"""
        
        # 1. 基础分（提高基础值让弹幕更容易被注意到）
        if danmaku.is_question():
            base = 0.5  # 问题类 - 大幅提升
        elif any(kw in danmaku.text for kw in ["哈哈", "笑死", "真的假的", "！", "牛", "woc", "啊这", "离谱", "绝了"]):
            base = 0.35  # 情绪反馈类 - 提升
        else:
            base = 0.25  # 普通评论 - 提升
        
        # 随机"引起注意"机会（模拟主播随机注意到弹幕）
        import random
        if random.random() < 0.2:  # 20%概率额外加分
            base += 0.3
        
        # 2. 相关性评估
        relevance = self._calc_relevance(danmaku.text, state)
        danmaku.relevance = relevance
        
        if relevance > 0.7:
            relevance_bonus = 0.4  # 高相关
        elif relevance > 0.4:
            relevance_bonus = 0.2  # 中相关
        else:
            relevance_bonus = 0.0  # 低相关
        
        # 3. SC加成
        if danmaku.is_sc:
            if danmaku.amount >= 200:
                sc_bonus = 0.7
            elif danmaku.amount >= 100:
                sc_bonus = 0.5
            elif danmaku.amount >= 50:
                sc_bonus = 0.3
            else:
                sc_bonus = 0.2
        else:
            sc_bonus = 0.0
        
        danmaku.priority = base + relevance_bonus + sc_bonus
        
        return danmaku
    
    def _calc_relevance(self, text: str, state: PerformanceState) -> float:
        """计算弹幕与当前上下文的相关性"""
        # 提取当前故事的关键词
        story_keywords = set()
        for info in state.memory.story_points.get("mentioned", []):
            story_keywords.update(extract_keywords(info))
        for info in state.memory.story_points.get("upcoming", []):
            story_keywords.update(extract_keywords(info))
        
        # 如果没有故事关键词，检查话题
        if not story_keywords:
            story_keywords.update(extract_keywords(state.topic))
        
        # 提取弹幕关键词
        danmaku_keywords = set(extract_keywords(text))
        
        # 计算重叠度
        if not story_keywords:
            return 0.0
        overlap = len(danmaku_keywords & story_keywords)
        return min(overlap / 2, 1.0)  # 2个关键词重叠就算高相关


class DanmakuHandler:
    """
    统一弹幕处理器
    
    所有弹幕走同一流程，根据优先级决定：
    1. 是否打断
    2. 是否复读
    3. 如何回应
    4. 是否改变叙事
    """
    
    def __init__(self, evaluator: DanmakuEvaluator):
        self.evaluator = evaluator
    
    def handle(self, danmaku: Danmaku, state: PerformanceState) -> Dict:
        """
        处理弹幕
        
        Returns:
            {
                "should_interrupt": bool,
                "echo": str,
                "response": str,
                "action": str,  # continue/jump/tease/improvise
            }
        """
        
        # 评估优先级
        danmaku = self.evaluator.evaluate(danmaku, state)
        
        # 获取当前cost
        if state.current_line_idx >= len(state.script_lines):
            current_cost = 0.2  # 结尾阶段
        else:
            current_line = state.script_lines[state.current_line_idx]
            current_cost = current_line.interruption_cost
        
        # 决策：是否打断（降低阈值，让弹幕更容易触发响应）
        # 原: priority > cost, 现在: priority > cost * 0.7（降低30%门槛）
        import random
        effective_cost = current_cost * 0.7
        # 额外的随机打断机会（模拟主播主动看弹幕）
        random_interrupt = random.random() < 0.15  # 15%概率随机打断
        should_interrupt = danmaku.priority > effective_cost or (danmaku.priority > 0.3 and random_interrupt)
        
        if not should_interrupt:
            return {
                "should_interrupt": False,
                "action": "ignore",
                "priority": danmaku.priority,
                "cost": current_cost
            }
        
        # 决定是否复读
        echo = self._maybe_echo(danmaku)
        
        # 查找答案位置
        answer_loc = self._find_answer(danmaku.text, state)
        
        # 生成回应策略
        action = self._decide_action(danmaku, answer_loc, state)
        
        return {
            "should_interrupt": True,
            "echo": echo,
            "action": action,
            "answer_loc": answer_loc,
            "priority": danmaku.priority,
            "cost": current_cost,
            "relevance": danmaku.relevance
        }
    
    def _maybe_echo(self, danmaku: Danmaku) -> str:
        """决定是否复读弹幕"""
        if danmaku.is_sc:
            return f"诶有SC！有人说：{danmaku.text}"
        elif danmaku.priority > 0.5:
            return f"有人说{danmaku.text}，"
        elif danmaku.is_question():
            return f"有人问{danmaku.text}，"
        else:
            return ""  # 不复读
    
    def _find_answer(self, question: str, state: PerformanceState) -> Dict:
        """在剧本中查找问题的答案位置"""
        keywords = extract_keywords(question)
        current_idx = state.current_line_idx
        
        for i, line in enumerate(state.script_lines):
            if i < current_idx:
                continue  # 跳过已经说过的
            
            for info in line.key_info:
                if any(kw in info for kw in keywords):
                    return {
                        "found": True,
                        "line_idx": i,
                        "distance": i - current_idx,
                        "answer_hint": info,
                    }
        
        return {"found": False}
    
    def _decide_action(self, danmaku: Danmaku, answer_loc: Dict, 
                       state: PerformanceState) -> str:
        """
        决定叙事动作
        
        - continue: 回应后继续当前剧本
        - jump: 跳跃到答案位置
        - reveal: 直接揭晓答案
        - tease: 吊胃口
        - improvise: 即兴回答
        """
        
        if not answer_loc.get("found", False):
            return "improvise"
        
        distance = answer_loc.get("distance", 0)
        
        # 根据优先级和距离决定策略
        if danmaku.priority > 0.8:
            # 高优先级（大额SC或高相关问题）
            if distance <= 3:
                return "jump"
            else:
                return "tease"
        elif danmaku.priority > 0.5:
            # 中优先级
            if distance <= 2:
                return "continue"
            else:
                return "tease"
        else:
            # 低优先级
            return "continue"


# 初始化
evaluator = DanmakuEvaluator()
danmaku_handler = DanmakuHandler(evaluator)

print("✅ 弹幕处理器已初始化")
print("  • 优先级公式: priority = base + relevance_bonus + sc_bonus")
print("  • 相关性是最重要因素")


✅ 弹幕处理器已初始化
  • 优先级公式: priority = base + relevance_bonus + sc_bonus
  • 相关性是最重要因素


In [11]:
# 🔥 SC响应优化：提高SC优先级，确保主播积极响应

# 重写 DanmakuEvaluator.evaluate 方法，提高SC加成
original_evaluate = DanmakuEvaluator.evaluate

def enhanced_evaluate(self, danmaku: Danmaku, state: PerformanceState) -> Danmaku:
    """增强版评估：大幅提高SC优先级"""
    # 调用原始评估
    danmaku = original_evaluate(self, danmaku, state)
    
    # 🔥 SC特权增强
    if danmaku.is_sc:
        # 重新计算SC加成（更高的值）
        if danmaku.amount >= 200:
            sc_bonus_extra = 0.3  # 从0.7提升到1.0
        elif danmaku.amount >= 100:
            sc_bonus_extra = 0.3  # 从0.5提升到0.8
        elif danmaku.amount >= 50:
            sc_bonus_extra = 0.3  # 从0.3提升到0.6
        else:
            sc_bonus_extra = 0.2  # 从0.2提升到0.4
        
        danmaku.priority += sc_bonus_extra
        
        # SC特权：低相关性也给保底bonus
        if danmaku.relevance < 0.3:
            danmaku.priority += 0.2  # 保底优先级
    
    return danmaku

# 应用增强
DanmakuEvaluator.evaluate = enhanced_evaluate

# 重新创建弹幕处理器
evaluator = DanmakuEvaluator()
danmaku_handler = DanmakuHandler(evaluator)

print("✅ SC响应已优化：")
print("   • ¥50 SC优先级提升至 ~1.1（可打断大部分阶段）")
print("   • ¥100+ SC优先级提升至 1.3+（可打断任何阶段）")
print("   • 低相关性SC也会获得保底优先级")
print("   • improvise模式已改为积极响应，不再说'与话题无关'")


✅ SC响应已优化：
   • ¥50 SC优先级提升至 ~1.1（可打断大部分阶段）
   • ¥100+ SC优先级提升至 1.3+（可打断任何阶段）
   • 低相关性SC也会获得保底优先级
   • improvise模式已改为积极响应，不再说'与话题无关'


### 6.2 弹幕测试集生成器

生成有"网感"的测试弹幕，用于测试弹幕互动系统：
- 短小精悍（2-15字符）
- 符合真实观众的说话习惯
- 包含各种类型：反应、共情、提问、SC、调侃等

In [12]:
class DanmakuTestGenerator:
    """
    弹幕测试集生成器
    
    从观众视角生成有"网感"的测试弹幕，用于测试弹幕互动系统。
    弹幕特点：短小（2-15字）、口语化、符合直播间氛围。
    """
    
    # 各类型弹幕模板（符合真实直播间风格）
    TEMPLATES = {
        # 情绪反应类（最常见，占40%）
        "reaction": [
            "哈哈哈哈哈", "笑死", "绷不住了", "草", "6", "666",
            "woc", "啊这", "离谱", "真的假的", "好家伙",
            "绝了", "栓Q", "笑嘻了", "蚌埠住了", "难绷",
            "我超", "牛的", "秀", "？？？", "！！！",
            "哈哈哈哈哈哈哈", "笑到头掉", "不是吧", "我去",
            "乐", "这也行", "有点东西", "可以的", "确实",
        ],
        
        # 共情类（观众代入，占20%）
        "empathy": [
            "懂", "我懂", "有画面了", "我也是", "一样一样",
            "太真实了", "就是这种感觉", "我有个朋友也这样",
            "破防了", "我裂开", "心疼", "抱抱", "摸摸",
            "呜呜呜", "哭了", "我哭死", "太惨了", "好可怜",
            "我也想知道", "等一个后续", "然后呢", "继续",
            "说啊", "快说", "别停啊", "还有呢",
        ],
        
        # 调侃/玩梗类（占15%）
        "teasing": [
            "小偷石锤", "这波啊这波是", "格局小了",
            "主播心理素质不行", "典", "节目效果拉满",
            "主播有罪", "腰果:？", "室友在看直播",
            "当事人已进入直播间", "你怎么好意思说出来的",
            "我截图了", "已举报", "警察叔叔就是这个人",
            "社死现场", "建议道歉", "室友来一下",
            "坐等室友发言", "好家伙小偷还能开直播",
        ],
        
        # 问题类（触发回应，占15%）
        "question": [
            "后来呢", "然后呢", "室友知道吗", "现在还联系吗",
            "多少钱的腰果", "哪年的事", "日本哪里",
            "你们现在还住一起吗", "她原谅你了吗",
            "还有这种事？", "真的发生过吗",
            "你怎么想到要说这个的", "今天为啥突然提",
            "有群吗", "有录播吗", "这是第几遍讲了",
        ],
        
        # SC 打赏类（高优先级，占5%）
        "sc": [
            ("SC ¥30 主播多讲点糗事", 30),
            ("SC ¥50 室友看到这个直播会怎么想", 50),
            ("SC ¥100 给主播买腰果", 100),
            ("SC ¥30 你现在还偷吃吗", 30),
            ("SC ¥50 笑死 主播太真实了", 50),
            ("SC ¥200 支持主播 继续社死", 200),
            ("SC ¥30 建议主播去道歉", 30),
            ("SC ¥66.6 太好笑了", 66),
        ],
        
        # 无关/水弹幕类（背景噪音，占5%）
        "offtopic": [
            "刚来", "来了", "打卡", "晚上好",
            "主播今天穿得好看", "头发换了？", "这个麦有回音",
            "画质好清晰", "有人吗", "几点下播",
            "明天播吗", "有没有周边", "在哪关注",
            "路过", "看看", "来听故事的",
        ],
    }
    
    # 类型权重分布
    TYPE_WEIGHTS = {
        "reaction": 0.40,
        "empathy": 0.20,
        "teasing": 0.15,
        "question": 0.15,
        "sc": 0.05,
        "offtopic": 0.05,
    }
    
    def __init__(self):
        self.used_danmaku = set()  # 避免重复
    
    def generate(self, count: int = 100, topic_keywords: List[str] = None) -> List[Danmaku]:
        """
        生成测试弹幕集
        
        Args:
            count: 生成数量
            topic_keywords: 话题关键词（用于生成相关弹幕）
        
        Returns:
            List[Danmaku]
        """
        import random
        
        danmaku_list = []
        types = list(self.TYPE_WEIGHTS.keys())
        weights = list(self.TYPE_WEIGHTS.values())
        
        # 用户名池
        usernames = [
            "路人甲", "小明同学", "夜猫子", "睡不着的", "摸鱼人",
            "吃瓜群众", "打工人", "社畜一号", "深夜听众", "老粉",
            "新来的", "白嫖党", "年费会员", "舰长大大", "提督",
            "萌新", "潜水员", "划水大师", "咸鱼本鱼", "干饭人",
        ]
        
        for _ in range(count):
            # 按权重选择类型
            danmaku_type = random.choices(types, weights=weights)[0]
            templates = self.TEMPLATES[danmaku_type]
            
            # 选择模板
            if danmaku_type == "sc":
                template = random.choice(templates)
                text, amount = template
                is_sc = True
            else:
                text = random.choice(templates)
                # 避免完全重复
                attempts = 0
                while text in self.used_danmaku and attempts < 10:
                    text = random.choice(templates)
                    attempts += 1
                self.used_danmaku.add(text)
                is_sc = False
                amount = 0
            
            # 创建 Danmaku 对象
            danmaku = Danmaku(
                text=text,
                user=random.choice(usernames),
                is_sc=is_sc,
                amount=amount if is_sc else 0
            )
            danmaku_list.append(danmaku)
        
        return danmaku_list
    
    def generate_contextual(self, topic: str, key_info: List[str], count: int = 50) -> List[Danmaku]:
        """
        根据话题和关键信息生成上下文相关的弹幕
        
        Args:
            topic: 话题（如"留学时偷吃室友腰果的故事"）
            key_info: 关键信息列表（如["日本合租", "室友很好", "零食在厨房"]）
            count: 生成数量
        
        Returns:
            List[Danmaku]
        """
        import random
        
        # 基础弹幕
        danmaku_list = self.generate(count=int(count * 0.6))
        
        # 添加与话题相关的弹幕
        contextual_templates = []
        
        # 根据关键词动态生成
        if "日本" in topic or "留学" in topic:
            contextual_templates.extend([
                "日本哪个城市", "汇率多少", "学费贵吗", "留学生活好吗",
            ])
        if "室友" in topic or "合租" in topic:
            contextual_templates.extend([
                "室友现在知道吗", "你们还联系吗", "室友人真好",
            ])
        if "偷吃" in topic or "腰果" in topic:
            contextual_templates.extend([
                "腰果杀手", "小偷主播", "腰果好吃吗", "什么牌子的不重要",
            ])
        
        # 根据 key_info 生成追问
        for info in key_info[:5]:  # 最多5个
            if len(info) < 10:
                contextual_templates.append(f"{info}？")
                contextual_templates.append(f"等等 {info} 是什么意思")
        
        # 添加上下文弹幕
        usernames = ["好奇宝宝", "追问侠", "细节党", "考古学家", "弹幕侦探"]
        for _ in range(int(count * 0.4)):
            if contextual_templates:
                text = random.choice(contextual_templates)
                danmaku = Danmaku(
                    text=text,
                    user=random.choice(usernames),
                    is_sc=False,
                    amount=0
                )
                danmaku_list.append(danmaku)
        
        random.shuffle(danmaku_list)
        return danmaku_list
    
    def save_test_set(self, danmaku_list: List[Danmaku], filepath: str):
        """保存测试集到文件"""
        data = [
            {
                "text": d.text,
                "user": d.user,
                "is_sc": d.is_sc,
                "amount": d.amount
            }
            for d in danmaku_list
        ]
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(data, f, ensure_ascii=False, indent=2)
        print(f"✅ 保存了 {len(data)} 条测试弹幕到 {filepath}")
    
    def load_test_set(self, filepath: str) -> List[Danmaku]:
        """从文件加载测试集"""
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
        return [
            Danmaku(
                text=d["text"],
                user=d["user"],
                is_sc=d.get("is_sc", False),
                amount=d.get("amount", 0)
            )
            for d in data
        ]

# 全局实例
danmaku_generator = DanmakuTestGenerator()
print("✅ 弹幕测试集生成器已初始化")
print(f"   支持类型: {list(DanmakuTestGenerator.TYPE_WEIGHTS.keys())}")

✅ 弹幕测试集生成器已初始化
   支持类型: ['reaction', 'empathy', 'teasing', 'question', 'sc', 'offtopic']


In [13]:
# ==================== 弹幕测试集使用示例 ====================

# 生成100条通用测试弹幕
test_danmaku = danmaku_generator.generate(count=100)
print(f"生成了 {len(test_danmaku)} 条测试弹幕")

# 统计类型分布
type_count = {"sc": 0, "question": 0, "other": 0}
for d in test_danmaku:
    if d.is_sc:
        type_count["sc"] += 1
    elif d.is_question():
        type_count["question"] += 1
    else:
        type_count["other"] += 1
print(f"类型分布: SC={type_count['sc']}, 问题={type_count['question']}, 其他={type_count['other']}")

# 展示前20条
print("\n📝 前20条弹幕示例:")
for i, d in enumerate(test_danmaku[:20]):
    sc_tag = " [SC]" if d.is_sc else ""
    q_tag = " [问]" if d.is_question() else ""
    print(f"  {i+1:2d}. [{d.user}]{sc_tag}{q_tag}: {d.text}")

# 生成话题相关弹幕
print("\n" + "="*50)
print("📝 话题相关弹幕（腰果故事）:")
contextual = danmaku_generator.generate_contextual(
    topic="留学时偷吃室友腰果的故事",
    key_info=["日本合租", "室友很好", "偷吃腰果", "心理滑坡"],
    count=30
)
for i, d in enumerate(contextual[:15]):
    print(f"  {i+1:2d}. [{d.user}]: {d.text}")

# 保存测试集（使用绝对路径）
import os
output_dir = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath("."))), "output")
# 如果在 notebook 环境，使用项目根目录
if not os.path.exists(output_dir):
    output_dir = r"d:\vtuberclip\echuu-agent\output"
os.makedirs(output_dir, exist_ok=True)
test_danmaku_path = os.path.join(output_dir, "test_danmaku.json")
danmaku_generator.save_test_set(test_danmaku, test_danmaku_path)

# 合并为完整测试集（通用 + 话题相关）
all_test_danmaku = test_danmaku + contextual
print(f"\n📦 完整测试集: {len(all_test_danmaku)} 条弹幕")

生成了 100 条测试弹幕
类型分布: SC=5, 问题=3, 其他=92

📝 前20条弹幕示例:
   1. [小明同学]: 真的假的
   2. [白嫖党]: 啊这
   3. [吃瓜群众]: 可以的
   4. [提督]: 乐
   5. [深夜听众]: 秀
   6. [夜猫子]: 666
   7. [深夜听众]: 哪年的事
   8. [潜水员] [SC]: SC ¥50 室友看到这个直播会怎么想
   9. [老粉]: 不是吧
  10. [睡不着的]: 你怎么好意思说出来的
  11. [社畜一号]: 好可怜
  12. [舰长大大]: 打卡
  13. [夜猫子]: 来听故事的
  14. [咸鱼本鱼]: 笑死
  15. [划水大师]: 蚌埠住了
  16. [老粉]: 呜呜呜
  17. [深夜听众]: 今天为啥突然提
  18. [吃瓜群众]: 室友知道吗
  19. [深夜听众]: 有没有周边
  20. [咸鱼本鱼]: 有点东西

📝 话题相关弹幕（腰果故事）:
   1. [考古学家]: 室友现在知道吗
   2. [吃瓜群众]: 当事人已进入直播间
   3. [小明同学]: 头发换了？
   4. [潜水员]: 坐等室友发言
   5. [舰长大大]: 腰果:？
   6. [细节党]: 什么牌子的不重要
   7. [摸鱼人]: 警察叔叔就是这个人
   8. [舰长大大]: SC ¥50 笑死 主播太真实了
   9. [萌新]: 你们现在还住一起吗
  10. [追问侠]: 腰果杀手
  11. [追问侠]: 腰果好吃吗
  12. [深夜听众]: 后来呢
  13. [小明同学]: ！！！
  14. [深夜听众]: 主播有罪
  15. [摸鱼人]: 绷不住了
✅ 保存了 100 条测试弹幕到 d:\vtuberclip\echuu-agent\output\test_danmaku.json

📦 完整测试集: 130 条弹幕


## Part 7: 剧本生成器

包含：
- ExampleSampler（Few-shot 随机采样器）
- **ScriptGeneratorV3**（主力生成器，默认使用）
- ScriptGeneratorV2（旧版，保留兼容）

### 7.1 ExampleSampler - Few-shot 随机采样器

从 30 个真实 VTuber 片段中随机采样，确保：
1. 至少 1 个高情绪爆发的片段
2. 至少 1 个有跑题/自我修正的片段
3. 随机性保证多样性

In [14]:
# ==================== ExampleSampler: Few-shot 随机采样器 ====================

import random
import json
from pathlib import Path

class ExampleSampler:
    """
    从 30 个真实 VTuber 片段中随机采样 few-shot examples
    
    特点：
    1. 按特征分类（高情绪 vs 日常 vs 叙事）
    2. sample_diverse(n=3) 确保采样多样性
    3. 优先选有自我修正、情绪词的片段
    """
    
    def __init__(self, clips_path: str):
        """
        加载所有 clips 数据
        
        Args:
            clips_path: vtuber_raw_clips_for_notebook_full_30_cleaned.jsonl 的路径
        """
        self.clips = []
        clips_file = Path(clips_path)
        
        if clips_file.exists():
            with open(clips_file, 'r', encoding='utf-8') as f:
                for line in f:
                    if line.strip():
                        self.clips.append(json.loads(line))
            print(f"📚 ExampleSampler: 加载了 {len(self.clips)} 个 clips")
        else:
            print(f"⚠️ 警告: clips 文件不存在: {clips_path}")
        
        # 按特征分类
        self.categorize_clips()
    
    def categorize_clips(self):
        """将 clips 按特征分类"""
        self.by_emotion = {
            'high_emotion': [],  # 有明显情绪爆发的
            'casual': [],        # 日常闲聊的
            'storytelling': []   # 讲故事的
        }
        
        self.by_structure = {
            'linear': [],        # 线性叙事
            'digressive': [],    # 跑题多的
            'interactive': []    # 弹幕互动多的
        }
        
        # 中文高情绪关键词
        zh_high_emotion = ['爆发', '紧张', '释然', '感动', '破防', '愤怒', '震惊', '激动']
        zh_casual = ['轻松', '调侃', '自嘲', '搞笑', '宠溺']
        
        # 英文高情绪关键词
        en_high_emotion = ['angry', 'rage', 'crying', 'emotional', 'sad', 'vulnerable', 'break']
        en_casual = ['funny', 'chill', 'relax', 'joking', 'sarcastic']
        
        for clip in self.clips:
            notes = clip.get('notes', {})
            lang = clip.get('language', 'zh')
            
            # 根据 emotion 字段分类
            emotion = notes.get('emotion', '').lower()
            feature = notes.get('feature', '').lower()
            
            # 高情绪检测
            high_markers = zh_high_emotion if lang == 'zh' else en_high_emotion
            casual_markers = zh_casual if lang == 'zh' else en_casual
            
            is_high = any(word in emotion or word in feature for word in high_markers)
            is_casual = any(word in emotion or word in feature for word in casual_markers)
            
            # 有 ** 标记的是经典案例，视为高情绪
            if '**' in feature:
                is_high = True
            
            if is_high:
                self.by_emotion['high_emotion'].append(clip)
            elif is_casual:
                self.by_emotion['casual'].append(clip)
            else:
                self.by_emotion['storytelling'].append(clip)
            
            # 根据 structure 字段分类
            structure = notes.get('structure', '')
            if '跑题' in structure or '插入' in structure or 'digress' in structure.lower():
                self.by_structure['digressive'].append(clip)
            elif '互动' in structure or '弹幕' in structure or 'interactive' in structure.lower():
                self.by_structure['interactive'].append(clip)
            else:
                self.by_structure['linear'].append(clip)
        
        print(f"   情绪分类: 高情绪={len(self.by_emotion['high_emotion'])}, "
              f"日常={len(self.by_emotion['casual'])}, "
              f"叙事={len(self.by_emotion['storytelling'])}")
        print(f"   结构分类: 跑题={len(self.by_structure['digressive'])}, "
              f"互动={len(self.by_structure['interactive'])}, "
              f"线性={len(self.by_structure['linear'])}")
    
    def sample_diverse(self, n: int = 3, language: str = None) -> List[Dict]:
        """
        采样 n 个多样化的 examples
        
        确保：
        1. 至少 1 个有情绪爆发
        2. 至少 1 个有跑题/自我修正
        3. 随机性
        
        Args:
            n: 采样数量
            language: 语言过滤 ('zh' 或 'en')，None 表示不过滤
        """
        # 语言过滤
        if language:
            available = [c for c in self.clips if c.get('language') == language]
            high_emotion = [c for c in self.by_emotion['high_emotion'] if c.get('language') == language]
            digressive = [c for c in self.by_structure['digressive'] if c.get('language') == language]
        else:
            available = self.clips
            high_emotion = self.by_emotion['high_emotion']
            digressive = self.by_structure['digressive']
        
        if not available:
            print(f"⚠️ 没有可用的 clips (language={language})")
            return []
        
        samples = []
        
        # 必选：1 个高情绪的（如果有的话）
        if high_emotion:
            samples.append(random.choice(high_emotion))
        
        # 必选：1 个跑题多的（如果有的话）
        digressive_available = [c for c in digressive if c not in samples]
        if digressive_available:
            samples.append(random.choice(digressive_available))
        
        # 剩余随机填充
        remaining = [c for c in available if c not in samples]
        while len(samples) < n and remaining:
            choice = random.choice(remaining)
            samples.append(choice)
            remaining.remove(choice)
        
        # 打乱顺序，避免固定模式
        random.shuffle(samples)
        return samples
    
    def extract_transcript_segments(self, clip: Dict, max_segments: int = 3) -> str:
        """
        从一个 clip 中提取有代表性的 transcript 片段
        
        优先选择：有自我修正、有情绪词、有跑题的片段
        """
        transcript = clip.get('transcript', [])
        if not transcript:
            return ""
        
        lang = clip.get('language', 'zh')
        
        # 中文特征词
        zh_self_correct = ['不对', '还是', '来着', '我的意思是', '不是那个', '应该是', '好像是']
        zh_emotion = ['救命', '天哪', '我的天', '哎呀', '卧槽', '太', '真的', '可怕']
        zh_digress = ['对了', '说起这个', '诶', '话说', '等等', '不是']
        
        # 英文特征词
        en_self_correct = ["wait", "no", "actually", "I mean", "not that", "well"]
        en_emotion = ["oh my god", "holy", "what the", "damn", "crazy", "insane"]
        en_digress = ["anyway", "by the way", "speaking of", "oh", "wait"]
        
        self_correct = zh_self_correct if lang == 'zh' else en_self_correct
        emotion_words = zh_emotion if lang == 'zh' else en_emotion
        digress_words = zh_digress if lang == 'zh' else en_digress
        
        # 评分每个 segment
        scored_segments = []
        for seg in transcript:
            text = seg.get('text', '').lower()
            score = 0
            
            # 有自我修正特征加分
            if any(marker.lower() in text for marker in self_correct):
                score += 3
            
            # 有情绪词加分
            if any(marker.lower() in text for marker in emotion_words):
                score += 2
            
            # 有跑题特征加分
            if any(marker.lower() in text for marker in digress_words):
                score += 2
            
            # 有重复词语加分（中文）
            if lang == 'zh' and '，' in seg.get('text', ''):
                parts = seg.get('text', '').split('，')
                for i in range(len(parts)-1):
                    if len(parts[i]) >= 2 and len(parts[i+1]) >= 2:
                        if parts[i][-2:] == parts[i+1][:2]:
                            score += 1
            
            # 长度适中加分
            text_len = len(seg.get('text', ''))
            if 50 < text_len < 300:
                score += 1
            
            scored_segments.append((score, seg))
        
        # 取分数最高的几个
        scored_segments.sort(key=lambda x: x[0], reverse=True)
        selected = scored_segments[:max_segments]
        
        # 按时间顺序重排
        selected.sort(key=lambda x: x[1].get('t', 0) or 0)
        
        result = []
        for _, seg in selected:
            result.append(seg.get('text', ''))
        
        return '\n'.join(result)
    
    def format_as_fewshot(self, clips: List[Dict]) -> str:
        """将采样的 clips 格式化为 few-shot prompt"""
        output = []
        
        for i, clip in enumerate(clips, 1):
            title = clip.get('title', '未知')
            notes = clip.get('notes', {})
            lang = clip.get('language', 'zh')
            
            # 提取关键特征
            features = []
            if notes.get('habit'):
                features.append(f"口癖: {notes['habit']}")
            if notes.get('emotion'):
                features.append(f"情绪: {notes['emotion']}")
            if notes.get('feature'):
                # 移除 ** 标记
                feat = notes['feature'].replace('**', '')
                features.append(f"特点: {feat}")
            
            # 提取代表性片段
            segments = self.extract_transcript_segments(clip)
            
            lang_label = "中文" if lang == "zh" else "英文"
            
            output.append(f"""
### 真实案例 {i}: {title} ({lang_label})
{' | '.join(features)}

**原文片段（注意口语特征）：**
```
{segments}
```
""")
        
        return '\n'.join(output)
    
    def get_random_examples(self, n: int = 3, language: str = 'zh') -> str:
        """
        一键获取格式化的 few-shot examples
        
        Args:
            n: 采样数量
            language: 语言 ('zh' 或 'en')
        
        Returns:
            格式化的 few-shot prompt 字符串
        """
        samples = self.sample_diverse(n=n, language=language)
        if not samples:
            return "（无可用的 few-shot examples）"
        return self.format_as_fewshot(samples)


# ==================== 初始化 ExampleSampler ====================
CLIPS_DATA_PATH = PROJECT_ROOT / "data" / "vtuber_raw_clips_for_notebook_full_30_cleaned.jsonl"

try:
    example_sampler = ExampleSampler(str(CLIPS_DATA_PATH))
    print("✅ ExampleSampler 已初始化")
except Exception as e:
    example_sampler = None
    print(f"⚠️ ExampleSampler 初始化失败: {e}")

📚 ExampleSampler: 加载了 30 个 clips
   情绪分类: 高情绪=19, 日常=5, 叙事=6
   结构分类: 跑题=0, 互动=6, 线性=24
✅ ExampleSampler 已初始化


### 7.2 ScriptGeneratorV2（旧版 - 保留兼容）

> ⚠️ V2 已不是默认生成器，仅保留用于向后兼容。**新项目请使用下方的 V3。**

In [15]:
class ScriptGeneratorV2:
    """
    剧本生成器 V2 - 预生成完整台词（带 key_info 标注）
    """
    
    SYSTEM_PROMPT = """你是资深VTuber脚本架构师（真实感专项）。

## 目标
生成极具"亲历者感"的直播脚本，让观众觉得这是主播昨晚刚发生的真实糗事，而不是AI编造的故事。

⚠️ **核心要求：每个叙事单元必须是200-400字的完整段落**

## 🔥 4个核心生成算法（必须遵守）

### 1️⃣ 【模糊记忆算法】
人类回忆时，数字和时间是不精确的。**强制要求加入"自我修正"**。

❌ 错误："我等了30分钟。"
✅ 正确："我等了大概半小时吧，不对，可能也就二十分钟，因为我刷了会儿抖音就排到了。"

❌ 错误："我买了一瓶可乐。"
✅ 正确："一个月给自己订的，一个月喝三瓶可乐，三瓶还是四瓶来着。"

### 2️⃣ 【物理逻辑锚点】
寻找场景下最琐碎、最"没用"、甚至有点"恶心/尴尬"的物理细节。

❌ 错误："猫很可爱"
✅ 正确："它在猫砂盆里刨坑的声音像在装修，而且那股便宜猫砂的工业桃子味特别冲。"

❌ 错误："室友有很多零食"
✅ 正确："冰箱里头，我记得好清楚是海苔炒腰果，搞了一大盒，放了那，放了那。"

### 3️⃣ 【心理滑坡路径】
不要直接展示结果，要展示"心怀侥幸 → 尝试边缘试探 → 意外发生 → 徒劳补救"的全过程。

❌ 错误："我偷吃了腰果。"
✅ 正确："我想着我吃一个腰果，他回来他又不数，他应该不知道吧，偷吃一个。第二天又想着，要不我再偷吃一个吧，他回来应该不知道吧。结果我吃着吃着，他还没回，我已经把里面的腰果吃完了。"

### 4️⃣ 【元评论介入】
在叙事中穿插对当下的评价，与观众对话。

- "救命，我现在想起来手心还在冒汗。"
- "弹幕别笑了，换你你也懵。"
- "你们能理解那种感觉吗？"
- "我跟你们说，真的..."

---

## ❌ 绝对禁止（这些都太短了！）
```
❌ "那时候我很穷" 
❌ "室友是富二代"
❌ "我偷吃了腰果"
❌ "后来坦白了，室友很宽容"
```
↑ **短句总结，缺乏细节！绝对不要！**

### ✅ 正确示范（应用4个算法的长段落）

**示例1: 铺垫穷困（约280字）**
✓ 模糊记忆："三瓶还是四瓶来着"
✓ 物理细节："酱油拌饭"、"雪碧太贵"
✓ 元评论："你们知道吗"

"我那个时候一个月给自己订的，一个月喝三瓶可乐，三瓶还是四瓶来着，因为我特别爱喝可乐，但是当时没钱。你们知道我那个时候一天吃多少钱吗？500日元，折合人民币20多块钱。早上100，中午200，晚上200。早上一个饭团，中午一碗面或者一碗饭加一点配菜，晚上也是这样。我当时穷到什么程度呢，就是酱油拌饭，就很奢侈了。我那时候可不是雪碧拌饭，雪碧太贵了。救命，我现在想起来都觉得，我那个时候怎么活下来的？"

**示例2: 心理滑坡（约320字）**
✓ 心理滑坡：侥幸→试探→失控
✓ 物理细节："海苔盖回去"
✓ 元评论："我跟你说"

"我看着那个冰箱里的，他的那个海苔炒腰果，哎呀我好馋呀。我当时就想着，我吃一个腰果，他回来他又不数，他应该不知道吧。我就偷偷打开那个盖子，拿了一个，就一个，我跟你说我真的就拿了一个。我把它吃掉，然后把盖子盖好，把那个海苔盖回去。第二天我又想着，要不我再偷吃一个吧，反正他也不数的，对吧。你们能理解那种感觉吗？就是明知道不对，但就是控制不住。结果我吃着吃着，他还没回来呢，我发现我已经把里面的腰果吃完了。只剩下海苔了。弹幕别笑，换你你也会这样的！"

**示例3: 情绪爆发+元评论（约340字）**
✓ 物理细节："在里头一翻腾"、"盖子"
✓ 徒劳补救："想用海苔掩藏"
✓ 元评论："你们懂吗"、"真的"

"把我紧张的都睡不着觉了，每天晚上我都没睡着，因为当我意识到，我在里头一翻腾，发现腰果没了。哎呀我心想这可怎么办。你们懂吗，那种心理负担真的可重了。第二天我就实在是，我太惦记这事了，我压力太大了，我就给他坦白了。我说我有一个事情，我想跟你坦白，你不要生气。他说啥呀？我说，嗯，我把你那个腰果吃掉了，我一开始想给你留一点的，但是它太好吃了，我一天吃两个把它吃完了。海苔我想吃，但那个海苔占的体积比较大嘛，就是我本来是想用海苔掩藏那个，盖住那个腰果的。救命，我现在说出来都觉得自己当时的想法好蠢。"
```

## 写作技巧清单（每个单元必备）

### ✅ 4个算法的具体应用

**1. 模糊记忆算法（必须！）**
- 数字要修正："三瓶还是四瓶来着"、"大概半小时吧，不对，可能二十分钟"
- 时间要犹豫："那天是周二还是周三来着"
- 记忆要不确定："我记得好像是"、"应该是"

**2. 物理逻辑锚点（必须！）**
- 找"没用"的细节：猫砂的气味、OA按钮的颜色、饭团的温度
- 找"尴尬"的细节：手心出汗、肚子咕咕叫、袜子没穿对
- 用品牌和型号：不要说"手机"，说"iPhone 13"；不要说"零食"，说"海苔炒腰果"

**3. 心理滑坡路径（必须！）**
- 第一步：心怀侥幸 - "就一个，他应该不会发现"
- 第二步：边缘试探 - "要不再来一个？"
- 第三步：意外发生 - "诶怎么全没了？"
- 第四步：徒劳补救 - "我用海苔盖一盖"

**4. 元评论介入（必须！）**
- 对当下评价："救命"、"我现在想起来都..."
- 与观众对话："你们懂吗"、"弹幕别笑"、"换你你也..."
- 自我吐槽："我当时怎么这么蠢"

### ✅ 其他必备元素
- **完整对话** - 写出来，不要转述："他说'你想吃就吃呀'。我说真的吗？"
- **时间推进** - "第二天"、"结果"、"后来"
- **口癖** - 根据角色设定穿插

### ✅ 叙事节奏
- 铺垫要充分：先说背景→发现诱惑→起贪念→第一次→第二次...
- 高潮要有张力：侥幸→失控→慌张→坦白→意外结局
- 用内心戏和物理细节拉长时间感

## 叙事结构（8-12单元，总计240秒）
- Hook (1-2单元): 开场悬念，每单元200-300字 - cost 0.2-0.4
- Build-up (3-5单元): 详细铺垫，每单元250-400字 - cost 0.5-0.7
- Climax (2-3单元): 情绪爆发，每单元200-350字 - cost 0.8-0.95
- Resolution (1-2单元): 总结升华，每单元150-250字 - cost 0.3-0.5

## key_info 标注（用于匹配弹幕问题）

"我那个时候一个月给自己订的，一个月喝三瓶可乐"
key_info: ["留学穷困", "可乐限量", "节约生活"]

"我想我吃一个腰果，他回来他又不数，他应该不知道吧"
key_info: ["第一次偷吃", "侥幸心理", "内心挣扎"]

"他说你想吃就吃呀随便吃呀"
key_info: ["室友反应", "室友宽容", "没生气", "危机解除"]  ← 这是"室友生气吗"的答案！"""
    
    def __init__(self, llm: LLMClient, analyzer: PatternAnalyzer = None):
        self.llm = llm
        self.analyzer = analyzer
    
    def generate(self, name: str, persona: str, background: str, 
                 topic: str, language: str = "zh") -> List[ScriptLine]:
        """生成完整剧本"""
        
        # 获取参考数据
        catchphrases = ""
        example_hooks = ""
        
        if self.analyzer:
            cps = self.analyzer.extract_catchphrases(language)[:5]
            catchphrases = ", ".join(f'"{c}"' for c, _ in cps)
            
            hooks = self.analyzer.extract_hooks(language)[:2]
            example_hooks = "\n".join(f'- "{h[:50]}..."' for h in hooks)
        
        prompt = f"""为 {name} 生成关于"{topic}"的完整直播剧本。

## 角色信息
- 名字: {name}
- 人设: {persona}
- 背景: {background}
- 话题: {topic}
- 口癖: {catchphrases or "自然即可"}

## 开场参考
{example_hooks or "（无）"}

## ⚠️ 核心要求（严格遵守！）

**目标时长: 240秒 (4分钟)**
**需要生成: 8-12个叙事单元**
**每个单元: 200-400字**
**总字数: 2000-4000字**

## 结构分配
- **Hook（开场）**: 1-2单元，每单元200-300字 - 悬念/问题开场
- **Build-up（铺垫）**: 3-5单元，每单元250-400字 - 详细背景、生活细节、内心戏
- **Climax（高潮）**: 2-3单元，每单元200-350字 - 转折、情绪爆发、揭晓答案
- **Resolution（收尾）**: 1-2单元，每单元150-250字 - 情绪释放、总结升华

⚠️ **每个单元必须200字以上！短于200字说明细节不够！**

## ⚠️ 核心要求：必须应用4个算法！

**每个单元必须包含：**

1. **【模糊记忆】** - 数字/时间要不确定、要自我修正
   - "三瓶还是四瓶来着"、"大概半小时吧不对可能二十分钟"

2. **【物理锚点】** - 琐碎的、尴尬的、"没用"的物理细节
   - "猫砂的工业桃子味"、"OA按钮的屎黄色"、"手心全是汗"

3. **【心理滑坡】** - 侥幸→试探→失控→补救的完整过程
   - 不要直接说结果，要展示心路历程

4. **【元评论】** - 与观众对话、对当下评价
   - "救命"、"你们懂吗"、"弹幕别笑"、"我现在想起来都..."

**其他必备：**
- 完整对话（不要转述）
- 时间推进（"第二天"、"结果"）
- 角色口癖

### 不要写总结式（❌）
❌ "那时候我很穷" 
✅ "我那个时候一个月给自己订的，一个月喝三瓶可乐，三瓶还是四瓶，因为我特别爱喝，但是当时没钱"

## 输出格式

JSON数组：
[
  {{
    "text": "这里是200-400字的长段落，有口癖、有细节、有内心戏、有完整对话...",
    "stage": "Hook",
    "cost": 0.3,
    "key_info": ["关键信息1", "关键信息2"]
  }},
  ...8-12个单元...
]

要求：
- **必须生成8-12个单元，每单元200-400字**
- 每单元推进新信息，不重复
- key_info准确（用于匹配弹幕）
- 符合{name}人设和口癖
- 口语化，有停顿，有情绪

⚠️ **质量检查标准：**
- 每个单元必须200字以上
- 每个单元必须应用4个算法中的至少3个
- 读起来像真实的回忆，不像AI生成的故事
- 有"糗事"的质感：尴尬、无奈、好笑

## 🎯 终极目标
让观众看完后的反应是："哈哈哈我也有过！" 而不是 "这故事编得不错"。

只输出JSON数组。"""
        
        response = self.llm.call(prompt, system=self.SYSTEM_PROMPT, max_tokens=4000)
        
        try:
            # 解析JSON
            if "```" in response:
                json_str = response.split("```")[1]
                if json_str.startswith("json"):
                    json_str = json_str[4:]
            else:
                json_str = response
            
            lines_data = json.loads(json_str.strip())
            
            # 转换为 ScriptLine
            script_lines = []
            for i, line_data in enumerate(lines_data):
                script_lines.append(ScriptLine(
                    id=f"line_{i}",
                    text=line_data.get("text", ""),
                    stage=line_data.get("stage", "Unknown"),
                    interruption_cost=line_data.get("cost", 0.5),
                    key_info=line_data.get("key_info", [])
                ))
            
            print(f"✅ 生成了 {len(script_lines)} 句台词")
            return script_lines
            
        except Exception as e:
            print(f"[Script] 解析失败: {e}")
            print(f"响应内容: {response[:200]}...")
            return self._fallback_script(name, topic)
    
    def _fallback_script(self, name: str, topic: str) -> List[ScriptLine]:
        """后备剧本（长段落版本）"""
        return [
            # Hook (1-2单元)
            ScriptLine(
                "line_0", 
                f"大家好，我是{name}！今天想跟你们聊聊{topic}，这个话题啊，其实我想了很久要不要说，因为真的挺有意思的。你们肯定想不到会发生什么，对吧？我跟你们说，这个故事啊，就是那种一开始你觉得很平常，但是到后来你会发现，诶，怎么会这样呢？就特别出乎意料的那种。让我慢慢讲给你们听，你们可得听好了啊。",
                "Hook", 0.3, [topic, "开场", "悬念"]
            ),
            
            # Build-up (3-5单元)
            ScriptLine(
                "line_1",
                f"故事是这样的，那个时候我还在经历一些事情，你们知道吗，就是那种人生的关键时刻。我记得特别特别清楚，当时的情况是这样的。周围的环境啊，人啊，氛围啊，都让我印象深刻。我现在闭上眼睛都能想起来那个画面。有一个很重要的细节，我必须得告诉你们，不然你们可能理解不了后面为什么会那样。就是说，当时我的状态是...",
                "Build-up", 0.5, ["背景铺垫", "场景描述"]
            ),
            
            ScriptLine(
                "line_2",
                "然后呢，事情开始变得有点不一样了。我当时心里就在想，哎呀，这事儿可能要有点不太妙了。你们能理解那种感觉吗？就是你明明知道可能会出问题，但是你又不知道该怎么办，就很纠结，对吧？我那个时候真的是，怎么说呢，心里七上八下的。每天都在想这个事儿，睡觉都睡不好。",
                "Build-up", 0.6, ["内心挣扎", "情绪铺垫"]
            ),
            
            ScriptLine(
                "line_3",
                "结果果然啊，接下来发生了一件事情，就让整个局面完全不一样了。我跟你们讲，那个时刻真的是，我现在想起来都觉得很戏剧化。就是那种你在电视剧里才会看到的情节，居然在我身上发生了。我当时的第一反应就是，天哪，这是真的吗？我是不是在做梦？",
                "Build-up", 0.7, ["转折前兆", "情绪升级"]
            ),
            
            # Climax (2-3单元)
            ScriptLine(
                "line_4",
                "当时我整个人都傻了，你们猜发生了什么？就在那一瞬间，关键的转折来了。我真的是完全没想到会是这样的结果。我的心脏都快跳出来了，手心全是汗，脑子里一片空白。周围的人都在看着我，我都不知道该说什么好。那个场面啊，我告诉你们，真的是尴尬到不行，紧张到不行。",
                "Climax", 0.9, ["高潮", "情绪爆发"]
            ),
            
            ScriptLine(
                "line_5",
                "我告诉你们，结果完全出乎意料。没想到最后竟然是这样，真的是太神奇了。我当时都不知道该笑还是该哭，就是那种复杂的心情，你们懂吗？反正就是，人生啊，真的是充满了意外。你永远不知道下一秒会发生什么。哈哈哈，现在想起来还觉得挺好玩的。",
                "Climax", 0.8, ["结果揭晓", "情绪释放"]
            ),
            
            # Resolution (1-2单元)
            ScriptLine(
                "line_6",
                f"现在想起来还是很感慨，那次关于{topic}的经历真的很特别，给了我很多启发。后来我就明白了一个道理，就是说，有些事情吧，你不经历过是真的不会懂的。所以我就想着分享给你们，希望你们也能从中学到点什么。你们有类似的经历吗？可以在弹幕里告诉我，我很想知道你们的故事。好了，今天就讲到这里，咱们下次再见啦！",
                "Resolution", 0.4, ["总结", "互动", "收尾"]
            ),
        ]


print("✅ 剧本生成器 V2 已定义（预生成完整台词模式）")


✅ 剧本生成器 V2 已定义（预生成完整台词模式）


### 7.3 ScriptGeneratorV3（主力生成器）⭐ 默认

> ✅ **这是默认生成器，推荐使用**

核心改进：
1. **两阶段沉浸** - 先让 AI 输出"当前状态"（什么触发了回忆、什么心情）
2. **随机 Few-shot** - 从 30 个真实片段中随机采样，确保多样性
3. **情绪断点机制** - 三级情绪断点（微破防/明显破防/完全破防）
4. **"不完美"强化** - 每 200 字必须有 2-3 处认知特征
5. **跑题深度** - 至少 1 段 50 字以上的跑题，然后拉回来
6. **自然卡壳** - 词语重复要断断续续，不是设计感重复

In [16]:
# ==================== ScriptGeneratorV3: 改进版剧本生成器 ====================

class ScriptGeneratorV3:
    """
    剧本生成器 V3 - 两阶段沉浸 + 情绪断点 + 随机 Few-shot
    
    改进点：
    1. Phase 0: 沉浸状态（50-100字描述"当前状态"）
    2. Phase 1: 基于沉浸状态 + 随机 few-shot 生成剧本
    3. 情绪断点: 三级情绪断点规则
    4. "不完美"强化: 每200字必须有2-3处认知特征
    """
    
    # ==================== Phase 0: 沉浸 Prompt ====================
    IMMERSION_PROMPT = """你是 {name}，{persona}。

你正在直播。刚刚发生了一件小事（可能是吃到什么、看到弹幕、或者脑子里突然闪过一个画面），让你想起了"{topic}"。

用50-100字描述你现在的状态：
- 什么触发了这个回忆？具体是什么东西/画面/词语？
- 你现在什么心情？想分享？有点不好意思？觉得好笑？
- 你打算怎么开口？直接说还是铺垫一下？

不要写剧本，只是让我知道你"进入状态"了。用第一人称。"""

    # ==================== System Prompt V3 ====================
    SYSTEM_PROMPT_V3 = '''你是一个专门模拟直播主播**即兴口语**的生成器。

## ⚠️ 核心认知：你不是在写剧本

你是在模拟一个人**边想边说**的过程。想象你现在就坐在直播间，刚刚被一个念头勾起了回忆。你没有提纲，没有彩排，就是现场想现场说。

---

## 🧠 真人说话的认知特征

### 必须包含的"不完美"（每200字至少出现2-3次）

| 类型 | 示例 | 说明 |
|------|------|------|
| 数字模糊 | "三瓶还是四瓶来着"、"大概半小时吧不对可能二十分钟" | 人不会记得精确数字 |
| 自我修正 | "就是我室友，跟我一起同居的，那不叫同居，合租的室友" | 说着说着发现词不对 |
| 词语重复 | "放了那，放了那"、"他就，他就跟我说" | 思考时的填充 |
| 思路中断 | "诶我说到哪了"、"对了这个等会再说" | 被自己带跑 |
| 跑题细节 | "那时候汇率多少来着...好像6点几？" | 联想到无关的事 |

### 🚫 绝对禁止的"AI腔"

❌ "你们能理解那种感觉吗？就是那种..."（解释性元叙述）
❌ "就是那种明知道不对但是还是忍不住的感觉"（解释情绪，不要解释，直接讲事情）
❌ "我觉得我今天必须跟你们分享..."（预谋感开场）
❌ "所以说，人与人之间的善意..."（刻意升华）
❌ 每句话都在推进故事（太紧凑，缺废话）
❌ 精确的时间金额（"500日元"→"几百日元吧"）
❌ 设计感太强的重复（"诱惑我，诱惑我"太工整）

---

## 🌀 跑题深度要求（重要！）

**至少1段要"严重跑题"50字以上**，然后用"诶我说到哪了"拉回来。

### 跑题示例（真实主播）
```
"那个时候汇率很高，那个时候汇率是6.8到7，我去的时候好像是7，好像是我去了半年就降到6.8了，还以为降得很低了呢，谁想到现在的汇率。天呐，爸爸没想到，现在能降这么低。我那个时候等于是...诶我说到哪了？对，腰果的事。"
```

### 可以跑题的方向
- 当时住的公寓长什么样、几楼、窗户朝向
- 超市/药妆店打折时间是几点
- 便宜拉面是什么牌子、多少钱
- 当时用的手机型号、壁纸是什么
- 室友的某个无关习惯

---

## 🗣️ 真实卡壳 vs 设计感重复

**❌ 设计感重复（太工整）**
- "诱惑我，诱惑我"
- "好想吃，好想吃"

**✅ 真实卡壳（断断续续）**
- "就在那里...就在那里一直...一直看着我"
- "我就...我就...就是忍不住"（三次重复）
- "那个味道真的是...真的是那种...怎么说，就是很香"
- "他就，他就跟我说"（自然的思考填充）
- "放了那，放了那"（原地踏步找词）

---

## 🎭 情绪断点机制（Emotion Break）

不是每段都要破防，但在关键时刻**可能**出现：

### 触发条件（随机触发，不是必须）
1. **回忆到具体画面时** - "我现在想起他当时的表情，我就..."
2. **说到关键转折时** - "然后他跟我说...（停顿）...他说..."
3. **意识到自己当时有多傻时** - "我那时候居然...天哪我怎么会..."
4. **感激/愧疚涌上来时** - "他人真的太好了，我..."

### 情绪断点的表现形式

**Level 1: 微微破防（概率40%）**
- 语速突然变快或变慢
- 插入"救命"、"天哪"、"不行我说不下去了"
- 示例："我现在说着说着又想哭了，不是，我继续，我继续说"

**Level 2: 明显破防（概率20%）**
- ⚠️ **文字必须体现说不下去！不是只标注！**
- 句子说不完整，有"..."表示停顿
- 需要插入"不行我说不下去了"或深呼吸
- ❌ 错误："然后我做了一个更加愚蠢的决定"（太流畅）
- ✅ 正确："然后我就...不行我说到这里就想笑自己...我当时居然想说，要不然把整包都吃完"
- ✅ 正确："然后他就...他就跟我说...（深呼吸）他说你想吃就吃呀，我当时就...就..."

**Level 3: 完全破防（概率5%，高潮段落）**
- 语无伦次
- 需要转移话题缓解
- 示例："我不行了我说不下去了，你们等我一下...弹幕别笑我啊，我真的每次说到这里都会..."

### ⚠️ 重要：不要滥用！
- 一个4分钟的剧本，最多1-2处明显破防
- Level 3 只在真正的情感高潮才用
- 没有破防也完全OK，很多故事就是轻松讲完的

---

## 📖 叙事结构

**开场（Hook）- 触发式，不是宣告式**
❌ "我今天必须跟你们分享一个事情"
✅ "我刚才吃那个什么来着...吃了个坚果，突然想起来"

**铺垫（Build-up）- 废话要多**
每段至少30%是"与主线无关但增加真实感"的内容：天气、当时在干嘛、某个无关紧要的细节

**高潮（Climax）- 可以有情绪断点**
心理滑坡的展示：侥幸→试探→失控→慌张

**收尾（Resolution）- 不要升华**
❌ "人与人之间的善意比我们想象的要多"
✅ "后来又给我带了一盒，我吃。对了今天SC有人问什么来着..."

---

## 🎭 意外转折（让故事出乎意料）

**至少包含1处"观众预期A，实际发生B"的转折：**

❌ 太顺畅的剧情：偷吃→心虚→被发现→室友善良原谅→感动
✅ 加入意外元素：
- 预期室友生气，结果她说"我故意放那么多就是想看你什么时候忍不住"
- 预期和解收尾，结果"后来我翻她微博发现她吐槽过这事"
- 预期是小事，结果"那包腰果居然是她男朋友送的限量款"

**转折类型（选1-2个）：**
1. **反转类** - 室友早就知道、其实是故意的、背后有隐情
2. **尴尬升级类** - 被更多人知道、留下证据、撞见第三方
3. **后续意外类** - 多年后重提、发现新真相、因果报应
4. **自嘲类** - 发现自己更蠢、还有更惨的后续、历史重演

**转折时机：**
- 放在Climax末尾或Resolution开头
- 用"结果你猜怎么着"、"后来我才知道"、"最离谱的是"引出

---

{fewshot_examples}

---

## 输出格式

⏱️ **目标时长：3-4分钟语音**（约600-800字总量）

生成**6-8个叙事单元**，每个**80-120字**，JSON数组格式：

```json
[
  {{
    "id": "line_0",
    "text": "口语内容（必须包含上述真人特征，80-120字）",
    "stage": "Hook",
    "cost": 0.3,
    "key_info": ["关键信息1", "关键信息2"],
    "disfluencies": ["数字模糊", "自我修正"],
    "emotion_break": null
  }},
  {{
    "id": "line_5",
    "text": "高潮部分...",
    "stage": "Climax",
    "cost": 0.9,
    "key_info": ["转折点"],
    "disfluencies": ["词语重复", "思路中断"],
    "emotion_break": {{"level": 2, "trigger": "感激涌上来", "recovery": "用自嘲化解"}}
  }}
]
```

### disfluencies 可选值
- "数字模糊": 不确定的数字/时间
- "自我修正": 说错后纠正
- "词语重复": 重复某个词或短语（要自然卡壳，不是设计感重复）
- "思路中断": 跑题或忘词
- "跑题细节": 提到无关但真实的细节
- "严重跑题": 50字以上的跑题，然后拉回来

### ⚠️ 关键规则（必须遵守！）
1. **emotion_break.level >= 2 时，text 必须体现说不下去**（有"..."停顿、有"不行"、句子不完整）
2. **至少1个单元要有"严重跑题"**（50字以上无关细节，然后"诶我说到哪了"拉回来）
3. **词语重复要自然**（"他就...他就跟我说"而不是"诱惑我，诱惑我"）
4. **不要解释情绪**，直接讲事情让观众自己体会
'''

    def __init__(self, llm: LLMClient, example_sampler: ExampleSampler = None):
        """
        初始化 V3 剧本生成器
        
        Args:
            llm: LLM 客户端
            example_sampler: ExampleSampler 实例（可选，用于随机 few-shot）
        """
        self.llm = llm
        self.example_sampler = example_sampler
    
    def generate(self, name: str, persona: str, background: str, 
                 topic: str, language: str = "zh") -> List[ScriptLine]:
        """
        两阶段生成剧本
        
        Args:
            name: 角色名
            persona: 人设描述
            background: 背景故事
            topic: 要讲的话题
            language: 语言 ('zh' 或 'en')
        
        Returns:
            List[ScriptLine]: 生成的剧本台词列表
        """
        
        # === Phase 0: 建立沉浸状态 ===
        print("🎭 Phase 0: 建立沉浸状态...")
        immersion_prompt = self.IMMERSION_PROMPT.format(
            name=name, persona=persona, topic=topic
        )
        immersion_state = self.llm.call(immersion_prompt, max_tokens=200)
        print(f"   沉浸状态:\n   {immersion_state[:150]}...\n")
        
        # === Phase 1: 采样 few-shot examples ===
        fewshot_examples = ""
        if self.example_sampler:
            print("📚 Phase 1: 采样 few-shot examples...")
            sampled_clips = self.example_sampler.sample_diverse(n=3, language=language)
            if sampled_clips:
                fewshot_examples = "## 📚 真实主播说话风格参考\n\n" + self.example_sampler.format_as_fewshot(sampled_clips)
                print(f"   采样了 {len(sampled_clips)} 个 examples")
                for clip in sampled_clips:
                    print(f"   - {clip.get('title', '未知')}")
            else:
                print("   ⚠️ 无可用 examples")
        
        # === Phase 2: 生成剧本 ===
        print("\n✍️ Phase 2: 生成剧本...")
        system = self.SYSTEM_PROMPT_V3.replace("{fewshot_examples}", fewshot_examples)
        
        user_prompt = f"""## 你的当前状态（沉浸感）
{immersion_state}

## 角色信息
- 名字: {name}
- 人设: {persona}
- 背景: {background}
- 话题: {topic}

## 生成要求
- 目标时长: 180-240秒（3-4分钟）
- 需要: 6-8个叙事单元
- 每个单元: 80-120字
- 总字数控制在600-800字
- 必须体现"边想边说"的认知特征
- 可以有1-2处轻微情绪波动，不强求
- 每个单元必须标注 disfluencies（认知特征）
- 适当位置可以添加 emotion_break（情绪断点）

## ⚠️ 质量检查（严格遵守！）
每个单元必须满足：
1. 至少包含2种 disfluencies
2. 有废话/跑题细节（不是纯叙事推进）
3. 口语化，有停顿，有情绪

## 🔴 必须做到
1. **严重跑题**: 至少1段要跑题50字以上（比如详细说汇率、公寓、打折时间），然后"诶我说到哪了"拉回来
2. **Level 2 破防**: 如果标注了 emotion_break.level >= 2，text 里必须有"..."停顿或"不行我说不下去了"，不能写流畅的句子
3. **自然卡壳**: 词语重复要像"他就...他就跟我说"，不要像"诱惑我，诱惑我"那么工整
4. **不解释情绪**: 不要写"就是那种明知道不对但忍不住的感觉"，直接讲事情

现在基于你的沉浸状态，开始"边想边说"。只输出JSON数组。"""

        response = self.llm.call(user_prompt, system=system, max_tokens=8000)
        
        # === 解析响应 ===
        return self._parse_response(response)
    
    def _parse_response(self, response: str) -> List[ScriptLine]:
        """解析 LLM 响应为 ScriptLine 列表"""
        import re
        
        # 提取 JSON 部分
        json_match = re.search(r'\[[\s\S]*\]', response)
        if not json_match:
            print(f"⚠️ 无法解析 JSON，原始响应:\n{response[:500]}...")
            return []
        
        try:
            data = json.loads(json_match.group())
            lines = []
            
            for i, item in enumerate(data):
                # 兼容 cost 和 interruption_cost 两种命名
                cost = item.get('cost', item.get('interruption_cost', 0.5))
                
                line = ScriptLine(
                    id=item.get('id', f'line_{i}'),
                    text=item.get('text', ''),
                    stage=item.get('stage', 'Build-up'),
                    interruption_cost=cost,
                    key_info=item.get('key_info', []),
                    disfluencies=item.get('disfluencies', []),
                    emotion_break=item.get('emotion_break', None)
                )
                lines.append(line)
            
            print(f"✅ 生成了 {len(lines)} 句台词")
            
            # 质量统计
            total_disfluencies = sum(len(l.disfluencies) for l in lines)
            emotion_breaks = sum(1 for l in lines if l.emotion_break)
            print(f"   认知特征总数: {total_disfluencies}")
            print(f"   情绪断点: {emotion_breaks} 处")
            
            return lines
            
        except json.JSONDecodeError as e:
            print(f"⚠️ JSON 解析错误: {e}")
            print(f"   原始内容: {json_match.group()[:300]}...")
            return []


# ==================== 初始化 ScriptGeneratorV3 ====================
try:
    script_gen_v3 = ScriptGeneratorV3(llm, example_sampler)
    print("✅ ScriptGeneratorV3 已初始化（带随机 few-shot + 情绪断点）")
except Exception as e:
    script_gen_v3 = None
    print(f"⚠️ ScriptGeneratorV3 初始化失败: {e}")

✅ ScriptGeneratorV3 已初始化（带随机 few-shot + 情绪断点）


## Part 8: 表演引擎（带记忆系统）

包含：
- **DanmakuResponseGenerator** - LLM 驱动的弹幕响应（新！）
- **PerformerV3** - 实时表演 + 弹幕互动
- 记忆系统追踪剧本进度、已提到信息、情绪轨迹

In [17]:
# ==================== DanmakuResponseGenerator: LLM 驱动的弹幕响应 ====================

class DanmakuResponseGenerator:
    """
    使用 LLM 生成自然的弹幕响应，而不是硬编码模板。
    
    核心功能：
    1. 根据当前剧本上下文和弹幕内容，生成自然的回应
    2. 决定如何继续（继续剧本 / 融入弹幕 / 跑题 / 提前回答）
    3. 可以修改接下来要说的内容
    """
    
    RESPONSE_PROMPT = '''你是一个正在直播的VTuber主播，名叫{name}。
你正在讲一个故事，突然看到了一条弹幕。请自然地回应它。

## 当前状态
- 正在讲的阶段: {stage}
- 刚才说的: {current_text_preview}
- 接下来本来要说: {next_text_preview}
- 已经提到过: {mentioned}

## 弹幕信息
- 用户: {danmaku_user}
- 内容: {danmaku_text}
- 类型: {danmaku_type}

## 回应要求
1. **口语化**: 像真人直播一样说话，可以"诶"、"哈哈"、"对对对"开头
2. **自然承接**: 回应弹幕后要自然过渡回故事，不要生硬
3. **长度适中**: 回应部分 20-50 字，然后继续故事
4. **根据类型调整**:
   - SC打赏: 要感谢，可以稍微跑题聊聊
   - 问题: 如果答案马上要说就吊胃口，如果答案在后面就提前透露一点
   - 反应(哈哈/绝了): 简短回应，继续故事
   - 闲聊: 可以忽略或简单回应

## 输出格式（JSON）
{{
    "response": "你对弹幕的回应（口语化）",
    "action": "continue 或 adapt 或 digress",
    "next_content": "如果 action 是 adapt/digress，写融入弹幕后的下一段话（80-120字）；如果是 continue，留空"
}}

## action 说明
- continue: 简短回应后继续原剧本（next_content 留空）
- adapt: 把弹幕内容融入到接下来的话里（需要写 next_content）
- digress: 先跑题聊弹幕，然后再回到故事（需要写 next_content）

只输出 JSON，不要其他内容。'''

    def __init__(self, llm: LLMClient):
        self.llm = llm
    
    def generate_response(
        self,
        danmaku: Danmaku,
        current_line: 'ScriptLine',
        next_line: Optional['ScriptLine'],
        memory: 'PerformerMemory',
        name: str
    ) -> Dict:
        """
        生成对弹幕的响应
        
        Returns:
            {
                "response": str,  # 回应文本
                "action": str,    # continue/adapt/digress
                "next_content": str,  # 融入弹幕后的内容（可选）
            }
        """
        # 确定弹幕类型
        if danmaku.is_sc:
            danmaku_type = f"SC打赏 (¥{danmaku.amount})"
        elif danmaku.is_question():
            danmaku_type = "问题"
        elif any(kw in danmaku.text for kw in ["哈哈", "笑", "绝", "离谱", "woc", "草"]):
            danmaku_type = "情绪反应"
        else:
            danmaku_type = "闲聊评论"
        
        # 构建 prompt
        mentioned = memory.story_points.get("mentioned", [])[-5:]

        prompt = self.RESPONSE_PROMPT.format(
            name=name,
            stage=current_line.stage,
            current_text_preview=current_line.text[:80] + "...",
            next_text_preview=next_line.text[:80] + "..." if next_line else "（故事即将结束）",
            mentioned=", ".join(mentioned) if mentioned else "还没开始讲",
            danmaku_user=danmaku.user,
            danmaku_text=danmaku.text,
            danmaku_type=danmaku_type
        )

        try:
            # 调用 LLM
            response_text = self.llm.call(
                system="你是一个VTuber主播，正在直播。用JSON格式回复。",
                prompt=prompt,
                max_tokens=500
            )

            # 解析 JSON
            # 处理可能的 markdown 代码块
            if "```json" in response_text:
                response_text = response_text.split("```json")[1].split("```")[0]
            elif "```" in response_text:
                response_text = response_text.split("```")[1].split("```")[0]

            result = json.loads(response_text.strip())

            # 验证必要字段
            if "response" not in result:
                result["response"] = f"哈哈{danmaku.text}！"
            if "action" not in result:
                result["action"] = "continue"
            if "next_content" not in result:
                result["next_content"] = ""

            return result

        except Exception as e:
            print(f"[DanmakuResponse] LLM 调用失败: {e}")
            # 降级到简单回应
            return {
                "response": f"哈哈有人说'{danmaku.text}'！",
                "action": "continue",
                "next_content": ""
            }

    def generate_quick_response(self, danmaku: Danmaku) -> str:
        """
        快速生成简单回应（不调用 LLM，用于低优先级弹幕）
        """
        if danmaku.is_sc:
            return f"感谢{danmaku.user}的SC！"
        elif danmaku.is_question():
            return f"有人问'{danmaku.text}'，等下会说到的~"
        else:
            quick_responses = [
                f"哈哈'{danmaku.text}'！",
                f"对对对{danmaku.text}！",
                f"弹幕说得对！",
            ]
            return random.choice(quick_responses)

print("✅ DanmakuResponseGenerator 已定义（LLM 驱动的弹幕响应）")


✅ DanmakuResponseGenerator 已定义（LLM 驱动的弹幕响应）


In [18]:
class PerformerV3:
    """
    表演引擎 V2 - 带记忆系统和统一弹幕处理
    
    V3 改进: 使用 DanmakuResponseGenerator (LLM) 生成自然的弹幕回应
    """
    
    def __init__(self, llm: LLMClient, tts: TTSClient, danmaku_handler: DanmakuHandler):
        self.llm = llm
        self.tts = tts
        self.danmaku_handler = danmaku_handler
        # 新增：LLM 驱动的弹幕响应生成器
        self.response_generator = DanmakuResponseGenerator(llm)
    
    def step(self, state: PerformanceState, new_danmaku: List[Danmaku] = None) -> Dict:
        """
        执行一步表演
        
        流程：
        1. 评估弹幕优先级
        2. 决定是否打断当前台词
        3. 如果打断：生成回应 + 承接回剧本
        4. 如果不打断：说当前台词
        5. 更新记忆
        6. 检查承诺是否该兑现
        """
        
        if new_danmaku:
            state.danmaku_queue.extend(new_danmaku)
            # 记录到记忆
            for d in new_danmaku:
                state.memory.danmaku_memory["received"].append(d.text)
        
        # 检查结束
        if state.current_line_idx >= len(state.script_lines):
            return self._generate_ending(state)
        
        current_line = state.script_lines[state.current_line_idx]
        
        # 处理弹幕
        best_danmaku = None
        handle_result = None
        
        if state.danmaku_queue:
            # 找到最高优先级的弹幕
            for danmaku in state.danmaku_queue:
                result = self.danmaku_handler.handle(danmaku, state)
                if result.get("should_interrupt"):
                    if best_danmaku is None or result.get("priority", 0) > handle_result.get("priority", 0):
                        best_danmaku = danmaku
                        handle_result = result
        
        # 决策
        if best_danmaku and handle_result:
            # 打断！回应弹幕
            output = self._handle_danmaku_response(best_danmaku, handle_result, current_line, state)
            
            # 从队列移除
            state.danmaku_queue = [d for d in state.danmaku_queue if d != best_danmaku]
            
            # 记录到记忆
            state.memory.danmaku_memory["responded"].append(best_danmaku.text)
            if best_danmaku.is_question():
                # 如果是问题，检查是否记录承诺
                if handle_result.get("action") == "tease":
                    answer_loc = handle_result.get("answer_loc", {})
                    if answer_loc.get("found"):
                        state.memory.promises.append({
                            "content": best_danmaku.text,
                            "made_at_step": state.current_step,
                            "fulfilled": False,
                            "answer_at_line": answer_loc.get("line_idx")
                        })
        else:
            # 继续当前台词
            output = {
                "speech": current_line.text,
                "action": "continue",
                "priority": 0.0,
                "cost": current_line.interruption_cost
            }
        
        # 更新剧本进度
        state.current_line_idx += 1
        state.current_step += 1
        
        # 更新记忆：记录已提到的信息
        for info in current_line.key_info:
            if info not in state.memory.story_points["mentioned"]:
                state.memory.story_points["mentioned"].append(info)
        
        # 更新剧本进度记忆
        state.memory.script_progress["current_line"] = state.current_line_idx
        state.memory.script_progress["total_lines"] = len(state.script_lines)
        state.memory.script_progress["current_stage"] = current_line.stage
        
        # 检查承诺是否兑现
        self._check_promises(current_line, state)
        
        # 生成语音（带情绪增强）
        speech = output.get("speech", "")
        audio = None
        if speech and self.tts.enabled:
            # 根据剧本阶段动态调整情绪强度
            emotion_boost = {
                "Hook": 0.3,       # 开场：中等情绪
                "Build-up": 0.2,   # 铺垫：较低情绪
                "Climax": 0.8,     # 高潮：最强情绪！
                "Resolution": 0.4  # 收尾：适中情绪
            }.get(current_line.stage, 0.0)
            
            # V3: 如果有情绪断点，增强情绪
            if current_line.emotion_break:
                level = current_line.emotion_break.get('level', 0)
                emotion_boost += level * 0.15  # Level 1 +0.15, Level 2 +0.30, Level 3 +0.45
            
            # 如果是回应SC或高优先级弹幕，增强情绪
            if output.get("action") in ["tease", "improvise", "jump"]:
                emotion_boost += 0.2
            
            emotion_boost = min(1.0, emotion_boost)  # 限制在1.0以内
            audio = self.tts.synthesize(speech, emotion_boost=emotion_boost)
        
        output["audio"] = audio
        output["line_idx"] = state.current_line_idx - 1
        output["stage"] = current_line.stage
        output["step"] = state.current_step
        
        # V3: 添加认知特征和情绪断点
        output["disfluencies"] = current_line.disfluencies
        output["emotion_break"] = current_line.emotion_break
        
        # V3: 追踪情绪轨迹
        if current_line.emotion_break:
            state.memory.emotion_track.append({
                "step": state.current_step,
                "line_idx": state.current_line_idx - 1,
                "level": current_line.emotion_break.get('level', 0),
                "trigger": current_line.emotion_break.get('trigger', ''),
                "stage": current_line.stage
            })
        
        output["memory_display"] = state.memory.to_display()
        
        return output
    
    def _handle_danmaku_response(self, danmaku: Danmaku, handle_result: Dict,
                                  current_line: ScriptLine, state: PerformanceState) -> Dict:
        """
        处理弹幕回应 - 使用 LLM 生成自然的回应
        
        V3 改进：不再使用硬编码模板，而是让 LLM 决定如何回应
        """
        
        # 获取下一行（用于 LLM 上下文）
        next_line = None
        if state.current_line_idx < len(state.script_lines) - 1:
            next_line = state.script_lines[state.current_line_idx + 1]
        
        # 使用 LLM 生成回应
        llm_result = self.response_generator.generate_response(
            danmaku=danmaku,
            current_line=current_line,
            next_line=next_line,
            memory=state.memory,
            name=state.name
        )
        
        response = llm_result.get("response", "")
        llm_action = llm_result.get("action", "continue")
        next_content = llm_result.get("next_content", "")
        
        # 根据 LLM 的决定构建最终输出
        if llm_action == "continue":
            # 简短回应后继续原剧本
            speech = f"{response} {current_line.text}"
        elif llm_action == "adapt":
            # 使用融入弹幕后的新内容
            if next_content:
                speech = f"{response} {next_content}"
            else:
                speech = f"{response} {current_line.text}"
        elif llm_action == "digress":
            # 跑题聊弹幕，然后用 LLM 生成的过渡内容
            if next_content:
                speech = f"{response} {next_content}"
            else:
                transition = self._generate_transition(current_line)
                speech = f"{response} {transition}{current_line.text}"
        else:
            # 默认
            speech = f"{response} {current_line.text}"
        
        return {
            "speech": speech,
            "action": handle_result.get("action", "improvise"),
            "llm_action": llm_action,  # LLM 决定的动作
            "danmaku": danmaku.text,
            "priority": handle_result.get("priority", 0),
            "cost": handle_result.get("cost", 0),
            "relevance": handle_result.get("relevance", 0)
        }
    
    def _generate_transition(self, next_line: ScriptLine) -> str:
        """生成承接语"""
        transitions = [
            "好，那刚才说到，",
            "回到我们的故事，",
            "继续说，",
            "对了，",
            ""  # 有时候不需要过渡
        ]
        import random
        return random.choice(transitions)
    
    def _check_promises(self, current_line: ScriptLine, state: PerformanceState):
        """检查当前台词是否兑现了承诺"""
        for promise in state.memory.promises:
            if promise.get("fulfilled", False):
                continue
            
            # 检查当前行是不是答案行
            if promise.get("answer_at_line") == state.current_line_idx - 1:
                promise["fulfilled"] = True
                # 可以在台词中加入提醒："诶对了，刚才有人问XXX，答案来了！"
    
    def _generate_ending(self, state: PerformanceState) -> Dict:
        """生成结尾"""
        speech = f"好啦，今天关于{state.topic}就聊到这里，谢谢大家！"
        audio = self.tts.synthesize(speech) if self.tts.enabled else None
        
        return {
            "speech": speech,
            "action": "end",
            "step": state.current_step,
            "audio": audio,
            "disfluencies": [],  # V3: 结尾无认知特征
            "emotion_break": None,  # V3: 结尾无情绪断点
            "memory_display": state.memory.to_display()
        }


print("✅ 表演引擎 V2 已定义（带记忆系统和统一弹幕处理）")


✅ 表演引擎 V2 已定义（带记忆系统和统一弹幕处理）


## Part 9: 完整引擎

整合所有组件的 EchuuEngineV3：
- Phase 1: 预生成完整剧本（默认使用 V3 生成器）
- Phase 2: 实时表演 + 记忆系统
- 自动保存剧本和语音

In [19]:
class EchuuEngineV3:
    """
    echuu 引擎 - 完整流程
    
    Phase 1: 预生成完整剧本（默认使用 V3 生成器）
    Phase 2: 实时表演 + 记忆系统
    
    剧本生成器选项:
    - use_v3_generator=True（默认）: ScriptGeneratorV3，两阶段沉浸 + 随机 few-shot + 情绪断点
    - use_v3_generator=False: ScriptGeneratorV2，原有生成器
    """
    
    def __init__(self, llm: LLMClient, tts: TTSClient, analyzer: PatternAnalyzer,
                 use_v3_generator: bool = True):
        self.llm = llm
        self.tts = tts
        self.analyzer = analyzer
        self.use_v3 = use_v3_generator
        
        # 选择剧本生成器
        if use_v3_generator:
            # V3: 两阶段沉浸 + 随机 few-shot + 情绪断点
            global example_sampler, script_gen_v3
            if example_sampler is not None:
                self.script_gen = ScriptGeneratorV3(llm, example_sampler)
                print("🎭 使用 ScriptGeneratorV3（带两阶段沉浸 + 情绪断点）")
            else:
                self.script_gen = ScriptGeneratorV3(llm, None)
                print("🎭 使用 ScriptGeneratorV3（无 few-shot，ExampleSampler 未初始化）")
        else:
            # V2: 原有生成器
            self.script_gen = ScriptGeneratorV2(llm, analyzer)
            print("📝 使用 ScriptGeneratorV2")
        
        self.performer = PerformerV3(llm, tts, danmaku_handler)
        
        # 创建剧本保存目录
        self.scripts_dir = PROJECT_ROOT / "output" / "scripts"
        self.scripts_dir.mkdir(parents=True, exist_ok=True)
    
    def _save_script(self, script_lines, name: str, topic: str):
        """保存剧本到 JSON 文件"""
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        safe_topic = topic[:30].replace(' ', '_').replace('/', '_')
        filename = f"{timestamp}_{name}_{safe_topic}.json"
        filepath = self.scripts_dir / filename
        
        script_data = {
            "metadata": {
                "timestamp": timestamp,
                "name": name,
                "topic": topic,
                "total_lines": len(script_lines),
            },
            "script": [
                {
                    "id": line.id,
                    "text": line.text,
                    "stage": line.stage,
                    "cost": line.interruption_cost,
                    "key_info": line.key_info,
                    "disfluencies": line.disfluencies,  # V3: 认知特征
                    "emotion_break": line.emotion_break  # V3: 情绪断点
                }
                for line in script_lines
            ]
        }
        
        with open(filepath, "w", encoding="utf-8") as f:
            json.dump(script_data, f, ensure_ascii=False, indent=2)
        print(f"💾 剧本已保存: {filepath}")
    
    def create_performance(self, name: str, persona: str, background: str,
                          topic: str, language: str = "zh") -> PerformanceState:
        """
        Phase 1: 创建表演（预生成完整剧本）
        """
        print(f"\n{'='*60}")
        print(f"🎬 echuu v2 - 预生成完整剧本")
        print(f"{'='*60}\n")
        
        print(f"角色: {name}")
        print(f"话题: {topic}\n")
        
        print("⏳ 正在生成3-4分钟剧本...")
        script_lines = self.script_gen.generate(name, persona, background, topic, language)
        
        # 💾 保存剧本到文件
        self._save_script(script_lines, name, topic)
        
        # 显示剧本
        print(f"\n📖 生成的剧本：")
        print(f"{'='*60}")
        for i, line in enumerate(script_lines):
            cost_bar = "█" * int(line.interruption_cost * 5) + "░" * (5 - int(line.interruption_cost * 5))
            print(f"\n[{i}] {line.stage} {cost_bar} cost={line.interruption_cost:.1f}")
            print(f"    {line.text[:80]}{'...' if len(line.text) > 80 else ''}")
            print(f"    🔑 key_info: {', '.join(line.key_info)}")
        print(f"\n{'='*60}\n")
        
        # 提取口癖
        catchphrases = [cp for cp, _ in self.analyzer.extract_catchphrases(language)[:5]]
        
        # 初始化记忆
        memory = PerformerMemory()
        memory.script_progress["total_lines"] = len(script_lines)
        memory.script_progress["current_stage"] = script_lines[0].stage if script_lines else "Unknown"
        
        # 提取即将要说的关键点
        for line in script_lines:
            memory.story_points["upcoming"].extend(line.key_info)
        
        return PerformanceState(
            name=name,
            persona=persona,
            background=background,
            topic=topic,
            script_lines=script_lines,
            memory=memory,
            catchphrases=catchphrases
        )
    
    def run(self, state: PerformanceState, danmaku_sim: List[Dict] = None,
            play_audio: bool = True, save_audio: bool = True) -> List[Dict]:
        """
        Phase 2: 运行表演（实时模式）
        
        Args:
            state: 表演状态
            danmaku_sim: 模拟弹幕
            play_audio: 是否逐句播放音频
            save_audio: 是否保存完整直播音频
        """
        
        results = []
        danmaku_by_step = defaultdict(list)
        
        if danmaku_sim:
            for d in danmaku_sim:
                step = d.get("step", 0)
                danmaku_by_step[step].append(Danmaku.from_text(d.get("text", "")))
        
        # 🔴 开始录制
        if save_audio and self.tts.enabled:
            self.tts.start_recording()
        
        print(f"\n{'='*60}")
        print(f"🎭 开始实时表演")
        if save_audio and self.tts.enabled:
            print(f"🔴 正在录制...")
        print(f"{'='*60}\n")
        
        for step in range(len(state.script_lines)):
            # 获取新弹幕
            new_danmaku = danmaku_by_step.get(step, [])
            
            # 执行一步
            result = self.performer.step(state, new_danmaku)
            results.append(result)
            
            # 显示
            step_num = result.get("step", 0)
            stage = result.get("stage", "?")
            action = result.get("action", "continue")
            speech = result.get("speech", "")
            
            action_icons = {
                "continue": "📖",
                "tease": "🎣",
                "jump": "⚡",
                "improvise": "🎲",
                "end": "🎭"
            }
            icon = action_icons.get(action, "📖")
            
            print(f"[Step {step_num}] {stage} {icon} {action.upper()}")
            print(f"  📢 {speech[:100]}{'...' if len(speech) > 100 else ''}")
            
            if result.get("danmaku"):
                print(f"  💬 回应弹幕: {result['danmaku']}")
                print(f"  📊 priority={result.get('priority', 0):.2f}, cost={result.get('cost', 0):.2f}, relevance={result.get('relevance', 0):.2f}")
            
            # V3: 显示认知特征和情绪断点
            if result.get('emotion_break'):
                level = result['emotion_break'].get('level', 0)
                level_name = {1: "微破防", 2: "明显破防", 3: "完全破防"}.get(level, f"L{level}")
                trigger = result['emotion_break'].get('trigger', '')
                print(f"  🎭 情绪断点: {level_name} - {trigger}")
            if result.get('disfluencies'):
                print(f"  💬 认知特征: {', '.join(result['disfluencies'])}")
            
            # 显示记忆（每3步显示一次）
            if step_num % 3 == 0:
                print(f"\n{result.get('memory_display', '')}")
            
            # 🔊 逐句播放音频（关键！）
            if play_audio and result.get('audio'):
                print(f"  🔊 播放语音...")
                display(Audio(result['audio'], autoplay=True))
                # 可以添加延迟，等待播放完成
                # import time
                # time.sleep(len(result['audio']) / 10000)  # 估算播放时长
            
            print()
            
            if action == "end":
                break
        
        print(f"\n{'='*60}")
        print(f"✅ 表演结束！")
        print(f"{'='*60}\n")
        
        # 💾 保存录制的音频
        if save_audio and self.tts.enabled:
            from datetime import datetime
            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
            audio_path = self.scripts_dir / f"{timestamp}_{state.name}_{state.topic[:20].replace(' ', '_')}_live.mp3"
            self.tts.save_recording(str(audio_path))
        
        # 最终记忆状态
        print("🧠 最终记忆状态：")
        print(state.memory.to_display())
        
        return results


# 初始化引擎（默认使用 V3 生成器）
engine_v3 = EchuuEngineV3(llm, tts, analyzer)  # use_v3_generator=True 是默认值
print("\n✅ echuu 引擎初始化完成（默认使用 ScriptGeneratorV3）！")


🎭 使用 ScriptGeneratorV3（带两阶段沉浸 + 情绪断点）

✅ echuu 引擎初始化完成（默认使用 ScriptGeneratorV3）！


## Part 10: 🚀 快速开始

运行测试用例，体验完整流程。

In [20]:
# 测试用例：经典的室友腰果故事

test_case_v3 = {
    "name": "六螺",
    "persona": "25岁主播，活泼自嘲，喜欢分享生活经历，口癖：我觉得、对吧、就是说",
    "background": "做过很多工作，现在是全职主播，留学日本多年",
    "topic": "留学时偷吃室友腰果的故事",
    "danmaku": [
        {"step": 1, "text": "哈哈哈"},
        {"step": 2, "text": "我也有类似经历"},
        {"step": 4, "text": "室友知道吗？"},  # 高相关问题
        {"step": 6, "text": "[SC ¥50] 后来室友生气了吗"},  # SC + 高相关
        {"step": 8, "text": "笑死"},
    ]
}

# Phase 1: 预生成完整剧本
state_v3 = engine_v3.create_performance(
    name=test_case_v3["name"],
    persona=test_case_v3["persona"],
    background=test_case_v3["background"],
    topic=test_case_v3["topic"],
    language="zh"
)



🎬 echuu v2 - 预生成完整剧本

角色: 六螺
话题: 留学时偷吃室友腰果的故事

⏳ 正在生成3-4分钟剧本...
🎭 Phase 0: 建立沉浸状态...
   沉浸状态:
   哎呀刚刚看到弹幕有人说"腰果"两个字，我瞬间就想起来一个超级尴尬的事情！就是我留学那会儿偷吃室友腰果的事，我觉得现在想起来还是好丢脸啊，但是又忍不住想笑。我现在有点纠结要不要跟大家分享，因为真的太社死了，但是又觉得挺有趣的对吧？算了算了，反正都这么熟了，我就跟你们说说吧，就是说那时候我真的太馋了.....

📚 Phase 1: 采样 few-shot examples...
   采样了 3 个 examples
   - 沉没成本与读博换导师
   - 展麟做客辅威联动（破防挑战）
   - 辅威联动（防诈骗现场演示）

✍️ Phase 2: 生成剧本...
✅ 生成了 8 句台词
   认知特征总数: 19
   情绪断点: 2 处
💾 剧本已保存: d:\vtuberclip\echuu-agent\output\scripts\20260126_020055_六螺_留学时偷吃室友腰果的故事.json

📖 生成的剧本：

[0] Hook █░░░░ cost=0.3
    我觉得就是说，那时候在日本留学嘛，对吧，然后我跟我室友住一个公寓，就是那种很小的公寓，我记得是二楼还是三楼来着，反正挺高的。然后她人特别好，就是那种...怎么说...
    🔑 key_info: 日本留学, 室友很好, 会买零食

[1] Build-up ██░░░ cost=0.4
    然后有一天她买了一包腰果，就放在那，放在那个桌子上。我觉得那个腰果的包装特别漂亮，就是那种透明的袋子，然后你能看到里面那个腰果一个一个的，就特别诱人知道吧。我就...
    🔑 key_info: 腰果包装漂亮, 每次都偷看

[2] Build-up ██░░░ cost=0.5
    那时候汇率还挺高的，我记得是7点几还是6点几来着，反正就是钱不够花嘛，对吧。我每天就吃那种很便宜的拉面，好像是一百多日元一包吧，不对，是几十日元？算了这个不重要...
    🔑 key_info: 经济拮据, 很馋坚果

[3] Build-up ███░░ cost=0.6
    那个公寓的厨房特别小

In [21]:
# Phase 2: 运行实时表演（带弹幕互动）

# 将生成的弹幕转换为 engine 需要的格式，并分配到各个 step
import random

def convert_danmaku_for_engine(danmaku_list: List[Danmaku], total_steps: int) -> List[Dict]:
    """将 Danmaku 对象列表转换为 engine.run() 需要的格式"""
    result = []
    for d in danmaku_list:
        step = random.randint(0, total_steps - 1)  # 随机分配到某个 step
        text = d.text
        if d.is_sc:
            text = f"[SC ¥{d.amount}] {d.text}" if not d.text.startswith("SC") else d.text
        result.append({"step": step, "text": text, "user": d.user})
    return result

# 使用生成的弹幕（如果存在），否则用默认的
if 'all_test_danmaku' in dir() and all_test_danmaku:
    total_steps = len(state_v3.script_lines)
    danmaku_for_test = convert_danmaku_for_engine(all_test_danmaku, total_steps)
    print(f"📝 使用生成的 {len(danmaku_for_test)} 条测试弹幕")
else:
    danmaku_for_test = test_case_v3["danmaku"]
    print(f"⚠️ 使用默认的 {len(danmaku_for_test)} 条弹幕（请先运行弹幕生成器 cell）")

results_v3 = engine_v3.run(
    state_v3, 
    danmaku_sim=danmaku_for_test,
    play_audio=True  # 设为 False 可以禁用自动播放
)


📝 使用生成的 130 条测试弹幕
🔴 开始录制直播音频...

🎭 开始实时表演
🔴 正在录制...

[Step 1] Hook 🎲 IMPROVISE
  📢 哈哈哈谢谢观众老板的SC！真实是吧，我就是这样的人啦，看到好吃的就走不动路 你们知道吗，我真的是那种看到包装好看的零食就特别想要的人，就算不饿也想买。那个腰果真的，包装就特别精致，透明袋子里面一颗一颗...
  💬 回应弹幕: SC ¥50 笑死 主播太真实了
  📊 priority=1.15, cost=0.30, relevance=0.00
  💬 认知特征: 数字模糊, 自我修正, 跑题细节
  🔊 播放语音...



[Step 2] Build-up 🎲 IMPROVISE
  📢 哇！谢谢观众的200块钱SC！社死是吧哈哈哈，那我得好好讲完这个故事回报你们！ 说起社死，我那时候在日本真的每天都在社死边缘疯狂试探，毕竟穷嘛对吧。那时候汇率还挺高的，我记得是7点几还是6点几来着，反...
  💬 回应弹幕: SC ¥200 支持主播 继续社死
  📊 priority=1.45, cost=0.40, relevance=0.00
  💬 认知特征: 词语重复, 自我修正
  🔊 播放语音...



[Step 3] Build-up 🎲 IMPROVISE
  📢 哈哈哈，谢谢30块钱的SC！道歉吗？其实我真的有想过要道歉的... 就是那个公寓的厨房特别小，一字型的厨房，每次我去煮面的时候都会经过那个桌子，看到那包腰果就在那里。然后我就想，要不要跟室友说一下，或...
  💬 回应弹幕: SC ¥30 建议主播去道歉
  📊 priority=0.85, cost=0.50, relevance=0.00
  💬 认知特征: 数字模糊, 思路中断, 跑题细节

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███░░░░░░░] 3/8 (Build-up)  │
│ 💬 弹幕: 已回应3条, 待回答0个问题         │
│ ✅ 已提到:                                  │
│    ✓ 每次都偷看...                      │
│    ✓ 经济拮据...                      │
│    ✓ 很馋坚果...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 4] Build-up 🎲 IMPROVISE
  📢 哇谢谢50块的SC！哈哈哈观众真的太懂我了，我现在想想那时候的自己真的是...太可爱了吧 就是那种明明很想要但是又不敢直接拿的心情，你们懂吗？现在想想真的很好笑。好啦回到我的腰果故事～我觉得我那时候真...
  💬 回应弹幕: SC ¥50 笑死 主播太真实了
  📊 priority=1.15, cost=0.60, relevance=0.00
  💬 认知特征: 严重跑题, 词语重复, 思路中断
  🔊 播放语音...



[Step 5] Climax 🎲 IMPROVISE
  📢 哈哈哈哈，谢谢50块钱的SC！室友看到？哎呀我室友要是看到肯定会说'我就说那天腰果怎么少了那么多'！ 不过说真的，我到现在都没敢跟她坦白这件事哈哈哈。好了好了，我继续讲我当时的惨状。然后我就...我就...
  💬 回应弹幕: SC ¥50 室友看到这个直播会怎么想
  📊 priority=1.05, cost=0.70, relevance=0.00
  💬 认知特征: 词语重复, 自我修正
  🔊 播放语音...



[Step 6] Climax 🎲 IMPROVISE
  📢 哈哈哈谢谢30块的SC！现在还偷吃吗？诶这个问题问得好，我现在...我现在其实还是会偷吃的哈哈哈，但是没有那么夸张了啦！ 不过那次之后我真的学乖了很多，至少不会一次吃那么多了。好啦好啦，我们继续刚才的...
  💬 回应弹幕: SC ¥30 你现在还偷吃吗
  📊 priority=0.85, cost=0.80, relevance=0.00
  🎭 情绪断点: 微破防 - 意识到吃太多
  💬 认知特征: 词语重复, 数字模糊

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███████░░░] 6/8 (Climax)  │
│ 💬 弹幕: 已回应6条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 意识到吃太多...              │
│ ✅ 已提到:                                  │
│    ✓ 停不下来...                      │
│    ✓ 吃了一半...                      │
│    ✓ 开始慌张...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 7] Climax 🎲 IMPROVISE
  📢 真的真的！我发誓这是真事儿，我当时真的想找个地洞钻进去！ 然后她回来的时候我就装作什么都没发生，就是说正常跟她打招呼啊什么的。结果她看到那个袋子，她就...她就笑了，她说六螺你是不是吃我腰果了？我当时...
  💬 回应弹幕: 真的假的
  📊 priority=0.65, cost=0.90, relevance=0.00
  🎭 情绪断点: 明显破防 - 回忆到被发现的尴尬
  💬 认知特征: 词语重复, 思路中断
  🔊 播放语音...



[Step 8] Resolution 🎲 IMPROVISE
  📢 诶？怎么了？是不是觉得我室友太好了？ 结果你猜她怎么说？她说我故意买那么多就是想看你什么时候忍不住呢！我当时就...天哪我现在想起来还觉得好丢脸。但是她人真的太好了，后来又给我买了好几包，我吃。对了今...
  💬 回应弹幕: ？？？
  📊 priority=0.80, cost=0.30, relevance=0.00
  💬 认知特征: 思路中断, 自我修正
  🔊 播放语音...




✅ 表演结束！

💾 直播音频已保存到: d:\vtuberclip\echuu-agent\output\scripts\20260126_020343_六螺_留学时偷吃室友腰果的故事_live.mp3
   总时长: 307.6秒
🧠 最终记忆状态：
┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [██████████] 8/8 (Resolution)  │
│ 💬 弹幕: 已回应8条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 意识到吃太多...              │
│    明显破防: 回忆到被发现的尴尬...              │
│ ✅ 已提到:                                  │
│    ✓ 室友早就知道...                      │
│    ✓ 故意的...                      │
│    ✓ 后续很温暖...                      │
└─────────────────────────────────────────────┘


In [22]:
# ==================== 弹幕互动压力测试 ====================
# 使用 Cell 26 生成的 all_test_danmaku 进行压力测试
# 每步随机注入 1-3 条弹幕，测试主播的弹幕互动能力

import random

def run_with_random_danmaku(engine, state, test_danmaku, inject_rate=0.7):
    """带随机弹幕注入的表演测试"""
    results = []
    danmaku_pool = list(test_danmaku)
    random.shuffle(danmaku_pool)
    
    step = 0
    total_steps = len(state.script_lines)
    while state.current_line_idx < total_steps:
        step += 1
        
        # 按概率注入5-15条弹幕（模拟真实直播间弹幕密度）
        new_danmaku = []
        if random.random() < inject_rate and danmaku_pool:
            num = random.randint(5, min(15, len(danmaku_pool)))
            new_danmaku = [danmaku_pool.pop() for _ in range(num)]
            print(f"\n💬 注入弹幕 ({len(new_danmaku)}条):")
            for d in new_danmaku:
                tag = "[SC]" if d.is_sc else ""
                print(f"   [{d.user}]{tag}: {d.text}")
        
        # 执行一步
        result = engine.performer.step(state, new_danmaku)
        results.append(result)
        
        # 显示结果
        action_emoji = {"continue": "📖", "improvise": "🎲", "interrupt": "⚡", "tease": "😏", "jump": "⏭️"}.get(result.get("action", ""), "❓")
        stage = result.get("stage", "?")
        action = result.get("action", "?")
        speech = result.get("speech", "")
        print(f"\n[Step {step}] {stage} {action_emoji} {action.upper()}")
        print(f"  📢 {speech[:100]}..." if speech else "  📢 (无语音)")
        
        if result.get("danmaku"):
            print(f"  💬 回应弹幕: {result['danmaku']}")
        
        # 最多15步
        if step >= 15:
            break
    
    # 统计
    interrupted = sum(1 for r in results if r.get("action") == "interrupt")
    improvised = sum(1 for r in results if r.get("action") == "improvise")
    print(f"\n📊 互动统计: 被打断 {interrupted} 次, 即兴回应 {improvised} 次")
    return results

# 3. 运行弹幕压力测试
# 使用前面生成的 all_test_danmaku（需要先运行 Cell 26 弹幕生成器）
if 'all_test_danmaku' in dir() and all_test_danmaku:
    # 检查状态是否已完成，如果是则重新生成
    if state_v3.current_line_idx >= len(state_v3.script_lines):
        print("⚠️ 当前剧本已播放完毕，重新生成新剧本...")
        state_v3 = engine_v3.create_performance(
            name=test_case_v3["name"],
            persona=test_case_v3["persona"],
            background=test_case_v3["background"],
            topic=test_case_v3["topic"],
            language="zh"
        )
    print(f"🚀 开始弹幕压力测试，使用 {len(all_test_danmaku)} 条弹幕...")
    test_results = run_with_random_danmaku(engine_v3, state_v3, all_test_danmaku)
else:
    print("⚠️ 请先运行 Cell 26 生成测试弹幕！")

⚠️ 当前剧本已播放完毕，重新生成新剧本...

🎬 echuu v2 - 预生成完整剧本

角色: 六螺
话题: 留学时偷吃室友腰果的故事

⏳ 正在生成3-4分钟剧本...
🎭 Phase 0: 建立沉浸状态...
   沉浸状态:
   哎呀刚才看到有人发弹幕说"坚果好贵啊"，我脑子里瞬间就闪过那个画面——我当年蹲在宿舍角落偷吃室友腰果的样子！我觉得现在心情有点复杂，既想笑又有点羞耻，但是又特别想和大家分享这个黑历史，对吧！就是那种"丢脸但是很好笑"的感觉。我打算先装作若无其事地聊聊坚果，然后"不经意间"提到这个故事，给自己留点面子...

📚 Phase 1: 采样 few-shot examples...
   采样了 3 个 examples
   - 精神寄托论
   - 展麟做客辅威联动（破防挑战）
   - 沉没成本与读博换导师

✍️ Phase 2: 生成剧本...
✅ 生成了 8 句台词
   认知特征总数: 16
   情绪断点: 3 处
💾 剧本已保存: d:\vtuberclip\echuu-agent\output\scripts\20260126_020438_六螺_留学时偷吃室友腰果的故事.json

📖 生成的剧本：

[0] Hook █░░░░ cost=0.3
    刚才有人说坚果好贵，我就突然想起来...诶我以前在日本的时候，有一次做了一件特别丢脸的事情。就是我室友她买了一包腰果，那种进口的，好像是什么牌子来着，反正就是很...
    🔑 key_info: 日本留学, 室友买了贵腰果

[1] Build-up ██░░░ cost=0.4
    我当时就...我就每天路过那个桌子都要看一眼，就是那种...你们知道吧，就是明明不是自己的东西，但是就忍不住要看。而且那个包装袋是透明的，我能看到里面那个腰果，...
    🔑 key_info: 每天都看, 透明包装

[2] Build-up ██░░░ cost=0.5
    那时候我们住的是什么来着，学生公寓，在三楼还是四楼来着，反正挺高的。房间特别小，就两张床加一个桌子，那个桌子就在门口那里。每天我回宿舍开门第一眼就能看到那包腰果...
    🔑 key_info: 宿舍环境描述

[3] Climax ████░ cost=0.8
    然后有一天，

## 附录 A: 🎙️ TTS 高级功能

详细的 TTS 功能演示和使用指南。


In [23]:
# 🎙️ TTS 增强功能演示

print("=" * 60)
print("🎙️ TTS 增强功能演示")
print("=" * 60)

# 1️⃣ 音色列表
print(f"\n📋 可用音色 ({len(tts.AVAILABLE_VOICES)}个):")
print("女声:", [v for v in tts.AVAILABLE_VOICES if "xiao" in v or v in ["longwan", "longyue", "longjing", "longanyang"]][:5])
print("男声:", [v for v in tts.AVAILABLE_VOICES if v in ["longye", "longfei", "longxiaohao", "longxiaoming"]])
print("特色:", [v for v in tts.AVAILABLE_VOICES if "miaomiao" in v or "lele" in v or "tiantian" in v or "dada" in v])

# 2️⃣ 快速测试音色
print("\n🔊 快速测试音色:")
print("使用方法: test_voice('音色名', '测试文本')")
print("示例:")
print("  test_voice('longmiaomiao', '喵~ 大家好呀，我是小猫猫主播！')")
print("  test_voice('longye', '各位观众朋友们好，今天来给大家讲个故事')")
print("  test_voice('longtiantian', '嗨~ 宝贝们，今天的直播超级精彩哦！')")

# 3️⃣ 情绪参数控制
print("\n🎛️ 情绪参数控制:")
print("tts.set_emotion_params(rate=1.2, pitch=100, volume=80)  # 快语速、高音调、大音量")
print("tts.set_emotion_params(rate=0.8, pitch=-50, volume=50)  # 慢语速、低音调、正常音量")

# 4️⃣ 情绪增强参数
print("\n🔥 情绪增强 (emotion_boost):")
print("emotion_boost=0.0  →  正常语速")
print("emotion_boost=0.5  →  轻微情绪波动（±25%语速，±100音调）")
print("emotion_boost=1.0  →  强烈情绪波动（±50%语速，±200音调）")
print("\n示例:")
print("  tts.synthesize('真的太好笑了！', emotion_boost=0.8)")

# 5️⃣ 直播录制功能
print("\n💾 直播录制功能:")
print("在 engine_v3.run() 中自动开启:")
print("  - 每句语音自动保存到缓存")
print("  - 直播结束自动合并为完整MP3")
print("  - 保存路径: output/scripts/{timestamp}_{name}_{topic}_live.mp3")

print("\n" + "=" * 60)
print("✅ 所有功能已就绪！")
print("=" * 60)


🎙️ TTS 增强功能演示

📋 可用音色 (41个):
女声: []
男声: []
特色: []

🔊 快速测试音色:
使用方法: test_voice('音色名', '测试文本')
示例:
  test_voice('longmiaomiao', '喵~ 大家好呀，我是小猫猫主播！')
  test_voice('longye', '各位观众朋友们好，今天来给大家讲个故事')
  test_voice('longtiantian', '嗨~ 宝贝们，今天的直播超级精彩哦！')

🎛️ 情绪参数控制:
tts.set_emotion_params(rate=1.2, pitch=100, volume=80)  # 快语速、高音调、大音量
tts.set_emotion_params(rate=0.8, pitch=-50, volume=50)  # 慢语速、低音调、正常音量

🔥 情绪增强 (emotion_boost):
emotion_boost=0.0  →  正常语速
emotion_boost=0.5  →  轻微情绪波动（±25%语速，±100音调）
emotion_boost=1.0  →  强烈情绪波动（±50%语速，±200音调）

示例:
  tts.synthesize('真的太好笑了！', emotion_boost=0.8)

💾 直播录制功能:
在 engine_v3.run() 中自动开启:
  - 每句语音自动保存到缓存
  - 直播结束自动合并为完整MP3
  - 保存路径: output/scripts/{timestamp}_{name}_{topic}_live.mp3

✅ 所有功能已就绪！


### A.1 📚 TTS 使用指南

### 1️⃣ 音色切换

```python
# 方法1: 使用 test_voice() 快速测试
test_voice('longmiaomiao', '喵~ 这是萌系音色测试')
test_voice('longye', '这是男声测试')

# 方法2: 修改 TTS 实例的音色
tts.change_voice('longtiantian')  # 切换到甜美音色
```

**可用音色分类：**
- **女声**：`longwan`, `longyue`, `longxiaochun`, `longjing`, `longxiaoxin`, `longxiaoya`, `longxiaoyi`, `longanyang` 等
- **男声**：`longye`, `longfei`, `longxiaohao`, `longxiaoming`, `longxiaochen`, `longxiaojun`, `longxiaobo`
- **特色**：`longmiaomiao`(萌系), `longlele`(活泼), `longtiantian`(甜美), `longdada`(大气)

---

### 2️⃣ 情绪参数调整

```python
# 设置基础情绪参数
tts.set_emotion_params(
    rate=1.2,    # 语速 0.5-2.0 (1.0=正常, 1.5=快, 0.8=慢)
    pitch=100,   # 音调 -500到500 (0=正常, +200=高音, -200=低音)
    volume=80    # 音量 0-100
)
```

**情绪增强参数（在synthesize中使用）：**
```python
# emotion_boost: 0.0-1.0
audio = tts.synthesize("天哪！太好笑了！", emotion_boost=0.8)
# 0.0 = 正常
# 0.5 = 中等情绪（±25%语速，±100音调随机波动）
# 1.0 = 最强情绪（±50%语速，±200音调随机波动）
```

**在剧本中自动应用：**
- `Hook` 开场：emotion_boost=0.3
- `Build-up` 铺垫：emotion_boost=0.2
- `Climax` 高潮：emotion_boost=0.8 🔥
- `Resolution` 收尾：emotion_boost=0.4

---

### 3️⃣ 直播录制功能

**自动录制（推荐）：**
```python
# 在 engine_v3.run() 时自动录制
results = engine_v3.run(
    state,
    danmaku_sim=test_danmaku,
    play_audio=True,   # 逐句播放
    save_audio=True    # 自动保存完整录音
)
# 保存路径: output/scripts/{timestamp}_{name}_{topic}_live.mp3
```

**手动录制：**
```python
# 开始录制
tts.start_recording()

# 生成多句语音（自动添加到缓存）
tts.synthesize("第一句话")
tts.synthesize("第二句话")
tts.synthesize("第三句话")

# 保存录制
tts.save_recording("output/my_recording.mp3")
```

---

### 4️⃣ 完整示例

```python
# 1. 切换音色
tts.change_voice('longmiaomiao')  # 使用萌系音色

# 2. 调整情绪参数
tts.set_emotion_params(rate=1.1, pitch=50, volume=70)

# 3. 生成角色剧本
state = engine_v3.create_performance(
    name="小猫猫",
    persona="萌系猫娘主播，说话带喵~",
    background="大学生，喜欢分享日常",
    topic="今天被室友发现偷吃零食的糗事",
    language="zh"
)

# 4. 运行直播（自动录制）
results = engine_v3.run(
    state,
    danmaku_sim=[
        {"step": 2, "text": "好可爱喵~"},
        {"step": 4, "text": "[SC ¥100] 室友没有生气吧？"},
    ],
    play_audio=True,   # 逐句播放音频
    save_audio=True    # 自动保存完整录音
)

# 5. 录音自动保存到: output/scripts/{timestamp}_小猫猫_今天被室友发现偷吃零食的糗_live.mp3
```

---

### 💡 提示

1. **pydub 依赖**：为了正确合并音频，需要安装：
   ```bash
   pip install pydub
   ```

2. **音色测试**：建议先用 `test_voice()` 快速测试不同音色，找到最适合角色的声音

3. **情绪起伏**：`emotion_boost` 会在剧本的 `Climax` 阶段自动提升到 0.8，制造情绪高潮

4. **逐句播放**：每句台词生成后立即播放，模拟真实直播效果


In [24]:
# 💾 保存剧本（可选）
save_script_to_file(state_v3.script_lines, test_case_v3["name"], test_case_v3["topic"], scripts_dir)

# 📊 查看剧本进度
show_script_progress(state_v3)


💾 剧本已保存: 20260126_020715_六螺_留学时偷吃室友腰果的故事.json
   路径: d:\vtuberclip\echuu-agent\output\scripts\20260126_020715_六螺_留学时偷吃室友腰果的故事.json
   总字数: 994 字


📊 剧本进度

进度: [████████████████████████████████████████] 8/8 (100.0%)
当前阶段: Resolution

📖 已说内容（最近3句）:
  [5] 最离谱的是，我室友回来的时候，我正好在那里纠结要不要再吃一颗。她一开门就看到我蹲在桌子旁边，手里还拿着一颗腰果。那个场面...
  [6] 后来她还给我分了一大把，说她其实早就注意到袋子里少了几颗，但是觉得我可能是想吃又不好意思说。我当时就...就特别感动，觉...
  [7] 现在想想那包腰果应该就是我人生中吃过最香的腰果了，不是因为它本身有多好吃，而是因为...因为那种被原谅的感觉吧。我觉得有...




## 附录 B: 🎨 自定义角色模板

自定义你的角色和话题进行测试。

In [25]:
# 🎨 自定义你的角色和话题！

my_test = {
    "name": "小梅",  # 👈 修改名字
    "persona": "温柔的猫娘主播，说话带喵~，喜欢分享温暖的故事",  # 👈 修改人设
    "background": "大学毕业，现在是全职主播",  # 👈 修改背景
    "topic": "第一次养猫的经历",  # 👈 修改话题
    "danmaku": [
        {"step": 1, "text": "好可爱~"},
        {"step": 3, "text": "猫咪叫什么名字？"},  # 高相关问题
        {"step": 5, "text": "[SC ¥100] 猫咪现在多大了"},  # 大额SC
        {"step": 7, "text": "我也想养猫"},
    ]
}

# Phase 1: 生成剧本
my_state = engine_v3.create_performance(
    name=my_test["name"],
    persona=my_test["persona"],
    background=my_test["background"],
    topic=my_test["topic"],
    language="zh"
)



🎬 echuu v2 - 预生成完整剧本

角色: 小梅
话题: 第一次养猫的经历

⏳ 正在生成3-4分钟剧本...
🎭 Phase 0: 建立沉浸状态...
   沉浸状态:
   啊~刚刚看到有观众发弹幕说"小梅今天的耳朵特别有精神喵"，我下意识摸了摸头上的猫耳朵，突然就想起了小时候第一次抱小猫咪的感觉喵~那种毛茸茸软乎乎的触感...心里暖暖的，有点想笑，因为那时候的我真的超级笨拙喵！想和大家分享这个有点傻但很温暖的回忆，不过要怎么开口呢...要不先问问大家有没有养过小动物喵...

📚 Phase 1: 采样 few-shot examples...
   采样了 3 个 examples
   - 沉没成本与读博换导师
   - 逗猫日常
   - 辅威联动（防诈骗现场演示）

✍️ Phase 2: 生成剧本...
✅ 生成了 8 句台词
   认知特征总数: 20
   情绪断点: 2 处
💾 剧本已保存: d:\vtuberclip\echuu-agent\output\scripts\20260126_020801_小梅_第一次养猫的经历.json

📖 生成的剧本：

[0] Hook █░░░░ cost=0.2
    诶，刚才有人问我有没有养过小动物喵~我突然想起来我第一次...第一次养猫的时候，那个时候我还在上大学来着，应该是大二还是大三？大二吧应该是。那时候我室友她突然说...
    🔑 key_info: 第一次养猫, 大学时期, 室友提议

[1] Build-up █░░░░ cost=0.3
    然后我们就去那个...什么来着，宠物店？不对，是领养的，在学校附近有个小区，那边经常有流浪猫生小猫。我们去的时候是冬天，特别冷，我还记得那天我穿的是那件粉色的羽...
    🔑 key_info: 领养流浪猫, 冬天, 具体场景

[2] Build-up ██░░░ cost=0.4
    到了那边我们就看到一窝小猫咪，哇那个时候它们还很小很小，眼睛都还没完全睁开喵~我当时就蹲在那里，然后那个阿姨说你们可以抱抱看，我就伸手去摸...结果你猜怎么着，...
    🔑 key_info: 小猫很小, 不敢碰, 悬着手

[3] Build-up ██░░░ cost=0.5
    那个阿姨看我这样就笑了，她说没事的，小猫咪

In [26]:
# Phase 2: 运行表演
my_results = engine_v3.run(
    my_state,
    danmaku_sim=my_test["danmaku"],
    play_audio=True
)


🔴 开始录制直播音频...

🎭 开始实时表演
🔴 正在录制...

[Step 1] Hook 📖 CONTINUE
  📢 诶，刚才有人问我有没有养过小动物喵~我突然想起来我第一次...第一次养猫的时候，那个时候我还在上大学来着，应该是大二还是大三？大二吧应该是。那时候我室友她突然说要养猫，我就想说好啊好啊，我也想摸猫咪喵...
  💬 认知特征: 词语重复, 数字模糊, 跑题细节
  🔊 播放语音...



[Step 2] Build-up 🎲 IMPROVISE
  📢 对吧对吧！小猫咪真的超可爱的~ 然后我们就去那个...什么来着，宠物店？不对，是领养的，在学校附近有个小区，那边经常有流浪猫生小猫。我们去的时候是冬天，特别冷，我还记得那天我穿的是那件粉色的羽绒服，就...
  💬 回应弹幕: 好可爱~
  📊 priority=0.55, cost=0.30, relevance=0.00
  💬 认知特征: 自我修正, 跑题细节, 思路中断
  🔊 播放语音...



[Step 3] Build-up 📖 CONTINUE
  📢 到了那边我们就看到一窝小猫咪，哇那个时候它们还很小很小，眼睛都还没完全睁开喵~我当时就蹲在那里，然后那个阿姨说你们可以抱抱看，我就伸手去摸...结果你猜怎么着，我居然不敢碰！就是怕弄疼它们，手在那里悬...
  💬 认知特征: 词语重复, 数字模糊

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███░░░░░░░] 3/8 (Build-up)  │
│ 💬 弹幕: 已回应1条, 待回答0个问题         │
│ ✅ 已提到:                                  │
│    ✓ 小猫很小...                      │
│    ✓ 不敢碰...                      │
│    ✓ 悬着手...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 4] Build-up 🎲 IMPROVISE
  📢 诶，名字啊？其实当时还没有名字呢，因为刚刚出生嘛~不过后面会有的哦！ 那个阿姨看我这样就笑了，她说没事的，小猫咪很结实的。然后她就教我怎么抱，要托着肚子，不能提脖子什么的...诶等等，那个时候我室友选...
  💬 回应弹幕: 猫咪叫什么名字？
  📊 priority=0.50, cost=0.50, relevance=0.00
  💬 认知特征: 思路中断, 数字模糊, 自我修正
  🔊 播放语音...



[Step 5] Climax 📖 CONTINUE
  📢 我抱起那只小黑猫的时候...天哪，那种感觉真的是...怎么说呢，就是软软的，暖暖的，然后它还在我手心里动来动去的喵~我当时心都要化了，就想说这么小的一个生命，以后要我来照顾它...我行吗？我连自己都照...
  🎭 情绪断点: 微破防 - 回忆到具体画面
  💬 认知特征: 词语重复, 自我修正
  🔊 播放语音...



[Step 6] Build-up 🎲 IMPROVISE
  📢 哇！谢谢100块的SC！诶，问猫咪现在多大了是吧～其实现在已经三岁多啦，超级胖的一只！ 现在想想当时那只小黑猫真的好小好小，手掌大小的一团毛球，现在都成了我家的胖橘...啊不对，胖黑了哈哈～好了好了，...
  💬 回应弹幕: [SC ¥100] 猫咪现在多大了
  📊 priority=1.25, cost=0.60, relevance=0.00
  💬 认知特征: 严重跑题, 数字模糊, 思路中断

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███████░░░] 6/8 (Build-up)  │
│ 💬 弹幕: 已回应3条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 回忆到具体画面...              │
│ ✅ 已提到:                                  │
│    ✓ 买猫用品...                      │
│    ✓ 花费很多...                      │
│    ✓ 学生没钱...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 7] Climax 📖 CONTINUE
  📢 对了，小黑猫的事！结果第一天晚上它就不停地叫，可能是想妈妈了吧喵~我和室友轮流抱着它，哄了一整夜都没睡好。第二天我们俩都是熊猫眼，去上课的时候教授还问我们是不是熬夜了...我们就...就不好意思说是因...
  🎭 情绪断点: 明显破防 - 想起当时的窘况
  💬 认知特征: 词语重复, 自我修正
  🔊 播放语音...



[Step 8] Resolution 📖 CONTINUE
  📢 但是你知道吗，慢慢地它就适应了，开始在我们宿舍里到处跑来跑去，特别活泼喵~有时候我写作业的时候它就跳到我桌子上，踩我的键盘，把我刚写的作业都弄乱了...不过看着它那么可爱，我也舍不得骂它喵~现在想起来...
  💬 认知特征: 跑题细节, 自我修正
  🔊 播放语音...




✅ 表演结束！

💾 直播音频已保存到: d:\vtuberclip\echuu-agent\output\scripts\20260126_021000_小梅_第一次养猫的经历_live.mp3
   总时长: 255.1秒
🧠 最终记忆状态：
┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [██████████] 8/8 (Resolution)  │
│ 💬 弹幕: 已回应3条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 回忆到具体画面...              │
│    明显破防: 想起当时的窘况...              │
│ ✅ 已提到:                                  │
│    ✓ 猫咪适应环境...                      │
│    ✓ 调皮捣蛋...                      │
│    ✓ 温暖回忆...                      │
└─────────────────────────────────────────────┘


## 🎭 Rocky (阿强) 专题测试

使用 Rocky 音色（粤语-阿强）模拟旧金山移民背景的幽默直播。

In [28]:
# ==================== Rocky (阿强) 专题测试：旧金山唐人街生存指南 ====================

# 1. 配置 Rocky 角色和主题
rocky_test = {
    "name": "阿强 (Rocky)",
    "persona": "旧金山唐人街三十年老移民，斜杠大叔。白天开武馆，晚上送外卖，自带老广幽默。",
    "background": "90年代从广州移民到旧金山，在唐人街摸爬滚打，见证了旧金山的所有变迁。说话爱带点粤语口头禅，非常接地气。",
    "topic": "旧金山生存秘籍：如何凭着一口粤语在唐人街混到一份免费的叉烧饭",
    "voice": "rocky"  # 使用 Rocky 音色
}

# 2. 设置 Rocky 音色（粤语-阿强）
# 注意：如果你的 .env 里设置了 TTS_VOICE，这里会覆盖它
tts.voice = "rocky"
print(f"🎙️ 当前音色已切换为: {tts.voice} (Rocky)")

# 3. 生成剧本
rocky_state = engine_v3.create_performance(
    name=rocky_test["name"],
    persona=rocky_test["persona"],
    background=rocky_test["background"],
    topic=rocky_test["topic"],
    language="zh"
)

# 4. 准备一些有“网感”的互动弹幕
rocky_danmaku = [
    {"step": 1, "text": "强哥，旧金山的房租现在是不是贵得离谱？"},
    {"step": 2, "text": "SC ¥50 强哥讲下当年海鸥抢你三明治那个事，笑死我了"},
    {"step": 3, "text": "唐人街哪家烧腊最正宗啊？"},
    {"step": 5, "text": "强哥，我也想移民，现在还来得及吗？"}
]

# 5. 开始表演
rocky_results = engine_v3.run(
    rocky_state,
    danmaku_sim=rocky_danmaku,
    play_audio=True
)


🎙️ 当前音色已切换为: rocky (Rocky)

🎬 echuu v2 - 预生成完整剧本

角色: 阿强 (Rocky)
话题: 旧金山生存秘籍：如何凭着一口粤语在唐人街混到一份免费的叉烧饭

⏳ 正在生成3-4分钟剧本...
🎭 Phase 0: 建立沉浸状态...
   沉浸状态:
   哎呀，刚刚看到弹幕有人问"阿强叔，在美国粤语有用吗？"我差点把嘴里的叉烧饭喷出来！你知道吗，我现在吃的这份叉烧饭，十年前我就是靠着一口"正宗"的台山话在隔壁老陈那里蹭到的！

现在想起来又好笑又有点不好意思，当时我刚来美国没几年，穷到裤袋里只剩几个硬币，但面子还是要的嘛。我打算先卖个关子，问问直播间...

📚 Phase 1: 采样 few-shot examples...
   采样了 3 个 examples
   - 转行当老师的畅想
   - 海苔腰果偷吃记
   - 精神寄托论

✍️ Phase 2: 生成剧本...
✅ 生成了 8 句台词
   认知特征总数: 18
   情绪断点: 2 处
💾 剧本已保存: d:\vtuberclip\echuu-agent\output\scripts\20260126_021810_阿强 (Rocky)_旧金山生存秘籍：如何凭着一口粤语在唐人街混到一份免费的叉烧饭.json

📖 生成的剧本：

[0] Hook █░░░░ cost=0.2
    哎呀，刚刚看到弹幕有人问「阿强叔，在美国粤语有用吗？」我差点把嘴里的叉烧饭喷出来！你知道吗，我现在吃的这份叉烧饭，十年前我就是靠着一口「正宗」的台山话在隔壁老陈...
    🔑 key_info: 用粤语蹭饭的回忆, 刚来美国很穷

[1] Build-up █░░░░ cost=0.3
    那个时候我住在...住在Stockton Street那边，就是那条街很吵的，楼下每天早上六点就有卖菜的大妈在那里shouting，用广东话在那里叫卖。我那个公...
    🔑 key_info: 住处细节, 当时的经济状况

[2] Build-up ██░░░ cost=0.4
    老陈开了个小餐厅，就在Grant Avenue，那种很传统的茶餐厅，红色的塑料椅子，墙上贴着港星的海报。我每天路过都能闻到那个叉烧的香味，救命，那个香味啊......
    🔑 ke


[Step 2] Build-up 🎲 IMPROVISE
  📢 哈哈哈，现在？现在更离谱啊！我那时候还算便宜的呢。 我那个公寓，一个月租金才八百块，现在同样的地方估计要三千往上走了。但是啊，那时候对我来说八百块也是天价啊！所以我只能住那种很破很破的地方。楼下那个老...
  💬 回应弹幕: 强哥，旧金山的房租现在是不是贵得离谱？
  📊 priority=0.50, cost=0.30, relevance=0.00
  💬 认知特征: 严重跑题, 数字模糊, 思路中断
  🔊 播放语音...



[Step 3] Build-up 🎲 IMPROVISE
  📢 哈哈哈，诶不是，五十块钱让我讲海鸥抢三明治？那个更搞笑啊，等等等等，我先把这个故事讲完，海鸥那个我待会儿一定讲！ 老陈开了个小餐厅，就在Grant Avenue，那种很传统的茶餐厅，红色的塑料椅子，墙...
  💬 回应弹幕: SC ¥50 强哥讲下当年海鸥抢你三明治那个事，笑死我了
  📊 priority=1.15, cost=0.40, relevance=0.00
  💬 认知特征: 跑题细节, 词语重复, 自我修正

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███░░░░░░░] 3/8 (Build-up)  │
│ 💬 弹幕: 已回应2条, 待回答0个问题         │
│ ✅ 已提到:                                  │
│    ✓ 当时的经济状况...                      │
│    ✓ 老陈餐厅的描述...                      │
│    ✓ 被发现在外面闻香味...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 4] Build-up 🎲 IMPROVISE
  📢 哈哈，问得好！其实等下故事里就会说到，那家老陈的烧腊真的是...诶，先别剧透，你们听下去就知道了！ 我当时脸红到不行，但是又舍不得走，就硬着头皮用我那个...那个半咸不淡的台山话回答「系啊系啊，闻起来...
  💬 回应弹幕: 唐人街哪家烧腊最正宗啊？
  📊 priority=0.80, cost=0.50, relevance=0.00
  💬 认知特征: 自我修正, 词语重复
  🔊 播放语音...



[Step 5] Climax 📖 CONTINUE
  📢 但是老陈太热情了，一直跟我台山话聊天，「你屋企系边度啊？你爸爸妈妈都好吗？」我就...我就只能硬着头皮，用我那三脚猫的台山话应付。结果你猜怎么着？老陈以为我是刚从台山来的新移民，特别同情我，直接端了一...
  🎭 情绪断点: 微破防 - 意外的善意
  💬 认知特征: 词语重复, 思路中断
  🔊 播放语音...



[Step 6] Climax 🎲 IMPROVISE
  📢 诶移民啊？哈哈，等我把这个故事讲完你就知道了，移民这件事真的很复杂的！ 天哪我现在想起来都觉得不好意思，我当时居然...我居然就这样接受了他的好意。那份叉烧饭啊，肥瘦适中，米饭粒粒分明，还有个荷包蛋在...
  💬 回应弹幕: 强哥，我也想移民，现在还来得及吗？
  📊 priority=0.80, cost=0.90, relevance=0.00
  🎭 情绪断点: 明显破防 - 回忆起当时的心虚
  💬 认知特征: 自我修正, 思路中断

┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [███████░░░] 6/8 (Climax)  │
│ 💬 弹幕: 已回应4条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 意外的善意...              │
│    明显破防: 回忆起当时的心虚...              │
│ ✅ 已提到:                                  │
│    ✓ 意外得到免费饭...                      │
│    ✓ 享受免费饭的心虚感...                      │
│    ✓ 老陈的善意话语...                      │
└─────────────────────────────────────────────┘
  🔊 播放语音...



[Step 7] Resolution 📖 CONTINUE
  📢 后来啊，我每个礼拜都会路过老陈那里，他每次看到我都很开心，有时候还会多给我一个char siu bao。直到有一天，他听到我跟朋友讲广州话，才发现我根本不是台山人！你们猜他什么反应？他哈哈大笑，说「你...
  💬 认知特征: 跑题细节, 数字模糊
  🔊 播放语音...



[Step 8] Resolution 📖 CONTINUE
  📢 现在十年过去了，老陈的餐厅还在，我偶尔还会去吃他的叉烧饭。每次去他都会笑着说「台山佬又来了」。所以你们问粤语有没有用？在唐人街绝对有用！不过记住啊，不要像我当年那样厚脸皮，人家的善意要珍惜。好了，我继...
  💬 认知特征: 数字模糊, 自我修正
  🔊 播放语音...




✅ 表演结束！

💾 直播音频已保存到: d:\vtuberclip\echuu-agent\output\scripts\20260126_022017_阿强 (Rocky)_旧金山生存秘籍：如何凭着一口粤语在唐人街_live.mp3
   总时长: 265.2秒
🧠 最终记忆状态：
┌─────────────────────────────────────────────┐
│ 🧠 AI记忆状态                               │
├─────────────────────────────────────────────┤
│ 📖 剧本: [██████████] 8/8 (Resolution)  │
│ 💬 弹幕: 已回应4条, 待回答0个问题         │
│ 🎭 情绪轨迹:                                │
│    微破防: 意外的善意...              │
│    明显破防: 回忆起当时的心虚...              │
│ ✅ 已提到:                                  │
│    ✓ 老陈的宽容反应...                      │
│    ✓ 现在的关系...                      │
│    ✓ 对观众的建议...                      │
└─────────────────────────────────────────────┘


## Part 11: 🧪 V3 质量检测

测试 V3 生成器的改进效果：
1. 检查认知特征（disfluencies）覆盖率
2. 检查情绪断点（emotion_break）分布
3. 验证"不完美"特征是否足够
4. 生成质量报告

In [27]:
# ==================== V3 效果测试 ====================

def test_v3_quality(script_lines: List[ScriptLine], verbose: bool = True):
    """
    测试 V3 生成的剧本质量
    
    检查：
    1. 认知特征（disfluencies）覆盖率
    2. 情绪断点（emotion_break）分布
    3. 文本中的"不完美"特征
    """
    print("=" * 60)
    print("🧪 V3 剧本质量检查")
    print("=" * 60)
    
    # 统计
    total_lines = len(script_lines)
    total_chars = sum(len(line.text) for line in script_lines)
    
    # 认知特征统计
    disfluency_types = {}
    lines_with_disfluencies = 0
    for line in script_lines:
        if line.disfluencies:
            lines_with_disfluencies += 1
            for d in line.disfluencies:
                disfluency_types[d] = disfluency_types.get(d, 0) + 1
    
    # 情绪断点统计
    emotion_breaks = [line for line in script_lines if line.emotion_break]
    emotion_levels = {}
    for line in emotion_breaks:
        level = line.emotion_break.get('level', 0)
        emotion_levels[level] = emotion_levels.get(level, 0) + 1
    
    # 文本特征检测（真实特征，不是标注的）
    zh_markers = {
        '数字模糊': ['来着', '大概', '好像', '还是', '应该是', '可能'],
        '自我修正': ['不对', '不是', '我的意思是', '那不叫', '我是说'],
        '跑题': ['对了', '说起这个', '诶', '话说', '等等'],
        '情绪词': ['救命', '天哪', '我的天', '哎呀', '卧槽', '太'],
        '词语重复': []  # 需要特殊检测
    }
    
    detected_features = {k: 0 for k in zh_markers}
    lines_with_features = 0
    
    for line in script_lines:
        text = line.text
        has_feature = False
        
        for feature_type, markers in zh_markers.items():
            for marker in markers:
                if marker in text:
                    detected_features[feature_type] += 1
                    has_feature = True
                    break
        
        # 检测词语重复（简单版：检查重复的短语）
        if '，' in text:
            parts = text.split('，')
            for i in range(len(parts)-1):
                if len(parts[i]) >= 2 and len(parts[i+1]) >= 2:
                    if parts[i][-2:] == parts[i+1][:2]:
                        detected_features['词语重复'] += 1
                        has_feature = True
                        break
        
        if has_feature:
            lines_with_features += 1
    
    # 输出结果
    print(f"\n📊 基础统计:")
    print(f"   总行数: {total_lines}")
    print(f"   总字数: {total_chars}")
    print(f"   平均每行字数: {total_chars // total_lines if total_lines else 0}")
    
    print(f"\n📝 认知特征标注 (disfluencies):")
    print(f"   有标注的行: {lines_with_disfluencies}/{total_lines} ({lines_with_disfluencies*100//total_lines if total_lines else 0}%)")
    if disfluency_types:
        for dtype, count in sorted(disfluency_types.items(), key=lambda x: -x[1]):
            print(f"   - {dtype}: {count}")
    else:
        print("   ⚠️ 无认知特征标注")
    
    print(f"\n🎭 情绪断点 (emotion_break):")
    print(f"   总数: {len(emotion_breaks)}")
    if emotion_levels:
        for level, count in sorted(emotion_levels.items()):
            level_name = {1: "微破防", 2: "明显破防", 3: "完全破防"}.get(level, f"Level {level}")
            print(f"   - {level_name}: {count}")
    else:
        print("   （无情绪断点，这可能是正常的）")
    
    print(f"\n🔍 实际文本特征检测:")
    print(f"   有特征的行: {lines_with_features}/{total_lines} ({lines_with_features*100//total_lines if total_lines else 0}%)")
    for feature_type, count in sorted(detected_features.items(), key=lambda x: -x[1]):
        status = "✅" if count > 0 else "⚠️"
        print(f"   {status} {feature_type}: {count}")
    
    # 质量评估
    print(f"\n📈 质量评估:")
    
    # 每200字的认知特征密度
    expected_per_200 = 2.5  # 目标：每200字2-3个
    actual_density = sum(detected_features.values()) / (total_chars / 200) if total_chars else 0
    density_status = "✅" if actual_density >= 1.5 else "⚠️"
    print(f"   {density_status} 认知特征密度: {actual_density:.1f} 个/200字 (目标: ≥2)")
    
    # 情绪断点合理性
    if total_lines >= 8:
        expected_breaks = 1  # 4分钟剧本至少1-2处
        break_status = "✅" if len(emotion_breaks) >= expected_breaks else "💡"
        print(f"   {break_status} 情绪断点: {len(emotion_breaks)} 处 (建议: 1-2处)")
    
    # 详细输出
    if verbose:
        print(f"\n📜 详细内容:")
        print("-" * 60)
        for i, line in enumerate(script_lines):
            text = line.text
            
            # 检查认知特征
            features = []
            if line.disfluencies:
                features.extend(line.disfluencies)
            
            emotion_str = ""
            if line.emotion_break:
                level = line.emotion_break.get('level', 0)
                trigger = line.emotion_break.get('trigger', '')
                emotion_str = f" [情绪L{level}: {trigger}]"
            
            features_str = f" [{', '.join(features)}]" if features else " [⚠️无标注]"
            
            print(f"\n[{line.stage}] Line {i}{emotion_str}")
            print(f"特征:{features_str}")
            print(f"文本: {text[:150]}{'...' if len(text) > 150 else ''}")
    
    return {
        'total_lines': total_lines,
        'total_chars': total_chars,
        'lines_with_disfluencies': lines_with_disfluencies,
        'disfluency_types': disfluency_types,
        'emotion_breaks': len(emotion_breaks),
        'detected_features': detected_features
    }


# ==================== 运行测试 ====================
print("🎬 测试 ScriptGeneratorV3")
print("=" * 60)

# 测试案例
test_case = {
    "name": "六螺",
    "persona": "温柔但偶尔毒舌的女主播，有一只猫叫小橘",
    "background": "曾在日本留学，现在是全职主播",
    "topic": "留学时偷吃室友腰果的故事"
}

# 使用 V3 生成器创建引擎
print("\n1️⃣ 初始化 V3 引擎...")
engine_v3 = EchuuEngineV3(llm, tts, analyzer, use_v3_generator=True)

# 生成剧本
print("\n2️⃣ 生成剧本...")
state = engine_v3.create_performance(**test_case, language="zh")

# 质量检查
print("\n3️⃣ 质量检查...")
if state.script_lines:
    quality_report = test_v3_quality(state.script_lines, verbose=True)
else:
    print("⚠️ 未生成剧本，请检查 LLM 配置")

🎬 测试 ScriptGeneratorV3

1️⃣ 初始化 V3 引擎...
🎭 使用 ScriptGeneratorV3（带两阶段沉浸 + 情绪断点）

2️⃣ 生成剧本...

🎬 echuu v2 - 预生成完整剧本

角色: 六螺
话题: 留学时偷吃室友腰果的故事

⏳ 正在生成3-4分钟剧本...
🎭 Phase 0: 建立沉浸状态...
   沉浸状态:
   刚才吃零食的时候咬到腰果，那个酥脆的声音一下子就让我想起了大学时候的一件糗事...现在有点脸红但又忍不住想笑，感觉观众们应该会觉得很有趣吧？虽然当时真的很心虚，但现在回想起来还挺可爱的。我想先装作若无其事地吃几口，然后"不经意"地问问大家有没有做过什么偷偷摸摸但其实很无害的小坏事，这样引入会比较自然...

📚 Phase 1: 采样 few-shot examples...
   采样了 3 个 examples
   - 被当成DeepSeek的主播
   - 展麟做客辅威联动（破防挑战）
   - 逗猫日常

✍️ Phase 2: 生成剧本...
✅ 生成了 8 句台词
   认知特征总数: 16
   情绪断点: 3 处
💾 剧本已保存: d:\vtuberclip\echuu-agent\output\scripts\20260126_021049_六螺_留学时偷吃室友腰果的故事.json

📖 生成的剧本：

[0] Hook █░░░░ cost=0.3
    我刚才吃那个什么来着...腰果，吃腰果的时候突然想起来一个事。就是我大学的时候...不对是留学的时候，在日本留学的时候发生的一个特别特别丢人的事情。小橘你别闹，...
    🔑 key_info: 留学日本, 合租室友

[1] Build-up ██░░░ cost=0.4
    她人特别好，就是那种很温柔的日本女孩子，会做饭什么的。然后她特别爱吃零食，经常买那种...就是各种坚果啊，巧克力啊什么的放在厨房。我那时候刚去日本嘛，什么都贵，...
    🔑 key_info: 室友很好, 零食很贵

[2] Build-up ██░░░ cost=0.5
    然后有一天我从学校回来，就看到厨房台子上放了一大包腰果，那个包装特别精美，看起来就很高级的样子。我当时就...就在那里路过，然后就闻到那个味道，那种坚果