# 视频字幕生成
本笔记本展示了如何使用VideoCaptioningChain，它是使用Langchain的ImageCaptionLoader和AssemblyAI实现的，用于生成.srt文件。

该系统可以自动生成视频URL的字幕和闭路字幕。

## 安装依赖项

In [1]:
# 安装所需的库
!pip install ffmpeg-python
!pip install assemblyai
!pip install opencv-python
!pip install torch
!pip install pillow
!pip install transformers
!pip install langchain

## 导入包

In [1]:
# 导入getpass模块，用于隐藏用户输入的密码
import getpass

# 导入VideoCaptioningChain类，用于视频字幕生成
from langchain.chains.video_captioning import VideoCaptioningChain

# 导入ChatOpenAI类，用于聊天模型
from langchain.chat_models.openai import ChatOpenAI

## 设置 API 密钥

In [2]:
# 导入必要的库
import getpass

# 获取OpenAI API密钥
OPENAI_API_KEY = getpass.getpass("OpenAI API Key:")

# 获取AssemblyAI API密钥
ASSEMBLYAI_API_KEY = getpass.getpass("AssemblyAI API Key:")

**必填参数：**

* llm：此链将使用的语言模型，用于获取有关如何改进闭幕字幕的建议
* assemblyai_key：用于生成字幕的AssemblyAI的API密钥

**可选参数：**

* verbose（默认值：True）：设置下游链调用的详细模式
* use_logging（默认值：True）：在运行管理器中记录链的过程
* frame_skip（默认值：None）：选择在处理过程中跳过多少个视频帧。增加它会导致执行速度更快，但结果不太准确。如果为None，则根据帧速率手动计算帧跳过。将其设置为0以采样所有帧
* image_delta_threshold（默认值：3000000）：设置图像处理器在视频中认为是场景变化的敏感度，用于界定闭幕字幕。值越高，敏感度越低
* closed_caption_char_limit（默认值：20）：设置闭幕字幕的字符限制
* closed_caption_similarity_threshold（默认值：80）：设置两个闭幕字幕模型相似度的百分比值，以便将它们聚类成一个更长的闭幕字幕
* use_unclustered_video_models（默认值：False）：如果为true，则包括无法聚类的闭幕字幕。可能导致闭幕字幕出现非常短暂的字幕或快速变化的字幕。启用此功能是实验性的，不建议使用。

## 示例运行

In [None]:

# 定义一个VideoCaptioningChain对象，传入ChatOpenAI对象和AssemblyAI的API密钥
chain = VideoCaptioningChain(
    llm=ChatOpenAI(model="gpt-4", max_tokens=4000, openai_api_key=OPENAI_API_KEY),
    assemblyai_key=ASSEMBLYAI_API_KEY,
)

# 运行VideoCaptioningChain的run方法，传入视频文件路径
srt_content = chain.run(
    video_file_path="https://ia601200.us.archive.org/9/items/f58703d4-61e6-4f8f-8c08-b42c7e16f7cb/f58703d4-61e6-4f8f-8c08-b42c7e16f7cb.mp4"
)

# 打印生成的字幕内容
print(srt_content)

## 将输出写入.srt文件

In [6]:
# 打开名为 "output.srt" 的文件，并以写入模式打开
with open("output.srt", "w") as file:
    # 将变量 srt_content 的内容写入文件
    file.write(srt_content)