In [1]:
import os
import json
from database import get_db_connection
from langchain.docstore.document import Document
from langchain_community.llms import QianfanLLMEndpoint

# 加载环境变量
from dotenv import load_dotenv
load_dotenv()

# 从环境变量获取千帆平台的凭证
QIANFAN_AK = os.getenv("QIANFAN_AK")
QIANFAN_SK = os.getenv("QIANFAN_SK")
model_name = "ERNIE-Bot-turbo"  # 替换为实际使用的模型名称
# 初始化 Qianfan LLM 并传递凭证
llm_qianfan = QianfanLLMEndpoint(
    model=model_name,
    streaming=True,
    qianfan_ak=QIANFAN_AK,
    qianfan_sk=QIANFAN_SK,
)




In [3]:
from langchain_community.document_loaders import BiliBiliLoader

SESSDATA = "e1effec6%2C1749273656%2Cbc722%2Ac1CjBTIBkQ06WsOXowhCBbBPsYTxVE_bndZSbmIN3JNiV2c7XEQlR_WLs3NtFWvPmTXogSVmxPZTcxMjdsYTluRlowaUNoTlhJX0YwblBZRUZiZmdJcE9RQ2pTZzMyVDk3eXg3THZ4ZW81V3NjeUQtSXh5ckUzc01PdXI5MjVJMGExWmpXTk5RNnl3IIEC"
BUVID3 = "DC30675C-A2B1-DE08-F7F9-E5304BB11BF789380infoc"
BILI_JCT = "ba6927caed1e03b42b227d12b5ac9c2d"

example_doc = BiliBiliLoader(["https://www.bilibili.com/video/BV1h5UFY5EP8/?spm_id_from=333.1007.tianma.1-2-2.click&vd_source=99a402cd367f5b84f410f15e62518f99"], 
                             sessdata=SESSDATA, buvid3=BUVID3, bili_jct=BILI_JCT
                            ).load()
example_doc



[Document(metadata={'bvid': 'BV1h5UFY5EP8', 'aid': 113488689239254, 'videos': 1, 'tid': 228, 'tname': '人文历史', 'copyright': 1, 'pic': 'http://i1.hdslb.com/bfs/archive/69bf0a55db473660d401c94447fc53ce4feb5499.jpg', 'title': '春秋笔法！统治者为什么喜欢《资治通鉴》？', 'pubdate': 1731718800, 'ctime': 1731700281, 'desc': '你可能不知道，《资治通鉴》作为《史记》之后最著名的史书，其实不算“正史”，不在“二十四史”之列。\n\n中国古代的“正史”，最重要的标准就两条：第一条，最好是官修史书，也就是在朝廷的组织下修订的。第二条，必须是纪传体史书。事实上，是否为“官修史书”，其实也没那么重要，比如陈寿的《三国志》，就是他个人在皇帝默许后写下的私修史书，但也位列“二十四史”，而且属于“良史”。\n\n《资治通鉴》和《三国志》一样，也是皇帝允许的私修史书，但私修并不是影响它进入“二十四史”的主要原因，这本书最大的问题在于，不是纪传体，而是编年体。\n\n本期视频，我来为你讲述《资治通鉴》的故事。', 'desc_v2': [{'raw_text': '你可能不知道，《资治通鉴》作为《史记》之后最著名的史书，其实不算“正史”，不在“二十四史”之列。\n\n中国古代的“正史”，最重要的标准就两条：第一条，最好是官修史书，也就是在朝廷的组织下修订的。第二条，必须是纪传体史书。事实上，是否为“官修史书”，其实也没那么重要，比如陈寿的《三国志》，就是他个人在皇帝默许后写下的私修史书，但也位列“二十四史”，而且属于“良史”。\n\n《资治通鉴》和《三国志》一样，也是皇帝允许的私修史书，但私修并不是影响它进入“二十四史”的主要原因，这本书最大的问题在于，不是纪传体，而是编年体。\n\n本期视频，我来为你讲述《资治通鉴》的故事。', 'type': 1, 'biz_id': 0}], 'state': 0, 'duration': 1436, 'mission_id': 4023068, 'rights': {'bp': 0

In [8]:
import os
import json
from langchain_community.document_loaders import BiliBiliLoader
from database import get_db_connection, initialize_database
from langchain.docstore.document import Document

# 加载环境变量
from dotenv import load_dotenv
load_dotenv()

# 从环境变量获取 BiliBiliLoader 所需的参数
SESSDATA = os.getenv("SESSDATA")
BUVID3 = os.getenv("BUVID3")
BILI_JCT = os.getenv("BILI_JCT")

def gather_bilibili_data(urls):
    """
    根据给定的 Bilibili 视频 URL 列表，获取视频信息并存储到数据库中
    """
    loader = BiliBiliLoader(
        video_urls=urls,
        sessdata=SESSDATA,
        buvid3=BUVID3,
        bili_jct=BILI_JCT
    )
    documents = loader.load()
    
    for doc in documents:
        insert_video_into_db(doc)
    
    return docu


def insert_video_into_db(document: Document):
    """
    将单个 Document 对象中的视频信息插入到数据库中
    """
    try:
        metadata = document.metadata
        # 处理复杂字段（例如 dict 类型的字段，需要转换为 JSON 字符串）
        desc_v2 = json.dumps(metadata.get('desc_v2', []))
        rights = json.dumps(metadata.get('rights', {}))
        stat = json.dumps(metadata.get('stat', {}))
        dimension = metadata.get('dimension', {})
        owner = metadata.get('owner', {})
        argue_info = metadata.get('argue_info', {})
        ugc_season = metadata.get('ugc_season', {})
        honor_reply = metadata.get('honor_reply', {})
        
        with get_db_connection() as conn:
            cursor = conn.cursor()
            cursor.execute(
                """
                INSERT OR IGNORE INTO videos (
                    bvid, aid, title, description, desc_v2, tid, tname, copyright,
                    pic, pubdate, ctime, duration, rights, owner_mid, owner_name,
                    owner_face, stat, dynamic, dimension_width, dimension_height,
                    dimension_rotate, season_id, premiere, teenage_mode,
                    is_chargeable_season, is_story, is_upower_exclusive, is_upower_play,
                    enable_vt, vt_display, no_cache, url
                ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
                """,
                (
                    metadata.get('bvid'),
                    metadata.get('aid'),
                    metadata.get('title'),
                    metadata.get('desc'),
                    desc_v2,
                    metadata.get('tid'),
                    metadata.get('tname'),
                    metadata.get('copyright'),
                    metadata.get('pic'),
                    metadata.get('pubdate'),
                    metadata.get('ctime'),
                    metadata.get('duration'),
                    rights,
                    owner.get('mid'),
                    owner.get('name'),
                    owner.get('face'),
                    stat,
                    metadata.get('dynamic'),
                    dimension.get('width'),
                    dimension.get('height'),
                    dimension.get('rotate'),
                    metadata.get('season_id'),
                    metadata.get('premiere'),
                    metadata.get('teenage_mode'),
                    metadata.get('is_chargeable_season'),
                    metadata.get('is_story'),
                    metadata.get('is_upower_exclusive'),
                    metadata.get('is_upower_play'),
                    metadata.get('enable_vt'),
                    metadata.get('vt_display'),
                    metadata.get('no_cache'),
                    metadata.get('url')
                )
            )
            conn.commit()
            print(f"视频 {metadata.get('bvid')} 已入库。")
    except Exception as e:
        print(f"插入视频 {document.metadata.get('bvid')} 时出错: {e}")

In [11]:
document = gather_bilibili_data(["https://www.bilibili.com/video/BV1h5UFY5EP8/?spm_id_from=333.1007.tianma.1-2-2.click&vd_source=99a402cd367f5b84f410f15e62518f99"])

视频 BV1h5UFY5EP8 已入库。


In [12]:
document