In [1]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS

import pdfplumber
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from pathlib import Path

embeddings = HuggingFaceEmbeddings(model_name="shibing624/text2vec-base-chinese")

"""
返回以不同pdf文件分隔的embedding db
传入参数：pdf文件路径列表，list[str]
返回：embedding FAISS db
"""
def get_pdf_embedding(pdf_path_list):
    list_of_documents = []
    for idx, pdf_path in enumerate(pdf_path_list):
        with pdfplumber.open(pdf_path) as pdf:
            path = Path(pdf_path)
            filename = path.name
            text = ""
            for i, page in enumerate(pdf.pages):
                text += page.extract_text()
            list_of_documents.append(Document(page_content=text, metadata=dict(file_name=filename, pdf_num=idx)))
    return FAISS.from_documents(list_of_documents, embeddings)     


"""
返回以页数分隔的embedding db
传入参数：pdf文件路径列表，list[str]
返回：embedding FAISS db
"""
def get_pdf_embedding_paging(pdf_path_list):
    list_of_documents = []
    for idx, pdf_path in enumerate(pdf_path_list):
        with pdfplumber.open(pdf_path) as pdf:
            path = Path(pdf_path)
            filename = path.name
            for i, page in enumerate(pdf.pages):
                list_of_documents.append(Document(page_content=page.extract_text(), metadata=dict(file_name=filename, pdf_num=idx, page_num=i)))
    return FAISS.from_documents(list_of_documents, embeddings)        


In [3]:
pdf_path_list = ["./pdfs/公正--该如何做是好.pdf", "./pdfs/功利主义.pdf", "./pdfs/诉公共卫生部案.pdf"]
db = get_pdf_embedding_paging(pdf_path_list)
db.save_local("faiss_pdf_embedding")
get_pdf_embedding(pdf_path_list).save_local("faiss_pdf_embedding_paging")

In [4]:
results_with_scores = db.similarity_search_with_score("同性恋起诉公共卫生部案")
for doc, score in results_with_scores:
    print(f"Content: {doc.page_content}, Metadata: {doc.metadata}, Score: {score}\n\n")

Content: 2001 年 4 月 11 日，男女同性恋倡导者和辩护者组织 (GLAD) 代
表七对同性伴侣向高等法院起诉马萨诸塞州卫生部，这七对同性伴
侣都是马萨诸塞州居民，他们在 2001 年 3 月和 4 月被拒绝发放
结婚证。所有原告都与其伴侣保持着长期关系，其中四对夫妇总共
抚养着五个孩子。该部门的职责包括制定城镇职员发放结婚证的政
策。[1]
2002 年 3 月举行听证会，GLAD 律师詹妮弗·莱维 (Jennifer
Levi) 代表原告夫妇进行辩论，高等法院法官托马斯·康诺利
(Thomas Connolly) 于 2002 年 5 月 7 日做出了支持卫生部的裁
决。他写道：“虽然本法院理解原因，但对于原告要求扭转联邦数
百年限制异性婚姻的法律传统的请求，他们的请求应向立法机关提
出，而不是法院。”他指出，立法机关最近击败了同性婚姻立法，
并辩称这是植根于婚姻的历史定义及其与抚养子女的关系的理性决
定：[2]
认识到生育是婚姻的核心目的，立法机关将婚姻限制在理论上有能
力生育的异性伴侣是合理的。此外，由于同性伴侣无法自己生育，
因此必须依靠本质上更麻烦的方式来生孩子，因此可以合理地假设
同性伴侣生孩子的可能性较小，或者至少生孩子的可能性较小。拥
有与异性伴侣一样多的孩子。, Metadata: {'file_name': '诉公共卫生部案.pdf', 'pdf_num': 2, 'page_num': 0}, Score: 236.72540283203125


Content: 原告直接向最高法院 (SJC) 提出上诉，该法院于 2003 年 3 月 4
日听取了辩论。GLAD 的 Mary Bonauto 为原告辩护。助理总检察长
Judith Yogman 代表 DPH。[3]
马萨诸塞州总检察长汤姆·赖利在其案情摘要中辩称，法院应尊重
立法机关对“更广泛的公共利益”的判断，并承认“同性伴侣无法
自行生育，因此无法实现‘主要目标’......历史上理解的婚
姻。”[4]
非当事人意见陈述是代表波士顿律师协会、马萨诸塞州律师协会、
马萨诸塞州东部城市联盟、马萨诸塞州家庭研究所、全国同性恋研
究与治疗协会、共同利益基金会、马萨诸塞州公民联盟、马萨诸塞
州天主教行动联盟、国家法律基金会、婚姻法项目、婚姻自由宗教
联盟、道德与宗教自由委员会、

In [5]:
from youtube_transcript_api import YouTubeTranscriptApi
from pytube import YouTube
"""
分割列表utils函数
"""
def chunk_list(input_list, chunk_size=50):
    return [input_list[i:i + chunk_size] for i in range(0, len(input_list), chunk_size)]

"""
获取视频title utils函数
"""
def get_title(video_id):
    url = f'https://www.youtube.com/watch?v={video_id}'
    yt = YouTube(url)
    return yt.title

"""
返回YouTube字幕的embedding FAISS db，分页
传入参数：YouTube Video Id列表，list[str]
返回：embedding FAISS db
"""
def get_youtube_embedding_paging(video_id_list):
    list_of_documents = []
    for video_id in video_id_list:
        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
        for transcript in transcript_list:
            if transcript.language != 'English (auto-generated)':
                continue
            transcript_list = transcript.translate('zh-Hans').fetch()
            chunked_lists = chunk_list(transcript_list, 50)
            for t in chunked_lists:
                text = "".join(obj['text'] for obj in t)
                time = t[0]['start']
                list_of_documents.append(Document(page_content=text, metadata=dict(video_name=get_title(video_id), start_time=time)))
    return FAISS.from_documents(list_of_documents, embeddings)

"""
返回YouTube字幕的embedding FAISS db，不分页
传入参数：YouTube Video Id列表，list[str]
返回：embedding FAISS db
"""
def get_youtube_embedding(video_id_list):
    list_of_documents = []
    for video_id in video_id_list:
        transcript_list = YouTubeTranscriptApi.list_transcripts(video_id)
        for transcript in transcript_list:
            if transcript.language != 'English (auto-generated)':
                continue
            transcript_list = transcript.translate('zh-Hans').fetch()
            text = "".join(obj['text'] for obj in transcript_list)
            list_of_documents.append(Document(page_content=text, metadata=dict(video_name=get_title(video_id))))
    return FAISS.from_documents(list_of_documents, embeddings)

In [6]:
# HARDCODED: Harvard课程 https://www.youtube.com/playlist?list=PL30C13C91CFFEFEA6
video_id_list = ['kBdfcR-8hEY', 
                 '0O2Rq4HJBxw', 
                 'Qw4l1w0rkjs', 
                 'MGyygiXMzRk', 
                 '8yT4RZy1t3s', 
                 '8rv-4aUbZxQ', 
                 'KqzW0eHzDSQ', 
                 'VcL66zx_6No', 
                 'AUhReMT5uqA', 
                 'MuiazbyOSqQ', 
                 'iOotE9_OGGs', 
                 'EzD9P-9sj4M']

In [7]:
db2 = get_youtube_embedding(video_id_list)
db2.save_local("faiss_youtube_embedding")
get_youtube_embedding_paging(video_id_list).save_local("faiss_youtube_embedding_paging")

KeyboardInterrupt: 

In [36]:
results_with_scores = db2.similarity_search_with_score("个人权利与政府权力")
for doc, score in results_with_scores:
    print(f"Content: {doc.page_content}, Metadata: {doc.metadata}, Score: {score}\n\n")

Content: 这样做的权利，这是我们在本课程中阅读的自由主义哲学家之一罗伯特·诺齐克的基本思想，他这样说，个人拥有如此强大和深远的权利—— 实现这些权利时，他们提出了一个问题：如果国家可以做什么，那么自由主义对政府或国家的作用有何看法？根据自由主义权利理论，大多数现代国家所做的三件事是不合法的 其中之一是家长式立法，它通过了保护人们免受伤害的法律，例如安全带法或摩托车头盔法，自由主义者说，如果人们系安全带可能是一件好事，但这应该取决于他们和政府 没有必要通过法律强迫他们系安全带，这是强制，所以没有家长式立法第一第二没有道德立法许多法律试图促进公民的美德或试图表达整个社会的道德价值观自由主义者说这是 也是对自由权的侵犯，以促进道德的名义提出的立法的典型例子传统上是防止同性恋者之间性亲密的法律，自由主义者说没有其他人受到伤害，没有其他人的权利受到侵犯，所以 国家应该完全停止试图促进美德或制定道德立法，而自由主义哲学所排除的第三种法律或政策是任何旨在重新分配收入或财富的税收或其他政策 从富人到穷人的再分配是一种，如果你仔细想想的话，自由主义者是一种强制，如果我们谈论的是民主，那么它相当于是国家或大多数人的盗窃很好，现在赚了很多钱诺齐克和其他自由主义者允许有一个最低限度的国家，为了每个人的需要而向人们征税 国防警察部队司法系统来执行合同和, Metadata: {'video_name': 'Justice: What\'s The Right Thing To Do? Episode 03: "FREE TO CHOOSE"', 'start_time': 434.499}, Score: 271.3492126464844


Content: ，因此他们商议产生的法律不一定是公正的，也不一定符合权利原则，而只是反映了特殊利益群体议价能力的差异。事实上，有些人可能比其他人更了解法律或政治，所以康德说，产生权利原则的契约仅仅是一种理性的想法，但它无疑具有实践现实，因为它可以迫使每个立法者以这种方式制定他的法律他们可能是由整个国家的联合意志产生的，所以孔特是一个契约阿里安，但他没有将法律的起源或正确性追溯到任何实际的社会契约，这引起了一个明显的问题，什么是道德力量 一个假设性契约的问题 一个从未发生过的契约，这就是我们今天要讨论的问题，但为了研究它，我们需要求助于现代哲

In [37]:
db2.save_local("faiss_youtube_index")