In [2]:
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.schema import Document
import os
import torch



def load_documents(directory):
    documents = []
    for filename in os.listdir(directory):
        if filename.endswith('.txt'):
            with open(os.path.join(directory, filename), 'r', encoding='utf-8') as file:
                text = file.read()
                documents.append(Document(page_content=text, metadata={"source": filename}))
    return documents

def split_documents(documents):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    chunks = text_splitter.split_documents(documents)
    return chunks

def create_vectorstore(chunks):
    device = "cuda" if torch.cuda.is_available() else "cpu"
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2", 
                                       model_kwargs={'device': device})
    vectorstore = Chroma.from_documents(chunks, embeddings)
    return vectorstore

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# import torch

# print("PyTorch version:", torch.__version__)
# print("CUDA available:", torch.cuda.is_available())
# print("CUDA version:", torch.version.cuda)



In [None]:
# transcripts_dir = r"D:\podrecom-main\transcriptions_text_list"
# "D:\podrecom-main\processed_transcripts\processed_EP1 -（試播集） 全世界一起做了一個美夢.txt"

In [3]:
if __name__ == "__main__":
    directory = r"D:\podrecom-main\processed_transcripts"
    documents = load_documents(directory)
    
    print(f"載入了 {len(documents)} 個文檔")
    
    chunks = split_documents(documents)
    
    print(f"文檔被分割成 {len(chunks)} 個chunks")
    
    # 打印第一個chunk的完整內容
    if chunks:
        first_chunk = chunks[0]
        print("\n第一個Chunk的完整內容:")
        print(f"內容:\n{first_chunk.page_content}")
        print(f"\n長度: {len(first_chunk.page_content)} 字符")
        print(f"來源: {first_chunk.metadata.get('source', '未知')}")
    else:
        print("沒有找到chunks")

    vectorstore = create_vectorstore(chunks)
    print("\n向量存儲創建成功")

載入了 1 個文檔
文檔被分割成 17 個chunks

第一個Chunk的完整內容:
內容:
(0:0~0:27) 哈囉大家好 歡迎收聽第一集的科技浪 我是主持人哈利 科技浪是一個跟你白話聊科技的podcast 希望可以用簡單易懂 但是又深入的方式帶你了解 實下最火的科技話題 我的目標是讓沒有任何相關背景的人都能聽懂 但是有專業背景的人也能夠學到東西 目前設定是每一集我都會深入跟大家聊一個話題 那這話題呢 我猜滿都會是跟A.I.相關的 畢竟我本身是這套科學家是研究A.I.機器學習的人

(0:27~0:54) 而且那也是現在最火的科技 但是我對於各種科技都很有興趣 然後我對商業投資也滿有興趣 所以說未來大家可以期待有各種很多樣的主題 像是我們今天的第一集其實就跟A.I.沒有太大的關係 那我們就廢話不多說直接進入話題吧 那在過去的這三個禮拜 其實世界各地都從此著一些討論 這些討論都圍繞著

(0:54~1:23) 我們人類是不是要進入下一波的工業革命呢 我們人類是不是找到了現代物理學的聖杯呢 我們世界是不是要從2023年就此改變了呢 那這些討論其實都是在講同一件事情 那你如果是我的觀眾 你現在應該也猜到了 就是韓國人一次發現了長溫長壓下的超導體 如果這件事情是真的的話 這件事情真的會改變世界 人類文明真的會大躍進 那這件事情呢

(1:23~1:50) 這三個禮拜真的是經過好幾次的峰回路轉 大家的心情欺騙服服 像是做運動飛車一樣 但我覺得到現在呢 算是有了一個小節啦 所以說就希望趁這一次機會跟大家 把這整個事情的來龍去賣釐清一下 那你如果連超到其實什麼都不知道的話 也不用擔心 畢竟我一開始就說了 這個是一個白話聊科技的podcast嘛 我東西我都會解釋

(1:50~2:19) 但你如果是對這個東西已經很理解了 然後一直有在發佬的 也不用擔心自己podcast 所以你來說會很無聊 因為我覺得中間有些應該是你 missed out的細節 好那事情最一開始呢 是從一篇推文開始 那有一個人叫做Alex Alex Plan 那他是一個princet and physics bea的人 就是普林順大學的物理系bea的人 那他現在是在一間咖啡新創公司認職這樣

長度: 891 字符
來源: processed_EP1 -（試播集） 全世界一起做了一個美夢.txt


  warn_deprecated(


KeyboardInterrupt: 