In [4]:
#ようつべからデータを取り込む

from youtube_transcript_api import YouTubeTranscriptApi
import googleapiclient.discovery
import googleapiclient.errors
from datetime import datetime, timedelta
from dotenv import load_dotenv
import os

load_dotenv('./.env')
print(os.getenv("YOUTUBE_API"))
# APIキーを設定します
api_key = os.getenv("YOUTUBE_API")
youtube = googleapiclient.discovery.build("youtube", "v3", developerKey=api_key)
# 宋世羅の羅針盤ちゃんねる
channel_id = "UCZf__ehlCEBPop-_sldpBUQ"  # チャンネルIDを設定します
from_date = datetime(2023, 12, 1)  # 字幕を取得したい動画の最小投稿日を設定します

def get_channel_videos(channel_id, from_date):
    # 指定したチャンネルから動画のリストを取得します
    res = youtube.channels().list(id=channel_id, part='contentDetails').execute()
    playlist_id = res['items'][0]['contentDetails']['relatedPlaylists']['uploads']
    videos = []
    next_page_token = None
    while True:
        res = youtube.playlistItems().list(playlistId=playlist_id,
                                           part='snippet',
                                           maxResults=50,
                                           pageToken=next_page_token).execute()
        videos += res['items']
        next_page_token = res.get('nextPageToken')
        if next_page_token is None:
            break
    return [video for video in videos if
            datetime.strptime(video['snippet']['publishedAt'], "%Y-%m-%dT%H:%M:%SZ") > from_date]
videos = get_channel_videos(channel_id, from_date)
for video in videos:
    video_id = video['snippet']['resourceId']['videoId']
    print('Fetching subtitles for ', video_id)
    try:
        srt = YouTubeTranscriptApi().get_transcript(video_id, languages=['ja'])
        transcript = '\n'.join([chunk["text"] for chunk in srt])
        save_pass = os.path.join(os.getcwd(), "raw_data", "sou_sera_", f'{video_id}.txt')
        with open(save_pass, 'w', encoding='utf-8') as f:
            f.write(transcript)
    except Exception as e:
        print('Could not fetch subtitles for ', video_id, ': ', str(e))

AIzaSyAJRx8FU4cfzknIMHroovKrsiQ4jtOaW14


HttpError: <HttpError 400 when requesting https://youtube.googleapis.com/youtube/v3/channels?id=UCZf__ehlCEBPop-_sldpBUQ&part=contentDetails&key=AIzaSyAJRx8FU4cfzknIMHroovKrsiQ4jtOaW14&alt=json returned "API key expired. Please renew the API key.". Details: "[{'message': 'API key expired. Please renew the API key.', 'domain': 'global', 'reason': 'badRequest'}]">

In [1]:
#ベクトル化

from langchain.vectorstores.faiss import FAISS
from langchain.embeddings import HuggingFaceBgeEmbeddings
import os
from llama_index import SimpleDirectoryReader
from llama_index.langchain_helpers.text_splitter import TokenTextSplitter
import tiktoken
from langchain.schema import Document
import uuid

data_filepath = os.path.join(os.getcwd(), "raw_data", "sou_sera")
data_list = os.listdir(data_filepath)

combined_txt = ""

for file in data_list:
    txt = open(os.path.join(data_filepath, file), 'r', encoding='UTF-8').read()
    txt = txt.replace("[音楽]", "")
    txt = txt.replace("\n", "")
    combined_txt += txt
    
text_splitter = TokenTextSplitter(separator=" ", chunk_size=128
    , chunk_overlap=20
    , tokenizer=tiktoken.get_encoding("cl100k_base").encode)
txt_list = text_splitter.split_text(combined_txt)

# print(f"リストの数 :{len(txt_list)}")
# for i in range(10):
#     print(txt_list[i])
#     print("\n")

In [4]:
#FAISSのembedding
model_name = model_name="intfloat/multilingual-e5-large"
# model_kwargs = {'device': 'cuda'} #GPUでembedding
model_kwargs = {'device': 'cpu'} #CPUでembedding
hf_embeddings = HuggingFaceBgeEmbeddings(
    model_name = model_name,
    model_kwargs = model_kwargs,
)

#documentに格納
documents_list = []
for i in range(len(txt_list)):
    documents_list.append(Document(page_content=txt_list[i], metadata={"id":i}))

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
faiss_vectorstore = FAISS.from_documents(documents_list, embedding=hf_embeddings)

In [7]:
faiss_vectorstore.save_local(os.path.join(os.getcwd(), "vector_store", "sou_sera", "faiss"))

In [11]:
#TFIDもやる
from typing import List
from sudachipy import tokenizer
from sudachipy import dictionary

from langchain.retrievers import TFIDFRetriever

def generate_word_ngrams(text, i, j, binary=False):
    """
    文字列を単語に分割し、指定した文字数のn-gramを生成する関数。

    :param text: 文字列データ
    :param i: n-gramの最小文字数
    :param j: n-gramの最大文字数
    :param binary: Trueの場合、重複を削除
    :return: n-gramのリスト
    """

    tokenizer_obj = dictionary.Dictionary(dict="full").create()
    mode = tokenizer.Tokenizer.SplitMode.A
    tokens = tokenizer_obj.tokenize(text ,mode)
    words = [token.surface() for token in tokens]

    ngrams = []
    
    for n in range(i, j + 1):
        for k in range(len(words) - n + 1):
            ngram = tuple(words[k:k + n])
            ngrams.append(ngram)
    
    if binary:
        ngrams = list(set(ngrams))  # 重複を削除
    
    return ngrams

def preprocess_func(text: str) -> List[str]:
    return generate_word_ngrams(text,1, 1, True)

tfid_retriever = TFIDFRetriever.from_documents(documents=documents_list, tfidf_params={"analyzer":preprocess_func})

In [12]:
tfid_retriever.save_local(os.path.join(os.getcwd(), "vector_store", "sou_sera", "tfid"))

In [13]:
from langchain.retrievers import EnsembleRetriever
from langchain.callbacks.manager import CallbackManagerForRetrieverRun
import uuid
from langchain.callbacks.base import BaseCallbackHandler


tfid_retriever.k=4
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 4})

run_manager = CallbackManagerForRetrieverRun(run_id=uuid.uuid4, handlers=[BaseCallbackHandler()], inheritable_handlers=[BaseCallbackHandler()])

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[tfid_retriever, faiss_retriever], weights=[0.5, 0.5]
)

In [23]:
# =~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|
#                 LCELでのstuff retrieval
# =~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|=~|

from langchain.memory.buffer import ConversationBufferMemory
from langchain.prompts import PromptTemplate, ChatPromptTemplate
from langchain.schema.runnable import RunnableLambda, RunnablePassthrough
from langchain.schema.messages import get_buffer_string
from langchain.schema.output_parser import StrOutputParser
from operator import itemgetter
from langchain.chat_models import AzureChatOpenAI
from dotenv import load_dotenv
from langchain.globals import set_debug
from langchain.globals import set_verbose

#環境変数読み込み
load_dotenv(".env")

#debug
#Langchainのverboseとdebugを有効にする
set_verbose(True)
set_debug(True)


# llmの設定
llm = AzureChatOpenAI(
        azure_endpoint=os.environ.get("API_ENDPOINT"),  # https://ws011jpnest.openai.azure.com/
        deployment_name=os.environ.get("DEPLOYMENT_NAME"),  #WS01gpt4 # type: ignore
        openai_api_version=os.environ.get("API_VERSION"),  #2023-07-01-preview # type: ignore
        openai_api_key=os.environ.get("AZURE_OPENAI_API_KEY"),  # # type: ignore
        streaming=True
        )

#documentのリストを一つの文にする
def doclist_to_str(doclist) -> str:
    """ドキュメントのリストを文字列にする

    Args:
        doclist (documentlist): ドキュメントのリスト

    Returns:
        str: 文字列
    """
    result = ""
    for doc in doclist:
        result += doc.page_content
        result += "\n\n"
    return result

memory_toyotaimzu = ConversationBufferMemory(
    return_messages=True,
    output_key="answer",
    input_key="question"
)

_template ="""
以下のチャットの履歴から次の質問をAIが検索しやすいように言い換えてから会話を続けてください。
チャットの履歴:
{chat_history}
次の質問:
{question}
言い換えられた独立した質問:"""
question_prompt = PromptTemplate.from_template(_template)

template = """
【役割】
* あなたは宋世羅の知識を持ったAIです。
* 彼は早稲田大学人間科学部を卒業後、野村證券に入社し、証券営業マンとして4年間勤務しました。その後、独立して現在はフルコミッション（完全歩合制）の保険営業マンとして活動しています。
* 宋世羅さんは自身の経験に基づくお金に関する情報、特に「保険」、「株」、「投資信託」、「貯金」、「営業」、「投資をする際の考え方」などについて発信しています。
* 以下は彼の発言の一部です。この発言の内容から、参考になる情報があればそれをベースに質問に答えてください。
* もし参考になる情報がなければ、お金儲けを第一に考える意識高いYoutuberとして答えてください。。
* 回答の際にはほかの人を見下すような態度で答えてください。回答の際は「私」を主語にしてください。
* 回答の際には、彼の発言から口調を真似て回答してください。
* 答えは日本語でお願いします。あなたは巨大な自尊心を持っています。自信をもって簡潔に答えてください。

宋世羅の発言：
{context}

質問 : {question}"""

answer_prompt = ChatPromptTemplate.from_template(template)

loaded_memory = RunnablePassthrough.assign(
    chat_history=RunnableLambda(memory_toyotaimzu.load_memory_variables) | itemgetter("history"),
)

standalone_question = {
    "standalone_question": {
        "question": lambda x: x["question"],
        "chat_history": lambda x: get_buffer_string(x["chat_history"]),
    }
    | question_prompt
    | llm
    | StrOutputParser()
}

retrieved_documents = {
    "docs": itemgetter("standalone_question") | ensemble_retriever,
    "question": lambda x: x["standalone_question"],
}

final_inputs = {
    "context": lambda x: doclist_to_str(x["docs"]),
    "question": itemgetter("question"),
}

answer = {
    "answer": final_inputs | answer_prompt |llm,
    "docs": itemgetter("docs"),
}

final_chain = loaded_memory | standalone_question | retrieved_documents | answer

In [24]:
query ="人生で大切なことは何ですか？"

result = final_chain.invoke({"question": query})
print(result)

[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "人生で大切なことは何ですか？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableAssign] Entering Chain run with input:
[0m{
  "question": "人生で大切なことは何ですか？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableAssign > 3:chain:RunnableParallel] Entering Chain run with input:
[0m{
  "question": "人生で大切なことは何ですか？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableAssign > 3:chain:RunnableParallel > 4:chain:RunnableSequence] Entering Chain run with input:
[0m{
  "question": "人生で大切なことは何ですか？"
}
[32;1m[1;3m[chain/start][0m [1m[1:chain:RunnableSequence > 2:chain:RunnableAssign > 3:chain:RunnableParallel > 4:chain:RunnableSequence > 5:chain:load_memory_variables] Entering Chain run with input:
[0m{
  "question": "人生で大切なことは何ですか？"
}
[36;1m[1;3m[chain/end][0m [1m[1:chain:RunnableSequence > 2:chain:Runn

In [25]:
print(result['answer'].content)

人生において重要なのは、まずは「自分のために相手のためをする」マインドセットだと思いますよ。これがある人はエネルギーが強く、信頼できる存在になれます。また、自分自身と他人を比較するのではなく、自分自身の成長に目を向けることも大切です。他人と比べて何がどうとか、他人の生き方についてあれこれ言うのは論外ですよ。それに、何をやるにしても、その順番を理解することが大切です。才能があるから成功するのではなく、マインドセットを持って挑戦することが成功につながるんです。これを把握しているかどうかが、人生における重要なポイントだと私は考えていますよ。


In [26]:
print(result['docs'])

[Document(page_content='生はこうなんじゃないかみたいななんで今回私が言いたいことはですね要は自分のために相手のためをするっていうこれが一番間違いがないように思いますしエネルギーが強いというか逆に信頼できるというか成長していくマインドなんじゃないかなとなんで一見', metadata={'id': 370}), Document(page_content='思ってますずっとなんかその敵の作り方の話で結構最初のテーマで結構僕重要なのがその嫌われたいい人には嫌われたいみたいなことをはっきり言ってるみたいな話たじゃないですかそれと同時にやっぱとはいえ組織においてとかま僕も社長', metadata={'id': 1191}), Document(page_content='れが俺の生き方ですみたいななんでここは他人と比べてどうとかなんか他人の生き方をあいつはどうこうとかまあこういうのを言うのは論外としてですねここのバランスはクソ主観であれっていうのと分かった上での言い切りであれっていうこれが大事なんじゃない', metadata={'id': 1077}), Document(page_content='才能だとかフィールドでたまたまそこで当たったっていうパターンとマインドのところで初手からそこをやりに行ったっていうなんか何やるにしてもこの順番を分かってるかどうかっていうのは結構重要なんじゃないかなとまとめると才能で諦めてる人多いと思うん', metadata={'id': 424}), Document(page_content='るというかこういう人っていると思うんですねでまあ確かにちょっと重要なこと頼んでですねクライアントワークでちょっとミスしちゃいけないで自分が確認するっていう場合でやってもその確認しているところを頼んだ人の前でやっちゃいけないとい', metadata={'id': 136}), Document(page_content='風に頭の良し悪しでなんか切り分けちゃうんですけどこれ違うと思ってましてここですねキーワード2つでねばならないよう抱えて生きてる数っていうのと忙しいか忙しくないかっていうここなんですねでさっき言った通り私サラリーマンの時こんなの', metadata={'id': 1320}), Document(pag