# 유튜브 스크립트 불러오기

pip install langchain==0.3.26 # Version: 0.3.26

pip install langchain-community==0.3.27 # Version: 0.3.27

In [1]:
# langchain_community 패키지에서 YoutubeLoader를 임포트합니다.
# 최신 버전의 LangChain에서는 이 경로를 사용하는 것이 좋습니다.
from langchain_community.document_loaders import YoutubeLoader

pip install youtube_transcript_api==1.1.1 # Version: 1.1.1

In [2]:
# YouTube 동영상 URL을 지정하여 YoutubeLoader를 초기화합니다.
# add_video_info=False 옵션은 동영상 메타데이터(제목, 썸네일 등)를
# 최종 문서에 포함하지 않고 자막 텍스트만 가져오도록 설정합니다.
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=Pn-W41hC764",
    add_video_info=False
)

# loader.load() 메서드를 호출하여 동영상의 자막을 문서 형태로 불러옵니다.
# 각 문서는 페이지 내용(자막 텍스트)과 메타데이터(선택적)를 포함합니다.
transcript = loader.load()

# 불러온 자막 문서(transcript)를 출력합니다.
# 결과는 Document 객체의 리스트 형태입니다.
print(transcript)

[Document(metadata={'source': 'Pn-W41hC764'}, page_content="I alluded in my opening remarks to the the jobs issue the economic effects on employment uh I think you have said uh in fact and I'm going to quote development of superhuman machine intelligence is probably the greatest threat to the continued existence of humanity end quote you may have had in mind the effect on on jobs which is really my biggest nightmare in the long term uh let me ask you uh what your biggest nightmare is and whether you share that concern like with all technological revolutions I expect there to be significant impact on jobs but exactly what that impact looks like is very difficult to predict if we went back to the the other side of a previous technological Revolution talking about the jobs that exist on the other side um you know you can go back and read books of this it's what people said at the time it's difficult I believe that there will be far greater jobs on the other side of this and the jobs of to

# 긴 내용 요약하기

In [3]:
# 다음 코드는 불러온 자막을 요약하는 예제입니다.
# 먼저, 자막을 요약하기 위해 필요한 모듈들을 임포트합니다
from langchain.prompts import PromptTemplate
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chat_models import ChatOpenAI

## 텍스트 쪼개기

In [4]:
# RecursiveCharacterTextSplitter를 사용하여 긴 문서를 분할합니다.
# chunk_size: 각 문서 청크의 최대 문자 수
# chunk_overlap: 청크 간 겹치는 문자 수
# 이 설정은 긴 자막을 처리하기 위해 적절한 크기로 나누는 데 사용됩니다.
text_splitter = RecursiveCharacterTextSplitter(chunk_size=4000, chunk_overlap=0)
text = text_splitter.split_documents(transcript)

In [5]:
len(text)

2

In [6]:
text[0]

Document(metadata={'source': 'Pn-W41hC764'}, page_content="I alluded in my opening remarks to the the jobs issue the economic effects on employment uh I think you have said uh in fact and I'm going to quote development of superhuman machine intelligence is probably the greatest threat to the continued existence of humanity end quote you may have had in mind the effect on on jobs which is really my biggest nightmare in the long term uh let me ask you uh what your biggest nightmare is and whether you share that concern like with all technological revolutions I expect there to be significant impact on jobs but exactly what that impact looks like is very difficult to predict if we went back to the the other side of a previous technological Revolution talking about the jobs that exist on the other side um you know you can go back and read books of this it's what people said at the time it's difficult I believe that there will be far greater jobs on the other side of this and the jobs of tod

In [7]:
text[1]

Document(metadata={'source': 'Pn-W41hC764'}, page_content="the less you can get a proper read on that so it's important first of all that scientists be part of that process and second that we have much greater transparency about what actually goes into these systems if we don't know what's in them then we don't know exactly how well they're doing when we give something new and we don't know how good a benchmark that will be for something that's entirely novel so I could go into that more but I want to flag that second is on jobs past performance history is not a guarantee of the future it has always been the case in the past that we have had more jobs that new jobs new professions come in as new technologies come in I think this one's going to be different and the real question is over what time time scale is it going to be 10 years is it going to be 100 years and I don't think anybody knows the answer to that question I think in the long run so-called artificial general intelligence r

## 사용할 LLM 모델 설정

pip install openai

pip install tiktoken 

In [None]:
llm = ChatOpenAI(
    # temperature: 창의성을 제어하는 매개변수입니다.
    # 0에 가까울수록 보수적이고 일관된 답변을 생성하며,
    # 1에 가까울수록 다양하고 창의적인 답변을 생성합니다.
    # 여기서는 0으로 설정하여 일관된 답변을 유도합니다.
    temperature=0,

    # openai_api_key: OpenAI API를 사용하기 위한 인증 키입니다.
    # 이 키를 통해 사용자 계정이 인증됩니다. 보안을 위해 환경 변수를 사용하는 것이 권장됩니다.
    openai_api_key="",

    # max_tokens: 모델이 생성할 수 있는 답변의 최대 토큰(단어 조각) 수입니다.
    # 이 값을 너무 낮게 설정하면 답변이 중간에 잘릴 수 있습니다.
    max_tokens=3000,

    # model_name: 사용할 LLM 모델의 이름을 지정합니다.
    # 'gpt-3.5-turbo'는 OpenAI의 최신 GPT-3.5 모델로, 빠른 속도와 합리적인 비용이 특징입니다.
    model_name="gpt-3.5-turbo",

    # request_timeout: API 요청에 대한 응답을 기다리는 최대 시간(초)입니다.
    # 네트워크 지연 등으로 인해 요청이 실패하는 것을 방지하기 위해 설정합니다.
    request_timeout=120
)

  llm = ChatOpenAI(


## 요약에 사용할 프롬프트

In [9]:
# 각각의 chunk(문서 덩어리)를 요약하기 위한 프롬프트 템플릿입니다.
# 이 프롬프트는 'Map-Reduce' 방식에서 'Map' 단계에 사용됩니다.
# 각 덩어리가 LLM에 전달될 때, 이 템플릿에 맞게 프롬프트가 구성됩니다.
prompt = PromptTemplate(
    # template: LLM에게 어떤 작업을 지시할지 정의하는 문자열입니다.
    # {text}라는 변수는 각 문서 덩어리의 내용으로 대체됩니다.
    template="""Summarize the youtube video whose transcript is provided within backticks \
    ```{text}```
    """,
    # input_variables: 템플릿에 사용될 변수명을 리스트로 지정합니다.
    # 여기서는 'text' 변수가 문서 덩어리의 내용을 받습니다.
    input_variables=["text"]
)

# 요약된 내용들을 취합하여 다시 한번 요약하기 위한 프롬프트 템플릿입니다.
# 이 프롬프트는 'Map-Reduce' 방식에서 'Reduce' 단계에 사용됩니다.
# 'Map' 단계에서 요약된 모든 내용들을 하나로 합친 후, 이 템플릿을 사용하여 최종 요약을 생성합니다.
combine_prompt = PromptTemplate(
    # template: 최종 요약을 위한 지시사항을 포함합니다.
    # 모든 중간 요약 내용이 {text} 변수에 합쳐져 들어갑니다.
    # "8 to 10 sentences"라는 지시를 통해 최종 요약의 길이를 제어합니다.
    template="""Combine all the youtube video transcripts  provided within backticks \
    ```{text}```
    Provide a concise summary between 8 to 10 sentences.
    """,
    # input_variables: 'text' 변수에 중간 요약들이 결합되어 들어갑니다.
    input_variables=["text"]
)


## 요약 시작하기

In [10]:
# load_summarize_chain 함수를 사용하여 요약 체인을 생성합니다.
chain = load_summarize_chain(
    # llm: 요약에 사용할 언어 모델(LLM) 인스턴스를 지정합니다.
    # 이전에 ChatOpenAI로 초기화한 llm 객체가 여기에 들어갑니다.
    llm,
    
    # chain_type: 요약 방식을 결정합니다. "map_reduce"는 큰 문서를 처리하는 데 효과적인 전략입니다.
    # 1. "map" 단계: 큰 문서를 여러 조각(chunk)으로 나누고, 각각의 조각을 개별적으로 요약합니다.
    # 2. "reduce" 단계: "map" 단계에서 생성된 모든 개별 요약들을 하나로 합쳐 최종 요약을 만듭니다.
    chain_type="map_reduce",
    
    # verbose: 체인의 실행 과정을 상세히 출력할지 여부를 결정합니다.
    # False로 설정하면, 내부적으로 어떤 프롬프트가 사용되고 어떤 단계가 진행되는지 출력하지 않습니다.
    # 디버깅 시에는 True로 설정하는 것이 유용합니다.
    verbose=False,
    
    # map_prompt: "map" 단계에서 각 문서 조각에 적용할 프롬프트 템플릿을 지정합니다.
    # 이 템플릿에 따라 각 문서 조각이 개별적으로 요약됩니다.
    map_prompt=prompt,
    
    # combine_prompt: "reduce" 단계에서 모든 개별 요약을 합칠 때 사용할 프롬프트 템플릿을 지정합니다.
    # 이 템플릿을 통해 최종 요약의 형식과 길이를 제어할 수 있습니다.
    combine_prompt=combine_prompt
)

In [11]:
# chain.run() 메서드를 사용하여 요약 체인을 실행합니다.
# 이 메서드는 LangChain 체인의 가장 간단한 실행 방식입니다.
# `text` 변수는 Document 객체 리스트이며,
# 이는 `load_summarize_chain` 함수에 정의된 대로
# 체인의 입력으로 사용됩니다.
# chain_type이 "map_reduce"로 설정되어 있으므로,
# 이 메서드는 내부적으로 다음 두 단계를 실행합니다.
# 1. Map 단계: 각 문서 청크(`text`의 요소)를 개별적으로 요약합니다.
# 2. Reduce 단계: 모든 개별 요약을 합쳐 최종 요약을 생성합니다.
output = chain.run(text)

# 최종적으로 생성된 요약 결과가 `output` 변수에 저장됩니다.
# 이 변수는 요약된 텍스트를 포함하는 문자열입니다.
# 사용자는 이 변수를 출력하거나, 파일에 저장하는 등 다양한 용도로 활용할 수 있습니다.

  output = chain.run(text)


In [12]:
output

'The video discusses the impact of superhuman machine intelligence on jobs and the economy, with the speakers believing that while some jobs may be automated away, new and better jobs will be created. They stress the importance of preparing the workforce to partner with AI technologies and the need for transparency and proper nutrition labels in AI models. Scientists are highlighted as crucial in the development of AI systems, with an emphasis on understanding how these systems work. The potential impact of artificial general intelligence on future job prospects is also mentioned, with concerns about potential harm from AI technology. However, there is optimism expressed about human creativity and adaptability in finding new opportunities with advanced tools. Both speakers emphasize the importance of being aware of the risks associated with AI technology and working towards mitigating them.'

## 번역하기

### deepl을 활용하여 번역하기 

pip install deepl

In [13]:
import deepl

In [14]:
# TODO: 실제 DeepL API 인증 키로 교체하세요.
auth_key = "3b9c5c42-29d9-4cc8-9289-ecf6bf01c2b7:fx" 
translator = deepl.Translator(auth_key)

try:
    result = translator.translate_text(output, target_lang="KO")
    print(result.text)
except deepl.exceptions.DeepLException as e:
    print(f"DeepL API 오류 발생: {e}")
except Exception as e:
    print(f"예상치 못한 오류 발생: {e}")

이 동영상에서는 초인적인 기계 지능이 일자리와 경제에 미치는 영향에 대해 논의하며, 일부 일자리는 자동화로 사라질 수 있지만 새롭고 더 나은 일자리가 창출될 것이라고 전망합니다. 이들은 AI 기술과 협력할 인력을 준비하는 것의 중요성과 AI 모델의 투명성 및 적절한 영양 표시의 필요성을 강조합니다. 과학자들은 AI 시스템 개발에 있어 과학자들의 역할이 매우 중요하며, 이러한 시스템의 작동 방식을 이해하는 데 중점을 두고 있습니다. 인공 일반 지능이 미래의 직업 전망에 미칠 잠재적 영향에 대해서도 언급되며, AI 기술로 인한 잠재적 피해에 대한 우려도 제기됩니다. 그러나 첨단 도구를 통해 새로운 기회를 찾는 인간의 창의성과 적응력에 대한 낙관론도 제기됩니다. 두 연사 모두 AI 기술과 관련된 위험을 인식하고 이를 완화하기 위해 노력하는 것이 중요하다고 강조합니다.
