# 2023 LangChain Korea Meetup
## 나의 시간을 절약해주는 말하는 앵무새 🦜⛓️ - 유튭 요약정리 하기
**발표자 전미정 Microsoft AI MVP**
#### with. Youtube Loader

![](https://dl.dropbox.com/scl/fi/3mchwc5s4dry5mc7hn77n/langchain-doc.png?rlkey=tfc0cgpvp3wwl4ftxegk55k6z)

In [None]:
# 패키지 설치

!pip install openai
!pip install langchain
!pip install pytube
!pip install youtube-transcript-api
!pip install tiktoken

In [None]:
import os
from config import OPENAI_API_KEY

# 환경 변수 설정
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY

In [None]:
# youtube 영상 데이터 읽어오기

from langchain.document_loaders import YoutubeLoader
loader = YoutubeLoader.from_youtube_url("https://www.youtube.com/watch?v=U9mJuUkhUzk")

data = loader.load()
data

[Document(page_content='[music] -Good morning.\nThank you for joining us today. Please welcome to the stage, Sam Altman. [music] [applause] -Good morning. Welcome to our first-ever OpenAI DevDay. We\'re thrilled that you\'re here\nand this energy is awesome. [applause] -Welcome to San Francisco. San Francisco has been\nour home since day one. The city is important to us\nand the tech industry in general. We\'re looking forward\nto continuing to grow here. We\'ve got some great stuff\nto announce today, but first, I\'d like to take a minute to talk\nabout some of the stuff that we\'ve done over the past year. About a year ago, November 30th,\nwe shipped ChatGPT as a "low-key research preview", and that went pretty well. In March, we followed that up\nwith the launch of GPT-4, still the most capable model out in the world. [applause] -In the last few months, we launched voice and vision capabilities\nso that ChatGPT can now see, hear, and speak. [applause] -There\'s a lot,\nyou don\'t ha

In [None]:
# OpenAI 모델 생성

from langchain.chat_models import ChatOpenAI

chat_llm = ChatOpenAI(
    model="gpt-3.5-turbo-16k",
    max_tokens=1024,
    temperature=0.0,
)

In [None]:
chat_llm.get_num_tokens(data[0].page_content)

9317

In [None]:
# token split

from langchain.text_splitter import TokenTextSplitter

splitter = TokenTextSplitter(chunk_size=3000, chunk_overlap=50)
doc = splitter.split_documents(data)
doc

[Document(page_content='[music] -Good morning.\nThank you for joining us today. Please welcome to the stage, Sam Altman. [music] [applause] -Good morning. Welcome to our first-ever OpenAI DevDay. We\'re thrilled that you\'re here\nand this energy is awesome. [applause] -Welcome to San Francisco. San Francisco has been\nour home since day one. The city is important to us\nand the tech industry in general. We\'re looking forward\nto continuing to grow here. We\'ve got some great stuff\nto announce today, but first, I\'d like to take a minute to talk\nabout some of the stuff that we\'ve done over the past year. About a year ago, November 30th,\nwe shipped ChatGPT as a "low-key research preview", and that went pretty well. In March, we followed that up\nwith the launch of GPT-4, still the most capable model out in the world. [applause] -In the last few months, we launched voice and vision capabilities\nso that ChatGPT can now see, hear, and speak. [applause] -There\'s a lot,\nyou don\'t ha

In [None]:
chat_llm.get_num_tokens(doc[0].page_content)

2958

In [None]:
# 영상 summary chain 생성

from langchain.chains.summarize import load_summarize_chain

sum_chain = load_summarize_chain(llm=chat_llm,
                                 chain_type="map_reduce",
                                 return_intermediate_steps=True)

![Map Reduce](https://python.langchain.com/assets/images/map_reduce-aa3ba13ab16536d9f9e046276bd83dd2.jpg)

In [None]:
sum_chain({"input_documents" : doc}, return_only_outputs=True)

{'intermediate_steps': ["OpenAI CEO, Sam Altman, welcomed attendees to the first-ever OpenAI DevDay in San Francisco. Altman highlighted the progress made over the past year, including the launch of ChatGPT, GPT-4, voice and vision capabilities, and ChatGPT Enterprise. He shared testimonials from users who have found value in OpenAI's technology. Altman then announced the launch of GPT-4 Turbo, which offers longer context length, more control over model responses, better world knowledge, new modalities including DALL-E 3 and text-to-speech, customization options, higher rate limits, and reduced pricing. He emphasized that OpenAI prioritized making the model more affordable and will focus on improving speed next.",
  'OpenAI has made improvements to its model and announced a partnership with Microsoft. They introduced GPTs, which are tailored versions of ChatGPT for specific purposes. GPTs can be customized, published, and used within ChatGPT to perform various tasks. Examples include C

In [None]:
sum_chain

MapReduceDocumentsChain(llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['text'], template='Write a concise summary of the following:\n\n\n"{text}"\n\n\nCONCISE SUMMARY:'), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7e906d79c940>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7e906d5ca740>, model_name='gpt-3.5-turbo-16k', temperature=0.0, openai_api_key='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', openai_proxy='', max_tokens=1024)), reduce_documents_chain=ReduceDocumentsChain(combine_documents_chain=StuffDocumentsChain(llm_chain=LLMChain(prompt=PromptTemplate(input_variables=['text'], template='Write a concise summary of the following:\n\n\n"{text}"\n\n\nCONCISE SUMMARY:'), llm=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7e906d79c940>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7e906d5ca740>, model_name='gpt-3.5-turbo-16k', temperatu

In [None]:
# 6. Prompt Template를 활용한 summarize chain
from langchain import PromptTemplate
from langchain.chains.summarize import load_summarize_chain

def kr_summarize_chain(doc):
  map_template = '''다음은 유튜브 영상 자막의 일부야. 이 내용의 주요 내용을 한글 200자로 요약해줘
  자막 : {text}
  '''
  combine_prompt_template = '''자막 요약 내용을 모두 종합해 영상의 전체 내용을 한글 300자로 정리해줘: {text}
  '''

  MAP_PROMPT = PromptTemplate(template=map_template,
                              input_variables=["text"])
  COMBINE_PROMPT = PromptTemplate(template=combine_prompt_template,
                                  input_variables=["text"])

  sum_chain = load_summarize_chain(
      llm=chat_llm,
      chain_type="map_reduce",
      return_intermediate_steps=True,
      map_prompt=MAP_PROMPT, combine_prompt=COMBINE_PROMPT)
  return sum_chain(doc)

In [None]:
kr_summarize_chain(doc)

{'intermediate_steps': ['이 영상은 OpenAI의 개발자 컨퍼런스에서 발표된 내용을 다루고 있다. 올해 동안 OpenAI가 어떤 일을 해왔는지 소개하고, 새로운 모델과 기능을 발표한다. 그 중에서도 GPT-4 Turbo라는 새로운 모델을 소개하며, 이 모델은 이전 모델보다 더 저렴하고 성능이 향상되었다고 설명한다. 또한, 더 긴 문맥 길이, 더 많은 제어 가능성, 더 나은 세계 지식, 새로운 모달리티, 맞춤형 모델, 그리고 더 높은 요청 제한과 저작권 보호 기능도 소개한다. OpenAI는 개발자들의 피드백을 반영하여 모델을 개선하고 가격을 낮추는 노력을 기울였다고 강조한다.',
  '이 영상은 OpenAI의 CEO인 Sam Altman이 Microsoft의 CEO인 Satya Nadella와의 협력에 대해 이야기하는 내용이다. Satya Nadella는 OpenAI와의 파트너십에 대해 매우 긍정적이며, OpenAI의 모델 개선에 기여하고 있다. 또한, Microsoft는 OpenAI의 API를 사용하여 자체 제품을 개발하고 있으며, 개발자들에게도 이 API를 제공할 예정이다. 이외에도, OpenAI는 개발자들을 위해 GPTs라는 맞춤형 버전의 ChatGPT를 소개하고 있다. 이 GPTs는 특정 목적을 위해 설계되어 있으며, 사용자들이 지시를 내리고 지식을 확장하고 작업을 수행할 수 있도록 도와준다. 이를 통해 사용자들은 다양한 작업을 수행하거나 더 재미있게 사용할 수 있다. OpenAI는 이러한 GPTs를 ChatGPT 내에서 사용할 수 있도록 제공하고 있으며, 개발자들은 자신의 앱에 이러한 에이전트 기능을 구축할 수 있다.',
  '이 영상은 OpenAI의 개발자 컨퍼런스에서 새롭게 출시된 Assistants API와 관련된 내용을 다루고 있다. 이 API를 사용하면 앱 내에서 특정 도움을 주는 기능을 구현할 수 있다. 이 영상에서는 GPT-4 Turbo 모델을 사용하여 여행 앱에 도움을 주는 기능을 만드는 과정을 보여준다. 또한, 새로운

In [None]:
loader = YoutubeLoader.from_youtube_url("https://youtu.be/76lH5m6x0zE?feature=shared",
                                        language=["ko"], # 언어 지정
                                        add_video_info=True)

data = loader.load()
data

[Document(page_content='안녕하세요 친절한 인공지능 미정입니다 여러분 모두 즐거운 인공지능 생활 하고 계신가요 저는 요즘 등장하는 재미난 기술들을 하나하나 써보고 공부하느라 시간 가는 줄 모르고 책상 앞에 앉아 있기도 하는데요 아마 저만 그런 건 아닐 거예요 특히 커뮤니티 모임이나 강의에서 만난 분들과 이야기를 나누다 보면 그 어느 때보다 인공지능 기술에 다들 관심이 많다는게 느껴지는 요즘이라고 말 그대로 기술이 쏟아져 내리는 거 같아요 그런데 기술이 너무 빠르게 발전하다 보니 혹시 내가 놓치는게 있지는 않은지 어떤 기술이 새롭게 나왔는지 매번 찾아보기 쉽지 않은 건 사실이죠 그래서인지 최근 주변 에서 어디 가면 최신 인공지능 기술을 찾아볼 수 있나요 어디에 정보가 모여 있나요라는 질문을 굉장히 많이 받는답니다 그래서 친절한 AI 최신 인공지능 소식을 잘 정리해서 여러분께 전달해 드리려고 합니다 요즘 어떤 기술이 나왔나 어떤 기술이 트렌드인가 궁 하실 때 친절한 AI 찾아 주시면 되겠죠 모든 기술을 다 소개할 수는 없지만 우리가 바로 써 볼 수 있거나 우리에게 큰 변화를 가져다 줄 수 있는 내용들을 전달해 드릴 거예요 출근하면서 산책하면서 편하게 영상을 듣다 보면 아 기술이 나를 앞서 가는게 아니라 기술과 내가 나란히 함께하고 있구나라는 생각이 드실 거예요 그 첫 번째 시간에 오신 여러분 진심으로 환영합니다 그럼 어떤 기술이 최근 등장했는지 지금부터 하나씩 살펴볼까요 그 첫 번째 소식은 바로 오픈 AI 이미지 생성 모델 다리 3의 발표입니다 자 다리 3는 2023년 9월 21일에 이렇게 홈페이지를 통해서 발표가 되었는데요 여러분들 이미지를 그려 주는 달이라는 모델은 많이 들어보셨을 거예요이 달리는 스페인의 초현실주의 화가인 살바도르 달리와 그다음에 디즈니 애니메이션의 이름을 합쳐서 만들어진 인공지능 모델인데요이 다리는 원부터 2투 그리고 3까지 발전이 되고 있습니다 2021년에 등장했던 다리 원은 좀 작은 사이즈의 이미지를 그릴 수 있었고 그

In [None]:
doc = splitter.split_documents(data)
len(doc)

9

In [None]:
kr_summarize_chain(doc)

{'input_documents': [Document(page_content='안녕하세요 친절한 인공지능 미정입니다 여러분 모두 즐거운 인공지능 생활 하고 계신가요 저는 요즘 등장하는 재미난 기술들을 하나하나 써보고 공부하느라 시간 가는 줄 모르고 책상 앞에 앉아 있기도 하는데요 아마 저만 그런 건 아닐 거예요 특히 커뮤니티 모임이나 강의에서 만난 분들과 이야기를 나누다 보면 그 어느 때보다 인공지능 기술에 다들 관심이 많다는게 느껴지는 요즘이라고 말 그대로 기술이 쏟아져 내리는 거 같아요 그런데 기술이 너무 빠르게 발전하다 보니 혹시 내가 놓치는게 있지는 않은지 어떤 기술이 새롭게 나왔는지 매번 찾아보기 쉽지 않은 건 사실이죠 그래서인지 최근 주변 에서 어디 가면 최신 인공지능 기술을 찾아볼 수 있나요 어디에 정보가 모여 있나요라는 질문을 굉장히 많이 받는답니다 그래서 친절한 AI 최신 인공지능 소식을 잘 정리해서 여러분께 전달해 드리려고 합니다 요즘 어떤 기술이 나왔나 어떤 기술이 트렌드인가 궁 하실 때 친절한 AI 찾아 주시면 되겠죠 모든 기술을 다 소개할 수는 없지만 우리가 바로 써 볼 수 있거나 우리에게 큰 변화를 가져다 줄 수 있는 내용들을 전달해 드릴 거예요 출근하면서 산책하면서 편하게 영상을 듣다 보면 아 기술이 나를 앞서 가는게 아니라 기술과 내가 나란히 함께하고 있구나라는 생각이 드실 거예요 그 첫 번째 시간에 오신 여러분 진심으로 환영합니다 그럼 어떤 기술이 최근 등장했는지 지금부터 하나씩 살펴볼까요 그 첫 번째 소식은 바로 오픈 AI 이미지 생성 모델 다리 3의 발표입니다 자 다리 3는 2023년 9월 21일에 이렇게 홈페이지를 통해서 발표가 되었는데요 여러분들 이미지를 그려 주는 달이라는 모델은 많이 들어보셨을 거예요이 달리는 스페인의 초현실주의 화가인 살바도르 달리와 그다음에 디즈니 애니메이션의 이름을 합쳐서 만들어진 인공지능 모델인데요이 다리는 원부터 2투 그리고 3까지 발전이 되고 있습니다 2021년에 등장했던 다리 원은 좀 작은 