In [1]:
# API 키를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API 키 정보 로드
load_dotenv()

True

# YouTube 오디오

YouTube 동영상을 기반으로 한 채팅이나 QA(질문과 답변) 애플리케이션 구축은 매우 관심이 높은 주제입니다.

아래에서는 `YouTube url`에서 `동영상의 오디오`로, 그리고 `텍스트`로, 마지막으로 `채팅`으로 쉽게 전환하는 방법을 보여줍니다!

`OpenAIWhisperParser`를 사용할 것이며, 이는 OpenAI Whisper API를 사용하여 오디오를 텍스트로 변환합니다.


`YoutubeAudioLoader`는 YouTube 오디오를 로드하는 데 사용되며, `GenericLoader`는 일반적인 문서 로딩 작업에 사용됩니다.

또한, `OpenAIWhisperParser` 는 오디오 파일을 텍스트로 변환하는 데 사용되는 파서입니다.


In [2]:
from langchain_community.document_loaders.blob_loaders.youtube_audio import (
    YoutubeAudioLoader,
)
from langchain_community.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.parsers import OpenAIWhisperParser

우리는 YouTube URL에 대한 오디오를 다운로드하기 위해 `yt_dlp`를 사용할 것입니다.

다운로드한 오디오 파일을 분할하기 위해 (Whisper API의 25MB 파일 크기 제한을 준수하기 위해) `pydub`를 사용할 것입니다.


이 문서는 `yt_dlp`, `pydub`, `librosa` 세 가지 Python 라이브러리를 설치하는 방법을 설명합니다. 각 라이브러리는 오디오 및 비디오 파일을 처리하는 데 사용됩니다. `yt_dlp`는 YouTube 동영상을 다운로드하기 위한 도구이며, `pydub`는 오디오 파일을 쉽게 조작할 수 있게 해주고, `librosa`는 오디오 분석 및 음악 정보 검색을 위한 라이브러리입니다. 이들은 Python에서 AI 및 머신러닝 프로젝트에 오디오 데이터를 사용할 때 필수적인 도구입니다.


In [4]:
# 주석을 해제 후 설치를 진행합니다.
!pip install --upgrade --quiet yt_dlp
!pip install --upgrade --quiet pydub
!pip install --upgrade --quiet librosa

[0x7FFF033BA7D0] ANOMALY: meaningless REX prefix used
[0x7FFF033BA7D0] ANOMALY: meaningless REX prefix used
[0x7FFF033BA7D0] ANOMALY: meaningless REX prefix used


### YouTube url을 텍스트로 변환

`YoutubeAudioLoader`를 사용하여 오디오 파일을 가져오거나 다운로드하세요.

그런 다음, `OpenAIWhisperParser()`를 사용하여 그것들을 텍스트로 변환하세요.


이 코드는 YouTube 동영상의 오디오를 텍스트로 변환하는 과정을 구현합니다.

먼저, `urls` 변수에 변환하고자 하는 YouTube 동영상의 URL들을 리스트 형태로 저장합니다.

`save_dir` 변수에는 오디오 파일을 저장할 디렉토리 경로를 지정합니다. `local` 변수의 값에 따라, 로컬 환경에서 오디오를 텍스트로 변환할지, 아니면 다른 파서를 사용할지 결정합니다. `GenericLoader` 클래스는 `YoutubeAudioLoader`와 `OpenAIWhisperParser` 를 결합하여 동영상에서 오디오를 추출하고, 이를 텍스트로 변환하는 역할을 합니다.

마지막으로, `load` 메소드를 호출하여 변환 과정을 실행하고 결과를 `docs` 변수에 저장합니다.


In [3]:
#!pip install ffmpeg-python
import os
os.environ["PATH"] = r"D:\git\langchain-kr\day2\bin;" + os.environ["PATH"]
# YouTube 동영상 URL
urls = ["https://youtu.be/fkxfGYPsmgc"]

# 오디오 파일을 저장할 디렉토리
save_dir = "./youtube_audios/"

# 동영상을 텍스트로 변환
loader = GenericLoader(YoutubeAudioLoader(
    urls, save_dir), OpenAIWhisperParser())
docs = loader.load()

[youtube] Extracting URL: https://youtu.be/fkxfGYPsmgc
[youtube] fkxfGYPsmgc: Downloading webpage
[youtube] fkxfGYPsmgc: Downloading webpage
[youtube] fkxfGYPsmgc: Downloading tv client config
[youtube] fkxfGYPsmgc: Downloading tv client config
[youtube] fkxfGYPsmgc: Downloading player b7ed0796-main
[youtube] fkxfGYPsmgc: Downloading player b7ed0796-main
[youtube] fkxfGYPsmgc: Downloading tv player API JSON
[youtube] fkxfGYPsmgc: Downloading tv player API JSON
[youtube] fkxfGYPsmgc: Downloading ios player API JSON
[youtube] fkxfGYPsmgc: Downloading ios player API JSON
[youtube] fkxfGYPsmgc: Downloading m3u8 information
[youtube] fkxfGYPsmgc: Downloading m3u8 information
[info] fkxfGYPsmgc: Downloading 1 format(s): 140
[download] youtube_audios\'공실 지옥'된 '지식산업센터'..현장 돌아보다 '경악' [뉴스.zip⧸MBC뉴스].m4a has already been downloaded
[download] 100% of    7.19MiB[info] fkxfGYPsmgc: Downloading 1 format(s): 140
[download] youtube_audios\'공실 지옥'된 '지식산업센터'..현장 돌아보다 '경악' [뉴스.zip⧸MBC뉴스].m4a has already 

이 코드는 `docs` 리스트의 첫 번째 문서에서 처음 500자까지의 페이지 내용을 추출합니다. `docs`는 문서 객체를 포함하는 리스트이며, 각 문서 객체는 페이지 내용에 접근할 수 있는 `page_content` 속성을 가지고 있습니다. 이를 통해 특정 문서의 내용 일부를 빠르게 확인하거나 처리할 수 있습니다.


In [4]:
# 문서 목록을 반환하며, 이는 쉽게 보거나 파싱할 수 있습니다.
docs[0].page_content[0:500]

'최근 2, 3년 사이 서울 수도권 일대에 우후 쭉순 들어선 초대형 건물, 지식산업센터입니다. 그런데 이 건물들 좀 수상합니다. 지어진 지 1년이 지났지만 사람 구경조차 힘든 곳이 있는가 하면 상가도 사무실도 텅텅 비었습니다. 1년 전부터 이곳에 대해 관심을 가진 사람이 있습니다. 부동산 관련 개인 방송을 진행하는 개그맨 표영호 씨. 지난해 2월부터 지식산업센터를 저희 표영호TV에서 취재하면서 우리 경제의 큰 뇌관이 될 수 있다라고 여러분께 말씀을 드렸는데요. 이야 진짜 이건 너무 놀랍다. 아니 너무 놀라워서 믿어지지가 않아요. 매도하겠다고 하는 매물이 700개가 넘습니다. 6개월 전에 왔을 때도 여기가 다 비어있었는데 지금도 다 비어있네요. 1년 전보다 비교해서 나아진 게 없어요. 지금 여기 공실 상태는 오피스의 공실은 얼마나 됩니까? 지금 오피스는 공실률이 한 50% 되고 있습니다. 상가는 지금 몇 퍼센트 정도 공실이라고 봅니까? 상가는 거의 지하 1층 빼고는 거의 비어있다고 보시'

In [5]:
docs[0]

Document(metadata={'source': "youtube_audios\\'공실 지옥'된 '지식산업센터'..현장 돌아보다 '경악' [뉴스.zip⧸MBC뉴스].m4a", 'chunk': 0}, page_content='최근 2, 3년 사이 서울 수도권 일대에 우후 쭉순 들어선 초대형 건물, 지식산업센터입니다. 그런데 이 건물들 좀 수상합니다. 지어진 지 1년이 지났지만 사람 구경조차 힘든 곳이 있는가 하면 상가도 사무실도 텅텅 비었습니다. 1년 전부터 이곳에 대해 관심을 가진 사람이 있습니다. 부동산 관련 개인 방송을 진행하는 개그맨 표영호 씨. 지난해 2월부터 지식산업센터를 저희 표영호TV에서 취재하면서 우리 경제의 큰 뇌관이 될 수 있다라고 여러분께 말씀을 드렸는데요. 이야 진짜 이건 너무 놀랍다. 아니 너무 놀라워서 믿어지지가 않아요. 매도하겠다고 하는 매물이 700개가 넘습니다. 6개월 전에 왔을 때도 여기가 다 비어있었는데 지금도 다 비어있네요. 1년 전보다 비교해서 나아진 게 없어요. 지금 여기 공실 상태는 오피스의 공실은 얼마나 됩니까? 지금 오피스는 공실률이 한 50% 되고 있습니다. 상가는 지금 몇 퍼센트 정도 공실이라고 봅니까? 상가는 거의 지하 1층 빼고는 거의 비어있다고 보시면 돼요. 표영호 씨가 지식산업센터에 관심을 갖게 된 이유가 있다고 합니다. 공실이 이렇게 어마어마한 상상을 초월할 정도로 많이 있는데도 지금도 또 인허가를 받아놓고 공사를 들어갈 곳도 300여 곳이 넘거든요. 이거를 아무도 말하지 않길래 다들 아파트 얘기만 하고 있길래 그러니까 그게 염려가 돼서 한 1년 반 전부터 제가 이 이야기를 했었죠. 부동산 프로젝트 파이낸싱, PF로 유동성 위기를 겪고 있는 태영건설이 결국 기업 구조 개선, 워크아웃을 신청했습니다. 최근 부도 위기를 맞았던 태영건설도 지식산업센터 건설에 적극 참여했습니다. 구로와 영등포를 비롯해 10곳의 시공을 직접 맡았습니다. 태영이 그러면서 이게 지사인이 분양하면 돈이 되는구나. 건설사만 하지 않고

### YouTube 동영상에서 질의-응답 챗봇 구축하기

`Documents`를 주어진 상태에서, 우리는 쉽게 채팅 / 질문+답변 기능을 활성화할 수 있습니다.


이 문서는 `langchain` 라이브러리와 그 커뮤니티 확장을 사용하여 질의응답(QA), 텍스트 분할, 벡터 저장소, 그리고 OpenAI와의 상호작용을 위한 코드를 보여줍니다. `RetrievalQA` 클래스는 질의응답 시스템을 구현하는 데 사용되며, `RecursiveCharacterTextSplitter`는 긴 텍스트를 처리하기 위한 텍스트 분할기입니다. `FAISS`는 고성능 벡터 검색을 위한 라이브러리를 활용하며, `ChatOpenAI`와 `OpenAIEmbeddings`는 OpenAI의 API를 활용하여 챗봇 기능과 텍스트 임베딩 기능을 제공합니다.


In [6]:
from langchain.chains import RetrievalQA
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

이 함수는 여러 문서(`docs`)의 내용을 결합하여 하나의 문자열(`text`)로 만듭니다. 각 문서의 `page_content` 속성을 추출하여 리스트(`combined_docs`)에 저장한 후, 이 리스트의 모든 항목을 공백 문자로 연결합니다. 결과적으로, 모든 문서의 내용이 단일 문자열로 합쳐지게 됩니다.


In [7]:
# 문서 결합
# docs의 각 문서에서 page_content를 추출하여 combined_docs에 저장합니다.
combined_docs = [doc.page_content for doc in docs]
text = " ".join(combined_docs)

`RecursiveCharacterTextSplitter` 클래스는 텍스트를 지정된 크기(`chunk_size`)의 조각으로 분할하고, 각 조각 사이에 일정량(`chunk_overlap`)의 중복을 허용하는 기능을 제공합니다. 이를 통해, 큰 텍스트 데이터를 처리할 때 각 조각이 서로 일부 정보를 공유하면서도 독립적으로 처리될 수 있도록 합니다. `split_text` 메소드는 주어진 텍스트(`text`)를 분할하고, 분할된 텍스트 조각들의 리스트를 반환합니다.


In [8]:
# 텍스트를 분할합니다.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500, chunk_overlap=150)
splits = text_splitter.split_text(text)

이 코드는 텍스트 데이터를 벡터로 변환하여 검색 가능한 색인을 구축하는 과정을 보여줍니다. `OpenAIEmbeddings` 클래스를 사용하여 임베딩을 생성하고, 이 임베딩을 `FAISS.from_texts` 메소드에 전달하여 `vectordb` 객체를 생성합니다. 이 객체는 텍스트 데이터의 벡터화된 표현을 저장하며, 이를 통해 효율적인 검색이 가능해집니다.


In [9]:
# 색인을 구축합니다.
embeddings = OpenAIEmbeddings()
vectordb = FAISS.from_texts(splits, embeddings)

`RetrievalQA.from_chain_type` 함수는 `ChatOpenAI` 인스턴스를 사용하여 질의응답(QA) 체인을 구성합니다. 여기서 `model_name`은 사용할 모델을 지정하며, `temperature`는 생성된 응답의 다양성을 조절합니다. `chain_type`은 체인의 유형을 정의하고, `retriever`는 검색 엔진으로 사용됩니다. 이 예시에서는 `vectordb`를 검색 엔진으로 활용합니다.


In [10]:
from langchain.callbacks.base import BaseCallbackHandler


class StreamCallback(BaseCallbackHandler):
    def on_llm_new_token(self, token: str, **kwargs):
        print(f"{token}", end="", flush=True)

In [11]:
# QA 체인 구축
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(
        model_name="gpt-4-turbo-preview",
        temperature=0,
        streaming=True,
        callbacks=[StreamCallback()],
    ),
    chain_type="stuff",
    retriever=vectordb.as_retriever(),
)

이 함수는 기계학습 모델의 학습 과정에서 역전파 단계 전에 기울기를 0으로 초기화하는 이유를 질의하는 예제입니다. `qa_chain.invokr({"query": query})`는 주어진 질문(`query`)에 대한 답변을 실행하는 함수입니다. 이 과정은 모델이 새로운 데이터 포인트에 대해 학습할 때 이전 단계의 기울기가 누적되지 않도록 하기 위해 필요합니다.


In [12]:
# 질문을 하세요!
query = "지식산업센터 공실율의 가장 큰 원인은 무엇인가요?"
answer = qa_chain.invoke({"query": query})

지식식산업산업센터센터 공실 공실율의율의 가장 가장 큰 원 큰 원인은인은 공급 공급과잉과잉입니다.입니다. 서울 서울 수도권 일 수도권 일대에대에 지식 지식산업산업센터센터가 대가 대규모규모로 건로 건설되설되면서면서, 실, 실제 수제 수요에요에 비해 비해 공급 공급이 지이 지나치나치게 많게 많아졌아졌습니다.습니다. 이로 이로 인해 인해 많은 많은 지식 지식산업산업센터센터가 입가 입주율주율이 낮이 낮은 상은 상태로태로 남아 남아 있으 있으며,며, 일부 일부는 입는 입주를주를 시작한 시작한 지  지 2년2년이 지이 지났음났음에도에도 불구 불구하고하고 입주 입주율이율이 25 25%에%에 불과 불과한 곳한 곳도 있도 있습니다.습니다. 또한 또한, 지, 지자체자체들이들이 산업 산업체 유체 유치와치와 세수 세수 증대 증대, 고, 고용 창용 창출 등출 등의 목의 목적으로적으로 조례 조례를 통를 통해 지해 지식산식산업센업센터 건터 건설을설을 적극 적극적으로적으로 허가 허가해온해온 점도 점도 공급 공급 과잉 과잉의 원의 원인 중인 중 하나 하나입니다.입니다. 이러 이러한 공한 공급 과급 과잉은잉은 공실 공실률 증률 증가로가로 이어 이어져 지져 지식산업센터의식산업센터의 공실 문제 공실 문제를 심를 심화시화시켰습니다.켰습니다.

In [13]:
# 질문을 하세요!
query = "삼성전자 인근 지식산업센터의 공실율이 어떻게 되나요?"
answer = qa_chain.invoke({"query": query})

삼성성전자전자 인근 인근 지식 지식산업산업센터센터의 공의 공실율실율은 상은 상당히당히 높은 높은 상황 상황입니다.입니다. 특히 특히 언급 언급된 바된 바에 따에 따르면르면, 2년 전, 2년 전 입 입주를주를 시작했 시작했음에음에도 불도 불구하고 입구하고 입주율주율이 이 25%25%밖에밖에 되지 되지 않는 않는 곳도 곳도 있으 있으며,며, 1 1층 상층 상가는가는 아예 아예 텅 비 텅 비어 있는어 있는 경우도 경우도 있습니다 있습니다. 전. 전반적반적으로 삼으로 삼성전성전자를자를 중심 중심으로 한으로 한 반경 반경 3 3km 이km 이내에내에 위치한 위치한 지식 지식산업센터산업센터들이들이 공급 공급 과잉 과잉으로 인으로 인해 공해 공실이실이 많이 많이 발생 발생하고하고 있으 있으며,며, 전체 전체가 입가 입주되주되기까기까지는지는 기약 기약이 없이 없는 상는 상황으로황으로 보입니다. 보입니다.

> 태영건설과 공실율

https://youtu.be/fkxfGYPsmgc?si=EaUgz_mS-gxMg1dG&t=123


In [14]:
# 질문을 하세요!
query = "공실율과 태영과의 연관성에 대해 설명해 주세요."
answer = qa_chain.invoke({"query": query})

공실실율이율이 높아 높아진 상진 상황과황과 태영 태영건설건설과의과의 연관 연관성은성은 다음 다음과 같과 같습니다:

습니다:

1.1. **공 **공실율실율 상승 상승**: 서**: 서울 수울 수도권도권 일대 일대에 지에 지식산식산업센업센터가터가 대량 대량으로 건으로 건설되설되면서면서, 이, 이들 건들 건물의물의 상당 상당수가수가 입주 입주율이율이 낮거 낮거나 상나 상가와가와 사무 사무실이실이 텅 비 텅 비어 있는어 있는 상태 상태입니다.입니다. 이는 이는 공급 공급 과잉 과잉으로 인으로 인한 결과한 결과로,로, 실제 실제 수요 수요에 비에 비해 지해 지식산식산업센업센터의터의 공급 공급이 지이 지나치나치게 많게 많아진아진 것이 것이 주된 주된 원인 원인입니다.입니다. 특히 특히, 일, 일부 지부 지식산식산업센업센터는터는 입주 입주 시작  시작 2년2년이 지이 지났음났음에도에도 불구 불구하고하고 입주 입주율이율이 25 25%에%에 불과 불과하고하고, , 1층1층 상가 상가는 아는 아예 비예 비어 있는어 있는 경우도 경우도 있습니다 있습니다.

2.

2. **. **태영태영건설건설의 역의 역할**:할**: 태영 태영건설건설은 이은 이러한러한 지식 지식산업산업센터센터 건설 건설에 적에 적극적극적으로 참으로 참여한여한 건설 건설사 중사 중 하나 하나입니다.입니다. 구로 구로와 영와 영등포등포를 비를 비롯해롯해 여러 여러 지역에서 지역에서 지 지식산식산업센업센터의터의 시공 시공을 맡을 맡았으았으며,며, 이를 통해 이를 통해 초기에 초기에는 수는 수익을익을 창출했을 창출했을 것으로 것으로 보입니다 보입니다. 그러. 그러나나 지식 지식산업산업센터센터 시장 시장의 공의 공급 과급 과잉으로잉으로 인해 인해 이후 이후 공실 공실률이률이 급증 급증하면하면서,서, 이에 이에 투자 투자한 건한 건설사설사들,들, 특히 특히 태영 태영건설건설과 같이과 같이 프로젝트 프로젝트 파 파이낸이낸싱(P싱(PF)F)을 통을 통해 자해 자금을금을 조달 조달한 경우한 경우 유동 유동성 위성 위기에기

> 관련 영상

https://youtu.be/fkxfGYPsmgc?si=6nx2qp4sFTmOWGJR&t=367


In [15]:
# 질문을 하세요!
query = "현재 건축중인 지식산업센터와 미준공인 지식산업센터의 수는 어떻게 되나요?"
answer = qa_chain.invoke({"query": query})

현재 건 건축 중축 중인 지인 지식산식산업센업센터는터는 87 87개이개이고,고, 부지 부지 메이 메이프 미프 미착공착공 상태 상태인 지인 지식산식산업센업센터는터는 300 300개가개가 넘습니다. 넘습니다.

### YouTube url을 텍스트로 변환

`YoutubeAudioLoader`를 사용하여 오디오 파일을 가져오거나 다운로드하세요.

그런 다음, `OpenAIWhisperParser()`를 사용하여 그것들을 텍스트로 변환하세요.


이 코드는 YouTube 동영상의 오디오를 텍스트로 변환하는 과정을 구현합니다.

먼저, `urls` 변수에 변환하고자 하는 YouTube 동영상의 URL들을 리스트 형태로 저장합니다.

`save_dir` 변수에는 오디오 파일을 저장할 디렉토리 경로를 지정합니다. `local` 변수의 값에 따라, 로컬 환경에서 오디오를 텍스트로 변환할지, 아니면 다른 파서를 사용할지 결정합니다. `GenericLoader` 클래스는 `YoutubeAudioLoader`와 `OpenAIWhisperParser` 를 결합하여 동영상에서 오디오를 추출하고, 이를 텍스트로 변환하는 역할을 합니다.

마지막으로, `load` 메소드를 호출하여 변환 과정을 실행하고 결과를 `docs` 변수에 저장합니다.


In [16]:
# ffmpeg-python 설치 및 ffmpeg 바이너리 자동 다운로드
!pip install --upgrade --quiet ffmpeg-python
import ffmpeg

# YouTube 동영상 URL
urls = ["https://youtu.be/fkxfGYPsmgc"]

# 오디오 파일을 저장할 디렉토리
save_dir = "./youtube_audios/"

# 동영상을 텍스트로 변환
loader = GenericLoader(YoutubeAudioLoader(
    urls, save_dir), OpenAIWhisperParser())
docs = loader.load()

[0x7FF927D8A7D0] ANOMALY: meaningless REX prefix used
[youtube] Extracting URL: https://youtu.be/fkxfGYPsmgc
[youtube] fkxfGYPsmgc: Downloading webpage
[youtube] fkxfGYPsmgc: Downloading tv client config
[youtube] fkxfGYPsmgc: Downloading tv player API JSON
[youtube] fkxfGYPsmgc: Downloading ios player API JSON
[youtube] fkxfGYPsmgc: Downloading m3u8 information
[info] fkxfGYPsmgc: Downloading 1 format(s): 140
[download] youtube_audios\'공실 지옥'된 '지식산업센터'..현장 돌아보다 '경악' [뉴스.zip⧸MBC뉴스].m4a has already been downloaded
[download] 100% of    7.19MiB
[ExtractAudio] Not converting audio youtube_audios\'공실 지옥'된 '지식산업센터'..현장 돌아보다 '경악' [뉴스.zip⧸MBC뉴스].m4a; file is already in target format m4a
Transcribing part 1!


이 코드는 `docs` 리스트의 첫 번째 문서에서 처음 500자까지의 페이지 내용을 추출합니다. `docs`는 문서 객체를 포함하는 리스트이며, 각 문서 객체는 페이지 내용에 접근할 수 있는 `page_content` 속성을 가지고 있습니다. 이를 통해 특정 문서의 내용 일부를 빠르게 확인하거나 처리할 수 있습니다.


In [17]:
# 문서 목록을 반환하며, 이는 쉽게 보거나 파싱할 수 있습니다.
docs[0].page_content[0:500]

'최근 2, 3년 사이 서울 수도권 일대에 우후 쭉순 들어선 초대형 건물, 지식산업센터입니다. 그런데 이 건물들 좀 수상합니다. 지어진 지 1년이 지났지만 사람 구경조차 힘든 곳이 있는가 하면 상가도 사무실도 텅텅 비었습니다. 1년 전부터 이곳에 대해 관심을 가진 사람이 있습니다. 부동산 관련 개인 방송을 진행하는 개그맨 표영호 씨. 지난해 2월부터 지식산업센터를 저희 표영호TV에서 취재하면서 우리 경제의 큰 뇌관이 될 수 있다라고 여러분께 말씀을 드렸는데요. 이야 진짜 이건 너무 놀랍다. 아니 너무 놀라워서 믿어지지가 않아요. 매도하겠다고 하는 매물이 700개가 넘습니다. 6개월 전에 왔을 때도 여기가 다 비어있었는데 지금도 다 비어있네요. 1년 전보다 비교해서 나아진 게 없어요. 지금 여기 공실 상태는 오피스의 공실은 얼마나 됩니까? 지금 오피스는 공실률이 한 50% 되고 있습니다. 상가는 지금 몇 퍼센트 정도 공실이라고 봅니까? 상가는 거의 지하 1층 빼고는 거의 비어있다고 보시'

In [None]:
docs[0]

### YouTube 동영상에서 질의-응답 챗봇 구축하기

`Documents`를 주어진 상태에서, 우리는 쉽게 채팅 / 질문+답변 기능을 활성화할 수 있습니다.


이 문서는 `langchain` 라이브러리와 그 커뮤니티 확장을 사용하여 질의응답(QA), 텍스트 분할, 벡터 저장소, 그리고 OpenAI와의 상호작용을 위한 코드를 보여줍니다. `RetrievalQA` 클래스는 질의응답 시스템을 구현하는 데 사용되며, `RecursiveCharacterTextSplitter`는 긴 텍스트를 처리하기 위한 텍스트 분할기입니다. `FAISS`는 고성능 벡터 검색을 위한 라이브러리를 활용하며, `ChatOpenAI`와 `OpenAIEmbeddings`는 OpenAI의 API를 활용하여 챗봇 기능과 텍스트 임베딩 기능을 제공합니다.


In [None]:
from langchain.chains import RetrievalQA
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

이 함수는 여러 문서(`docs`)의 내용을 결합하여 하나의 문자열(`text`)로 만듭니다. 각 문서의 `page_content` 속성을 추출하여 리스트(`combined_docs`)에 저장한 후, 이 리스트의 모든 항목을 공백 문자로 연결합니다. 결과적으로, 모든 문서의 내용이 단일 문자열로 합쳐지게 됩니다.


In [None]:
# 문서 결합
# docs의 각 문서에서 page_content를 추출하여 combined_docs에 저장합니다.
combined_docs = [doc.page_content for doc in docs]
text = " ".join(combined_docs)

`RecursiveCharacterTextSplitter` 클래스는 텍스트를 지정된 크기(`chunk_size`)의 조각으로 분할하고, 각 조각 사이에 일정량(`chunk_overlap`)의 중복을 허용하는 기능을 제공합니다. 이를 통해, 큰 텍스트 데이터를 처리할 때 각 조각이 서로 일부 정보를 공유하면서도 독립적으로 처리될 수 있도록 합니다. `split_text` 메소드는 주어진 텍스트(`text`)를 분할하고, 분할된 텍스트 조각들의 리스트를 반환합니다.


In [None]:
# 텍스트를 분할합니다.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500, chunk_overlap=150)
splits = text_splitter.split_text(text)

이 코드는 텍스트 데이터를 벡터로 변환하여 검색 가능한 색인을 구축하는 과정을 보여줍니다. `OpenAIEmbeddings` 클래스를 사용하여 임베딩을 생성하고, 이 임베딩을 `FAISS.from_texts` 메소드에 전달하여 `vectordb` 객체를 생성합니다. 이 객체는 텍스트 데이터의 벡터화된 표현을 저장하며, 이를 통해 효율적인 검색이 가능해집니다.


In [None]:
# 색인을 구축합니다.
embeddings = OpenAIEmbeddings()
vectordb = FAISS.from_texts(splits, embeddings)

`RetrievalQA.from_chain_type` 함수는 `ChatOpenAI` 인스턴스를 사용하여 질의응답(QA) 체인을 구성합니다. 여기서 `model_name`은 사용할 모델을 지정하며, `temperature`는 생성된 응답의 다양성을 조절합니다. `chain_type`은 체인의 유형을 정의하고, `retriever`는 검색 엔진으로 사용됩니다. 이 예시에서는 `vectordb`를 검색 엔진으로 활용합니다.


In [None]:
from langchain.callbacks.base import BaseCallbackHandler


class StreamCallback(BaseCallbackHandler):
    def on_llm_new_token(self, token: str, **kwargs):
        print(f"{token}", end="", flush=True)

In [None]:
# QA 체인 구축
qa_chain = RetrievalQA.from_chain_type(
    llm=ChatOpenAI(
        model_name="gpt-4-turbo-preview",
        temperature=0,
        streaming=True,
        callbacks=[StreamCallback()],
    ),
    chain_type="stuff",
    retriever=vectordb.as_retriever(),
)

이 함수는 기계학습 모델의 학습 과정에서 역전파 단계 전에 기울기를 0으로 초기화하는 이유를 질의하는 예제입니다. `qa_chain.invokr({"query": query})`는 주어진 질문(`query`)에 대한 답변을 실행하는 함수입니다. 이 과정은 모델이 새로운 데이터 포인트에 대해 학습할 때 이전 단계의 기울기가 누적되지 않도록 하기 위해 필요합니다.


In [None]:
# 질문을 하세요!
query = "지식산업센터 공실율의 가장 큰 원인은 무엇인가요?"
answer = qa_chain.invoke({"query": query})

In [None]:
# 질문을 하세요!
query = "삼성전자 인근 지식산업센터의 공실율이 어떻게 되나요?"
answer = qa_chain.invoke({"query": query})

> 태영건설과 공실율

https://youtu.be/fkxfGYPsmgc?si=EaUgz_mS-gxMg1dG&t=123


In [None]:
# 질문을 하세요!
query = "공실율과 태영과의 연관성에 대해 설명해 주세요."
answer = qa_chain.invoke({"query": query})

> 관련 영상

https://youtu.be/fkxfGYPsmgc?si=6nx2qp4sFTmOWGJR&t=367


In [None]:
# 질문을 하세요!
query = "현재 건축중인 지식산업센터와 미준공인 지식산업센터의 수는 어떻게 되나요?"
answer = qa_chain.invoke({"query": query})