In [None]:
!pip install langchain langchain-community langchain-core pypdf faiss-cpu sentence-transformers langchain_google_genai langchain_openai langchain_chroma

# 모델 불러오기

In [None]:
import os
from google.colab import userdata # 코랩 Secrets 기능 사용을 위한 임포트
from langchain_google_genai import ChatGoogleGenerativeAI
# 코랩 Secrets에서 GOOGLE_API_KEY를 가져오기
try:
    google_api_key = userdata.get('GOOGLE_API_KEY')
    os.environ["GOOGLE_API_KEY"] = google_api_key
    print("GOOGLE_API_KEY가 환경 변수로 설정되었습니다.")
except userdata.SecretNotFoundError:
    print("오류: 'GOOGLE_API_KEY' 비밀을 코랩 Secrets에 설정해주세요. ")
    exit() # API 키가 없으면 스크립트 종료
llm = ChatGoogleGenerativeAI(model="gemini-1.5-flash-latest")
print(f"Selected LLM: {llm.__class__.__name__}")

GOOGLE_API_KEY가 환경 변수로 설정되었습니다.
Selected LLM: ChatGoogleGenerativeAI


# 캐싱

In [None]:
from langchain_core.prompts import PromptTemplate
import time

# 프롬프트 생성
prompt = PromptTemplate.from_template("{country} 에 대해서 200자 내외로 요약해줘")

# 체인 생성
chain = prompt | llm

#답변을 생성하는 데 소요된 시간과 답변 출력

start = time.time()
response = chain.invoke({"country": "한국"})
end = time.time()
print(response.content)
print(f"{end - start:.5f} sec")

한국은 동아시아에 위치한 한반도에 있는 나라로, 공식 명칭은 대한민국입니다.  약 5천 년의 역사를 지닌 한국은 삼국시대, 고려, 조선 왕조를 거치며 독자적인 문화와 문명을 발전시켰습니다.  1945년 해방 이후 한국 전쟁을 겪었지만, 이후 놀라운 경제 성장을 이루어 '한강의 기적'이라 불리는 발전을 거듭했습니다.  현재는 세계 10위권 경제 대국이며, IT, 자동차, 조선 등 다양한 산업 분야에서 세계적인 경쟁력을 갖추고 있습니다.  K-팝, K-드라마 등 대중문화의 영향력 또한 세계적으로 확대되고 있으며, 풍부한 역사 유적과 아름다운 자연 경관을 가진 관광 국가이기도 합니다.  하지만 여전히 북한과의 분단 문제는 한국 사회의 중요한 과제로 남아 있습니다.
1.85622 sec


## InMemoryCache

In [None]:
from langchain.globals import set_llm_cache
from langchain.cache import InMemoryCache

# 인메모리 캐시 사용합
set_llm_cache(InMemoryCache())

# 체인 실행, 소요 시간 확인
start = time.time()
response = chain.invoke({"country": "한국"})
end = time.time()
print(response.content)
print(f"{end - start:.5f} sec")

한국은 동아시아에 위치한 발전된 국가로, 공식 명칭은 대한민국입니다.  반도와 섬으로 이루어진 지형적 특징을 가지며, 삼천 년 이상의 역사와 풍부한 문화유산을 자랑합니다.  고려, 조선 왕조를 거치며 독특한 문화와 예술을 발전시켰고, 급속한 경제 성장을 통해 '한강의 기적'이라 불리는 눈부신 발전을 이루었습니다.  IT 산업과 K-pop, K-드라마 등의 문화 콘텐츠를 통해 세계적인 영향력을 행사하고 있으며,  첨단 기술과 전통 문화가 공존하는 역동적인 사회입니다.  그러나 분단의 아픔을 겪고 있으며, 북한과의 관계 개선은 여전히 중요한 과제입니다.
1.64208 sec


In [None]:
# 체인 실행, 소요 시간 확인_확연히 빨라짐
start = time.time()
response = chain.invoke({"country": "한국"})
end = time.time()
print(response.content)
print(f"{end - start:.5f} sec")

한국은 동아시아에 위치한 발전된 국가로, 공식 명칭은 대한민국입니다.  반도와 섬으로 이루어진 지형적 특징을 가지며, 삼천 년 이상의 역사와 풍부한 문화유산을 자랑합니다.  고려, 조선 왕조를 거치며 독특한 문화와 예술을 발전시켰고, 급속한 경제 성장을 통해 '한강의 기적'이라 불리는 눈부신 발전을 이루었습니다.  IT 산업과 K-pop, K-드라마 등의 문화 콘텐츠를 통해 세계적인 영향력을 행사하고 있으며,  첨단 기술과 전통 문화가 공존하는 역동적인 사회입니다.  그러나 분단의 아픔을 겪고 있으며, 북한과의 관계 개선은 여전히 중요한 과제입니다.
0.00119 sec


## SQLite Cache

In [None]:
from langchain_community.cache import SQLiteCache
from langchain_core.globals import set_llm_cache
import os

# 캐시 디렉토리 생성
if not os.path.exists("cache"):
    os.makedirs("cache")

# SQLiteCache 사용합
set_llm_cache(SQLiteCache(database_path="cache/llm_cache.db"))

In [None]:
# 체인 실행, 소요 시간 확인
start = time.time()
response = chain.invoke({"country": "한국"})
end = time.time()
print(response.content)
print(f"{end - start:.5f} sec")

한국은 동아시아에 위치한, 역동적인 역사와 문화를 지닌 나라입니다.  반도의 지형적 특징으로 인해 오랜 시간 동안 다양한 문화의 영향을 받았으며, 고유의 예술, 음악, 문학을 발전시켰습니다.  삼국시대, 고려, 조선을 거치며 독자적인 왕조를 건설했고, 20세기에는 일제강점기를 겪은 후 한국 전쟁을 통해 분단의 아픔을 겪었습니다.  현재는 세계 10위권 경제 대국으로서 IT, 자동차, 조선 등 첨단 산업에서 두각을 나타내고 있으며, K-팝, K-드라마 등 한류 문화를 통해 전 세계적으로 큰 영향력을 행사하고 있습니다.  급속한 경제 발전과 함께 사회적 변화를 겪고 있으며, 민주주의 발전과 사회 통합을 위한 노력을 지속하고 있습니다.
1.78214 sec


In [None]:
# 체인 실행, 소요 시간 확인_확연히 빨라짐
start = time.time()
response = chain.invoke({"country": "한국"})
end = time.time()
print(response.content)
print(f"{end - start:.5f} sec")

한국은 동아시아에 위치한, 역동적인 역사와 문화를 지닌 나라입니다.  반도의 지형적 특징으로 인해 오랜 시간 동안 다양한 문화의 영향을 받았으며, 고유의 예술, 음악, 문학을 발전시켰습니다.  삼국시대, 고려, 조선을 거치며 독자적인 왕조를 건설했고, 20세기에는 일제강점기를 겪은 후 한국 전쟁을 통해 분단의 아픔을 겪었습니다.  현재는 세계 10위권 경제 대국으로서 IT, 자동차, 조선 등 첨단 산업에서 두각을 나타내고 있으며, K-팝, K-드라마 등 한류 문화를 통해 전 세계적으로 큰 영향력을 행사하고 있습니다.  급속한 경제 발전과 함께 사회적 변화를 겪고 있으며, 민주주의 발전과 사회 통합을 위한 노력을 지속하고 있습니다.
0.00292 sec


# 모델 직렬화
*   저장 가능한 형식으로 변환하는 과정

In [None]:
import os
from langchain.prompts import PromptTemplate

# 프롬프트 템플릿을 사용하여 질문 생성
prompt = PromptTemplate.from_template("{fruit}의 색상이 무엇입니까?")


In [None]:
# 직렬화가 가능한지 체크
print(f"ChatGoogleGenerativeAI: {ChatGoogleGenerativeAI.is_lc_serializable()}")

# 직렬화가 가능한지 체크
print(f"gemini-1.5-flash-latest: {llm.is_lc_serializable()}")

# 체인을 생성
chain = prompt | llm

# 직렬화가 가능한지 체크
chain.is_lc_serializable()


ChatGoogleGenerativeAI: True
gemini-1.5-flash-latest: True


True

## 체인 직렬화

In [None]:
from langchain_core.load import dumpd, dumps

#딕셔너리 형태로 직렬화
dumpd_chain = dumpd(chain)
dumpd_chain


{'lc': 1,
 'type': 'constructor',
 'id': ['langchain', 'schema', 'runnable', 'RunnableSequence'],
 'kwargs': {'first': {'lc': 1,
   'type': 'constructor',
   'id': ['langchain', 'prompts', 'prompt', 'PromptTemplate'],
   'kwargs': {'input_variables': ['fruit'],
    'template': '{fruit}의 색상이 무엇입니까?',
    'template_format': 'f-string'},
   'name': 'PromptTemplate'},
  'last': {'lc': 1,
   'type': 'constructor',
   'id': ['langchain_google_genai', 'chat_models', 'ChatGoogleGenerativeAI'],
   'kwargs': {'model': 'models/gemini-1.5-flash-latest',
    'google_api_key': {'lc': 1, 'type': 'secret', 'id': ['GOOGLE_API_KEY']},
    'temperature': 0.7,
    'n': 1,
    'max_retries': 6,
    'default_metadata': []},
   'name': 'ChatGoogleGenerativeAI'}},
 'name': 'RunnableSequence'}

In [None]:
# 직렬화된 체인의 타입 확인
type(dumpd_chain)

dict

In [None]:
# json 문자열로 직렬화
dumps_chain = dumps(chain)
dumps_chain

'{"lc": 1, "type": "constructor", "id": ["langchain", "schema", "runnable", "RunnableSequence"], "kwargs": {"first": {"lc": 1, "type": "constructor", "id": ["langchain", "prompts", "prompt", "PromptTemplate"], "kwargs": {"input_variables": ["fruit"], "template": "{fruit}\\uc758 \\uc0c9\\uc0c1\\uc774 \\ubb34\\uc5c7\\uc785\\ub2c8\\uae4c?", "template_format": "f-string"}, "name": "PromptTemplate"}, "last": {"lc": 1, "type": "constructor", "id": ["langchain_google_genai", "chat_models", "ChatGoogleGenerativeAI"], "kwargs": {"model": "models/gemini-1.5-flash-latest", "google_api_key": {"lc": 1, "type": "secret", "id": ["GOOGLE_API_KEY"]}, "temperature": 0.7, "n": 1, "max_retries": 6, "default_metadata": []}, "name": "ChatGoogleGenerativeAI"}}, "name": "RunnableSequence"}'

In [None]:
#타입 확인
type(dumps_chain)

str

## 파일 저장, 불러오기

In [None]:
import pickle

# fuit_chain.pkl 파일에 직렬화된 체인을 저장합니다.
with open("fruit_chain.pkl", "wb") as f:
    pickle.dump(dumpd_chain, f)

In [None]:
import json
#json 파일로 저장
with open("fruit_chain.json", "w") as fp:
    json.dump(dumpd_chain, fp)

In [None]:
import pickle

# pickle 파일 로드
with open("fruit_chain.pkl", "rb") as f:
    loaded_chain = pickle.load(f)

In [None]:
from langchain_core.load import load

# 체인 로드
chain_from_file = load(loaded_chain)

# 체인 실행합
print(chain_from_file.invoke({"fruit": "사과"}))


  chain_from_file = load(loaded_chain)


content=' 사과의 색깔은 다양합니다. 빨강, 녹색, 노랑, 분홍색 등 다양한 색깔의 사과가 있습니다. 사과의 색깔은 사과의 종류에 따라 다릅니다.' additional_kwargs={} response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-1.5-flash-latest', 'safety_ratings': []} id='run--d0b5e8e0-0b3e-425f-9f66-b5e248d29836-0' usage_metadata={'input_tokens': 11, 'output_tokens': 53, 'total_tokens': 64, 'input_token_details': {'cache_read': 0}}


In [None]:
with open("fruit_chain.json", "r") as fp:
    loaded_from_json_chain = json.load(fp)
    loads_chain = load(loaded_from_json_chain)

In [None]:
# 불러온 체인이 정상 동작하는지 확인
loads_chain.invoke({"fruit": "사과"})

AIMessage(content='사과의 색깔은 다양합니다. 가장 흔한 색깔은 빨간색이지만, 녹색, 노란색, 분홍색 사과도 있습니다. 심지어 빨간색과 녹색이 섞인 사과도 있습니다.', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-1.5-flash-latest', 'safety_ratings': []}, id='run--bfb935b4-44ee-4627-8094-1ca1f2903767-0', usage_metadata={'input_tokens': 11, 'output_tokens': 61, 'total_tokens': 72, 'input_token_details': {'cache_read': 0}})

# 토큰 사용량 확인

In [None]:
result = llm.invoke("대한민국의 수도는 어디야?")
print(result.usage_metadata)

{'input_tokens': 10, 'output_tokens': 10, 'total_tokens': 20, 'input_token_details': {'cache_read': 0}}


# 비디오 질의응답

In [None]:
# 파일 다운로드 후 teddynote-sample-video.mp4 파일로 저장
!wget "https://www.dropbox.com/scl/fi/ugue14fyo010jgc7wuh4g/teddynote-sample-video.mp4?rlkey=wcsiktklt7jgoibsluft3m6z9&st=prv4p2uu&dl=1" -qO teddynote-sample-video.mp4


In [None]:
# 비디오 파일 이름 지정
video_file_name = "teddynote-sample-video.mp4"

In [None]:
import google.generativeai as genai

# 파일 업로드 진행 메시지 출력
print(f"파일을 업로드 중입니다...")

# 파일 업로드 및 파일 객체 반환
video_file = genai.upload_file(path=video_file_name)

# 업로드 완료 메시지 및 파일 URI 출력
print(f"업로드 완료: {video_file.uri}")

파일을 업로드 중입니다...
업로드 완료: https://generativelanguage.googleapis.com/v1beta/files/iekfneuxddp3


In [None]:
import time

# 비디오 파일 처리 상태 확인
while video_file.state.name == "PROCESSING":
    # 처리 완료 대기 메시지 출력
    print("비디오 업로드 및 전처리가 완료될 때까지 잠시만 기다려주세요...")
    # 10초 대기
    time.sleep(10)
    # 비디오 파일 상태 갱신
    video_file = genai.get_file(video_file.name)

# 처리 실패 시 예외 발생
if video_file.state.name == "FAILED":
    raise ValueError(video_file.state.name)

# 처리 완료 메시지 출력
print(
    f"\n비디오 처리가 완료되었습니다!\n이제 대화를 시작할 수 있어요: " + video_file.uri
)


비디오 업로드 및 전처리가 완료될 때까지 잠시만 기다려주세요...

비디오 처리가 완료되었습니다!
이제 대화를 시작할 수 있어요: https://generativelanguage.googleapis.com/v1beta/files/iekfneuxddp3


In [None]:
# 프롬프트
prompt = "이 영상에 대해서 짧게 요약해 줄 수 있나요?"

# 모델을 Gemini 1.5 Flash로 설정
model = genai.GenerativeModel(model_name="models/gemini-1.5-flash")

# LLM 답변 요청
response = model.generate_content(
    [prompt, video_file], request_options={"timeout": 600}
)
# 결과 출력
print(response.text)


이 비디오는 2024년 8월에 있을 패스트캠퍼스 랭그래프의 라이브 컨퍼런스에 대한 발표입니다. 이 발표에서는 PDF 문서를 파싱하는 방법을 설명합니다. 연사는 2일 동안 다양한 테스트를 거쳤고, 랭그래프를 사용하면 문서 전처리에 도움이 될 것이라고 말합니다. 또한 9월 20일 무료 GenCon 2024 AI Conference for DEV 이벤트를 소개하며, 참석자에게 퀴즈를 통해 상품을 제공할 것이라고 합니다. 마지막으로 연사는 업스테이지 레이아웃 분석기를 사용하여 PDF 문서를 처리하는 로직을 자세히 설명합니다. 이 로직은 문서를 텍스트, 이미지, 테이블로 분리하고, 각 요소에 ID를 할당하여 나중에 검색할 때 요소별로 접근할 수 있도록 하는 방법을 설명합니다. 이를 통해 텍스트와 이미지를 효율적으로 처리하고, 검색 품질을 향상시킬 수 있습니다.


In [None]:
# 프롬프트 생성
prompt = "이 영상에서 Gencon 관련 언급한 부분의 시간을 알려주고, 어떤 내용을 말했는지 알려주세요."

# LLM 스트림 답변 요청
response = model.generate_content(
    [prompt, video_file], request_options={"timeout": 600}, stream=True
)

# 생성된 콘텐츠 출력
for chunk in response:
    print(chunk.text, end="", flush=True)


영상 0분 26초부터 0분 44초까지 Gencon에 대해 언급하고 있습니다.

Gencon 2024 AI Conference for DEV 행사가 9월 20일에 서울에서 개최된다고 알려주고 있습니다.  이 이벤트는 무료이며, 참석을 원하는 사람들에게 도움이 될 것이라고 언급합니다.  행사에 대한 더 자세한 정보는 웹사이트에서 확인할 수 있다고 말합니다.

In [None]:
# 파일 삭제
genai.delete_file(video_file.name)

# 삭제 완료 메시지 출력
print(f"영상을 삭제했습니다: {video_file.uri}")


영상을 삭제했습니다: https://generativelanguage.googleapis.com/v1beta/files/iekfneuxddp3
