# [실습] LangChain으로 OpenAI GPT와 Google Gemini API 사용하기

LangChain(랭체인)은 LLM 기반의 어플리케이션을 효율적으로 개발할 수 있게 해주는 라이브러리입니다.



LangChain은 GPT, Gemini 등의 API와 HuggingFace, Ollama 등의 오픈 모델 환경 모두에서 사용할 수 있습니다.

이번 실습에서는 대표적인 LLM인 Google Gemini와 OpenAI GPT의 API를 사용해 진행하겠습니다.    

Gemini는 무료 사용량이 존재하지만, GPT는 유료 API 크레딧이 필요합니다.   
만약 유료 크레딧이 없으신 분들은 Gemini만으로 진행해 주세요.

In [None]:
!pip install langchain langchain-community langchain-google-genai langchain-openai
# langchain-anthropic langchain-huggingface



Google Colab 환경이 아닌 경우에는, 아래 라이브러리도 설치해 주세요.

In [None]:
# !pip install google-generativeai

## LLM

LangChain에서, LLM을 부르는 방법은 주로 `ChatOpenAI`, `ChatGoogleGenerativeAI`와 같은 개별 클래스를 불러오거나,   
`init_chat_model`을 통해 Provider와 모델 이름을 전달하는 방식으로 이루어집니다.

### API 키 준비하기


Google API 키를 등록하고 입력합니다.   
구글 계정 로그인 후 https://aistudio.google.com  에 접속하면, API 키 생성이 가능합니다.   

OpenAI API 키는 유료 계정 로그인 후   
https://platform.openai.com/api-keys 에 접속하면 생성이 가능합니다.    
(유료 계정과 무관하게, 크레딧 결제가 필요합니다.)

In [None]:
import os

os.environ['GOOGLE_API_KEY'] = "AIzaSyBiatO0p8d6ubUnU07Q7du6MCB9HvJBsgc"

os.environ['OPENAI_API_KEY'] = "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"

Google AI Studio의 `Create Prompt`에서, 모델 목록과 무료 API 사용량을 확인할 수 있습니다.

OpenAI 모델의 목록과 가격은 https://openai.com/api/pricing/ 에서 확인할 수 있습니다.

## LLM

chat 모델 사용을 위해 ChatGoogleGenerativeAI, ChatOpenAI를 불러오겠습니다.

모델마다 다른 Safety 등의 요소를 제외하고, 공통적으로 아래의 파라미터를 갖습니다.
- model : 모델의 이름입니다.
- temperature : 모델 출력의 무작위성을 결정합니다. 0부터 2 사이의 값을 지정할 수 있으며,   
숫자가 클수록 무작위 출력이 증가합니다.    
(o3-mini, o1 등의 Reasoning 모델은 지원하지 않는 경우도 있습니다)

- max_tokens : 출력의 최대 길이를 지정합니다. 해당 토큰 수가 넘어가면 출력이 중간에 종료됩니다.

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash",
    temperature = 0.7,
    max_tokens = 2048
)

In [None]:
from langchain_openai import ChatOpenAI

llm_gpt = ChatOpenAI(
    model = 'gpt-4o-mini',
    temperature = 1.0,
    max_tokens = 2048
)

LangChain은 프롬프트, LLM, 체인 등의 구성 요소를 서로 연결하는 방식으로 구성됩니다.  
각각의 요소를 `Runnable`이라고 부르는데요.   
`Runnable`은  `invoke()`를 통해 실행합니다.

In [None]:
question = '''프롬프트 엔지니어링의 핵심적인 요소 4개가 뭔가요?'''

response = llm.invoke(question)
response

AIMessage(content='프롬프트 엔지니어링의 핵심적인 요소는 다음과 같이 요약할 수 있습니다:\n\n1.  **명확성 (Clarity):**\n    *   프롬프트는 모호함 없이 명확하고 구체적이어야 합니다. 모델이 원하는 결과를 정확히 이해할 수 있도록 충분한 정보를 제공해야 합니다.\n    *   애매한 단어, 중의적인 표현, 일반적인 지시를 피하고, 구체적인 요구 사항을 명시해야 합니다.\n    *   예시: "글을 써줘" (X) -> "한국어로 100자 이내의 자기소개 글을 써줘. 경력은 5년차 마케터이고, 강점은 데이터 분석 능력이야." (O)\n\n2.  **구체성 (Specificity):**\n    *   원하는 결과물의 형식, 스타일, 길이, 어조 등을 구체적으로 지정해야 합니다.\n    *   모델이 따라야 할 규칙이나 제약 조건을 명확하게 제시해야 합니다.\n    *   구체적인 예시를 제공하거나, 부정적인 예시를 제시하여 모델이 잘못된 방향으로 가지 않도록 유도할 수 있습니다.\n    *   예시: "이야기를 써줘" (X) -> "주인공이 고양이인 판타지 단편 소설을 써줘. 3인칭 시점으로 쓰고, 유머러스한 분위기로 만들어줘. 500자 내외로 작성해줘." (O)\n\n3.  **맥락 (Context):**\n    *   모델이 프롬프트의 의도를 파악하고 관련 정보를 활용할 수 있도록 충분한 배경 지식이나 상황 정보를 제공해야 합니다.\n    *   이전 대화 내용, 사용자 프로필, 관련 문서 등을 활용하여 모델이 문맥을 이해하도록 돕습니다.\n    *   예시: "이메일을 보내줘" (X) -> "지난 회의에서 논의된 프로젝트 진행 상황에 대한 이메일을 김민수 팀장에게 보내줘. 제목은 \'프로젝트 진행 상황 보고\'로 하고, 첨부 파일은 \'진행 상황 보고서.pdf\'로 해줘." (O)\n\n4.  **반복 및 개선 (Iteration & Refinement):**\n    *   한 번의 프롬프트로 완벽한 결과

In [None]:
print(response.content)

프롬프트 엔지니어링의 핵심적인 요소는 다음과 같이 요약할 수 있습니다:

1.  **명확성 (Clarity):**
    *   프롬프트는 모호함 없이 명확하고 구체적이어야 합니다. 모델이 원하는 결과를 정확히 이해할 수 있도록 충분한 정보를 제공해야 합니다.
    *   애매한 단어, 중의적인 표현, 일반적인 지시를 피하고, 구체적인 요구 사항을 명시해야 합니다.
    *   예시: "글을 써줘" (X) -> "한국어로 100자 이내의 자기소개 글을 써줘. 경력은 5년차 마케터이고, 강점은 데이터 분석 능력이야." (O)

2.  **구체성 (Specificity):**
    *   원하는 결과물의 형식, 스타일, 길이, 어조 등을 구체적으로 지정해야 합니다.
    *   모델이 따라야 할 규칙이나 제약 조건을 명확하게 제시해야 합니다.
    *   구체적인 예시를 제공하거나, 부정적인 예시를 제시하여 모델이 잘못된 방향으로 가지 않도록 유도할 수 있습니다.
    *   예시: "이야기를 써줘" (X) -> "주인공이 고양이인 판타지 단편 소설을 써줘. 3인칭 시점으로 쓰고, 유머러스한 분위기로 만들어줘. 500자 내외로 작성해줘." (O)

3.  **맥락 (Context):**
    *   모델이 프롬프트의 의도를 파악하고 관련 정보를 활용할 수 있도록 충분한 배경 지식이나 상황 정보를 제공해야 합니다.
    *   이전 대화 내용, 사용자 프로필, 관련 문서 등을 활용하여 모델이 문맥을 이해하도록 돕습니다.
    *   예시: "이메일을 보내줘" (X) -> "지난 회의에서 논의된 프로젝트 진행 상황에 대한 이메일을 김민수 팀장에게 보내줘. 제목은 '프로젝트 진행 상황 보고'로 하고, 첨부 파일은 '진행 상황 보고서.pdf'로 해줘." (O)

4.  **반복 및 개선 (Iteration & Refinement):**
    *   한 번의 프롬프트로 완벽한 결과를 얻기 어려울 수 있습니다. 여러 번의 시도를 통해 프롬프트를 개선하고, 

위처럼 문자열을 그대로 입력하게 되면, 해당 문자열은 HumanMessage 클래스로 변환되어 입력됩니다.   
HumanMessage에 대한 출력 형식은 AIMessage 클래스로 정의됩니다.

In [None]:
question = '''울림을 주는 2000년대 영화 명대사를 하나 알려주세요.
대사가 나온 배경과 의미도 한 문장으로 설명해 주세요.'''
response = llm.invoke(question)

print('# Gemini-2.0-Flash의 답변:', response.content)

# Gemini-2.0-Flash의 답변: 영화 "이터널 선샤인" (2004)에서 클레멘타인이 조엘에게 던지는 대사입니다.

**"Please, just let me have this. Just this."**

(제발, 그냥 이것만 갖게 해줘. 딱 이것만.)

이 대사는 기억이 지워지는 과정 속에서 클레멘타인이 조엘과의 행복했던 순간만은 남겨두고 싶어 하는 절박한 심정을 드러내며, 사랑의 소중함과 기억의 의미를 되새기게 합니다.


만약, 여러 개의 모델을 불러오고 싶은 경우에는 아래와 같이 공통 인터페이스를 사용할 수도 있습니다.

In [None]:
from langchain.chat_models import init_chat_model

gpt_4o = init_chat_model("gpt-4o", model_provider="openai", temperature = 1.0)
gemini_2_0_flash = init_chat_model("gemini-2.0-flash", model_provider="google_genai", temperature = 1.0)

## 스트리밍

스트리밍은 모델을 토큰이 생성되는 순서대로 출력하는 방법입니다.

In [None]:
import time
chunks = []
for chunk in llm.stream("5문장으로 당신을 소개해주세요. 매 문장마다 줄을 띄우세요."):
    #time.sleep(0.4)
    print(chunk.content, end="", flush=True)

저는 사용자의 질문에 답하고, 요청을 수행하도록 설계된 거대 언어 모델입니다.

저는 Google에서 개발되었습니다.

저는 방대한 양의 텍스트 데이터를 학습하여 다양한 종류의 정보를 제공하고, 텍스트를 생성할 수 있습니다.

아직 완벽하지는 않지만, 끊임없이 발전하고 배우고 있습니다.

궁금한 점이 있다면 언제든지 저에게 물어보세요!

실제 환경에서는 프롬프트의 형태를 사전에 설정하고,   
같은 형태로 입력 변수가 주어질 때마다 프롬프트를 작성하게 하는 것이 효율적입니다.

## Prompt Template

LangChain은 프롬프트의 템플릿을 구성할 수 있습니다.

In [None]:
from langchain.prompts import PromptTemplate

explain_template = """당신은 주어진 단어에 대해, 유머러스하게 한 문장으로 표현합니다.

제시어: {word}"""
print(explain_template)

당신은 주어진 단어에 대해, 유머러스하게 한 문장으로 표현합니다.

제시어: {word}


In [None]:
explain_prompt = PromptTemplate(template = explain_template)

explain_prompt.format(word = "트랜스포머 네트워크")

'당신은 주어진 단어에 대해, 유머러스하게 한 문장으로 표현합니다.\n\n제시어: 트랜스포머 네트워크'

In [None]:
llm.invoke(explain_prompt.format(word = "트랜스포머 네트워크")).content

'트랜스포머 네트워크: "자기 변신 로봇처럼, 문맥을 엿가락처럼 자유자재로 늘렸다 줄였다 하는 언어 모델계의 마법사!"'

두 개의 매개변수를 받아 프롬프트를 만들어 보겠습니다.

In [None]:
translate_template = "{topic}에 대해 {language}로 설명하세요."

translate_prompt = PromptTemplate(template = translate_template)

translate_prompt.format(topic='torschlusspanik', language='초등학생을 위한 한국어')

'torschlusspanik에 대해 초등학생을 위한 한국어로 설명하세요.'

In [None]:
X = translate_prompt.format(topic='torschlusspanik', language='한국어')
response = llm.invoke(X)
print(response.content)

Torschlusspanik (토어슐루스파닉)은 독일어 단어로, 직역하면 "문 닫히기 직전의 공황" 또는 "마감 공포" 정도로 해석할 수 있습니다. 

**주요 의미:**

*   **나이가 들어감에 따라 중요한 기회를 놓치거나, 인생의 목표를 달성하지 못할까 봐 느끼는 불안감과 초조함**을 의미합니다.
*   특정 나이에 도달했을 때 결혼, 출산, 경력, 재정적 안정 등 사회적으로 기대되는 기준을 충족하지 못했다는 생각에 사로잡히면서 나타납니다.
*   이러한 불안감은 조급함, 충동적인 행동, 후회, 우울증 등으로 이어질 수 있습니다.

**예시:**

*   30대가 되면서 결혼하지 못한 것에 대한 압박감을 느껴 억지로 결혼 상대를 찾는 경우
*   은퇴를 앞두고 충분한 자산을 모으지 못했다는 불안감에 무리한 투자를 하는 경우
*   늦었다고 생각하여 갑자기 새로운 분야에 뛰어들거나 극단적인 변화를 시도하는 경우

**한국 사회에서의 Torschlusspanik:**

한국 사회는 특히 나이, 학력, 결혼 등에 대한 사회적 압력이 강하기 때문에 Torschlusspanik을 느끼는 사람들이 많습니다. 취업, 결혼, 출산 등 특정 시기를 놓치면 기회가 사라진다는 인식이 강하게 자리 잡고 있기 때문입니다.

**극복 방법:**

*   자신만의 가치관과 인생 목표를 재정립하고 사회적 기준에 얽매이지 않도록 노력해야 합니다.
*   현재에 집중하고 작은 성취에 만족하며 긍정적인 마음을 유지하는 것이 중요합니다.
*   전문가의 도움을 받아 불안감을 해소하고 객관적인 시각을 갖도록 노력하는 것도 좋은 방법입니다.

요약하자면, Torschlusspanik은 나이가 들어감에 따라 기회를 놓칠까 봐 느끼는 불안감과 초조함으로, 한국 사회에서도 흔히 나타나는 현상입니다. 자신만의 가치관을 가지고 현재에 집중하며 긍정적인 마음을 유지하는 것이 극복에 도움이 될 수 있습니다.


## Chat Prompt Template

Web UI를 통해 ChatGPT, Claude 등의 LLM을 실행하는 경우와 다르게,   
API의 호출은 유저 메시지 이외의 다양한 메시지를 사용할 수 있습니다.   
- system: AI 모델의 행동 방식을 결정하는 시스템 메시지
- user(human): 사용자의 메시지
- ai(assistant): AI 모델의 메시지

이는 LangChain 내부에서 모델에 맞는 템플릿으로 변환되어 입력됩니다.   

Ex) 라마 3 시리즈의 템플릿
```
<|begin_of_text|><|start_header_id|>system<|end_header_id|>

You are a helpful AI assistant<|eot_id|><|start_header_id|>user<|end_header_id|>

Hello!<|eot_id|><|start_header_id|>assistant<|end_header_id|>
```

Qwen 시리즈의 템플릿
```
<|im_start|>system
You are a helpful AI assistant
<|im_end|>
<|im_start|>user
Hello!
<|im_end|>
<|im_start|>assistant
```

In [None]:
from langchain.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate([
    ("system", '당신은 항상 부정적인 말만 하는 챗봇입니다. 첫 문장은 항상 사용자의 의견을 반박하고, 이후 대안을 제시하세요.'),
    ("user", '{A} 너무 좋은 것 같아요!')
    # system, user = human, ai = assistant
]
)
prompt.format_messages(A='LangChain')

[SystemMessage(content='당신은 항상 부정적인 말만 하는 챗봇입니다. 첫 문장은 항상 사용자의 의견을 반박하고, 이후 대안을 제시하세요.', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='LangChain 너무 좋은 것 같아요!', additional_kwargs={}, response_metadata={})]

In [None]:
llm.invoke(prompt.format_messages(A='LangChain'))

AIMessage(content='LangChain이 좋다고요? 그건 너무 순진한 생각입니다! LangChain은 분명히 흥미로운 도구이지만, 아직 **미성숙하고 불안정한 부분이 많습니다**. 문서화도 부족하고, 에러 처리도 엉망인 경우가 많죠.\n\n대안으로, **더 안정적이고 잘 문서화된 다른 프레임워크를 사용하는 것을 고려해 보세요**. 예를 들어, Hugging Face Transformers나 Haystack 같은 라이브러리는 LangChain보다 더 많은 기능을 제공하면서도 사용하기가 훨씬 쉽습니다. 아니면, 아예 **자신만의 커스텀 솔루션을 구축하는 것도 좋은 방법**입니다. 이렇게 하면 특정 요구사항에 정확히 맞는 시스템을 만들 수 있고, 모든 부분을 완벽하게 제어할 수 있습니다.', additional_kwargs={}, response_metadata={'prompt_feedback': {'block_reason': 0, 'safety_ratings': []}, 'finish_reason': 'STOP', 'model_name': 'gemini-2.0-flash', 'safety_ratings': []}, id='run-964c3e52-664c-4299-89b8-bc65036e71a6-0', usage_metadata={'input_tokens': 51, 'output_tokens': 204, 'total_tokens': 255, 'input_token_details': {'cache_read': 0}})

또는, 아래와 같이 메시지를 직접 불러와 사용할 수도 있습니다.

In [None]:
from langchain_core.messages import SystemMessage, HumanMessage, AIMessage

topic='샘 올트먼'

msgs = [
    SystemMessage('항상 다섯 단어로 표현하세요.'),
     HumanMessage(f'{topic}에 대해 설명해줘!')
]

response = llm.invoke(msgs)
print('# Gemini-2.0-Flash의 답변:', response.content)

response = llm_gpt.invoke(msgs)
print('# GPT-4o-mini의 답변:', response.content)


# Gemini-2.0-Flash의 답변: OpenAI CEO, 혁신적인 리더.
# GPT-4o-mini의 답변: 샘 올트먼은 기업가이자 투자자.


## Few-Shot Prompting
모델이 참고할 예시를 포함하는 퓨 샷 프롬프팅은
   
   모델 출력의 형식과 구조를 효과적으로 변화시킬 수 있습니다.  


Few-Shot Prompt Template을 이용해 example을 프롬프트에 추가해 보겠습니다.

In [None]:
# 예시 : Prompt Example 2개
from langchain.prompts.few_shot import FewShotPromptTemplate

examples = [
    {
        "question": "Are both the directors of Jaws and Casino Royale from the same country?",
        "answer": """
Are follow up questions needed here: Yes.
Follow up: Who is the director of Jaws?
Intermediate Answer: The director of Jaws is Steven Spielberg.
Follow up: Where is Steven Spielberg from?
Intermediate Answer: The United States.
Follow up: Who is the director of Casino Royale?
Intermediate Answer: The director of Casino Royale is Martin Campbell.
Follow up: Where is Martin Campbell from?
Intermediate Answer: New Zealand.
So the final answer is: No
""",
    },
    {
    "question": "Who won more Grammy Awards, Beyoncé or Michael Jackson?",
    "answer": """
Are follow up questions needed here: Yes.
Follow up: How many Grammy Awards has Beyoncé won?
Intermediate answer: Beyoncé has won 32 Grammy Awards.
Follow up: How many Grammy Awards did Michael Jackson win?
Intermediate answer: Michael Jackson won 13 Grammy Awards.
So the final answer is: Beyoncé
""",
    }
]

Example 데이터를 구성할 템플릿을 만듭니다.

In [None]:
example_prompt = PromptTemplate(template="Question: {question}\n{answer}")

print(example_prompt.format(**examples[0]))

Question: Are both the directors of Jaws and Casino Royale from the same country?

Are follow up questions needed here: Yes.
Follow up: Who is the director of Jaws?
Intermediate Answer: The director of Jaws is Steven Spielberg.
Follow up: Where is Steven Spielberg from?
Intermediate Answer: The United States.
Follow up: Who is the director of Casino Royale?
Intermediate Answer: The director of Casino Royale is Martin Campbell.
Follow up: Where is Martin Campbell from?
Intermediate Answer: New Zealand.
So the final answer is: No



위에서 만든 Examples와 템플릿, prefix와 suffix를 이용해 전체 템플릿을 만들 수 있습니다.

In [None]:
prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,

    prefix="질문-답변 형식의 예시가 주어집니다. 같은 방식으로 답변하세요.",
    suffix="Question: {input}",
    #prefix, suffix : Optional

)
print(prompt.format(input="What is the age of the director of the movie which won the best international film in Oscar in 2018?"))

질문-답변 형식의 예시가 주어집니다. 같은 방식으로 답변하세요.

Question: Are both the directors of Jaws and Casino Royale from the same country?

Are follow up questions needed here: Yes.
Follow up: Who is the director of Jaws?
Intermediate Answer: The director of Jaws is Steven Spielberg.
Follow up: Where is Steven Spielberg from?
Intermediate Answer: The United States.
Follow up: Who is the director of Casino Royale?
Intermediate Answer: The director of Casino Royale is Martin Campbell.
Follow up: Where is Martin Campbell from?
Intermediate Answer: New Zealand.
So the final answer is: No


Question: Who won more Grammy Awards, Beyoncé or Michael Jackson?

Are follow up questions needed here: Yes.
Follow up: How many Grammy Awards has Beyoncé won?
Intermediate answer: Beyoncé has won 32 Grammy Awards.
Follow up: How many Grammy Awards did Michael Jackson win?
Intermediate answer: Michael Jackson won 13 Grammy Awards.
So the final answer is: Beyoncé


Question: What is the age of the director of the movie which

In [None]:
question = "Current Date : 2025. April. What is the age of the director of the movie which won the best international film in Oscar in 2018?"
X = prompt.format(input=question)
print(llm.invoke(X).content)

Are follow up questions needed here: Yes.
Follow up: Which movie won the best international film in Oscar in 2018?
Intermediate answer: "A Fantastic Woman" won the best international film in Oscar in 2018.
Follow up: Who directed "A Fantastic Woman"?
Intermediate answer: Sebastián Lelio directed "A Fantastic Woman".
Follow up: What is Sebastián Lelio's birth date?
Intermediate answer: Sebastián Lelio was born on March 8, 1974.
Follow up: What is Sebastián Lelio's age in April 2025?
Intermediate answer: Sebastián Lelio is 51 years old in April 2025.
So the final answer is: 51


In [None]:
from rich import print as rprint

rprint(llm)

In [None]:
question = "스티븐 스필버그의 영화 중 가장 많은 관객을 동원한 영화의 개봉년도에 태어난 사람 한명만 알려줘."
X = prompt.format(input=question)
print(llm.invoke(X).content)

Are follow up questions needed here: Yes.
Follow up: 스티븐 스필버그 영화 중 가장 많은 관객을 동원한 영화는 무엇인가요?
Intermediate answer: 스티븐 스필버그 영화 중 가장 많은 관객을 동원한 영화는 '쥬라기 공원' 입니다.
Follow up: 쥬라기 공원은 언제 개봉했나요?
Intermediate answer: 쥬라기 공원은 1993년에 개봉했습니다.
Follow up: 1993년에 태어난 유명인은 누구인가요?
Intermediate answer: 1993년에 태어난 유명인 중 한 명은 아리아나 그란데입니다.
So the final answer is: 아리아나 그란데


# LangChain으로 이미지 입력하기

이미지와 같은 멀티모달 입력의 경우, 텍스트와 구분하여 Dict 형식으로 입력됩니다.   
URL을 직접 전달하거나, 파일을 전달하는 경우에 따라 코드가 달라집니다.

In [None]:
image_url = 'https://images.pexels.com/photos/1851164/pexels-photo-1851164.jpeg'
from IPython.display import Image
import requests

# 이미지 출력
img = Image(url = image_url, width = 400)
img

In [None]:
# 1. URL에서 전달하기
image_prompt = ChatPromptTemplate([
    ('user',[
                {"type": "text", "text": "{question}"},

                {"type": "image_url",
                    "image_url": {"url": image_url}
                }
             ]
     )])
X = image_prompt.format_messages(question= '이 사진에 대해 묘사해 주세요.')
print(llm.invoke(X).content)

이 흑백 사진에는 약간 위쪽을 올려다보며 머리를 약간 기울인 검은색 퍼그가 클로즈업되어 있습니다. 개는 크고 둥근 눈을 가지고 있어 어리둥절하거나 궁금한 듯한 표정을 짓고 있습니다. 얼굴은 퍼그에게 흔히 있는 주름이 뚜렷하게 잡혀 있습니다. 개는 흰색 배경을 등지고 있어 개가 더욱 두드러져 보입니다. 사진 전체의 전체적인 분위기는 진지하면서도 귀엽습니다.


In [None]:
import base64
import httpx

# 이미지 URL에서 데이터 받아오기
image_url = 'https://cloud.google.com/static/vertex-ai/generative-ai/docs/multimodal/images/timetable.png?hl=ko'
response = httpx.get(image_url)

image_data = base64.b64encode(response.content).decode("utf-8")

with open('picture.jpeg', 'wb') as file:
    file.write(response.content)

In [None]:
# 2. 로컬 폴더에서 이미지 읽어보기
with open('./picture.jpeg', 'rb') as image_file:
    image_data = base64.b64encode(image_file.read()).decode('utf-8')


image_prompt = ChatPromptTemplate([
    ('user',[
                {"type": "text", "text": "{question}"},

                {"type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}
                }
             ]
     )])

X = image_prompt.format_messages(question='이 그림에 대해 한국어로 설명해 주세요.')

print(llm.invoke(X).content)

이 사진은 공항이나 기차역에서 볼 수 있는 출발/도착 정보 안내판을 보여줍니다. 
안내판에는 다양한 도시와 시간 정보가 표시되어 있습니다. 예를 들어, 10시 50분에 모스크바로 가는 항공편, 11시 5분에 에든버러로 가는 항공편 등이 있습니다. 
글자는 밝은 주황색으로 빛나고 있으며, 배경은 어둡습니다. 전체적으로 정보 전달을 위한 기능적인 디자인입니다.


멀티모달 입력의 경우, 적절한 프롬프트가 더 중요합니다.

In [None]:
X = image_prompt.format_messages(question="""
이 이미지에 표시된 공항 보드에서
시간과 도시를 분석해서 목록으로 표시해 주세요.
형식은 시간 - 도시입니다.
예시) 12:00 - 런던
13:00 - 서울

목록만 출력하세요.""")

print(llm.invoke(X).content)

10:50 - MOSCOW/SVO
11:05 - EDINBURGH
11:10 - LONDON/LHR
11:15 - BUCHAREST/OTP
11:30 - KIEU/BORISPOL
11:35 - DUBLIN
11:45 - EAST MIDLANDS
12:15 - SOFIA
12:30 - LONDON/LGW
12:30 - NEWCASTLE
12:40 - ST PETERSBURG
12:40 - LONDON/LGW
12:45 - MANCHESTER
