# Model IO
- **Model IO**는 프롬프트(prompt)를 언어 모델에 입력하고, 그 결과로 생성된 출력을 처리하는 일련의 과정과 그 구성 요소를 의미한다.
- 주로 **프롬프트 템플릿**, **언어 모델**, **출력 파서**로 구성된다.

## 모델 IO 구성 요소
- **프롬프트 템플릿**
  - LLM(대규모 언어 모델, Large Language Model)에 전달할 프롬프트를 생성하는 데 사용되는 형식이다.
  - 사용자 입력이나 고정된 형식을 기반으로 프롬프트를 구조화하여 LLM에 전달한다.
- **언어 모델**

  - LLM은 프롬프트를 바탕으로 텍스트를 생성하거나 입력 내용을 분석하여 결과를 도출한다.

- **출력 파서**

  - LLM의 출력에서 필요한 정보를 추출하거나, 시스템에서 활용하기 적합한 형식으로 변환하는 역할을 한다.
  - 출력 데이터를 정제하고 구조화하여 다음 단계에서 쉽게 활용할 수 있도록 후처리한다.

![model id](figures/model_io.jpg)

# 프롬프트(Prompt)

- 생성형 인공지능 모델에게 작업을 요청하기 위해 입력하는 값이다.
- 일반적으로 사람이 사용하는 자연어로 작성된다.

## 프롬프트 엔지니어링(Prompt Engineering)

- 생성형 인공지능 모델로부터 **원하는 결과를 얻기 위해 프롬프트를 설계하고 최적화하는 기법**을 말한다.
- 더 나은 품질의 응답을 얻기 위해 프롬프트를 구조화하고 조정하는 작업이다.
- 프롬프트 엔지니어링은 생성형 인공지능 모델의 능력과 특성을 깊이 이해한 뒤, **일관되고 정확한 응답이 생성되도록** 프롬프트를 작성하는 데 초점을 둔다.
  - 생성형 인공지능 모델은 각각 성능과 동작 방식에 차이가 있으므로, 목적에 맞는 모델을 선택하고 그에 맞는 프롬프트를 작성하는 것이 중요하다.
  - 핵심은 **사용자의 의도에 부합하는 응답을 일관되게 이끌어내는 것**이다.
    - 같은 질문이라도 생성형 인공지능은 응답이 조금씩 달라질 수 있다.
    - 하지만 의미가 달라지거나 의도가 왜곡되면 안 되므로, **의미의 일관성을 유지하는 프롬프트 설계**가 중요하다.
- 프롬프트 엔지니어링은 별도의 추가 학습(fine-tuning) 없이도 원하는 결과를 얻을 수 있게 해주어, **언어 모델 구축에 필요한 시간과 비용을 획기적으로 줄여준다**.
  - 프롬프트는 자연어로 작성되므로, 딥러닝이나 모델 구조에 대한 깊은 전문지식 없이도 인공지능의 응답 품질을 향상시킬 수 있다.

## 프롬프트의 구성 요소

프롬프트는 일반적으로 다음 네 가지 요소로 구성될 수 있다.
단, 모든 프롬프트가 이 모든 요소를 반드시 포함해야 하는 것은 아니다.

- **지시(Instruction)**: 생성형 인공지능 모델이 수행해야 할 작업에 대한 명확한 지침.
  - 예: “다음 문장을 요약하라”, “코드를 설명하라”
- **문맥(Context)**: 더 정확한 응답을 유도하기 위해 제공하는 배경 정보나 추가 문맥.
  - 예: 대화 이력, 도메인 지식, 사용자 정보 등
- **입력 데이터(Input Data)**: 모델이 처리해야 하는 구체적인 입력값. 이는 질문 형태일 수도 있고, 문서, 표, 코드 등 다양한 형태의 데이터일 수 있다.
- **출력 지시자(Output Indicator)**: 모델이 생성할 응답의 형식이나 조건을 지정하는 요소.
  - 예: “JSON 형식으로 출력하라”, “목록 형태로 작성하라”, “200자 이내로 요약하라” 


 - 예:
```markdown
## Instruction (지시)
다음 뉴스 기사를 읽고 핵심 내용을 요약하라.

## Context (문맥)
사용자는 바쁜 직장인으로, 전체 기사를 읽을 시간이 없다. 핵심 정보만 빠르게 파악하고 싶어한다.

## Input Data (입력 데이터)
[기사 원문]
오늘 오전, 서울 강남구 일대에 시간당 80mm가 넘는 집중호우가 내려 도로 일부가 침수되고, 차량 통제가 이루어졌다. 기상청은 이 같은 집중호우가 오후까지 계속될 것으로 전망하면서 시민들의 외출 자제를 당부했다. 서울시 역시 재난 문자를 통해 대중교통 이용을 권고하고 있다. ...

## Output Indicator (출력 지시자)
한 문단(3줄 이내)으로 요약하라. 일반인이 쉽게 이해할 수 있는 문장을 사용하라.
```

# Prompt 작성 가이드
한 번에 완성도 높은 프롬프트를 만드는 것은 쉽지 않다. **결과를 반복적으로 확인하고, 그에 따라 점진적으로 개선**해 나가는 과정이 필요하다.
처음에는 간단한 프롬프트로 시작한 뒤, 답변을 검토하면서 다양한 요소와 맥락 정보(context)를 추가하며 점차 발전시킨다.

## 1. 명확성 (Clarity)

모델이 무엇을 해야 하는지 오해 없이 이해할 수 있도록 프롬프트의 목적과 지시를 분명하고 논리적으로 작성한다. 프롬프트 내용에 추상적이거나 모호한 표현보다는 구체적이고 명확한 용어를 사용한다.

- **좋은 예시**:

  ```
  이 문장을 더 간결한 표현으로 바꿔줘.
  ```
   "간결한 표현" 이라는 명확한 지시를 포함하고 있다.
- **나쁜 예시**:

  ```
  이 문장을 다르게 바꿔줘.
  ```
  내용을 다르게 하려는 건지 단어를 다르게 하라는 건지 "다르게"의 의미가 불분명하다. 


## 2. 구체성 (Specificity)

모델의 답변 범위를 좁혀 원하는 결과를 얻으려면, **대상, 형식, 범위, 답변 글자 수 등의 제약 조건을 구체적으로 명시하고, 구체적인 정보와 조건을 함께 제시하는 것이 효과적**이다

- **좋은 예시**:

  ```
  한국의 최근 5년 동안 인공지능 산업 성장률을 표 형식으로 나타내라.
  ```
  정확히 원하는 주제와 출력 형식을 구체적으로 알려주고 있다.
- **나쁜 예시**:

  ```
  한국 인공지능 산업을 말해줘.
  ```
  인공지능 산업의 어떤 측면에 대해 말하는지 알 수 없어 대상범위가 너무 넓다.


## 3. 간결성 (Conciseness)

프롬프트는 핵심만 간결하게 전달하되, 필요한 모든 정보를 담아야 한다. 불필요하게 긴 문장은 오히려 혼란을 준다.

- **좋은 예시**:

  ```
  삼국시대 신라의 통일 과정을 3문장으로 요약하라.
  ```

- **나쁜 예시**:

  ```
  신라가 삼국을 통일하게 된 배경, 과정, 결과, 그 이후의 역사적 영향을 모두 말해줘. 하지만 너무 길지 않게 짧게 요약해서 적당히 답해주길 바래.
  ```

## 4. 명시적 지시 (Explicit Instruction)

모델이 해야 **무엇을 해야 하는 지를** 구체적이고 명확하게 지시한다. 모호한 요청은 잘못된 응답을 초래할 수 있다.   
**명확성이 내용의 구체/명확성**이라면 **명시적 지시는 모델이 해야하는 일**의 구체/명확성을 말한다.

- **좋은 예시**:

  ```
  아래 문장을 감정 분석하여 긍정, 부정, 중립 중 하나로 분류하라:
  "오늘 날씨가 정말 좋다."
  ```
- **나쁜 예시**:

  ```
  이 문장은 어때?
  ```

## 5. 제약 조건 명시 프롬프트 (Constraint Prompting)

출력 형식이나 조건을 명확히 제한하여 지시하는 기법이다. 예: “100자 이내로 요약하라” 혹은 “세 가지 항목으로 목록을 만들어라.” 이처럼 프롬프트에 조건을 명시하면, 모델은 이를 충실히 따르려 한다.

- **제약 조건 요소들**:
  - 글자수/문장 수 제한
  - 출력 형식(JSON, 표 등)
  - 어조 유지
  - 금지어 제외
  - 필수 키워드 포함
- **주의 사항**: 조건이 지켜지지 않을 경우 프롬프트를 더 구체화하거나 시스템 메시지를 사용할 수 있다.

- **좋은 예시**:

  ```
  한국, 미국, 중국의 인구를 다음 형식의 표로 나타내라:

  | 국가 | 인구 (백만명) |
  |------|--------------|
  |      |              |
  ```
  ```
  다음 문장을 세 줄로 요약한다. 각 줄은 10단어 이내로 작성한다.
  [요약할 내용]
  ...
  ```

## 6. 역할 정의 (Role Definition, Persona)

모델에게 명확한 역할이나 페르소나를 부여하여 일관된 응답을 얻는다. 
페르소나(persona, 역할)을 지정하면 **모델의 사고방식, 응답구조, 언어 선택, 논리 전개방식, 답변 어투와 같은 스타일**을 그 역할에 맞게 유도할 수있다. 역할을 부여하면 모델의 응답을 원하는 맥락과 분야에 맞춰 조율 할 수있고 설명이나 추론의 명확성과 일관성을 높일 수있다.   
또한 여러 페르소나를 설정하면 다자간 토론이나 대화 시뮬레이션을 진행할 수 있다.

- **좋은 예시**:

  ```
  너는 초등학교 과학 선생님이다. 물의 순환 과정을 학생들에게 쉽게 설명하라.
  ```
  초등학교 과학 선생님이라는 역할에 맞게 쉬운 말투, 따듯한 어조, 단계적 설명 등을 사용해 응답한다.
  
  ```
  토론자 A는 기술 낙관주의자, B는 기술 회의론자이다. 서로의 입장을 정리한 토론을 생성하라.
  ```

## 7. 단계별 지시 (Step-by-Step Instruction)

복잡한 작업을 명확하고 실행가능한 단계들로 나눠 요청한다. 

  - **나쁜 예시**

  ```
  우리 회사 매출 데이터를 분석해서 좋은 보고서를 만들어줘. 작년과 비교하고 문제점도 찾고 해결책도 제시해줘.
  ```

  - **좋은 예시**:
  ```
  다음 단계에 따라 비즈니스 분석 보고서를 작성해주세요:

  **1단계: 데이터 검토**
  - 첨부된 매출 데이터 CSV 파일을 읽고 구조를 파악하세요
  - 데이터의 기간, 항목, 누락값 여부를 확인하세요
  
  **2단계: 기초 분석**
  - 2024년 월별 매출 추이를 계산하세요
  - 2023년 같은 기간과 비교하여 증감률을 구하세요
  - 상위 5개 제품군별 매출 비중을 분석하세요
  
  **3단계: 문제점 식별**
  - 매출 감소가 발생한 구간을 찾아내세요
  - 감소폭이 10% 이상인 제품군을 특정하세요
  - 계절성 요인과 구조적 요인을 구분하세요
  
  **4단계: 해결책 제시**
  - 각 문제점에 대해 구체적인 개선안을 3개씩 제시하세요
  - 예상 효과와 실행 난이도를 5점 척도로 평가하세요
  - 우선순위 순으로 정렬하세요
  
  **5단계: 최종 보고서**
  - 위 분석을 바탕으로 경영진용 요약 보고서를 작성하세요
  - 차트 3개와 핵심 지표 테이블을 포함하세요
  - 결론은 3줄 이내로 압축하세요
  ```

## 8. 샷 수 제어 프롬프트 (Zero-shot, One-shot, Few-shot)

**샷 수 제어**란 예시(데몬스트레이션)의 수에 따라 제로샷, 원샷, 퓨샷으로 나누는 기법이다.

- **제로샷**: 예시 없이 바로 요청.
- **원샷**: 하나의 예시 제공 후 요청.
- **퓨샷**: 여러 개의 예시 제공 후 요청.

- **좋은 예시** (Few-shot 예시):

  ```
  예시:
  Q: 일본의 수도는?  
  A: 도쿄  
  Q: 영국의 수도는?  
  A: 런던  

  Q: 호주의 수도는?  
  A:
  ```

## 9. 열린 질문(Open-ended question) 사용
구체적인 지시 대신 AI에게 무엇이 필요한지를 묻는 질문을 한다. 이를 통해 **우리가 생각지 못했던 다양한 관점에서 문제를 해결**할 수 있다.
열린 질문은 모델의 창의성, 추론 능력, 통찰력을 끌어내는 데 매우 유용하다.
특히 아이디어 발상, 브레인스토밍, 전략 수립, 사용자 인터뷰 시뮬레이션 등에 효과적이다.
- **예시**:
  ```
  우리 서비스가 고객에게 제공할 수 있는 새로운 가치는 무엇이 있을까?

  현재 시장에서 간과되고 있는 기회는 어떤 게 있을까?

  이 기능이 실제로 사용자의 삶에 어떤 영향을 줄 수 있을까?
  ```

## 10. 맥락(context) 제공
요청하는 작업의 배경을 설명한다. 이를 통해 모델의 응답에 정확도, 일관성, 관련성을 높일 수 있다.

- **맥락없는 예시**:
  ```
  고객 이탈을 줄일 수 있는 전략은 무엇인가?
  ```
- **맥락을 제공한 예시**:
  ```
  우리는 월 20%의 고객 이탈률을 겪고 있는 구독 기반 온라인 교육 서비스이다.
  주요 고객층은 30대 직장인이고, 이탈 주요 원인은 콘텐츠 부족과 동기 저하이다.
  이탈률을 줄이기 위한 실질적인 전략을 제안해줘.
  ```

## 11. 윤리적 사용 (Ethical Usage)

모델이 차별적, 공격적, 부정확하거나 편향된 답변을 생성하지 않도록 프롬프트 내용을 주의해서 작성한다.

- **좋은 예시**:

  ```
  인공지능 기술이 사회에 미치는 긍정적 영향과 부정적 영향을 균형 있게 설명하라.
  ```

- **나쁜 예시**:

  ```
  인공지능이 인간의 일자리를 빼앗는다는 것을 증명해봐.
  ```
  인공지능이 사람의 일자리를 뺏는다는 결론을 미리 내리고 질문하고 있다. 이는 특정 결론을 강요하는 형태로 모델이 편향된 정보만 수집하여 편향된 결론을 내리도록 유도한다.

# 주요 프롬프트 엔지니어링 기법

## Chain of Thought (사고 연쇄-CoT)

### 개념

Chain of Thought는 복잡한 문제를 해결할 때 단계별로 사고 과정을 보여주는 방법이다. 마치 수학 문제를 풀 때 중간 과정을 하나씩 적어가며 답을 구하는 것처럼, AI가 답을 도출하는 과정을 차근차근 설명하는 기법이다.

일반적으로 AI는 질문을 받으면 바로 최종 답만 제시한다. 하지만 Chain of Thought를 사용하면 "첫 번째로 이것을 생각하고, 두 번째로 저것을 고려하고, 따라서 결론은..." 같은 식으로 사고 단계를 명확히 보여준다.

이 방법을 사용하면 복잡한 추론이나 수학 문제, 논리적 사고가 필요한 상황에서 더 정확한 답을 얻을 수 있다. 또한 AI가 어떤 과정을 거쳐 그 답에 도달했는지 이해할 수 있어서 더 신뢰할 수 있다.

### 방법
- **Zero-shot Chain of Thought**
    - 프롬프트에 "단계적으로 풀어보자", "차근 차근 생각해보자", "Think step by step" 같은 말을 입력해 모델이 스스로 단계를 밟아가며 추론하도록 한다.
-  **Few-shot Chain of Thought**
    -  직접 문답 형식의 예를 작성해서 프롬프트에 넣는다.

### 예시

```
Q: 카페에서 커피 3잔과 케이크 2개를 샀는데, 커피 한 잔이 4,500원, 케이크 한 개가 6,000원일 때 총 얼마를 지불해야 하나요?

A: 단계별로 계산해보겠습니다.

1단계: 커피 총 가격 계산
- 커피 한 잔: 4,500원
- 커피 3잔: 4,500원 × 3 = 13,500원

2단계: 케이크 총 가격 계산  
- 케이크 한 개: 6,000원
- 케이크 2개: 6,000원 × 2 = 12,000원

3단계: 총 금액 계산
- 커피 총 가격 + 케이크 총 가격
- 13,500원 + 12,000원 = 25,500원

따라서 총 25,500원을 지불해야 합니다.

Q: 사과 10개, 배 3개, 수박 5통을 샀습니다. 사과는 개당 5300원, 배는 12000원, 수박은 21000원입니다. 총 비용은 얼마인가요?

A:
```


## Tree-of-Thought (생각의 나무 - ToT)
Tree-of-Thought (ToT) 프롬프트 엔지니어링 기법은 복잡한 문제 해결을 위한 사고 과정을 트리 구조로 모델링 해서 LLM 모델이 단일한 직선적인(Sequential) 사고과정이 아니라, **다양한 경로(branch)를 통해** 문제를 해결하도록 유도하는 프롬프트 설계 기법이다.

기존의 Chain-of-Thought(CoT)는 문제를 "하나의 직선적 단계"로 나누어 풀이한다.
반면, ToT는 각 단계에서 여러 가지 대안적 접근이나 아이디어를 분기점(branch)으로 만들어 트리처럼 확장하면서, 각 분기마다 탐색(explore)과 평가(evaluate)를 반복한다.
이러한 방식은 AI에게 "여러 가능성을 동시에 탐색-비교-선택"하게 하여 **수학적 문제 해결, 창작 활동, 전략적 계획 수립, 코딩 문제, 의사결정**등 복잡한 추론이 필요한 영역에서 특히 효과적이다.

### Tree-of-Thought 프롬프트 구조
1. 문제 제시
2. 하위 문제/접근 방식 분기 요청
    - "이 문제를 해결하는 다양한 방법을 생각해보세요."
    - "가능한 경우의 수, 가설, 전략을 모두 나열해보세요."
3. 각 브랜치별 세부 풀이 요청
    - "각 방법(가지)마다 단계별로 자세히 풀이해주세요."
4. 브랜치 평가/선택 요청
    - "각 방법의 장단점, 성공 가능성, 효율성을 평가하세요."
    - "가장 적합한 가지(접근법)를 선택하고, 그 이유를 설명하세요."
5. 최종 해답 도출

### 예시
```
문제: 도시 내 대중교통 시스템의 효율성을 높이는 방안을 제시하라.

1. 이 문제를 해결하기 위한 여러 가지 방법(아이디어)을 나열하세요. 각 방법을 트리의 가지(branch)로 생각해보세요.

2. 각 방법마다 구체적인 실행 방안과 예상되는 효과, 문제점을 단계별로 정리하세요.

3. 각 방법(가지)별로 장단점을 평가하고, 현실적으로 가장 실행 가능한 방법을 선택하세요.

4. 선택한 방법을 더욱 구체화하여 실행 계획을 작성하세요.
```



> ## 프롬프트 공유 사이트
> - [Langchain Hub](https://smith.langchain.com/hub)
> - [Promry](https://www.promry.com/ko)
> - [오픈프롬프트](https://www.prpt.ai)
> - [Prompt Hero](https://prompthero.com/)

# 프롬프트 템플릿 (Prompt Template)

프롬프트 템플릿은 언어 모델(Large Language Model, LLM)에 입력할 **프롬프트를 생성하는 재사용 가능한 템플릿**이다. 프롬프트 작성 시 변수를 포함하여 템플릿화함으로써, 다양한 입력값에 유연하게 대응할 수 있으며, 일관성 있는 결과를 얻는 데 유리하다.

## 프롬프트 템플릿의 목적

* **재사용성**: 다양한 입력에도 동일한 구조의 프롬프트를 사용할 수 있다.
* **유지보수 용이성**: 프롬프트 구조를 표준화하여 관리하기 쉽다.
* **자동화 적합성**: 파이프라인이나 응용프로그램 내에서 템플릿 기반으로 프롬프트를 자동 생성할 수 있다.

## Langchain의 주요 Prompt Template

1. `PromptTemplate`
   - 지시형 프롬프트를 생성할 때 사용하는 가장 기본적인 텍스트 기반 템플릿이다.
   - **특징**:
     - 단순한 텍스트 포맷팅에 사용
     - 변수는 중괄호 `{}`를 사용하여 표시
     - LLM에게 명령을 내리는 형태의 프롬프트에 적합하다.
2. `ChatPromptTemplate`
   - 대화형(Chat) 언어 모델에서 사용되는 프롬프트 템플릿으로, 다양한 발화자 역할(예: 시스템, 사용자, AI)을 지정할 수 있다.
   - **특징**:
     -  역할 기반 메시지를 정의하여 대화 맥락을 유지하기 용이
     -  시스템 메시지(지시), 사용자 메시지(입력), AI 메시지(LLM 응답) 등을 구성할 수있다.
3. `FewShotPromptTemplate`
   - 모델이 작업을 더 잘 수행할 수 있도록 하나 이상의 예제를 포함한 프롬프트를 생성하는 데 사용된다.
   - **특징**:
     - "Few-shot learning을 개념을 활용하는 프롬프트를 생성한다.
     - 입력 전에 유사한 문제-답변 예제를 제시하여 모델의 성능을 높일 수있다.
   - **예시**:
      ```python
      from langchain_core.prompts import FewShotPromptTemplate, PromptTemplate

      examples = [
          {"input": "2+2", "output": "4"},
          {"input": "3+5", "output": "8"}
      ]
      example_prompt = PromptTemplate(template="Q: {input}\nA: {output}")

      prompt = FewShotPromptTemplate(
          examples=examples,
          example_prompt=example_prompt,
          prefix="Answer the following math questions:",
          suffix="Q: {query}\nA:"
      )

      prompt.invoke({"query":"7 + 6"})
      ```

      ```output
      Answer the following math questions:
      Q: 2+2
      A: 4
      Q: 3+5
      A: 8
      Q: 7+6
      A:
      ```

## 프롬프트 템플릿 사용법

- 템플릿은 **문자열로 정의**하고, 변수는 `{변수명}` 형식으로 지정한다. 이 변수는 나중에 실제 값으로 대체된다.
  - 예시: `"{country}의 수도는 어디인가요?"`
  - 프롬프트에 `{}` 를 literal로 입력해야 하는 경우 `{{ }}` 로 입력한다.
- 생성한 문자열 템플릿을 이용해 Prompt Template 객체를 생성한다.

### 공통 메소드

프롬프트 템플릿 클래스에서 공통으로 사용하는 주요 메소드는 다음과 같다.

- 템플릿 생성 메소드:
  - `from_template()`: 문자열 기반 템플릿을 생성한다. `PromptTemplate`, `ChatPromptTemplate` 모두에서 사용된다.
  - `from_messages()`: 메시지 객체 기반의 대화형 템플릿을 생성한다. `ChatPromptTemplate` 전용이다.
- 프롬프트 생성 메소드:
  - `format(변수=값, ...)`: 변수에 값을 넣어 최종 프롬프트 문자열을 생성한다.
  - `format_messages(변수=값, ...)`: 메시지 리스트 형식의 프롬프트를 생성한다. `ChatPromptTemplate`에서 사용된다.
  - `invoke(dict)`: 변수와 값을 딕셔너리 형태로 전달하여 프롬프트를 생성하고 실행한다.

> ## invoke() 메소드
> - `invoke()`는 Langchain의 핵심 클래스인 **Runnable**에서 제공하는 공통 메소드이다.
> - **Runnable**은 LLM을 활용한 작업 흐름(Chain)을 구성하는 작업 단위 클래스들의 상위 클래스이다.
> - `invoke()`는 입력 데이터를 처리하고 결과를 반환하는 메소드이며, 체인의 다음 단계로 결과를 전달한다.

In [1]:
from dotenv import load_dotenv

load_dotenv()

True

In [5]:
"to{name}. {name}님, {age}세".format(name="홍길동", age=30)

'to홍길동. 홍길동님, 30세'

In [4]:
from langchain_core.prompts import PromptTemplate

# input_variabel(입력변수):{변수명} => 나중에 채울 값의 자리를 지정하는 placeholder
template = "{country}의 수도는 어디인가요?"
prompt = PromptTemplate(
    template=template
)
prompt

PromptTemplate(input_variables=['country'], input_types={}, partial_variables={}, template='{country}의 수도는 어디인가요?')

In [3]:
prompt.template
prompt.input_variables

['country']

In [6]:
# input_varaible에 값을 넣어서 prompt 생성
prompt_str1 = prompt.format(country="한국") # formet():keyword 인자로 입력
print(prompt_str1)
prompt_str2 = prompt.format(country="미국") 
print(prompt_str2)

한국의 수도는 어디인가요?
미국의 수도는 어디인가요?


In [9]:
prompt_str3 = prompt.invoke({"country":"독일"}) #invoke: {input_varible: 넣을 값}
prompt_str3

StringPromptValue(text='독일의 수도는 어디인가요?')

In [8]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    template="{country}의 수도는 어디입니까?"
)

model = ChatOpenAI(model="gpt-5-nano")
query = prompt.format(country="한국")
res = model.invoke(query)

In [13]:
print(res.content)

서울(Seoul)입니다. 참고로 북한의 수도는 평양입니다.


In [14]:
query2 = prompt.invoke({"country":"영국"})
res = model.invoke(query2)
print(res.content)

영국의 수도는 런던입니다. 잉글랜드 남동부에 위치한 도시로, 정치와 문화의 중심지입니다.


In [22]:
prompt2 = PromptTemplate(
    template="{place1}, {place2}간의 거리는 얼마나 되는지 km로 알려줘"
)

print(prompt2.format(place1="서울", place2="런던"))
print(prompt2.invoke({"place1":"서울", "place2":"런던"}))

서울, 런던간의 거리는 얼마나 되는지 km로 알려줘
text='서울, 런던간의 거리는 얼마나 되는지 km로 알려줘'


In [None]:
query2 = prompt2.format(place1 = "서울", place2="런던")

In [None]:
res.content

In [None]:
from langchain_core.prompts import ChatPromptTemplate
#Chatting 형식 message를 지원 - role 과 content로 구성
#role: user/human - 사용자, 사람의 입력. (HummanMassage)
#     ai/assistant -인공지능(llm모델)의 답변 (AIMessage)->일반적으로 우리가 받는 응답이 됨.
#     system       -전체 대화와 관련되어 공통적으로 적용될 규칙 등을 설정하는 프롬프트. 페르소나, 맥락 설정 등.
#                   (SystemMassage)

# 1. [
#     ("role","내용") # 랭체인 포멧
# ]

# 2. [
#     {"role":"역할", "content":"내용"} #openai 포멧
# ]

messages = [
    ("system", "당신은 {domain}전문 assistant입니다. 모든 답변은 {char_length} 단어 이하로 해주세요."),
    #SystemMessage(content="당신은 와인 전문가입니다.") -> 템플릿이 아닌 값을 넣어 만들때에 사용할 수 있다.
    ("user","{query}") # HumanMessage(content="와인에 대해 설명해줘.")
]

prompt = ChatPromptTemplate(
    messages=messages
)

In [29]:
print(prompt.input_variables)
print(prompt.messages)

['char_length', 'domain', 'query']
[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['char_length', 'domain'], input_types={}, partial_variables={}, template='당신은 {domain}전문 assistant입니다. 모든 답변은 {char_length} 단어 이하로 해주세요.'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['query'], input_types={}, partial_variables={}, template='{query}'), additional_kwargs={})]


In [30]:
messages = prompt.invoke(
    {"domain":"wine", "char_length":20,"query":"해산물에 어울리는 와인을 소개해줘"}
 )
messages

ChatPromptValue(messages=[SystemMessage(content='당신은 wine전문 assistant입니다. 모든 답변은 20 단어 이하로 해주세요.', additional_kwargs={}, response_metadata={}), HumanMessage(content='해산물에 어울리는 와인을 소개해줘', additional_kwargs={}, response_metadata={})])

In [31]:
res = model.invoke(messages)

In [32]:
res
print(res.content)

생선·해산물에 어울리는 화이트 와인: 샤르도네, 소비뇽 블랑, 알바리뇨, 그루너 벨트리너, 리슬링.


In [33]:
query = prompt.format_messages(domain="ai", char_length=10, query='LLM에 대해 정의해줘.')
query

[SystemMessage(content='당신은 ai전문 assistant입니다. 모든 답변은 10 단어 이하로 해주세요.', additional_kwargs={}, response_metadata={}),
 HumanMessage(content='LLM에 대해 정의해줘.', additional_kwargs={}, response_metadata={})]

## MessagesPlaceholder

- **MessagesPlaceholder**는 프롬프트 템플릿 내에서 메시지들이 삽입될 위치를 지정하는 데 사용되는 도구이다. 이는 프롬프트에 다수의 메시지를 포함시키는 경우에 유용하며, 주로 **채팅 히스토리**나 **예제 메시지** 들을 프롬프트에 추가하는 데 사용된다.
- 변수가 전체 문장의 일부 내용을 입력받는데 사용된다면 **MessagesPlaceholder**는 단일 값 대신 여러 메시지들을 입력받는데 사용된다.

### Initializer의 파라미터
1. **variable_name** (str):  
   - 프롬프트에서 참조할 변수명을 지정한다.

2. **optional** (bool, 기본값: False):  
   - `True`로 설정하면 해당 메시지 삽입을 생략할 수 있다.

3. **n_messages** (int):  
   - 지정된 경우, 최근 N개의 메시지만 포함하도록 제한한다.

In [5]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

prompt = ChatPromptTemplate(
    messages=[
        ("system", "당신은 수학 전문 Assistant"),
        MessagesPlaceholder(variable_name="history", optional=True),
        ("human", "{query}")
    ]
)

chat_history = [#지금까지의 대화 내역
    ("human", "5+2의 결과는?"),
    ("ai", "5+2=71"),
    ("human", "10+22의 결과는?"),
    ("ai", "10+22=32")
]

query = prompt.invoke({
    'history':chat_history,
    "query":"위 결과에 4제곱을 하면 얼마인가요?"
    })

query.messages


KeyboardInterrupt: 

In [42]:
res = model.invoke(query)
res.content

'32의 4제곱은 1,048,576입니다.\n계산: 32^2 = 1024, 1024^2 = 1,048,576. 또는 32 = 2^5이므로 32^4 = 2^20 = 1,048,576.'

In [9]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder

system_msg = ("system", "당신은 유능한 assistnat입니다. 답변은 10단어 이내로 해주세요")

prompt = ChatPromptTemplate(
    messages=[
        system_msg,
        MessagesPlaceholder(variable_name="history", optional=True),
        ("user", "{query}")]
)

user_input = input("질문:")
chat_history = [system_msg]

while True:
    if user_input.strip()=="quit":
        break
    query = prompt.invoke({"query":user_input, "history":chat_history})
    res = model.invoke(query)

    print("질문:", user_input)
    print(res.content)

    #chat history 에 현지 턴의 질문/답변을 추가
    chat_history.append(("human", user_input))
    chat_history.append(("ai", res.content))

    user_input = input("질문:")

질문: 안녕, 내 이름은 박민정이야
안녕하세요, 박민정님. 무엇을 도와드릴까요?
질문: 내 이름이 뭐였지?
박민정이에요.
질문: 
박민정 맞죠? 무엇을 도와드릴까요?
질문: 1+4
5
질문: 거기다가 3을 곱하면 몇이지?
15입니다.
질문: 
다음 질문이 있나요?


KeyboardInterrupt: 

# 멀티모달(Multimodal) 프롬프트

## 모달리티(Modality)

- 모달리티란 사람이 세상을 인식하는 다양한 감각의 종류를 말한다. 예를 들어, 시각(눈), 청각(귀), 촉각(피부) 등이 있으며, 인공지능에서는 이러한 감각에 대응하는 데이터의 종류를 의미한다.
- 정리하면 **모달리티**는 텍스트, 이미지, 오디오, 비디오 등의 데이터의 형식이나 표현 방식을 뜻하며, 머신러닝과 인공지능 연구에서는 주어진 데이터의 종류를 지칭하는 용어이다.

## 멀티모달 AI

- **멀티모달(Multimodal) AI**란 여러 종류의 입력 데이터(모달리티)를 동시에 처리하고 이해할 수 있는 인공지능 시스템을 의미한다.  
  - 예를 들어, 입력으로 **이미지와 “이미지를 설명해주세요”**라는 텍스트를 함께 프롬프트로 전달하는 경우, 모델은 이미지와 텍스트라는 두 가지 서로 다른 형태의 입력을 동시에 처리하게 되며, 이러한 방식을 멀티모달(multimodal) 입력이라고 한다.
  - 단일 모달리티만 처리하는 것은 유니모달(Unimodal) AI라고 한다.  
- 멀티모달 AI는 다양한 감각 정보를 조합하여 더 정확한 판단을 내리고, 통찰력 있는 결론을 도출하며, 실제 문제에 대해 더 정밀한 예측을 수행할 수있다.

### 다양한 입력 모달리티의 예

- 텍스트: 자연어, 문서, 코드
- 이미지: 사진, 차트
- 오디오: 음성, 음악, 소리
- 비디오: 동영상, 애니메이션
- 기타: 수학 방정식, 센서 데이터 등

## 멀티모달 프롬프트

- **멀티모달 프롬프트**란 인공지능 언어 모델(LLM, Large Language Model)에 입력할 때 텍스트뿐 아니라 이미지나 오디오와 같은 다양한 유형의 데이터를 함께 제공하는 방식을 말한다.
- 이를 통해 LLM은 다양한 감각 정보를 조합하여 더 깊이 있고 풍부한 응답을 생성할 수 있다. 예를 들어, 사용자가 사진과 함께 질문을 하면 모델은 사진의 내용을 이해하고 텍스트로 된 설명을 결합하여 답변할 수 있다.
  
### 멀티모달 프롬프트 예
- **이미지 + 텍스트**: 사진을 업로드하고 "이 이미지에서 무엇을 개선할 수 있나요?" 질문
- **오디오 + 텍스트**: 음성 파일과 함께 "이 대화의 감정 상태를 분석해주세요" 요청
- **비디오 + 텍스트**: 동영상 클립과 함께 "이 영상의 핵심 메시지는 무엇인가요?" 문의

# Langchain 멀티모달 프롬프트 지원
- LangChain은 다양한 인공지능 모델과 연동하여 텍스트뿐만 아니라 이미지, 오디오 등 여러 종류의 입력 데이터를 처리할 수 있도록 멀티모달 프롬프트 기능을 지원한다.
  
## 지원 가능 모델 확인
- Langchain으로 멀티모달 입력 기능을 사용하려면, 연동하려는 LLM 모델이 모달리티 입력을 지원해야 한다.
- [Langchain 지원 LLM 모델](https://python.langchain.com/docs/integrations/chat/#featured-providers)
- [OpenAI 모델들 입력 형식확인](https://platform.openai.com/docs/models)

## LangChain에서 멀티모달 입력 구현 방법
- HumanMessage 객체의 content에 텍스트 외에도 이미지, 오디오등 다양한 데이터를 함께 포함시킬 수 있다.
- **텍스트**: 일반 문자열 형태로 입력
- **이미지/오디오**: 다음 두 가지 방식으로 입력할 수 있다.
    - **URL 지정**: 인터넷에 업로드된 이미지나 오디오의 URL을 제공
    - **Base64 인코딩**: 파일 데이터를 base64 형식으로 인코딩하여 직접 전달

> **Base64 인코딩**은 이진 데이터를 텍스트로 안전하게 변환하기 위한 인코딩 방식이다.   
> 주로 이메일, URL, JSON, HTML 등 텍스트 기반 시스템에서 이진 데이터를 전송하거나 저장할 때 사용한다.
> Base64는 이진 파일을 64개의 문자(`영문 대소문자, 숫자, +, /`)로 인코딩한다. ASCII 문자들만 사용하기 때문에 대부분의 시템에서 안전하게 처리할 수있다.

## Image

### Base64 입력

In [2]:
type(b"hello")

bytes

In [7]:
import base64
e = base64.b64encode(b"hello") # bytes(binary) -> base64 인코딩한 문자열로 변환
print(type(e), e) # A~Z, a~z, 0~9, +, / 
c = e.decode('utf-8')
print(type(c),c)
d = base64.b64decode(e)
d

<class 'bytes'> b'aGVsbG8='
<class 'str'> aGVsbG8=


b'hello'

In [10]:
import base64
def encode_to_base64(src_path):
    #src_path 의 binary 파일을 읽어서 base64 로 인코딩 후 반환
    with open(src_path, 'rb') as fi:
        encoded_bytes = base64.b64encode(fi.read()) # binary -> base64 인코딩
        encoded_str = encoded_bytes.decode('utf-8')  #bytes -> str 변환
        return encoded_str


In [9]:
r = encode_to_base64('data/images/graph1.jpg')

In [10]:
r[:100]

'/9j/4AAQSkZJRgABAQABLAEsAAD/2wBDAAUDBAQEAwUEBAQFBQUGBwwIBwcHBw8LCwkMEQ8SEhEPERETFhwXExQaFRERGCEYGh0d'

In [16]:
from langchain_openai import ChatOpenAI

In [19]:
# 멀티모달 입력 -(이미지+text) ==> LLM
model = ChatOpenAI(model="gpt-5-mini")

img_data = encode_to_base64('data/images/img1.jpg')
# 입력 메세지
message = {
    "role":"user",
    "content":[
        {"type":"text", "text":"이 이미지에 대해서 설명해줘. 그리고 장소가 어디인지도 알려줘"},
        {"type":"image", 
         "source_type":"base64",
         "data":img_data,
         "mime_type":"image/jpeg"}
    ]
}
res = model.invoke([message])

In [20]:
print(res.content)

이미지 설명:
- 전면에 커다란 전각(궁궐 건물)이 정중앙에 배치된 사진입니다. 전각은 층이 두 겹으로 이루어진 팔작지붕 형태이고 처마 밑은 다채로운 단청으로 장식되어 있습니다.
- 건물 앞에는 대형 석조 기단(돌난간과 계단)이 있고, 넓은 석조 마당(뜰)이 전개되어 있습니다. 마당 바닥에는 규칙적으로 작은 돌기둥(위임자·관원들이 섰던 위치를 표시하던 표식처럼 보임)이 박혀 있습니다.
- 하늘은 맑고 구름이 있어 밝고 개방적인 분위기며, 좌우로 낮은 행랑채들이 이어져 전체적으로 궁궐의 중심 공간을 담고 있습니다.

장소:
- 사진 속 건물은 조선 왕조의 정전인 근정전(勤政殿)으로 보이며, 이 건물은 경복궁(景福宮)의 중심 전각입니다. 따라서 장소는 경복궁(서울 종로구, 광화문 근처)이라고 판단됩니다.

원하시면 이곳의 역사(근정전의 용도와 재건 역사), 관람 정보(입장시간·교통) 등도 더 알려드릴게요.


In [21]:
# 두개(여러개) 이미지 전송
message = {
    "role":"user",
    "content":[
        {"type":"text", "text":"이 이미지에 대해서 설명해 줘. 그리고 장소가 어디인지도 알려줘"},
        {
            "type":"image",
            "source_type":"base64",
            "data":encode_to_base64("data/images/img1.jpg"),
            "mime_type":"image/jpeg"
        },
        {
            "type":"image",
            "source_type":"base64",
            "data":encode_to_base64("data/images/img3.jpg"),
            "mime_type":"image/jpeg"
        }
    ]
}

res = model.invoke([message])

In [22]:
print(res.content)

두 장의 사진을 각각 설명하고 장소도 알려드릴게요.

1) 첫 번째 사진
- 설명: 넓은 돌마당 앞에 단층·이층의 처마가 겹친 전통 한옥 건물이 정중앙에 놓여 있는 모습입니다. 처마와 기둥에 채색 장식(단청)이 되어 있고, 석조 난간과 계단이 건물 앞에 층을 이루며 배치되어 있습니다. 전형적인 조선시대 궁궐의 정전(정치·의례를 치르던 중앙 건물) 분위기를 줍니다.
- 장소: 대한민국 서울의 경복궁, 중심 건물인 근정전(勤政殿)으로 보입니다.

2) 두 번째 사진
- 설명: 화려한 바로크 양식의 석조 건축물 앞에 큰 분수가 있고, 중앙에는 조각된 인물(바다신·넵투누스로 보이는 상)과 말·트리튼 조각들이 배치되어 물이 흘러내리는 모습입니다. 건물 전면의 장식과 물빛이 인상적입니다.
- 장소: 이탈리아 로마의 트레비 분수(Trevi Fountain)입니다.

원하시면 각 장소의 역사나 관람 팁(예: 트레비 분수의 동전 던지기 풍습, 경복궁 관람 시간 등)도 더 자세히 알려드릴게요.


In [23]:
message = {
    "role":"user",
    "content":[
        {"type":"text", "text":"첨부한 chart에 대해서 분석해줘"},
        {
            "type":"image",
            "source_type":"base64",
            "data":encode_to_base64("data/images/graph2.jpg"),
            "mime_type":"image/jpeg"
        },
        {
            "type":"image",
            "source_type":"base64",
            "data":encode_to_base64("data/images/graph3.png"),
            "mime_type":"image/png"
        }
    ]
}

res = model.invoke([message])

In [24]:
print(res.content)

보내주신 두 개 차트(1: “수출과 수입 변화(1970s–2012경)”, 2: “경제고통지수(1월 기준) 2000–2023”)를 각각 요약·분석하고 시사점을 정리했습니다.

1) 수출과 수입 변화 차트(연도별 수출·수입액과 대GNI 비율)
- 주요 변화 요약
  - 1970년대: 수출이 빠르게 증가(1971년 수출 10억 달러 돌파, 1977년 100억 달러 돌파). 수출주도형 성장 초입.
  - 1980~90년대: 명목 수출액은 증가하지만 수출·수입의 대 GNI 비율(무역의존도)은 1980년대 후반~90년 초반에 일시 하락(국내총생산 증가가 더 컸던 시기).
  - 1995년: 수출액 1,000억 달러(=100 billion) 돌파. 이후 다시 무역비중 상승 추세.
  - 2000년대 이후: 수출·수입액 모두 급증. 2011년 수출액 5,000억 달러(=500 billion) 돌파. 무역(수출+수입) 합계가 GNI 대비 100% 이상으로 높아짐(높은 개방도).
  - 경기충격: 1997–98(아시아 외환위기), 2001(IT버블/경기둔화), 2008–09(글로벌 금융위기) 등에서 수출·수입이 급락하는 패턴 관찰.

- 패턴 해석
  - 한국 경제는 1970s 이후 지속적으로 수출 중심으로 성장해 왔고, 2000년대 들어 글로벌 가치사슬과 원자재·에너지 수입 확대 등으로 무역비중(대GNI 비율)이 크게 증가.
  - 수출과 수입선이 거의 같이 움직여 왔으므로(두 라인 상관성 큼) 외부수요 변화가 국내 경기와 직결되는 구조임. 즉 외부 충격에 취약함.
  - 1980–90년대 일시적인 무역비중 하락은 산업구조 고도화·내수확대 또는 환율·교역조건 변화 등이 원인일 수 있음.

- 시사점
  - 장점: 수출 확대를 통한 빠른 성장과 규모의 경제 확보.
  - 위험요인: 대외수요 의존도가 커 외부충격(세계경기 둔화, 보호무역, 원자재가격 급등)에 취약. 고부가가치·서비스·내수확대·수입 대체·공급망 다변화 등으로 위험분산 필요.
  - 정책 제언: 무역구조의 질적 고도

In [7]:
def func1(num):
    if 0 > num:
        return 0
    else:
        return num

def func2(num):
    if num > 0:
        return 0
    else:
        return num

def func3(station):
    num = 0
    for people in station:
        if people == "Off":
            num += 1
    return num

def func4(station):
    num = 0
    for people in station:
        if people == "On":
            num += 1
    return num


def solution(seat, passengers):
    num_passenger = 0
    for station in passengers:
        num_passenger += func4(station)
        num_passenger -= func3(station)

    answer = func2(num_passenger)

    return answer


### URL

In [26]:
url = "https://images.unsplash.com/photo-1507525428034-b723cf961d3e?fm=jpg&q=60&w=3000&ixlib=rb-4.1.0&ixid=M3wxMjA3fDB8MHxzZWFyY2h8Mnx8JUVCJUIwJTk0JUVCJThCJUE0JTIwJUVEJTkyJThEJUVBJUIyJUJEfGVufDB8fDB8fHww"

message = {
    "role":"user",
    "content":[
        {"type":"text","text":"첨부한 이미지를 설명해줘."},
        {
            "type":"image",
            "source_type":"url",
            "url":url
        }
    ]
}
res = model.invoke([message])

In [27]:
print(res.content)

해변의 전경 사진입니다. 수평선 가까이 해가 떠오르거나 지는 시점으로 보이며, 태양빛이 바다와 젖은 모래 위에 따스한 금빛·분홍빛 반사를 만들고 있습니다. 오른쪽에는 에메랄드빛부터 청록빛으로 이어지는 잔잔한 바다가 펼쳐지고, 파도가 모래사장에 부드럽게 밀려와 흰 포말을 남기고 있습니다. 왼쪽 뒤편에는 야자수와 낮은 수목들이 실루엣으로 보이고, 하늘에는 부드러운 분홍·주황빛 구름들이 흩어져 있어 평화롭고 한적한 분위기를 줍니다. 전체적으로 부드러운 파스텔 톤의 색감과 잔잔한 구름, 반사광이 어우러져 고요하고 몽환적인 해변 풍경을 연출합니다.


## PDF

In [28]:
message = {
    "role":"user",
    "content":[
        {"type":"text", "text":"첨부한 pdf 문서의 내용을 요약해줘."},
        {
            "type":"file",
            "source_type":"base64",
            "data":encode_to_base64('data\pdf\SPRi AI Brief 7월호 산업동향.pdf'),
            "mime_type":"application/pdf",
            "filename":"SPRi AI Brief 7월호 산업동향.pdf", # OpenAI는 file 전송시 파일 명을 보내야 한다.
        }
    ]
}
res = model.invoke([message])

  "data":encode_to_base64('data\pdf\SPRi AI Brief 7월호 산업동향.pdf'),


In [29]:
print(res.content)

요약본 — SPRi AI Brief (2025년 7월호)

문서 개요
- 발행기관: 소프트웨어정책연구소(SPRi). 전체 28쪽 분량으로 정책·법제, 기업·산업, 기술·연구, 인력·교육 및 주요 행사일정 등을 다룸.
- 목차: 정책·법제 (OECD, 일본, 美·EU 등), 기업·산업(앤스로픽·애플·미스트랄·AMD·엔비디아 등), 기술·연구(모델 해석·에이전트 안전·월드 모델 등), 인력·교육(인재 유치·고용 영향·보안 우려) — (목차: p.2)

정책·법제 (핵심 내용)
- OECD, AI 역량 지표 공개 (요지: p.4)
  - 언어, 사회적 상호작용, 문제해결, 창의성, 메타인지·비판적 사고, 지식·학습·기억, 시각, 조작, 로봇지능 등 9개 영역에 대해 인간 능력과 비교하는 5단계 척도 제시.
  - 2024년 11월 기준 첨단 AI는 전 영역에서 대체로 2~3단계 수준으로 평가됨.
- 일본, AI 기본법 제정(「AI 관련 기술의 연구개발 및 활용 추진에 관한 법률」) (요지: p.5)
  - AI 기본 계획 수립 및 AI 전략본부 신설 의무화. 연구개발·인재양성·데이터센터 공유 등 촉진, 안전·투명성 강조.
- 일본 방위성, 책임 있는 AI 적용 지침 발표 (요지: p.6)
  - 자율살상무기(LAWS) 연구개발 금지, 고위험 AI 무기는 법적·기술적 심사(2단계 심사) 필요.
- 미국 상무부, AI안전연구소(AISI)를 ‘AI표준혁신센터(CAISI)’로 개편 (요지: p.7)
  - 상용 AI 평가·표준·보안지침 중심의 활동 강조. 과도한 규제 방지와 국제표준 영향력 확보 목표.
- EU 집행위 JRC, 생성 AI 전망 보고서 발간 (요지: p.8)
  - 기술 트렌드(에이전틱/멀티모달/고급추론), 경제·사회 영향, 규제(AI법·GDPR·DSA) 분석 및 정책 제언.

기업·산업 (핵심 내용)
- 앤스로픽(Claude 4: Opus 4 / Sonnet 4) 출시 (요지: p.10)
  - Opus 4: 코딩·에이전트 작업 특화, Sonnet 4: 성

## Audio

## ChatPromptTemplate 을 이용한 멀티모달 Prompt 정의

- ChatPromptTemplate을 이용해 프롬프트 템플릿을 구현한다.
- 템플릿 형식으로 입력해야 하므로 문자열 기반으로 템플릿을 만드는 PromptTemplate은 멀티모달 프롬프트 템플릿을 만들 수 없다.

In [5]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate(
    messages=[
        {
            "role":"user",
            "content":[
                {"type":"text", "text":"주어진 이미지에 대해서 설명해 주세요"},
                {
                    "type":"image",
                    "source_type":"base64",
                    "mime_type":"{image_mime_type}",
                    "data":"{image_data}"
                }
                ]
            }
    ]
)

prompt.input_variables

['image_data', 'image_mime_type']

In [11]:
query = prompt.invoke({
    "image_mime_type":"image/jpeg",
    "image_data":encode_to_base64("data/images/img1.jpg")
})

In [12]:
query

ChatPromptValue(messages=[HumanMessage(content=[{'type': 'text', 'text': '주어진 이미지에 대해서 설명해 주세요'}, {'type': 'image', 'source_type': 'base64', 'mime_type': 'image/jpeg', 'data': '/9j/4TcoRXhpZgAASUkqAAgAAAAIABoBBQABAAAAbgAAABsBBQABAAAAdgAAACgBAwABAAAAAgAAADEBAgAeAAAAfgAAADIBAgAUAAAAnAAAABMCAwABAAAAAgAAABQCBQAGAAAAsAAAAGmHBAABAAAA4AAAALYBAAAsAQAAAQAAACwBAAABAAAAQWRvYmUgUGhvdG9zaG9wIENTNiAoV2luZG93cykAMjAxMzoxMDowMiAwODoxMzozNAAAAAAAAQAAAP8AAAABAAAAgAAAAAEAAAD/AAAAAQAAAIAAAAABAAAA/wAAAAEAAAAMAJ2CBQABAAAAdgEAACeIAwABAAAAZAAAAACQBwAEAAAAMDIyMQOQAgAUAAAAfgEAAASQAgAUAAAAkgEAAAGRBwAEAAAAAQIDAAKSBQABAAAApgEAAAqSBQABAAAArgEAAACgBwAEAAAAMDEwMAGgAwABAAAAAQAAAAKgBAABAAAAoA8AAAOgBAABAAAA/wgAAAAAAAAWAAAAAQAAADIwMTM6MDg6MTMgMTI6MDQ6MTQAMjAxMzowODoxMyAxMjowNDoxNABPF4gAQEIPAP///39OCncKBgADAQMAAQAAAAYAAAAaAQUAAQAAAAQCAAAbAQUAAQAAAAwCAAAoAQMAAQAAAAIAAAABAgQAAQAAABQCAAACAgQAAQAAAAw1AAAAAAAALAEAAAEAAAAsAQAAAQAAAP/Y/9sAQwACAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIC/8Q

In [13]:
from langchain_openai import ChatOpenAI

model = ChatOpenAI(model="gpt-5-mini")
res = model.invoke(query)

In [None]:
print(res.content)