# 4. 모델(Model)
- 모델 혹은 LLM(Large Language Model) 단계는 이전 프롬프트 단계에서 구성된 입력을 기반으로 대규모 언어 모델을 활용하여 응답을 생성하는 과정
- 이 단계는 RAG 시스템의 핵심적인 부분으로, 언어 모델의 능력을 최대한 활용하여 사용자의 질문에 대해 정확하고 자연스러운 답변을 생성
  

<br>

### LLM의 필요성
- **사용자 의도 이해**: LLM은 다양한 언어의 구조와 의미를 깊이 이해하고 있으며, 이를 바탕으로 복잡한 질문에 답할 수 있음
  - 자연어 이해(NLU)와 자연어 생성(NLG) 능력이 결합되어, 보다 자연스럽고 유익한 응답을 제공

- **문맥적 적응성** : LLM은 주어진 문맥을 고려하여 응답을 생성
  - 이는 사용자의 질문에 더욱 정확하게 대응할 수 있으며, 사전학습된 지식외 사용자가 제공한 정보에 기반한 답변을 문맥을 참고하여 답변

<br>

### LLM의 중요성
- LLM 단계는 사용자의 질문에 대한 답변의 질과 자연스러움을 결정짓는 핵심 요소
  
  LLM은 지금까지의 모든 데이터와 정보를 종합하여 사용자의 질문에 최적화된 답변을 생성 
- LLM의 성능은 RAG 시스템의 전체적인 성능과 사용자 만족도에 직접적으로 영향을 미치며, 이는 RAG 시스템을 사용하는 많은 응용 분야에서 매우 중요한 역할

<br>

<hr>

<br>

## 04-01. 다양한 LLM 모델

In [1]:
from dotenv import load_dotenv
load_dotenv()

True

<br>

### OpenAI
- OpenAI는 채팅 전용 Large Language Model (LLM)을 제공
- 이 모델을 생성할 때 다양한 옵션을 지정할 수 있으며, 이러한 옵션들은 모델의 동작 방식에 영향

<br>

#### 옵션 상세 설명
- `temperature` : 샘플링 온도를 설정하는 옵션
  - 0과 2 사이에서 선택 : 높은 값(예: 0.8)은 출력을 더 무작위하게 만들고, 낮은 값(예: 0.2)은 출력을 더 집중되고 결정론적으로

- `max_tokens` : 채팅 완성에서 생성할 토큰의 최대 개수를 지정
  - 이 옵션은 모델이 한 번에 생성할 수 있는 텍스트의 길이를 제어
- `model_name` : [적용 가능한 모델을 선택하는 옵션](https://platform.openai.com/docs/models)


In [2]:
from langchain_openai import ChatOpenAI

In [6]:
gpt = ChatOpenAI(
    temperature=0,
    model_name="gpt-4o"
)
answer = gpt.stream("사랑이 뭔가요?")
for chunk in answer:
    print(chunk.content, end='', flush=True)

사랑은 매우 복잡하고 다차원적인 감정으로, 사람마다 다르게 정의될 수 있습니다. 일반적으로 사랑은 깊은 애정과 헌신, 그리고 타인에 대한 배려와 이해를 포함하는 감정입니다. 사랑은 가족, 친구, 연인 등 다양한 관계에서 나타날 수 있으며, 각 관계마다 그 형태와 표현 방식이 다를 수 있습니다.

사랑은 또한 사람에게 큰 행복과 만족을 줄 수 있지만, 때로는 고통과 어려움을 동반하기도 합니다. 사랑은 인간의 삶에서 중요한 부분을 차지하며, 문학, 예술, 음악 등 다양한 분야에서 영감의 원천이 되기도 합니다.

<br>

### Anthropic
- Anthropic은 인공지능(AI) 안전성과 연구에 중점을 둔 미국의 스타트업

  - 설립 연도: 2021년
  - 위치: 미국 샌프란시스코
  - 창립자: OpenAI 출신 직원들 (Daniela Amodei와 Dario Amodei 등)
  - 기업 형태: 공익기업(Public Benefit Corporation)으로 등록

<br>

#### Claude
- Claude는 Anthropic의 대표적인 대규모 언어 모델(LLM) 제품군
    - API 키 발급: https://console.anthropic.com/settings/keys
    - 모델 리스트: https://docs.anthropic.com/en/docs/about-claude/models

<br>

```python
from langchain_anthropic import ChatAnthropic
from langchain_core.messages import HumanMessage

anthropic = ChatAnthropic(model_name="claude-3-5-sonnet-20241022")
stream = anthropic.stream([HumanMessage(content="사랑이 뭔가요?")])

for chunk in stream:
    print(chunk.content or chunk.delta, end='', flush=True)
```

<br>

### Perplexity
- https://www.perplexity.ai/

<br>

* API 키 발급 후 `.env` 파일에 키 저장

```env
PPLX_API_KEY=이곳에 API 키를 입력하세요.
```

<br>

#### 매개변수
- `model` : 사용할 언어 모델을 지정 (예: "llama-3.1-sonar-small-128k-online") - 기본 성능과 능력을 결정.

- `temperature` : 응답의 무작위성을 조절 (0.0-1.0), 0은 결정적, 1은 가장 무작위한 응답 생성.

- `top_p` : 토큰 샘플링의 확률 임계값 설정 (0.0-1.0), 높을수록 더 다양한 출력 허용.

- `search_domain_filter` : 검색 결과를 지정된 도메인으로 제한, 리스트 형태로 제공 (예: ["perplexity.ai"]).

- `return_images` : 응답에 이미지 포함 여부를 결정하는 불리언 플래그.

- `return_related_questions` : 관련 질문 제안 기능을 활성화/비활성화하는 불리언 플래그.

- `top_k` : 사용할 검색 결과의 수 제한 (0은 제한 없음을 의미).

- `streaming` : 응답을 스트리밍으로 받을지 완성된 형태로 받을지 결정하는 불리언 플래그.

- `presence_penalty` : 토큰 반복에 대한 페널티 (-2.0에서 2.0), 높을수록 재사용을 억제.

- `frequency_penalty` : 일반적/희귀 토큰 선호도 조정 (-2.0에서 2.0), 높을수록 희귀 토큰 선호.

<br>

```python
from langchain_teddynote.models import ChatPerplexity

perplexity = ChatPerplexity(
    model="llama-3.1-sonar-large-128k-online",
    temperature=0.2,
    top_p=0.9,
    search_domain_filter=["perplexity.ai"],
    return_images=False,
    return_related_questions=True,
    # search_recency_filter="month",
    top_k=0,
    streaming=False,
    presence_penalty=0,
    frequency_penalty=1,
)

response = perplexity.invoke("2024년 노벨문학상 수상자를 조사해 주세요")
print(response.content)

print()
for i, citation in enumerate(response.citations):
    print(f"[{i+1}] {citation}")

# 스트리밍 출력
response = perplexity.stream("2024년 노벨문학상 수상자를 조사해 주세요")

for token in response:
    print(token.content, end="", flush=True)

print("\n")
for i, citation in enumerate(token.citations):
    print(f"[{i+1}] {citation}")

```

<br>

<hr>

<br>

## 04-02. 캐싱(Cache)
- LangChain은 LLM을 위한 선택적 캐싱 레이어를 제공
    - 동일한 완료를 여러 번 요청하는 경우 LLM 공급자에 대한 API 호출 횟수를 줄여 비용을 절감
    - LLM 제공업체에 대한 API 호출 횟수를 줄여 애플리케이션의 속도를 높일 수 있음

<br>

* 모델과 프롬프트를 생성



In [8]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import PromptTemplate

In [9]:
llm = ChatOpenAI(model_name="gpt-3.5-turbo")
prompt = PromptTemplate.from_template("{country} 에 대해서 200자 내외로 요약해줘")
chain = prompt | llm

response = chain.invoke({"country": "한국"})
print(response.content)

한국은 동아시아에 위치한 고도 경제성장을 이룬 선진국가로, 서울을 수도로 하는 대한민국과 평양을 수도로 하는 북한으로 이루어져 있다. 한반도에 위치하며 미세먼지 등 환경문제, 북한과의 관계, 남북간의 경제 협력 등 다양한 이슈를 안고 있다. 전통적인 문화와 현대화된 도시 모습을 동시에 보여주며 K-pop, K-drama 등 문화 콘텐츠로 세계적인 인기를 누리고 있다. 또한 IT 산업과 자동차 산업 등 다양한 산업 분야에서 선두를 달리고 있으며, 한류 열풍으로 인해 관광 산업도 크게 성장하고 있다.


<br>

### `InMemoryCache`
- 인메모리 캐시를 사용하여 동일 질문에 대한 답변을 저장하고, **캐시에 저장된 답변을 반환**

In [10]:
from langchain.globals import set_llm_cache
from langchain.cache import InMemoryCache

- 인메모리 캐시 사용

In [11]:
set_llm_cache(InMemoryCache())

- 1.9초

In [12]:
response = chain.invoke({"country": "한국"})
print(response.content)

한반도의 동쪽에 위치한 대한민국은 수도인 서울을 중심으로 현대화된 도시와 전통적인 문화가 공존하는 나라이다. 미세먼지와 같은 환경문제와 경제 성장, 사회 불평등 등 다양한 과제를 안고 있는 동시에 K-pop, K-drama 같은 대중문화 콘텐츠로 국제적으로 큰 인기를 얻고 있다. 또한 한류와 한식, 한국어 등을 통해 한국문화에 대한 글로벌 관심이 높아지고 있다. 정치적으로는 북한과의 관계 개선을 모색하고 있으며, 경제적으로는 기술혁신과 산업 발전을 통해 세계적인 경쟁력을 확보하고 있다. 현재는 코로나19 대응과 함께 미래를 준비하는 중요한 시기에 있다.


- 동일한 질문 다시 $\rightarrow$ 0.0초

In [13]:
response = chain.invoke({"country": "한국"})
print(response.content)

한반도의 동쪽에 위치한 대한민국은 수도인 서울을 중심으로 현대화된 도시와 전통적인 문화가 공존하는 나라이다. 미세먼지와 같은 환경문제와 경제 성장, 사회 불평등 등 다양한 과제를 안고 있는 동시에 K-pop, K-drama 같은 대중문화 콘텐츠로 국제적으로 큰 인기를 얻고 있다. 또한 한류와 한식, 한국어 등을 통해 한국문화에 대한 글로벌 관심이 높아지고 있다. 정치적으로는 북한과의 관계 개선을 모색하고 있으며, 경제적으로는 기술혁신과 산업 발전을 통해 세계적인 경쟁력을 확보하고 있다. 현재는 코로나19 대응과 함께 미래를 준비하는 중요한 시기에 있다.


<br>

### SQLite Cache


In [14]:
from langchain_community.cache import SQLiteCache
from langchain_core.globals import set_llm_cache
import os

- 캐시 디렉토리 생성

In [15]:
if not os.path.exists("cache"):
    os.makedirs("cache")

- SQLiteCache를 사용

In [16]:
set_llm_cache(SQLiteCache(database_path="cache/llm_cache.db"))

- 1.9초

In [17]:
response = chain.invoke({"country": "한국"})
print(response.content)

한국은 동아시아에 위치한 대한민국과 조선민주주의인민공화국으로 나뉜 국가이다. 대한민국은 민주주의를 기반으로 한 고도의 경제 성장을 이룩한 선진국가이며 IT 기술과 자동차 산업 등이 세계적으로 유명하다. 또한 한류 열풍으로 한국 문화도 세계적으로 인기를 끌고 있다. 반면 조선민주주의인민공화국은 공산주의 체제를 유지하고 있으며 국제 사회와의 교류가 제한되어 있으며 인권 문제와 미사일 개발로 논란이 지속되고 있다. 함께 한반도를 이루는 두 국가는 과거의 역사와 정치적인 이슈로 계속해서 관심을 받고 있다.


- 동일한 질문 다시 $\rightarrow$ 0.0초

In [18]:
response = chain.invoke({"country": "한국"})
print(response.content)

한국은 동아시아에 위치한 대한민국과 조선민주주의인민공화국으로 나뉜 국가이다. 대한민국은 민주주의를 기반으로 한 고도의 경제 성장을 이룩한 선진국가이며 IT 기술과 자동차 산업 등이 세계적으로 유명하다. 또한 한류 열풍으로 한국 문화도 세계적으로 인기를 끌고 있다. 반면 조선민주주의인민공화국은 공산주의 체제를 유지하고 있으며 국제 사회와의 교류가 제한되어 있으며 인권 문제와 미사일 개발로 논란이 지속되고 있다. 함께 한반도를 이루는 두 국가는 과거의 역사와 정치적인 이슈로 계속해서 관심을 받고 있다.


<br>

<hr>

<br>

### 모델 직렬화(Serialization) - 저장 및 불러오기

<br>

### 직렬화(Serialization)
- **모델을 저장 가능한 형식으로 변환하는 과정**
  - 모델 재사용 (재훈련 없이)
  - 모델 배포 및 공유 용이
  - 계산 리소스 절약
  - 빠른 모델 로딩
  - 버전 관리 가능
  - 다양한 환경에서 사용 가능
- 모델 직렬화는 AI 개발 및 배포 과정에서 중요한 단계로, 효율적인 모델 관리와 재사용을 가능하게 함

<br>

#### `is_lc_serializable` 클래스 메서드로 실행하여 LangChain 클래스가 직렬화 가능한지 확인

In [19]:
import os
from langchain_openai import ChatOpenAI
from langchain.prompts import PromptTemplate

In [20]:
prompt = PromptTemplate.from_template("{fruit}의 색상이 무엇입니까?")

- llm 객체에 대하여 직렬화 가능 여부를 확인

In [21]:
print(f"ChatOpenAI: {ChatOpenAI.is_lc_serializable()}")

ChatOpenAI: True


- chain 객체에 대하여 직렬화 가능 여부를 확인

In [22]:
chain = prompt | llm
chain.is_lc_serializable()

True

<br>

#### 체인(Chain) 직렬화(dumps, dumpd)
- **체인 직렬화는 직렬화 가능한 모든 객체를 딕셔너리 또는 JSON 문자열로 변환하는 과정을 의미**

<br>

- **직렬화 방법**
  - 객체의 속성 및 데이터를 키-값 쌍으로 저장하여 딕셔너리 형태로 변환
  - 이러한 직렬화 방식은 객체를 쉽게 저장하고 전송할 수 있게 하며, 다양한 환경에서 객체를 재구성할 수 있도록 함

<br>


- `dumpd`: 객체를 딕셔너리로 직렬화

In [23]:
from langchain_core.load import dumpd, dumps

dumpd_chain = dumpd(chain)
dumpd_chain

{'lc': 1,
 'type': 'constructor',
 'id': ['langchain', 'schema', 'runnable', 'RunnableSequence'],
 'kwargs': {'first': {'lc': 1,
   'type': 'constructor',
   'id': ['langchain', 'prompts', 'prompt', 'PromptTemplate'],
   'kwargs': {'input_variables': ['fruit'],
    'template': '{fruit}의 색상이 무엇입니까?',
    'template_format': 'f-string'},
   'name': 'PromptTemplate'},
  'last': {'lc': 1,
   'type': 'constructor',
   'id': ['langchain', 'chat_models', 'openai', 'ChatOpenAI'],
   'kwargs': {'model_name': 'gpt-3.5-turbo',
    'openai_api_key': {'lc': 1, 'type': 'secret', 'id': ['OPENAI_API_KEY']},
    'output_version': 'v0'},
   'name': 'ChatOpenAI'}},
 'name': 'RunnableSequence'}

In [24]:
type(dumpd_chain)

dict

- `dumps`: 객체를 JSON 문자열로 직렬화

In [25]:
dumps_chain = dumps(chain)
dumps_chain

'{"lc": 1, "type": "constructor", "id": ["langchain", "schema", "runnable", "RunnableSequence"], "kwargs": {"first": {"lc": 1, "type": "constructor", "id": ["langchain", "prompts", "prompt", "PromptTemplate"], "kwargs": {"input_variables": ["fruit"], "template": "{fruit}\\uc758 \\uc0c9\\uc0c1\\uc774 \\ubb34\\uc5c7\\uc785\\ub2c8\\uae4c?", "template_format": "f-string"}, "name": "PromptTemplate"}, "last": {"lc": 1, "type": "constructor", "id": ["langchain", "chat_models", "openai", "ChatOpenAI"], "kwargs": {"model_name": "gpt-3.5-turbo", "openai_api_key": {"lc": 1, "type": "secret", "id": ["OPENAI_API_KEY"]}, "output_version": "v0"}, "name": "ChatOpenAI"}}, "name": "RunnableSequence"}'

In [26]:
type(dumps_chain)

str

<br>

### `Pickle` 파일
- Pickle 파일은 Python 객체를 바이너리 형태로 직렬화하는 포맷
  - Python 전용 (다른 언어와 호환 불가)
  - 대부분의 Python 데이터 타입 지원 (리스트, 딕셔너리, 클래스 등)
  - 객체의 상태와 구조를 그대로 보존

- 보안 위험 (신뢰할 수 없는 데이터 역직렬화 시 주의 필요)
- 사람이 읽을 수 없는 바이너리 형식
- 용도
  - 객체 캐싱
  - 머신러닝 모델 저장
  - 프로그램 상태 저장 및 복원

<br>

- `pickle.dump()`: 객체를 파일에 저장

In [27]:
import pickle

with open("./data/fruit_chain.pkl", "wb") as f:
    pickle.dump(dumpd_chain, f)

In [28]:
import json

with open("./data/fruit_chain.json", "w") as fp:
    json.dump(dumpd_chain, fp)

<br>

- `pickle.load()`: 파일에서 객체 로드

In [29]:
from langchain_core.load import load

In [36]:
with open("./data/fruit_chain.pkl", "rb") as f:
    loaded_chain = pickle.load(f)
    
load_chain = load(
    loaded_chain, secrets_map={"OPENAI_API_KEY": os.environ["OPENAI_API_KEY"]}
)
load_chain.invoke({"fruit": "사과"})

AIMessage(content='사과의 색상은 주로 빨간색이지만, 녹색, 황색, 주황색 등 다양한 색상의 사과도 존재합니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 50, 'prompt_tokens': 24, 'total_tokens': 74, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-CM80Q4kmkZr7DcHqWYT1sqG3aYM2S', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--dc1140f8-97af-4a2d-bb59-9e5c955ed133-0', usage_metadata={'input_tokens': 24, 'output_tokens': 50, 'total_tokens': 74, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}, 'total_cost': 0})

In [37]:
with open("./data/fruit_chain.json", "r") as fp:
    loaded_from_json_chain = json.load(fp)
    loads_chain = load(loaded_from_json_chain)

loads_chain.invoke({"fruit": "사과"})

AIMessage(content='사과의 색상은 주로 빨간색이지만, 녹색, 황색, 주황색 등 다양한 색상의 사과도 존재합니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 50, 'prompt_tokens': 24, 'total_tokens': 74, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-3.5-turbo-0125', 'system_fingerprint': None, 'id': 'chatcmpl-CM80Q4kmkZr7DcHqWYT1sqG3aYM2S', 'service_tier': 'default', 'finish_reason': 'stop', 'logprobs': None}, id='run--dc1140f8-97af-4a2d-bb59-9e5c955ed133-0', usage_metadata={'input_tokens': 24, 'output_tokens': 50, 'total_tokens': 74, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}, 'total_cost': 0})

<br>

<hr>

<br>

## 04-04. 토큰 사용량 확인
- 이 기능은 현재 OpenAI API 에만 구현



In [38]:
from langchain.callbacks import get_openai_callback
from langchain_openai import ChatOpenAI

In [39]:
llm = ChatOpenAI(model_name="gpt-4o")

<br>

#### `with get_openai_callback()` 구문안에서 실행되는 모든 토큰 사용량/요금이 추적

In [41]:
with get_openai_callback() as cb:
    result = llm.invoke("대한민국의 수도는 어디야?")
    result = llm.invoke("대한민국의 수도는 어디야?")
    print(f"총 사용된 토큰수: \t\t{cb.total_tokens}")
    print(f"프롬프트에 사용된 토큰수: \t{cb.prompt_tokens}")
    print(f"답변에 사용된 토큰수: \t{cb.completion_tokens}")
    print(f"호출에 청구된 금액(USD): \t${cb.total_cost}")

총 사용된 토큰수: 		46
프롬프트에 사용된 토큰수: 	30
답변에 사용된 토큰수: 	16
호출에 청구된 금액(USD): 	$0.00023500000000000002


<br>

<hr>

<br>

## 04-05. 구글 생성 AI(Google Generative AI)

<br>

### Google AI chat models (gemini-pro)
- Google AI의 `gemini`와 `gemini-vision` 모델뿐만 아니라 다른 생성 모델에 접근하려면 `langchain-google-genai` 통합 패키지의 `ChatGoogleGenerativeAI` 클래스를 사용

<br>

```bash
pip install -qU langchain-google-genai
```

<br>

### API KEY
- https://aistudio.google.com/app/api-keys
- `.env`에 환경변수 추가 `GOOGLE_API_KEY`

In [45]:
from dotenv import load_dotenv

load_dotenv()

True

- `langchain_google_genai` 패키지에서 `ChatGoogleGenerativeAI` 클래스를 호출
    - `ChatGoogleGenerativeAI` 클래스는 Google의 Generative AI 모델을 사용하여 대화형 AI 시스템을 구현하는 데 사용
    - 모델과의 대화는 채팅 형식으로 이루어지며, 사용자의 입력에 따라 모델이 적절한 응답을 생성
    - `ChatGoogleGenerativeAI` 클래스는 `LangChain` 프레임워크와 통합되어 있어, 다른 LangChain 컴포넌트와 함께 사용 가능
- 지원되는 모델 정보 : https://ai.google.dev/gemini-api/docs/models/gemini?hl=ko



In [46]:
from langchain_google_genai import ChatGoogleGenerativeAI

In [48]:
llm = ChatGoogleGenerativeAI(model="gemini-2.0-flash-lite-001")
answer = llm.stream("자연어처리에 대해서 간략히 설명해 줘")

for chunk in answer:
    print(chunk.content, end='', flush=True)

## 자연어 처리 (Natural Language Processing, NLP) 간략 설명

자연어 처리는 **컴퓨터가 인간의 언어 (자연어)를 이해하고, 처리하고, 생성할 수 있도록 하는 기술**입니다. 쉽게 말해, 컴퓨터가 사람의 말을 알아듣고, 그 의미를 파악해서, 필요한 작업을 수행하거나 사람처럼 말할 수 있게 하는 분야입니다.

**핵심 목표:**

*   **이해 (Understanding):** 텍스트나 음성 언어의 의미, 맥락, 의도를 파악합니다.
*   **생성 (Generation):** 인간의 언어와 유사한 텍스트나 음성을 만들어냅니다.

**주요 기술:**

*   **텍스트 분석 (Text Analysis):**
    *   **토큰화 (Tokenization):** 문장을 단어, 구, 문장 등으로 쪼개는 과정.
    *   **형태소 분석 (Morphological Analysis):** 단어의 형태를 분석 (어근, 접사, 어미 등).
    *   **구문 분석 (Parsing):** 문장의 문법 구조를 분석 (주어, 동사, 목적어 등).
    *   **의미 분석 (Semantic Analysis):** 단어와 문장의 의미를 파악.
*   **자연어 생성 (Natural Language Generation):**
    *   **텍스트 생성:** 주어진 정보나 데이터를 바탕으로 텍스트를 생성.
    *   **대화 시스템 (Dialogue Systems):** 챗봇 등과 같은 대화형 시스템 개발.
*   **기계 번역 (Machine Translation):** 한 언어를 다른 언어로 번역.
*   **정보 검색 (Information Retrieval):** 원하는 정보를 검색.
*   **감성 분석 (Sentiment Analysis):** 텍스트의 감정 (긍정, 부정, 중립)을 파악.
*   **질의 응답 (Question Answering):** 질문에 대한 답을 찾아 제시.
*   **텍스트 요약 (Text Sum

In [49]:
from langchain_core.prompts import PromptTemplate

In [50]:
model = ChatGoogleGenerativeAI(model="gemini-2.0-flash-lite-001")
prompt = PromptTemplate.from_template(
    "예/아니오 질문에 대답하세요. {question}는 과일입니까?"
)

chain = prompt | model

for chunk in chain.stream({"question": "사과"}):
    print(chunk.content, end='', flush=True)

예.

<br>

### [Safety Settings](https://ai.google.dev/gemini-api/docs/safety-settings?hl=ko)
- Gemini 모델에는 기본 안전 설정(Satety Settings) 이 있지만, 이를 재정의 가능
    - 만약 모델로부터 많은 "Safety Warnings"를 받고 있다면, 모델의 `safety_settings` 속성을 조정
- Google의 Safety Setting Types 문서에서는 사용 가능한 카테고리와 임계값에 대한 열거형 정보를 제공

  - 이 문서에는 콘텐츠 필터링 및 안전 설정과 관련된 다양한 카테고리와 해당 임계값이 정의되어 있어, 개발자들이 생성형 AI 모델을 활용할 때 적절한 안전 설정을 선택하고 적용하는 데 도움

    $\rightarrow$ 모델이 생성하는 콘텐츠의 안전성과 적절성을 보장하고, 사용자에게 유해하거나 부적절한 내용이 노출되는 것을 방지
  

In [51]:
from langchain_google_genai import (
    ChatGoogleGenerativeAI,
    HarmBlockThreshold,
    HarmCategory,
)

In [52]:
llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash-lite-001",
    safety_settings={
        # 위험한 콘텐츠에 대한 차단 임계값을 설정
        # 이 경우 위험한 콘텐츠를 차단하지 않도록 설정 (그럼에도 기본적인 차단이 있을 수 있음.)
        HarmCategory.HARM_CATEGORY_SEXUALLY_EXPLICIT: HarmBlockThreshold.BLOCK_NONE,
        HarmCategory.HARM_CATEGORY_HATE_SPEECH: HarmBlockThreshold.BLOCK_NONE,
        HarmCategory.HARM_CATEGORY_HARASSMENT: HarmBlockThreshold.BLOCK_NONE,
        HarmCategory.HARM_CATEGORY_DANGEROUS_CONTENT: HarmBlockThreshold.BLOCK_NONE,
    },
)

<br>

### Batch 단위 실행

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI

In [54]:
llm = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash-lite-001",
)

In [55]:
results = llm.batch(
    [
        "대한민국의 수도는?",
        "대한민국의 주요 관광지 5곳을 나열하세요",
    ]
)

for res in results:
    print(res.content)

대한민국의 수도는 **서울**입니다.
대한민국의 주요 관광지 5곳은 다음과 같습니다:

1.  **경복궁 (서울)**: 조선 시대의 정궁으로, 아름다운 궁궐 건축과 정원을 감상할 수 있습니다. 특히 봄에는 벚꽃, 가을에는 단풍이 어우러져 더욱 아름다운 풍경을 자랑합니다.

2.  **해운대 (부산)**: 넓은 백사장과 시원한 바다를 만끽할 수 있는 해변으로, 다양한 해양 레저 활동과 축제를 즐길 수 있습니다. 밤에는 화려한 야경도 볼 수 있습니다.

3.  **불국사 & 석굴암 (경주)**: 신라 시대의 불교 문화 유적지로, 유네스코 세계문화유산으로 지정되어 있습니다. 섬세한 건축 양식과 역사적 가치를 느낄 수 있습니다.

4.  **남산 & N서울타워 (서울)**: 서울의 랜드마크로, 서울 시내를 한눈에 조망할 수 있는 전망대와 다양한 볼거리가 있습니다. 케이블카를 타고 올라가는 낭만적인 경험도 할 수 있습니다.

5.  **제주도 (제주)**: 아름다운 자연 경관을 자랑하는 섬으로, 한라산, 성산일출봉, 용머리 해안 등 다채로운 볼거리가 있습니다. 올레길을 따라 걷는 트레킹도 인기 있습니다.


<br>

### Multimodal 모델

In [61]:
import base64

In [62]:
gemini = ChatGoogleGenerativeAI(
    model="gemini-2.0-flash-lite-001",
)

system_prompt = (
    "당신은 시인입니다. 당신의 임무는 주어진 이미지를 가지고 시를 작성하는 것입니다."
)

user_prompt = "다음의 이미지에 대한 시를 작성해주세요."

IMAGE_URL = "images/jeju-beach.jpg"


with open(IMAGE_URL, "rb") as f:
    img_base64 = base64.b64encode(f.read()).decode()

image_data_uri = f"data:image/png;base64,{img_base64}"

In [63]:
for chunk in gemini.stream(
    [
        {"role": "system", "content": system_prompt},
        {
            "role": "user",
            "content": [
                {"type": "text", "text": user_prompt},
                {"type": "image_url", "image_url": {"url": image_data_uri}}
            ]
        }
    ]):
    
    if chunk.content:
        print(chunk.content, end="", flush=True)

물결이 부드럽게 부서지고,
하늘이 맑고 파랗다.
멀리 솟아오른 섬,
이 세상에 홀로 우뚝 솟아 있다.

에메랄드 빛 바다는 속삭이며,
해안선이 부드럽게 춤을 춘다.
부드러운 모래가 발가락 사이로 미끄러져 내려가고,
평화로운 풍경이 마음을 사로잡는다.

햇빛이 따뜻하게 비추고,
자연의 부드러운 포옹.
이 고요한 순간,
단순한 기쁨을 찾아서.

<br>

<hr>

<br>

## 04-06. 허깅페이스 엔드포인트(HuggingFace Endpoints)

<br>

### Huggingface Endpoints
- Hugging Face Hub은 12만 개 이상의 모델, 2만 개의 데이터셋, 5만 개의 데모 앱(Spaces)을 보유한 플랫폼으로, 모두 오픈 소스이며 공개적으로 사용 가능
- Hugging Face Hub은  다양한 ML 애플리케이션을 구축하기 위한 다양한 엔드포인트를 제공
    
    특히, 텍스트 생성 추론은 Text Generation Inference에 의해 구동. 이는 매우 빠른 텍스트 생성 추론을 위해 맞춤 제작된 Rust, Python, gRPC 서버

<br>

### 허깅페이스 토큰 발급
- 토큰 발급주소: https://huggingface.co/docs/hub/security-tokens

<br>

### 참고 모델 리스트
- 허깅페이스 LLM 리더보드: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 모델 리스트: https://huggingface.co/models?pipeline_tag=text-generation&sort=downloads
- LogicKor 리더보드: https://lk.instruct.kr/

<br>

```bash
pip install -qU huggingface_hub
```

- `.env` 파일에 발급받은 토큰을 `HUGGINGFACEHUB_API_TOKEN` 을 저장


In [1]:
from dotenv import load_dotenv

load_dotenv()

True

- 허깅페이스 토큰을 입력

In [2]:
from huggingface_hub import login

login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

- 프롬프트 생성

In [3]:
from langchain.prompts import PromptTemplate

In [4]:
template = """<|system|>
You are a helpful assistant.<|end|>
<|user|>
{question}<|end|>
<|assistant|>"""

prompt = PromptTemplate.from_template(template)

<br>

### Serverless Endpoints
- Inference API 는 무료로 사용할 수 있으며 요금은 제한되어 있습니다. 
  - 프로덕션을 위한 추론 솔루션이 필요한 경우, Inference Endpoints 서비스를 확인
- Inference Endpoints 를 사용하면 모든 머신 러닝 모델을 전용 및 완전 관리형 인프라에 손쉽게 배포할 수 있으며
    
    클라우드, 지역, 컴퓨팅 인스턴스, 자동 확장 범위 및 보안 수준을 선택하여 모델, 지연 시간, 처리량 및 규정 준수 요구 사항에 맞게 설정 가능
    
- [Serverless Endpoints](https://huggingface.co/docs/inference-providers/index)
- [Inference Endpoints](https://huggingface.co/docs/inference-endpoints/index)

<br>

- `repo_id` 변수에 HuggingFace 모델의 repo ID(저장소 ID) 를 할당
  - `microsoft/Phi-3-mini-4k-instruct` 모델: https://huggingface.co/microsoft/Phi-3-mini-4k-instruct

In [5]:
import os
from langchain_core.output_parsers import StrOutputParser
from langchain_huggingface import HuggingFaceEndpoint

- 사용할 모델의 저장소 ID를 설정

In [6]:
repo_id = "beomi/llama-2-ko-7b"

In [7]:
llm = HuggingFaceEndpoint(
    repo_id=repo_id,  # 모델 저장소 ID를 지정
    max_new_tokens=256,  # 생성할 최대 토큰 길이를 설정
    temperature=0.1,
    huggingfacehub_api_token=os.environ["HUGGINGFACEHUB_API_TOKEN"],  # 허깅페이스 토큰
)

In [8]:
chain = prompt | llm | StrOutputParser()

In [None]:
response = chain.invoke({"question": "what is the capital of South Korea?"})

print(response)



HfHubHTTPError: 404 Client Error: Not Found for url: https://router.huggingface.co/hf-inference/models/beomi/llama-2-ko-7b (Request ID: Root=1-68de3ac4-08ac63b201bd5e2f72e2e893;156f21c0-29f1-4147-9020-355285ba4aad)