In [1]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()

True

## ChatOpenAI

OpenAI 사의 채팅 전용 Large Language Model(llm) 입니다.

객체를 생성할 때 다음을 옵션 값을 지정할 수 있습니다. 옵션에 대한 상세 설명은 다음과 같습니다.

`temperature`

- 사용할 샘플링 온도는 0과 2 사이에서 선택합니다. 0.8과 같은 높은 값은 출력을 더 무작위하게 만들고, 0.2와 같은 낮은 값은 출력을 더 집중되고 결정론적으로 만듭니다.

`max_tokens`

- 채팅 완성에서 생성할 토큰의 최대 개수입니다.

`model_name`: 적용 가능한 모델 리스트

- 링크: https://platform.openai.com/docs/models


In [3]:
from langchain_openai import ChatOpenAI

# 객체 생성
llm = ChatOpenAI(
    temperature=0,  # 창의성 (0.0 ~ 2.0)
    max_tokens=2048,  # 최대 토큰수
    model_name="gpt-3.5-turbo",  # 모델명
)

# 질의내용
question = "킬리만자로는 어디에 있고, 해발고도가 어떻게 돼? 등반하는데 얼마나 걸려?"

# 질의
print(f"[답변]: {llm.predict(question)}")

[답변]: 킬리만자로는 아프리카 대륙의 동부에 위치한 탄자니아에 있는 킬리만자로 국립공원에 있습니다. 해발고도는 5,895m로 아프리카 대륙에서 가장 높은 산이며 세계에서도 가장 높은 자유로운 스탠딩 산입니다.

킬리만자로를 등반하는 데 걸리는 시간은 개인의 체력과 경험에 따라 다르지만 일반적으로 5~9일 정도 소요됩니다. 가장 인기 있는 등반 경로인 마치메루(Machame) 경로는 약 6~7일이 소요되며, 더 짧은 경로인 마루애(Marangu) 경로는 약 5일이 소요됩니다. 등반 도중에 고도병을 예방하기 위해 충분한 휴식과 수분 섭취가 필요하며, 안전을 위해 경험 많은 가이드와 함께 등반하는 것이 좋습니다.


In [6]:
from langchain_openai import ChatOpenAI
from langchain_anthropic import ChatAnthropic

chatgpt = ChatOpenAI()
anthropic = ChatAnthropic()

ValidationError: 1 validation error for ChatAnthropic
model_name
  field required (type=value_error.missing)

## 프롬프트 템플릿의 활용


`PromptTemplate`

- 사용자의 입력 변수를 사용하여 완전한 프롬프트 문자열을 만드는 데 사용되는 템플릿입니다
- 사용법
  - `template`: 템플릿 문자열입니다. 이 문자열 내에서 중괄호 `{}`는 변수를 나타냅니다.
  - `input_variables`: 중괄호 안에 들어갈 변수의 이름을 리스트로 정의합니다.

`input_variables`

- input_variables는 PromptTemplate에서 사용되는 변수의 이름을 정의하는 리스트입니다.
- 사용법: 리스트 형식으로 변수 이름을 정의합니다.


In [4]:
from langchain.prompts import PromptTemplate

# 질문 템플릿 형식 정의
template = "{country}의 수도는 뭐야?"

# 템플릿 완성
prompt = PromptTemplate.from_template(template=template)
prompt

PromptTemplate(input_variables=['country'], template='{country}의 수도는 뭐야?')

### LLMChain 객체


`LLMChain`

- LLMChain은 특정 PromptTemplate와 연결된 체인 객체를 생성합니다
- 사용법
  - `prompt`: 앞서 정의한 PromptTemplate 객체를 사용합니다.
  - `llm`: 언어 모델을 나타내며, 이 예시에서는 이미 어딘가에서 정의된 것으로 보입니다.


In [7]:
from langchain.chains import LLMChain

# 연결된 체인(Chain)객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

  warn_deprecated(


### run()


`run()` 함수로 템플릿 프롬프트 실행


In [8]:
# 체인 실행: run()
llm_chain.run(country="일본")

  warn_deprecated(


'일본의 수도는 도쿄입니다.'

In [9]:
# 체인 실행: run()
llm_chain.run(country="캐나다")

'캐나다의 수도는 오타와(Ottawa)입니다.'

`predict()` 함수로 `run()` 함수를 대체할 수 있습니다.


In [10]:
llm_chain.predict(country="대한민국")

'대한민국의 수도는 서울이야.'

### apply()

`apply()` 함수로 여러개의 입력에 대한 처리를 한 번에 수행할 수 있습니다.


In [11]:
input_list = [{"country": "호주"}, {"country": "중국"}, {"country": "네덜란드"}]

llm_chain.apply(input_list)

TypeError: unsupported operand type(s) for +=: 'dict' and 'dict'

`text` 키 값으로 결과 뭉치가 반환되었음을 확인할 수 있습니다.

이를 반복문으로 출력한다면 다음과 같습니다.


In [12]:
# input_list 에 대한 결과 반환
result = llm_chain.apply(input_list)

# 반복문으로 결과 출력
for res in result:
    print(res["text"].strip())

TypeError: unsupported operand type(s) for +=: 'dict' and 'dict'

### `generate()`


`generate()` 는 문자열 대신에 LLMResult를 반환하는 점을 제외하고는 apply와 유사합니다.

LLMResult는 토큰 사용량과 종료 이유와 같은 유용한 생성 정보를 자주 포함하고 있습니다.


In [13]:
# 입력값
input_list = [{"country": "호주"}, {"country": "중국"}, {"country": "네덜란드"}]

# input_list 에 대한 결과 반환
generated_result = llm_chain.generate(input_list)
print(generated_result)

TypeError: unsupported operand type(s) for +=: 'dict' and 'dict'

In [14]:
# 답변 출력
generated_result.generations

NameError: name 'generated_result' is not defined

In [15]:
# 토큰 사용량 출력
generated_result.llm_output

NameError: name 'generated_result' is not defined

In [16]:
# run ID 출력
generated_result.run

NameError: name 'generated_result' is not defined

In [17]:
# 답변 출력
for gen in generated_result.generations:
    print(gen[0].text.strip())

NameError: name 'generated_result' is not defined

### 2개 이상의 변수를 템플릿 안에 정의


2개 이상의 변수를 적용하여 템플릿을 생성할 수 있습니다.

이번에는 2개 이상의 변수(`input_variables`) 를 활용하여 템플릿 구성을 해보겠습니다.


In [18]:
# 질문 템플릿 형식 정의
template = "{area1} 와 {area2} 의 시차는 몇시간이야?"

# 템플릿 완성
prompt = PromptTemplate.from_template(template)
prompt

PromptTemplate(input_variables=['area1', 'area2'], template='{area1} 와 {area2} 의 시차는 몇시간이야?')

In [19]:
# 연결된 체인(Chain)객체 생성
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [20]:
# 체인 실행: run()
print(llm_chain.run(area1="서울", area2="파리"))

서울과 파리의 시차는 8시간입니다. 서울은 GMT+9 시간대에 속하고, 파리는 GMT+1 시간대에 속하기 때문에 시차가 8시간입니다.


In [21]:
input_list = [
    {"area1": "파리", "area2": "뉴욕"},
    {"area1": "서울", "area2": "하와이"},
    {"area1": "켄버라", "area2": "베이징"},
]

# 반복문으로 결과 출력
result = llm_chain.apply(input_list)
for res in result:
    print(res["text"].strip())

TypeError: unsupported operand type(s) for +=: 'dict' and 'dict'

## 스트리밍(streaming)

스트리밍 옵션은 질의에 대한 답변을 실시간으로 받을 때 유용합니다.

다음과 같이 `streaming=True` 로 설정하고 스트리밍으로 답변을 받기 위한 `StreamingStdOutCallbackHandler()` 을 콜백으로 지정합니다.


In [22]:
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

# 객체 생성
llm = ChatOpenAI(
    temperature=0,  # 창의성 (0.0 ~ 2.0)
    max_tokens=2048,  # 최대 토큰수
    model_name="gpt-3.5-turbo",  # 모델명
    streaming=True,
    callbacks=[StreamingStdOutCallbackHandler()],
)

In [23]:
# 질의내용
question = "대만 옥산에 대해서 300자 내외로 최대한 상세히 알려줘"

# 스트리밍으로 답변 출력
response = llm.predict(question)

대만 옥산은 대만의 대표적인 관광지로 유명한 산이다. 대만 북부에 위치하고 있으며 해발고도는 약 1120m에 이른다. 옥산은 대만의 5대 명산 중 하나로, 그 아름다운 풍경과 풍부한 자연 생태계로 많은 관광객들이 찾는 곳이다.

옥산은 대만의 대표적인 등산 코스 중 하나로 유명하다. 산 정상에는 대만의 전망을 한눈에 볼 수 있는 전망대가 있어, 많은 사람들이 등산을 통해 정상을 향해 오르며 아름다운 풍경을 감상한다. 또한 옥산 주변에는 다양한 식물과 동물이 서식하고 있어 자연을 만끽할 수 있는 좋은 장소이기도 하다.

또한 옥산 주변에는 다양한 관광 명소들이 있어 더욱 많은 관광객들이 찾는 곳이다. 주변에는 옥산 자연 보호구역, 옥산 온천, 옥산 국립 공원 등이 있어 다양한 즐길 거리를 제공하고 있다.

대만 옥산은 자연의 아름다움과 풍부한 생태계를 경험할 수 있는 최고의 관광지로, 많은 관광객들이 찾는 곳이다. 옥산을 방문하면 힐링과 휴식을 즐기며 자연 속에서 즐거운 시간을 보낼 수 있을 것이다.