In [1]:
# openai
import os
from openai import OpenAI

# api key 발급
# https://platform.openai.com/settings/organization/api-keys
# api key 입력
os.environ['OPENAI_API_KEY'] = ""

# call api
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o-mini", # select model
    temperature=0.1,  # 창의성 (0.0 ~ 2.0)
    messages=[
        {"role": "user", "content": "대한민국의 수도는 어디인가요?"}
    ]
)

result = response.choices[0].message.content
print(result)

대한민국의 수도는 서울입니다.


In [2]:
from langchain_openai import ChatOpenAI

# 객체 생성
llm = ChatOpenAI(
    temperature=0.1,  # 창의성 (0.0 ~ 2.0)
    model_name="gpt-4o",  # 모델명
)

# 질의내용
question = "대한민국의 수도는 어디인가요?"
response = llm.invoke(question)

# 질의
print(f"[답변]: {response.content}")

[답변]: 대한민국의 수도는 서울입니다.


In [3]:
# anthropic
import anthropic

# api key 발급
# https://console.anthropic.com/settings/keys
# api key 입력
os.environ['ANTHROPIC_API_KEY'] = ""

# call api
# API 키 설정
anthropic_client = anthropic.Anthropic()

# 프롬프트 설정
question = "대한민국의 수도는 어디인가요?"

# Claude 모델 호출
response = anthropic_client.messages.create(
    model="claude-3-haiku-20240307",
    max_tokens=500,
    temperature=0.7,
    messages=[{"role": "user", "content": question}]
)

# 응답 출력
print(response.content.)

대한민국의 수도는 서울입니다.

서울은 대한민국의 정치, 경제, 문화의 중심지로, 1394년부터 조선왕조의 수도로 기능해왔습니다. 현재 대한민국 정부의 모든 주요 기관들이 서울에 위치해 있으며, 국회, 청와대, 대법원 등이 자리잡고 있습니다.

서울은 한반도의 중심부에 위치하고 있으며, 한강을 끼고 있어 교통과 물류의 요충지 역할을 해왔습니다. 또한 역사적, 문화적 유산이 풍부하여 대한민국을 대표하는 도시로 자리잡고 있습니다.


In [4]:
from langchain_anthropic import ChatAnthropic

# 모델 로드 
# 모델 상세
# https://docs.anthropic.com/en/docs/about-claude/models#model-comparison-table
llm = ChatAnthropic(
    model="claude-3-haiku-20240307",
    temperature=0.1
)

# 질의내용
question = "대한민국의 수도는 어디인가요?"
response = llm.invoke(question)

# 질의
print(f"[답변]: {response.content}")

[답변]: 대한민국의 수도는 서울입니다.

서울은 대한민국의 정치, 경제, 문화의 중심지로서 1394년부터 조선왕조의 수도로 기능해왔습니다. 현재 대한민국 정부의 모든 주요 기관들이 서울에 위치해 있으며, 국회, 청와대, 대법원 등 국가 주요 기관들이 자리잡고 있습니다.

서울은 한반도의 중심부에 위치하고 있으며, 한강을 끼고 있어 교통과 물류의 요충지 역할을 해왔습니다. 또한 역사적, 문화적 유산이 풍부하고 현대적인 도시 인프라를 갖추고 있어 대한민국을 대표하는 도시로 자리잡고 있습니다.


In [5]:
# streaming

# 객체 생성
llm = ChatOpenAI(
    temperature=0.1,  # 창의성 (0.0 ~ 2.0)
    model_name="gpt-4o",  # 모델명
)

# 스트림 방식으로 질의
# answer 에 스트리밍 답변의 결과를 받습니다.
question = "케이뱅크 DataIntelligence 팀에 대해서 소개해주세요."
answer = llm.stream(question)

# 스트리밍 방식으로 각 토큰을 출력합니다. (실시간 출력)
for token in answer:
    print(token.content, end="", flush=True)

케이뱅크(K Bank)는 대한민국의 인터넷 전문은행 중 하나로, 디지털 금융 서비스를 제공하는 데 중점을 두고 있습니다. Data Intelligence 팀은 이러한 디지털 금융 서비스를 지원하고 강화하기 위해 중요한 역할을 수행합니다. 이 팀의 주요 기능과 역할은 다음과 같습니다.

1. **데이터 분석 및 인사이트 제공**: Data Intelligence 팀은 고객의 행동, 거래 패턴, 시장 트렌드 등을 분석하여 비즈니스 의사결정에 필요한 인사이트를 제공합니다. 이를 통해 케이뱅크는 고객에게 더 나은 서비스를 제공하고 경쟁력을 유지할 수 있습니다.

2. **머신러닝 및 AI 모델 개발**: 팀은 머신러닝과 인공지능 기술을 활용하여 예측 모델을 개발하고, 이를 통해 리스크 관리, 사기 탐지, 개인화된 마케팅 등 다양한 분야에 적용합니다.

3. **데이터 관리 및 품질 보증**: 데이터의 정확성과 일관성을 유지하기 위해 데이터 관리 프로세스를 수립하고, 데이터 품질을 지속적으로 모니터링합니다.

4. **협업 및 지원**: Data Intelligence 팀은 다른 부서와 협력하여 데이터 기반의 프로젝트를 지원하고, 데이터 활용을 극대화할 수 있는 전략을 제안합니다.

5. **기술 혁신 및 도입**: 최신 데이터 기술과 도구를 연구하고 도입하여 데이터 분석 역량을 강화합니다.

이 팀은 데이터 중심의 의사결정을 통해 케이뱅크의 비즈니스 목표를 달성하는 데 중요한 기여를 하고 있습니다.

## LCEL(LangChain Expression Language)
### PromptTemplate
#### Prompt Guide
1. [Anthropic](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/be-clear-and-direct)
2. [OpenAI](https://microsoft.github.io/Workshop-Interact-with-OpenAI-models/ko/)

In [6]:
from langchain_core.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI

from pprint import pprint
import textwrap

system_prompt = textwrap.dedent("""
    당신은 친절하고 유능한 AI 비서입니다. 
    사용자의 질문에 대해 정확하고 유용한 답변을 제공하세요.
""")

human_prompt = textwrap.dedent("""
    {question}
""")

# 시스템 & Human 프롬프트 정의
system_prompt = SystemMessagePromptTemplate.from_template(system_prompt)
human_prompt = HumanMessagePromptTemplate.from_template(human_prompt)

# complete chat prompt
prompt = ChatPromptTemplate.from_messages([system_prompt, human_prompt])
llm = ChatOpenAI(model_name="gpt-4", temperature=0)
output_parser = StrOutputParser()

# define chain (LCEL)
chain = prompt | llm | output_parser

# 테스트 실행
question = "블록체인이 무엇인가요?"

response = chain.invoke({"question": question})

블록체인은 분산 원장 기술로, 거래를 블록으로 기록하고 이러한 블록들을 연결하여 체인을 만드는 방식입니다. 이 기술은 모든 거래를 투명하게 추적하고 검증할 수 있으며, 중앙 집중식 서버나 중개자 없이도 안전하게 데이터를 저장하고 전송할 수 있습니다.

블록체인의 가장 큰 특징은 데이터의 무결성과 보안성입니다. 한번 블록에 기록된 데이터는 수정이 불가능하며, 이는 거래의 신뢰성을 보장합니다. 또한, 블록체인은 네트워크 참여자 모두가 거래 내역을 공유하므로, 중앙화된 데이터베이스에 비해 해킹에 대한 저항성이 높습니다.

이러한 특성으로 인해 블록체인은 금융, 의료, 물류, 부동산 등 다양한 분야에서 활용되고 있습니다. 가장 잘 알려진 블록체인의 활용 사례는 암호화폐인 비트코인입니다.


In [7]:
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser, JsonOutputParser
from langchain_core.prompts import PromptTemplate
from pydantic.v1 import BaseModel

# JSON 데이터 구조를 정의할 Pydantic 모델 생성
class UserInfo(BaseModel):
    name: str
    age: int
    city: str

# JSON Output Parser 생성
output_parser = JsonOutputParser(pydantic_object=UserInfo)

# JSON 출력 지시문 자동 생성
format_instructions = output_parser.get_format_instructions()

print(format_instructions)

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"name": {"title": "Name", "type": "string"}, "age": {"title": "Age", "type": "integer"}, "city": {"title": "City", "type": "string"}}, "required": ["name", "age", "city"]}
```


In [8]:
prompt = PromptTemplate(
    template="다음 질문에 답변하고 JSON 형식으로 반환해 주세요:\n{question}\n\n{format_instructions}",
    input_variables=["question"],
    partial_variables={"format_instructions": format_instructions}  # JSON 출력 지시문 삽입
)
question = "사용자의 이름이 홍길동이고, 나이는 30살, 도시는 서울이라고 가정하고 정보를 반환해 주세요."

print(prompt.format(question="LangChain이 뭐야?"))

다음 질문에 답변하고 JSON 형식으로 반환해 주세요:
LangChain이 뭐야?

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"name": {"title": "Name", "type": "string"}, "age": {"title": "Age", "type": "integer"}, "city": {"title": "City", "type": "string"}}, "required": ["name", "age", "city"]}
```


In [9]:
model = ChatOpenAI(model_name="gpt-4o", 
                   temperature=0.1
                  )

# 체인 구성
chain = prompt | model | output_parser

# 실행
# 테스트 실행
response = chain.invoke({"question": question})

print(response)

{'name': '홍길동', 'age': 30, 'city': '서울'}


In [10]:
type(response)

dict

## Embedding

In [11]:
client = OpenAI()

# 임베딩할 텍스트
text = "인공지능이란 무엇인가?"

# OpenAI Ada Embedding API 호출
response = client.embeddings.create(
    model="text-embedding-ada-002",  # 사용할 임베딩 모델
    input=text
)

# 임베딩 벡터 출력
embedding_vector = response.data[0].embedding
print(embedding_vector)  # 1536차원의 벡터 출력

[0.001782201579771936, -0.01268211379647255, 0.0232288409024477, -0.005751872435212135, -0.024387678131461143, 0.009485543705523014, -0.027135035023093224, 0.020103884860873222, -0.013749807141721249, 0.006318270694464445, 0.0034472171682864428, 0.01171207521110773, -0.016432061791419983, -0.009830591268837452, -6.449290958698839e-05, 0.01123031135648489, 0.0302860327064991, -0.0037173957098275423, 0.008567588403820992, -0.014283653348684311, -0.01471333485096693, 0.0017691808752715588, 0.0016812914982438087, -0.005895099602639675, -0.014895624481141567, 0.004667903296649456, 0.01606748253107071, -0.029817290604114532, 0.008958207443356514, -0.02002575993537903, 0.04322855919599533, -0.0053449771367013454, -0.01789037324488163, -0.010553237050771713, -0.008398319594562054, 0.005781169049441814, 0.02067679353058338, 0.0020474973134696484, 0.024622051045298576, 0.0019107804400846362, 0.0014404094545170665, 0.01095687784254551, 0.008678263984620571, -0.026666292920708656, 0.00220048986375

In [12]:
print(len(embedding_vector))

1536


## Vector DB (Chroma)
- Chroma vs Faiss

In [31]:
import os
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings
from langchain_core.documents import Document

# ChromaDB 로컬 저장 경로 설정
CHROMA_DB_PATH = "chroma_db"

# OpenAI 임베딩 모델 사용
embedding_model = OpenAIEmbeddings()

chroma_db = Chroma(persist_directory=CHROMA_DB_PATH, 
            embedding_function=embedding_model
           )

# 문서 리스트 생성 (메타데이터 포함)
documents = [
    Document(
             page_content = "OpenAI는 인공지능 연구 기업입니다.",
             metadata = {"year": 2023, "category": "AI"}
    ),
    Document(
             page_content = "테슬라는 전기차를 생산합니다.", 
             metadata =  {"year": 2022, "category": "Automotive"}
    ),
    Document(
             page_content =  "ChatGPT는 OpenAI에서 개발한 AI 모델입니다.", 
             metadata =  {"year": 2024, "category": "AI"}
    ),
    Document(
            page_content="애플은 아이폰을 출시했습니다.", 
            metadata={"year": 2021, "category": "Technology"}
    )
]

# ChromaDB 벡터 저장소 생성 및 저장
chroma_db.add_documents(documents)

# 벡터 저장 (로컬 DB로 저장)
chroma_db.persist()

# 삭제
# doc_ids = chroma_db.get()["ids"]
# chroma_db.delete(doc_ids)

In [32]:
# 모든 저장된 데이터 가져오기
data = chroma_db.get(include=["embeddings", "metadatas"])

# 저장된 벡터 개수 확인
print(f"총 저장된 문서 수: {len(data['ids'])}")

# 첫 번째 문서의 정보 확인
print("첫 번째 문서 ID:", data["ids"][0])
print("첫 번째 문서의 벡터 길이:", len(data["embeddings"][0]))
print("첫 번째 문서의 메타데이터:", data["metadatas"][0])


총 저장된 문서 수: 4
첫 번째 문서 ID: af6cce7a-369e-4154-a79a-913bad60915b
첫 번째 문서의 벡터 길이: 1536
첫 번째 문서의 메타데이터: {'category': 'AI', 'year': 2023}


In [33]:
# AI 관련 문서 검색
ai_docs = chroma_db.get(where={"category": "AI"})

# 결과 출력
for doc, meta in zip(ai_docs["documents"], ai_docs["metadatas"]):
    print(f"문서: {doc}")
    print(f"메타데이터: {meta}")
    print("-" * 50)


문서: OpenAI는 인공지능 연구 기업입니다.
메타데이터: {'category': 'AI', 'year': 2023}
--------------------------------------------------
문서: ChatGPT는 OpenAI에서 개발한 AI 모델입니다.
메타데이터: {'category': 'AI', 'year': 2024}
--------------------------------------------------


In [34]:
query = "AI 기업에 대해 설명해줘"

# 유사한 문서 검색
similar_docs = chroma_db.similarity_search(query, k=2, )

# 결과 출력
for doc in similar_docs:
    print(f"문서: {doc.page_content}")
    print(f"메타데이터: {doc.metadata}")
    print("-" * 50)


문서: OpenAI는 인공지능 연구 기업입니다.
메타데이터: {'category': 'AI', 'year': 2023}
--------------------------------------------------
문서: 애플은 아이폰을 출시했습니다.
메타데이터: {'category': 'Technology', 'year': 2021}
--------------------------------------------------


In [35]:
retriever = chroma_db.as_retriever()
retriever.invoke("OpenAI에 대하여 알려줘")

[Document(metadata={'category': 'AI', 'year': 2023}, page_content='OpenAI는 인공지능 연구 기업입니다.'),
 Document(metadata={'category': 'AI', 'year': 2024}, page_content='ChatGPT는 OpenAI에서 개발한 AI 모델입니다.'),
 Document(metadata={'category': 'Technology', 'year': 2021}, page_content='애플은 아이폰을 출시했습니다.'),
 Document(metadata={'category': 'Automotive', 'year': 2022}, page_content='테슬라는 전기차를 생산합니다.')]

In [40]:
# 2023년 데이터 필터링
filtered_documents = [doc for doc in documents if doc.metadata.get('year') == 2023]

# 결과 출력
for doc in filtered_documents:
    print(doc)

page_content='OpenAI는 인공지능 연구 기업입니다.' metadata={'year': 2023, 'category': 'AI'}


In [78]:
# RAG

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain.schema.runnable import RunnablePassthrough
from langchain_core.runnables import RunnableLambda

# 검색기 설정 (사용자 질의 기반 문서 검색)
retriever = chroma_db.as_retriever(search_kwargs={"k": 1})

# Document(
#          page_content = "OpenAI는 인공지능 연구 기업입니다.",
#          metadata = {"year": 2023, "category": "AI"}
# ),
# Document(
#          page_content = "테슬라는 전기차를 생산합니다.", 
#          metadata =  {"year": 2022, "category": "Automotive"}
# ),
# Document(
#          page_content =  "ChatGPT는 OpenAI에서 개발한 AI 모델입니다.", 
#          metadata =  {"year": 2024, "category": "AI"}
# ),
# Document(
#         page_content="애플은 아이폰을 출시했습니다.", 
#         metadata={"year": 2021, "category": "Technology"}
        
# System Prompt 템플릿 정의
system_prompt = """당신은 제공된 문서를 바탕으로만 답변해야 합니다.  
다음 문서를 참고하여 사용자 질문에 정확하고 신뢰할 수 있는 답변을 제공하세요.  
만약 문서에서 답변을 찾을 수 없다면 "제공된 문서에서 관련 정보를 찾을 수 없습니다."라고 응답하세요.

문서 내용:
{context}

질문: {question}
답변:"""

prompt = ChatPromptTemplate.from_template(system_prompt)

# OpenAI LLM 설정
llm = ChatOpenAI(model="gpt-4")

# LCEL 실행 체인 구성
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# 사용자 입력 예시 실행
query = "A에 대하여 알려줘"
response = chain.invoke(query)

print(response)

제공된 문서에서 관련 정보를 찾을 수 없습니다.


## Vector DB (Faiss)

In [41]:
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

# 텍스트로부터 FAISS 벡터 저장소를 생성합니다.
vectorstore = FAISS.from_texts(
    [
        "테디는 랭체인 주식회사에서 근무를 하였습니다.",
        "셜리는 테디와 같은 회사에서 근무하였습니다.",
        "테디의 직업은 개발자입니다.",
        "셜리의 직업은 디자이너입니다.",
    ],
    embedding=OpenAIEmbeddings(),
)
# 벡터 저장소를 검색기로 사용합니다.
retriever = vectorstore.as_retriever()

# 템플릿을 정의합니다.
template = """Answer the question based only on the following context:
{context}

Question: {question}
"""

# 템플릿으로부터 채팅 프롬프트를 생성합니다.
prompt = ChatPromptTemplate.from_template(template)

# ChatOpenAI 모델을 초기화합니다.
model = ChatOpenAI(model_name="gpt-4o-mini")

# 문서를 포맷팅하는 함수
def format_docs(docs):
    return "\n".join([doc.page_content for doc in docs])


# 검색 체인을 구성합니다.
retrieval_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

retrieval_chain.invoke("테디의 직업은 뭐니?")

'테디의 직업은 개발자입니다.'