In [1]:
import openai
import json
import os

from langchain.chat_models import AzureChatOpenAI
from langchain.schema import HumanMessage
from langchain import LLMChain

from dotenv import load_dotenv

import warnings, os

warnings.filterwarnings('ignore')
load_dotenv('lc_study.env')

True

### LLM 연동 (교재는 OpenAI GPT이나 여기서는 Azure OpenAI GPT로 진행)

In [2]:
os.environ['OPENAI_API_TYPE'] = os.getenv('API_TYPE')
os.environ['OPENAI_API_VERSION'] = os.getenv('API_VER')
os.environ['OPENAI_API_KEY'] = os.getenv('OPENAI_API_KEY')
os.environ['OPENAI_API_BASE'] = os.getenv('OPENAI_API_BASE')

llm = AzureChatOpenAI(
    deployment_name='GPT4-Test',
)

# llm.invoke 대체 가능
llm([HumanMessage(content="나에게 시를 하나 써줘")]) 

AIMessage(content='물결처럼 부드럽게,\n너의 마음에 속삭이는 바람결에,\n시 한 편을 남기렴.\n\n그대 발자국마다 피어나는 꽃이 되어,\n삶의 길목마다 조용히 내음을 품고,\n그대 슬픔과 기쁨, 나눌 수 있게.\n\n하늘을 우러러 한 점 부끄럼 없는,\n그대의 순수한 눈빛을 담아,\n별빛으로 촘촘히 수놓은 밤하늘을 그리네.\n\n흐르는 강물처럼 자유로운 영혼으로,\n우리의 꿈들을 끝없이 헤엄쳐 가며,\n포근한 안식의 숲을 찾아가리.\n\n나무잎 사이로 빛나는 햇살처럼,\n그대의 미소가 세상을 밝히듯,\n이 시가 그대의 마음에 조용히 스며들길.', response_metadata={'token_usage': {'completion_tokens': 311, 'prompt_tokens': 19, 'total_tokens': 330}, 'model_name': 'gpt-4', 'system_fingerprint': 'fp_811936bd4f', 'finish_reason': 'stop', 'logprobs': None}, id='run-5e14f77a-9481-4023-9c8d-d024c5373a8f-0')

In [3]:
llm.invoke('시 써줘')

AIMessage(content='무한한 상상의 나래를 펼쳐  \n바람에 실려 오는 노래  \n하늘을 수놓는 별빛들 사이로  \n잠시 머물다 가는 꿈의 이야기\n\n흐르는 강물처럼 자유롭게  \n시간을 따라 흘러가는 삶  \n가끔은 멈춰 서서 돌아보며  \n잊혀진 추억을 그리워하네\n\n푸른 초원 위에 펼쳐진  \n넓고도 깊은 하늘 아래  \n때론 조용히 때론 뜨겁게  \n살아가는 우리들의 이야기\n\n꽃잎에 맺힌 아침 이슬처럼  \n새로운 시작의 상큼함을  \n마음 가득히 담아두고서  \n오늘도 걸어가는 여정 속으로\n\n어둠이 내릴 때면 다시  \n별들이 길을 비추어주고  \n힘겨운 하루 끝에 만나는  \n조용한 밤의 위로가 되어주네\n\n흔들리는 촛불 빛처럼  \n잠시 밝다 사라지는 순간들  \n하지만 그 속에 영원히 남는  \n소중한 기억들을 새겨가며\n\n우리들은 계속 걸어가네  \n변하지 않는 하나의 진실을 찾아서  \n세상 모든 아름다움과 슬픔을 품으며  \n시간 속을 노래하며 흘러가네', response_metadata={'token_usage': {'completion_tokens': 475, 'prompt_tokens': 13, 'total_tokens': 488}, 'model_name': 'gpt-4', 'system_fingerprint': 'fp_811936bd4f', 'finish_reason': 'stop', 'logprobs': None}, id='run-edc8666c-1588-4dc6-891c-08a3f486130f-0')

## 템플릿 적용 → LLM 체인 연결

In [4]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("You are an expert in astronomy. Answer the question. <Question>: {input}")
prompt

# Input을 파라미터 입력과 같이 Chain 호출 시 (.invoke) {"Key":"Value"} 값을 통해 템플릿 적용 가능

ChatPromptTemplate(input_variables=['input'], messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['input'], template='You are an expert in astronomy. Answer the question. <Question>: {input}'))])

In [5]:
# Chain 연결 (LCEL)
chain = prompt | llm

# Chain 호출
chain.invoke({"input": "지구의 자전 주기는?"})

AIMessage(content="지구의 자전 주기, 즉 지구가 자신의 축을 한 바퀴 도는 데 걸리는 시간은 대략 23시간 56분 4.1초입니다. 이를 '항성일' 또는 '별의 날'이라고 합니다. 하지만 우리가 일상적으로 사용하는 시간 단위인 '태양일'은 태양이 하늘에서 같은 위치로 돌아오는 데 걸리는 시간을 기준으로 하며, 이는 대략 24시간입니다. 태양일이 항성일보다 약간 더 긴 이유는 지구가 태양 주위를 공전하면서도 동시에 자전하기 때문에, 태양이 같은 위치에 돌아오려면 자전 한 바퀴보다 약간 더 돌아야 하기 때문입니다.", response_metadata={'token_usage': {'completion_tokens': 245, 'prompt_tokens': 30, 'total_tokens': 275}, 'model_name': 'gpt-4', 'system_fingerprint': 'fp_811936bd4f', 'finish_reason': 'stop', 'logprobs': None}, id='run-5a7cf025-c7bf-4618-bb24-47513c8f65d9-0')

## Output Parser

In [6]:
from langchain_core.output_parsers import StrOutputParser

# String 형태로 출력
output_parser = StrOutputParser()

# Chain 연결 (LCEL)
chain = prompt | llm | output_parser

# Chain 호출
chain.invoke({"input": "지구의 자전 주기는?"})

"지구의 자전 주기, 즉 지구가 자신의 축을 한 바퀴 도는 데 걸리는 시간은 대략 23시간 56분 4초입니다. 이 시간을 '항성일' 또는 '별의 날'이라고 부릅니다. 하지만 일상생활에서 우리가 사용하는 시간 단위인 '태양일'은 지구가 동일한 태양 위치로 돌아오는 데 걸리는 시간을 기준으로 하며, 이는 대략 24시간입니다. 태양일과 항성일 사이의 차이는 지구가 태양 주위를 공전하면서도 자전하기 때문에 발생합니다."

## Multi Chain

In [7]:
prompt1 = ChatPromptTemplate.from_template("translates {korean_word} to English. returned only word")
prompt2 = ChatPromptTemplate.from_template("explain {english_word} using oxford dictionary to me in Korean. returned only Korean.")

llm = AzureChatOpenAI(deployment_name='GPT4-Test')

chain1 = prompt1 | llm | StrOutputParser()

chain1.invoke({"korean_word":"미래"})

'Future'

In [8]:
chain2 = (
    {"english_word": chain1}  # Chain 1의 결과를 Chain 2의 Prompt 2 - english_word 변수에 활용
    | prompt2
    | llm
    | StrOutputParser()
)

chain2.invoke({"korean_word":"미래"})

'미래라는 단어를 옥스퍼드 사전을 사용하여 설명하면, 미래는 아직 오지 않은 시간, 특히 아직 일어나지 않은 일들이 발생할 시간을 의미합니다. 또한 미래는 개인이나 어떤 것의 앞으로 있을 일들, 즉 장래의 상황이나 발전을 가리키기도 합니다.'

## 프롬프트 결합

In [9]:
from langchain_core.prompts import PromptTemplate

# 'name'과 'age'라는 두 개의 변수를 사용하는 프롬프트 템플릿을 정의
template_text = "안녕하세요, 제 이름은 {name}이고, 나이는 {age}살입니다."

# PromptTemplate 인스턴스를 생성
prompt_template = PromptTemplate.from_template(template_text)

# 템플릿에 값을 채워서 프롬프트를 완성
filled_prompt = prompt_template.format(name="홍길동", age=30)

filled_prompt

'안녕하세요, 제 이름은 홍길동이고, 나이는 30살입니다.'

In [10]:
combined_prompt = (
              prompt_template
              + PromptTemplate.from_template("\n\n아버지를 아버지라 부를 수 없습니다.")
              + "\n\n{language}로 번역해주세요."
)

combined_prompt

PromptTemplate(input_variables=['age', 'language', 'name'], template='안녕하세요, 제 이름은 {name}이고, 나이는 {age}살입니다.\n\n아버지를 아버지라 부를 수 없습니다.\n\n{language}로 번역해주세요.')

In [11]:
print(combined_prompt.format(name="홍길동", age=30, language="영어"))

안녕하세요, 제 이름은 홍길동이고, 나이는 30살입니다.

아버지를 아버지라 부를 수 없습니다.

영어로 번역해주세요.


In [12]:
chain = combined_prompt | llm | StrOutputParser()
chain.invoke({"age":30, "language":"영어", "name":"홍길동"})

'Hello, my name is Hong Gildong, and I am 30 years old.\n\nI cannot call my father "father."'

## 채팅 형태 프롬프트

In [13]:
from langchain_core.prompts import ChatPromptTemplate

chat_prompt = ChatPromptTemplate.from_messages([
    ("system", "이 시스템은 천문학 질문에 답변할 수 있습니다."),
    ("user", "{user_input}"),
])

messages = chat_prompt.format_messages(user_input="태양계에서 가장 큰 행성은 무엇인가요?")
messages

[SystemMessage(content='이 시스템은 천문학 질문에 답변할 수 있습니다.'),
 HumanMessage(content='태양계에서 가장 큰 행성은 무엇인가요?')]

In [14]:
chain = chat_prompt | llm | StrOutputParser()

chain.invoke({"user_input": "태양계에서 가장 큰 행성은 무엇인가요?"})

'태양계에서 가장 큰 행성은 목성(Jupiter)입니다. 목성은 질량이나 부피 모두에서 태양계의 다른 어떤 행성보다 크며, 주로 수소와 헬륨으로 구성된 가스 행성입니다. 목성의 질량은 지구의 약 318배이며, 태양계 전체 질량의 약 2.5%를 차지합니다.'

In [15]:
from langchain_core.prompts import SystemMessagePromptTemplate,  HumanMessagePromptTemplate

chat_prompt = ChatPromptTemplate.from_messages(
    [
        SystemMessagePromptTemplate.from_template("이 시스템은 천문학 질문에 답변할 수 있습니다."),
        HumanMessagePromptTemplate.from_template("{user_input}"),
    ]
)

messages = chat_prompt.format_messages(user_input="태양계에서 가장 큰 행성은 무엇인가요?")
messages

[SystemMessage(content='이 시스템은 천문학 질문에 답변할 수 있습니다.'),
 HumanMessage(content='태양계에서 가장 큰 행성은 무엇인가요?')]

In [16]:
chain = chat_prompt | llm | StrOutputParser()

chain.invoke({"user_input": "태양계에서 가장 큰 행성은 무엇인가요?"})

'태양계에서 가장 큰 행성은 목성(Jupiter)입니다. 목성은 질량과 볼륨 모두에서 태양계 내의 다른 어떤 행성보다 크며, 주로 수소와 헬륨으로 구성된 거대 가스 행성입니다. 목성의 대기는 강력한 폭풍과 대적점으로 유명한 거대한 폭풍 시스템을 포함하여 복잡한 기상 현상을 보여줍니다.'

## 모델 파라미터 튜닝

In [17]:
params = {
    "temperature": 0.7,         # 생성된 텍스트의 다양성 조정
    "max_tokens": 100,          # 생성할 최대 토큰 수    
}

kwargs = {
    "frequency_penalty": 0.5,   # 이미 등장한 단어의 재등장 확률
    "presence_penalty": 0.5,    # 새로운 단어의 도입을 장려
    "stop": ["\n"]              # 정지 시퀀스 설정

}

# 모델 인스턴스를 생성할 때 설정
llm = AzureChatOpenAI(deployment_name='GPT4-Test', **params, model_kwargs = kwargs)

## 여러 출력 파서

In [19]:
from langchain_core.output_parsers import CommaSeparatedListOutputParser

# 콤마 구분 출력 파서 : split(',') 과 동일한 기능
output_parser = CommaSeparatedListOutputParser()
format_instructions = output_parser.get_format_instructions()

print(format_instructions)

Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`


In [20]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    template="List five {subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions},
)

llm = AzureChatOpenAI(deployment_name='GPT4-Test')

chain = prompt | llm | output_parser

chain.invoke({"subject": "popular Korean cusine"})

['kimchi', 'bulgogi', 'bibimbap', 'tteokbokki', 'samgyeopsal']

In [21]:
from langchain_core.output_parsers import JsonOutputParser
from langchain_core.pydantic_v1 import BaseModel, Field

# Pydantic을 통해 Data Architecture를 정의하여 JSON 형태의 출력을 지정
# ***** GPT 제외 HuggingFace에 공개된 Open LLM 모델 간 적용 정도의 차이가 심한 파서 *****

# 자료구조 정의 (Pydantic)
class CusineRecipe(BaseModel):
    name: str = Field(description="name of a cusine")
    recipe: str = Field(description="recipe to cook the cusine")

# 출력 파서 정의
output_parser = JsonOutputParser(pydantic_object=CusineRecipe)

format_instructions = output_parser.get_format_instructions()

print(format_instructions)

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"properties": {"name": {"title": "Name", "description": "name of a cusine", "type": "string"}, "recipe": {"title": "Recipe", "description": "recipe to cook the cusine", "type": "string"}}, "required": ["name", "recipe"]}
```


In [22]:
prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": format_instructions},
)

print(prompt)

input_variables=['query'] partial_variables={'format_instructions': 'The output should be formatted as a JSON instance that conforms to the JSON schema below.\n\nAs an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}\nthe object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.\n\nHere is the output schema:\n```\n{"properties": {"name": {"title": "Name", "description": "name of a cusine", "type": "string"}, "recipe": {"title": "Recipe", "description": "recipe to cook the cusine", "type": "string"}}, "required": ["name", "recipe"]}\n```'} template='Answer the user query.\n{format_instructions}\n{query}\n'


In [23]:
chain = prompt | llm | output_parser

chain.invoke({"query": "Let me know how to cook Bibimbap"})

{'name': 'Bibimbap',
 'recipe': 'Bibimbap is a traditional Korean dish that is served as a bowl of warm white rice topped with namul (sautéed and seasoned vegetables) and gochujang (chili pepper paste). The dish is mixed thoroughly just before eating. Here is a simple recipe:\n1. Prepare steamed rice.\n2. Sauté your choice of vegetables (such as spinach, mushrooms, zucchini, and bean sprouts) and set them aside.\n3. Fry an egg sunny side up.\n4. Assemble the dish by placing the cooked rice in a bowl, arranging the sautéed vegetables on top, adding a dollop of gochujang, and topping it with the fried egg.\n5. Mix all the ingredients well before eating. Optionally, you can add soy sauce, sesame oil, or a sprinkle of sesame seeds for additional flavor.'}

## RAG - Data load

In [24]:
## RAG

from langchain_community.document_loaders import WebBaseLoader

# 위키피디아 정책과 지침
url = 'https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EC%A0%95%EC%B1%85%EA%B3%BC_%EC%A7%80%EC%B9%A8'
loader = WebBaseLoader(url)

In [25]:
docs = loader.load()

print(len(docs))
print(len(docs[0].page_content))
print(docs[0].page_content[5000:6000])

1
13153
좀 더 빠르게 강력한 수단을 이용해야 합니다. 특히 정책 문서에 명시된 원칙을 지키지 않는 것은 대부분의 경우 다른 사용자에게 받아들여지지 않습니다 (다른 분들에게 예외 상황임을 설득할 수 있다면 가능하기는 하지만요). 이는 당신을 포함해서 편집자 개개인이 정책과 지침을 직접 집행 및 적용한다는 것을 의미합니다.
특정 사용자가 명백히 정책에 반하는 행동을 하거나 정책과 상충되는 방식으로 지침을 어기는 경우, 특히 의도적이고 지속적으로 그런 행위를 하는 경우 해당 사용자는 관리자의 제재 조치로 일시적, 혹은 영구적으로 편집이 차단될 수 있습니다. 영어판을 비롯한 타 언어판에서는 일반적인 분쟁 해결 절차로 끝낼 수 없는 사안은 중재위원회가 개입하기도 합니다.

문서 내용
정책과 지침의 문서 내용은 처음 읽는 사용자라도 원칙과 규범을 잘 이해할 수 있도록 다음 원칙을 지켜야 합니다.

명확하게 작성하세요. 소수만 알아듣거나 준법률적인 단어, 혹은 지나치게 단순한 표현은 피해야 합니다. 명확하고, 직접적이고, 모호하지 않고, 구체적으로 작성하세요. 지나치게 상투적인 표현이나 일반론은 피하세요. 지침, 도움말 문서 및 기타 정보문 문서에서도 "해야 합니다" 혹은 "하지 말아야 합니다" 같이 직접적인 표현을 굳이 꺼릴 필요는 없습니다.
가능한 간결하게, 너무 단순하지는 않게. 정책이 중언부언하면 오해를 부릅니다. 불필요한 말은 생략하세요. 직접적이고 간결한 설명이 마구잡이식 예시 나열보다 더 이해하기 쉽습니다. 각주나 관련 문서 링크를 이용하여 더 상세히 설명할 수도 있습니다.
규칙을 만든 의도를 강조하세요. 사용자들이 상식대로 행동하리라 기대하세요. 정책의 의도가 명료하다면, 추가 설명은 필요 없죠. 즉 규칙을 '어떻게' 지키는지와 더불어 '왜' 지켜야 하는지 확실하게 밝혀야 합니다.
범위는 분명히, 중복은 피하기. 되도록 앞부분에서 정책 및 지침의 목적과 범위를 분명하게 밝혀야 합니다. 독자 대부분은 도입부 초반만 읽고 나가버리니까요. 각 정책 문서의 

## RAG - Split

In [26]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 검색 효율성을 위해 Chunk 단위로 Text 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
splits = text_splitter.split_documents(docs)

print(len(splits))
print(splits[10])

# 13149개의 문자로 이루어진 긴 문장을 최대 1000 글자 단위로 분할
# 200 글자는 각 분할마다 겹치게 하여 문맥이 잘려나가지 않고 유지
# 18개 조각으로 분할

18
page_content='제안과 채택\n\xa0백:아님 §\xa0관료주의  문서를 참고하십시오. 단축백:제안\n제안 문서란 정책과 지침으로 채택하자고 의견을 묻는 문서이나 아직 위키백과 내에 받아들여지는 원칙으로 확립되지는 않은 문서입니다. {{제안}} 틀을 붙여 공동체 내에서 정책이나 지침으로 채택할 지 의견을 물을 수 있습니다. 제안 문서는 정책과 지침이 아니므로 아무리 실제 있는 정책이나 지침을 요약하거나 인용해서 다른 문서에 쓴다고 해도 함부로 정책이나 지침 틀을 붙여서는 안 됩니다.\n\'제안\'은 완전 새로운 원칙이라기보다, 기존의 불문율이나 토론 총의의 문서를 통한 구체화에 가깝습니다. 많은 사람들이 쉽게 제안을 받아들이도록 하기 위해서는, 기초적인 원칙을 우선 정하고 기본 틀을 짜야 합니다. 정책과 지침의 기본 원칙은 "왜 지켜야 하는가?", "어떻게 지켜야 하는가?" 두 가지입니다. 특정 원칙을 정책이나 지침으로 확립하기 위해서는 우선 저 두 가지 물음에 성실하게 답하는 제안 문서를 작성해야 합니다.\n좋은 아이디어를 싣기 위해 사랑방이나 관련 위키프로젝트에 도움을 구해 피드백을 요청할 수 있습니다. 이 과정에서 공동체가 어느 정도 받아들일 수 있는 원칙이 구체화됩니다. 많은 이와의 토론을 통해 공감대가 형성되고 제안을 개선할 수 있습니다.\n정책이나 지침은 위키백과 내의 모든 편집자들에게 적용되는 원칙이므로 높은 수준의 총의가 요구됩니다. 제안 문서가 잘 짜여졌고 충분히 논의되었다면, 더 많은 공동체의 편집자와 논의를 하기 위해 승격 제안을 올려야 합니다. 제안 문서 맨 위에 {{제안}}을 붙여 제안 안건임을 알려주고, 토론 문서에 {{의견 요청}}을 붙인 뒤 채택 제안에 관한 토론 문단을 새로 만들면 됩니다. 많은 편집자들에게 알리기 위해 관련 내용을 {{위키백과 소식}}에 올리고 사랑방에 이를 공지해야 하며, 합의가 있을 경우 미디어위키의 sitenotice(위키백과 최상단에 노출되는 구역)에 공지할 수도 있습니다.' metadata

In [27]:
print(splits[10].page_content)

제안과 채택
 백:아님 § 관료주의  문서를 참고하십시오. 단축백:제안
제안 문서란 정책과 지침으로 채택하자고 의견을 묻는 문서이나 아직 위키백과 내에 받아들여지는 원칙으로 확립되지는 않은 문서입니다. {{제안}} 틀을 붙여 공동체 내에서 정책이나 지침으로 채택할 지 의견을 물을 수 있습니다. 제안 문서는 정책과 지침이 아니므로 아무리 실제 있는 정책이나 지침을 요약하거나 인용해서 다른 문서에 쓴다고 해도 함부로 정책이나 지침 틀을 붙여서는 안 됩니다.
'제안'은 완전 새로운 원칙이라기보다, 기존의 불문율이나 토론 총의의 문서를 통한 구체화에 가깝습니다. 많은 사람들이 쉽게 제안을 받아들이도록 하기 위해서는, 기초적인 원칙을 우선 정하고 기본 틀을 짜야 합니다. 정책과 지침의 기본 원칙은 "왜 지켜야 하는가?", "어떻게 지켜야 하는가?" 두 가지입니다. 특정 원칙을 정책이나 지침으로 확립하기 위해서는 우선 저 두 가지 물음에 성실하게 답하는 제안 문서를 작성해야 합니다.
좋은 아이디어를 싣기 위해 사랑방이나 관련 위키프로젝트에 도움을 구해 피드백을 요청할 수 있습니다. 이 과정에서 공동체가 어느 정도 받아들일 수 있는 원칙이 구체화됩니다. 많은 이와의 토론을 통해 공감대가 형성되고 제안을 개선할 수 있습니다.
정책이나 지침은 위키백과 내의 모든 편집자들에게 적용되는 원칙이므로 높은 수준의 총의가 요구됩니다. 제안 문서가 잘 짜여졌고 충분히 논의되었다면, 더 많은 공동체의 편집자와 논의를 하기 위해 승격 제안을 올려야 합니다. 제안 문서 맨 위에 {{제안}}을 붙여 제안 안건임을 알려주고, 토론 문서에 {{의견 요청}}을 붙인 뒤 채택 제안에 관한 토론 문단을 새로 만들면 됩니다. 많은 편집자들에게 알리기 위해 관련 내용을 {{위키백과 소식}}에 올리고 사랑방에 이를 공지해야 하며, 합의가 있을 경우 미디어위키의 sitenotice(위키백과 최상단에 노출되는 구역)에 공지할 수도 있습니다.


In [28]:
splits[10].metadata

{'source': 'https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EC%A0%95%EC%B1%85%EA%B3%BC_%EC%A7%80%EC%B9%A8',
 'title': '위키백과:정책과 지침 - 위키백과, 우리 모두의 백과사전',
 'language': 'ko'}

## RAG - Indexing

In [29]:
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import AzureOpenAIEmbeddings

# Documents로 설정한 Text를 벡터로 임베딩하여 Chroma DB에 저장
# 이후 similarity_search를 통해 유사도 기반 문서 검색
# Documents는 설정한 Text Splitter의 split_documents(텍스트 문서) 메서드를 통해 생성


# 벡터 DB 생성 디렉토리
DB_PATH_HF = 'Directory'

# 벡터 DB 생성
vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=AzureOpenAIEmbeddings(
        model='text-embedding-ada-002',
#         base_url=os.getenv('OPENAI_API_BASE'),
        azure_deployment='Embedding'),
#     persist_directory = DB_PATH_HF
)

# ===== 이미 생성된 벡터 DB가 있을 경우 Chroma 클래스 선언으로 불러오기 가능 =====
# vectorstore = Chroma(persist_directory=DB_PATH_HF, embedding_function=embeddings_model)

In [32]:
# ===== 한국어 임베딩을 위한 HuggingFace Embedding Model =====

'''
embeddings_model = HuggingFaceEmbeddings(
    model_name='jhgan/ko-sroberta-nli',
#     model_kwargs={'device':'cpu'},
    encode_kwargs={'normalize_embeddings':True},
)

vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=embeddings_model,
    persist_directory = DB_PATH_HF
)

retriever = vectorstore.as_retriever(
#     search_type='mmr',
#     search_kwargs={'k': 1, 'lambda_mult': 0.15}
    search_kwargs={'k': 3}
)

# 벡터 검색 문서 결합
def format_docs(docs):
    return '\n'.join(doc.page_content for doc in docs)
'''

"\nembeddings_model = HuggingFaceEmbeddings(\n    model_name='jhgan/ko-sroberta-nli',\n#     model_kwargs={'device':'cpu'},\n    encode_kwargs={'normalize_embeddings':True},\n)\n\nvectorstore = Chroma.from_documents(\n    documents=splits,\n    embedding=embeddings_model,\n    persist_directory = DB_PATH_HF\n)\n\nretriever = vectorstore.as_retriever(\n#     search_type='mmr',\n#     search_kwargs={'k': 1, 'lambda_mult': 0.15}\n    search_kwargs={'k': 3}\n)\n\n# 벡터 검색 문서 결합\ndef format_docs(docs):\n    return '\n'.join(doc.page_content for doc in docs)\n"

In [33]:
docs = vectorstore.similarity_search("제안에 대해서 설명해주세요.", k=5)

print(len(docs))
print(docs[0].page_content)

5
제안과 채택
 백:아님 § 관료주의  문서를 참고하십시오. 단축백:제안
제안 문서란 정책과 지침으로 채택하자고 의견을 묻는 문서이나 아직 위키백과 내에 받아들여지는 원칙으로 확립되지는 않은 문서입니다. {{제안}} 틀을 붙여 공동체 내에서 정책이나 지침으로 채택할 지 의견을 물을 수 있습니다. 제안 문서는 정책과 지침이 아니므로 아무리 실제 있는 정책이나 지침을 요약하거나 인용해서 다른 문서에 쓴다고 해도 함부로 정책이나 지침 틀을 붙여서는 안 됩니다.
'제안'은 완전 새로운 원칙이라기보다, 기존의 불문율이나 토론 총의의 문서를 통한 구체화에 가깝습니다. 많은 사람들이 쉽게 제안을 받아들이도록 하기 위해서는, 기초적인 원칙을 우선 정하고 기본 틀을 짜야 합니다. 정책과 지침의 기본 원칙은 "왜 지켜야 하는가?", "어떻게 지켜야 하는가?" 두 가지입니다. 특정 원칙을 정책이나 지침으로 확립하기 위해서는 우선 저 두 가지 물음에 성실하게 답하는 제안 문서를 작성해야 합니다.
좋은 아이디어를 싣기 위해 사랑방이나 관련 위키프로젝트에 도움을 구해 피드백을 요청할 수 있습니다. 이 과정에서 공동체가 어느 정도 받아들일 수 있는 원칙이 구체화됩니다. 많은 이와의 토론을 통해 공감대가 형성되고 제안을 개선할 수 있습니다.
정책이나 지침은 위키백과 내의 모든 편집자들에게 적용되는 원칙이므로 높은 수준의 총의가 요구됩니다. 제안 문서가 잘 짜여졌고 충분히 논의되었다면, 더 많은 공동체의 편집자와 논의를 하기 위해 승격 제안을 올려야 합니다. 제안 문서 맨 위에 {{제안}}을 붙여 제안 안건임을 알려주고, 토론 문서에 {{의견 요청}}을 붙인 뒤 채택 제안에 관한 토론 문단을 새로 만들면 됩니다. 많은 편집자들에게 알리기 위해 관련 내용을 {{위키백과 소식}}에 올리고 사랑방에 이를 공지해야 하며, 합의가 있을 경우 미디어위키의 sitenotice(위키백과 최상단에 노출되는 구역)에 공지할 수도 있습니다.


In [34]:
for i in range(5):
    print(f'{i+1}번째 문서 -\n\n{docs[i].page_content}\n\n\n')

1번째 문서 -

제안과 채택
 백:아님 § 관료주의  문서를 참고하십시오. 단축백:제안
제안 문서란 정책과 지침으로 채택하자고 의견을 묻는 문서이나 아직 위키백과 내에 받아들여지는 원칙으로 확립되지는 않은 문서입니다. {{제안}} 틀을 붙여 공동체 내에서 정책이나 지침으로 채택할 지 의견을 물을 수 있습니다. 제안 문서는 정책과 지침이 아니므로 아무리 실제 있는 정책이나 지침을 요약하거나 인용해서 다른 문서에 쓴다고 해도 함부로 정책이나 지침 틀을 붙여서는 안 됩니다.
'제안'은 완전 새로운 원칙이라기보다, 기존의 불문율이나 토론 총의의 문서를 통한 구체화에 가깝습니다. 많은 사람들이 쉽게 제안을 받아들이도록 하기 위해서는, 기초적인 원칙을 우선 정하고 기본 틀을 짜야 합니다. 정책과 지침의 기본 원칙은 "왜 지켜야 하는가?", "어떻게 지켜야 하는가?" 두 가지입니다. 특정 원칙을 정책이나 지침으로 확립하기 위해서는 우선 저 두 가지 물음에 성실하게 답하는 제안 문서를 작성해야 합니다.
좋은 아이디어를 싣기 위해 사랑방이나 관련 위키프로젝트에 도움을 구해 피드백을 요청할 수 있습니다. 이 과정에서 공동체가 어느 정도 받아들일 수 있는 원칙이 구체화됩니다. 많은 이와의 토론을 통해 공감대가 형성되고 제안을 개선할 수 있습니다.
정책이나 지침은 위키백과 내의 모든 편집자들에게 적용되는 원칙이므로 높은 수준의 총의가 요구됩니다. 제안 문서가 잘 짜여졌고 충분히 논의되었다면, 더 많은 공동체의 편집자와 논의를 하기 위해 승격 제안을 올려야 합니다. 제안 문서 맨 위에 {{제안}}을 붙여 제안 안건임을 알려주고, 토론 문서에 {{의견 요청}}을 붙인 뒤 채택 제안에 관한 토론 문단을 새로 만들면 됩니다. 많은 편집자들에게 알리기 위해 관련 내용을 {{위키백과 소식}}에 올리고 사랑방에 이를 공지해야 하며, 합의가 있을 경우 미디어위키의 sitenotice(위키백과 최상단에 노출되는 구역)에 공지할 수도 있습니다.



2번째 문서 -

차후 공지가 불충분했다는 이의

## 검색
- 사용자의 질문이나 주어진 컨텍스트에 가장 관련된 정보를 찾아내는 과정
- LangChain의 retriever 메소드 사용

## 생성에 적용

In [35]:
from langchain_core.runnables import RunnablePassthrough

# Prompt
template = '''아래 context만을 참고해서 대답해주세요.:
{context}

Question: {question}
'''

prompt = ChatPromptTemplate.from_template(template)

# LLM
model = AzureChatOpenAI(deployment_name='GPT4-Test')

# Rretriever
retriever = vectorstore.as_retriever()

# Combine Documents
def format_docs(docs):
    return '\n\n'.join(doc.page_content for doc in docs)

# RAG Chain 연결
rag_chain = (
    {'context': retriever | format_docs, 'question': RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

# Chain 실행
rag_chain.invoke("격하 과정에 대해서 설명해주세요.")

'격하 과정은 특정 위키백과 정책이나 지침이 더 이상 유용하지 않거나 중복되거나 불필요해질 때, 그 수준을 낮추는 절차를 의미합니다. 예를 들어, 정책을 지침으로, 혹은 정책이나 지침을 수필이나 중단된 문서로 격하시킬 수 있습니다. 이 과정은 새로운 정책이나 지침을 채택하는 절차와 유사하며, 다음과 같은 단계로 진행됩니다:\n\n1. **토론 시작**: 편집자들이 해당 정책이나 지침의 격하를 제안하며, 이에 대한 토론이 토론 문서에서 시작됩니다.\n2. **공동체 참여 요청**: 프로젝트 문서 상단에 {{새로운 토론|문단=진행 중인 토론 문단}} 틀을 붙여 다른 편집자들의 참여와 의견을 요청합니다.\n3. **토론 종료 및 평가**: 토론이 충분히 이루어진 후, 제3의 편집자(중립적인 위치에 있는)가 토론을 종료하고 평가하여 총의가 형성되었는지를 판단합니다.\n4. **상태 변경**: 총의에 따라 정책이나 지침의 격하가 결정되면, 해당 문서 최상단에 {{중단}} 틀을 붙여서 더 이상 사용되지 않는 정책이나 지침임을 명시합니다.\n5. **문서 이동**: 소수의 공동체 인원만이 지지하는 비공식 문서의 경우, 주된 작성자의 사용자 이름공간으로 문서를 이동할 수 있습니다. 이러한 논의는 해당 문서의 토론란에서 이루어지거나, 위키백과:의견 요청을 통해 처리될 수 있습니다.\n\n격하는 정책이나 지침이 시대의 변화나 위키백과 내부의 변화에 따라 필요하지 않게 되었을 때 이루어지며, 공동체의 합의에 기반합니다.'

## Web Loader

In [36]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# 여러 개의 url 지정 가능
url1 = "https://blog.langchain.dev/week-of-1-22-24-langchain-release-notes/"
url2 = "https://blog.langchain.dev/week-of-2-5-24-langchain-release-notes/"

loader = WebBaseLoader(
    web_paths=(url1, url2),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("article-header", "article-content")
        )
    ),
)
docs = loader.load()
len(docs)

2

In [42]:
docs

[Document(page_content='', metadata={'source': 'https://blog.langchain.dev/week-of-1-22-24-langchain-release-notes/'}),
 Document(page_content='', metadata={'source': 'https://blog.langchain.dev/week-of-2-5-24-langchain-release-notes/'})]

## Text File Loader

In [39]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader('history.txt', encoding='utf-8')
data = loader.load()

print(type(data))
print(len(data))

<class 'list'>
1


In [40]:
data

[Document(page_content='한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조선까지, 한반도는 많은 변화를 겪었습니다.\n\n고조선은 기원전 2333년 단군왕검에 의해 세워졌다고 전해집니다. 이는 한국 역사상 최초의 국가로, 한민족의 시원이라 할 수 있습니다. 이후 기원전 1세기경에는 한반도와 만주 일대에서 여러 소국이 성장하며 삼한 시대로 접어듭니다.\n\n4세기경, 고구려, 백제, 신라의 삼국이 한반도의 주요 세력으로 부상했습니다. 이 시기는 삼국이 각각 문화와 기술, 무력을 발전시키며 경쟁적으로 성장한 시기로, 한국 역사에서 중요한 전환점을 마련했습니다. 특히 고구려는 북방의 강대국으로 성장하여 중국과도 여러 차례 전쟁을 벌였습니다.\n\n7세기 말, 신라는 당나라와 연합하여 백제와 고구려를 차례로 정복하고, 한반도 최초의 통일 국가인 통일 신라를 건립합니다. 이 시기에 신라는 불교를 국교로 채택하며 문화와 예술이 크게 발전했습니다.\n\n그러나 10세기에 이르러 신라는 내부의 분열과 외부의 압력으로 쇠퇴하고, 이를 대체하여 고려가 성립됩니다. 고려 시대에는 과거제도의 도입과 더불어 청자 등 고려 고유의 문화가 꽃피었습니다.\n\n조선은 1392년 이성계에 의해 건국되어, 1910년까지 이어졌습니다. 조선 초기에는 세종대왕이 한글을 창제하여 백성들의 문해율을 높이는 등 문화적, 과학적 성취가 이루어졌습니다. 그러나 조선 후기에는 내부적으로 실학의 발전과 함께 사회적 변화가 모색되었으나, 외부로부터의 압력은 점차 커져만 갔습니다.\n\n19세기 말부터 20세기 초에 걸쳐 한국은 제국주의 열강의 침략을 받으며 많은 시련을 겪었습니다. 1910년, 한국은 일본에 의해 강제로 병합되어 35년간의 식민 지배를 받게 됩니다. 이 기간 동안 한국인들은 독립을 위한 다양한 운동을 전개했으며, 이는 1945년 일본의 패망으로 이어

In [43]:
len(data[0].page_content)

1234

In [44]:
import os
from glob import glob

files = glob(os.path.join('./', '*.txt'))
files

['.\\history.txt', '.\\places.txt']

In [45]:
from langchain_community.document_loaders import DirectoryLoader

loader = DirectoryLoader(path='./', glob='*.txt')

data = loader.load()

len(data)

2

In [46]:
data[1]

Document(page_content='경복궁 서울의 중심에 위치한 경복궁은 조선 시대의 왕궁으로, 한국의 역사와 전통 문화를 체험할 수 있는 대표적인 명소입니다. 광활한 궁궐 안에는 경회루, 근정전 등 다양한 전통 건축물이 있으며, 정기적으로 궁궐 경비 교대식과 전통 공연이 열립니다.\n\n남산 서울타워 서울의 스카이라인을 대표하는 남산 서울타워는 서울 시내를 한눈에 볼 수 있는 최고의 전망대입니다. 타워 주변의 남산 공원은 산책과 휴식을 즐기기에 적합하며, 연인들의 자물쇠 벽도 유명합니다.\n\n부산 해운대 해수욕장 부산의 해운대 해수욕장은 국내외 관광객에게 사랑받는 한국 최대의 해수욕장 중 하나입니다. 넓은 백사장과 도심 속의 접근성이 좋은 위치로, 여름철에는 수많은 피서객으로 붐빕니다.\n\n제주도 한국의 남쪽에 위치한 제주도는 화산섬으로, 아름다운 자연 풍경과 독특한 문화를 자랑합니다. 세계 자연 유산에 등재된 한라산, 청정 해변, 용두암 등 다양한 자연 명소와 함께 특색 있는 음식과 문화가 관광객을 맞이합니다.\n\n경주 신라 천년의 고도 경주는 한국의 역사적인 도시 중 하나로, 불국사, 석굴암, 첨성대 등 수많은 유적지와 문화재가 있습니다. 신라의 역사와 문화를 체험할 수 있는 최적의 장소입니다.\n\n인사동 서울의 인사동은 전통 찻집, 공예품 가게, 갤러리가 즐비한 문화 예술의 거리입니다. 한국의 전통 문화와 현대 예술이 공존하는 이곳에서는 다양한 기념품을 구입하고 전통 차를 맛볼 수 있습니다.\n\n한강 서울을 가로지르는 한강은 도시의 휴식처로, 한강공원, 자전거 도로, 피크닉 장소 등을 제공합니다. 야경이 아름다운 한강에서는 다양한 레저 활동과 행사가 열리며, 여름에는 불꽃놀이 축제가 인기입니다.\n\n순천만 국가정원 전라남도 순천에 위치한 순천만 국가정원은 다양한 식물과 아름다운 정원이 조화를 이루는 곳으로, 자연과 함께하는 힐링의 시간을 제공합니다. 인근의 순천만 습지는 천연 기념물로 지정된 생태 관광지입니다.', metadata={'s

## CSV Loader

In [47]:
from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path='한국주택금융공사_주택금융관련_지수_20160101.csv', encoding='cp949')
data = loader.load()

len(data)

143

In [48]:
print(data[0].page_content)

연도: 2004-01-01
전국소득대비 주택가격 비율: 4.21
서울소득대비 주택가격 비율: 4.89
부산소득대비 주택가격 비율: 3.95
대구소득대비 주택가격 비율: 3.73
인천소득대비 주택가격 비율: 4.65
광주소득대비 주택가격 비율: 2.81
대전소득대비 주택가격 비율: 4.68
울산소득대비 주택가격 비율: 2.66
세종소득대비 주택가격 비율: 0
경기소득대비 주택가격 비율: 4.17
강원소득대비 주택가격 비율: 2.49
충북소득대비 주택가격 비율: 2.62
충남소득대비 주택가격 비율: 2.17
전북소득대비 주택가격 비율: 3.12
전남소득대비 주택가격 비율: 2.12
경북소득대비 주택가격 비율: 2.12
경남소득대비 주택가격 비율: 3.81
제주소득대비 주택가격 비율: 2.99
전국평균 대출금액  평균 연소득: 2.36
서울평균 대출금액  평균 연소득: 2.61
부산평균 대출금액  평균 연소득: 2.35
대구평균 대출금액  평균 연소득: 2.24
인천평균 대출금액  평균 연소득: 2.7
광주평균 대출금액  평균 연소득: 1.6
대전평균 대출금액  평균 연소득: 2.26
울산평균 대출금액  평균 연소득: 1.67
세종평균 대출금액  평균 연소득: 0
경기평균 대출금액  평균 연소득: 2.42
강원평균 대출금액  평균 연소득: 1.44
충북평균 대출금액  평균 연소득: 1.53
충남평균 대출금액  평균 연소득: 1.21
전북평균 대출금액  평균 연소득: 1.9
전남평균 대출금액  평균 연소득: 1.42
경북평균 대출금액  평균 연소득: 1.31
경남평균 대출금액  평균 연소득: 2.06
제주평균 대출금액  평균 연소득: 1.28


In [49]:
data[3].metadata['source']

'한국주택금융공사_주택금융관련_지수_20160101.csv'

In [50]:
loader = CSVLoader(file_path='한국주택금융공사_주택금융관련_지수_20160101.csv', encoding='cp949',
                   source_column='연도') # Source Column을 지정해주면 Metadata의 Source가 해당 Columns의 데이터로 변경

data = loader.load()

data[0]

Document(page_content='연도: 2004-01-01\n전국소득대비 주택가격 비율: 4.21\n서울소득대비 주택가격 비율: 4.89\n부산소득대비 주택가격 비율: 3.95\n대구소득대비 주택가격 비율: 3.73\n인천소득대비 주택가격 비율: 4.65\n광주소득대비 주택가격 비율: 2.81\n대전소득대비 주택가격 비율: 4.68\n울산소득대비 주택가격 비율: 2.66\n세종소득대비 주택가격 비율: 0\n경기소득대비 주택가격 비율: 4.17\n강원소득대비 주택가격 비율: 2.49\n충북소득대비 주택가격 비율: 2.62\n충남소득대비 주택가격 비율: 2.17\n전북소득대비 주택가격 비율: 3.12\n전남소득대비 주택가격 비율: 2.12\n경북소득대비 주택가격 비율: 2.12\n경남소득대비 주택가격 비율: 3.81\n제주소득대비 주택가격 비율: 2.99\n전국평균 대출금액  평균 연소득: 2.36\n서울평균 대출금액  평균 연소득: 2.61\n부산평균 대출금액  평균 연소득: 2.35\n대구평균 대출금액  평균 연소득: 2.24\n인천평균 대출금액  평균 연소득: 2.7\n광주평균 대출금액  평균 연소득: 1.6\n대전평균 대출금액  평균 연소득: 2.26\n울산평균 대출금액  평균 연소득: 1.67\n세종평균 대출금액  평균 연소득: 0\n경기평균 대출금액  평균 연소득: 2.42\n강원평균 대출금액  평균 연소득: 1.44\n충북평균 대출금액  평균 연소득: 1.53\n충남평균 대출금액  평균 연소득: 1.21\n전북평균 대출금액  평균 연소득: 1.9\n전남평균 대출금액  평균 연소득: 1.42\n경북평균 대출금액  평균 연소득: 1.31\n경남평균 대출금액  평균 연소득: 2.06\n제주평균 대출금액  평균 연소득: 1.28', metadata={'source': '2004-01-01', 'row': 0})

In [51]:
print(data[0].page_content)

연도: 2004-01-01
전국소득대비 주택가격 비율: 4.21
서울소득대비 주택가격 비율: 4.89
부산소득대비 주택가격 비율: 3.95
대구소득대비 주택가격 비율: 3.73
인천소득대비 주택가격 비율: 4.65
광주소득대비 주택가격 비율: 2.81
대전소득대비 주택가격 비율: 4.68
울산소득대비 주택가격 비율: 2.66
세종소득대비 주택가격 비율: 0
경기소득대비 주택가격 비율: 4.17
강원소득대비 주택가격 비율: 2.49
충북소득대비 주택가격 비율: 2.62
충남소득대비 주택가격 비율: 2.17
전북소득대비 주택가격 비율: 3.12
전남소득대비 주택가격 비율: 2.12
경북소득대비 주택가격 비율: 2.12
경남소득대비 주택가격 비율: 3.81
제주소득대비 주택가격 비율: 2.99
전국평균 대출금액  평균 연소득: 2.36
서울평균 대출금액  평균 연소득: 2.61
부산평균 대출금액  평균 연소득: 2.35
대구평균 대출금액  평균 연소득: 2.24
인천평균 대출금액  평균 연소득: 2.7
광주평균 대출금액  평균 연소득: 1.6
대전평균 대출금액  평균 연소득: 2.26
울산평균 대출금액  평균 연소득: 1.67
세종평균 대출금액  평균 연소득: 0
경기평균 대출금액  평균 연소득: 2.42
강원평균 대출금액  평균 연소득: 1.44
충북평균 대출금액  평균 연소득: 1.53
충남평균 대출금액  평균 연소득: 1.21
전북평균 대출금액  평균 연소득: 1.9
전남평균 대출금액  평균 연소득: 1.42
경북평균 대출금액  평균 연소득: 1.31
경남평균 대출금액  평균 연소득: 2.06
제주평균 대출금액  평균 연소득: 1.28


In [52]:
data[0].metadata['source']

'2004-01-01'

In [53]:
# 파싱 옵션

loader = CSVLoader(file_path='한국주택금융공사_주택금융관련_지수_20160101.csv', encoding='cp949',
                   csv_args={
                       'delimiter': '\n', # 구분자로 불러오기 가능
                   })

data = loader.load()

data[0]

Document(page_content='연도,전국소득대비 주택가격 비율,서울소득대비 주택가격 비율,부산소득대비 주택가격 비율,대구소득대비 주택가격 비율,인천소득대비 주택가격 비율,광주소득대비 주택가격 비율,대전소득대비 주택가격 비율,울산소득대비 주택가격 비율,세종소득대비 주택가격 비율,경기소득대비 주택가격 비율,강원소득대비 주택가격 비율,충북소득대비 주택가격 비율,충남소득대비 주택가격 비율,전북소득대비 주택가격 비율,전남소득대비 주택가격 비율,경북소득대비 주택가격 비율,경남소득대비 주택가격 비율,제주소득대비 주택가격 비율,전국평균 대출금액  평균 연소득,서울평균 대출금액  평균 연소득,부산평균 대출금액  평균 연소득,대구평균 대출금액  평균 연소득,인천평균 대출금액  평균 연소득,광주평균 대출금액  평균 연소득,대전평균 대출금액  평균 연소득,울산평균 대출금액  평균 연소득,세종평균 대출금액  평균 연소득,경기평균 대출금액  평균 연소득,강원평균 대출금액  평균 연소득,충북평균 대출금액  평균 연소득,충남평균 대출금액  평균 연소득,전북평균 대출금액  평균 연소득,전남평균 대출금액  평균 연소득,경북평균 대출금액  평균 연소득,경남평균 대출금액  평균 연소득,제주평균 대출금액  평균 연소득: 2004-01-01,4.21,4.89,3.95,3.73,4.65,2.81,4.68,2.66,0,4.17,2.49,2.62,2.17,3.12,2.12,2.12,3.81,2.99,2.36,2.61,2.35,2.24,2.7,1.6,2.26,1.67,0,2.42,1.44,1.53,1.21,1.9,1.42,1.31,2.06,1.28', metadata={'source': '한국주택금융공사_주택금융관련_지수_20160101.csv', 'row': 0})

In [54]:
print(data[0].page_content)

연도,전국소득대비 주택가격 비율,서울소득대비 주택가격 비율,부산소득대비 주택가격 비율,대구소득대비 주택가격 비율,인천소득대비 주택가격 비율,광주소득대비 주택가격 비율,대전소득대비 주택가격 비율,울산소득대비 주택가격 비율,세종소득대비 주택가격 비율,경기소득대비 주택가격 비율,강원소득대비 주택가격 비율,충북소득대비 주택가격 비율,충남소득대비 주택가격 비율,전북소득대비 주택가격 비율,전남소득대비 주택가격 비율,경북소득대비 주택가격 비율,경남소득대비 주택가격 비율,제주소득대비 주택가격 비율,전국평균 대출금액  평균 연소득,서울평균 대출금액  평균 연소득,부산평균 대출금액  평균 연소득,대구평균 대출금액  평균 연소득,인천평균 대출금액  평균 연소득,광주평균 대출금액  평균 연소득,대전평균 대출금액  평균 연소득,울산평균 대출금액  평균 연소득,세종평균 대출금액  평균 연소득,경기평균 대출금액  평균 연소득,강원평균 대출금액  평균 연소득,충북평균 대출금액  평균 연소득,충남평균 대출금액  평균 연소득,전북평균 대출금액  평균 연소득,전남평균 대출금액  평균 연소득,경북평균 대출금액  평균 연소득,경남평균 대출금액  평균 연소득,제주평균 대출금액  평균 연소득: 2004-01-01,4.21,4.89,3.95,3.73,4.65,2.81,4.68,2.66,0,4.17,2.49,2.62,2.17,3.12,2.12,2.12,3.81,2.99,2.36,2.61,2.35,2.24,2.7,1.6,2.26,1.67,0,2.42,1.44,1.53,1.21,1.9,1.42,1.31,2.06,1.28


## PDF Loader

In [55]:
from langchain_community.document_loaders import PyPDFLoader

pdf_filepath = '000660_SK_2023.pdf'
loader = PyPDFLoader(pdf_filepath)
pages = loader.load()

len(pages)

21

In [56]:
pages

[Document(page_content='1\nWhere we are heading    |     How we get there    |     What we are preparing\nESG Special Report\n2023 NAVIGATING \nUNCERTAINTIES TO ENSURE  \nSUSTAINABLE \nGROWTH', metadata={'source': '000660_SK_2023.pdf', 'page': 0}),
 Document(page_content='24\nAdvanced Materials\nGreen\nBio\nDigital \nExpanding Our Portfolio’s Green Readiness\nResponsible & Profitable Low Carbon Transition\nNet Zero: Team Up In Action 26\n27\n28\n29\n30\n32\n36다가올 상승기의 성장 기회 극대화를 위한 신성장 전략 \nWHAT WE ARE PREPARING\nContents\n4\n14\nOur Leadership\nOur History\nOur Journey\nOur Portfolio and Performances 6\n8\n10\n12지난 70년을 넘어 지속가능한 성장을 위한 투자전문회사로의 변화\n불확실성의 시대, 생존역량과 회복력 확보를 위한 노력WHERE WE ARE HEADING\nHOW WE GET THERE\nRenewing Our Management System  \nPortfolio Management Framework\nEnduring Downturn & \nDealing with Unknown Risks16\n18\n22', metadata={'source': '000660_SK_2023.pdf', 'page': 1}),
 Document(page_content='5 4\nESG Special Report 2023 Where we are heading    |     How we g

In [57]:
pages[10]

Document(page_content='21 20\nESG Special Report 2023\n투자 검토 단계\nPre-Acquisition (인수 전)\n01포트폴리오 ESG 관리 체계\n장기적 관점에서 기업가치 제고를 실현하기 위해 핵심자산인 \n투자 포트폴리오의 경제적 가치와 함께 ESG 가치를 \n통합적으로 관리하기 위한 체계를 구축하고 있습니다.\n투자 검토 시점부터 인수 후, 회수 시점까지 투자\nLife Cycle에 걸쳐 적용되는 체계적인 ESG 관리를 \n기반으로 내부적으로는 ESG를 고려한 합리적인 투자의사 \n결정을 이행하고, 시장에서는 포트폴리오의 기업가치가 \n시장에서 제대로 평가받으며 나아가 사회·환경에 미치는 \n파급력을 높일 수 있도록 노력하겠습니다.포트폴리오 ESG 관리 원칙\nSK주식회사 투자회사\n기업가치 관점의\nESG 중점관리 \n항목 도출자사 ESG \n관리전략\nESG 성과 \n데이터 관리기업가치와\nESG 성과 \n연계성 분석포트폴리오 \nESG 관리전략 \nUpgrade성장단계\n산업특성\nESG Divestment 전략 검토\n       ESG Exit 리포트 발간\n ·    인수 이후 ESG Value-up 기반 Exit 전략 도출\n ·    중대 ESG 리스크/기회 현황 및   \nESG 관리·공시 수준 확인\n셀사이드(Sell-side) 점검사항 관리\n       중대 ESG 이슈 존재 여부 검토\n ·    매각 대상 시장 내 ESG 규제 준수 여부 확인\n ·    ESG 우수 영역에 대한 정보공개 및    \n기회 확대 방안 제시\n ·    국내외 책임투자 기준 부합 여부 확인\n ·    우수 관리 영역 정보공개 및   \n이해관계자 커뮤니케이션매각/투자 회수 단계\n03\nExit (투자 회수)정기 ESG 점검\n       투자회사 분류 \n ·   전체 포트폴리오를 16개 업종, 기업 규모에 따라 3개 그룹으로 구분\n       ESG 중점관리 항목 도출 \n  ·   ESG 외부평가

In [92]:
# # Unstructured

# ===== UnstructuredPDFLoader 실행 환경 구축이 난이도가 있는 편이라 이번 공부에서는 패스 =====

# from langchain_community.document_loaders import UnstructuredPDFLoader

# pdf_filepath = '000660_SK_2023.pdf'

# # 전체 텍스트를 단일 문서 객체로 변환
# loader = UnstructuredPDFLoader(pdf_filepath)
# pages = loader.load()

# len(pages)

In [58]:
# PyMuPDFLoader

from langchain_community.document_loaders import PyMuPDFLoader

pdf_filepath = '000660_SK_2023.pdf'

loader = PyMuPDFLoader(pdf_filepath)
pages = loader.load()

len(pages)

21

In [59]:
print(pages[0].page_content)

1
Where we are heading    |     How we get there    |     What we are preparing
ESG Special Report
2023 
NAVIGATING 
UNCERTAINTIES TO ENSURE  
SUSTAINABLE 
GROWTH



In [60]:
pages[0].metadata

{'source': '000660_SK_2023.pdf',
 'file_path': '000660_SK_2023.pdf',
 'page': 0,
 'total_pages': 21,
 'format': 'PDF 1.6',
 'title': '',
 'author': '',
 'subject': '',
 'keywords': '',
 'creator': 'Adobe InDesign 16.2 (Macintosh)',
 'producer': 'Adobe PDF Library 15.0',
 'creationDate': "D:20230626161631+09'00'",
 'modDate': "D:20230626172106+09'00'",
 'trapped': ''}

In [62]:
# # Online

# ===== OnlinePDFLoader 실행 환경 구축이 난이도가 있는 편이라 이번 공부에서는 패스 =====

# from langchain_community.document_loaders import OnlinePDFLoader

# # Transformers 논문을 로드
# loader = OnlinePDFLoader("https://arxiv.org/pdf/1706.03762.pdf")
# pages = loader.load()

# len(pages)

In [63]:
# CharacterTextSplitter

from langchain_community.document_loaders import TextLoader

loader = TextLoader('history.txt', encoding='utf-8')
data = loader.load()

print(len(data[0].page_content))
data[0].page_content

1234


'한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조선까지, 한반도는 많은 변화를 겪었습니다.\n\n고조선은 기원전 2333년 단군왕검에 의해 세워졌다고 전해집니다. 이는 한국 역사상 최초의 국가로, 한민족의 시원이라 할 수 있습니다. 이후 기원전 1세기경에는 한반도와 만주 일대에서 여러 소국이 성장하며 삼한 시대로 접어듭니다.\n\n4세기경, 고구려, 백제, 신라의 삼국이 한반도의 주요 세력으로 부상했습니다. 이 시기는 삼국이 각각 문화와 기술, 무력을 발전시키며 경쟁적으로 성장한 시기로, 한국 역사에서 중요한 전환점을 마련했습니다. 특히 고구려는 북방의 강대국으로 성장하여 중국과도 여러 차례 전쟁을 벌였습니다.\n\n7세기 말, 신라는 당나라와 연합하여 백제와 고구려를 차례로 정복하고, 한반도 최초의 통일 국가인 통일 신라를 건립합니다. 이 시기에 신라는 불교를 국교로 채택하며 문화와 예술이 크게 발전했습니다.\n\n그러나 10세기에 이르러 신라는 내부의 분열과 외부의 압력으로 쇠퇴하고, 이를 대체하여 고려가 성립됩니다. 고려 시대에는 과거제도의 도입과 더불어 청자 등 고려 고유의 문화가 꽃피었습니다.\n\n조선은 1392년 이성계에 의해 건국되어, 1910년까지 이어졌습니다. 조선 초기에는 세종대왕이 한글을 창제하여 백성들의 문해율을 높이는 등 문화적, 과학적 성취가 이루어졌습니다. 그러나 조선 후기에는 내부적으로 실학의 발전과 함께 사회적 변화가 모색되었으나, 외부로부터의 압력은 점차 커져만 갔습니다.\n\n19세기 말부터 20세기 초에 걸쳐 한국은 제국주의 열강의 침략을 받으며 많은 시련을 겪었습니다. 1910년, 한국은 일본에 의해 강제로 병합되어 35년간의 식민 지배를 받게 됩니다. 이 기간 동안 한국인들은 독립을 위한 다양한 운동을 전개했으며, 이는 1945년 일본의 패망으로 이어지는 독립으로 결실을 맺었습니다.\n\n해

In [64]:
# 문서의 개별 문자를 단위로 나누기

from langchain_text_splitters import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator = '',        # 청크 구분 기준 문자열
    chunk_size = 500,      # 청크 사이즈 (최대 500자)
    chunk_overlap  = 100,  # 청크별 연결 부분에서의 중복 길이 (전후 파악)
    length_function = len, #청크 길이 계산 함수
)

texts = text_splitter.split_text(data[0].page_content)

len(texts)

3

In [65]:
texts

['한국의 역사는 수천 년에 걸쳐 이어져 온 긴 여정 속에서 다양한 문화와 전통이 형성되고 발전해 왔습니다. 고조선에서 시작해 삼국 시대의 경쟁, 그리고 통일 신라와 고려를 거쳐 조선까지, 한반도는 많은 변화를 겪었습니다.\n\n고조선은 기원전 2333년 단군왕검에 의해 세워졌다고 전해집니다. 이는 한국 역사상 최초의 국가로, 한민족의 시원이라 할 수 있습니다. 이후 기원전 1세기경에는 한반도와 만주 일대에서 여러 소국이 성장하며 삼한 시대로 접어듭니다.\n\n4세기경, 고구려, 백제, 신라의 삼국이 한반도의 주요 세력으로 부상했습니다. 이 시기는 삼국이 각각 문화와 기술, 무력을 발전시키며 경쟁적으로 성장한 시기로, 한국 역사에서 중요한 전환점을 마련했습니다. 특히 고구려는 북방의 강대국으로 성장하여 중국과도 여러 차례 전쟁을 벌였습니다.\n\n7세기 말, 신라는 당나라와 연합하여 백제와 고구려를 차례로 정복하고, 한반도 최초의 통일 국가인 통일 신라를 건립합니다. 이 시기에 신라는 불교를 국교',
 '차례 전쟁을 벌였습니다.\n\n7세기 말, 신라는 당나라와 연합하여 백제와 고구려를 차례로 정복하고, 한반도 최초의 통일 국가인 통일 신라를 건립합니다. 이 시기에 신라는 불교를 국교로 채택하며 문화와 예술이 크게 발전했습니다.\n\n그러나 10세기에 이르러 신라는 내부의 분열과 외부의 압력으로 쇠퇴하고, 이를 대체하여 고려가 성립됩니다. 고려 시대에는 과거제도의 도입과 더불어 청자 등 고려 고유의 문화가 꽃피었습니다.\n\n조선은 1392년 이성계에 의해 건국되어, 1910년까지 이어졌습니다. 조선 초기에는 세종대왕이 한글을 창제하여 백성들의 문해율을 높이는 등 문화적, 과학적 성취가 이루어졌습니다. 그러나 조선 후기에는 내부적으로 실학의 발전과 함께 사회적 변화가 모색되었으나, 외부로부터의 압력은 점차 커져만 갔습니다.\n\n19세기 말부터 20세기 초에 걸쳐 한국은 제국주의 열강의 침략을 받으며 많은 시련을 겪었습니다. 1910년, 한국은 일본에 의해 강

## RAG 응용 - 사내 연구소 Wiki Data 벡터 검색

In [66]:
## 연구소 WIKI

from langchain_community.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path='finetune_data.csv', source_column='Title', encoding='utf-8-sig')
data = loader.load()

len(data)

160

In [67]:
print(data[0].page_content)

Title: anaconda 오프라인 환경 설치
Contents: # ---- 아나콘다 가상환경 구축(인터넷 가능 환경에서)
# 가상환경 py3.7 만들고 패키지 설치
# (base) 는 Anaconda prompt 환경
(base) conda create --name py3.7 python=3.7
(base) conda install --name py3.7 pymssql
# conda install --name py3.7 cx_Oracle
(base) conda install --name py3.7 numpy
(base) conda install --name py3.7 pandas
(base) conda install --name py3.7 matplotlib
(base) conda install --name py3.7 openpyxl
(base) conda install --name py3.7 jupyter
#conda install --name py3.7 fastapi
(base) conda install --name py3.7 scikit-learn
#conda install --name py3.7 uvicorn
#아래 pip install 을 가상환경에서 된다고 하는 말이 있으나 잘 안됨.ㅡㅡ
#가상환경안에서 pip install fastapi
#가상환경안에서 pip install matplotlib
#가상환경안에서 pip install seaborn
# ---- 아나콘다 가상환경을 오프라인으로 옮기기
# ---- - 단, 같은 windows 환경에서 테스트해본 결과 잘됨
# ---- - 아나콘다 설치 경로 "C:\Users\{사용자명}\.conda"
# OFFLINE PC에 설치해야 이동/설치해야 될 파일
- Python설치 파일 : python-3.7.9-amd64.exe
- Miniconda 설치파일 : Miniconda3-py37_4.12.0-Windows-x86_64.exe
- C:\Users\{사용자명}\.conda\envs\{가상환경명} 

In [68]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 검색 효율성을 위해 Chunk 단위로 Text 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=6000, chunk_overlap=200)
splits = text_splitter.split_documents(data)

print(len(splits))
print(splits[1])

160
page_content='Title: Angular 12 템플릿 정보\nContents: Angular 12 템플릿 정보 입니다.\n소스 파일 :\xa0[angular12_template.zip](https://softzion-my.sharepoint.com/:u:/p/lkh8342/EcEe53jFdXRHqPjMd6nief0B3T4kY_2DZB6wBN7DlwSTTA)\n템플릿 사이트\xa0[https://pixinvent.com/demo/vuexy-vuejs-admin-dashboard-template/demo-2/dashboard/ecommerce](https://pixinvent.com/demo/vuexy-vuejs-admin-dashboard-template/demo-2/dashboard/ecommerce)\nDoc\xa0[https://pixinvent.com/demo/vuexy-vuejs-admin-dashboard-template/documentation/](https://pixinvent.com/demo/vuexy-vuejs-admin-dashboard-template/documentation/)' metadata={'source': 'Angular 12 템플릿 정보', 'row': 1}


In [73]:
splits[20]

Document(page_content='Title: Frontend 개발 가이드-ESLint와 Prettier 사용\nContents: [https://feynubrick.github.io/2019/05/20/eslint-prettier.html](https://feynubrick.github.io/2019/05/20/eslint-prettier.html)\n위 링크를 참조해주시기 바랍니다.', metadata={'source': 'Frontend 개발 가이드-ESLint와 Prettier 사용', 'row': 20})

In [74]:
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import AzureOpenAIEmbeddings

# Documents로 설정한 Text를 벡터로 임베딩하여 Chroma DB에 저장
# 이후 similarity_search를 통해 유사도 기반 문서 검색
# Documents는 설정한 Text Splitter의 split_documents(텍스트 문서) 메서드를 통해 생성

vectorstore = Chroma.from_documents(
    documents=splits,
    embedding=AzureOpenAIEmbeddings(
        model='text-embedding-ada-002',
#         base_url=os.getenv('OPENAI_API_BASE'),
        azure_deployment='Embedding')
)

In [79]:
docs = vectorstore.similarity_search("Anaconda 환경설정", k=3)

In [80]:
for i in docs:
    title = i.page_content[7:i.page_content.find('Contents')]
    cons = i.page_content[i.page_content.find('Contents') + 10:]
    print(f'제목 : {title}\n내용 : {cons}\n\n\n\n\n')

제목 : anaconda 오프라인 환경 설치

내용 : # ---- 아나콘다 가상환경 구축(인터넷 가능 환경에서)
# 가상환경 py3.7 만들고 패키지 설치
# (base) 는 Anaconda prompt 환경
(base) conda create --name py3.7 python=3.7
(base) conda install --name py3.7 pymssql
# conda install --name py3.7 cx_Oracle
(base) conda install --name py3.7 numpy
(base) conda install --name py3.7 pandas
(base) conda install --name py3.7 matplotlib
(base) conda install --name py3.7 openpyxl
(base) conda install --name py3.7 jupyter
#conda install --name py3.7 fastapi
(base) conda install --name py3.7 scikit-learn
#conda install --name py3.7 uvicorn
#아래 pip install 을 가상환경에서 된다고 하는 말이 있으나 잘 안됨.ㅡㅡ
#가상환경안에서 pip install fastapi
#가상환경안에서 pip install matplotlib
#가상환경안에서 pip install seaborn
# ---- 아나콘다 가상환경을 오프라인으로 옮기기
# ---- - 단, 같은 windows 환경에서 테스트해본 결과 잘됨
# ---- - 아나콘다 설치 경로 "C:\Users\{사용자명}\.conda"
# OFFLINE PC에 설치해야 이동/설치해야 될 파일
- Python설치 파일 : python-3.7.9-amd64.exe
- Miniconda 설치파일 : Miniconda3-py37_4.12.0-Windows-x86_64.exe
- C:\Users\{사용자명}\.conda\envs\{가상환경명} 통째로
C:

## 스트리밍 출력

In [81]:
answer = llm.stream("대한민국의 아름다운 관광지 10곳과 주소를 알려주세요!")

# 스트리밍 출력
for token in answer:
    print(token.content, end="", flush=True)

대한민국에는 아름다운 관광지가 많이 있습니다. 다음은 그 중 일부를 나열한 것으로, 각 장소의 대략적인 주소를 포함하고 있습니다. 이 주소들은 지역을 대략적으로 나타내는 것이며, 정확한 위치는 구글 지도나 네이버 지도 등의 온라인 지도 서비스를 통해 확인하시는 것이 좋습니다.

1. 경복궁 (Gyeongbokgung Palace)
   주소: 서울특별시 종로구 사직로 161

2. 남이섬 (Nami Island)
   주소: 강원도 춘천시 남산면 남이섬길 1

3. 제주도 성산일출봉 (Seongsan Ilchulbong in Jeju Island)
   주소: 제주특별자치도 서귀포시 성산읍 일출로 284-12

4. 부산 해운대 해수욕장 (Haeundae Beach in Busan)
   주소: 부산광역시 해운대구 해운대해변로

5. 경주 불국사 (Bulguksa Temple in Gyeongju)
   주소: 경상북도 경주시 불국로 385

6. 속초 설악산 국립공원 (Seoraksan National Park in Sokcho)
   주소: 강원도 속초시 설악산로 419

7. 전주 한옥마을 (Jeonju Hanok Village)
   주소: 전라북도 전주시 완산구 기린대로 99

8. 안동 하회마을 (Hahoe Village in Andong)
   주소: 경상북도 안동시 풍천면 하회리

9. 순천만 습지 & 순천만 국가정원 (Suncheon Bay Wetland Reserve & Suncheonman National Garden)
   주소: 전라남도 순천시 순천만길 513 (습지) / 전라남도 순천시 오천동 47-1 (국가정원)

10. 강릉 안목해변 커피거리 (Anmok Beach Coffee Street in Gangneung)
    주소: 강원도 강릉시 창해로14번길

이 목록은 대한민국의 다양한 지역을 대표하는 주요 관광지들을 포함하고 있습니다. 각각의 장소는 독특한 문화적, 자연적 특징을 가지고 있어 방문객들에게 다양한 경험을 제공합니다.