In [None]:
!pip install langchain pypdf unstructured pdf2image docx2txt pdfminer

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


### Document Loaders

Document Loader는 다양한 형식의 문서를 불러오고 이를 Langchain에 결합하기 쉬운 텍스트 형태로 변환하는 기능을 합니다. 이를 통해 사용자는 txt. 형식의 문서 뿐만 아니라 pdf, word, ppt, xlsx, csv 등 거의 모든 형식의 문서를 기반으로 LLM을 구동할 수 있습니다.

#### URL Document Loader

LangChain은 웹에 기록된 글도 텍스트 형식으로 가져와 LLM에 활용할 수 있습니다. 대표적인 URL Loader는 WebBaseLoader와 UnstructuredURLLoader가 있습니다.

In [None]:
from langchain.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://n.news.naver.com/mnews/article/092/0002307222?sid=105")

data = loader.load()
print(data[0].page_content)

In [None]:
!pip install pdfminer.six

Collecting pdfminer.six
  Downloading pdfminer.six-20221105-py3-none-any.whl (5.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m37.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pdfminer.six
Successfully installed pdfminer.six-20221105


In [None]:
from langchain.document_loaders import UnstructuredURLLoader


urls = [
    "https://n.news.naver.com/mnews/article/092/0002307222?sid=105",
    "https://n.news.naver.com/mnews/article/052/0001944792?sid=105",
]

loader = UnstructuredURLLoader(urls=urls)

data = loader.load()
data

#### PDF Document Loader

In [None]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("/content/drive/MyDrive/BOK이슈노트제2023-26호_수출입경로를 통한 해외 기후변화 물리적 리스크의 국내 파급영향.pdf")
pages = loader.load_and_split()

In [None]:
print(pages[1].page_content)

#### Word Document Loader

In [None]:
!pip install docx2txt

In [None]:
from langchain.document_loaders import Docx2txtLoader
loader = Docx2txtLoader("/content/drive/MyDrive/1등_통계+바로쓰기+공모전+수상작.docx")
data = loader.load()

In [None]:
data

In [None]:
data[0].metadata

{'source': '/content/drive/MyDrive/1등_통계+바로쓰기+공모전+수상작.docx'}

In [None]:
data[0].page_content

#### CSV Document Loader

In [None]:
from langchain.document_loaders.csv_loader import CSVLoader

In [None]:
loader = CSVLoader(file_path='/content/drive/MyDrive/basketball.csv', csv_args={
    'delimiter': ',',
    'quotechar': '"',
    'fieldnames': ['ID', 'Name', 'Position', 'Height', 'Weight', 'Sponsorship Earnings', 'Shoe Sponsor', 'Career Stage', 'Age']
})

data = loader.load()

In [None]:
data[:10]

### Text Splitter


Text Splitter는 특정 기준을 통해 텍스트를 청크로 나누는 모듈입니다. 예를 들어, CharacterTextSplitter는 특정 구분자를 기준으로 텍스트를 청크로 분할합니다. 이렇게 함으로써 토큰 제한 이슈를 우회하여 Context를 학습시킬 수 있습니다.

#### CharacterTextSplitter

가장 간단한 텍스트 분할기로, 특정 구분자를 기준으로 텍스트를 여러 개로 분할합니다.

In [None]:
# This is a long document we can split up.
with open('/content/drive/MyDrive/강의 자료/state_of_the_union.txt') as f:
    state_of_the_union = f.read()

In [None]:
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 1000,
    chunk_overlap  = 100,
    length_function = len,
)

In [None]:
texts = text_splitter.split_text(state_of_the_union)
print(texts[0])
print("-"*100)
print(texts[1])
print("-"*100)
print(texts[2])




Madame Speaker, Vice President Biden, members of Congress, distinguished guests, and fellow Americans:

Our Constitution declares that from time to time, the president shall give to Congress information about the state of our union. For 220 years, our leaders have fulfilled this duty. They have done so during periods of prosperity and tranquility. And they have done so in the midst of war and depression; at moments of great strife and great struggle.
----------------------------------------------------------------------------------------------------
It's tempting to look back on these moments and assume that our progress was inevitable, that America was always destined to succeed. But when the Union was turned back at Bull Run and the Allies first landed at Omaha Beach, victory was very much in doubt. When the market crashed on Black Tuesday and civil rights marchers were beaten on Bloody Sunday, the future was anything but certain. These were times that tested the courage of our convi

In [None]:
char_list = []
for i in range(len(texts)):
    char_list.append(len(texts[i]))
print(char_list)

[454, 707, 930, 848, 896, 818, 846, 892, 813, 721, 730, 919, 996, 926, 839, 900, 850, 529, 614, 493, 582, 746, 1163, 878, 483, 607, 740, 419, 902, 794, 714, 416, 894, 917, 934, 711, 548, 506, 784, 948, 619, 669, 510, 1015, 714, 527, 701, 597, 436, 750, 558, 992, 920, 786, 790]


In [None]:
text_splitter.create_documents([state_of_the_union])

In [None]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf")
pages = loader.load_and_split()

In [None]:
len(pages)

18

In [None]:
print(pages[1].page_content)

| 2 | CIS이슈리포트 2022-2 호 ▶혁신성장 ICT 산업의 정책금융 공급규모 및 공급속도를 종합적으로 분석한 결과, 차세대무선통신미디어 , 
능동형컴퓨팅 (이상 정보통신 테마), 차세대반도체 (전기전자 테마) 및 객체탐지 (센서측정 테마) 기술분야로 
혁신성장 정책금융이 집중되고 있음
[ICT 산업 내 주요 기술분야 혁신성장 정책금융 공급 현황]
                                                            (단위: 억 원, %)
테마
(대분류 )주요 기술분야
(중분류 )정책금융 공급규모 연평균 공급액 
증가율 (%)테마 내 공급 
점유율 (%) 2017 년 말 2021 년 말
정보통신차세대무선통신미디어 7,820 27,865 37.4 45.1
능동형컴퓨팅 352 16,032 159.8 10.1
전기전자 차세대반도체 12,019 53,779 45.4 58.5
센서측정 객체탐지 1,278 6,711 51.4 48.5
▶주요 기술분야별 세부 품목단위로는 5G 이동통신시스템 , 인공지능 (AI), 시스템반도체 및 스마트센서 에 
정책금융 공급량이 높은 것으로 확인됨
￮정부가 미래 먹거리산업으로 선정한 인공지능 (AI)의 미래성장율 (CAGR: 41.0%) 이 가장 높으며 , 시장규모는  
시스템반도체 (3,833.8 억 달러, 2025 년)가 가장 큰 것으로 분석됨
￮4대 품목은 공통적으로 수요기반이 크고, 각국 정부가 중점적으로 육성을 지원하고 있어 시장이 지속 
성장할 것으로 전망되나 , 원천기술 미확보 및 높은 해외 의존도가 약점으로 지적되어 국내 기업의 경쟁력  
강화가 시급한 것으로 평가됨
[혁신성장 ICT 주요 품목 시장전망 ]
                                                            (단위: 억 달러, %)
주요 기술분야
(중분류 )주요 품목
(소분류 )시장규모 전망시장 촉진·저해요인2020 년 2025년(E) CAGR(%)
차세대
무선통신미디어5G이

In [None]:
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator = "\n",
    chunk_size = 1000,
    chunk_overlap  = 100,
    length_function = len,
)

In [None]:
texts = text_splitter.split_documents(pages)

In [None]:
print(texts[1].page_content)

| 2 | CIS이슈리포트 2022-2 호 ▶혁신성장 ICT 산업의 정책금융 공급규모 및 공급속도를 종합적으로 분석한 결과, 차세대무선통신미디어 , 
능동형컴퓨팅 (이상 정보통신 테마), 차세대반도체 (전기전자 테마) 및 객체탐지 (센서측정 테마) 기술분야로 
혁신성장 정책금융이 집중되고 있음
[ICT 산업 내 주요 기술분야 혁신성장 정책금융 공급 현황]
                                                            (단위: 억 원, %)
테마
(대분류 )주요 기술분야
(중분류 )정책금융 공급규모 연평균 공급액 
증가율 (%)테마 내 공급 
점유율 (%) 2017 년 말 2021 년 말
정보통신차세대무선통신미디어 7,820 27,865 37.4 45.1
능동형컴퓨팅 352 16,032 159.8 10.1
전기전자 차세대반도체 12,019 53,779 45.4 58.5
센서측정 객체탐지 1,278 6,711 51.4 48.5
▶주요 기술분야별 세부 품목단위로는 5G 이동통신시스템 , 인공지능 (AI), 시스템반도체 및 스마트센서 에 
정책금융 공급량이 높은 것으로 확인됨
￮정부가 미래 먹거리산업으로 선정한 인공지능 (AI)의 미래성장율 (CAGR: 41.0%) 이 가장 높으며 , 시장규모는  
시스템반도체 (3,833.8 억 달러, 2025 년)가 가장 큰 것으로 분석됨
￮4대 품목은 공통적으로 수요기반이 크고, 각국 정부가 중점적으로 육성을 지원하고 있어 시장이 지속 
성장할 것으로 전망되나 , 원천기술 미확보 및 높은 해외 의존도가 약점으로 지적되어 국내 기업의 경쟁력  
강화가 시급한 것으로 평가됨
[혁신성장 ICT 주요 품목 시장전망 ]
                                                            (단위: 억 달러, %)
주요 기술분야
(중분류 )주요 품목
(소분류 )시장규모 전망시장 촉진·저해요인2020 년 2025년(E) CAGR(%)
차세대


#### RecursiveCharacterTextSplit

- `RecursiveCharacterTextSplit`은 재귀적으로 문서를 분할합니다. 먼저, `"\n\n"`(줄바꿈)을 기준으로 문서를 분할하고 이렇게 나눈 청크가 여전히 너무 클 경우에 `"\n"`(문장 단위)을 기준으로 문서를 분할합니다. 그렇게 했을 때에도 청크가 충분히 작아지지 않았다면 문장을 단어 단위로 자르게 되지만, 그렇게까지 세부적인 분할은 자주 필요하지 않습니다.

- 이런 식의 분할 방법은 문장들의 의미를 최대한 보존하는 형태로 분할할 수 있도록 만들고, 그렇기 때문에 다수의 청크를 LLM에 활용함에 있어서 맥락이 유지되도록 하기에 용이합니다.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 1000,
    chunk_overlap  = 200,
    length_function = len,
)

In [None]:
texts = text_splitter.create_documents([state_of_the_union])
print(texts[0].page_content)
print("-"*500)
print(texts[1].page_content)

Madame Speaker, Vice President Biden, members of Congress, distinguished guests, and fellow Americans:

Our Constitution declares that from time to time, the president shall give to Congress information about the state of our union. For 220 years, our leaders have fulfilled this duty. They have done so during periods of prosperity and tranquility. And they have done so in the midst of war and depression; at moments of great strife and great struggle.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
It's tempting to look back on these moments 

In [None]:
char_list = []
for i in range(len(texts)):
    char_list.append(len(texts[i].page_content))
print(char_list)

[454, 707, 930, 848, 896, 818, 846, 892, 813, 721, 730, 576, 841, 939, 980, 820, 936, 585, 529, 614, 493, 582, 746, 995, 365, 878, 483, 607, 740, 419, 902, 794, 714, 416, 894, 917, 934, 711, 548, 506, 784, 948, 619, 669, 510, 996, 216, 714, 527, 701, 597, 436, 750, 558, 992, 920, 786, 949]




---



---



In [None]:
from langchain.document_loaders import PyPDFLoader

loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf")
pages = loader.load_and_split()

In [None]:
print(pages[1].page_content)

| 2 | CIS이슈리포트 2022-2 호 ▶혁신성장 ICT 산업의 정책금융 공급규모 및 공급속도를 종합적으로 분석한 결과, 차세대무선통신미디어 , 
능동형컴퓨팅 (이상 정보통신 테마), 차세대반도체 (전기전자 테마) 및 객체탐지 (센서측정 테마) 기술분야로 
혁신성장 정책금융이 집중되고 있음
[ICT 산업 내 주요 기술분야 혁신성장 정책금융 공급 현황]
                                                            (단위: 억 원, %)
테마
(대분류 )주요 기술분야
(중분류 )정책금융 공급규모 연평균 공급액 
증가율 (%)테마 내 공급 
점유율 (%) 2017 년 말 2021 년 말
정보통신차세대무선통신미디어 7,820 27,865 37.4 45.1
능동형컴퓨팅 352 16,032 159.8 10.1
전기전자 차세대반도체 12,019 53,779 45.4 58.5
센서측정 객체탐지 1,278 6,711 51.4 48.5
▶주요 기술분야별 세부 품목단위로는 5G 이동통신시스템 , 인공지능 (AI), 시스템반도체 및 스마트센서 에 
정책금융 공급량이 높은 것으로 확인됨
￮정부가 미래 먹거리산업으로 선정한 인공지능 (AI)의 미래성장율 (CAGR: 41.0%) 이 가장 높으며 , 시장규모는  
시스템반도체 (3,833.8 억 달러, 2025 년)가 가장 큰 것으로 분석됨
￮4대 품목은 공통적으로 수요기반이 크고, 각국 정부가 중점적으로 육성을 지원하고 있어 시장이 지속 
성장할 것으로 전망되나 , 원천기술 미확보 및 높은 해외 의존도가 약점으로 지적되어 국내 기업의 경쟁력  
강화가 시급한 것으로 평가됨
[혁신성장 ICT 주요 품목 시장전망 ]
                                                            (단위: 억 달러, %)
주요 기술분야
(중분류 )주요 품목
(소분류 )시장규모 전망시장 촉진·저해요인2020 년 2025년(E) CAGR(%)
차세대
무선통신미디어5G이

In [None]:
texts = text_splitter.split_documents(pages)

In [None]:
len(texts)

31

In [None]:
print(texts[1].page_content)

| 2 | CIS이슈리포트 2022-2 호 ▶혁신성장 ICT 산업의 정책금융 공급규모 및 공급속도를 종합적으로 분석한 결과, 차세대무선통신미디어 , 
능동형컴퓨팅 (이상 정보통신 테마), 차세대반도체 (전기전자 테마) 및 객체탐지 (센서측정 테마) 기술분야로 
혁신성장 정책금융이 집중되고 있음
[ICT 산업 내 주요 기술분야 혁신성장 정책금융 공급 현황]
                                                            (단위: 억 원, %)
테마
(대분류 )주요 기술분야
(중분류 )정책금융 공급규모 연평균 공급액 
증가율 (%)테마 내 공급 
점유율 (%) 2017 년 말 2021 년 말
정보통신차세대무선통신미디어 7,820 27,865 37.4 45.1
능동형컴퓨팅 352 16,032 159.8 10.1
전기전자 차세대반도체 12,019 53,779 45.4 58.5
센서측정 객체탐지 1,278 6,711 51.4 48.5
▶주요 기술분야별 세부 품목단위로는 5G 이동통신시스템 , 인공지능 (AI), 시스템반도체 및 스마트센서 에 
정책금융 공급량이 높은 것으로 확인됨
￮정부가 미래 먹거리산업으로 선정한 인공지능 (AI)의 미래성장율 (CAGR: 41.0%) 이 가장 높으며 , 시장규모는  
시스템반도체 (3,833.8 억 달러, 2025 년)가 가장 큰 것으로 분석됨
￮4대 품목은 공통적으로 수요기반이 크고, 각국 정부가 중점적으로 육성을 지원하고 있어 시장이 지속 
성장할 것으로 전망되나 , 원천기술 미확보 및 높은 해외 의존도가 약점으로 지적되어 국내 기업의 경쟁력  
강화가 시급한 것으로 평가됨
[혁신성장 ICT 주요 품목 시장전망 ]
                                                            (단위: 억 달러, %)
주요 기술분야
(중분류 )주요 품목
(소분류 )시장규모 전망시장 촉진·저해요인2020 년 2025년(E) CAGR(%)
차세대


#### 기타 Splitter

일반적인 글로 된 문서는 모두 `textsplitter로` 분할할 수 있으며, 대부분의 경우가 커버됩니다. 그러나 코드, latex 등과 같이 컴퓨터 언어로 작성되는 문서의 경우 `textsplitter로` 처리할 수 없으며 해당 언어를 위해 특별하게 구분하는 splitter가 필요합니다.

예를 들어 Python 문서를 split하기 위해서는 `def`, `class와` 같이 하나의 단위로 묶이는 것을 기준으로 문서를 분할할 필요가 있습니다. 이러한 원리로 Latex, HTML, Code 등 다양한 문서도 분할할 수 있습니다.

In [None]:
from langchain.text_splitter import (
    RecursiveCharacterTextSplitter,
    Language
)

In [None]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

In [None]:
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

# Call the function
hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(page_content='def hello_world():'),
 Document(page_content='print("Hello, World!")def hello_world():'),
 Document(page_content='print("Hello, World!")'),
 Document(page_content='# Call the function\nhello_world()')]

#### 토큰 단위 텍스트 분할기

텍스트 분할의 목적은 LLM이 소화할 수 있을 정도의 텍스트만 호출하도록 만드는 것입니다. 따라서 LLM이 소화할 수 있는 양으로 청크를 제한하는 것은 LLM 앱을 개발할 때 필수적인 과정입니다.

LLM은 텍스트를 받아들일 때, 정해진 토큰 이상으로 소화할 수 없게 설계되어 있습니다. 따라서 글을 토큰 단위로 분할한다면 최대한 많은 글을 포함하도록 청크를 분할할 수 있습니다.

토큰이라는 것은, 텍스트와 달리 Transformer에서 처리하는 방식에 따라서 그 수가 달라질 수 있습니다. 따라서, LLM 앱을 개발하고자 한다면 앱에 얹힐 LLM의 토큰 제한을 파악하고, 해당 LLM이 사용하는 Embedder를 기반으로 토큰 수를 계산해야 합니다. 예를 들어, OpenAI의 GPT 모델은 tiktoken이라는 토크나이저를 기반으로 텍스트를 토큰화합니다. 따라서 tiktoken encoder를 기반으로 텍스트를 토큰화하고, 토큰 수를 기준으로 텍스트를 분할하는 것이 프로덕트 개발의 필수 요소라고 할 수 있습니다.

In [None]:
!pip install tiktoken

In [None]:
import tiktoken
tokenizer = tiktoken.get_encoding("cl100k_base")

def tiktoken_len(text):
    tokens = tokenizer.encode(text)
    return len(tokens)

In [None]:
tiktoken_len(texts[1].page_content)

325

In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500, chunk_overlap=0, length_function = len
)
texts = text_splitter.split_documents(pages)

NameError: ignored

In [None]:
print(len(texts[1].page_content))
print(tiktoken_len(texts[1].page_content))

1068
960


In [None]:
token_list = []
for i in range(len(texts)):
    token_list.append(tiktoken_len(texts[i].page_content))
print(token_list)

[813, 960, 471, 948, 267, 952, 229, 585, 591, 969, 441, 576, 953, 267, 963, 177, 961, 72, 528, 978, 165, 959, 91, 919, 253, 858, 887, 973, 124]


### Text Embedding

In [None]:
pip install openai langchain pypdf tiktoken

##### OpenAIEmbeddings - ada-002

In [None]:
from langchain.embeddings import OpenAIEmbeddings

In [None]:
from langchain.embeddings import OpenAIEmbeddings

embeddings_model = OpenAIEmbeddings(openai_api_key="YOUR_API_KEY")

In [None]:
embeddings = embeddings_model.embed_documents(
    [
        "안녕하세요",
        "제 이름은 홍길동입니다.",
        "이름이 무엇인가요?",
        "랭체인은 유용합니다.",
        "Hello World!"
    ]
)
len(embeddings), len(embeddings[0])

(5, 1536)

In [None]:
embedded_query_q = embeddings_model.embed_query("이 대화에서 언급된 이름은 무엇입니까?")
embedded_query_a = embeddings_model.embed_query("이 대화에서 언급된 이름은 홍길동입니다.")
print(len(embedded_query_q), len(embedded_query_a))

1536 1536


In [None]:
from numpy import dot
from numpy.linalg import norm
import numpy as np

def cos_sim(A, B):
       return dot(A, B)/(norm(A)*norm(B))

In [None]:
print(cos_sim(embedded_query_q, embedded_query_a))
print(cos_sim(embedded_query_q, embeddings[1]))
print(cos_sim(embedded_query_q, embeddings[3]))

0.9018785967795147
0.8503907115290837
0.7762045326835891


##### Huggingface Embedding

In [None]:
!pip install sentence_transformers

In [None]:
from langchain.embeddings import HuggingFaceBgeEmbeddings

model_name = "BAAI/bge-small-en"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

Downloading (…)421f3/.gitattributes:   0%|          | 0.00/1.52k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)93c10421f3/README.md:   0%|          | 0.00/90.2k [00:00<?, ?B/s]

Downloading (…)c10421f3/config.json:   0%|          | 0.00/684 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/133M [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/134M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading (…)421f3/tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

Downloading (…)93c10421f3/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)10421f3/modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

In [None]:
embeddings = hf.embed_documents(
    [
    "today is monday",
    "weather is nice today",
    "what's the problem?",
    "langhcain in useful",
    "Hello World!",
    "my name is morris"
    ]
)

In [None]:
BGE_query_q = hf.embed_query("Hello? who is this?")
BGE_query_a = hf.embed_query("hi this is harrison")

print(cos_sim(BGE_query_q, BGE_query_a))
print(cos_sim(BGE_query_q, embeddings[1]))
print(cos_sim(BGE_query_q, embeddings[5]))

0.8522539613254043
0.7469068110765112
0.792870391403288


In [None]:
sentences = [
    "안녕하세요",
    "제 이름은 홍길동입니다.",
    "이름이 무엇인가요?",
    "랭체인은 유용합니다.",
    "홍길동 아버지의 이름은 홍상직입니다."
    ]
ko_embeddings = hf.embed_documents(sentences)

In [None]:
BGE_query_q_2 = hf.embed_query("홍길동은 아버지를 아버지라 부르지 못하였습니다. 홍길동 아버지의 이름은 무엇입니까?")
BGE_query_a_2 = hf.embed_query("홍길동의 아버지는 엄했습니다.")


print("질문: 홍길동은 아버지를 아버지라 부르지 못하였습니다. 홍길동 아버지의 이름은 무엇입니까? \n", "-"*100)
print("홍길동의 아버지는 엄했습니다. \t\t 문장 유사도: ", round(cos_sim(BGE_query_q_2, BGE_query_a_2),2))
print(sentences[1] + "\t\t\t 문장 유사도: ", round(cos_sim(BGE_query_q_2, ko_embeddings[1]),2))
print(sentences[3] + "\t\t\t 문장 유사도: ", round(cos_sim(BGE_query_q_2, ko_embeddings[3]),2))
print(sentences[4] + "\t 문장 유사도: ", round(cos_sim(BGE_query_q_2, ko_embeddings[4]),2))

질문: 홍길동은 아버지를 아버지라 부르지 못하였습니다. 홍길동 아버지의 이름은 무엇입니까? 
 ----------------------------------------------------------------------------------------------------
홍길동의 아버지는 엄했습니다. 		 문장 유사도:  0.95
제 이름은 홍길동입니다.			 문장 유사도:  0.88
랭체인은 유용합니다.			 문장 유사도:  0.85
홍길동 아버지의 이름은 홍상직입니다.	 문장 유사도:  0.92


##### 한국어 사전학습 모델 임베딩 - ko-sbert-nli

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings

model_name = "jhgan/ko-sbert-nli"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
ko = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [None]:
sentences = [
    "안녕하세요",
    "제 이름은 홍길동입니다.",
    "이름이 무엇인가요?",
    "랭체인은 유용합니다.",
    "홍길동 아버지의 이름은 홍상직입니다."
    ]

ko_embeddings = ko.embed_documents(sentences)

q = "홍길동은 아버지를 아버지라 부르지 못하였습니다. 홍길동 아버지의 이름은 무엇입니까?"
a = "홍길동의 아버지는 엄했습니다."
ko_query_q = ko.embed_query(q)
ko_query_a = ko.embed_query(a)

print("질문: {} \n".format(q), "-"*100)
print("{} \t\t 문장 유사도: ".format(a), round(cos_sim(ko_query_q, ko_query_a),2))
print("{}\t\t\t 문장 유사도: ".format(sentences[1]), round(cos_sim(ko_query_q, ko_embeddings[1]),2))
print("{}\t\t\t 문장 유사도: ".format(sentences[3]), round(cos_sim(ko_query_q, ko_embeddings[3]),2))
print("{}\t 문장 유사도: ".format(sentences[4]), round(cos_sim(ko_query_q, ko_embeddings[4]),2))

질문: 홍길동은 아버지를 아버지라 부르지 못하였습니다. 홍길동 아버지의 이름은 무엇입니까? 
 ----------------------------------------------------------------------------------------------------
홍길동의 아버지는 엄했습니다. 		 문장 유사도:  0.47
제 이름은 홍길동입니다.			 문장 유사도:  0.54
랭체인은 유용합니다.			 문장 유사도:  0.03
홍길동 아버지의 이름은 홍상직입니다.	 문장 유사도:  0.61


### VectorStore

VectorStore는 자연어 --> 숫자 처리한 후 이들을 저장하는 벡터 저장소입니다.

벡터 저장소는 임베딩된 데이터를 인덱싱하여, input으로 받아들이는 query와의 유사도를 빠르게 출력합니다.

대표적으로 FAISS, Chroma가 존재합니다.

![이미지](https://python.langchain.com/assets/images/data_connection-c42d68c3d092b85f50d08d4cc171fc25.jpg)

#### Chroma

Chroma는 대표적인 오픈소스 벡터 저장소입니다.

In [None]:
!pip install chromadb tiktoken transformers sentence_transformers openai langchain pypdf

기본적으로 VectorStore는 벡터를 일시적으로 저장합니다. 텍스트와 임베딩 함수를 지정하여 from_documents() 함수에 보내면, 지정된 임베딩 함수를 통해 텍스트를 벡터로 변환하고, 이를 임시 db로 생성합니다.

그리고 similarity_search() 함수에 쿼리를 지정해주면 이를 바탕으로 가장 벡터 유사도가 높은 벡터를 찾고 이를 자연어 형태로 출력합니다.

In [None]:
import tiktoken
from langchain.text_splitter import RecursiveCharacterTextSplitter

tokenizer = tiktoken.get_encoding("cl100k_base")

def tiktoken_len(text):
    tokens = tokenizer.encode(text)
    return len(tokens)

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import PyPDFLoader


# load the document and split it into chunks
loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf")
pages = loader.load_and_split()

# split it into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0, length_function = tiktoken_len)
docs = text_splitter.split_documents(pages)

# create the open-source embedding function
from langchain.embeddings import HuggingFaceEmbeddings

model_name = "jhgan/ko-sbert-nli"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)


In [None]:
# load it into Chroma
db = Chroma.from_documents(docs, hf)

# query it
query = "6대 먹거리 산업은?"
docs = db.similarity_search(query)

# print results
print(docs[0].page_content)

-컴퓨팅 기술을 활용한 다양한 사업화가 활발히 진행되고 있어 혁신성장 정책금융 공급 규모가 매년 
약 100% 수준으로 증가하고 있으며 , 새정부의 ‘미래 먹거리산업 신성장 전략추진*’에 따라 인공
지능 관련 기술로의 금융지원이 늘어날 것으로 전망됨
       * 에너지 , 방산, 우주항공 , 인공지능 (AI), 바이오 , 탄소중립 대응, 스마트농업을 차세대 6대 먹거리 산업으로 선정


In [None]:
tiktoken_len(docs[0].page_content)

229


---


그런데, 대부분의 경우에서는 내가 활용하고자 하는 문서를 나만의 디스크에 저장하고 필요할 때마다 호출해야 합니다. persist() 함수를 통해 벡터저장소를 로컬 저장하고, Chroma 객체를 선언할 때 로컬 저장소 경로를 지정하여 필요할 때 다시 불러올 수 있습니다.

In [None]:
# save to disk
db2 = Chroma.from_documents(docs, hf, persist_directory="./chroma_db")
docs = db2.similarity_search(query)

In [None]:
# load from disk
db3 = Chroma(persist_directory="./chroma_db", embedding_function=hf)
docs = db3.similarity_search(query)
print(docs[0].page_content)

-컴퓨팅 기술을 활용한 다양한 사업화가 활발히 진행되고 있어 혁신성장 정책금융 공급 규모가 매년 
약 100% 수준으로 증가하고 있으며 , 새정부의 ‘미래 먹거리산업 신성장 전략추진*’에 따라 인공
지능 관련 기술로의 금융지원이 늘어날 것으로 전망됨
       * 에너지 , 방산, 우주항공 , 인공지능 (AI), 바이오 , 탄소중립 대응, 스마트농업을 차세대 6대 먹거리 산업으로 선정




---


쿼리와 유사한 문서(청크)를 불러올 때, 유사도를 함께 제공하는 함수 similarity_search_with_score()를 제공합니다. 이를 통해서 내가 얻은 유사한 문장들의 유사도를 비교할 수 있으며, 특정 유사도 이상의 문서만 출력하도록 하는 등 다양한 활용이 가능합니다.

In [None]:
docs = db3.similarity_search_with_relevance_scores(query, k=3)


print("가장 유사한 문서:\n\n {}\n\n".format(docs[0][0].page_content))
print("문서 유사도:\n {}".format(docs[0][1]))

가장 유사한 문서:

 -컴퓨팅 기술을 활용한 다양한 사업화가 활발히 진행되고 있어 혁신성장 정책금융 공급 규모가 매년 
약 100% 수준으로 증가하고 있으며 , 새정부의 ‘미래 먹거리산업 신성장 전략추진*’에 따라 인공
지능 관련 기술로의 금융지원이 늘어날 것으로 전망됨
       * 에너지 , 방산, 우주항공 , 인공지능 (AI), 바이오 , 탄소중립 대응, 스마트농업을 차세대 6대 먹거리 산업으로 선정


문서 유사도:
 0.25494971276271305


#### FAISS

Facebook AI 유사성 검색(Faiss)은 고밀도 벡터의 효율적인 유사성 검색 및 클러스터링을 위한 라이브러리입니다. 여기에는 모든 크기의 벡터 집합에서 검색하는 알고리즘이 포함되어 있으며, RAM에 맞지 않을 수 있는 벡터까지 검색할 수 있습니다. 또한 평가 및 매개변수 조정을 위한 지원 코드도 포함되어 있습니다.

In [None]:
pip install faiss-cpu # For CPU Installation

In [None]:
from langchain.vectorstores import FAISS

In [None]:
loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf")
pages = loader.load_and_split()

# split it into chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0, length_function = tiktoken_len)
docs = text_splitter.split_documents(pages)

from langchain.embeddings import HuggingFaceEmbeddings

model_name = "jhgan/ko-sbert-nli"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
ko = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [None]:
db = FAISS.from_documents(docs, ko)

In [None]:
query = "인공지능 산업구조는 어떻게 구성되어있어?"
docs = db.similarity_search(query)
print(docs[0].page_content)

| 10 | CIS이슈리포트 2022-2 호 ▶인공지능 산업의 value chain 은 ‘AI 플랫폼 공급업체 → AI 어플리케이션 개발 → AI 응용솔루션  
개발 → 이용자 ’로 구성되며 , 동 산업은 ①성장기 산업, ②대체재로부터의 위협이 낮은 산업, ③기
술집약적 산업 등의 특징을 가짐
￮알고리즘 , 하드웨어 기술개발과 응용솔루션 서비스 상용화가 활발히 진행 중인 성장기 산업이며 , 
수요 기업의 요구사항에 따라 운영플랫폼을 선택할 수 있는 구매자의 교섭력이 높은 산업임
￮직접적인 대체 기술이 없어 대체재로부터 위협이 낮은 편이며 , 알고리즘의 동작원리를 이해하고 맞
춤형 서비스를 지원하기 위한 솔루션 개발 능력이 뒷받침 되어야 하는 기술집약적 산업임
▶시장조사전문기관 BCC research 에 따르면 세계 인공지능 시장규모는 2020년 398.4 억 달러에서


In [None]:
docs_and_scores = db.similarity_search_with_score(query)
docs_and_scores

[(Document(page_content='| 10 | CIS이슈리포트 2022-2 호 ▶인공지능 산업의 value chain 은 ‘AI 플랫폼 공급업체 → AI 어플리케이션 개발 → AI 응용솔루션  \n개발 → 이용자 ’로 구성되며 , 동 산업은 ①성장기 산업, ②대체재로부터의 위협이 낮은 산업, ③기\n술집약적 산업 등의 특징을 가짐\n￮알고리즘 , 하드웨어 기술개발과 응용솔루션 서비스 상용화가 활발히 진행 중인 성장기 산업이며 , \n수요 기업의 요구사항에 따라 운영플랫폼을 선택할 수 있는 구매자의 교섭력이 높은 산업임\n￮직접적인 대체 기술이 없어 대체재로부터 위협이 낮은 편이며 , 알고리즘의 동작원리를 이해하고 맞\n춤형 서비스를 지원하기 위한 솔루션 개발 능력이 뒷받침 되어야 하는 기술집약적 산업임\n▶시장조사전문기관 BCC research 에 따르면 세계 인공지능 시장규모는 2020년 398.4 억 달러에서', metadata={'source': '/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf', 'page': 9}),
  0.69344306),
 (Document(page_content='혁신성장 정책금융 동향 : ICT 산업을 중심으로\n  CIS이슈리포트 2022-2 호 | 9 |▶다양한 데이터나 복잡한 자료 속에서 핵심적인 특징을 요약하는 ①데이터 추상화 기술, 방대한 지식\n체계를 이용하는 ②빅데이터 기술, 빅데이터를 처리하기 위한 ③고성능 컴퓨팅 기술이 인공지능 \n구현의 핵심임\n￮데이터를 추상화하는 방법은 크게 인공신경망 (ANN), 심층신경망 (DNN), 합성곱신경망 (CNN) 및 \n순환신경망 (RNN) 등으로 구분됨\n[인공지능 데이터 추상화 기술]\n구분 특징 장점 단점\n인공신경망 (ANN)\nArtificial Neural \nNetwork사람의 신경망 원리와 구조를 모방하여 만든 \n기계학습 알고리즘

In [None]:
db.save_local("faiss_index")

In [None]:
new_db = FAISS.load_local("faiss_index", ko)

query = "인공지능 산업구조는 어떻게 구성되어있어?"
docs = new_db.similarity_search_with_relevance_scores(query, k=3)


print("질문: {} \n".format(query))
for i in range(len(docs)):
    print("{0}번째 유사 문서 유사도 \n{1}".format(i+1,round(docs[i][1],2)))
    print("-"*100)
    print(docs[i][0].page_content)
    print("\n")
    print(docs[i][0].metadata)
    print("-"*100)

질문: 인공지능 산업구조는 어떻게 구성되어있어? 

1번째 유사 문서 유사도 
0.51
----------------------------------------------------------------------------------------------------
| 10 | CIS이슈리포트 2022-2 호 ▶인공지능 산업의 value chain 은 ‘AI 플랫폼 공급업체 → AI 어플리케이션 개발 → AI 응용솔루션  
개발 → 이용자 ’로 구성되며 , 동 산업은 ①성장기 산업, ②대체재로부터의 위협이 낮은 산업, ③기
술집약적 산업 등의 특징을 가짐
￮알고리즘 , 하드웨어 기술개발과 응용솔루션 서비스 상용화가 활발히 진행 중인 성장기 산업이며 , 
수요 기업의 요구사항에 따라 운영플랫폼을 선택할 수 있는 구매자의 교섭력이 높은 산업임
￮직접적인 대체 기술이 없어 대체재로부터 위협이 낮은 편이며 , 알고리즘의 동작원리를 이해하고 맞
춤형 서비스를 지원하기 위한 솔루션 개발 능력이 뒷받침 되어야 하는 기술집약적 산업임
▶시장조사전문기관 BCC research 에 따르면 세계 인공지능 시장규모는 2020년 398.4 억 달러에서


{'source': '/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf', 'page': 9}
----------------------------------------------------------------------------------------------------
2번째 유사 문서 유사도 
0.48
----------------------------------------------------------------------------------------------------
혁신성장 정책금융 동향 : ICT 산업을 중심으로
  CIS이슈리포트 2022-2 호 | 9 |▶다양한 데이터나 복잡한 자료 속에서

In [None]:
query = "인공지능 산업구조는 어떻게 구성되어있어?"
docs = new_db.max_marginal_relevance_search(query,k=3,fetch_k = 10, lambda_mult = 0.3)

print("질문: {} \n".format(query))
for i in range(len(docs)):
    print("{}번째 유사 문서:".format(i+1))
    print("-"*100)
    print(docs[i].page_content)
    print("\n")
    print(docs[i].metadata)
    print("-"*100)
    print("\n\n")


질문: 인공지능 산업구조는 어떻게 구성되어있어? 

1번째 유사 문서:
----------------------------------------------------------------------------------------------------
| 10 | CIS이슈리포트 2022-2 호 ▶인공지능 산업의 value chain 은 ‘AI 플랫폼 공급업체 → AI 어플리케이션 개발 → AI 응용솔루션  
개발 → 이용자 ’로 구성되며 , 동 산업은 ①성장기 산업, ②대체재로부터의 위협이 낮은 산업, ③기
술집약적 산업 등의 특징을 가짐
￮알고리즘 , 하드웨어 기술개발과 응용솔루션 서비스 상용화가 활발히 진행 중인 성장기 산업이며 , 
수요 기업의 요구사항에 따라 운영플랫폼을 선택할 수 있는 구매자의 교섭력이 높은 산업임
￮직접적인 대체 기술이 없어 대체재로부터 위협이 낮은 편이며 , 알고리즘의 동작원리를 이해하고 맞
춤형 서비스를 지원하기 위한 솔루션 개발 능력이 뒷받침 되어야 하는 기술집약적 산업임
▶시장조사전문기관 BCC research 에 따르면 세계 인공지능 시장규모는 2020년 398.4 억 달러에서


{'source': '/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf', 'page': 9}
----------------------------------------------------------------------------------------------------



2번째 유사 문서:
----------------------------------------------------------------------------------------------------
혁신성장 정책금융 동향 : ICT 산업을 중심으로
  CIS이슈리포트 2022-2 호 | 9 |▶다양한 데이터나 복잡한 자료 속에서 핵심적인 특징을 요약하는 

### Retriever

리트리버는 비정형 쿼리가 주어지면 문서를 반환하는 인터페이스입니다. 벡터 저장소보다 더 일반적입니다. 리트리버는 문서를 저장할 필요 없이 단지 반환(또는 검색)만 할 수 있습니다. - *Langchain Document*

쉽게 말해, Retriever는 검색을 쉽게 할 수 있도록 구성된 모듈입니다. 이를 통해 손쉽게 문서를 검색할 수 있도록 하고 이를 기반으로 LLM과 대화할 수 있도록 합니다.

In [None]:
!pip install chromadb tiktoken transformers sentence_transformers openai langchain pypdf

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
import openai
os.environ["OPENAI_API_KEY"] = 'YOUR_API_KEY'

In [None]:
import tiktoken

tokenizer = tiktoken.get_encoding("cl100k_base")

def tiktoken_len(text):
    tokens = tokenizer.encode(text)
    return len(tokens)

In [None]:
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import PyPDFLoader

In [None]:
loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf")
pages = loader.load_and_split()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50, length_function = tiktoken_len)
texts = text_splitter.split_documents(pages)

from langchain.embeddings import HuggingFaceEmbeddings

model_name = "jhgan/ko-sbert-nli"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
hf = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

docsearch = Chroma.from_documents(texts, hf)

In [None]:
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

openai = ChatOpenAI(model_name="gpt-3.5-turbo",
                    streaming=True, callbacks=[StreamingStdOutCallbackHandler()],
                    temperature = 0)

qa = RetrievalQA.from_chain_type(llm = openai,
                                 chain_type = "stuff",
                                 retriever = docsearch.as_retriever(
                                    search_type="mmr",
                                    search_kwargs={'k':3, 'fetch_k': 10}),
                                 return_source_documents = True)

query = "혁신성장 정책금융에 대해서 설명해줘"
result = qa(query)

혁신성장 정책금융은 기업의 성장과 혁신을 지원하기 위해 정부나 정부 기관이 제공하는 금융 지원 정책입니다. 이 정책은 건강한 혁신산업 생태계를 조성하고, 기업 성장에 필요한 자금을 지원하기 위해 시행되고 있습니다.

혁신성장 정책금융기관은 혁신성장에 대한 정의를 구체화한 정책금융 가이드라인에 따라 혁신성장 산업육성을 위한 정책금융 업무를 추진하고 있습니다. 이 가이드라인은 '9대 테마-46개 분야-296개 품목'으로 구성되어 있으며, 혁신성장 기업 발굴 및 금융지원을 위한 기준으로 활용됩니다.

혁신성장 정책금융 제도 시행 이후 공급 규모는 매년 증가하고 있으며, 미래 혁신성장 분야의 글로벌 경쟁력 확보를 위한 금융지원이 지속적으로 이루어지고 있습니다. 정책금융기관의 혁신성장 분야 정책금융 공급규모는 2017년 240,787억 원에서 연평균 37.2% 증가하여 2021년 854,338억 원에 이르는 등 그 외연을 확장하고 있습니다. 또한, 정책금융 공급 건수도 2017년 28,187건에서 2021년 71,369건으로 증가하였습니다.

이러한 혁신성장 정책금융은 ICT 산업을 중심으로 이루어지고 있습니다. ICT 산업은 정보통신, 전기전자, 센서측정 분야에서 이루어지며, 이를 위해 정책금융이 집중되는 혁신성장 주요 품목의 기술과 시장 동향을 분석하는 보고서도 작성되고 있습니다.

In [None]:
result

{'query': '혁신성장 정책금융에 대해서 설명해줘',
 'result': "혁신성장 정책금융은 기업의 성장과 혁신을 지원하기 위해 정부나 정부 기관이 제공하는 금융 지원 정책입니다. 이 정책은 건강한 혁신산업 생태계를 조성하고, 기업 성장에 필요한 자금을 지원하기 위해 시행되고 있습니다.\n\n혁신성장 정책금융기관은 혁신성장에 대한 정의를 구체화한 정책금융 가이드라인에 따라 혁신성장 산업육성을 위한 정책금융 업무를 추진하고 있습니다. 이 가이드라인은 '9대 테마-46개 분야-296개 품목'으로 구성되어 있으며, 혁신성장 기업 발굴 및 금융지원을 위한 기준으로 활용됩니다.\n\n혁신성장 정책금융 제도 시행 이후 공급 규모는 매년 증가하고 있으며, 미래 혁신성장 분야의 글로벌 경쟁력 확보를 위한 금융지원이 지속적으로 이루어지고 있습니다. 정책금융기관의 혁신성장 분야 정책금융 공급규모는 2017년 240,787억 원에서 연평균 37.2% 증가하여 2021년 854,338억 원에 이르는 등 그 외연을 확장하고 있습니다. 또한, 정책금융 공급 건수도 2017년 28,187건에서 2021년 71,369건으로 증가하였습니다.\n\n이러한 혁신성장 정책금융은 ICT 산업을 중심으로 이루어지고 있습니다. ICT 산업은 정보통신, 전기전자, 센서측정 분야에서 이루어지며, 이를 위해 정책금융이 집중되는 혁신성장 주요 품목의 기술과 시장 동향을 분석하는 보고서도 작성되고 있습니다.",
 'source_documents': [Document(page_content='혁신성장 정책금융 동향 : ICT 산업을 중심으로\n  CIS이슈리포트 2022-2 호 | 3 |1. 들어가며\n▶혁신성장 정책금융기관은 건강한 혁신산업 생태계를 조성하기 위해 기업 성장에 필요한 자금을 \n지원하는 혁신성장 정책금융 제도를 시행하고 있음\n￮혁신성장 정책금융기관은 혁신성장에 대한 정의를 구체화한 정책금융 가이드라인*에 따라 혁신성장  \n산업육성을 위한 정책금융 업무를 추진 중임\n       * 

#### VectorIndexCreator

VectorIndexCreator는 문서 분할 - 임베딩 - 벡터 저장의 3가지 단계를 한 줄로 수행가능하도록 하는 함수입니다. 단순히 문서 loader를 넘겨줌으로써, 문서에 대한 질문이 가능하도록 합니다.

또한 이를 통해 생성한 index 객체에 query()함수를 통해 질문하면 QA Chain이 작동하여 LLM이 답변까지 합니다.

In [None]:
from langchain.chat_models  import ChatOpenAI

llm = OpenAIChat(
    model_name='gpt-3.5-turbo',
)



In [None]:
from langchain.indexes import VectorstoreIndexCreator

In [None]:
loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf")
pages = loader.load_and_split()

In [None]:
index = VectorstoreIndexCreator(
    text_splitter=RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=0)
).from_loaders([loader])

In [None]:
query = "현행 극저신용대출 심사기준은 무엇인가 answer in Korean"
index.query(llm = llm, question = query)

'현행 극저신용대출 심사기준은 차주 관련 기초현황점수(정량지표, 55점)와 심사점수(정성지표, 45점)로 구분되어 있으며, 심사기준별 세부심사항목은 인구학적 정보(성별, 연령, 거주지, 직업, 가구원, 주거형태)과 경제상황(정부지원 여부, 소득유무, 불법사금융 피해 여부, 고금리 이용 여부, 2030 청년 여부)입니다.'

In [None]:
index.query_with_sources(llm = llm, question = query)

{'question': '현행 극저신용대출 심사기준은 무엇인가 answer in Korean',
 'answer': '현행 극저신용대출 심사기준은 2020년 심사기준을 따르며, 심사기준은 차주 관련 기초현황점수와 심사점수로 구분되고 세부심사항목은 인구학적 정보와 경제상황을 포함한다. (석희정 외, 2020)\n\n',
 'sources': '- 경기복지재단 사업결과 보고서 내부자료 (2021)\n- 경기 복지재단 (['}

VectorIndexCreator는 실제로 아래와 같은 과정을 한꺼번에 수행하는 Wrapper입니다.

In [None]:
pip install tiktoken openai langchain pypdf chromadb
!pip install chromadb
import os
os.environ["OPENAI_API_KEY"] = 'OPENAI_API_KEY'

from google.colab import drive
drive.mount('/content/drive')

In [None]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
loader = PyPDFLoader("/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf")
documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

In [None]:
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(texts, embeddings)

In [None]:
retriever = db.as_retriever()

In [None]:
from langchain.chains import RetrievalQA
from langchain.chat_models  import ChatOpenAI

llm = ChatOpenAI(
    model_name='gpt-3.5-turbo',
)

qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever, return_source_documents = True)

In [None]:
def process_response(llm_response):
  print(llm_response['result'])
  print('\n\n출처:')
  for source in llm_response['source_documents']:
    print(source.metadata['source'])

In [None]:
response

NameError: ignored

In [None]:
query = "현행 극저신용대출 심사기준은 무엇인가 answer in Korean"
response = qa(query)
process_response(response)

현행 극저신용대출 심사기준은 차주 관련 기초현황점수와 심사점수로 구분되어 있습니다. 차주의 인구학적 정보(성별, 연령, 거주지, 직업, 가구원, 주거형태)와 경제상황(정부지원 여부, 소득유무) 등을 포함한 다양한 심사항목을 기준으로 심사가 이루어지고 있습니다. 더 자세한 내용은 현장공감 경기복지재단의 사업결과 보고서 내부자료를 참고하시기 바랍니다.


출처:
/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf
/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf
/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf
/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf


#### MultiQueryRetriever

사용자의 질문과 연관된 문서를 추출하기 위해 여러 쿼리를 자동으로 생성하여 검색하는 Retriver입니다. 질문의 의도는 하나지만, 표현이 여러개일 수 있는 것처럼, 연관된 문서 또한 여러 문서가 포함될 수 있습니다. MultiQueryRetriever는 자동으로 사용자 질문을 여러 표현으로 각색하고, 이를 통해 연관 문서를 여러개 추출합니다. 그리고 그 문서들을 활용해 더욱 높은 품질의 답변을 출력할 수 있습니다.

In [None]:
from langchain.retrievers.multi_query import MultiQueryRetriever
question="현행 극저신용대출 심사기준은 무엇인가 answer in Korean"
num_queries=3

retriever_from_llm = MultiQueryRetriever.from_llm(retriever=db.as_retriever(),llm=llm)

In [None]:
unique_docs = retriever_from_llm.get_relevant_documents(question=question)
len(unique_docs)

7

In [None]:
from langchain.retrievers.multi_query import MultiQueryRetriever
question="금융이력부족자는 신용 대출 심사를 어떤 식으로 진행해야하나요? answer in Korean"
num_queries=3

retriever_from_llm = MultiQueryRetriever.from_llm(retriever=db.as_retriever(),llm=llm)
unique_docs = retriever_from_llm.get_relevant_documents(question=question)

text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(unique_docs)

embeddings = OpenAIEmbeddings()
db = Chroma.from_documents(texts, embeddings)

retriever_from_llm = MultiQueryRetriever.from_llm(retriever=db.as_retriever(),llm=llm)
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever_from_llm)

qa.run(question)


'금융이력부족자는 신용 대출 심사를 위해 다른 증빙자료나 보증인을 제출할 수 있습니다. 해당자의 자산이나 소득에 대한 정보를 확인하고, 추가적인 보증이나 담보를 요구할 수도 있습니다. 또한, 금융이력부족자를 위한 특별한 대출 상품이나 프로그램을 제공하는 기관을 찾아볼 수도 있습니다. 자세한 심사 방법은 해당 기관의 정책과 절차에 따라 달라질 수 있습니다.'

In [None]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever_from_llm, return_source_documents=True)

result = qa({"query": question})
result

In [None]:
result

{'query': '금융이력부족자는 신용 대출 심사를 어떤 식으로 진행해야하나요? answer in Korean',
 'result': '금융이력부족자의 경우, 현재 경기 극저신용대출사업이 유일한 대출 혜택을 받을 수 있는 상황입니다. 따라서, 해당 대출사업을 통해 대출을 신청하고 심사절차를 거쳐 대출 가능 여부를 판단합니다. 대출금액과 이자율은 심사결과에 따라 결정되며, 대출금액은 최소 50만 원에서 최대 300만 원까지 지원될 수 있습니다. 이자율은 연 1%로 적용되며, 5년 내에 상환해야합니다. 총 참여자 수는 58,914명이며, 경제적 취약계층에게 447억원의 대출이 실행되었습니다. 따라서, 금융이력부족자는 경기 극저신용대출사업을 통해 대출을 진행할 수 있습니다.',
 'source_documents': [Document(page_content='현장공감 경기복지재단 05\nⅠ. 경기도 극저신용대출심사모형 개발의 필요성대출의 경우 신용점수 하위 30%( 기존 5등급이하 ) 차주 중 중신용층에게 유리한 공급 \n개선방안을 제시함 (금융위원회 , 2021)\n-상대적으로 불량률과 연체율이 높은 7등급 이하 저신용자들은 부실위험이 높다는 이유\n로 여전히 정부와 금융권의 금융거래 기피대상으로 분류되어 실질적인 대출 혜택이 불\n가능한 상황이며 저신용 금융취약도민이 거의 유일하게 이용할 수 있는 제도권 금융상\n품은 극저신용대출사업뿐임 (석희정 외, 2021)\n내용 1차(2020 년 4월∽) 2차(2020 년 7월∽) 3차(2020 년 10월∽)\n대출금액긴급(무심사 )(50만 원)\n일반(심사)(300 만 원)무심사 (50만 원)\n심사(300만 원)\n불법사금융 피해자 (최대 300만 원)고금리 이용자 (300만 원)\n2030 청년(300만 원)\n심사(300만 원 한도)\n이자율 연 1%\n자료: 경기복지재단 사업결과 보고서 내부자료 (2021)<표 1> 2020 년도 경기 극저신용대출 차수별 지원내용', metadata={'source': '/con