# 규모가 큰 문서 처리

이전 단계들에서는 회사에서 흔히 볼 수 있는 다양한 형태의 파일과 데이터 형식에 대한 솔루션을 개발했는데, 이는 사용 사례의 90%를 다루고 있습니다. 그러나 규모가 크고 복잡한 파일을 처리할 때는 앞선 형식으로는 불가능합니다. 

복잡한 파일의 예시로 수백 페이지에 걸쳐 이미지, 테이블, 양식 등의 형태로 정보를 포함할 수 있는 기술 사양 안내서 또는 제품 설명서가 있으며 또한 문서의 길이와 이미지 또는 테이블의 존재로 인해 복잡해 질 수 있습니다. 

보통 이러한 파일들은 일반적으로 PDF 형식입니다. 그렇기에 PDF 파일을 더 잘 처리하기 위해서는 각 문서를 특수한 source로 취급하여 페이지 별로 처리하는 보다 [PyPDF library](https://pypi.org/project/pypdf/) 이나 [Azure AI Document Intelligence SDK (former Form Recognizer)](https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/overview?view=doc-intel-3.0.0)를 OpenAI API를 연동하여 문서를 벡터화하고 벡터 기반 인덱스로 콘텐츠를 푸시하는 것이 좋습니다.



In [23]:
import os
import json
import time
import requests
import random
from collections import OrderedDict
import urllib.request
from tqdm import tqdm
import langchain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma, FAISS
from langchain import OpenAI, VectorDBQA
from langchain.chat_models import AzureChatOpenAI
from langchain.chat_models import ChatOpenAI
from langchain.chains import RetrievalQAWithSourcesChain
from langchain.docstore.document import Document
from langchain.chains.question_answering import load_qa_chain
from langchain.chains.qa_with_sources import load_qa_with_sources_chain

from common.utils import parse_pdf, read_pdf_files, text_to_base64
from common.prompts import COMBINE_QUESTION_PROMPT, COMBINE_PROMPT, COMBINE_PROMPT_TEMPLATE
from common.utils import (
    get_search_results,
    model_tokens_limit,
    num_tokens_from_docs,
    num_tokens_from_string
)


from IPython.display import Markdown, HTML, display  

from dotenv import load_dotenv
load_dotenv("credentials.env")

def printmd(string):
    display(Markdown(string))
    
os.makedirs("data/books/",exist_ok=True)
    

BLOB_CONTAINER_NAME = "books"
BASE_CONTAINER_URL = "https://holstorage.blob.core.windows.net/" + BLOB_CONTAINER_NAME + "/"
LOCAL_FOLDER = "./data/books/"

MODEL = "gpt-4-32k" # options: gpt-35-turbo, gpt-35-turbo-16k, gpt-4, gpt-4-32k

os.makedirs(LOCAL_FOLDER,exist_ok=True)

In [24]:
# Langchain을 활용하여 Azure OpenAI에 연결하는데 필요한 ENV 변수를 설정
os.environ["OPENAI_API_BASE"] = os.environ["AZURE_OPENAI_ENDPOINT"]
os.environ["OPENAI_API_KEY"] = os.environ["AZURE_OPENAI_API_KEY"]
os.environ["OPENAI_API_VERSION"] = os.environ["AZURE_OPENAI_API_VERSION"]
os.environ["OPENAI_API_TYPE"] = "azure"

In [25]:
embedder = OpenAIEmbeddings(deployment="text-embedding-ada-002", chunk_size=1) 

## 1 - 벡터 기반 index를 사용한 수동 문서 크래킹

Within our demo storage account, we have a container named `books`, which holds 5 books of different lengths, languages, and complexities. Let's create a `cogsrch-index-books-vector` and load it with the pages of all these books.

We begin by downloading these books to our local machine:

In [26]:
books = ["blockchain_explaination.pdf",
         "Harry_Potter_the_Sorcerer_Stone1.pdf",
         "Harry_Potter_the_Sorcerer_Stone2.pdf"]

Let's download the files to the local `./data/` folder:

In [27]:
for book in tqdm(books):
    book_url = BASE_CONTAINER_URL + book + os.environ['BLOB_SAS_TOKEN']
    urllib.request.urlretrieve(book_url, LOCAL_FOLDER+ book)

100%|██████████| 3/3 [00:01<00:00,  2.18it/s]


### pyPDF 혹은 AI Documment Intelligence API (Form Recognizer)이란?

'utils.py '에는 pdf 파싱(구문 분석) 기능이 있으며, PyPDF 라이브러리를 이용하여 로컬 파일을 파싱할 수 있으며, Azure AI Document Intelligence(Form Form Recognizer)를 이용하여 로컬 또는 from_url PDF 파일을 파싱할 수 있습니다.

'form_recognizer= false'인 경우 함수는 python pyPDF 라이브러리를 사용하여 PDF를 구문 분석하게 되며, 이 경우 75%의 시간이 잘 수행됩니다.<br>

AI Document Intelligence API(구 Form Recognizer)를 이용한 최적(및 느린) 파싱 방법으로 'form_recognizer=True'를 설정합니다. 사용할 프리빌트 모델을 지정할 수 있으며 기본값은 'model="prebuilt- document"입니다. 다만 테이블, 차트, 도형으로 복잡한 문서를 가지고 있다면 시도해 볼 수 있습니다
model="prebuilt-layout", 각 페이지의 뉘앙스를 모두 담아냅니다(물론 시간은 더 오래 걸립니다).

**참고: 많은 PDF가 스캔 이미지입니다. 예를 들어, 스캔되어 PDF로 저장된 서명된 계약서는 pyPDF로 파싱되지 않습니다. AI Document Intelligence API만 작동합니다.**

In [28]:
book_pages_map = dict()
for book in books:
    print("Extracting Text from",book,"...")
    
    # Capture the start time
    start_time = time.time()
    
    # Parse the PDF
    book_path = LOCAL_FOLDER+book
    book_map = parse_pdf(file=book_path, form_recognizer=False, verbose=True)
    book_pages_map[book]= book_map
    
    # Capture the end time and Calculate the elapsed time
    end_time = time.time()
    elapsed_time = end_time - start_time

    print(f"Parsing took: {elapsed_time:.6f} seconds")
    print(f"{book} contained {len(book_map)} pages\n")

Extracting Text from blockchain_explaination.pdf ...
Extracting text using PyPDF
Parsing took: 0.612723 seconds
blockchain_explaination.pdf contained 16 pages

Extracting Text from Harry_Potter_the_Sorcerer_Stone1.pdf ...
Extracting text using PyPDF
Parsing took: 8.683787 seconds
Harry_Potter_the_Sorcerer_Stone1.pdf contained 106 pages

Extracting Text from Harry_Potter_the_Sorcerer_Stone2.pdf ...
Extracting text using PyPDF
Parsing took: 7.905338 seconds
Harry_Potter_the_Sorcerer_Stone2.pdf contained 67 pages



이제 각각의 책의 랜덤 페이지를 확인하여 파싱이 정확하게 이루어졌는지 확인해 보겠습니다:

In [29]:
for bookname,bookmap in book_pages_map.items():
    print(bookname,"\n","chunk text:",bookmap[random.randint(1, 5)][2][:80],"...\n")

blockchain_explaination.pdf 
 chunk text: 블록체인의 이해 19
<그림 Ⅱ-1> 블록체인을 통한 거래 방법
자료: Thomson Reuters(2016. 1. 16), “lock-chai ...

Harry_Potter_the_Sorcerer_Stone1.pdf 
 chunk text: ׮ .ீ౟, ࣊ ,৬ э਷ ܻݣ যઉ ח ੄ ۈࢎ਷ ઁо যઁ ؍ ࠺ नী, ਋о э੉ Ҋ ۽ ੹೧ ׮פ! ب݃ ੉ ੄ࠛ ܳ ੌନ ୷ೞೞҊ ח  ...

Harry_Potter_the_Sorcerer_Stone2.pdf 
 chunk text: ܰܰ ઉաо, ৈ੗ ച੢प ۽ ә൤ ׮ ܳ ੗ ࢲ ܲࡅ ੗Ҵ о ۷ٜ׮ ."  ಌद ഋ੉ঠ!" ੉ क ೞҊ ܻܳ ۆ׮ ೘(੄ ৬ զѐী ੗ ਸ  ...



In [30]:
%%time
book = "blockchain_explaination.pdf"
book_path = LOCAL_FOLDER+book
book_map = parse_pdf(file=book_path, form_recognizer=True, model="prebuilt-document",from_url=False, verbose=True)
book_pages_map[book]= book_map

Extracting text using Azure Document Intelligence
CPU times: total: 703 ms
Wall time: 25.2 s


In [31]:
print(book,"\n","chunk text:",book_map[random.randint(1, 5)][2][:80],"...\n")

blockchain_explaination.pdf 
 chunk text: 18 연구보고서 2018-24
발행 및 이체서비스 등 다방면에 걸쳐 다양한 형태로 적용되기 시작하였으며, 금융 분 야뿐만 아니라 지역화폐(Loc ...



위에서 설명한 바와 같이 Azure Document Intelligence는 pyPDF보다 우수한 것으로 입증되었습니다. **제작 시나리오의 경우 Azure Document Intelligence를 지속적으로 사용할 것을 강력히 권장합니다** 이 경우 "Pre-built-document", "Pre-built-layout" 등 사용 가능한 모델을 현명하게 선택하는 것이 중요합니다. 모델 선택에 대한 자세한 내용은 [여기](https://learn.microsoft.com/en-us/azure/ai-services/document-intelligence/choose-model-feature?view=doc-intel-3.0.0) 에서 확인할 수 있습니다.


## 벡터 기반 인덱스 생성

이제 사전 'book_pages_map'에 책의 chunks(각 책의 각 페이지)의 내용이 들어있으므로, 이 내용이 착륙할 Azure Search Engine에 벡터 기반 인덱스를 만들어 보겠습니다

In [32]:
book_index_name = "cogsrch-index-books-vector"

In [33]:
### Azure 벡터 기반 인덱스 생성
# Payloads 헤더 설정
headers = {'Content-Type': 'application/json','api-key': os.environ['AZURE_SEARCH_KEY']}
params = {'api-version': os.environ['AZURE_SEARCH_API_VERSION']}

In [34]:
index_payload = {
    "name": book_index_name,
    "fields": [
        {"name": "id", "type": "Edm.String", "key": "true", "filterable": "true" },
        {"name": "title","type": "Edm.String","searchable": "true","retrievable": "true"},
        {"name": "chunk","type": "Edm.String","searchable": "true","retrievable": "true"},
        {"name": "chunkVector","type": "Collection(Edm.Single)","searchable": "true","retrievable": "true","dimensions": 1536,"vectorSearchConfiguration": "vectorConfig"},
        {"name": "name", "type": "Edm.String", "searchable": "true", "retrievable": "true", "sortable": "false", "filterable": "false", "facetable": "false"},
        {"name": "location", "type": "Edm.String", "searchable": "false", "retrievable": "true", "sortable": "false", "filterable": "false", "facetable": "false"},
        {"name": "page_num","type": "Edm.Int32","searchable": "false","retrievable": "true"},
        
    ],
    "vectorSearch": {
        "algorithmConfigurations": [
            {
                "name": "vectorConfig",
                "kind": "hnsw"
            }
        ]
    },
    "semantic": {
        "configurations": [
            {
                "name": "my-semantic-config",
                "prioritizedFields": {
                    "titleField": {
                        "fieldName": "title"
                    },
                    "prioritizedContentFields": [
                        {
                            "fieldName": "chunk"
                        }
                    ],
                    "prioritizedKeywordsFields": []
                }
            }
        ]
    }
}

r = requests.put(os.environ['AZURE_SEARCH_ENDPOINT'] + "/indexes/" + book_index_name,
                 data=json.dumps(index_payload), headers=headers, params=params)
print(r.status_code)
print(r.ok)

204
True


In [35]:
# Uncomment to debug errors
# r.text

## 벡터 기반 인덱스에 문서의 청크와 벡터 업로드

다음 코드는 각 문서의 청크에 반복되며 Azure Search Rest API 사용하여 해당 벡터가 있는 각 문서를 인덱스에 삽입합니다.

In [36]:
for bookname,bookmap in book_pages_map.items():
    print("Uploading chunks from",bookname)
    for page in tqdm(bookmap):
        try:
            page_num = page[0] + 1
            content = page[2]
            book_url = BASE_CONTAINER_URL + bookname
            upload_payload = {
                "value": [
                    {
                        "id": text_to_base64(bookname + str(page_num)),
                        "title": f"{bookname}_page_{str(page_num)}",
                        "chunk": content,
                        "chunkVector": embedder.embed_query(content if content!="" else "-------"),
                        "name": bookname,
                        "location": book_url,
                        "page_num": page_num,
                        "@search.action": "upload"
                    },
                ]
            }

            r = requests.post(os.environ['AZURE_SEARCH_ENDPOINT'] + "/indexes/" + book_index_name + "/docs/index",
                                 data=json.dumps(upload_payload), headers=headers, params=params)
            if r.status_code != 200:
                print(r.status_code)
                print(r.text)
        except Exception as e:
            print("Exception:",e)
            print(content)
            continue

Uploading chunks from blockchain_explaination.pdf


100%|██████████| 16/16 [00:27<00:00,  1.71s/it]


Uploading chunks from Harry_Potter_the_Sorcerer_Stone1.pdf


 52%|█████▏    | 55/106 [01:27<01:21,  1.60s/it]

## Query the Index

In [None]:
# QUESTION = "해리포터는 누구하고 같이 살고 있어?"
# QUESTION = "해리포터는 어떤 학교를 어떻게 갔어?"
QUESTION = "블록체인의 기술적 개념에 대해서 설명해줘"
# QUESTION = "블록체인의 종류와 특징을 알려줘"


In [None]:
vector_indexes = [book_index_name]

ordered_results = get_search_results(QUESTION, vector_indexes, 
                                        k=10,
                                        reranker_threshold=1,
                                        vector_search=True, 
                                        similarity_k=10,
                                        query_vector = embedder.embed_query(QUESTION)
                                        )

**Note**: that we are picking a larger k=10 since these chunks are NOT of 5000 chars each like prior notebooks, but instead each page is a chunk.

In [None]:
COMPLETION_TOKENS = 2000
llm = AzureChatOpenAI(deployment_name=MODEL, temperature=0.5, max_tokens=COMPLETION_TOKENS)

In [None]:
top_docs = []
for key,value in ordered_results.items():
    location = value["location"] if value["location"] is not None else ""
    top_docs.append(Document(page_content=value["chunk"], metadata={"source": location+os.environ['BLOB_SAS_TOKEN']}))
        
print("Number of chunks:",len(top_docs))

Number of chunks: 10


In [None]:
# Calculate number of tokens of our docs
if(len(top_docs)>0):
    tokens_limit = model_tokens_limit(MODEL) # this is a custom function we created in common/utils.py
    prompt_tokens = num_tokens_from_string(COMBINE_PROMPT_TEMPLATE) # this is a custom function we created in common/utils.py
    context_tokens = num_tokens_from_docs(top_docs) # this is a custom function we created in common/utils.py
    
    requested_tokens = prompt_tokens + context_tokens + COMPLETION_TOKENS
    
    chain_type = "map_reduce" if requested_tokens > 0.9 * tokens_limit else "stuff"  
    
    print("System prompt token count:",prompt_tokens)
    print("Max Completion Token count:", COMPLETION_TOKENS)
    print("Combined docs (context) token count:",context_tokens)
    print("--------")
    print("Requested token count:",requested_tokens)
    print("Token limit for", MODEL, ":", tokens_limit)
    print("Chain Type selected:", chain_type)
        
else:
    print("NO RESULTS FROM AZURE SEARCH")

System prompt token count: 1669
Max Completion Token count: 2000
Combined docs (context) token count: 8448
--------
Requested token count: 12117
Token limit for gpt-4-32k : 32768
Chain Type selected: stuff


In [None]:
if chain_type == "stuff":
    chain = load_qa_with_sources_chain(llm, chain_type=chain_type, 
                                       prompt=COMBINE_PROMPT)
elif chain_type == "map_reduce":
    chain = load_qa_with_sources_chain(llm, chain_type=chain_type, 
                                       question_prompt=COMBINE_QUESTION_PROMPT,
                                       combine_prompt=COMBINE_PROMPT,
                                       return_intermediate_steps=True)

In [None]:
%%time
# Try with other language as well
response = chain({"input_documents": top_docs, "question": QUESTION, "language": "Korean"})

CPU times: total: 15.6 ms
Wall time: 1min 19s


In [None]:
display(Markdown(response['output_text']))

블록체인은 P2P(Peer to Peer) 네트워크를 통해 관리되는 분산 데이터베이스의 한 형태로, 거래 정보를 담은 장부를 중앙 서버 한 곳에 저장하는 것이 아니라 블록체인 네트워크에 연결된 여러 컴퓨터에 저장 및 보관하는 기술입니다<sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[1]</a></sup>. 블록체인은 활용되는 목적에 따라 퍼블릭 블록체인, 프라이빗 블록체인, 컨소시엄 블록체인으로 나뉘며 각 블록체인마다 특징이 있습니다<sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[2]</a></sup>.

블록체인 기술의 핵심적인 원리 중 하나는 해시함수입니다. 해시함수는 '어떤 데이터를 고정된 길이의 데이터로 변환'하는 것을 의미하며, 이를 통해 원본 데이터를 알아볼 수 없도록 특수한 문자열로 변환이 되는데, 해시함수는 압축이 아니라 단방향 변환이기 때문에 해시값을 이용해서 원본 데이터를 복원할 수 없다는 특징을 가지고 있습니다<sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[1]</a></sup>.

또한, 블록체인에서는 거래 정보를 블록에 담아 차례대로 연결하고 이를 모든 참여자가 공유합니다. 이렇게 거래할 때마다 거래 정보가 담긴 블록이 생성되어 계속 연결되면서 모든 참여자의 컴퓨터에 분산 저장되는데, 이를 해킹하여 임의로 수정하거나 위조 또는 변조하려면 전체 참여자의 과반수 이상의 거래 정보를 동시에 수정하여야 하기 때문에 사실상 불가능합니다<sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[3]</a></sup>.

머클 트리는 블록체인에 중요한 역할을 하는데, 이는 모든 거래 데이터의 해시값을 머클 루트에 저장하고, 향후 거래내역의 위·변조 여부를 검증할 때, 원본 해시값과 비교를 통하여, 각 거래의 무결성을 검증할 수 있게 합니다<sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[4]</a></sup><sup><a href="https://holstorage.blob.core.windows.net/books/blockchain_explaination.pdf?sv=2022-11-02&ss=bfqt&srt=sco&sp=rwdlacupiytfx&se=2024-11-17T10:00:20Z&st=2023-10-17T02:00:20Z&spr=https&sig=A70wSmXw2q4gtqHFKd8h4J54rSkDp41DnyIXTFQ265A%3D" target="_blank">[5]</a></sup>.

# Summary

이 노트에서는 텍스트 + 벡터 검색인 [Hybrid Search](https://learn.microsoft.com/en-us/azure/search/search-get-started-vector#hybrid-search)를 사용하여 복잡하고 큰 문서를 처리하고 문서에 대한 Q&A를 수행하는 방법에 대해 배웠습니다.

또한 Azure Document Intelligence API의 기능과 수동 문서 구문 분석이 필요한 프로덕션 시나리오에 권장되는 이유에 대해서도 배웠습니다.
