# 1. 개요

이 문서는 인터넷 상에 공개된 ```한국잡월드```의 파편화된 복리후생 규정 파일을 구조적으로 정규화하고 내용을 표준화하는 것을 목표로 합니다.
> (참고)<br>
> 이 문서에서는 ```정규화```와 ```표준화```를 거의 같은 의미로 사용하고 있습니다.<br>
> 굳으 나누자면 ```정규화```는 문서의 구조를 통일시키는 것을 의미하며, ```표준화```는 문서의 내용을 통일시키는 것을 의미하지만 혼용하여 사용하고 있습니다.

작업에 사용된 파일은 ```한국잡월드의 복리후생```에 대해 인터넷 검색을 통해 생성되었습니다. 총 5개의 파일로 이루어져 있으며, 전반적으로 유사한 내용을 전달하고 있습니다.
각 문서의 특징, 요구 사항, 제한 사항은 아래와 같습니다.

## 1.1. 문서의 특징
1. 형태1 : 원본 형태로 아주 잘 쓰여져있는 문서
2. 형태2 : 형태1과 유사하며, 전체적으로 재작성된 문서
3. 형태3 : 형태1과 제목은 유사하나, 내용이 조금씩 빠져있는 문서
4. 형태4 : 형태1과 유사해보이지만, 아주 형편없고 내용이 많이 빠진 문서
5. 형태5 : 제목의 순서, 형태가 완전히 다르며, 불필요한 내용이 추가된 문서

## 1.2. 요구 사항
1. 형태 1 ~ 5의 구조적 혹은 내용적인 특징을 잘 담고 있는 표준 문서의 생성이 필요함
2. 즉, 생성된 표준문서는,
    * 형태 1 ~ 5의 구조적 특징을 담고 있으며, 중요한 내용은 빠짐없이 모두 포함되어야 합니다.
    * 소수의 문서에서만 등장하는 불필요한 내용은 포함되지 않아야 하며, 다수에 많이 등장하는 내용을 기반으로 합니다.

## 1.3. 추가 요구 사항 (제공되면 더 좋지만, 필수는 아님)
* 제공할 문서의 내용 중 숫자와 같은 변경 가능한 기준은 'blank'로 제공하여, 필요하다면 'blank'를 채워서 사용하도록 가이드 하면 좋습니다.
 
## 1.4. 제한사항
* 문서는 손으로 편집해서 사용할 수 없습니다.
* 현재는 복리후생이 과업이지만, 더 넓은 과업 영역 (계약 정보, 월급 정보 등..)으로 적용될 수 있는 형태가 필요합니다.


# 2. 실행 방법, 처리 흐름 및 사용 기술
파이썬 3.11 환경에서 ```requirements.txt```에 명시된 라이브러리를 기반으로 개발되었습니다.

## 2.1. 실행 방법
1. ```requirements.txt```에 명시된 의존성 라이브러리를 설치합니다.<br>
(참고) 파이썬 가상환경을 구성한 후, 라이브러리를 설치하는 것을 권장합니다.<br>
    ```bash
    pip install -r requirements.txt   
    ```

2. (Optional) 가상 환경에서 실행 시<br>
(참고) 가상 환경이 ```.venv```에 구성되었음을 가정<br> 
    ```bash
    source .venv/bin/activate
    ```

3. 실행<br>
    ```bash
    python main.py
    ```

## 2.2. 처리 흐름
```main.py``` 파일에서는 아래와 같은 흐름으로 과업을 처리합니다.

> (참고)<br>
> 아래에 기술된 흐름은 이 파일의 아래 ```3. 단계별 실행```에도 구성되어 있어 직접 실행해 볼 수 있습니다. 

1. 의존성 라이브러리 임포트
2. Bedrock 클라이언트 Instantiation
3. Document Manager Instantiation
4. 정규화된 문서 구조 생성
5. 정규화된 문서 구조에서 헤더 식별
6. 식별된 헤더를 기준으로 문서 내용 정규화
7. 완료되면 기본적으로 아래와 같이 두개의 파일이 생성됨
    * ```한국잡월드_복리후생_문서구조.md```: 정규화된 문서 구조
    * ```한국잡월드_복리후생_표준파일_리랭커미사용.md```: 정규화된 문서 내용 (기본적으로 ```Reranker``` 미사용)

## 2.3. 사용 기술
아래 ```LLM Tech Stack``` 이미지의 아래부터 사용된 기술을 나열하면 아래와 같습니다.<br>
![](./images/llm-tech-stack-1400.png)<br>

1. 모델 (via ```Amazon Bedrock```)
    * 정규화: ```Anthropic Claude-3 Sonnet``` (```anthropic.claude-3-sonnet-20240229-v1:0```)
    * 임베딩: ```Amazon Titan Embedding Text v2``` (```amazon.titan-embed-text-v2:0```)
2. 벡터 스토어 (for ```RAG```): ```Chroma DB``` (로컬 Persistence 지원)
    * 문서 청킹은 ```LangChain MarkdownHeaderTextSplitter```를 사용하여 수행
3. ```RAG``` 오케스트레이션
    * ```LangChain```
    * 특히 ```LangChain```의  ```VectorDB Retriever```에 ```Configurable Field```를 적용하여 ```동적 메타데이터 필터링``` 적용
    * (Optional) ```Reranker``` 사용 가능 - ```FlashrankRerank```를 통해 ```Reranker``` 모델 ```ms-marco-MultiBERT-L-12```을 사용할 수 있도록 구성
        * 다만 본 예제에서는 ```Reranker```를 기본적으로 사용하지 않으며, ```--use-reranker``` 옵션을 통해 사용 가능
        * 그리고 ```Reranker```를 사용하지 않는 경우와 비교 테스트를 수행해 보지는 못하였습니다 (시간 관계상 ^^;) 

# 3. 단계별 (Step-by-Step) 수행

## 3.1. 의존성 라이브러리 임포트

In [None]:
%pip install -r requirements.txt

In [1]:
from utils.DocumentManager import DocumentManager
from utils.SingletonBedrockClient import SingletonBedrockClient

## 3.2. Amazon Bedrock 클라이언트 Instantiation (Singleton)

In [2]:
bedrock_client = SingletonBedrockClient(region="us-west-2", runtime=True).get_instance()

INFO:botocore.credentials:Found credentials in shared credentials file: ~/.aws/credentials


Create new client
  Using region: us-west-2
boto3 Bedrock client successfully created!
bedrock-runtime(https://bedrock-runtime.us-west-2.amazonaws.com)


## 3.3. Document manager Instantiation

### 3.3.1. Reranker 미사용

In [3]:
doc_manager = DocumentManager(bedrock_client, "files", return_each_line=False, strip_headers=False, log_level="INFO", rag_k_exclusion_percent=0.25, use_reranker=False)

print(len(doc_manager.all_sections))
print(doc_manager.all_sections)
for index, (page_content, metadata, _) in enumerate(doc_manager.all_sections):
    print(f"[{index}] {page_content}, {metadata}")

100%|██████████| 5/5 [00:00<00:00, 741.83it/s]
INFO:chromadb.telemetry.product.posthog:Anonymized telemetry enabled. See                     https://docs.trychroma.com/telemetry for more information.
INFO:chromadb.api.segment:Collection langchain is not created.
INFO:utils.EmbeddingManager:Deleting 72 document(s) from langchain collection
INFO:utils.EmbeddingManager:Using embeddings from amazon.titan-embed-text-v2:0
INFO:utils.EmbeddingManager:Creating embeddings of 72 sections from files in directory db
INFO:utils.EmbeddingManager:Please be patient. This may take several minutes depending on the number of sections and the size of the documents.
INFO:chromadb.api.segment:Collection langchain is not created.
INFO:utils.EmbeddingManager:Persisting the embeddings
  warn_deprecated(
INFO:utils.RetrievalAgentBedrock:Setting k to 4 based on the number of documents 5 and the exclusion percent 0.25.
INFO:utils.RetrievalAgentBedrock:Prompt: input_variables=['context', 'question'] messages=[Syst

### 3.3.2. (Optional) Reranker 사용

아래에서 ```Reranker```를 사용할 경우 코멘트를 해제하고 사용하시면 됩니다.

In [None]:
# doc_manager = DocumentManager(bedrock_client, "files", return_each_line=False, strip_headers=False, log_level="INFO", rag_k_exclusion_percent=0.25, use_reranker=True)

## 3.4. 정규화된 문서 구조 생성

In [4]:
doc_manager.generate_norm_structure(model_id="anthropic.claude-3-sonnet-20240229-v1:0", temperature=0.1, top_p=0.9, top_k=250, max_tokens_to_sample=4096, dry_run=False)

INFO:utils.DocumentManager:Normalizing the structure of the document.
INFO:utils.DocumentManager:Found 5 files in the directory.
INFO:utils.DocumentManager:Files: ['files/한국잡월드_복리후생_1.md', 'files/한국잡월드_복리후생_2.md', 'files/한국잡월드_복리후생_3.md', 'files/한국잡월드_복리후생_4.md', 'files/한국잡월드_복리후생_5.md']
INFO:utils.DocumentManager:Normalized document is saved to output/한국잡월드_복리후생_문서구조.md


## 3.5. 정규 문서의 헤더 식별

In [5]:
headers = doc_manager.identify_norm_structure_headers()
print(headers)

['# 복리후생 규칙 ', '## 제1장 총칙 ', '### 제1조(목적) ', '### 제2조(정의) ', '### 제3조(복리후생의 구분) ', '## 제2장 보건관리 등 지원 ', '### 제4조(건강진단) ', '### 제5조(종합검진의 지원) ', '## 제3장 맞춤형 복지제도 ', '### 제6조(복지점수의 부여) ', '### 제7조(맞춤형 복지항목) ', '### 제8조(복지점수의 관리) ', '### 제9조(복지점수의 사용) ', '### 제10조(복지카드 사용액 정산) ', '## 제4장 복리후생시설 ', '### 제11조(복리후생시설) ', '## 제5장 피복지급 ', '### 제12조(피복지급) ', '## 부 칙 ', '### 제1조(시행일) ', '### 제2조(적용기준일 특례)']


## 3.6. 식별된 헤더를 기준으로 정규 문서 생성

In [6]:
doc_manager.normalize_document(document={i: {"header": header, "content": ""} for i, header in enumerate(headers)}, workers=4, model_id="anthropic.claude-3-sonnet-20240229-v1:0", temperature=0.1, top_p=0.9, top_k=250, max_tokens_to_sample=4096, dry_run=False)

INFO:utils.TokenUsageCallbackHandler:Retriever[RUN_ID=37ee5c0f-f955-4001-a60e-a6dafb710fa6] Start: 복지 정책 항목 ### 제1조(목적) 에 규정된 내용을 구체적이고 상세하게 알려주세요.
INFO:utils.TokenUsageCallbackHandler:Retriever[RUN_ID=9b0909d6-76cf-40b5-94e1-9bbed72918ce] Start: 복지 정책 항목 ### 제2조(정의) 에 규정된 내용을 구체적이고 상세하게 알려주세요.
INFO:utils.TokenUsageCallbackHandler:Retriever[RUN_ID=9f5748b0-b26b-46c2-b36d-0f186bbf02f8] Start: 복지 정책 항목 ## 제1장 총칙 에 규정된 내용을 구체적이고 상세하게 알려주세요.
INFO:utils.TokenUsageCallbackHandler:Retriever[RUN_ID=7d24536b-ce91-4664-8bf6-4b0dfab5ea47] Start: 복지 정책 항목 # 복리후생 규칙 에 규정된 내용을 구체적이고 상세하게 알려주세요.
INFO:utils.TokenUsageCallbackHandler:Retriever[RUN_ID=37ee5c0f-f955-4001-a60e-a6dafb710fa6] End: [Document(page_content='## 제1장 총칙  \n### 제1조(목적)\n이 규칙은 한국잡월드(이하 "잡월드"라고 한다) 소속 임직원 복리후생제도에 관한 기본적인 사항을 정하는 것을 목적으로 한다.', metadata={'Header 1': '복리후생 규칙', 'Header 2': '제1장 총칙', 'Header 3': '제1조(목적)'}), Document(page_content='## 제1장 총칙  \n### 제1조(목적)\n이 규칙은 한국잡월드(이하 "잡월드"라고 한다) 소속 임직원 복리후생제도에 관한 기본적인 사항을 정하는 것을 목적으

Successful Requests: 21
Tokens Used: 28605
	Prompt Tokens: 19728
	Completion Tokens: 8877
Total Cost (USD): $0.19233900000000004
