# 1. 그래프 RAG 개요
- 그래프 RAG는 기존 RAG 시스템의 한계를 극복하기 위해 새롭게 개발된 모델로, 지식 그래프를 활용하여 정보 간의 관계를 더 깊이 이해하고 처리하는 방식입니다.
- 복잡한 데이터 간의 연결성을 파악하여 다층적인 질의응답이 가능하도록 합니다.

## 1.1 기존 RAG 방식의 한계
### 1. 정보 연결의 어려움
- 기존 RAG는 질문에 답하기 위해 개별 문서에서 정보를 검색할 수 있지만, 데이터 간의 관계를 부넉하여 새로운 통찰을 제공하는데 한계가 있습니다.
- 정보 조각을 연결하여 전체적인 의미를 도출하는 능력이 부족합니다.
- 예) 이 문서의 주요 주제는 무엇인가요?
- 기존 RAG시스템에서는 나누어진 개별 문서에서 특정 소주제나 키워드를 검색할 수 있습니다.
- 검색된 정보들은 각각 개별적으로 제공될 뿐, 데이터셋 전체에서 이러한 정보들이 어떻게 연결되고 전반적인 패턴이 무엇인지에 대해서는 알지 못합니다.
### 2. 대규모 데이터 이해의 한계
- 기존 RAG 시스템은 데이터의 규모가 클수록 개념들을 전체적으로 파악하는 데 어려움을 겪습니다. 다음 질문이 주어졌다고 생각해 봅시다.
- 예) "지난 10년간의 연간 보고서를 바탕으로 회사의 지속가능성 전략 변화를 설명해주세요."
- 기존 RAG는 연간 보고서에서 개별 문서들을 얻을수 있지만, 독립적으로 이루어져 있으며, 각 문서 안의 내용들이 다른 문서들과 어떻게 연결되는지 알 수 없습니다.

### Graph RAG
- 그래프 RAG는 전체 텍스트 코퍼스에 대한 질문에 답하기 위해 지식 그래프와 RAG를 결합한 접근 방식입니다.
- 그래프 RAG는 지식 그래프를 활용해 개별 정보 조각들 간의 관계를 모델링함으로써, 데이터셋 전체에서 연결성과 패턴을 파악할 수 있습니다.
- 대규모 데이터셋의 구조적 관계를 분석함으로써, 시간 경과에 따른 변화나 전체적인 개념을 더 효과적으로 이해할 수 있습니다.


## 1.2 지식 그래프란?
- 그래프는 개체(노드)와 그들 사이의 관계(엣지)로 구성되어 있습니다.
- 단순한 연결 구조뿐만 아니라, 방향성과 가중치도 표현할 수 있습니다.
- 지식 그래프는 정보와 지식을 보다 구조화하여 표현하는 특별한 형태의 그래프로 확장되었습니다.
- 일반 그래프는 노드와 엣지만을 사용하여 연결 구조를 나타내긴 하지만, 의미나 속성 보다는 연결되어 있다는 사실만 표현하는 경우가 많습니다.
- 지식 그래프는 개체와 관계에 의미론적 정보를 부여하여 각 요소가 무엇을 의미하는지 명확하게 정의합니다.
    - 예) "아이폰", "애플" - 연결을 "개발"이라는 명확한 관계로 정의함
- 지식 그래프는 관계에 풍부한 속성을 부여할 수 있다는 점에서 일반 그래프와 차별화됩니다.
    - 예) 아이폰 - 출시일: 2007년, 운영체제: iOS, 디스플레이 크기:3.5인치
    - 예) '개발' - 개발시기: 2007년 이후, 개발 조건: iOS기반

#### 지식그래프 특징
- 단순한 관계 연결을 넘어 복잡한 정보 구조를 표헌할 수 있다는 점입니다. 또한 속성을 통해 관계를 더 풍부하게 표현할 수 있습니다.
- 직접적으로 연결되지 않은 정보 사이의 관계를 유추할 수 있습니다.
    - 예) 스티브 잡스가 애플을 공동 창업했다. 스티브 잡스가 픽사의 CEO였다
    - 스티브 잡스라는 노드를 중심으로 애플과 픽사가 연결되어 있음을 한눈에 파악할 수 있습니다.
    - 애플과 픽사 사이의 간접적인 연관성을 쉽게 추론할 수 있으며, 두 회사의 혁신적인 기업 문화나 창의적인 제품 개발 철학과 같은 공통점을 예측해볼 수도 있습니다.
- 효율적인 정보 검색입니다.
    - 예) 애플 노드에서 시작하여 이웃 노드인 맥북, 스티브 잡스, 팀 쿡등의 정보를 쉽게 검색할 수 있습니다.

In [17]:
import mermaid as md
from mermaid.graph import Graph
render = md.Mermaid("""
%%{init: {'theme':'dark'}}%%
flowchart LR
    A((팀쿡))
    B((애플))
    C((맥북))
    D((스티브잡스))
    A ---|CEO|B ---|개발| C
    B ---|공동 창업자| D
""")
render

- 지식 그래프의 장점을 적극적으로 활용하여, 단순한 키워드 매칭을 넘어 정보간의 복잡한 관계를 고려한 고급 추론 답변 생성을 수행합니다.

## 1.3 그래프 RAG의 동작과정
- 그래프 RAG 시스템은 먼저 그래프DB를 구축한 후, 사용자 질의에 따라 적절한 검색 방식을 적용하여 답변을 생성하는 방식으로 작동합니다.
- 그래프 DB 구축 단계에서는 문서 내용을 분석하여 지식 그래프를 생성합니다.
- 이 과정에서 문서에서 추출한 주요 개념과 그들 사이의 관계를 구조화하여 그래프 형태로 저장합니다.
- 이후 구축된 그래프 내에서 서로 밀접하게 연관된 개체들의 그룹을 찾아내고, 핵심 내용을 요약하여 정보검색을 효율적으로 수행할 수 있도록 합니다.
- 사용자가 질문을 하면 질문의 성격에 따라 2가지 검색방식을 사용합니다.
    - 로컬 검색: 질문과 직접적으로 관련된 개체들을 식별하고, 이들과 연관된 정보를 수집하여 상세한 답변을 제공합니다. 특정 주제나 세부 정보를 묻는 질문에 효과적입니다.
    - 글로벌 검색: 문서 전체를 아우르는 포괄적인 질문에 대해, 여러 커뮤니티 요약을 활용하여 종합적인 답변을 제공합니다.
- 그래프RAG는 방대한 문서 컬렉션에서도 관련성 높은 정보를 빠르게 찾아내고, 이를 바탕으로 포괄적이고 정확한 답변을 생성할 수 있습니다.

# 2 그래프 DB 구축
## 2.1 그래프 DB 구축 과정
- 문서분할 > 지식 그래프 구축 > 그래프 증강 > 커뮤니티 요약
- 문서분할 과정에서는 대용량의 문서를 효율적으로 처리하기 위해 문서를 적절한 크기로 나눕니다.
- 지식 그래프 구축 단계에서는 앞서 분할한 문서에서 핵심 개체와 그들 간의 관계를 추출하여 기본적인 그래프 구조를 만듭니다.
- 그래프 증강 단계에서는 그래프 임베딩을 생성하여 기존에 생성된 그래프를 더욱 풍부하게 만들고, 서로 밀접하게 연관된 엔티티들을 그룹화한 '커뮤니티'를 구축하여 실제 활용이 가능한 수준으로 발전시킵니다.
- 커뮤니티 요약 과정에서는 구축된 커뮤니티의 핵심 정보를 요약합니다.

### 1. 문서 분할
- 사용할 문서를 적절한 크기로 분할합니다.
- 분할할 문서의 길이 설정이 중요합니다.
- 문서의 길이가 길수록 비용은 줄어드나, 지식 그래프 품질이 낮아질 수 있습니다.
- 연구에 따르면 문서를 600토큰 수준으로 분할했을 때, 2400토큰 수준으로 분할한 경우보다 감지되는 엔티티의 수가 거의 두배 가까이 증가한 것으로 나타났습니다.
- 가용 가능한 자원과 원하는 수준의 품질을 고려하여 적절히 선택하는 것이 중요합니다.

### 2. 지식 그래프 구축
- 지식 그래프는 소스 문서에서 엔티티와 그들 사이의 관계를 추출하여 만들수 있습니다.
- 최근에는 LLM을 활용하여 그래프를 구축하는 방법을 많이 사용합니다.
- 이전에는 규칙 기반 접근법과 기계학습 모델 등이 있습니다.
- 규칙기반접근법
    - 미리 정의된 언어 규칙이나 패턴을 사용하여 엔티티와 관계를 기계적으로 추출하는 방식입니다.
    - 예) 패턴: "회사명 + '은/는' + 제품명 '을/를 출시했다'
    - 같은 패턴 (삼성전자는 갤럭시 S23을 출시했다)의 문장이 있다면 같은 방법으로 엔티티가 추출된다.
    - 패턴이 정확히 일치하는 경우에만 작동하기 때문에 확장성과 유연성이 부족하다.
-기계학습 모델
    - 머신러닝 알고리즘을 활용하여 엔티티 및 관계 추출 모델을 만듭니다.
    - 알고리즘으로는 대표적으로 SVM(서포트 벡터 머신), CRF(조건부 랜덤 필드)가 있습니다.
    - 규칙기반접근법과 비교할때 실제 단어의 특징이나 문맥 정보에 기반하여 추출하기 때문에 좀 더 높은 정확도를 보인다는 장점이 있습니다.
    - 최근에는 기술발전에 따라 딥러닝 모델과 대규모 언어 모델을 많이 사용하고 있습니다.
- 딥러닝 모델
    - RNN, 트랜스포머와 같은 신경망 구조를 사용하여 엔티티와 관계를 추출합니다.
    - BERT와 같은 Transformer 기반 모델은 1억 개 이상의 파라미터를 사용합니다.
    - 대규모 파라미터를 통해 더 깊은 문맥 이해와 복잡한 언어 패턴 감지가 가능합니다.
    - 성능이 좋은만큼 학습하는 데 대규모 데이터셋이 필요하고, 모델 구동에 많은 자원이 필요하다는 단점이 있습니다.
- 대규모 언어 모델 활용
    - 최근에는 LLM을 활용하여 지식 기반 그래프를 구축하는 방식이 널리 사용되고 있습니다.
    - 디코더 기반의 트랜스포머 아키텍쳐를 사용하는 LLM은 방대한 데이터로 사전 학습되어 뛰어난 문맥 이해력과 복잡한 문장 처리 능력을 제공합니다.
    - 비용이 발생하고, 처리속도가 상대적으로 느리다는 단점, 출력결과 일관성이 완벽하지 않아 후처리가 필요할수도 있습니다.
    - 예) 
        - 입력 "테슬라는 일론 머스크가 설립한 회사로, 전기차와 태양광 패널을 생산합니다."
        - 입력 프롬프트 "다음 글에서 엔티티의 이름, 타입, 설명을 추출하고, 엔티티들 간의 관계를 설명과 함께 1-10 사이의 강도로 표시하세요"

| 이름     | 타입       | 설명                           |
| ------ | -------- | ---------------------------- |
| 테슬라    | 회사       | 일론 머스크가 설립한 전기차·태양광 패널 생산 기업 |
| 일론 머스크 | 개인       | 테슬라를 설립한 기업가                 |
| 전기차    | 제품(카테고리) | 테슬라가 제조·판매하는 전기 구동 자동차       |
| 태양광 패널 | 제품(카테고리) | 테슬라가 제조·판매하는 태양광 발전용 패널      |


| 관계 대상 A | 관계 대상 B | 관계 유형 | 강도 (1–10) | 설명                                            |
| ------- | ------- | ----- | --------- | --------------------------------------------- |
| 테슬라     | 일론 머스크  | 설립자   | 10        | ‘테슬라’를 창립한 핵심 인물이기 때문에 매우 강한 관계입니다.           |
| 테슬라     | 전기차     | 생산    | 9         | 테슬라의 대표 사업으로, 회사 아이덴티티를 구성하는 핵심 제품입니다.        |
| 테슬라     | 태양광 패널  | 생산    | 8         | 신재생 에너지 사업의 주요 축으로서 중요하지만 전기차보다는 비중이 다소 낮습니다. |

#### Gleaning을 통한 지식 그래프 품질 향상
- 이삭줍기는 LLM의 출력을 반복적으로 검증하고 보완하여, 정보 추출의 품질을 높이는 기법입니다.
- 초기 정보 추출이 이후 누락되거나 불완전한 정보를 보완하는 과정을 의미합니다.
- MS의 연구에 따르면, 반복 횟수에 비례하여 개선되는 것으로 나타났습니다.
- 청크 크기가 600일때 가장 효과적이었으며, 1200, 2400을 사용하더라도 Gelaning을 통해 성능 저하를 상당 부분 보완할수 있음이 확인되었습니다.
1. 초기 추출 단계에서 얻은 엔티티와 관계 정보를 LLM에 다시 입력하여, 누락된 정보가 있는지 검토합니다.
2. 누락된 정보가 식별되면 LLM에 추가 질의를 수행하여 보완 정보를 수집합니다.
3. 이 과정을 일정 기준이 도돨할 때까지 여러 차례 반복수행하여 점진적으로 정보의 완전성을 높입니다.

- 그래프RAG에서 지식 그래프를 생성하는 구체적인 과정을 살펴보겠습니다.

#### 1. 엔티티와 관계 추출
- 분할된 각 문서에서 엔티티와 관계를 추출합니다.
- 엔티티는 이름, 타입, 설명을 함께 추출하고, 각 관계는 출발점, 도착점, 설명, 강도를 포함하여 추출합니다.

#### 2. 그래프 통합
- 추출된 엔티티와 관계들을 통합하여 중복을 제거합니다.
- 동일한 이름과 타입을 가진 엔티티들은 하나로 통합되며, 설명은 배열 형태로 저장됩니다.
- 동일한 출발점과 도착점을 가진 관계들도 통합되어 여러 설명이 배열로 저장됩니다.
- 예)
    - 이름 "ELON MUSK", 타입 "PERSON", 설명: "트위터를 인수한 기업인"
    - 이름 "ELON MUSK", 타입 "PERSON", 설명: "스페이스X를 설립한 기업인"
    - 결과: 이름 "ELON MUSK", 타입 "PERSON", 설명: ["트위터를 인수한 기업인", "스페이스X를 설립한 기업인"]

#### 3. 설명 요약
- LLM을 활용하여 통합된 설명들을 하나의 간결한 설명으로 요약합니다.
- 예)
    - 이름 "ELON MUSK", 타입 "PERSON", 설명: "스페이스X를 설립하고 트위터를 인수한 기업인"

#### 4. 주장 추출(선택사항)
- 선택적으로 주장(claim)을 추출할 수 있습니다.
- 사실적 진술을 추출하고, 상태와 시간정보를 포함하여 구조화된 주장으로 변환합니다.
- 예) 
    - "2022냔 10월 27일, 일론 머스크가 440억 달러를 들여 트위터를 인수했습니다. 이후 그는 2023년 7월에 트위터의 브랜드를 X로 변경했다고 발표했습니다."
    ```
    유형(type): ACQUISITION
    설명(description): 일론 머스크가 트위터를 440억 달러에 인수함
    주체식별자(subject_id): ELON MUSK
    객체식별자(object_id): TWITTER
    상태(status): TRUE
    시작일자(start_date): 2022-10-27T00:00:00
    종료일자(end_date): 2022-10-27T00:00:00
    출처(source): 일론 머스크가 440억 달러를 들여 트위터를 인수했습니다.
    ```
    ```
    유형(type): BUSINESS RESTRUCTURING
    설명(description): 일론 머스크가 트위터의 브랜드명을 X로 변경함
    주체식별자(subject_id): ELON MUSK
    객체식별자(object_id): TWITTER
    상태(status): TRUE
    시작일자(start_date): 2023-07-01T00:00:00
    종료일자(end_date): 2022-07-31T00:00:00
    출처(source): 2023년 7월에 트위터의 브랜드를 X로 변경했다고 발표했습니다.
    ```

- 이렇게 추출된 주장들은 공변량(covariate) 형태로 저장되어, 시간적 맥락이나 상태 변화를 반영한 고도화된 질의응답에 활용됩니다.

### 3. 그래프 증강
- 지식 그래프를 생성했다면, 그래프 구조를 더욱 풍부하게 만들고 의미있게 활용하기 위한 증강 과정이 필요합니다.
- 크게 커뮤니티 탐지와 그래프 임베딩 두가지 방향으로 진행됩니다.

#### 1. 커뮤니티 탐지
- 커뮤니티란 지식 그래프 내에서 서로 밀접하게 연관된 엔티티들의 그룹을 의미합니다.
- 엔티티를 그룹화하여 커뮤니티로 분류하면 정보 검색과 처리가 훨씬 효율적입니다.
- 유사한 주제나 특성을 가진 엔티티를 한데 묶어 이후의 검색과정에서 관련성 높은 정보를 빠르게 찾아낼 수 있습니다.
- 예) '애플', '아이폰', '맥북' -> '애플 제품' / '구글', '안드로이드', '픽셀' -> '구글 제품'
- 커뮤니티의 요약 정보나 핵심 내용을 참고하여 더욱 풍부하고 정확한 답변을 제공합니다.
- 지식 그래프에서 커뮤니티를 탐지하는 데는 다양한 그래프 이론 알고리즘이 사용됩니다.