<a href="https://colab.research.google.com/github/MangooH/LLMs_from_scratch/blob/main/Chunking/RecursiveCharacterTextSplitter.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### RecursiveCharacterTextSplitter

- RecursiveCharacterTextSplitter 는 문자 목록을 매개변수로 받아 동작한다.
- 분할기는 청크가 충분히 작아질 때까지 **주어진 문자 목록의 순서대로 텍스트를 분할**한다.
- 기본 문자 목록: ["\n\n", "\n", " ", ""]
- 단락 -> 문장 -> 단어 순서로 재귀적으로 분할

In [1]:
%pip install -qU langchain-text-splitters

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m337.4/337.4 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m127.5/127.5 kB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m141.1/141.1 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [9]:
with open("./splitter_data/recursive_example.txt") as f:
    text = f.read()

In [11]:
text

'\n# 인공지능의 발전과 영향\n\n## 1. 인공지능의 정의\n인공지능(AI)은 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현한 컴퓨터 시스템을 말합니다.\n이는 다음과 같은 특징을 가집니다:\n- 학습 능력\n- 추론 능력\n- 문제 해결 능력\n\n## 2. 인공지능의 응용 분야\n인공지능은 다양한 분야에서 활용되고 있습니다:\n\n### 2.1 의료 분야\n의료 분야에서 AI는 다음과 같이 활용됩니다:\n- 질병 진단\n- 개인화된 치료 계획\n- 의료 영상 분석\n\n### 2.2 금융 분야\n금융 분야에서의 AI 활용:\n- 주식 시장 예측\n- 사기 탐지\n- 개인화된 금융 상품 추천\n\n## 3. 인공지능의 윤리적 고려사항\nAI의 발전에 따른 윤리적 문제들:\n1. 개인정보 보호\n2. 알고리즘 편향성\n3. 일자리 대체 문제\n\n## 4. 미래 전망\nAI 기술은 계속해서 발전할 것으로 예상되며, 우리 삶의 모든 영역에 영향을 미칠 것입니다.\n그러나 이러한 발전이 인간 중심적이고 윤리적으로 이루어지도록 지속적인 관심과 노력이 필요합니다.\n'

In [14]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

# RecursiveCharacterTextSplitter 초기화
text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n# ", "\n## ", "\n### ", "\n", " ", ""],
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
)

# 텍스트를 청크로 분할
chunks = text_splitter.split_text(text)

# 결과 출력
print(f"총 {len(chunks)}개의 청크로 분할되었습니다.\n")
for i, chunk in enumerate(chunks, 1):
    print(f"청크 {i}:")
    print(chunk)
    print("-" * 50)

총 9개의 청크로 분할되었습니다.

청크 1:
# 인공지능의 발전과 영향
--------------------------------------------------
청크 2:
## 1. 인공지능의 정의
인공지능(AI)은 인간의 학습능력, 추론능력, 지각능력을 인공적으로 구현한 컴퓨터 시스템을 말합니다.
이는 다음과 같은 특징을 가집니다:
- 학습 능력
--------------------------------------------------
청크 3:
- 학습 능력
- 추론 능력
- 문제 해결 능력
--------------------------------------------------
청크 4:
## 2. 인공지능의 응용 분야
인공지능은 다양한 분야에서 활용되고 있습니다:
--------------------------------------------------
청크 5:
### 2.1 의료 분야
의료 분야에서 AI는 다음과 같이 활용됩니다:
- 질병 진단
- 개인화된 치료 계획
- 의료 영상 분석
--------------------------------------------------
청크 6:
### 2.2 금융 분야
금융 분야에서의 AI 활용:
- 주식 시장 예측
- 사기 탐지
- 개인화된 금융 상품 추천
--------------------------------------------------
청크 7:
## 3. 인공지능의 윤리적 고려사항
AI의 발전에 따른 윤리적 문제들:
1. 개인정보 보호
2. 알고리즘 편향성
3. 일자리 대체 문제
--------------------------------------------------
청크 8:
## 4. 미래 전망
AI 기술은 계속해서 발전할 것으로 예상되며, 우리 삶의 모든 영역에 영향을 미칠 것입니다.
--------------------------------------------------
청크 9:
그러나 이러한 발전이 인간 중심적이고 윤리적으로 이루어지도록 지속적인 관심과 노력이 필요합니다.


---

- 청크2&3: `\n##` 에서 분할된 내용에서 *-학습 내용* 이 반복되는 것으로 보아 chunk_size 보다 커져 청크2와 청크3로 내용이 잘린 것을 확인할 수 있다.
- 청크8&9: 청크8은 길이가 85로, '\n' 로 구분된 청크9의 내용을 이어서 분할하지 않았다.