# Split code

CodeTextSplitter를 사용하면 다양한 프로그래밍 언어로 작성된 코드를 분할할 수 있습니다.

이를 위해서는 `Language` enum을 import하고, 해당하는 프로그래밍 언어를 지정해주면 됩니다.


`RecursiveCharacterTextSplitter`를 사용하여 텍스트를 분할하는 예제입니다.

- `langchain_text_splitters` 모듈에서 `Language`와 `RecursiveCharacterTextSplitter` 클래스를 임포트합니다.
- `RecursiveCharacterTextSplitter`는 텍스트를 문자 단위로 재귀적으로 분할하는 텍스트 분할기입니다.


In [1]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

지원되는 언어의 전체 목록을 가져옵니다.


In [2]:
# 지원되는 언어의 전체 목록을 가져옵니다.
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir',
 'powershell',
 'visualbasic6']

`RecursiveCharacterTextSplitter` 클래스의 `get_separators_for_language` 메서드를 사용하여 특정 언어에 사용되는 구분자(separators)를 확인할 수 있습니다.

- 예시에서는 `Language.PYTHON` 열거형 값을 인자로 전달하여 Python 언어에 사용되는 구분자를 확인합니다.


In [3]:
# 주어진 언어에 대해 사용되는 구분자를 확인할 수 있습니다.
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

'\nclass ': 클래스 정의를 기준으로 텍스트를 나눕니다. 가장 큰 단위로 분할하여 전체 클래스나 여러 함수를 포함하는 덩어리를 만듭니다.

'\ndef ': 함수 정의를 기준으로 텍스트를 나눕니다. 이는 클래스 다음으로 중요한 분할 기준입니다.

'\n\tdef ': 탭으로 들여쓰기된 함수(즉, 클래스 내의 메소드)를 기준으로 나눕니다. def와 구분하여 클래스 내부의 구조를 유지하려는 목적입니다.

'\n\n': 두 개의 줄 바꿈으로, 일반적으로 단락(paragraph)을 나누는 역할을 합니다. 코드에서는 여러 함수나 클래스 정의 사이에 있는 빈 줄을 의미할 수 있습니다.

'\n': 단일 줄 바꿈으로, 한 줄씩 텍스트를 나눕니다. 코드 라인 단위로 쪼개는 역할을 합니다.

' ': 공백을 기준으로 나눕니다. 이는 최종적으로 단어 단위로 쪼갤 때 사용됩니다.

'': 빈 문자열로, 가장 마지막에 사용됩니다. 텍스트가 위의 모든 구분자로도 너무 길 경우, 단순히 글자 단위로 텍스트를 잘라내는 역할을 합니다.

## Python

`RecursiveCharacterTextSplitter` 사용한 예제는 다음과 같습니다.


- `RecursiveCharacterTextSplitter`를 사용하여 Python 코드를 문서 단위로 분할합니다.
  - `language` 매개변수에 `Language.PYTHON`을 지정하여 Python 언어를 사용합니다.
  - `chunk_size`를 50으로 설정하여 각 문서의 최대 크기를 제한합니다.
  - `chunk_overlap`을 0으로 설정하여 문서 간의 중복을 허용하지 않습니다.


In [4]:
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""

python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)

`Document` 를 생성합니다. 생성된 `Document` 는 리스트 형태로 반환됩니다.


In [5]:
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='hello_world()')]

In [6]:
for doc in python_docs:
    print(doc.page_content, end="\n==================\n")

def hello_world():
    print("Hello, World!")
hello_world()


## JS

다음은 JS 텍스트 분할기를 사용한 예시입니다


In [7]:
JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

helloWorld();
"""

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)

js_docs = js_splitter.create_documents([JS_CODE])
js_docs

[Document(metadata={}, page_content='function helloWorld() {\n  console.log("Hello, World!");\n}'),
 Document(metadata={}, page_content='helloWorld();')]

## TS

다음은 TS 텍스트 분할기를 사용한 예시입니다.


In [8]:
TS_CODE = """
function helloWorld(): void {
  console.log("Hello, World!");
}

helloWorld();
"""

ts_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.TS, chunk_size=60, chunk_overlap=0
)
ts_docs = ts_splitter.create_documents([TS_CODE])
ts_docs

[Document(metadata={}, page_content='function helloWorld(): void {'),
 Document(metadata={}, page_content='console.log("Hello, World!");\n}'),
 Document(metadata={}, page_content='helloWorld();')]

## Markdown

다음은 Markdown 텍스트 분할기를 사용한 예시입니다.


In [9]:
markdown_text = """
# 🦜️🔗 LangChain

⚡ LLM을 활용한 초스피드 애플리케이션 구축 ⚡

## 빠른 설치

```bash
pip install langchain
```

# 빠르게 발전하는 분야의 오픈 소스 프로젝트 입니다. 많관부 🙏
"""

분할하고 결과를 출력합니다.


In [10]:
md_splitter = RecursiveCharacterTextSplitter.from_language(
    # 마크다운 언어를 사용하여 텍스트 분할기 생성
    language=Language.MARKDOWN,
    # 청크 크기를 60으로 설정
    chunk_size=60,
    # 청크 간 중복되는 부분이 없도록 설정
    chunk_overlap=0,
)
# 마크다운 텍스트를 분할하여 문서 생성
md_docs = md_splitter.create_documents([markdown_text])
# 생성된 문서 출력
md_docs

[Document(metadata={}, page_content='# 🦜️🔗 LangChain\n\n⚡ LLM을 활용한 초스피드 애플리케이션 구축 ⚡'),
 Document(metadata={}, page_content='## 빠른 설치\n\n```bash\npip install langchain\n```'),
 Document(metadata={}, page_content='# 빠르게 발전하는 분야의 오픈 소스 프로젝트 입니다. 많관부 🙏')]

## Latex

LaTeX는 문서 작성을 위한 마크업 언어로, 수학 기호와 수식을 표현하는 데 널리 사용됩니다.

다음은 LaTeX 텍스트의 예시입니다.


In [12]:
latex_text = """
\documentclass{article}

\begin{document}

\maketitle

\section{Introduction}
% LLM은 방대한 양의 텍스트 데이터로 학습하여 사람과 유사한 언어를 생성할 수 있는 기계 학습 모델의 한 유형입니다.
% 최근 몇 년 동안 LLM은 언어 번역, 텍스트 생성, 감성 분석 등 다양한 자연어 처리 작업에서 상당한 발전을 이루었습니다.

\subsection{History of LLMs}
% 초기 LLM은 1980년대와 1990년대에 개발되었지만, 처리할 수 있는 데이터 양과 당시 사용 가능한 컴퓨팅 능력으로 인해 제한되었습니다.
% 그러나 지난 10년 동안 하드웨어와 소프트웨어의 발전으로 대규모 데이터 세트에 대해 LLM을 학습시킬 수 있게 되었고, 이는 성능의 큰 향상으로 이어졌습니다.

\subsection{Applications of LLMs}
% LLM은 챗봇, 콘텐츠 생성, 가상 어시스턴트 등 산업 분야에서 많은 응용 분야를 가지고 있습니다.
% 또한 언어학, 심리학, 컴퓨터 언어학 연구를 위해 학계에서도 사용될 수 있습니다.

\end{document}
"""

분할하고 결과를 출력합니다.


In [13]:
latex_splitter = RecursiveCharacterTextSplitter.from_language(
    # 마크다운 언어를 사용하여 텍스트를 분할합니다.
    language=Language.LATEX,
    # 각 청크의 크기를 60자로 설정합니다.
    chunk_size=60,
    # 청크 간의 중복되는 문자 수를 0으로 설정합니다.
    chunk_overlap=0,
)
# latex_text를 분할하여 문서 목록을 생성합니다.
latex_docs = latex_splitter.create_documents([latex_text])
# 생성된 문서 목록을 출력합니다.
latex_docs

[Document(metadata={}, page_content='\\documentclass{article}\n\n\x08egin{document}\n\n\\maketitle'),
 Document(metadata={}, page_content='\\section{Introduction}\n% LLM은 방대한 양의 텍스트 데이터로 학습하여 사람과 유사한'),
 Document(metadata={}, page_content='언어를 생성할 수 있는 기계 학습 모델의 한 유형입니다.\n% 최근 몇 년 동안 LLM은 언어 번역, 텍스트'),
 Document(metadata={}, page_content='생성, 감성 분석 등 다양한 자연어 처리 작업에서 상당한 발전을 이루었습니다.'),
 Document(metadata={}, page_content='\\subsection{History of LLMs}\n% 초기 LLM은 1980년대와 1990년대에'),
 Document(metadata={}, page_content='개발되었지만, 처리할 수 있는 데이터 양과 당시 사용 가능한 컴퓨팅 능력으로 인해 제한되었습니다.\n%'),
 Document(metadata={}, page_content='그러나 지난 10년 동안 하드웨어와 소프트웨어의 발전으로 대규모 데이터 세트에 대해 LLM을 학습시킬 수'),
 Document(metadata={}, page_content='있게 되었고, 이는 성능의 큰 향상으로 이어졌습니다.'),
 Document(metadata={}, page_content='\\subsection{Applications of LLMs}\n% LLM은 챗봇, 콘텐츠 생성, 가상'),
 Document(metadata={}, page_content='어시스턴트 등 산업 분야에서 많은 응용 분야를 가지고 있습니다.\n% 또한 언어학, 심리학, 컴퓨터 언어학'),
 Document(metadata={}, page_content='연구를 위해 학계에서도 

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter, Language

# 1. 분할할 LaTeX 문서의 예시
# 논문, 기술 문서 등에서 흔히 볼 수 있는 구조를 포함합니다.
latex_document = r"""
\documentclass{article}
\usepackage{amsmath}

\title{RecursiveCharacterTextSplitter를 이용한 LaTeX 문서 분할}
\author{LangChain 사용자}
\date{\today}

\begin{document}
\maketitle

\section{서론}
이 문서는 LangChain을 사용하여 LaTeX 문서를 어떻게 효율적으로 분할하는지 보여줍니다.
LaTeX는 학술 논문이나 수식, 복잡한 표를 포함하는 기술 문서에 널리 사용됩니다.

\subsection{기존 방법의 문제점}
단순히 글자 수를 기준으로 텍스트를 나누면, 문맥이 훼손되거나 수식 블록이 잘릴 수 있습니다. 이는 RAG 시스템의 성능 저하로 이어집니다.

\section{수학적 모델}
수식은 RAG 시스템에서 중요한 요소입니다. 아래는 간단한 이차 방정식의 예시입니다.
\begin{equation}
x = \frac{-b \pm \sqrt{b^2-4ac}}{2a}
\label{eq:quadratic}
\end{equation}
이 수식은 문서의 핵심적인 내용을 담고 있으며, 단일 청크로 보존되어야 합니다.

\section{결론}
결론적으로, RecursiveCharacterTextSplitter는 LaTeX 문서의 논리적 구조를 인식하여 텍스트를 분할함으로써, LLM이 더 정확한 답변을 생성하도록 돕습니다.
\footnote{이 예제는 LangChain 공식 문서를 참고하여 작성되었습니다.}
\end{document}
"""

# 2. LaTeX 언어에 특화된 분할기 인스턴스 생성
# `Language.LATEX`를 지정하여,
# '\section', '\subsection', '\begin', '\end' 등을 우선적으로 사용합니다.
latex_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.LATEX, chunk_size=500, chunk_overlap=50
)

# 3. 문서 분할 및 결과 출력
chunks = latex_splitter.create_documents([latex_document])

print(f"총 {len(chunks)}개의 청크로 분할되었습니다.")
print("-" * 50)

# 분할된 청크 내용 확인
for i, chunk in enumerate(chunks):
    print(f"--- 청크 {i+1} ---")
    print(chunk.page_content)
    print("\n")

총 2개의 청크로 분할되었습니다.
--------------------------------------------------
--- 청크 1 ---
\documentclass{article}
\usepackage{amsmath}

\title{RecursiveCharacterTextSplitter를 이용한 LaTeX 문서 분할}
\author{LangChain 사용자}
\date{\today}

\begin{document}
\maketitle

\section{서론}
이 문서는 LangChain을 사용하여 LaTeX 문서를 어떻게 효율적으로 분할하는지 보여줍니다.
LaTeX는 학술 논문이나 수식, 복잡한 표를 포함하는 기술 문서에 널리 사용됩니다.

\subsection{기존 방법의 문제점}
단순히 글자 수를 기준으로 텍스트를 나누면, 문맥이 훼손되거나 수식 블록이 잘릴 수 있습니다. 이는 RAG 시스템의 성능 저하로 이어집니다.


--- 청크 2 ---
\section{수학적 모델}
수식은 RAG 시스템에서 중요한 요소입니다. 아래는 간단한 이차 방정식의 예시입니다.
\begin{equation}
x = \frac{-b \pm \sqrt{b^2-4ac}}{2a}
\label{eq:quadratic}
\end{equation}
이 수식은 문서의 핵심적인 내용을 담고 있으며, 단일 청크로 보존되어야 합니다.

\section{결론}
결론적으로, RecursiveCharacterTextSplitter는 LaTeX 문서의 논리적 구조를 인식하여 텍스트를 분할함으로써, LLM이 더 정확한 답변을 생성하도록 돕습니다.
\footnote{이 예제는 LangChain 공식 문서를 참고하여 작성되었습니다.}
\end{document}




## HTML

HTML 텍스트 분할기를 사용한 예제는 다음과 같습니다.


In [15]:
html_text = """
<!DOCTYPE html>
<html>
    <head>
        <title>🦜️🔗 LangChain</title>
        <style>
            body {
                font-family: Arial, sans-serif;  
            }
            h1 {
                color: darkblue;
            }
        </style>
    </head>
    <body>
        <div>
            <h1>🦜️🔗 LangChain</h1>
            <p>⚡ Building applications with LLMs through composability ⚡</p>  
        </div>
        <div>
            As an open-source project in a rapidly developing field, we are extremely open to contributions.
        </div>
    </body>
</html>
"""

분할하고 결과를 출력합니다.


In [16]:
html_splitter = RecursiveCharacterTextSplitter.from_language(
    # HTML 언어를 사용하여 텍스트 분할기 생성
    language=Language.HTML,
    # 청크 크기를 60으로 설정
    chunk_size=60,
    # 청크 간 중복되는 부분이 없도록 설정
    chunk_overlap=0,
)
# 주어진 HTML 텍스트를 분할하여 문서 생성
html_docs = html_splitter.create_documents([html_text])
# 생성된 문서 출력
html_docs

[Document(metadata={}, page_content='<!DOCTYPE html>\n<html>'),
 Document(metadata={}, page_content='<head>\n        <title>🦜️🔗 LangChain</title>'),
 Document(metadata={}, page_content='<style>\n            body {\n                font-family: Aria'),
 Document(metadata={}, page_content='l, sans-serif;  \n            }\n            h1 {'),
 Document(metadata={}, page_content='color: darkblue;\n            }\n        </style>\n    </he'),
 Document(metadata={}, page_content='ad>'),
 Document(metadata={}, page_content='<body>'),
 Document(metadata={}, page_content='<div>\n            <h1>🦜️🔗 LangChain</h1>'),
 Document(metadata={}, page_content='<p>⚡ Building applications with LLMs through composability ⚡'),
 Document(metadata={}, page_content='</p>  \n        </div>'),
 Document(metadata={}, page_content='<div>\n            As an open-source project in a rapidly dev'),
 Document(metadata={}, page_content='eloping field, we are extremely open to contributions.'),
 Document(metadata={}, p

In [19]:
!pip install markdownify

Collecting markdownify
  Downloading markdownify-1.2.0-py3-none-any.whl.metadata (9.9 kB)
Downloading markdownify-1.2.0-py3-none-any.whl (15 kB)
Installing collected packages: markdownify
Successfully installed markdownify-1.2.0


In [None]:
# 필요한 라이브러리 설치
# pip install markdownify beautifulsoup4

from markdownify import markdownify as md
from bs4 import BeautifulSoup

# 1. 변환할 HTML 내용
html_content = """
<!DOCTYPE html>
<html>
<head>
    <title>HTML to Markdown 변환</title>
</head>
<body>
    <h1>LangChain과 RAG</h1>
    <p>RAG(Retrieval-Augmented Generation)는 외부 데이터를 활용하여 LLM의 답변을 보강하는 기술입니다. LLM의 한계를 보완하여 더 정확한 정보를 제공합니다.</p>
    <h2>주요 구성 요소</h2>
    <ul>
        <li>문서 로더 (Document Loaders)</li>
        <li>텍스트 분할기 (Text Splitters)</li>
        <li>임베딩 모델 (Embedding Models)</li>
        <li>벡터 저장소 (Vector Store)</li>
    </ul>
    <h3>파이프라인 단계</h3>
    <ol>
        <li>데이터 수집 및 전처리</li>
        <li>질문 검색 및 관련 정보 추출</li>
        <li>LLM을 통한 답변 생성</li>
    </ol>
</body>
</html>
"""

# 2. BeautifulSoup를 사용하여 HTML <title> 태그 추출 (선택 사항)
# HTML의 <head>에 있는 title을 변환 결과의 최상단 제목으로 사용하고 싶을 때 유용합니다.
soup = BeautifulSoup(html_content, "html.parser")
html_title = soup.title.string if soup.title else "제목 없음"
print(f"변환된 Markdown 제목: # {html_title}\n")


# 3. markdownify를 사용하여 HTML 본문을 마크다운으로 변환
# h1 -> #, h2 -> ##, p -> 단락, ul/li -> *, ol/li -> 1. 으로 변환
markdown_result = md(html_content)

# 4. 변환 결과 출력
print("--- 원본 HTML 내용 ---")
print(html_content)
print("\n" + "=" * 50 + "\n")
print("--- 마크다운 변환 결과 ---")
# 추출한 타이틀을 결과에 추가
final_markdown = f"# {html_title}\n\n" + markdown_result
print(final_markdown)

변환된 Markdown 제목: # HTML to Markdown 변환

--- 원본 HTML 내용 ---

<!DOCTYPE html>
<html>
<head>
    <title>HTML to Markdown 변환</title>
</head>
<body>
    <h1>LangChain과 RAG</h1>
    <p>RAG(Retrieval-Augmented Generation)는 외부 데이터를 활용하여 LLM의 답변을 보강하는 기술입니다. LLM의 한계를 보완하여 더 정확한 정보를 제공합니다.</p>
    <h2>주요 구성 요소</h2>
    <ul>
        <li>문서 로더 (Document Loaders)</li>
        <li>텍스트 분할기 (Text Splitters)</li>
        <li>임베딩 모델 (Embedding Models)</li>
        <li>벡터 저장소 (Vector Store)</li>
    </ul>
    <h3>파이프라인 단계</h3>
    <ol>
        <li>데이터 수집 및 전처리</li>
        <li>질문 검색 및 관련 정보 추출</li>
        <li>LLM을 통한 답변 생성</li>
    </ol>
</body>
</html>



--- 마크다운 변환 결과 ---
# HTML to Markdown 변환

HTML to Markdown 변환


LangChain과 RAG

RAG(Retrieval-Augmented Generation)는 외부 데이터를 활용하여 LLM의 답변을 보강하는 기술입니다. LLM의 한계를 보완하여 더 정확한 정보를 제공합니다.

주요 구성 요소
--------

* 문서 로더 (Document Loaders)
* 텍스트 분할기 (Text Splitters)
* 임베딩 모델 (Embedding Models)
* 벡터 저장소 (Vector Store)

### 파이프라인 단계

1. 데이터 수집 및 전처리
2. 질문 검색 및 관련 

## Solidity

Solidity 텍스트 분할기를 사용한 예제는 다음과 같습니다:


- Solidity 코드를 문자열 형태로 `SOL_CODE` 변수에 저장합니다.
- `RecursiveCharacterTextSplitter`를 사용하여 Solidity 코드를 청크 단위로 분할하는 `sol_splitter`를 생성합니다.
  - `language` 매개변수를 `Language.SOL`로 설정하여 Solidity 언어를 지정합니다.
  - `chunk_size`를 128로 설정하여 각 청크의 최대 크기를 지정합니다.
  - `chunk_overlap`을 0으로 설정하여 청크 간의 중복을 없앱니다.
- `sol_splitter.create_documents()` 메서드를 사용하여 `SOL_CODE`를 청크 단위로 분할하고, 분할된 청크를 `sol_docs` 변수에 저장합니다.
- `sol_docs`를 출력하여 분할된 Solidity 코드 청크를 확인합니다.


Solidity(솔리디티)는 **이더리움(Ethereum)**과 같은 블록체인 플랫폼에서 **스마트 컨트랙트(Smart Contract)**를 작성하기 위해 만들어진 계약 지향(contract-oriented) 프로그래밍 언어입니다.

In [15]:
SOL_CODE = """
pragma solidity ^0.8.20; 
contract HelloWorld {  
   function add(uint a, uint b) pure public returns(uint) {
       return a + b;
   }
}
"""

# 분할하고 결과를 출력합니다.
sol_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.SOL, chunk_size=128, chunk_overlap=0
)

sol_docs = sol_splitter.create_documents([SOL_CODE])
sol_docs

[Document(metadata={}, page_content='pragma solidity ^0.8.20;'),
 Document(metadata={}, page_content='contract HelloWorld {  \n   function add(uint a, uint b) pure public returns(uint) {\n       return a + b;\n   }\n}')]

## C#

C# 텍스트 분할기를 사용한 예제는 다음과 같습니다.


In [21]:
C_CODE = """
using System;
class Program
{
    static void Main()
    {
        Console.WriteLine("Enter a number (1-5):");
        int input = Convert.ToInt32(Console.ReadLine());
        for (int i = 1; i <= input; i++)
        {
            if (i % 2 == 0)
            {
                Console.WriteLine($"{i} is even.");
            }
            else
            {
                Console.WriteLine($"{i} is odd.");
            }
        }
        Console.WriteLine("Goodbye!");
    }
}
"""

# 분할하고 결과를 출력합니다.
c_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.CSHARP, chunk_size=128, chunk_overlap=0
)
c_docs = c_splitter.create_documents([C_CODE])
c_docs

[Document(metadata={}, page_content='using System;'),
 Document(metadata={}, page_content='class Program\n{\n    static void Main()\n    {\n        Console.WriteLine("Enter a number (1-5):");'),
 Document(metadata={}, page_content='int input = Convert.ToInt32(Console.ReadLine());\n        for (int i = 1; i <= input; i++)\n        {'),
 Document(metadata={}, page_content='if (i % 2 == 0)\n            {\n                Console.WriteLine($"{i} is even.");\n            }\n            else'),
 Document(metadata={}, page_content='{\n                Console.WriteLine($"{i} is odd.");\n            }\n        }\n        Console.WriteLine("Goodbye!");'),
 Document(metadata={}, page_content='}\n}')]