# 프로그래밍 언어별 코드 분할하기

이 노트북에서는 **RecursiveCharacterTextSplitter.from_language()**를 사용하여 프로그래밍 코드를 언어별 구문에 맞게 분할하는 방법을 알아봅니다.

## 코드 분할이 특별한 이유

일반 텍스트와 달리 코드는 **문법적 구조**가 있습니다:

- 함수/클래스 단위
- 들여쓰기 블록
- 주석

`from_language()`는 언어별 구분자를 자동으로 설정합니다.

## 지원 언어

```python
from langchain_text_splitters import Language

# 주요 지원 언어
Language.PYTHON
Language.JAVASCRIPT
Language.TYPESCRIPT
Language.JAVA
Language.GO
Language.RUST
Language.MARKDOWN
Language.HTML
# ... 등 20+ 언어 지원
```

---

# 1. 패키지 설치

In [None]:
!pip install -q langchain langchain-text-splitters

# 2. Python 코드 분할

**코드 설명:**

```python
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,  # Python 구문 규칙 사용
    chunk_size=50,
    chunk_overlap=0
)
```

Python의 기본 구분자:
1. 클래스 정의 (`class`)
2. 함수 정의 (`def`)
3. 제어문 (`if`, `for`, `while` 등)
4. 줄바꿈, 공백

In [None]:
from langchain_text_splitters import Language, RecursiveCharacterTextSplitter

# 샘플 Python 코드
PYTHON_CODE = '''
def hello_world():
    print("Hello, World!") 
    
# Call the function
hello_world()
'''

print("=== 원본 코드 ===")
print(PYTHON_CODE)

In [None]:
# Python 전용 Splitter 생성
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON,
    chunk_size=50,
    chunk_overlap=0
)

# 문서 생성 및 분할
python_docs = python_splitter.create_documents([PYTHON_CODE])

print(f"\n분할된 청크 수: {len(python_docs)}")
for i, doc in enumerate(python_docs):
    print(f"\n--- 청크 {i+1} ---")
    print(doc.page_content)

# 3. JavaScript 코드 분할

In [None]:
JS_CODE = '''
function greet(name) {
    console.log(`Hello, ${name}!`);
}

const add = (a, b) => a + b;

greet("World");
'''

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS,
    chunk_size=60,
    chunk_overlap=0
)

js_docs = js_splitter.create_documents([JS_CODE])

print(f"분할된 청크 수: {len(js_docs)}")
for i, doc in enumerate(js_docs):
    print(f"\n--- 청크 {i+1} ---")
    print(doc.page_content)

# 4. 언어별 구분자 확인

In [None]:
# 각 언어의 구분자 확인
print("=== Python 구분자 ===")
print(RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON))

print("\n=== JavaScript 구분자 ===")
print(RecursiveCharacterTextSplitter.get_separators_for_language(Language.JS))

print("\n=== Markdown 구분자 ===")
print(RecursiveCharacterTextSplitter.get_separators_for_language(Language.MARKDOWN))

---

## 지원 언어 목록

```python
# 전체 지원 언어 확인
print([e.value for e in Language])
```

주요 언어:
- `Language.PYTHON`
- `Language.JS` / `Language.TYPESCRIPT`
- `Language.JAVA` / `Language.KOTLIN`
- `Language.GO` / `Language.RUST`
- `Language.C` / `Language.CPP`
- `Language.MARKDOWN` / `Language.HTML`

## 활용 사례

1. **코드 검색 시스템**: 함수/클래스 단위로 검색
2. **코드 리뷰 도우미**: 관련 코드 블록 추출
3. **문서화 자동화**: 코드와 주석 연결