# Split code with Langchain

`RecursiveCharacterTextSplitter` bao gồm các danh sách dấu phân tách được xây dựng sẵn, được tối ưu hóa để tách văn bản trong các ngôn ngữ lập trình khác nhau.

`CodeTextSplitter` cung cấp chức năng chuyên biệt hơn để tách mã.

Để sử dụng nó, hãy nhập enum `Language` và chỉ định ngôn ngữ lập trình mong muốn.


## Code Splitter Examples

Dưới đây là một ví dụ về việc tách văn bản bằng `RecursiveCharacterTextSplitter`.

-   Nhập các lớp `Language` và `RecursiveCharacterTextSplitter` từ mô-đun `langchain_text_splitters`.
-   `RecursiveCharacterTextSplitter` là một bộ tách văn bản tách văn bản đệ quy ở cấp độ ký tự.


In [1]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

Supported languages are stored in the langchain_text_splitters.Language enum. 

API Reference: [Language](https://python.langchain.com/api_reference/text_splitters/base/langchain_text_splitters.base.Language.html#language) | [RecursiveCharacterTextSplitter](https://python.langchain.com/api_reference/text_splitters/character/langchain_text_splitters.character.RecursiveCharacterTextSplitter.html#recursivecharactertextsplitter)

See below for the full list of supported languages.

In [2]:
# Get the full list of supported languages.
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir',
 'powershell']

You can use the `get_separators_for_language` method of the `RecursiveCharacterTextSplitter` class to see the separators used for a given language.

- For example, passing `Language.PYTHON` retrieves the separators used for Python:

In [3]:
# You can check the separators used for the given language.
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

### Python

Đây là cách chia mã Python thành các chunk nhỏ hơn bằng `RecursiveCharacterTextSplitter`.

-   Đầu tiên, chỉ định `Language.PYTHON` cho tham số `language`. Nó báo cho bộ tách rằng bạn đang làm việc với mã Python.
-   Sau đó, đặt `chunk_size` thành 50. Điều này giới hạn kích thước của mỗi chunk kết quả tối đa là 50 ký tự.
-   Cuối cùng, đặt `chunk_overlap` thành 0. Nó ngăn chặn bất kỳ chunk nào bị chồng chéo.


In [4]:
PYTHON_CODE = """
def hello_world():
    print("Hello, World!")

hello_world()
"""

python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)

# Create `Document`. The created `Document` is returned as a list.
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(metadata={}, page_content='def hello_world():\n    print("Hello, World!")'),
 Document(metadata={}, page_content='hello_world()')]

In [5]:
# This section iterates through the list of documents created by the RecursiveCharacterTextSplitter
# and prints each document's content followed by a separator line for readability.
for doc in python_docs:
    print(doc.page_content, end="\n==================\n")

def hello_world():
    print("Hello, World!")
hello_world()


[READ MORE](https://github.com/aidino/LangChain-OpenTutorial/blob/main/07-TextSplitter/05-CodeSplitter.ipynb)