In [1]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

In [2]:
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir',
 'powershell']

# Python

In [3]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

In [16]:
PYTHON_CODE = """
def open_data(df_path):
    df = pd.read_csv(df_path)
    filtered_data = df[(df['fractured'] == 1)]
    # 결과 데이터프레임 출력
    return filtered_data

# 이미지 파일을 읽고 그레이스케일로 변환하는 함수
def open_image(image_dir, image_file):
    image_path = os.path.join(image_dir, image_file)  # 이미지 파일 경로 생성
    return cv2.cvtColor(cv2.imread(image_path), cv2.COLOR_BGR2GRAY)  # 이미지를 그레이스케일로 변환하여 반환

# JSON 파일을 열고 데이터를 반환하는 함수
def open_json(json_path):
    with open(json_path, "r") as f:
        json_data = json.load(f)  # JSON 파일을 열고 내용을 읽어서 반환
    return json_data

def open_annotation(annotation_path):
    with open(annotation_path, 'r') as f:
        annotations = f.readlines()
    annotations = [line.strip().split() for line in annotations]
    return annotations
"""

python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=150, chunk_overlap=0
)

In [17]:
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(metadata={}, page_content="def open_data(df_path):\n    df = pd.read_csv(df_path)\n    filtered_data = df[(df['fractured'] == 1)]\n    # 결과 데이터프레임 출력\n    return filtered_data"),
 Document(metadata={}, page_content='# 이미지 파일을 읽고 그레이스케일로 변환하는 함수'),
 Document(metadata={}, page_content='def open_image(image_dir, image_file):\n    image_path = os.path.join(image_dir, image_file)  # 이미지 파일 경로 생성'),
 Document(metadata={}, page_content='return cv2.cvtColor(cv2.imread(image_path), cv2.COLOR_BGR2GRAY)  # 이미지를 그레이스케일로 변환하여 반환'),
 Document(metadata={}, page_content='# JSON 파일을 열고 데이터를 반환하는 함수'),
 Document(metadata={}, page_content='def open_json(json_path):\n    with open(json_path, "r") as f:\n        json_data = json.load(f)  # JSON 파일을 열고 내용을 읽어서 반환\n    return json_data'),
 Document(metadata={}, page_content="def open_annotation(annotation_path):\n    with open(annotation_path, 'r') as f:\n        annotations = f.readlines()"),
 Document(metadata={}, page_content='annotations = [lin

In [18]:
for i in python_docs:
  print(i.page_content)
  print('===' * 20)

def open_data(df_path):
    df = pd.read_csv(df_path)
    filtered_data = df[(df['fractured'] == 1)]
    # 결과 데이터프레임 출력
    return filtered_data
# 이미지 파일을 읽고 그레이스케일로 변환하는 함수
def open_image(image_dir, image_file):
    image_path = os.path.join(image_dir, image_file)  # 이미지 파일 경로 생성
return cv2.cvtColor(cv2.imread(image_path), cv2.COLOR_BGR2GRAY)  # 이미지를 그레이스케일로 변환하여 반환
# JSON 파일을 열고 데이터를 반환하는 함수
def open_json(json_path):
    with open(json_path, "r") as f:
        json_data = json.load(f)  # JSON 파일을 열고 내용을 읽어서 반환
    return json_data
def open_annotation(annotation_path):
    with open(annotation_path, 'r') as f:
        annotations = f.readlines()
annotations = [line.strip().split() for line in annotations]
    return annotations


# JS

In [12]:
JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

helloWorld();
"""

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)

js_docs = js_splitter.create_documents([JS_CODE])
js_docs

[Document(metadata={}, page_content='function helloWorld() {\n  console.log("Hello, World!");\n}'),
 Document(metadata={}, page_content='helloWorld();')]

# Markdown

In [21]:
markdown_text = """
# 🦜️🔗 LangChain

⚡ LLM을 활용한 초스피드 애플리케이션 구축 ⚡

## 빠른 설치

```bash
pip install langchain

빠르게 발전하는 분야의 오픈 소스 프로젝트 입니다. 많관부 🙏
"""

In [22]:
md_splitter = RecursiveCharacterTextSplitter.from_language(
    # 마크다운 언어를 사용하여 텍스트 분할기 생성
    language=Language.MARKDOWN,
    # 청크 크기를 60으로 설정
    chunk_size=60,
    # 청크 간 중복되는 부분이 없도록 설정
    chunk_overlap=0,
)
# 마크다운 텍스트를 분할하여 문서 생성
md_docs = md_splitter.create_documents([markdown_text])
# 생성된 문서 출력
md_docs

[Document(metadata={}, page_content='# 🦜️🔗 LangChain\n\n⚡ LLM을 활용한 초스피드 애플리케이션 구축 ⚡'),
 Document(metadata={}, page_content='## 빠른 설치\n\n```bash\npip install langchain'),
 Document(metadata={}, page_content='빠르게 발전하는 분야의 오픈 소스 프로젝트 입니다. 많관부 🙏')]

# HTML

In [23]:
html_text = """
<!DOCTYPE html>
<html lang="ko">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>전주대학교 인공지능학과</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            line-height: 1.6;
            margin: 20px;
            background-color: #f4f4f4;
        }
        header {
            background: #0077b6;
            color: white;
            padding: 10px 20px;
            text-align: center;
            border-radius: 5px;
        }
        main {
            background: white;
            padding: 20px;
            border-radius: 5px;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        }
        footer {
            text-align: center;
            margin-top: 20px;
            color: #555;
        }
        ul {
            list-style-type: disc;
            margin-left: 20px;
        }
    </style>
</head>
<body>
    <header>
        <h1>전주대학교 인공지능학과에 오신 것을 환영합니다</h1>
    </header>
    <main>
        <section>
            <h2>학과 소개</h2>
            <p>전주대학교 인공지능학과는 AI 중심의 세계에서 혁신하고 이끌 수 있는 미래 AI 전문가를 양성하는 데 전념하고 있습니다. 본 학과는 머신러닝, 딥러닝, 자연어 처리, 컴퓨터 비전을 포함한 종합적인 교육을 제공합니다.</p>
        </section>

        <section>
            <h2>주요 특징</h2>
            <ul>
                <li>최첨단 실험실과 연구 시설</li>
                <li>산업 협력 및 인턴십 기회</li>
                <li>이론과 실습을 결합한 종합적인 커리큘럼</li>
                <li>국제 교류 프로그램 및 글로벌 인턴십</li>
            </ul>
        </section>

        <section>
            <h2>함께하세요</h2>
            <p>기술의 미래를 함께 만들어 갑시다. 전주대학교와 함께 인공지능의 무한한 가능성을 탐구하세요. 더 많은 정보는 <a href="https://www.jj.ac.kr" target="_blank">공식 웹사이트</a>를 방문해 주세요.</p>
        </section>
    </main>
    <footer>
        <p>&copy; 2024 전주대학교. 모든 권리 보유.</p>
    </footer>
</body>
</html>
"""

In [24]:
html_splitter = RecursiveCharacterTextSplitter.from_language(
    # HTML 언어를 사용하여 텍스트 분할기 생성
    language=Language.HTML,
    # 청크 크기를 60으로 설정
    chunk_size=60,
    # 청크 간 중복되는 부분이 없도록 설정
    chunk_overlap=0,
)
# 주어진 HTML 텍스트를 분할하여 문서 생성
html_docs = html_splitter.create_documents([html_text])
# 생성된 문서 출력
html_docs

[Document(metadata={}, page_content='<!DOCTYPE html>\n<html lang="ko">'),
 Document(metadata={}, page_content='<head>\n    <meta charset="UTF-8">'),
 Document(metadata={}, page_content='<meta name="viewport" content="width=device-width, initial-s'),
 Document(metadata={}, page_content='cale=1.0">'),
 Document(metadata={}, page_content='<title>전주대학교 인공지능학과</title>'),
 Document(metadata={}, page_content='<style>\n        body {\n            font-family: Arial, sans-'),
 Document(metadata={}, page_content='serif;\n            line-height: 1.6;\n            margin: 20p'),
 Document(metadata={}, page_content='x;\n            background-color: #f4f4f4;\n        }'),
 Document(metadata={}, page_content='header {\n            background: #0077b6;\n            color:'),
 Document(metadata={}, page_content='white;\n            padding: 10px 20px;\n            text-ali'),
 Document(metadata={}, page_content='gn: center;\n            border-radius: 5px;\n        }'),
 Document(metadata={}, page_co