In [None]:
from langchain_text_splitters import (
    Language,
    RecursiveCharacterTextSplitter,
)

In [None]:
# 지원되는 언어의 전체 목록을 가져옵니다.
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir',
 'powershell']

In [None]:
# 주어진 언어에 대해 사용되는 구분자를 확인할 수 있습니다.
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

In [None]:
PYTHON_CODE = """

def hello_world():
  print("Hello World")

hello world()
"""

python_splitter = RecursiveCharacterTextSplitter.from_language(
    language = Language.PYTHON,
    chunk_size = 50,
    chunk_overlap = 0
)

In [None]:
python_docs = python_splitter.create_documents([PYTHON_CODE])
python_docs

[Document(metadata={}, page_content='def hello_world():\n  print("Hello World")'),
 Document(metadata={}, page_content='hello world()')]

In [None]:
for doc in python_docs:
  print(doc.page_content, end = "==============================\n")

def hello_world():


# JS

In [None]:
JS_CODE = """
function helloWorld() {
  console.log("Hello, World!");
}

helloWorld();
"""

js_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.JS, chunk_size=60, chunk_overlap=0
)

js_docs = js_splitter.create_documents([JS_CODE])
js_docs

[Document(metadata={}, page_content='function helloWorld() {\n  console.log("Hello, World!");\n}'),
 Document(metadata={}, page_content='helloWorld();')]

# Markdown

In [None]:
html_text = """
<!DOCTYPE html>
<html>
    <head>
        <title>전주대학교 인공지능학과 소개</title>
        <style>
            body {
                font-family: Arial, sans-serif;
            }
            h1 {
                color: pink;
            }
            h2 {
                color: green;
            }
            p {
                line-height: 1.6;
            }
            ul {
                margin: 20px;
                padding-left: 40px;
            }
        </style>
    </head>
    <body>
        <div>
            <h1>전주대학교 인공지능학과</h1>
            <p>전주대학교 인공지능학과는 차세대 기술 혁신을 이끄는 인재를 양성하기 위해 설립되었습니다. 본 학과는 최신 기술 트렌드와 산업 요구를 반영하여 이론과 실습을 겸비한 교육을 제공합니다.</p>
        </div>
        <div>
            <h2>학과 소개</h2>
            <p>인공지능학과에서는 다양한 응용 분야에서 사용할 수 있는 기초 및 심화 AI 기술을 교육하며, 산업체와 협력하여 실질적인 문제 해결 능력을 배양합니다.</p>
        </div>
        <div>
            <h2>교육 목표</h2>
            <ul>
                <li>기초 AI 이론 및 기술 이해</li>
                <li>머신러닝 및 딥러닝 기술 습득</li>
                <li>실제 산업 문제 해결 능력 함양</li>
                <li>창의적이고 윤리적인 AI 전문가 양성</li>
            </ul>
        </div>
        <div>
            <h2>주요 프로그램</h2>
            <p>전주대학교 인공지능학과는 다양한 프로그램과 프로젝트를 통해 학생들이 실무 능력을 기를 수 있는 기회를 제공합니다. 또한, 국내외 연구기관 및 기업과의 협력을 통해 산업현장 경험을 쌓을 수 있도록 지원합니다.</p>
        </div>
    </body>
</html>
"""


In [None]:
html_splitter = RecursiveCharacterTextSplitter.from_language(
    # HTML 언어를 사용하여 텍스트 분할기 생성
    language=Language.HTML,
    # 청크 크기를 60으로 설정
    chunk_size=60,
    # 청크 간 중복되는 부분이 없도록 설정
    chunk_overlap=0,
)
# 주어진 HTML 텍스트를 분할하여 문서 생성
html_docs = html_splitter.create_documents([html_text])
# 생성된 문서 출력
html_docs


[Document(metadata={}, page_content='<!DOCTYPE html>\n<html>'),
 Document(metadata={}, page_content='<head>\n        <title>전주대학교 인공지능학과 소개</title>'),
 Document(metadata={}, page_content='<style>\n            body {\n                font-family: Aria'),
 Document(metadata={}, page_content='l, sans-serif;  \n            }\n            h1 {'),
 Document(metadata={}, page_content='color: pink;\n            }\n            h2 {'),
 Document(metadata={}, page_content='color: green;\n            }\n            p {'),
 Document(metadata={}, page_content='line-height: 1.6;\n            }\n            ul {'),
 Document(metadata={}, page_content='margin: 20px;\n                padding-left: 40px;'),
 Document(metadata={}, page_content='}\n        </style>\n    </head>'),
 Document(metadata={}, page_content='<body>'),
 Document(metadata={}, page_content='<div>\n            <h1>전주대학교 인공지능학과</h1>'),
 Document(metadata={}, page_content='<p>전주대학교 인공지능학과는 차세대 기술 혁신을 이끄는 인재를 양성하기 위해 설립되었습니다. 본 학과는 최'),


In [None]:
pip install --upgrade langchain

Collecting langchain
  Downloading langchain-0.3.13-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain-core<0.4.0,>=0.3.26 (from langchain)
  Downloading langchain_core-0.3.28-py3-none-any.whl.metadata (6.3 kB)
Downloading langchain-0.3.13-py3-none-any.whl (1.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading langchain_core-0.3.28-py3-none-any.whl (411 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m411.6/411.6 kB[0m [31m16.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: langchain-core, langchain
  Attempting uninstall: langchain-core
    Found existing installation: langchain-core 0.3.25
    Uninstalling langchain-core-0.3.25:
      Successfully uninstalled langchain-core-0.3.25
  Attempting uninstall: langchain
    Found existing installation: langchain 0.3.12
    Uninstalling langchain-0.3.12:
      Successfully uninstalled langchain-0.3.12
Successf

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 파일 객체 생성 및 내용을 읽어서 변수에 저장
with open('/content/html_jju.txt', 'r', encoding='utf-8') as f:
    file_content = f.read()

# HTML 언어를 사용하여 텍스트 분할기 생성
html_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.HTML,
    chunk_size=60,  # 청크 크기를 60으로 설정
    chunk_overlap=0  # 청크 간 중복되는 부분이 없도록 설정
)

# 주어진 HTML 텍스트를 분할하여 문서 생성
html_docs = html_splitter.create_documents([file_content])

# 생성된 문서 출력
for doc in html_docs:
    print(doc)

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
page_content='프로그램안내"
														
													
												>'
page_content='보안프로그램안내
												</a>
											</li>'
page_content='<li class="">
												
												
												<a href='
page_content='"/jj/smartjj/security/sw-01.jsp"'
page_content='title="소프트웨어/저작권"'
page_content='>
													소프트웨어'
page_content='/저작권
												</a>
											</li>'
page_content='<li class="">
												
												
												<a href='
page_content='"/jj/smartjj/security/guidelines-02.jsp"'
page_content='title="관련 자'
page_content='료"
														
													
												>
													관'
page_content='련 자료
												</a>
											</li>'
page_content='</ul>
							
						</li>'
page_content='<li class="">
							
							<a href="/jj/smartjj/wired.jsp"'
page_content='title="네트워크/'
page_content='통신"
									
								
							>
								네트워크/통신
							</a>'
page_content='<ul class="depth03">'
page_content='<li class="">
						