In [1]:
from langchain_community.document_loaders import WikipediaLoader
loader = WikipediaLoader(query="지진", lang="ko", load_max_docs=1, doc_content_chars_max=40000)
docs = loader.load()

In [2]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False
)

texts = text_splitter.split_documents(docs)

Created a chunk of size 689, which is longer than the specified 100
Created a chunk of size 547, which is longer than the specified 100
Created a chunk of size 733, which is longer than the specified 100
Created a chunk of size 329, which is longer than the specified 100
Created a chunk of size 704, which is longer than the specified 100
Created a chunk of size 1268, which is longer than the specified 100
Created a chunk of size 173, which is longer than the specified 100
Created a chunk of size 357, which is longer than the specified 100
Created a chunk of size 519, which is longer than the specified 100
Created a chunk of size 1006, which is longer than the specified 100
Created a chunk of size 1451, which is longer than the specified 100
Created a chunk of size 2325, which is longer than the specified 100
Created a chunk of size 1052, which is longer than the specified 100
Created a chunk of size 821, which is longer than the specified 100
Created a chunk of size 1213, which is long

In [3]:
len(texts)

89

In [4]:
for text in texts[:5]:
    print(f"Chunk Size: {len(text.page_content)}, Page Content: {text.page_content[:100]}")
    print("-" * 70)

Chunk Size: 689, Page Content: 지진(地震, 영어: earthquake, quake, tremor, temblor)은 지구 암석권 내부에서 갑작스럽게 에너지를 방출하면서 지진파를 만들어내며 지구 표면까지 흔들리는
----------------------------------------------------------------------
Chunk Size: 546, Page Content: == 어원 ==
영어에서 'earthquake'는 13세기 'eorthequakynge'라는 중세 영어 단어에서 유래한 말로, "땅에서 일어난 흔들림"이라는 'quavinge of
----------------------------------------------------------------------
Chunk Size: 732, Page Content: == 특성 ==
지질구조학적 지진은 단층면을 따라 파괴가 전파될 수 있을 정도로 충분한 탄성 변형 에너지가 축적된 지구 어디서나 발생할 수 있다. 단층면은 단층면 표면에 마찰 저항
----------------------------------------------------------------------
Chunk Size: 14, Page Content: === 진원과 진앙 ===
----------------------------------------------------------------------
Chunk Size: 329, Page Content: 지진은 지구 내부의 에너지가 축적되어 암석의 파열이 일어나는 한계를 넘어설 때 일어나는데, 암반이 파열되는 전체 영역을 진원역이라 한다. 규모 M8을 넘는 거대지진의 경우 진원역의
----------------------------------------------------------------------


In [5]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", " ", ""],
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False
)

texts = text_splitter.split_documents(docs)

In [6]:
len(texts)

531

In [7]:
for text in texts[:10]:
    print(f"Chunk Size: {len(text.page_content)}, Page Content: {text.page_content[:100]}")
    print("-" * 70)

Chunk Size: 100, Page Content: 지진(地震, 영어: earthquake, quake, tremor, temblor)은 지구 암석권 내부에서 갑작스럽게 에너지를 방출하면서 지진파를 만들어내며 지구 표면까지 흔들리는
----------------------------------------------------------------------
Chunk Size: 98, Page Content: 만들어내며 지구 표면까지 흔들리는 현상이다. 지진은 느낄 수 없을 정도로 약한 크기서부터 사람과 여러 물건을 공중으로 들어올리고 도시 전체를 파괴할 수 있을 정도로 매우 격렬한
----------------------------------------------------------------------
Chunk Size: 96, Page Content: 파괴할 수 있을 정도로 매우 격렬한 크기의 지진까지 다양한 강도로 일어난다. 특정 지역의 지진 활동(seismic activity)이란 특정 기간 그 지역에서 발생한 지진의
----------------------------------------------------------------------
Chunk Size: 95, Page Content: 기간 그 지역에서 발생한 지진의 빈도, 유형, 크기를 말한다. 지진에는 지표면의 진동 외에도 정상 미끄러짐이나 슬로우 슬립 같은 비진동성 암반의 미끄러짐 현상도 포함된다.
----------------------------------------------------------------------
Chunk Size: 98, Page Content: 지진은 지구 표면의 땅을 흔들고 암반의 위치를 옮기거나 변성시켜 휘어지게 만든다. 큰 지진의 진앙이 바다 해역 상에 있다면 해저 지형의 변화로 쓰나미가 일어날 수도 있다. 또한
----------------------------------------------------------------------
Ch

In [8]:
%pip install langchain_experimental==0.3.4

Collecting langchain_experimental==0.3.4
  Downloading langchain_experimental-0.3.4-py3-none-any.whl.metadata (1.7 kB)
Downloading langchain_experimental-0.3.4-py3-none-any.whl (209 kB)
Installing collected packages: langchain_experimental
Successfully installed langchain_experimental-0.3.4
Note: you may need to restart the kernel to use updated packages.


In [10]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

text_splitter = SemanticChunker(OpenAIEmbeddings())

In [12]:
texts = text_splitter.split_documents(docs)

In [13]:
texts = text_splitter.split_documents(docs)

In [14]:
len(texts)

26

In [None]:
for text in texts[:10]:
    print(f"Chunk Size: {len(text.page_content)}, Page Content: {text.page_content[:100]}")
    print("-" * 70)