# Document Splitting

In [5]:
import os
import openai
import sys
sys.path.append('../..')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

openai.api_key  = os.environ['OPENAI_API_KEY']

In [6]:
from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitter

In [7]:
chunk_size =26
chunk_overlap = 4

In [8]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)
c_splitter = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap
)

Why doesn't this split the string below?

In [9]:
text1 = 'abcdefghijklmnopqrstuvwxyz'

In [10]:
r_splitter.split_text(text1)

['abcdefghijklmnopqrstuvwxyz']

In [11]:
text2 = 'abcdefghijklmnopqrstuvwxyzabcdefg'

In [12]:
r_splitter.split_text(text2)

['abcdefghijklmnopqrstuvwxyz', 'wxyzabcdefg']

Ok, this splits the string but we have an overlap specified as 5, but it looks like 3? (try an even number)

In [13]:
text3 = "a b c d e f g h i j k l m n o p q r s t u v w x y z"

In [14]:
r_splitter.split_text(text3)

['a b c d e f g h i j k l m', 'l m n o p q r s t u v w x', 'w x y z']

In [15]:
c_splitter.split_text(text3)

['a b c d e f g h i j k l m n o p q r s t u v w x y z']

In [16]:
c_splitter = CharacterTextSplitter(
    chunk_size=chunk_size,
    chunk_overlap=chunk_overlap,
    separator = ' '
)
c_splitter.split_text(text3)

['a b c d e f g h i j k l m', 'l m n o p q r s t u v w x', 'w x y z']

Try your own examples!

## Recursive splitting details

`RecursiveCharacterTextSplitter` is recommended for generic text. 

In [21]:
some_text = """우리의 안전은 우리 손으로 민방위가 지켜갑니다 여러분 혹시 외로운 늑대라고 들어보셨나요? 뭔가 분위기 있는 듯 하지만 사실은 자생적인 테러리스트를 일컫는 말이라고 하죠. 아이웨스와 같은 조직적인 테러 집단들이 전세계로 세력을 확장하기 위해 외로운 늑대들을 키우고 있다고 하는데요. 국제사회는 이제 세계 어디서나 테러가 무차별적으로 발생하고 있다고 경고하고 있습니다. 테러에 관한 한 우리나라도 결코 안전지대가 아니라는 얘기입니다. 만약 내 주변에서 테러가 발생한다면 어떻게 해야 될까요? 여보세요? 네 말씀하세요. 로비에 폭탄을 설치했다고요? 여보세요? 장난전화인가? 그래도 혹시 모르니까 여보세요? 네 거기 112죠. 테러가 의심될 때는 신속하게 경찰 또는 국가정보원에 신고하세요. 이때 정확한 위치와 현장 분위기 등을 구체적으로 알려주는 게 좋습니다. 여기 수상한 사람도 한 명 보이긴 하거든요. 투표장자 있네. 만약 폭발물로 의심되는 물품이나 차량을 발견했을 땐 절대 손대지 말고 곧바로"""

In [22]:
len(some_text)

499

In [27]:
c_splitter = CharacterTextSplitter(
    chunk_size=450,
    chunk_overlap=0,
    separator = ' '
)
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=450,
    chunk_overlap=0, 
    separators=["\n\n", "\n", " ", ""]
)

In [28]:
c_splitter.split_text(some_text)

['우리의 안전은 우리 손으로 민방위가 지켜갑니다 여러분 혹시 외로운 늑대라고 들어보셨나요? 뭔가 분위기 있는 듯 하지만 사실은 자생적인 테러리스트를 일컫는 말이라고 하죠. 아이웨스와 같은 조직적인 테러 집단들이 전세계로 세력을 확장하기 위해 외로운 늑대들을 키우고 있다고 하는데요. 국제사회는 이제 세계 어디서나 테러가 무차별적으로 발생하고 있다고 경고하고 있습니다. 테러에 관한 한 우리나라도 결코 안전지대가 아니라는 얘기입니다. 만약 내 주변에서 테러가 발생한다면 어떻게 해야 될까요? 여보세요? 네 말씀하세요. 로비에 폭탄을 설치했다고요? 여보세요? 장난전화인가? 그래도 혹시 모르니까 여보세요? 네 거기 112죠. 테러가 의심될 때는 신속하게 경찰 또는 국가정보원에 신고하세요. 이때 정확한 위치와 현장 분위기 등을 구체적으로 알려주는 게 좋습니다. 여기 수상한 사람도 한 명 보이긴 하거든요.',
 '투표장자 있네. 만약 폭발물로 의심되는 물품이나 차량을 발견했을 땐 절대 손대지 말고 곧바로']

In [29]:
r_splitter.split_text(some_text)

['우리의 안전은 우리 손으로 민방위가 지켜갑니다 여러분 혹시 외로운 늑대라고 들어보셨나요? 뭔가 분위기 있는 듯 하지만 사실은 자생적인 테러리스트를 일컫는 말이라고 하죠. 아이웨스와 같은 조직적인 테러 집단들이 전세계로 세력을 확장하기 위해 외로운 늑대들을 키우고 있다고 하는데요. 국제사회는 이제 세계 어디서나 테러가 무차별적으로 발생하고 있다고 경고하고 있습니다. 테러에 관한 한 우리나라도 결코 안전지대가 아니라는 얘기입니다. 만약 내 주변에서 테러가 발생한다면 어떻게 해야 될까요? 여보세요? 네 말씀하세요. 로비에 폭탄을 설치했다고요? 여보세요? 장난전화인가? 그래도 혹시 모르니까 여보세요? 네 거기 112죠. 테러가 의심될 때는 신속하게 경찰 또는 국가정보원에 신고하세요. 이때 정확한 위치와 현장 분위기 등을 구체적으로 알려주는 게 좋습니다. 여기 수상한 사람도 한 명 보이긴 하거든요.',
 '투표장자 있네. 만약 폭발물로 의심되는 물품이나 차량을 발견했을 땐 절대 손대지 말고 곧바로']

Let's reduce the chunk size a bit and add a period to our separators:

In [30]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=150,
    chunk_overlap=0,
    separators=["\n\n", "\n", "\. ", " ", ""]
)
r_splitter.split_text(some_text)

['우리의 안전은 우리 손으로 민방위가 지켜갑니다 여러분 혹시 외로운 늑대라고 들어보셨나요? 뭔가 분위기 있는 듯 하지만 사실은 자생적인 테러리스트를 일컫는 말이라고 하죠',
 '. 아이웨스와 같은 조직적인 테러 집단들이 전세계로 세력을 확장하기 위해 외로운 늑대들을 키우고 있다고 하는데요. 국제사회는 이제 세계 어디서나 테러가 무차별적으로 발생하고 있다고 경고하고 있습니다. 테러에 관한 한 우리나라도 결코 안전지대가 아니라는 얘기입니다',
 '. 만약 내 주변에서 테러가 발생한다면 어떻게 해야 될까요? 여보세요? 네 말씀하세요. 로비에 폭탄을 설치했다고요? 여보세요? 장난전화인가? 그래도 혹시 모르니까 여보세요? 네 거기 112죠. 테러가 의심될 때는 신속하게 경찰 또는 국가정보원에 신고하세요',
 '. 이때 정확한 위치와 현장 분위기 등을 구체적으로 알려주는 게 좋습니다. 여기 수상한 사람도 한 명 보이긴 하거든요. 투표장자 있네. 만약 폭발물로 의심되는 물품이나 차량을 발견했을 땐 절대 손대지 말고 곧바로']

In [31]:
r_splitter = RecursiveCharacterTextSplitter(
    chunk_size=150,
    chunk_overlap=0,
    separators=["\n\n", "\n", "(?<=\. )", " ", ""]
)
r_splitter.split_text(some_text)

['우리의 안전은 우리 손으로 민방위가 지켜갑니다 여러분 혹시 외로운 늑대라고 들어보셨나요? 뭔가 분위기 있는 듯 하지만 사실은 자생적인 테러리스트를 일컫는 말이라고 하죠.',
 '아이웨스와 같은 조직적인 테러 집단들이 전세계로 세력을 확장하기 위해 외로운 늑대들을 키우고 있다고 하는데요. 국제사회는 이제 세계 어디서나 테러가 무차별적으로 발생하고 있다고 경고하고 있습니다. 테러에 관한 한 우리나라도 결코 안전지대가 아니라는 얘기입니다.',
 '만약 내 주변에서 테러가 발생한다면 어떻게 해야 될까요? 여보세요? 네 말씀하세요. 로비에 폭탄을 설치했다고요? 여보세요? 장난전화인가? 그래도 혹시 모르니까 여보세요? 네 거기 112죠. 테러가 의심될 때는 신속하게 경찰 또는 국가정보원에 신고하세요.',
 '이때 정확한 위치와 현장 분위기 등을 구체적으로 알려주는 게 좋습니다. 여기 수상한 사람도 한 명 보이긴 하거든요. 투표장자 있네. 만약 폭발물로 의심되는 물품이나 차량을 발견했을 땐 절대 손대지 말고 곧바로']

In [33]:
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("docs/테러대비행동요령_가이드북.pdf")
pages = loader.load()

In [34]:
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=1000,
    chunk_overlap=150,
    length_function=len
)

In [35]:
docs = text_splitter.split_documents(pages)

In [36]:
len(docs)

26

In [37]:
len(pages)

28

In [38]:
from langchain.document_loaders import NotionDirectoryLoader
loader = NotionDirectoryLoader("docs/Notion_DB")
notion_db = loader.load()

In [39]:
docs = text_splitter.split_documents(notion_db)

In [40]:
len(notion_db)

52

In [41]:
len(docs)

353

## Token splitting

We can also split on token count explicity, if we want.

This can be useful because LLMs often have context windows designated in tokens.

Tokens are often ~4 characters.

In [42]:
from langchain.text_splitter import TokenTextSplitter

In [43]:
text_splitter = TokenTextSplitter(chunk_size=1, chunk_overlap=0)

In [47]:
text1 = "foo bar foobar"

In [48]:
text_splitter.split_text(text1)

['foo', ' bar', ' fo', 'obar']

In [49]:
text_splitter = TokenTextSplitter(chunk_size=10, chunk_overlap=0)

In [50]:
docs = text_splitter.split_documents(pages)

In [51]:
docs[0]

Document(page_content='테러대�', metadata={'source': 'docs/테러대비행동요령_가이드북.pdf', 'page': 0})

In [52]:
pages[0].metadata

{'source': 'docs/테러대비행동요령_가이드북.pdf', 'page': 0}

## Context aware splitting

Chunking aims to keep text with common context together.

A text splitting often uses sentences or other delimiters to keep related text together but many documents (such as Markdown) have structure (headers) that can be explicitly used in splitting.

We can use `MarkdownHeaderTextSplitter` to preserve header metadata in our chunks, as show below.

In [59]:
from langchain.document_loaders import NotionDirectoryLoader
from langchain.text_splitter import MarkdownHeaderTextSplitter

In [60]:
markdown_document = """# Title\n\n \
## 챕터 1\n\n \
그는 민수다\n\n 안녕 나는 영희야\n\n \
### Section \n\n \
오늘 뭐먹지  \n\n 
## 챕터 2\n\n \
당연히 학식이지"""

In [61]:
headers_to_split_on = [
    ("#", "헤더 1"),
    ("##", "헤더 2"),
    ("###", "헤더 3"),
]

In [62]:
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on
)
md_header_splits = markdown_splitter.split_text(markdown_document)

In [63]:
md_header_splits[0]

Document(page_content='그는 민수다  \n안녕 나는 영희야', metadata={'헤더 1': 'Title', '헤더 2': '챕터 1'})

In [64]:
md_header_splits[1]

Document(page_content='오늘 뭐먹지', metadata={'헤더 1': 'Title', '헤더 2': '챕터 1', '헤더 3': 'Section'})

Try on a real Markdown file, like a Notion database.

In [65]:
loader = NotionDirectoryLoader("docs/Notion_DB")
docs = loader.load()
txt = ' '.join([d.page_content for d in docs])

In [66]:
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
]
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on
)

In [67]:
md_header_splits = markdown_splitter.split_text(txt)

In [68]:
md_header_splits[0]

Document(page_content="This is a living document with everything we've learned working with people while running a startup. And, of course, we continue to learn. Therefore it's a document that will continue to change.  \n**Everything related to working at Blendle and the people of Blendle, made public.**  \nThese are the lessons from three years of working with the people of Blendle. It contains everything from [how our leaders lead](https://www.notion.so/ecfb7e647136468a9a0a32f1771a8f52?pvs=21) to [how we increase salaries](https://www.notion.so/Salary-Review-e11b6161c6d34f5c9568bb3e83ed96b6?pvs=21), from [how we hire](https://www.notion.so/Hiring-451bbcfe8d9b49438c0633326bb7af0a?pvs=21) and [fire](https://www.notion.so/Firing-5567687a2000496b8412e53cd58eed9d?pvs=21) to [how we think people should give each other feedback](https://www.notion.so/Our-Feedback-Process-eb64f1de796b4350aeab3bc068e3801f?pvs=21) — and much more.  \nWe've made this document public because we want to learn fro