In [None]:
# MarkdownHeaderTextSplitter
# => 마크다운 헤더 #, ##, ###, #### 를 구분자로 해서 chunk 나누는 방법
#
# 마크다운 파일의 구조를 이해하고 효율적으로 다루는 것은 문서 작업에 있어 매우 중요할 수 있습니다. 
# 특히, 문서의 전체적인 맥락과 구조를 고려하여 의미 있는 방식으로 텍스트를 임베딩하는 과정은, 광범위한 의미와 주제를 더 잘 포착할 수 있는 포괄적인 벡터 표현을 생성하는 데 큰 도움이 됩니다.
# 이러한 맥락에서, 마크다운 파일의 특정 부분, 즉 헤더별로 내용을 나누고 싶을 때가 있습니다. 
# 예를 들어, 문서 내에서 각각의 헤더 아래에 있는 내용을 기반으로 서로 연관된 정보 덩어리, 즉 '청크'를 만들고 싶은 경우가 그러합니다. 이는 텍스트의 공통된 맥락을 유지하면서도, 문서의 구조적 요소를 효과적으로 활용하려는 시도입니다.
# 이런 과제를 해결하기 위해, MarkdownHeaderTextSplitter 라는 도구를 활용할 수 있습니다. 
# 이 도구는 문서를 지정된 헤더 집합에 따라 분할하여, 각 헤더 그룹 아래의 내용을 별도의 청크로 관리할 수 있게 합니다. 
# 이 방법을 통해, 문서의 전반적인 구조를 유지하면서도 내용을 더 세밀하게 다룰 수 있게 되며, 이는 다양한 처리 과정에서 유용하게 활용될 수 있습니다.

# %pip install -qU langchain-text-splitters

In [1]:

markdown_document = """
# OpenAI

## OpenAI API

- openai 설치
<br> openai 버전은 0.27.0 이상, python 3.7.1 이상 에서 만 ChatCompletion.create 함수를 이용할 수 있다
<br> openai doc 참고: https://platform.openai.com/docs/api-reference/completions/create?lang=python
```
pip install openai           # openai 설치 
```
```
pip install --upgrade openai # 필요시, openai 업데이트
pip show openai              # 필요시 openai 버전 확인  
python -m pip --version 
```
- OpenAI API 예제

|소스명|설명|기타|
|:-----------------|:-----------------------------------------------------------|:---------------------|
|[chat_test](https://github.com/kobongsoo/OpenAI/blob/master/chat_test.ipynb)|ChatCompletion 예제|openapi key 필요|
|[document preprocessing](https://github.com/kobongsoo/OpenAI/blob/master/document%20preprocessing.ipynb)|문서 전처리 예제|openapi key 필요|
|[embedding](https://github.com/kobongsoo/OpenAI/blob/master/embedding.ipynb)|임베딩 예|openapi key 필요|
|[image_test](https://github.com/kobongsoo/OpenAI/blob/master/image_test.ipynb)|DALL-E와 Kario를 이용한 이미지 생성 예|openapi key / kakao api key 필요|
|[LlamaIndex_test](https://github.com/kobongsoo/OpenAI/blob/master/LlamaIndex_test.ipynb)|라마 인덱스를 이용항 GPT 인덱싱 예제|openapi key|
|[LlamaIndex_test_googledoc](https://github.com/kobongsoo/OpenAI/blob/master/LlamaIndex_test_googledoc.ipynb)|라마 인덱스와 구글 DOC 를 이용항 GPT 인덱싱 예제|openapi key/google doc key 필요|
|[페르소냐 채팅 예제](https://github.com/kobongsoo/OpenAI/blob/master/persona.py)|GPT를 활용한 유명인들에 대한 체팅 예제.|**tkinter GUI** 이용|

## LangChain
- LangChain은 Language Model로 구동되는 애플리케이션을 개발하기 위한 프레임워크.
<br>Langchain 에 대한 자세한 내용은 [여기](https://python.langchain.com/en/latest/) 참조
```
pip install langchain
# or
conda install langchain -c conda-forge
```
|소스명|설명|기타|
|:-----------------|:-----------------------------------------------------------|:---------------------|
|[langchain_agent_ex](https://github.com/kobongsoo/OpenAI/blob/master/Langchain/langchain_agent_ex.ipynb)|Langchain 프레임워크를 이용한 gpt 연동 예|Google Serper 도구 API 키 필요|
|[using_huggingface_with_langchain](https://github.com/kobongsoo/OpenAI/blob/master/Langchain/using_huggingface_with_langchain.ipynb)|huggingface text2text-generation 모델을 연동한 langchaing  Q&A 예제|huggingface API KEY 혹은 OpenAI API KEY 필요|
"""

print(markdown_document)


# OpenAI

## OpenAI API

- openai 설치
<br> openai 버전은 0.27.0 이상, python 3.7.1 이상 에서 만 ChatCompletion.create 함수를 이용할 수 있다
<br> openai doc 참고: https://platform.openai.com/docs/api-reference/completions/create?lang=python
```
pip install openai           # openai 설치 
```
```
pip install --upgrade openai # 필요시, openai 업데이트
pip show openai              # 필요시 openai 버전 확인  
python -m pip --version 
```
- OpenAI API 예제

|소스명|설명|기타|
|:-----------------|:-----------------------------------------------------------|:---------------------|
|[chat_test](https://github.com/kobongsoo/OpenAI/blob/master/chat_test.ipynb)|ChatCompletion 예제|openapi key 필요|
|[document preprocessing](https://github.com/kobongsoo/OpenAI/blob/master/document%20preprocessing.ipynb)|문서 전처리 예제|openapi key 필요|
|[embedding](https://github.com/kobongsoo/OpenAI/blob/master/embedding.ipynb)|임베딩 예|openapi key 필요|
|[image_test](https://github.com/kobongsoo/OpenAI/blob/master/image_test.ipynb)|DALL-E와 Kario를 이용한 이미지 생성 예|openapi key / 

In [2]:
from langchain_text_splitters import MarkdownHeaderTextSplitter
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 문서를 분할할 헤더 레벨과 이름을 정의합니다.
# => #, ##, ### 가 아니라 다르게 지정해도 됨. 예) -, 1., 2, 3,
headers_to_split_on = [
    ("#", "Header1"),
    ("##", "Header2"),
    ("###", "Header3")
]

# 마크다운 헤더를 기준으로 텍스트를 분할하는 MarkdownHeaderTextSplitter 객체를 생성합니다.
markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on,
    strip_headers=False,# False = 헤더를 제거하지 않도록 설정합니다.(*기본=True)
)

# 헤더기준으로 분할한다.
md_header_splits = markdown_splitter.split_text(markdown_document)

# 출력
for header in md_header_splits:
    print(f"[page_content]:\n{header.page_content}\n\n")
    print(f"[metadata]:\n{header.metadata}", end="\n=============================\n\n")


# 분할된 결과를 다시 RecursiveCharacterTextSplitter 로 분할함.
chunk_size = 200  # 분할된 청크의 크기를 지정합니다.
chunk_overlap = 20  # 분할된 청크 간의 중복되는 문자 수를 지정합니다.
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# 문서를 문자 단위로 분할합니다.
splits = text_splitter.split_documents(md_header_splits)

# 출력
for header in splits:
    print(f"*[page_content]:\n{header.page_content}\n\n")
    print(f"*[metadata]:\n{header.metadata}", end="\n********************************************\n\n")

[page_content]:
# OpenAI  
## OpenAI API


[metadata]:
{'Header1': 'OpenAI'}

[page_content]:
- openai 설치
<br> openai 버전은 0.27.0 이상, python 3.7.1 이상 에서 만 ChatCompletion.create 함수를 이용할 수 있다
<br> openai doc 참고: https://platform.openai.com/docs/api-reference/completions/create?lang=python
```
pip install openai           # openai 설치
```
```
pip install --upgrade openai # 필요시, openai 업데이트
pip show openai              # 필요시 openai 버전 확인
python -m pip --version
```


[metadata]:
{'Header2': 'openai 설치'}

[page_content]:
- OpenAI API 예제  
|소스명|설명|기타|
|:-----------------|:-----------------------------------------------------------|:---------------------|
|[chat_test](https://github.com/kobongsoo/OpenAI/blob/master/chat_test.ipynb)|ChatCompletion 예제|openapi key 필요|
|[document preprocessing](https://github.com/kobongsoo/OpenAI/blob/master/document%20preprocessing.ipynb)|문서 전처리 예제|openapi key 필요|
|[embedding](https://github.com/kobongsoo/OpenAI/blob/master/embedding.ipynb)|임베딩 예|openapi key 필요|
|