Character Text Spilitter

In [64]:
# /content/data/appendix-keywords.txt 파일을 열어서 f라는 파일 객체를 생성
with open("/content/data/appendix-keywords.txt") as f:
  file = f.read()                  # 파일의 내용을 읽어서 file 변수에 저장

In [65]:
print(file[:500])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


[링크 텍스트](https://) # CharacterTextSplitter를 사용하여 분할

CharacterTextSplitter를 사용하여 Text를 청크(Chunk)로 분할하는 코드
- `separator:` 분할할 기준을 설정
- `chunk_size:` 각 청크의 최대 크기를 설정
- `chunk_overlap:` 인접한 청크 간 중복을 허용
- `length_function:` 텍스트의 길이를 계산하는 함수를 지정

In [66]:
from langchain_text_splitters import CharacterTextSplitter

# CharacterTextSplitter를 사용하여 텍스트를 청크(Chunk)로 분할하는 코드
text_splitter = CharacterTextSplitter(
      # 텍스트를 분할할 때 사용할 구분자를 지정. 기본값은 "\n\n"
      separator = "\n\n",
      # 분할된 텍스트 청크의 최대 크기를 지정(문자 수)
      chunk_size = 220,
      # 분할된 텍스트 청크 간의 중복되는 문자 수를 지정
      chunk_overlap = 0,
      # 텍스트의 길이를 계산하는 함수를 지정
      length_function = len,
)

In [67]:
texts = text_splitter.split_text(file)

In [68]:
# 텍스트를 청크로 분할
texts = text_splitter.create_documents([file])
print(len(texts[0].page_content)) # 분할된 문서의 개수를 출력
print(texts[0])                   # 분할된 문서 중 첫 번째 문서를 출력

197
page_content='Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding'


`create_document` 메서드를 이용한 메타 데이터 전달

In [69]:
metadatas = [
    {"document": 1},
#    {"document": 2},
]  # 문서에 대한 메타데이터 리스트를 정의
documents = text_splitter.create_documents(
    [
        file,
#        file,
    ],  # 분할할 텍스트 데이터를 리스트로 전달
    metadatas = metadatas # 각 문서에 해당하는 메타데이터를 전달
)
print(documents[0]) # 분할된 문서 중 첫 번째 문서를 출력

page_content='Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding' metadata={'document': 1}


In [70]:
len(documents)

31

In [71]:
documents[7].metadata

{'document': 1}

In [72]:
# text_splitter를 사용하여 file 텍스트를 분할하고, 분할된 텍스트의 첫 번째 요소를 반환
text_splitter.split_text(file)[0]

'Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding'