In [None]:
import ijson
import json
from dotenv import load_dotenv

from datetime import datetime
from langchain_community.document_loaders import (
    JSONLoader,
)
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain_huggingface.embeddings import HuggingFaceEndpointEmbeddings
from langchain_community.embeddings import OllamaEmbeddings
from langchain.storage import LocalFileStore
from langchain.storage import InMemoryByteStore
from langchain.embeddings import CacheBackedEmbeddings

In [2]:
load_dotenv()
set_llm_cache(InMemoryCache())

In [None]:
loader = JSONLoader(
    file_path='./subsampled.json',
    jq_schema='.["@graph"][] | {creator: .creator, title: .title}',
    text_content=False,
)
documents = loader.load()

In [None]:
def split_large_graph_sections(file_path):
    # `@graph` 섹션 단위로 분할
    with open(file_path, 'r', encoding='utf-8') as file:
        parser = ijson.parse(file, multiple_values=True)
        
        section_count = 0
        current_graph = None

        for prefix, event, value in parser:
            # `@graph` 섹션이 시작될 때마다 새로운 리스트로 초기화
            if prefix == "@graph" and event == "start_array":
                current_graph = []
            elif prefix == "@graph.item" and event == "start_map":
                # 항목 시작: 새로운 딕셔너리를 생성해 추가
                item = {}
            elif prefix.startswith("@graph.item") and event == "map_key":
                # `@graph.item` 내의 키와 값을 읽어 item 딕셔너리에 추가
                key = value
            elif prefix.startswith("@graph.item") and event in ("string", "number"):
                # `@graph.item`의 값 저장
                item[key] = value
            elif prefix == "@graph.item" and event == "end_map":
                # 항목 끝: current_graph 리스트에 추가
                current_graph.append(item)
            elif prefix == "@graph" and event == "end_array":
                # `@graph` 섹션 끝: JSON 파일로 저장
                section_count += 1
                output_path = f'graph_section_{section_count}.json'
                with open(output_path, 'w', encoding='utf-8') as output_file:
                    json.dump({"@graph": current_graph}, output_file, ensure_ascii=False, indent=4)
                print(f'{output_path} 파일이 생성되었습니다.')
                current_graph = None  # 다음 섹션 처리를 위해 초기화

# 함수 호출
split_large_graph_sections('../book.json')


graph_section_1.json 파일이 생성되었습니다.
graph_section_2.json 파일이 생성되었습니다.
graph_section_3.json 파일이 생성되었습니다.
graph_section_4.json 파일이 생성되었습니다.
graph_section_5.json 파일이 생성되었습니다.
graph_section_6.json 파일이 생성되었습니다.
graph_section_7.json 파일이 생성되었습니다.
graph_section_8.json 파일이 생성되었습니다.
graph_section_9.json 파일이 생성되었습니다.
graph_section_10.json 파일이 생성되었습니다.
graph_section_11.json 파일이 생성되었습니다.
graph_section_12.json 파일이 생성되었습니다.
graph_section_13.json 파일이 생성되었습니다.
graph_section_14.json 파일이 생성되었습니다.
graph_section_15.json 파일이 생성되었습니다.
graph_section_16.json 파일이 생성되었습니다.
graph_section_17.json 파일이 생성되었습니다.
graph_section_18.json 파일이 생성되었습니다.
graph_section_19.json 파일이 생성되었습니다.
graph_section_20.json 파일이 생성되었습니다.
graph_section_21.json 파일이 생성되었습니다.
graph_section_22.json 파일이 생성되었습니다.
graph_section_23.json 파일이 생성되었습니다.
graph_section_24.json 파일이 생성되었습니다.
graph_section_25.json 파일이 생성되었습니다.
graph_section_26.json 파일이 생성되었습니다.
graph_section_27.json 파일이 생성되었습니다.
graph_section_28.json 파일이 생성되었습니다.
graph_section_29.json 파일이 생성되