# 국가중점기술 대응 특허 데이터셋
- IPC (International Patent Classification): 국제특허분류
  - 구조: Section, Class, Subclass, MainGroup, SubGroup
  ```plain text
  // Section: IPC 계층 구조의 가장 상위 레벨
  - A: 생활필수품
  - B: 처리조작; 운수
  - C: 화학; 야금
  - D: 섬유; 지류
  - E: 고정구조물
  - F: 기계공학; 조명; 가열; 무기; 폭파
  - G: 물리학
  - H: 전기

  // Class: Section을 세분화
  - Class 기호: Section 기호에 2개의 숫자를 붙인 것.

  // Subclass: 각 클래스는 1개 이상의 서브 클래스를 포함한다.
  - Subclass 기호: 클래스 기호에 1개의 대문자를 붙인 것.

  // MainGroup: 발명의 검색에 유용하다고 생각되는 주제사항의 분야를 나타내는 것
  - MainGroup 기호: 1~3개의 숫자로 구성, 사선(/)과 숫자 00을 뒤에 붙인다.

  // SubGroup: MainGroup 밑에 세부전개항목을 형성하는 것
  - SubGroup 기호: 메인그룹 및 사선 이후에 00 이외의 적어도 2개의 숫자를 붙인 것.
  - SubGroup 타이틀: MainGroup의 분류범위 내에서 발명의 서치에 유용하다고 생각되는 주제사항의 분야.
  ```


## 데이터셋 구성

### raw:

  ```json
  {
    "dataset": {
      "updateDate": "업데이트년도월일",
      "Stext": "소분류설명",
      "Mtext": "중분류설명",
      "Ltext": "대분류설명",
      "Sno": "소분류코드",
      "Mno": "중분류코드",
      "Lno": "대분류코드",
      "ipc_main": "메인 IPC",
      "country_code": "국가코드",
      "documentId": "문헌키",
      "document_type": "문헌타입(문헌키 맨뒤에 알파벳 + 숫자)" ,
      "application_number": "출원번호",
      "keyword": "키워드6개 & 대분류 1개",
    }
  }
  ```

### label:

  ```json
  {
    "dataset": {
      "application_year": "출원연도",
      "application_date": "출원일자",
      "documentId": "문헌키",
      "application_number": "출원번호",
    }
  }
  ```

In [20]:
import os

# 데이터셋 메인 폴더명
dataset_path = "/Users/ssr/Documents/startup-chatbot-surin/RAG-Pipeline/dataset"

raw_dataset_folder = os.path.join(dataset_path, "raw")
label_dataset_folder = os.path.join(dataset_path, "label")

## RAW 데이터셋 확인

In [None]:
# RAW 데이터셋 확인하기
# zip 파일 압축 풀기
import zipfile
import json

for zip_file in os.listdir(raw_dataset_folder):
    
    zip_file_path = os.path.join(raw_dataset_folder, zip_file)
    print(zip_file_path)
    middle_code = zip_file_path.split("_")[7]
    print("국가중점기술분류 중분류코드:", middle_code)

    with zipfile.ZipFile(zip_file_path, "r") as raw_zip_file:
        json_files = [
            file_name
            for file_name in raw_zip_file.namelist()
            if file_name.endswith(".json")
        ]
        print("현재 ZIP 폴더 총 파일 개수:", len(raw_zip_file.namelist()))
        print("현재 ZIP 폴더 JSON 파일 개수:", len(json_files))
        print(json_files[:5])
        print("예시 JSON 파일 내용:")

        with raw_zip_file.open(json_files[0], "r") as example:
            json_example = example.read().decode("utf-8")
        
        data = json.loads(json_example)
        print(json.dumps(data, indent=4, ensure_ascii=False))
        print()


/Users/ssr/Documents/startup-chatbot-surin/dataset/raw/TS_C_ICT_SW_CC_빅데이터_인공지능_CCC_다중인공지능공통플랫폼기술.zip
국가중점기술분류 중분류코드: CCC
현재 ZIP 폴더 총 파일 개수: 3641
현재 ZIP 폴더 JSON 파일 개수: 3641
['/jp2002578212a.json', '/jp2002313500a.json', '/jp2019028834b1.json', '/jp2001508777a.json', '/jp2008336140a.json']
예시 JSON 파일 내용:
{
    "dataset": {
        "application_year": "2002",
        "invention_title": "인공지능 애플리케이션을 위한 음례를 선택하는 적응형 샘플링 수법",
        "ipc_section": "G",
        "abstract": "인공지능 애플리케이션은 정례 및 음례를 포함한 훈련 세트한 이용을 필요로 한다. 음례는 특징 공간에서 우위인 특징에 관해서 정례의 분포를 이용하여 선택된다. 음례는 특징 공간에서 우위인 특징의 값을 상기 정례와 공유하는 또는 대략 공유한다. 이 타입의 훈련 세트가, 콘텐트리코멘다, 특히 텔레비젼 프로그램에 대한 리코멘다에 관해서 설명된다.",
        "ipc_subclass": "G06N",
        "applicant_name": "코닌크렉카 필립스 엘렉트로닉스 N 비",
        "ipc_main": "G06N-005/04",
        "ipc_all": "G06N-005/04",
        "ipc_class": "G06",
        "claims": "정례 및 음례를 가지는 훈련 세트한 이용을 필요로 하는 인공지능 애플리케이션을 실행하도록 구성된 처리 장치로서,데이터 및/또는 명령을 저장하도록 구성된 적어도 1개의 메모리와,상

In [18]:
# RAW 데이터셋을 하나의 리스트로 모으기

raw_dataset_list = []

for zip_file in os.listdir(raw_dataset_folder):
    
    zip_file_path = os.path.join(raw_dataset_folder, zip_file)
    # print(zip_file_path)
    middle_code = zip_file_path.split("_")[7]
    print("국가중점기술분류 중분류코드:", middle_code)

    with zipfile.ZipFile(zip_file_path, "r") as raw_zip_file:
        json_files = [
            file_name
            for file_name in raw_zip_file.namelist()
            if file_name.endswith(".json")
        ]
        print("현재 ZIP 폴더 총 파일 개수:", len(raw_zip_file.namelist()))
        print("현재 ZIP 폴더 JSON 파일 개수:", len(json_files))
        print(json_files[:5])
        print("예시 JSON 파일 내용:")

        for json_file in json_files:
            with raw_zip_file.open(json_file, "r") as example:
                json_example = example.read().decode("utf-8")
        
            data = json.loads(json_example)
            # raw 데이터셋 리스트에 추가하기
            raw_dataset_list.append(data)

        print(json.dumps(data, indent=4, ensure_ascii=False))
        print()

print("총 데이터셋 개수:", len(raw_dataset_list))
print(raw_dataset_list[0])

국가중점기술분류 중분류코드: CCC
현재 ZIP 폴더 총 파일 개수: 3641
현재 ZIP 폴더 JSON 파일 개수: 3641
['/jp2002578212a.json', '/jp2002313500a.json', '/jp2019028834b1.json', '/jp2001508777a.json', '/jp2008336140a.json']
예시 JSON 파일 내용:
{
    "dataset": {
        "application_year": "2023",
        "invention_title": "인공지능에 기반한 최적 광고 추천 시스템",
        "ipc_section": "G",
        "register_date": "20230721",
        "abstract": "일실시예에 따르면, 인공지능에 기반한 최적 광고 추천 시스템에 있어서, 인공지능에 기반한 최적 광고를 추천하는 서버를 포함하는 시스템이 제공된다.",
        "ipc_subclass": "G06Q",
        "applicant_name": "그린브릭스컴퍼니 주식회사",
        "ipc_main": "G06Q-030/02",
        "register_year": "2023",
        "ipc_all": "G06Q-030/02|G06N-003/0442|G06N-003/045|G06N-003/0464|G06N-003/0475|G06N-003/08|G06N-003/094",
        "ipc_class": "G06",
        "claims": "인공지능에 기반한 최적 광고 추천 시스템에 있어서,인공지능에 기반한 광고를 추천하는 서버를 포함하고,상기 서버는,데이터 수집부;데이터 분석부; 및광고 추천부를 포함하고,상기 데이터 수집부는,소정의 검색 포털 사이트 서버를 통해, 상기 검색 포털 사이트의 소정의 광고 위치에 디스플레이된 광고 데이터인 제1 데이터를 주기적으로 수집하되, 상기 제1 데이터는 광고 콘텐츠, 디스플레이 기간

raw: 22103

## LABEL 데이터셋 확인

In [11]:
for zip_file in os.listdir(label_dataset_folder):
    
    zip_file_path = os.path.join(label_dataset_folder, zip_file)
    middle_code = zip_file_path.split("_")[7]
    print("국가중점기술분류 중분류코드:", middle_code)

    with zipfile.ZipFile(zip_file_path, "r") as label_zip_file:
        json_files = [
            file_name
            for file_name in label_zip_file.namelist()
            if file_name.endswith(".json")
        ]
        print("현재 ZIP 폴더 총 파일 개수:", len(label_zip_file.namelist()))
        print("현재 ZIP 폴더 JSON 파일 개수:", len(json_files))
        print(json_files[:5])
        print()

국가중점기술분류 중분류코드: CDB
현재 ZIP 폴더 총 파일 개수: 3455
현재 ZIP 폴더 JSON 파일 개수: 3455
['/jp2006025142b2.json', '/jp2005067119a.json', '/jp2003509763a.json', '/jp2003306707a.json', '/jp2006515272b2.json']

국가중점기술분류 중분류코드: CCC
현재 ZIP 폴더 총 파일 개수: 3641
현재 ZIP 폴더 JSON 파일 개수: 3641
['/jp2000128642a.json', '/jp2015148120b2.json', '/jp2015087944b2.json', '/jp2006536533a.json', '/jp2010283389b2.json']

국가중점기술분류 중분류코드: CCA
현재 ZIP 폴더 총 파일 개수: 3480
현재 ZIP 폴더 JSON 파일 개수: 3480
['/jp2013085371b2.json', '/jp2014051114b2.json', '/jp2014049919b2.json', '/jp2014041785b2.json', '/jp2016519468b2.json']

국가중점기술분류 중분류코드: CCB
현재 ZIP 폴더 총 파일 개수: 3453
현재 ZIP 폴더 JSON 파일 개수: 3453
['/jp2010538226b2.json', '/jp2010015567b2.json', '/jp2002509189a.json', '/jp2001533509a.json', '/jp2009243394a.json']

국가중점기술분류 중분류코드: CDC
현재 ZIP 폴더 총 파일 개수: 3588
현재 ZIP 폴더 JSON 파일 개수: 3588
['/jp2015032905b2.json', '/jp2014110103b2.json', '/jp2015007037b2.json', '/jp2015118878b1.json', '/jp2015104975b2.json']

국가중점기술분류 중분류코드: CDA
현재 ZIP 폴더 총 파일 개수: 2031

In [19]:
# RAW 데이터셋을 하나의 리스트로 모으기

label_dataset_list = []

for zip_file in os.listdir(label_dataset_folder):
    
    zip_file_path = os.path.join(label_dataset_folder, zip_file)
    # print(zip_file_path)
    middle_code = zip_file_path.split("_")[7]
    print("국가중점기술분류 중분류코드:", middle_code)

    with zipfile.ZipFile(zip_file_path, "r") as label_zip_file:
        json_files = [
            file_name
            for file_name in label_zip_file.namelist()
            if file_name.endswith(".json")
        ]
        print("현재 ZIP 폴더 총 파일 개수:", len(label_zip_file.namelist()))
        print("현재 ZIP 폴더 JSON 파일 개수:", len(json_files))
        print(json_files[:5])
        print("예시 JSON 파일 내용:")

        for json_file in json_files:
            with label_zip_file.open(json_file, "r") as example:
                json_example = example.read().decode("utf-8")
        
            data = json.loads(json_example)
            # label 데이터셋 리스트에 추가하기
            label_dataset_list.append(data)

        print(json.dumps(data, indent=4, ensure_ascii=False))
        print()

print("총 데이터셋 개수:", len(label_dataset_list))
print(label_dataset_list[0])

국가중점기술분류 중분류코드: CDB
현재 ZIP 폴더 총 파일 개수: 3455
현재 ZIP 폴더 JSON 파일 개수: 3455
['/jp2006025142b2.json', '/jp2005067119a.json', '/jp2003509763a.json', '/jp2003306707a.json', '/jp2006515272b2.json']
예시 JSON 파일 내용:
{
    "dataset": {
        "updateDate": "20240207",
        "Stext": "신개념 컴퓨팅 기술",
        "Mtext": "컴퓨팅·소프트웨어",
        "Lno": "C",
        "ipc_main": "H04L-009/00",
        "Mno": "CD",
        "country_code": "KR",
        "Sno": "CDB",
        "documentId": "kr20237024479a",
        "application_number": "2023-7024479",
        "Ltext": "ICT·SW",
        "keyword": "컴퓨팅/암호/결합/회로/비밀/엘리먼트/기타",
        "document_type": "A"
    }
}

국가중점기술분류 중분류코드: CCC
현재 ZIP 폴더 총 파일 개수: 3641
현재 ZIP 폴더 JSON 파일 개수: 3641
['/jp2000128642a.json', '/jp2015148120b2.json', '/jp2015087944b2.json', '/jp2006536533a.json', '/jp2010283389b2.json']
예시 JSON 파일 내용:
{
    "dataset": {
        "updateDate": "20240207",
        "Stext": "다중 인공지능 공통 플랫폼 기술",
        "Mtext": "빅데이터·인공지능",
        "Lno": "C",
        "ip

In [21]:
# RAW, LABEL 저장하기
total_raw_json_path = os.path.join(dataset_path, "total_raw.json")
total_label_json_path = os.path.join(dataset_path, "total_label.json")

raw_json = json.dumps(raw_dataset_list, indent=4, ensure_ascii=False)
with open(total_raw_json_path, "w", encoding="utf-8") as f:
    f.write(raw_json)
    
label_json = json.dumps(label_dataset_list, indent=4, ensure_ascii=False)
with open(total_label_json_path, "w", encoding="utf-8") as f:
    f.write(label_json)

```
{ 
      // Metadata 용
      "register_year": "등록연도",
      "register_month": "등록월",
      "register_day": "등록일",
      "regitster_number": "등록번호",
      
      "application_year": "출원연도",
      "application_month": "출원월",
      "application_day": "출원일",
      "application_number": "출원번호",
      
      "open_year": "공개연도",
      "open_month": "공개월",
      "open_day": "공개일",
      "open_number": "공개번호",
      
      "ipc_section": "IPC-Section",
      "ipc_class": "IPC-Class",
      "ipc_subclass": "IPC-Subclass",
      "ipc_maingroup": "IPC-MainGroup",

      "large_no": "대분류코드",
      "middle_no": "중분류코드",
      "small_no": "소분류코드",

      "country_code": "국가코드",
      "document_id": "문헌키",
      "document_type": "문헌타입",

      // 임베딩용
      "invention_title": "발명의명칭",
      "inventor_name": "발명자명",
      "applicant_name": "출원인명",
      "claims": "청구항",
      "abstract": "요약",
      "keyword": "명칭, 요약, 청구항에서 추출한 키워드 6개 및 국가전략기술 12대 분야 대분류 1개 (리스트 형태로 저장: /로 split하기)"
    }
```

In [29]:
base_format = {
    "register_year": None,
    "register_month": None,
    "register_day": None,
    "regitster_number": None,
    
    "application_year": None,
    "application_month": None,
    "application_day": None,
    "application_number": None,
    
    "open_year": None,
    "open_month": None,
    "open_day": None,
    "open_number": None,
    
    "ipc_all": None,
    "ipc_section": None,
    "ipc_class": None,
    "ipc_subclass": None,
    "ipc_maingroup": None,

    "large_no": None,
    "middle_no": None,
    "small_no": None,

    "country_code": None,
    "document_id": None,
    "document_type": None,
    
    # embedding을 위한 키값들
    "invention_title": None,
    "inventor_name": None,
    "applicant_name": None,
    "claims": None,
    "abstract": None,
    "keyword": [],

    # 진짜 embedding 할 내용
    "invention_info": None
}

```
"dataset": {
        "application_year": "2023",
        "invention_title": "인공지능에 기반한 최적 광고 추천 시스템",
        "ipc_section": "G",
        "register_date": "20230721",
        "abstract": "일실시예에 따르면, 인공지능에 기반한 최적 광고 추천 시스템에 있어서, 인공지능에 기반한 최적 광고를 추천하는 서버를 포함하는 시스템이 제공된다.",
        "ipc_subclass": "G06Q",
        "applicant_name": "그린브릭스컴퍼니 주식회사",
        "ipc_main": "G06Q-030/02",
        "register_year": "2023",
        "ipc_all": "G06Q-030/02|G06N-003/0442|G06N-003/045|G06N-003/0464|G06N-003/0475|G06N-003/08|G06N-003/094",
        "ipc_class": "G06",
        "claims": "인공지능에 기반한 최적 광고 추천 시스템에 있어서,인공지능에 기반한 광고를 추천하는 서버를 포함하고,상기 서버는,데이터 수집부;데이터 분석부; 및광고 추천부를 포함하고,상기 데이터 수집부는,소정의 검색 포털 사이트 서버를 통해, 상기 검색 포털 사이트의 소정의 광고 위치에 디스플레이된 광고 데이터인 제1 데이터를 주기적으로 수집하되, 상기 제1 데이터는 광고 콘텐츠, 디스플레이 기간, 노출수, CTR(Click Through Rate: 클릭률), CVR(ConVersion Rate: 전환율), CPA(Cost Per Action: 전환당 비용), 및 랜딩 페이지 데이터를 포함하고,상기 데이터 분석부는,상기 제1 데이터의 디스플레이 기간과 노출수 및 CPA(전환당 비용)를 입력 데이터로, 시간대별, 요일별, 월별 예상 노출수 및 시간대별 예상 CPA를 예측하도록 제1 인공지능 모델을 학습시키되, 상기 제1 인공지능 모델은 LSTM(Long Short-Term Memory) 모델 또는 Prophet 모델이고,상기 제1 인공지능 모델이 예측한, 시간대별, 요일별, 월별 예상 노출수 및 상기 시간대별 예상 CPA를 Tableau, Microsoft Power BI, Google Data Studio 중 어느 하나의 도구를 이용하여 시각화하고,CTR(클릭률)이 1% 이상인 제1 데이터의 광고 콘텐츠를 입력 데이터로, 새로운 광고 콘텐츠를 생성하도록 제2 인공지능 모델을 학습시키되, 상기 제2 인공지능 모델은 GAN(Generative Adversarial Network) 모델이고,CVR(전환율)이 5% 이상인 제1 데이터의 랜딩 페이지 데이터를 입력 데이터로, 새로운 랜딩 페이지를 생성하도록 제3 인공지능 모델을 학습시키되, 상기 제3 인공지능 모델은 GAN(Generative Adversarial Network) 모델이고,상기 제1 인공지능 모델 내지 제3 인공지능 모델은,주기적으로 수집되는 제1 데이터에 따라 주기적으로 추가 학습되고,상기 데이터 수집부는,광고주 단말을 통해 입력된, 광고 상품의 랜딩 페이지로 사용될 웹 페이지 주소를 기반으로, 상기 웹 페이지 데이터인 제2 데이터를 수집하고,상기 데이터 분석부는,이미지와 텍스트를 분석하도록 기학습된 제4 인공지능 모델에, 상기 제2 데이터를 입력하여 상기 광고 상품의 정보를 획득하되, 상기 제4 인공지능 모델은, Faster R-CNN 또는 YOLO 모델과, OCR(Optical Character Recognition) 모델, 및 BERT 모델을 포함하는 다중 모달 분석(Multi-modal Analysis) 기술을 이용하고,상기 제2 인공지능 모델에, 상기 광고 상품의 정보를 입력하여 상기 광고 상품의 정보를 기반으로 하는 새로운 광고 콘텐츠를 생성하고,상기 제3 인공지능 모델에, 상기 광고 상품의 정보를 입력하여 상기 광고 상품의 정보를 기반으로 하는 새로운 랜딩 페이지를 생성하고,상기 광고 추천부는,상기 광고주 단말에, 상기 데이터 분석부가 시각화한 시간대별, 요일별, 월별 예상 노출수 및 상기 시간대별 예상 CPA와, 상기 제2 인공지능 모델에서 생성한 상기 광고 상품의 정보를 기반으로 하는 새로운 광고 콘텐츠와, 상기 제3 인공지능 모델에서 생성한 상기 광고 상품의 정보를 기반으로 하는 새로운 랜딩 페이지를 전송하는, 시스템.",
        "application_date": "20230329",
        "register_number": "2559950",
        "documentId": "kr20230041575b1",
        "application_number": "2023-0041575"
    }
```

In [None]:
total_content = []

for raw_dataset in raw_dataset_list:
    raw_data = raw_dataset["dataset"]
    data_id = raw_data["documentId"]
    for label_dataset in label_dataset_list:
        label_data = label_dataset["dataset"]
        # 같은 문서가 아니면 건너뛰기
        if data_id != label_data["documentId"]:
            continue
        
        # 같은 문서일 경우 base 형식으로 만들기
        base_data = base_format.copy()

        if raw_data.get("register_date", None):
            base_data["register_year"] = raw_data["register_date"][:4]
            base_data["register_month"] = raw_data["register_date"][4:6]
            base_data["register_day"] = raw_data["register_date"][6:]
        
        base_data["register_number"] = raw_data.get("register_number", None)

        if raw_data.get("application_date", None):
            base_data["application_year"] = raw_data["application_date"][:4]
            base_data["application_month"] = raw_data["application_date"][4:6]
            base_data["application_day"] = raw_data["application_date"][6:]

        base_data["application_number"] = raw_data.get("application_number", None)

        if raw_data.get("open_date", None):
            base_data["open_year"] = raw_data["open_date"][:4]
            base_data["open_month"] = raw_data["open_date"][4:6]
            base_data["open_day"] = raw_data["open_date"][6:]

        base_data["open_number"] = raw_data.get("open_number", None)
        

        base_data["ipc_all"] = raw_data.get("ipc_all", None)
        if not base_data["ipc_all"]:
            base_data["ipc_section"] = raw_data.get("ipc_section", None)
            base_data["ipc_class"] = raw_data.get("ipc_class", None)
            base_data["ipc_subclass"] = raw_data.get("ipc_subclass", None)
            base_data["ipc_maingroup"] = raw_data.get("ipc_main", None)

        base_data["large_no"] = label_data.get("Lno", None)
        base_data["middle_no"] = label_data.get("Mno", None)
        base_data["small_no"] = label_data.get("Sno", None)

        base_data["country_code"] = label_data.get("country_code", None)
        base_data["document_id"] = raw_data.get("documentId", None)
        base_data["document_type"] = label_data.get("document_type", None)
        
        base_data["invention_title"] = raw_data.get("invention_title", None)
        base_data["inventor_name"] = raw_data.get("inventor_name", None)
        base_data["applicant_name"] = raw_data.get("applicant_name", None)
        base_data["claims"] = raw_data.get("claims", None)
        base_data["abstract"] = raw_data.get("abstract", None)
        base_data["keyword"] = label_data.get("keyword", None).split("/")

        base_data["invention_info"] = \
        f'[발명의 명칭] {base_data["invention_title"]}' + "/n" + f'[발명자명] {base_data["inventor_name"]}' + '/n' + \
        f'[출원인명] {base_data["applicant_name"]}' + '/n' + '[청구항]' + '/n' + f'{base_data["claims"]}' + '/n' + \
        f'[요약] {base_data["abstract"]}' + '/n' + f'[주요 키워드] {", ".join(base_data["keyword"])}'

        base_data = json.load


    total_content.append(base_data)


In [None]:
# json 저장
embedding_data_path = os.path.join(dataset_path, "for_embedding.json")
total_json = json.dumps(total_content, indent=4, ensure_ascii=False)
with open(embedding_data_path, "w", encoding="utf-8") as f:
    f.write(total_json)

In [None]:
# 임베딩용으로 변환하기
from langchain.embeddings import SentenceTransformerEmbeddings

model_name = "dragonkue/BGE-m3-ko"    # 작은 모델(0.6B)
model_kwargs = {"device": "cpu"}
encode_kwargs = {"normalize_embeddings": True}
embedding = SentenceTransformerEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [37]:
total_content[0]

{'register_year': None,
 'register_month': None,
 'register_day': None,
 'regitster_number': None,
 'application_year': '2002',
 'application_month': '03',
 'application_day': '25',
 'application_number': '2002-578212',
 'open_year': None,
 'open_month': None,
 'open_day': None,
 'open_number': None,
 'ipc_all': 'G06N-005/04',
 'ipc_section': None,
 'ipc_class': None,
 'ipc_subclass': None,
 'ipc_maingroup': None,
 'large_no': 'C',
 'middle_no': 'CC',
 'small_no': 'CCC',
 'country_code': 'JP',
 'document_id': 'jp2002578212a',
 'document_type': 'A',
 'invention_title': '인공지능 애플리케이션을 위한 음례를 선택하는 적응형 샘플링 수법',
 'inventor_name': None,
 'applicant_name': '코닌크렉카 필립스 엘렉트로닉스 N 비',
 'claims': '정례 및 음례를 가지는 훈련 세트한 이용을 필요로 하는 인공지능 애플리케이션을 실행하도록 구성된 처리 장치로서,데이터 및/또는 명령을 저장하도록 구성된 적어도 1개의 메모리와,상기 적어도 1개의 메모리를 이용하여, 훈련을 위한 정례 세트를 인식해 유지하는 조작, 및 상기 정례 세트에 따라 훈련을 위한 음례 세트를 선택하는 조작을 실행하도록 구성된 적어도 1개의 프로세서와,를 가지는 처리 장치.정례 및 음례를 가지는 훈련 세트한 이용을 필요로 하는, 콘텐츠를 추천하는 방법으로서,훈련을 위한 정례 세트를 인식해 유지하는 단계와,상기 정례 세트에 따

In [38]:
# 임베딩용 키-값 Document에 저장하기

from langchain_core.documents import Document

documents = []

for content in total_content:
    document = Document(
        page_content=content["invention_info"],
        metadata={
            "document_id": content["document_id"],
            "document_type": content["document_id"],
            "country_code": content["country_code"],
            "large_code": content["large_no"],
            "middle_code": content["middle_no"],
            "small_code": content["small_no"],
            # 출원 관련
            "application_number": content["application_number"],
            "application_year": content["application_year"],
            "application_month": content["application_month"],
            "application_day": content["application_day"],
            # 등록 관련
            "regitster_number": content["regitster_number"],
            "register_year": content["register_year"],
            "register_month": content["register_month"],
            "register_day": content["register_day"],
            # 공개 관련
            "open_number": content["open_number"],
            "open_year": content["open_year"],
            "open_month": content["open_month"],
            "open_day": content["open_day"],
            # ipc 관련
            "ipc_all": content["ipc_all"],
            "ipc_section": content["ipc_section"],
            "ipc_class": content["ipc_class"],
            "ipc_subclass": content["ipc_subclass"],
            "ipc_maingroup": content["ipc_maingroup"] 
        }
    )

    documents.append(document)

print("전체 Docs 개수:", len(documents))

전체 Docs 개수: 22103


- pg vector는 postgre를 사용한다고 해서 sql로 데이터 넣어주기