# json data 변환 작업

## 사전 작업

In [1]:
import os
import uuid
import json
import random

import pandas as pd

In [2]:
file_path = './generated_synthetic_data/QA_total.csv'

# Reading the CSV file into a DataFrame
df = pd.read_csv(file_path)

# Convert the DataFrame to a list of dictionaries (JSON-like format)
json_format = df.to_dict(orient='records')

json_format

[{'Question': 'LPG 사용 가정의 고무호스를 교체하려면 어떤 지원을 받을 수 있나요?',
  'Answer': 'LPG용기 사용가구 시설개선 사업을 통해 LPG 고무호스를 금속배관으로 교체하는 데 필요한 지원을 받으실 수 있습니다.',
  'Documents': 'LPG용기 사용가구 시설개선'},
 {'Question': 'LPG용기를 사용하는데 현재 고무호스로 연결되어 있어요. 어떤 안전한 개선방법이 있을까요?',
  'Answer': 'LPG용기 사용가구 시설개선 제도를 활용하시면 기존의 LPG 고무호스를 안전한 금속배관으로 교체할 수 있는 지원을 받으실 수 있습니다.',
  'Documents': 'LPG용기 사용가구 시설개선'},
 {'Question': '우리 집은 LPG 고무호스를 사용중인데, 이것을 개선할 수 있는 정부 지원이 있나요?',
  'Answer': '네, LPG용기 사용가구 시설개선 제도를 통해 정부 지원을 받아 고무호스를 더 안전한 금속배관으로 바꾸실 수 있습니다.',
  'Documents': 'LPG용기 사용가구 시설개선'},
 {'Question': '프로판 가스를 쓰고 있는 집에 대한 보조금 지원이 있는지 알고 싶어요. 어떤 항목을 개선해주나요?',
  'Answer': 'LPG용기 사용가구 시설개선 지원제도를 통해 LPG가스 고무호스를 금속배관으로 교체하고, 안전장치인 퓨즈콕을 설치하는 비용을 지원받으실 수 있습니다. 이러한 비용 중 약 20만 원이 지원되며, 나머지 5만 원은 자부담입니다.',
  'Documents': 'LPG용기 사용가구 시설개선'},
 {'Question': '가스라인을 좀 더 안전하게 개조하고 싶은데, 정부 지원이 가능한가요?',
  'Answer': '네, 가정에서 사용하시는 LPG 가스 시설에 금속배관 교체와 퓨즈콕 설치를 위한 시공비 중 약 20만 원을 정부에서 지원해드리고 있습니다. 사용자는 5만 원의 자부담만 부담하시면 되어 안전한 가스 사용을 위한 개선이 가능합니다.',
  '

## 데이터 형식 맞추기

문서파일 관련 정보 심어두기  
폴더내의 .md 파일을 모두 불러와서 {"UUID" : uuid, "title" : .md 파일 제목, "content" : .md 파일 내용} 형식으로 mapping

In [3]:
# 폴더 경로 (예시: 'your_folder_path')
folder_path = '../embeddingtest/data/qa_data/'

# 폴더 내의 모든 .md 파일 찾기
md_files = [file for file in os.listdir(folder_path) if file.endswith('.md')]

# 각 파일에 대한 UUID 생성 및 제목과 내용 매핑
uuid_mapping = {}
for file in md_files:
    file_path = os.path.join(folder_path, file)
    with open(file_path, 'r', encoding='utf-8') as md_file:
        content = md_file.read()
        file_uuid = str(uuid.uuid4())
        uuid_mapping[file_uuid] = {'title': file, 'content': content}

# 매핑 결과 출력
count = 0
for uuid, details in uuid_mapping.items():
    count += 1
    if count > 2:
        print("...")
        break
    print('uuid_mapping num:', count)
    print("="*100)
    print(f"UUID: {uuid}, Title: {details['title']}, Content: {details['content'][:100]}")  # 처음 20자만 출력
    print("="*100)
    print()


uuid_mapping num: 1
UUID: 8fbc313b-a230-45b1-9a41-f167170b24d6, Title: 고엽제후유의증수당.md, Content: 고엽제 후유의증 수당

고엽제 후유의증 수당 대상은 월남참전자 및 국내 DMZ 근무자 중 고엽제후유의증 장애 판정을 받은 사람입니다.

고엽제 후유의증 수당 내용은 장애등급에 따라

uuid_mapping num: 2
UUID: b714a6f2-deb3-4004-b274-c425ed2ef176, Title: 근로자생활안정자금융자.md, Content: 근로자 생활안정자금 융자

근로자 생활안정자금 융자의 내용은 다음과 같습니다.
3개월 이상 근로 중인 근로자 또는 특수형태 근로자, 산재보험 가입 기간이 3개월 이상인 1인 자영업

...


In [4]:
print('count (.md) :', len(uuid_mapping))

count (.md) : 464


In [5]:
uuid_mapping

{'8fbc313b-a230-45b1-9a41-f167170b24d6': {'title': '고엽제후유의증수당.md',
  'content': '고엽제 후유의증 수당\n\n고엽제 후유의증 수당 대상은 월남참전자 및 국내 DMZ 근무자 중 고엽제후유의증 장애 판정을 받은 사람입니다.\n\n고엽제 후유의증 수당 내용은 장애등급에 따라 매월 수당을 지급하는 것입니다.\n고도의 경우 111만 9,000원 , 중등도의 경우 82만 5,000원, 경도의 경우 54만 1,000원이 지급됩니다.\n\n고엽제 후유의증 수당 신청방법은 주소지 관할 보훈지(방)청에 신청하시면 됩니다.\n\n고엽제 후유의증 수당 신청문의는 주소지 관할 보훈지(방)청 및 보훈상담센터(1577-0606)로 하시면 됩니다.'},
 'b714a6f2-deb3-4004-b274-c425ed2ef176': {'title': '근로자생활안정자금융자.md',
  'content': '근로자 생활안정자금 융자\n\n근로자 생활안정자금 융자의 내용은 다음과 같습니다.\n3개월 이상 근로 중인 근로자 또는 특수형태 근로자, 산재보험 가입 기간이 3개월 이상인 1인 자영업자(융자 신청일이 속한 달의 직전 달 말일에 고용된 근로자가 없는 사람에 한함)인 경우 의료비, 혼례비, 장례비, 부모요양비, 자녀학자금, 자녀양육비등을 융자 받을 수 있습니다. 단, 비정규직 근로자 소득 요건은 적용되지 않습니다.\n월평균 소득이 중위소득(3인 가구)의 2/3 이하(2023년 기준 296만 원)인 경우 의료비, 혼례비, 장례비, 부모요양비, 자녀학자금, 자녀양육비등을 융자 받을 수 있습니다. 단, 비정규직 근로자 소득 요건은 적용되지 않습니다.\n6개월 이상 근로 중인 근로자, 산재보험에 적용 중인 특수형태 근로자인 경우 임금감소 생계비를 융자 받을 수 있습니다.\n융자 신청일 이전 6개월부터 3개월 전까지의 월평균 소득에 비해 융자 신청일 이전 3개월간 월평균 소득이 30% 이상

기존 json -> 필요한 json 형식으로 변환

In [6]:
### 우리 데이터
# JSON 파일 경로
data = json_format

# 데이터 확인
print(data[:2])

[{'Question': 'LPG 사용 가정의 고무호스를 교체하려면 어떤 지원을 받을 수 있나요?', 'Answer': 'LPG용기 사용가구 시설개선 사업을 통해 LPG 고무호스를 금속배관으로 교체하는 데 필요한 지원을 받으실 수 있습니다.', 'Documents': 'LPG용기 사용가구 시설개선'}, {'Question': 'LPG용기를 사용하는데 현재 고무호스로 연결되어 있어요. 어떤 안전한 개선방법이 있을까요?', 'Answer': 'LPG용기 사용가구 시설개선 제도를 활용하시면 기존의 LPG 고무호스를 안전한 금속배관으로 교체할 수 있는 지원을 받으실 수 있습니다.', 'Documents': 'LPG용기 사용가구 시설개선'}]


In [7]:
# 예제 JSON 데이터 (여기서는 리스트 형식의 JSON 데이터를 가정)
json_data = data

# 데이터를 무작위로 섞기
random.shuffle(json_data)

# 데이터 분할 비율 설정 (예: 80% 훈련, 20% 검증)
train_ratio = 0.8
train_size = int(len(json_data) * train_ratio)

# 훈련 세트와 검증 세트로 분리
train_set = json_data[:train_size]
val_set = json_data[train_size:]

# 결과 확인
print(f"Train set size: {len(train_set)}")
print(f"Validation set size: {len(val_set)}")

Train set size: 7637
Validation set size: 1910


In [8]:
val_set[:3]

[{'Question': '중앙장애아동 및 발달장애인지원센터에서 어떤 도움을 받을 수 있나요?',
  'Answer': '중앙장애아동 및 발달장애인지원센터에서는 발달장애인 가족의 휴식지원 프로그램을 포함하여 다양한 서비스를 제공합니다. 자세한 내용은 전화(02-3433-0743)또는 www.broso.or.kr 웹사이트를 통해 확인하실 수 있습니다.',
  'Documents': '발달장애인 가족휴식 지원'},
 {'Question': '장애인 자립자금은 누가 심사하나요?',
  'Answer': '장애인 자립자금의 최종 대여 여부는 금융기관인 KB국민은행의 여신규정에 따라 결정되므로, 금융기관에서 상담을 받으셔야 합니다.',
  'Documents': '장애인 자립자금 대여'},
 {'Question': '슬레이트 제거 지원을 받으려면 어떤 절차를 거쳐야 하나요?',
  'Answer': '지원을 받기 위해선 가까운 읍면동 주민센터(행정복지센터)를 방문하여 필요한 서류를 준비하고 접수 절차를 밟아야 합니다.',
  'Documents': '슬레이트 처리 지원'}]

In [9]:
## 이후 content에 내용을 매칭하기 위한 함수 미리 정의

import unicodedata
import os

def matching_tilte(item_title):
    """입력에 해당하는 uuid 값을 매칭"""
    # 입력된 제목에 해당하는 UUID 찾기
    for uuid, details in uuid_mapping.items():
        # print(details['title'])
        str1 = unicodedata.normalize('NFC', details['title'])
        str2 = unicodedata.normalize('NFC', item_title+'.md')
        if str1 == str2:
            return (uuid)
    else:
        # print(f"제목 '{item_title}'을 찾을 수 없습니다.")
        return (f"제목 '{item_title}'을 찾을 수 없습니다.")


In [10]:
matching_tilte("만3세이상5세이하누리과정지원")

'152f802d-bc1b-4000-aee2-aa64f7077867'

### train set

In [11]:
import uuid

data = train_set

# 각 딕셔너리에 UUID4 키 추가
for item in data:
    item['uuid'] = str(uuid.uuid4())

# 결과 출력
print(json.dumps(data, ensure_ascii=False, indent=4))

[
    {
        "Question": "각 학기별 보훈장학금 지원 신청 기간에 대해 알고 싶어요.",
        "Answer": "각 학기별로 보훈장학금 신청 기간은 다음과 같습니다: 1학기는 4월 3일부터 5월 1일까지, 그리고 2학기는 9월 1일부터 10월 2일까지입니다.",
        "Documents": "국가보훈대상자 보훈장학금 지급",
        "uuid": "394992d0-2411-4e39-971c-7e7ddadfeede"
    },
    {
        "Question": "취업성공패키지 프로그램의 신청 절차를 알려주세요.",
        "Answer": "신청 절차는 간단합니다. 지역에 위치한 한국장애인고용공단 지역본부나 지사, 또는 직업능력개발원에 문의하여 사전 상담 후 신청하시면 됩니다.",
        "Documents": "장애인 취업성공패키지",
        "uuid": "0321463a-a09c-44c5-8f49-052e5d8719a5"
    },
    {
        "Question": "자활근로사업단에 참가하려면 어떻게 해야 하나요?",
        "Answer": "자활근로사업단에 참가하려면 가까운 지역자활센터를 방문하거나 해당 센터에 문의하여 참가 절차와 자격 요건 등을 확인한 뒤 지원하면 됩니다.",
        "Documents": "자활근로",
        "uuid": "04bccc78-408e-4818-a1e2-3ed37abad76e"
    },
    {
        "Question": "직장 내에서 장애 때문에 어려움을 겪고 있는 사람은 어떤 지원을 요청할 수 있나요?",
        "Answer": "직장에서 장애로 인해 어려움을 겪고 계신 분은 한국장애인고용공단 지역본부나 지사에 근로장애인 전환지원 신청을 하실 수 있습니다.",
        "Documents": "근로장애인 전환지원",
        "uuid": "169f4106-2

In [12]:
item

{'Question': '청년내일채움공제의 혜택을 받으려면 중소기업의 규모에 어떤 제한이 있나요?',
 'Answer': '지원받으려는 중소기업은 5인 이상 50인 미만의 건설 및 제조업 중소기업이어야 합니다.',
 'Documents': '청년내일채움공제',
 'uuid': '4047ac6f-0d06-44cc-b882-cab81c4b49e8'}

In [13]:
import re

# 새로운 데이터 구조 생성
new_data01 = {uuid: details['content'] for uuid, details in uuid_mapping.items()} # 고유한 key값 하고 제도에 대한 내용
new_data02 = {item['uuid']: item['Question'] for item in data} # 건들필요 x
new_data03 = {item['uuid']: [matching_tilte(re.sub(r'[^가-힣A-Z1-9]', '', item['Documents']))] for item in data} # 제도명 불러와서 해당하는 키 값.

# 새로운 JSON 데이터를 문자열로 변환
corpus = json.dumps(new_data01, ensure_ascii=False, indent=4)
queries = json.dumps(new_data02, ensure_ascii=False, indent=4)
relevant_docs = json.dumps(new_data03, ensure_ascii=False, indent=4)

In [14]:
corpus = json.loads(corpus)
queries = json.loads(queries)
relevant_docs = json.loads(relevant_docs)

In [15]:
# import json

# # Assuming json_format is the variable containing your data
# json_data = json.dumps(new_data03, ensure_ascii=False, indent=4)

# # Specify the file path for the new .json file
# json_file_path = 'path_to_your_json_file.json'

# # Write the JSON data to the file
# with open(json_file_path, 'w', encoding='utf-8') as file:
#     file.write(json_data)


In [16]:
relevant_docs

{'122f66de-f4c9-4165-b04a-56845ec1664c': ['79f3bacd-c8c3-44cd-801e-04830756f725'],
 'f7d3ea88-0fd0-4ef1-a163-73afa540d1f6': ['dae74c0d-260b-44fe-acca-6542f0c4a877'],
 '616a6209-d682-4c82-ae15-ad04760a091d': ['d33cdb43-11a7-474b-a459-d3a93596b33e'],
 '24200e6d-083b-4e1c-a0c0-623fd48ff516': ['d8f0d98a-b2b9-4270-b6a5-f0566d9c0e5d'],
 '59b51b20-b1b6-4f00-b14f-fa60f785e215': ['7f95d5a5-c873-403f-b882-4336c8717f1f'],
 '81736245-9638-4a96-8582-fc8083991bb9': ['8f435798-b23a-41a2-aff9-3b0e83240b8c'],
 '9a184407-1c57-400b-9a23-4c9986ac0410': ['0ec02a9d-594e-46f3-b712-17d4c867416f'],
 'a5e1cf97-7750-4bcc-984d-6afa1f33b2c2': ['e57c529d-8f7e-43b1-8716-9e9261719ee8'],
 '67fb9b43-f003-4129-ab7c-9b05ae241d9a': ['e75a4df0-6886-45e8-96fa-31a66bf7e52f'],
 '9671cb01-9726-4592-9fb3-1a54799a2832': ['cc38a8f8-2256-4883-be65-5c54801b8b23'],
 '8df0586c-9d7c-4c35-8542-b583ff07d766': ['b85115eb-77c5-47e1-bb5b-e64b0d4ef0fd'],
 '69c7d20c-5955-4de2-bdde-f82e28c24ebb': ['f0397ff6-cdf9-48b3-baa7-35f7b0a64596'],
 '7a

### val set

In [16]:
import uuid

data = val_set

# 각 딕셔너리에 UUID4 키 추가
for item in data:
    item['uuid'] = str(uuid.uuid4())

# 결과 출력
print(json.dumps(data, ensure_ascii=False, indent=4))


[
    {
        "Question": "중앙장애아동 및 발달장애인지원센터에서 어떤 도움을 받을 수 있나요?",
        "Answer": "중앙장애아동 및 발달장애인지원센터에서는 발달장애인 가족의 휴식지원 프로그램을 포함하여 다양한 서비스를 제공합니다. 자세한 내용은 전화(02-3433-0743)또는 www.broso.or.kr 웹사이트를 통해 확인하실 수 있습니다.",
        "Documents": "발달장애인 가족휴식 지원",
        "uuid": "4565750c-d8d6-4e2e-b798-8d2eb7a7d1f1"
    },
    {
        "Question": "장애인 자립자금은 누가 심사하나요?",
        "Answer": "장애인 자립자금의 최종 대여 여부는 금융기관인 KB국민은행의 여신규정에 따라 결정되므로, 금융기관에서 상담을 받으셔야 합니다.",
        "Documents": "장애인 자립자금 대여",
        "uuid": "03005766-60f2-4c93-b633-78f0c9e2cf51"
    },
    {
        "Question": "슬레이트 제거 지원을 받으려면 어떤 절차를 거쳐야 하나요?",
        "Answer": "지원을 받기 위해선 가까운 읍면동 주민센터(행정복지센터)를 방문하여 필요한 서류를 준비하고 접수 절차를 밟아야 합니다.",
        "Documents": "슬레이트 처리 지원",
        "uuid": "7a108b37-441e-41de-a4a6-a0189b3121b9"
    },
    {
        "Question": "내가 사는 지역에서 당뇨병 환자 지원 프로그램을 어떻게 찾을 수 있을까요?",
        "Answer": "귀하가 거주하는 지역의 당뇨병 환자 지원 프로그램은 귀하의 주소지 관할 보건소에서 상담 및 안내를 받을 수 있으며, 특별히 추가 상담이 필요하다면 보건복지상담센터(129)나 질병관리청 만성

In [17]:
import re

# 새로운 데이터 구조 생성
new_data01 = {uuid: details['content'] for uuid, details in uuid_mapping.items()} # 고유한 key값 하고 제도에 대한 내용
new_data02 = {item['uuid']: item['Question'] for item in data} # 건들필요 x
new_data03 = {item['uuid']: [matching_tilte(re.sub(r'[^가-힣A-Z1-9]', '', item['Documents']))] for item in data} # 제도명 불러와서 해당하는 키 값.

# 새로운 JSON 데이터를 문자열로 변환
val_corpus = json.dumps(new_data01, ensure_ascii=False, indent=4)
val_queries = json.dumps(new_data02, ensure_ascii=False, indent=4)
val_relevant_docs = json.dumps(new_data03, ensure_ascii=False, indent=4)

In [18]:
val_corpus = json.loads(val_corpus)
val_queries = json.loads(val_queries)
val_relevant_docs = json.loads(val_relevant_docs)

In [19]:
# import json

# # Assuming json_format is the variable containing your data
# json_data = json.dumps(new_data03, ensure_ascii=False, indent=4)

# # Specify the file path for the new .json file
# json_file_path = 'path_to_your_json_file.json'

# # Write the JSON data to the file
# with open(json_file_path, 'w', encoding='utf-8') as file:
#     file.write(json_data)


In [20]:
val_relevant_docs

{'4565750c-d8d6-4e2e-b798-8d2eb7a7d1f1': ['8c5d45b0-ab0b-4d33-8494-e6970e56b60f'],
 '03005766-60f2-4c93-b633-78f0c9e2cf51': ['22a19446-3cbc-4c24-8514-2319e6c08a02'],
 '7a108b37-441e-41de-a4a6-a0189b3121b9': ['622c15f1-038d-4783-b422-0255d85c8248'],
 '32934cab-4dd5-4ebe-8407-3451a693f784': ['541d3620-04ec-4aed-b7c3-b1519a7937d8'],
 '8e335bf4-cec3-4d6f-84b7-f62eeeb7c3fe': ['9e0f47c4-67e6-4e40-8b0a-b2b7e7ec3403'],
 '3d704a33-0a6d-4ee8-b945-4fde4be7f39d': ['d8373af4-ce84-4dda-ac8b-f527819f0461'],
 '43736d65-dfe2-49ef-8ca2-6a46c3292c9d': ['f491a786-5d9d-487c-abc2-a3e4d5dc39f8'],
 '9b6670ce-2d90-4433-829f-fad698e27738': ['2b762b73-2b3e-4014-a134-a8c8525d423a'],
 'bc14b7a0-b637-426d-a17d-c4c89c1a56c4': ['7078d8e8-33ed-462d-b6f9-95b852e1dbc9'],
 'f095bd72-2754-4d94-b2e6-ef42dd4a724b': ['c5a159de-a1ff-4a76-ac32-0be87bb3098b'],
 'b687892b-da5d-4fe9-9a8a-3c02d56c3188': ['42514bf7-8afa-4ef5-bb42-faf3b7fd2a1e'],
 '4b42a46a-53a4-4432-9fde-c32b8975e257': ['65fdfe40-2a36-4e87-82a3-98081cd9598b'],
 'e4

### 검증

In [21]:
print("train :", len(corpus), len(queries), len(relevant_docs))
print("test :", len(val_corpus), len(val_queries), len(val_relevant_docs))

train : 464 7637 7637
test : 464 1910 1910


### local에 저장

In [22]:
# JSON 데이터를 로컬 파일로 저장
file_train_corpus = './data/json/train_corpus.json'  # 저장할 파일의 경로
file_train_queries = './data/json/train_queries.json'  
file_train_relevant_docs = './data/json/train_relevant_docs.json' 

file_test_corpus = './data/json/test_corpus.json'
file_test_queries = './data/json/test_queries.json'
file_test_relevant_docs = './data/json/test_relevant_docs.json'


# file_train_corpus
with open(file_train_corpus, 'w', encoding='utf-8') as file:
    json.dump(corpus, file, ensure_ascii=False, indent=4)

# file_train_queries
with open(file_train_queries, 'w', encoding='utf-8') as file:
    json.dump(queries, file, ensure_ascii=False, indent=4)
# file_train_relevant_docs
with open(file_train_relevant_docs, 'w', encoding='utf-8') as file:
    json.dump(relevant_docs, file, ensure_ascii=False, indent=4)


# file_test_corpus
with open(file_test_corpus, 'w', encoding='utf-8') as file:
    json.dump(val_corpus, file, ensure_ascii=False, indent=4)
# file_test_queries
with open(file_test_queries, 'w', encoding='utf-8') as file:
    json.dump(val_queries, file, ensure_ascii=False, indent=4)
# file_test_relevant_docs
with open(file_test_relevant_docs, 'w', encoding='utf-8') as file:
    json.dump(val_relevant_docs, file, ensure_ascii=False, indent=4)
