In [1]:
# 라이브러리 불러오기
import os
import json
import time
from tqdm import tqdm
from glob import glob
from langchain.prompts import PromptTemplate
from langchain_core.output_parsers import JsonOutputParser
from pydantic import BaseModel, Field
from langchain_openai import ChatOpenAI

In [2]:
# 데이터 로딩
import os
import json
from glob import glob

dummy_dir = "/home/NEUL77/AI-Engineer/data/dummy"
jsonl_files = glob(os.path.join(dummy_dir, "*.jsonl"))

docs = []

for file_path in jsonl_files:
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            data = json.loads(line.strip())
            text = data["text"]
            metadata = data.get("metadata", {})
            docs.append({"text": text, "metadata": metadata})

In [3]:
# 출력 데이터 형식 정의
class Topic(BaseModel):
    Question: str = Field(description="지문을 기반으로 생성된 질문")
    Answer: str = Field(description="질문에 대한 답변")

parser = JsonOutputParser(pydantic_object=Topic)

# 한글 Prompt 템플릿 정의
EXAMPLES = """
예시 출력:
[
  {
    "Question": "이 시스템의 유지관리 요구사항은 무엇인가요?",
    "Answer": "시스템의 안정적 운영을 위해 장애 관리, 성능 관리, 변경 관리 등의 요구사항이 포함되어야 하며, 정기적인 모니터링이 필요합니다."
  },
  {
    "Question": "계약 이행 책임자는 어떤 자격이 요구되나요?",
    "Answer": "계약 이행 책임자는 해당 분야의 실무 경력과 자격증을 보유하고 있어야 하며, 프로젝트 전체에 대한 관리 책임을 집니다."
  }
]
"""

prompt_template = """
당신은 정부 정책 및 기술 보고서를 이해하고 질문-답변 데이터를 생성하는 전문가입니다.

아래 문서를 바탕으로 총 {num_dataset}개의 질문-답변 쌍을 생성하세요. 단, 다음 조건을 반드시 지켜야 합니다:

### 지문 이해 기준
- 문서 내용을 정확히 반영해야 하며, 사실과 다른 내용은 포함하지 마세요.
- 질문은 단답형이 아닌 설명형 또는 복합 정보 추출형으로 구성하세요.
- 답변은 문서에 있는 정보만을 바탕으로 논리적으로 정리해 작성하세요.

{examples}

### 출력 형식 (JSON 배열로 출력)
[
  {{
    "Question": "질문 내용",
    "Answer": "답변 내용"
  }},
  ...
]

문서 내용:
-----
{context}
-----

{format_instructions}
"""


# PromptTemplate 생성
prompt = PromptTemplate(
    template=prompt_template,
    input_variables=["context", "num_dataset"],
    partial_variables={
        "examples": EXAMPLES,
        "format_instructions": parser.get_format_instructions()
    },
)


In [4]:
docs

[{'text': '제 안 요 청 서\n사 업 명 2025년 아이돌봄인력 인적성 검사 정보시스템 운영\n주관기관 한국건강가정진흥원\n2024. 12.\n전화번호\n성 명 소 속 e-mail\n(팩스번호)\n담 당\n가족친화사업본부 02-3479-7701\n진용수 ysjin@kihf.or.kr\n돌봄지원부 02-3479-7717\n\n[Table]\n|사 업 명|2025년 아이돌봄인력 인적성 검사 정보시스템 운영|\n|---|---|\n|주관기관|한국건강가정진흥원|\n\n|담 당|성 명|소 속|전화번호\n(팩스번호)|e-mail|\n|---|---|---|---|---|\n||진용수|가족친화사업본부\n돌봄지원부|02-3479-7701\n02-3479-7717|ysjin@kihf.or.kr|',
  'metadata': {'source_id': '한국건강가정진흥원_2025년_아이돌봄인력_인적성_검사_정보시스템_운영',
   'chunk_id': 'chunk-0001'}},
 {'text': '- 목 차 -\nⅠ. 사업 개요\n1. 추진배경··························· 1\n2. 사업개요··························· 1\n3. 사업범위··························· 2\n4. 기대효과··························· 2\nⅡ. 사업 현황\n1. 업무현황··························· 3\n2. 정보화현황·························· 3\nⅢ. 사업 추진방안\n1. 추진목표··························· 5\n2. 추진체계··························· 5\n3. 추진일정··························· 6\n4. 추진방안··························· 6\nⅣ. 제안요청 내용\n1. 목표시스템 구성도·······················7\n2. 사업내용··················

In [5]:
docs[100]

{'text': '(설계보상 대상자 선정공문 등) 제출 필요(증빙서류 미제출시 서류 보완요청\n없이 실적 불인정)\n[금번 입찰시 실적 산정방법]\n1. 금번 입찰에 공동도급으로 참여하는 경우, 평가대상항목 건수/금액/해외 결과\n(점수)를 아래 수식에 따라 합산\n- 유사사업 수행실적 점수 = ITS 현장시스템 구축 계획 점수(70%) + ICT 시스템\n구축 계획 점수(30%)\n* 상기의 수식 및 비율은 공동도급사 간 실제 참여지분율 구성과는 관련 없음\n- 동일 분야에 복수의 기업이 공동으로 참여 또는 참여기업이 복수의 분야에\n수행실적을 제출하는 경우, 참여지분율(동일업종 참여지분율 합을 100%로 합산)을\n고려하여 실적 산정(공동수급 약정서에 참여사별 담당 업무범위 명시 필수)\n- 15 -',
 'metadata': {'source_id': '한국수출입은행__긴급_모잠비크_마푸토_지능형교통시스템_ITS_구축사업',
  'chunk_id': 'chunk-0017'}}

In [6]:
len(docs)

9555

In [9]:
import random
from collections import defaultdict

# QA 최대 생성 수
MAX_QA_PER_SOURCE = 3

# source_id별 문서 모으기
source_id_to_docs = defaultdict(list)
for doc in docs:
    source_id = doc["metadata"].get("source_id", "")
    if source_id:
        source_id_to_docs[source_id].append(doc)

# 모델 및 체인 정의
llm = ChatOpenAI(model="gpt-4o")
chain = prompt | llm | parser

# 저장 경로 
output_path = "/home/NEUL77/AI-Engineer/data/train/qa_dataset_V2.jsonl"

with open(output_path, "a", encoding="utf-8") as f:
    start_time = time.time()
    total_qa = 0

    for i, (source_id, doc_list) in enumerate(tqdm(source_id_to_docs.items(), desc="Generating QA")):
        # 랜덤하게 최대 3개 선택
        sampled_docs = random.sample(doc_list, min(MAX_QA_PER_SOURCE, len(doc_list)))

        for doc in sampled_docs:
            context_text = doc["text"]
            chunk_id = doc["metadata"].get("chunk_id", "")

            print(f"[{total_qa+1}] Generating QA for: {source_id} - {chunk_id}")
            try:
                items = chain.invoke({'num_dataset': 1, 'context': context_text})
                for item in items:
                    item["source_id"] = source_id
                    item["chunk_id"] = chunk_id
                    json_line = json.dumps(item, ensure_ascii=False)
                    f.write(json_line + "\n")
                    total_qa += 1
            except Exception as e:
                print(f"[{source_id}] Error: {e}")

        # 진행 상황 출력
        if i % 10 == 0:
            elapsed = time.time() - start_time
            avg_time = elapsed / (i + 1)
            remaining = len(source_id_to_docs) - (i + 1)
            eta = avg_time * remaining
            print(f"남은 예상 시간: {eta / 60:.2f}분")

print(f"[✔] 총 생성된 QA 수: {total_qa}")
print(f"[✔] QA 데이터셋 저장 완료: {output_path}")

Generating QA:   0%|          | 0/100 [00:00<?, ?it/s]

[1] Generating QA for: 한국건강가정진흥원_2025년_아이돌봄인력_인적성_검사_정보시스템_운영 - chunk-0052
[2] Generating QA for: 한국건강가정진흥원_2025년_아이돌봄인력_인적성_검사_정보시스템_운영 - chunk-0008
[3] Generating QA for: 한국건강가정진흥원_2025년_아이돌봄인력_인적성_검사_정보시스템_운영 - chunk-0025


Generating QA:   1%|          | 1/100 [00:13<22:57, 13.92s/it]

남은 예상 시간: 22.97분
[4] Generating QA for: 한국수출입은행__긴급_모잠비크_마푸토_지능형교통시스템_ITS_구축사업 - chunk-0031
[5] Generating QA for: 한국수출입은행__긴급_모잠비크_마푸토_지능형교통시스템_ITS_구축사업 - chunk-0080
[6] Generating QA for: 한국수출입은행__긴급_모잠비크_마푸토_지능형교통시스템_ITS_구축사업 - chunk-0052


Generating QA:   2%|▏         | 2/100 [00:28<23:21, 14.30s/it]

[7] Generating QA for: 한국전기안전공사_전기안전_관제시스템_보안_모듈_개발_용역 - chunk-0073
[8] Generating QA for: 한국전기안전공사_전기안전_관제시스템_보안_모듈_개발_용역 - chunk-0063
[9] Generating QA for: 한국전기안전공사_전기안전_관제시스템_보안_모듈_개발_용역 - chunk-0007


Generating QA:   3%|▎         | 3/100 [00:46<26:11, 16.21s/it]

[10] Generating QA for: 한국한의학연구원_통합정보시스템_고도화_용역 - chunk-0009
[11] Generating QA for: 한국한의학연구원_통합정보시스템_고도화_용역 - chunk-0062
[12] Generating QA for: 한국한의학연구원_통합정보시스템_고도화_용역 - chunk-0068


Generating QA:   4%|▍         | 4/100 [00:58<23:01, 14.39s/it]

[13] Generating QA for: 한국수자원공사_건설통합시스템_CMS_고도화 - chunk-0056
[14] Generating QA for: 한국수자원공사_건설통합시스템_CMS_고도화 - chunk-0058
[15] Generating QA for: 한국수자원공사_건설통합시스템_CMS_고도화 - chunk-0048


Generating QA:   5%|▌         | 5/100 [01:14<23:34, 14.89s/it]

[16] Generating QA for: 케빈랩_주식회사_평택시_강소형_스마트시티_AI_기반의_영상감시_시스템_ - chunk-0006
[17] Generating QA for: 케빈랩_주식회사_평택시_강소형_스마트시티_AI_기반의_영상감시_시스템_ - chunk-0049
[18] Generating QA for: 케빈랩_주식회사_평택시_강소형_스마트시티_AI_기반의_영상감시_시스템_ - chunk-0033


Generating QA:   6%|▌         | 6/100 [01:26<21:54, 13.99s/it]

[19] Generating QA for: 중앙선거관리위원회_2025년도_행정정보시스템_위탁운영사업 - chunk-0091
[20] Generating QA for: 중앙선거관리위원회_2025년도_행정정보시스템_위탁운영사업 - chunk-0035
[21] Generating QA for: 중앙선거관리위원회_2025년도_행정정보시스템_위탁운영사업 - chunk-0064


Generating QA:   7%|▋         | 7/100 [01:37<20:05, 12.96s/it]

[22] Generating QA for: 대검찰청_아태_사이버범죄_역량강화_허브_APC_HUB_홈페이지_및_온라인_교 - chunk-0031
[23] Generating QA for: 대검찰청_아태_사이버범죄_역량강화_허브_APC_HUB_홈페이지_및_온라인_교 - chunk-0063
[24] Generating QA for: 대검찰청_아태_사이버범죄_역량강화_허브_APC_HUB_홈페이지_및_온라인_교 - chunk-0068


Generating QA:   8%|▊         | 8/100 [01:45<17:16, 11.26s/it]

[25] Generating QA for: _사_부산국제영화제_2024년_BIFF_ACFM_온라인서비스_재개발_및_행사지원시 - chunk-0004
[26] Generating QA for: _사_부산국제영화제_2024년_BIFF_ACFM_온라인서비스_재개발_및_행사지원시 - chunk-0036
[27] Generating QA for: _사_부산국제영화제_2024년_BIFF_ACFM_온라인서비스_재개발_및_행사지원시 - chunk-0028


Generating QA:   9%|▉         | 9/100 [01:58<18:01, 11.89s/it]

[28] Generating QA for: 한국사회보장정보원_라오스_보건의료정보화_협력을_위한_사전타당성_조 - chunk-0067
[29] Generating QA for: 한국사회보장정보원_라오스_보건의료정보화_협력을_위한_사전타당성_조 - chunk-0054
[30] Generating QA for: 한국사회보장정보원_라오스_보건의료정보화_협력을_위한_사전타당성_조 - chunk-0032


Generating QA:  10%|█         | 10/100 [02:07<16:33, 11.04s/it]

[31] Generating QA for: 남서울대학교__혁신_국고_남서울대학교_스마트_정보시스템_활성화_학사 - chunk-0067
[32] Generating QA for: 남서울대학교__혁신_국고_남서울대학교_스마트_정보시스템_활성화_학사 - chunk-0091
[33] Generating QA for: 남서울대학교__혁신_국고_남서울대학교_스마트_정보시스템_활성화_학사 - chunk-0002


Generating QA:  11%|█         | 11/100 [02:17<15:45, 10.63s/it]

남은 예상 시간: 18.49분
[34] Generating QA for: 재단법인스포츠윤리센터_스포츠윤리센터_LMS_학습지원시스템_기능개선 - chunk-0087
[35] Generating QA for: 재단법인스포츠윤리센터_스포츠윤리센터_LMS_학습지원시스템_기능개선 - chunk-0018
[36] Generating QA for: 재단법인스포츠윤리센터_스포츠윤리센터_LMS_학습지원시스템_기능개선 - chunk-0075


Generating QA:  12%|█▏        | 12/100 [02:30<16:53, 11.52s/it]

[37] Generating QA for: 재단법인_광주광역시_광주문화재단_2024년_광주문화예술통합플랫폼_시스 - chunk-0071
[38] Generating QA for: 재단법인_광주광역시_광주문화재단_2024년_광주문화예술통합플랫폼_시스 - chunk-0009
[39] Generating QA for: 재단법인_광주광역시_광주문화재단_2024년_광주문화예술통합플랫폼_시스 - chunk-0002


Generating QA:  13%|█▎        | 13/100 [02:42<16:41, 11.51s/it]

[40] Generating QA for: 한국산업인력공단_RFID기반_국가자격_시험_결과물_스마트_관리시스템_도 - chunk-0021
[41] Generating QA for: 한국산업인력공단_RFID기반_국가자격_시험_결과물_스마트_관리시스템_도 - chunk-0036
[42] Generating QA for: 한국산업인력공단_RFID기반_국가자격_시험_결과물_스마트_관리시스템_도 - chunk-0043


Generating QA:  14%|█▍        | 14/100 [02:51<15:42, 10.96s/it]

[43] Generating QA for: 국방과학연구소_대용량_자료전송시스템_고도화 - chunk-0062
[44] Generating QA for: 국방과학연구소_대용량_자료전송시스템_고도화 - chunk-0083
[45] Generating QA for: 국방과학연구소_대용량_자료전송시스템_고도화 - chunk-0080


Generating QA:  15%|█▌        | 15/100 [03:00<14:28, 10.22s/it]

[46] Generating QA for: 한국산업단지공단_산단_안전정보시스템_1차_구축_용역 - chunk-0062
[47] Generating QA for: 한국산업단지공단_산단_안전정보시스템_1차_구축_용역 - chunk-0060
[48] Generating QA for: 한국산업단지공단_산단_안전정보시스템_1차_구축_용역 - chunk-0103


Generating QA:  16%|█▌        | 16/100 [03:13<15:20, 10.96s/it]

[49] Generating QA for: 한국농어촌공사_네팔_수자원관리_정보화사업_Pilot_시스템_구축용역 - chunk-0015
[50] Generating QA for: 한국농어촌공사_네팔_수자원관리_정보화사업_Pilot_시스템_구축용역 - chunk-0071
[51] Generating QA for: 한국농어촌공사_네팔_수자원관리_정보화사업_Pilot_시스템_구축용역 - chunk-0020


Generating QA:  17%|█▋        | 17/100 [03:24<15:09, 10.95s/it]

[52] Generating QA for: 한국원자력연구원_한국원자력연구원_선량평가시스템_고도화 - chunk-0019
[53] Generating QA for: 한국원자력연구원_한국원자력연구원_선량평가시스템_고도화 - chunk-0021
[54] Generating QA for: 한국원자력연구원_한국원자력연구원_선량평가시스템_고도화 - chunk-0043


Generating QA:  18%|█▊        | 18/100 [03:37<16:02, 11.74s/it]

[55] Generating QA for: KOICA_전자조달__긴급_지문_국제_우즈베키스탄_열린_의정활동_상하원_ - chunk-0014
[56] Generating QA for: KOICA_전자조달__긴급_지문_국제_우즈베키스탄_열린_의정활동_상하원_ - chunk-0078
[57] Generating QA for: KOICA_전자조달__긴급_지문_국제_우즈베키스탄_열린_의정활동_상하원_ - chunk-0119


Generating QA:  19%|█▉        | 19/100 [03:58<19:35, 14.51s/it]

[58] Generating QA for: _사_벤처기업협회_2024년_벤처확인종합관리시스템_기능_고도화_용역사업_ - chunk-0073
[59] Generating QA for: _사_벤처기업협회_2024년_벤처확인종합관리시스템_기능_고도화_용역사업_ - chunk-0034
[60] Generating QA for: _사_벤처기업협회_2024년_벤처확인종합관리시스템_기능_고도화_용역사업_ - chunk-0052


Generating QA:  20%|██        | 20/100 [04:09<18:02, 13.53s/it]

[61] Generating QA for: 재단법인_한국장애인문화예술원_2024년_장애인문화예술정보시스템_이음 - chunk-0007
[62] Generating QA for: 재단법인_한국장애인문화예술원_2024년_장애인문화예술정보시스템_이음 - chunk-0065
[63] Generating QA for: 재단법인_한국장애인문화예술원_2024년_장애인문화예술정보시스템_이음 - chunk-0052


Generating QA:  21%|██        | 21/100 [04:30<20:48, 15.80s/it]

남은 예상 시간: 16.98분
[64] Generating QA for: 수협중앙회_수협중앙회_수산물사이버직매장_시스템_재구축_ISMP_수립_입 - chunk-0083
[65] Generating QA for: 수협중앙회_수협중앙회_수산물사이버직매장_시스템_재구축_ISMP_수립_입 - chunk-0001
[66] Generating QA for: 수협중앙회_수협중앙회_수산물사이버직매장_시스템_재구축_ISMP_수립_입 - chunk-0007


Generating QA:  22%|██▏       | 22/100 [04:40<17:59, 13.83s/it]

[67] Generating QA for: 광주과학기술원_실시간통합연구비관리시스템_RCMS_연계_모듈_변경_사업 - chunk-0047
[68] Generating QA for: 광주과학기술원_실시간통합연구비관리시스템_RCMS_연계_모듈_변경_사업 - chunk-0053
[69] Generating QA for: 광주과학기술원_실시간통합연구비관리시스템_RCMS_연계_모듈_변경_사업 - chunk-0021


Generating QA:  23%|██▎       | 23/100 [04:51<16:54, 13.17s/it]

[70] Generating QA for: 고려대학교_차세대_포털_학사_정보시스템_구축사업 - chunk-0270
[71] Generating QA for: 고려대학교_차세대_포털_학사_정보시스템_구축사업 - chunk-0261
[72] Generating QA for: 고려대학교_차세대_포털_학사_정보시스템_구축사업 - chunk-0247


Generating QA:  24%|██▍       | 24/100 [05:02<15:41, 12.39s/it]

[73] Generating QA for: BioIN_의료기기산업_종합정보시스템_정보관리기관_기능개선_사업_2차_ - chunk-0072
[74] Generating QA for: BioIN_의료기기산업_종합정보시스템_정보관리기관_기능개선_사업_2차_ - chunk-0038
[75] Generating QA for: BioIN_의료기기산업_종합정보시스템_정보관리기관_기능개선_사업_2차_ - chunk-0084


Generating QA:  25%|██▌       | 25/100 [05:15<15:56, 12.75s/it]

[76] Generating QA for: 경기도_평택시_2024년도_평택시_버스정보시스템_BIS_구축사업 - chunk-0020
[77] Generating QA for: 경기도_평택시_2024년도_평택시_버스정보시스템_BIS_구축사업 - chunk-0046
[78] Generating QA for: 경기도_평택시_2024년도_평택시_버스정보시스템_BIS_구축사업 - chunk-0077


Generating QA:  26%|██▌       | 26/100 [05:30<16:28, 13.36s/it]

[79] Generating QA for: 한국가스공사__재공고_차세대_통합정보시스템_ERP_구축 - chunk-0031
[80] Generating QA for: 한국가스공사__재공고_차세대_통합정보시스템_ERP_구축 - chunk-0041
[81] Generating QA for: 한국가스공사__재공고_차세대_통합정보시스템_ERP_구축 - chunk-0060


Generating QA:  27%|██▋       | 27/100 [05:46<17:10, 14.11s/it]

[82] Generating QA for: 한국수자원조사기술원_수문자료정보관리시스템_HDIMS_재구축_용역_3단계 - chunk-0060
[83] Generating QA for: 한국수자원조사기술원_수문자료정보관리시스템_HDIMS_재구축_용역_3단계 - chunk-0027
[84] Generating QA for: 한국수자원조사기술원_수문자료정보관리시스템_HDIMS_재구축_용역_3단계 - chunk-0034


Generating QA:  28%|██▊       | 28/100 [06:01<17:03, 14.22s/it]

[85] Generating QA for: 한국연구재단_2024년_대학산학협력활동_실태조사_시스템_UICC_기능개선 - chunk-0090
[86] Generating QA for: 한국연구재단_2024년_대학산학협력활동_실태조사_시스템_UICC_기능개선 - chunk-0015
[87] Generating QA for: 한국연구재단_2024년_대학산학협력활동_실태조사_시스템_UICC_기능개선 - chunk-0061


Generating QA:  29%|██▉       | 29/100 [06:14<16:41, 14.10s/it]

[88] Generating QA for: 국가과학기술지식정보서비스_통합정보시스템_고도화_용역 - chunk-0014
[89] Generating QA for: 국가과학기술지식정보서비스_통합정보시스템_고도화_용역 - chunk-0012
[90] Generating QA for: 국가과학기술지식정보서비스_통합정보시스템_고도화_용역 - chunk-0083


Generating QA:  30%|███       | 30/100 [06:24<15:02, 12.90s/it]

[91] Generating QA for: 한국발명진흥회_입찰공고_2024년_건설기술에_관한_특허_실용신안_활용실 - chunk-0066
[92] Generating QA for: 한국발명진흥회_입찰공고_2024년_건설기술에_관한_특허_실용신안_활용실 - chunk-0084
[93] Generating QA for: 한국발명진흥회_입찰공고_2024년_건설기술에_관한_특허_실용신안_활용실 - chunk-0047


Generating QA:  31%|███       | 31/100 [06:37<14:46, 12.85s/it]

남은 예상 시간: 14.75분
[94] Generating QA for: _재_예술경영지원센터_통합_정보시스템_구축_사전_컨설팅 - chunk-0017
[95] Generating QA for: _재_예술경영지원센터_통합_정보시스템_구축_사전_컨설팅 - chunk-0036
[96] Generating QA for: _재_예술경영지원센터_통합_정보시스템_구축_사전_컨설팅 - chunk-0005


Generating QA:  32%|███▏      | 32/100 [06:50<14:30, 12.81s/it]

[97] Generating QA for: 대한적십자사_의료원_적십자병원_병원정보_재해복구시스템_구축_용역_ - chunk-0060
[98] Generating QA for: 대한적십자사_의료원_적십자병원_병원정보_재해복구시스템_구축_용역_ - chunk-0040
[99] Generating QA for: 대한적십자사_의료원_적십자병원_병원정보_재해복구시스템_구축_용역_ - chunk-0019


Generating QA:  33%|███▎      | 33/100 [07:02<14:12, 12.72s/it]

[100] Generating QA for: 인천광역시_동구_수도국산달동네박물관_전시해설_시스템_구축_협상에_ - chunk-0065
[101] Generating QA for: 인천광역시_동구_수도국산달동네박물관_전시해설_시스템_구축_협상에_ - chunk-0092
[102] Generating QA for: 인천광역시_동구_수도국산달동네박물관_전시해설_시스템_구축_협상에_ - chunk-0058


Generating QA:  34%|███▍      | 34/100 [07:12<12:56, 11.76s/it]

[103] Generating QA for: 경기도사회서비스원_2024년_통합사회정보시스템_운영지원 - chunk-0095
[104] Generating QA for: 경기도사회서비스원_2024년_통합사회정보시스템_운영지원 - chunk-0013
[105] Generating QA for: 경기도사회서비스원_2024년_통합사회정보시스템_운영지원 - chunk-0009


Generating QA:  35%|███▌      | 35/100 [07:30<14:48, 13.67s/it]

[106] Generating QA for: 인천공항운영서비스_주__인천공항운영서비스_차세대_ERP시스템_구축_ - chunk-0013
[107] Generating QA for: 인천공항운영서비스_주__인천공항운영서비스_차세대_ERP시스템_구축_ - chunk-0019
[108] Generating QA for: 인천공항운영서비스_주__인천공항운영서비스_차세대_ERP시스템_구축_ - chunk-0062


Generating QA:  36%|███▌      | 36/100 [07:43<14:15, 13.37s/it]

[109] Generating QA for: 한국생산기술연구원_2세대_전자조달시스템_기반구축사업 - chunk-0033
[110] Generating QA for: 한국생산기술연구원_2세대_전자조달시스템_기반구축사업 - chunk-0022
[111] Generating QA for: 한국생산기술연구원_2세대_전자조달시스템_기반구축사업 - chunk-0030


Generating QA:  37%|███▋      | 37/100 [07:57<14:15, 13.57s/it]

[112] Generating QA for: 경상북도_봉화군_봉화군_재난통합관리시스템_고도화_사업_협상_긴급_ - chunk-0056
[113] Generating QA for: 경상북도_봉화군_봉화군_재난통합관리시스템_고도화_사업_협상_긴급_ - chunk-0050
[114] Generating QA for: 경상북도_봉화군_봉화군_재난통합관리시스템_고도화_사업_협상_긴급_ - chunk-0010


Generating QA:  38%|███▊      | 38/100 [08:10<13:48, 13.37s/it]

[115] Generating QA for: 한국철도공사_용역___재공고_긴급_협상형_운행정보기록_자동분석시스 - chunk-0020
[116] Generating QA for: 한국철도공사_용역___재공고_긴급_협상형_운행정보기록_자동분석시스 - chunk-0013
[117] Generating QA for: 한국철도공사_용역___재공고_긴급_협상형_운행정보기록_자동분석시스 - chunk-0031


Generating QA:  39%|███▉      | 39/100 [08:23<13:32, 13.32s/it]

[118] Generating QA for: 경기도_안양시_호계체육관_배드민턴장_및_탁구장_예약시스템_구축_용역 - chunk-0040
[119] Generating QA for: 경기도_안양시_호계체육관_배드민턴장_및_탁구장_예약시스템_구축_용역 - chunk-0060
[120] Generating QA for: 경기도_안양시_호계체육관_배드민턴장_및_탁구장_예약시스템_구축_용역 - chunk-0005


Generating QA:  40%|████      | 40/100 [08:29<11:10, 11.17s/it]

[121] Generating QA for: 한국어촌어항공단_한국어촌어항공단_경영관리시스템_ERP_GW_기능_고도 - chunk-0061
[122] Generating QA for: 한국어촌어항공단_한국어촌어항공단_경영관리시스템_ERP_GW_기능_고도 - chunk-0093
[123] Generating QA for: 한국어촌어항공단_한국어촌어항공단_경영관리시스템_ERP_GW_기능_고도 - chunk-0021


Generating QA:  41%|████      | 41/100 [08:37<10:07, 10.30s/it]

남은 예상 시간: 12.42분
[124] Generating QA for: 부산관광공사_경영정보시스템_기능개선 - chunk-0078
[125] Generating QA for: 부산관광공사_경영정보시스템_기능개선 - chunk-0052
[126] Generating QA for: 부산관광공사_경영정보시스템_기능개선 - chunk-0026


Generating QA:  42%|████▏     | 42/100 [08:47<09:45, 10.09s/it]

[127] Generating QA for: 축산물품질평가원_꿀_품질평가_전산시스템_기능개선_사업 - chunk-0052
[128] Generating QA for: 축산물품질평가원_꿀_품질평가_전산시스템_기능개선_사업 - chunk-0012
[129] Generating QA for: 축산물품질평가원_꿀_품질평가_전산시스템_기능개선_사업 - chunk-0037


Generating QA:  43%|████▎     | 43/100 [08:54<08:47,  9.25s/it]

[130] Generating QA for: 서울특별시교육청_서울특별시교육청_지능정보화전략계획_ISP_수립_2차_ - chunk-0011
[131] Generating QA for: 서울특별시교육청_서울특별시교육청_지능정보화전략계획_ISP_수립_2차_ - chunk-0004
[132] Generating QA for: 서울특별시교육청_서울특별시교육청_지능정보화전략계획_ISP_수립_2차_ - chunk-0024


Generating QA:  44%|████▍     | 44/100 [09:03<08:24,  9.02s/it]

[133] Generating QA for: 서민금융진흥원_서민금융진흥원_서민금융_채팅_상담시스템_구축 - chunk-0002
[134] Generating QA for: 서민금융진흥원_서민금융진흥원_서민금융_채팅_상담시스템_구축 - chunk-0003
[135] Generating QA for: 서민금융진흥원_서민금융진흥원_서민금융_채팅_상담시스템_구축 - chunk-0063


Generating QA:  45%|████▌     | 45/100 [09:14<08:49,  9.63s/it]

[136] Generating QA for: 문화체육관광부_국립민속박물관_2024년_국립민속박물관_민속아카이브_자 - chunk-0048
[137] Generating QA for: 문화체육관광부_국립민속박물관_2024년_국립민속박물관_민속아카이브_자 - chunk-0014
[138] Generating QA for: 문화체육관광부_국립민속박물관_2024년_국립민속박물관_민속아카이브_자 - chunk-0076


Generating QA:  46%|████▌     | 46/100 [09:25<08:58,  9.98s/it]

[139] Generating QA for: 한국사학진흥재단_대학재정정보시스템_기본재산_및_기채_사후관리_고 - chunk-0014
[140] Generating QA for: 한국사학진흥재단_대학재정정보시스템_기본재산_및_기채_사후관리_고 - chunk-0039
[141] Generating QA for: 한국사학진흥재단_대학재정정보시스템_기본재산_및_기채_사후관리_고 - chunk-0118


Generating QA:  47%|████▋     | 47/100 [09:36<09:05, 10.28s/it]

[142] Generating QA for: 한국보건산업진흥원_의료기기산업_종합정보시스템_정보관리기관_기능 - chunk-0077
[143] Generating QA for: 한국보건산업진흥원_의료기기산업_종합정보시스템_정보관리기관_기능 - chunk-0001
[144] Generating QA for: 한국보건산업진흥원_의료기기산업_종합정보시스템_정보관리기관_기능 - chunk-0037


Generating QA:  48%|████▊     | 48/100 [09:49<09:42, 11.21s/it]

[145] Generating QA for: 국방과학연구소_기록관리시스템_통합_활용_및_보안_환경_구축 - chunk-0035
[146] Generating QA for: 국방과학연구소_기록관리시스템_통합_활용_및_보안_환경_구축 - chunk-0062
[147] Generating QA for: 국방과학연구소_기록관리시스템_통합_활용_및_보안_환경_구축 - chunk-0028


Generating QA:  49%|████▉     | 49/100 [10:09<11:53, 13.99s/it]

[148] Generating QA for: 국립인천해양박물관_국립인천해양박물관_해양자료관리시스템_구축_용 - chunk-0025
[149] Generating QA for: 국립인천해양박물관_국립인천해양박물관_해양자료관리시스템_구축_용 - chunk-0037
[150] Generating QA for: 국립인천해양박물관_국립인천해양박물관_해양자료관리시스템_구축_용 - chunk-0026


Generating QA:  50%|█████     | 50/100 [10:20<10:55, 13.12s/it]

[151] Generating QA for: 전북특별자치도_정읍시_정읍체육트레이닝센터_통합운영관리시스템_구 - chunk-0092
[152] Generating QA for: 전북특별자치도_정읍시_정읍체육트레이닝센터_통합운영관리시스템_구 - chunk-0057
[153] Generating QA for: 전북특별자치도_정읍시_정읍체육트레이닝센터_통합운영관리시스템_구 - chunk-0073


Generating QA:  51%|█████     | 51/100 [10:31<10:07, 12.41s/it]

남은 예상 시간: 10.12분
[154] Generating QA for: 수협중앙회_강릉어선안전조업국_상황관제시스템_구축 - chunk-0060
[155] Generating QA for: 수협중앙회_강릉어선안전조업국_상황관제시스템_구축 - chunk-0007
[156] Generating QA for: 수협중앙회_강릉어선안전조업국_상황관제시스템_구축 - chunk-0062


Generating QA:  52%|█████▏    | 52/100 [10:40<09:00, 11.26s/it]

[157] Generating QA for: 대한장애인체육회_2025년_전국장애인체육대회_전산_및_시스템_홈페이지_ - chunk-0057
[158] Generating QA for: 대한장애인체육회_2025년_전국장애인체육대회_전산_및_시스템_홈페이지_ - chunk-0059
[159] Generating QA for: 대한장애인체육회_2025년_전국장애인체육대회_전산_및_시스템_홈페이지_ - chunk-0026


Generating QA:  53%|█████▎    | 53/100 [10:48<08:06, 10.35s/it]

[160] Generating QA for: 사단법인_보험개발원_실손보험_청구_전산화_시스템_구축_사업 - chunk-0016
[161] Generating QA for: 사단법인_보험개발원_실손보험_청구_전산화_시스템_구축_사업 - chunk-0031
[162] Generating QA for: 사단법인_보험개발원_실손보험_청구_전산화_시스템_구축_사업 - chunk-0114


Generating QA:  54%|█████▍    | 54/100 [11:02<08:50, 11.53s/it]

[163] Generating QA for: 재단법인_광주연구원_광주정책연구아카이브_GPA_시스템_개발 - chunk-0008
[164] Generating QA for: 재단법인_광주연구원_광주정책연구아카이브_GPA_시스템_개발 - chunk-0087
[165] Generating QA for: 재단법인_광주연구원_광주정책연구아카이브_GPA_시스템_개발 - chunk-0022


Generating QA:  55%|█████▌    | 55/100 [11:12<08:20, 11.11s/it]

[166] Generating QA for: 국민연금공단_2024년_이러닝시스템_운영_용역 - chunk-0038
[167] Generating QA for: 국민연금공단_2024년_이러닝시스템_운영_용역 - chunk-0026
[168] Generating QA for: 국민연금공단_2024년_이러닝시스템_운영_용역 - chunk-0027


Generating QA:  56%|█████▌    | 56/100 [11:30<09:39, 13.16s/it]

[169] Generating QA for: 서울특별시_2024년_지도정보_플랫폼_및_전문활용_연계_시스템_고도화_용 - chunk-0148
[170] Generating QA for: 서울특별시_2024년_지도정보_플랫폼_및_전문활용_연계_시스템_고도화_용 - chunk-0008
[171] Generating QA for: 서울특별시_2024년_지도정보_플랫폼_및_전문활용_연계_시스템_고도화_용 - chunk-0052


Generating QA:  57%|█████▋    | 57/100 [11:48<10:18, 14.39s/it]

[172] Generating QA for: 한국수자원공사_용인_첨단_시스템반도체_국가산단_용수공급사업_타당성 - chunk-0017
[173] Generating QA for: 한국수자원공사_용인_첨단_시스템반도체_국가산단_용수공급사업_타당성 - chunk-0010
[174] Generating QA for: 한국수자원공사_용인_첨단_시스템반도체_국가산단_용수공급사업_타당성 - chunk-0044


Generating QA:  58%|█████▊    | 58/100 [12:02<10:03, 14.38s/it]

[175] Generating QA for: 대전대학교_대전대학교_2024학년도_다층적_융합_학습경험_플랫폼_MILE_전 - chunk-0061
[176] Generating QA for: 대전대학교_대전대학교_2024학년도_다층적_융합_학습경험_플랫폼_MILE_전 - chunk-0069
[177] Generating QA for: 대전대학교_대전대학교_2024학년도_다층적_융합_학습경험_플랫폼_MILE_전 - chunk-0044


Generating QA:  59%|█████▉    | 59/100 [12:14<09:18, 13.61s/it]

[178] Generating QA for: 한영대학_한영대학교_특성화_맞춤형_교육환경_구축_트랙운영_학사정보 - chunk-0003
[179] Generating QA for: 한영대학_한영대학교_특성화_맞춤형_교육환경_구축_트랙운영_학사정보 - chunk-0043
[180] Generating QA for: 한영대학_한영대학교_특성화_맞춤형_교육환경_구축_트랙운영_학사정보 - chunk-0051


Generating QA:  60%|██████    | 60/100 [12:28<09:07, 13.69s/it]

[181] Generating QA for: 서영대학교_산학협력단_전문대학_혁신지원사업_서영대학교_차세대_교육 - chunk-0066
[182] Generating QA for: 서영대학교_산학협력단_전문대학_혁신지원사업_서영대학교_차세대_교육 - chunk-0078
[183] Generating QA for: 서영대학교_산학협력단_전문대학_혁신지원사업_서영대학교_차세대_교육 - chunk-0072


Generating QA:  61%|██████    | 61/100 [12:50<10:35, 16.30s/it]

남은 예상 시간: 8.21분
[184] Generating QA for: 인천광역시_도시계획위원회_통합관리시스템_구축용역 - chunk-0038
[185] Generating QA for: 인천광역시_도시계획위원회_통합관리시스템_구축용역 - chunk-0009
[186] Generating QA for: 인천광역시_도시계획위원회_통합관리시스템_구축용역 - chunk-0045


Generating QA:  62%|██████▏   | 62/100 [13:04<09:57, 15.73s/it]

[187] Generating QA for: 한국농어촌공사_아세안_3_식량안보정보시스템_AFSIS_3단계_협력_캄보디아 - chunk-0049
[188] Generating QA for: 한국농어촌공사_아세안_3_식량안보정보시스템_AFSIS_3단계_협력_캄보디아 - chunk-0021
[189] Generating QA for: 한국농어촌공사_아세안_3_식량안보정보시스템_AFSIS_3단계_협력_캄보디아 - chunk-0127


Generating QA:  63%|██████▎   | 63/100 [13:24<10:26, 16.92s/it]

[190] Generating QA for: 국민연금공단_사업장_사회보험료_지원_고시_개정에_따른_정보시스템_보 - chunk-0016
[191] Generating QA for: 국민연금공단_사업장_사회보험료_지원_고시_개정에_따른_정보시스템_보 - chunk-0028
[192] Generating QA for: 국민연금공단_사업장_사회보험료_지원_고시_개정에_따른_정보시스템_보 - chunk-0054


Generating QA:  64%|██████▍   | 64/100 [13:35<09:06, 15.19s/it]

[193] Generating QA for: 국가철도공단_철도인프라_디지털트윈_정보화전략계획_ISP_수립_용역_변 - chunk-0080
[194] Generating QA for: 국가철도공단_철도인프라_디지털트윈_정보화전략계획_ISP_수립_용역_변 - chunk-0050
[195] Generating QA for: 국가철도공단_철도인프라_디지털트윈_정보화전략계획_ISP_수립_용역_변 - chunk-0008


Generating QA:  65%|██████▌   | 65/100 [13:48<08:21, 14.33s/it]

[196] Generating QA for: _사_한국대학스포츠협의회_KUSF_체육특기자_경기기록_관리시스템_개발 - chunk-0038
[197] Generating QA for: _사_한국대학스포츠협의회_KUSF_체육특기자_경기기록_관리시스템_개발 - chunk-0004
[198] Generating QA for: _사_한국대학스포츠협의회_KUSF_체육특기자_경기기록_관리시스템_개발 - chunk-0050


Generating QA:  66%|██████▌   | 66/100 [13:59<07:32, 13.30s/it]

[199] Generating QA for: 그랜드코리아레저_주__2024년도_GKL_그룹웨어_시스템_구축_용역 - chunk-0095
[200] Generating QA for: 그랜드코리아레저_주__2024년도_GKL_그룹웨어_시스템_구축_용역 - chunk-0039
[201] Generating QA for: 그랜드코리아레저_주__2024년도_GKL_그룹웨어_시스템_구축_용역 - chunk-0002


Generating QA:  67%|██████▋   | 67/100 [14:08<06:44, 12.25s/it]

[202] Generating QA for: 한국생산기술연구원_EIP3_0_고압가스_안전관리_시스템_구축_용역 - chunk-0080
[203] Generating QA for: 한국생산기술연구원_EIP3_0_고압가스_안전관리_시스템_구축_용역 - chunk-0085
[204] Generating QA for: 한국생산기술연구원_EIP3_0_고압가스_안전관리_시스템_구축_용역 - chunk-0086


Generating QA:  68%|██████▊   | 68/100 [14:18<06:09, 11.55s/it]

[205] Generating QA for: 재단법인충북연구원_GIS통계_기반_재난안전데이터_분석ㆍ관리_시스템_구 - chunk-0040
[206] Generating QA for: 재단법인충북연구원_GIS통계_기반_재난안전데이터_분석ㆍ관리_시스템_구 - chunk-0058
[207] Generating QA for: 재단법인충북연구원_GIS통계_기반_재난안전데이터_분석ㆍ관리_시스템_구 - chunk-0043


Generating QA:  69%|██████▉   | 69/100 [14:30<05:56, 11.49s/it]

[208] Generating QA for: 한국보육진흥원_연차별_자율_품질관리_시스템_기능개선 - chunk-0069
[209] Generating QA for: 한국보육진흥원_연차별_자율_품질관리_시스템_기능개선 - chunk-0001
[210] Generating QA for: 한국보육진흥원_연차별_자율_품질관리_시스템_기능개선 - chunk-0054


Generating QA:  70%|███████   | 70/100 [14:45<06:19, 12.66s/it]

[211] Generating QA for: 재단법인경기도일자리재단_2025년_통합접수시스템_운영 - chunk-0136
[212] Generating QA for: 재단법인경기도일자리재단_2025년_통합접수시스템_운영 - chunk-0042
[213] Generating QA for: 재단법인경기도일자리재단_2025년_통합접수시스템_운영 - chunk-0029


Generating QA:  71%|███████   | 71/100 [14:58<06:06, 12.62s/it]

남은 예상 시간: 6.11분
[214] Generating QA for: 한국수자원공사_수도사업장_통합_사고분석솔루션_시범구축_용역 - chunk-0077
[215] Generating QA for: 한국수자원공사_수도사업장_통합_사고분석솔루션_시범구축_용역 - chunk-0063
[216] Generating QA for: 한국수자원공사_수도사업장_통합_사고분석솔루션_시범구축_용역 - chunk-0034


Generating QA:  72%|███████▏  | 72/100 [15:07<05:25, 11.61s/it]

[217] Generating QA for: 나노종합기술원_스마트_팹_서비스_활용체계_구축관련_설비온라인_시스 - chunk-0067
[218] Generating QA for: 나노종합기술원_스마트_팹_서비스_활용체계_구축관련_설비온라인_시스 - chunk-0011
[219] Generating QA for: 나노종합기술원_스마트_팹_서비스_활용체계_구축관련_설비온라인_시스 - chunk-0003


Generating QA:  73%|███████▎  | 73/100 [15:17<05:01, 11.18s/it]

[220] Generating QA for: 광주과학기술원_학사시스템_기능개선_사업 - chunk-0043
[221] Generating QA for: 광주과학기술원_학사시스템_기능개선_사업 - chunk-0050
[222] Generating QA for: 광주과학기술원_학사시스템_기능개선_사업 - chunk-0039


Generating QA:  74%|███████▍  | 74/100 [15:27<04:42, 10.85s/it]

[223] Generating QA for: 기초과학연구원_2025년도_중이온가속기용_극저온시스템_운전_용역 - chunk-0031
[224] Generating QA for: 기초과학연구원_2025년도_중이온가속기용_극저온시스템_운전_용역 - chunk-0018
[225] Generating QA for: 기초과학연구원_2025년도_중이온가속기용_극저온시스템_운전_용역 - chunk-0037


Generating QA:  75%|███████▌  | 75/100 [15:37<04:24, 10.60s/it]

[226] Generating QA for: 사단법인아시아물위원회사무국_우즈벡_키르기즈스탄_기후변화대응_스 - chunk-0029
[227] Generating QA for: 사단법인아시아물위원회사무국_우즈벡_키르기즈스탄_기후변화대응_스 - chunk-0072
[228] Generating QA for: 사단법인아시아물위원회사무국_우즈벡_키르기즈스탄_기후변화대응_스 - chunk-0069


Generating QA:  76%|███████▌  | 76/100 [15:49<04:27, 11.14s/it]

[229] Generating QA for: 인천광역시_인천일자리플랫폼_정보시스템_구축_ISP_수립용역 - chunk-0071
[230] Generating QA for: 인천광역시_인천일자리플랫폼_정보시스템_구축_ISP_수립용역 - chunk-0067
[231] Generating QA for: 인천광역시_인천일자리플랫폼_정보시스템_구축_ISP_수립용역 - chunk-0056


Generating QA:  77%|███████▋  | 77/100 [16:02<04:23, 11.46s/it]

[232] Generating QA for: 한국철도공사_용역__모바일오피스_시스템_고도화_용역_총체_및_1차_ - chunk-0160
[233] Generating QA for: 한국철도공사_용역__모바일오피스_시스템_고도화_용역_총체_및_1차_ - chunk-0102
[234] Generating QA for: 한국철도공사_용역__모바일오피스_시스템_고도화_용역_총체_및_1차_ - chunk-0021


Generating QA:  78%|███████▊  | 78/100 [16:16<04:29, 12.25s/it]

[235] Generating QA for: 한국지식재산보호원_IP_NAVI_해외지식재산센터_사업관리_시스템_기능개 - chunk-0015
[236] Generating QA for: 한국지식재산보호원_IP_NAVI_해외지식재산센터_사업관리_시스템_기능개 - chunk-0049
[237] Generating QA for: 한국지식재산보호원_IP_NAVI_해외지식재산센터_사업관리_시스템_기능개 - chunk-0002


Generating QA:  79%|███████▉  | 79/100 [16:30<04:29, 12.82s/it]

[238] Generating QA for: 축산물품질평가원_축산물이력관리시스템_개선_정보화_사업_ - chunk-0018
[239] Generating QA for: 축산물품질평가원_축산물이력관리시스템_개선_정보화_사업_ - chunk-0024
[240] Generating QA for: 축산물품질평가원_축산물이력관리시스템_개선_정보화_사업_ - chunk-0056


Generating QA:  80%|████████  | 80/100 [16:44<04:23, 13.17s/it]

[241] Generating QA for: 파주도시관광공사_종량제봉투_판매관리_전산시스템_개선사업 - chunk-0028
[242] Generating QA for: 파주도시관광공사_종량제봉투_판매관리_전산시스템_개선사업 - chunk-0002
[243] Generating QA for: 파주도시관광공사_종량제봉투_판매관리_전산시스템_개선사업 - chunk-0086


Generating QA:  81%|████████  | 81/100 [16:57<04:07, 13.03s/it]

남은 예상 시간: 3.98분
[244] Generating QA for: 서울시립대학교__사전공개_학업성취도_다차원_종단분석_통합시스템_1차 - chunk-0021
[245] Generating QA for: 서울시립대학교__사전공개_학업성취도_다차원_종단분석_통합시스템_1차 - chunk-0025
[246] Generating QA for: 서울시립대학교__사전공개_학업성취도_다차원_종단분석_통합시스템_1차 - chunk-0061


Generating QA:  82%|████████▏ | 82/100 [17:08<03:46, 12.56s/it]

[247] Generating QA for: 한국교육과정평가원_국가교육과정정보센터_NCIC_시스템_운영_및_개선 - chunk-0026
[248] Generating QA for: 한국교육과정평가원_국가교육과정정보센터_NCIC_시스템_운영_및_개선 - chunk-0038
[249] Generating QA for: 한국교육과정평가원_국가교육과정정보센터_NCIC_시스템_운영_및_개선 - chunk-0013


Generating QA:  83%|████████▎ | 83/100 [17:18<03:18, 11.66s/it]

[250] Generating QA for: 한국로봇산업진흥원_한국로봇산업진흥원_사업관리시스템_온라인평가_ - chunk-0069
[251] Generating QA for: 한국로봇산업진흥원_한국로봇산업진흥원_사업관리시스템_온라인평가_ - chunk-0077
[252] Generating QA for: 한국로봇산업진흥원_한국로봇산업진흥원_사업관리시스템_온라인평가_ - chunk-0075


Generating QA:  84%|████████▍ | 84/100 [17:27<02:55, 10.98s/it]

[253] Generating QA for: 2025_구미_아시아육상경기선수권대회_조직위원회_2025_구미아시아육상경 - chunk-0055
[254] Generating QA for: 2025_구미_아시아육상경기선수권대회_조직위원회_2025_구미아시아육상경 - chunk-0007
[255] Generating QA for: 2025_구미_아시아육상경기선수권대회_조직위원회_2025_구미아시아육상경 - chunk-0045


Generating QA:  85%|████████▌ | 85/100 [17:42<03:04, 12.33s/it]

[256] Generating QA for: 한국연구재단_2024년_기초학문자료센터_시스템_운영_및_연구성과물_DB구 - chunk-0026
[257] Generating QA for: 한국연구재단_2024년_기초학문자료센터_시스템_운영_및_연구성과물_DB구 - chunk-0041
[258] Generating QA for: 한국연구재단_2024년_기초학문자료센터_시스템_운영_및_연구성과물_DB구 - chunk-0002


Generating QA:  86%|████████▌ | 86/100 [17:51<02:35, 11.14s/it]

[259] Generating QA for: 서울특별시_여성가족재단__재공고_협상_서울_디지털성범죄_안심지원센 - chunk-0004
[260] Generating QA for: 서울특별시_여성가족재단__재공고_협상_서울_디지털성범죄_안심지원센 - chunk-0023
[261] Generating QA for: 서울특별시_여성가족재단__재공고_협상_서울_디지털성범죄_안심지원센 - chunk-0042


Generating QA:  87%|████████▋ | 87/100 [18:02<02:26, 11.26s/it]

[262] Generating QA for: 을지대학교_을지대학교_비교과시스템_개발 - chunk-0019
[263] Generating QA for: 을지대학교_을지대학교_비교과시스템_개발 - chunk-0097
[264] Generating QA for: 을지대학교_을지대학교_비교과시스템_개발 - chunk-0040


Generating QA:  88%|████████▊ | 88/100 [18:15<02:18, 11.54s/it]

[265] Generating QA for: 한국해양조사협회_2024년_항해용_간행물_품질관리_업무보조_시스템_구축 - chunk-0056
[266] Generating QA for: 한국해양조사협회_2024년_항해용_간행물_품질관리_업무보조_시스템_구축 - chunk-0072
[267] Generating QA for: 한국해양조사협회_2024년_항해용_간행물_품질관리_업무보조_시스템_구축 - chunk-0002


Generating QA:  89%|████████▉ | 89/100 [18:21<01:51, 10.10s/it]

[268] Generating QA for: 울산광역시_2024년_버스정보시스템_확대_구축_및_기능개선_용역 - chunk-0091
[269] Generating QA for: 울산광역시_2024년_버스정보시스템_확대_구축_및_기능개선_용역 - chunk-0060
[270] Generating QA for: 울산광역시_2024년_버스정보시스템_확대_구축_및_기능개선_용역 - chunk-0081


Generating QA:  90%|█████████ | 90/100 [18:29<01:35,  9.51s/it]

[271] Generating QA for: 한국재정정보원_e나라도움_업무시스템_웹_접근성_컨설팅 - chunk-0031
[272] Generating QA for: 한국재정정보원_e나라도움_업무시스템_웹_접근성_컨설팅 - chunk-0019
[273] Generating QA for: 한국재정정보원_e나라도움_업무시스템_웹_접근성_컨설팅 - chunk-0077


Generating QA:  91%|█████████ | 91/100 [18:42<01:34, 10.51s/it]

남은 예상 시간: 1.85분
[274] Generating QA for: 고양도시관리공사_관산근린공원_다목적구장_홈페이지_및_회원_통합운영 - chunk-0035
[275] Generating QA for: 고양도시관리공사_관산근린공원_다목적구장_홈페이지_및_회원_통합운영 - chunk-0005
[276] Generating QA for: 고양도시관리공사_관산근린공원_다목적구장_홈페이지_및_회원_통합운영 - chunk-0017


Generating QA:  92%|█████████▏| 92/100 [18:53<01:24, 10.60s/it]

[277] Generating QA for: 국립중앙의료원__긴급_2024년도_차세대_응급의료_상황관리시스템_구축 - chunk-0035
[278] Generating QA for: 국립중앙의료원__긴급_2024년도_차세대_응급의료_상황관리시스템_구축 - chunk-0007
[279] Generating QA for: 국립중앙의료원__긴급_2024년도_차세대_응급의료_상황관리시스템_구축 - chunk-0039


Generating QA:  93%|█████████▎| 93/100 [19:04<01:14, 10.69s/it]

[280] Generating QA for: 전북대학교_JST_공유대학_원_xAPI기반_LRS시스템_구축 - chunk-0046
[281] Generating QA for: 전북대학교_JST_공유대학_원_xAPI기반_LRS시스템_구축 - chunk-0077
[282] Generating QA for: 전북대학교_JST_공유대학_원_xAPI기반_LRS시스템_구축 - chunk-0057


Generating QA:  94%|█████████▍| 94/100 [19:13<01:01, 10.19s/it]

[283] Generating QA for: 조선대학교__재공고_2024_조선대학교_SW중심대학_사업관리시스템_WeHub_구 - chunk-0030
[284] Generating QA for: 조선대학교__재공고_2024_조선대학교_SW중심대학_사업관리시스템_WeHub_구 - chunk-0052
[285] Generating QA for: 조선대학교__재공고_2024_조선대학교_SW중심대학_사업관리시스템_WeHub_구 - chunk-0021


Generating QA:  95%|█████████▌| 95/100 [19:26<00:54, 10.99s/it]

[286] Generating QA for: 세종테크노파크_세종테크노파크_인사정보_전산시스템_구축_용역_입찰공 - chunk-0023
[287] Generating QA for: 세종테크노파크_세종테크노파크_인사정보_전산시스템_구축_용역_입찰공 - chunk-0086
[288] Generating QA for: 세종테크노파크_세종테크노파크_인사정보_전산시스템_구축_용역_입찰공 - chunk-0011


Generating QA:  96%|█████████▌| 96/100 [19:39<00:46, 11.62s/it]

[289] Generating QA for: 대한상공회의소_기업_재생에너지_지원센터_홈페이지_개편_및_시스템_고 - chunk-0010
[290] Generating QA for: 대한상공회의소_기업_재생에너지_지원센터_홈페이지_개편_및_시스템_고 - chunk-0056
[291] Generating QA for: 대한상공회의소_기업_재생에너지_지원센터_홈페이지_개편_및_시스템_고 - chunk-0025


Generating QA:  97%|█████████▋| 97/100 [19:50<00:34, 11.38s/it]

[292] Generating QA for: 경희대학교__입찰공고_산학협력단_정보시스템_운영_용역업체_선정 - chunk-0031
[293] Generating QA for: 경희대학교__입찰공고_산학협력단_정보시스템_운영_용역업체_선정 - chunk-0013
[294] Generating QA for: 경희대학교__입찰공고_산학협력단_정보시스템_운영_용역업체_선정 - chunk-0003


Generating QA:  98%|█████████▊| 98/100 [20:01<00:22, 11.25s/it]

[295] Generating QA for: 한국철도공사_용역__예약발매시스템_개량_ISMP_용역 - chunk-0092
[296] Generating QA for: 한국철도공사_용역__예약발매시스템_개량_ISMP_용역 - chunk-0038
[297] Generating QA for: 한국철도공사_용역__예약발매시스템_개량_ISMP_용역 - chunk-0009


Generating QA:  99%|█████████▉| 99/100 [20:10<00:10, 10.60s/it]

[298] Generating QA for: 한국농수산식품유통공사_농산물가격안정기금_정부예산회계연계시스템_ - chunk-0075
[299] Generating QA for: 한국농수산식품유통공사_농산물가격안정기금_정부예산회계연계시스템_ - chunk-0060
[300] Generating QA for: 한국농수산식품유통공사_농산물가격안정기금_정부예산회계연계시스템_ - chunk-0014


Generating QA: 100%|██████████| 100/100 [20:23<00:00, 12.23s/it]

[✔] 총 생성된 QA 수: 300
[✔] QA 데이터셋 저장 완료: /home/NEUL77/AI-Engineer/data/train/qa_dataset_V2.jsonl





In [None]:
def build_context_dict(docs):
    context_dict = {}
    for doc in docs:
        source_id = doc["metadata"].get("source_id")
        chunk_id = doc["metadata"].get("chunk_id")
        if source_id and chunk_id:
            context_dict[(source_id, chunk_id)] = doc["text"]
    return context_dict

In [None]:
def convert_to_sft_format(qa_path, context_dict, output_path):
    with open(qa_path, "r", encoding="utf-8") as f_in, \
         open(output_path, "w", encoding="utf-8") as f_out:
        for line in f_in:
            qa = json.loads(line.strip())
            key = (qa["source_id"], qa["chunk_id"])
            context = context_dict.get(key, "")
            sft_item = {
                "input": f"문서 내용:\n{context}\n\n질문:\n{qa['Question']}",
                "output": qa["Answer"]
            }
            f_out.write(json.dumps(sft_item, ensure_ascii=False) + "\n")

In [5]:
# 원본 문서 불러오기
dummy_dir = "/home/NEUL77/AI-Engineer/data/dummy"
jsonl_files = glob(os.path.join(dummy_dir, "*.jsonl"))

docs = []
for file_path in jsonl_files:
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            data = json.loads(line.strip())
            docs.append({
                "text": data["text"],
                "metadata": data.get("metadata", {})
            })

# source_id + chunk_id 기반 context dict 생성
context_dict = build_context_dict(docs)

# QA + context → SFT 포맷 변환
qa_path = "/home/NEUL77/AI-Engineer/data/train/qa_dataset.jsonl"
output_path = "/home/NEUL77/AI-Engineer/data/train/qa_sft_dataset.jsonl"
convert_to_sft_format(qa_path, context_dict, output_path)
