## 데이터 불러오기

In [18]:
import json
from pathlib import Path

# 📁 현재 노트북 위치 기준으로 상대 경로 설정
data_path = Path("data/combined_service_data.json")

# 📄 JSON 로드
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# ✅ 개수 확인
print(f"📦 전체 서비스 개수: {len(data)}개")

📦 전체 서비스 개수: 26573개


In [20]:
import json
from pathlib import Path

# 📁 현재 노트북 위치 기준으로 상대 경로 설정
data_path = Path("data/combined_service_data.json")
data_path2 = Path("data/combined_service_data_merged.json")

# 📄 JSON 로드
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

with open(data_path2, "r", encoding="utf-8") as f:
    data2 = json.load(f)

# ✅ 개수 확인
print(f"📦 전체 서비스 개수: {len(data)}개")
print(f"📦 통합 후 서비스 개수: {len(data2)}개")

📦 전체 서비스 개수: 26573개
📦 통합 후 서비스 개수: 8850개


## 중복 확인
### 서비스명 동일, ID 확인

In [None]:
import json
from collections import defaultdict, Counter
from pathlib import Path

# 경로 설정 및 JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 서비스명 → 서비스ID 리스트로 매핑
name_to_ids = defaultdict(list)
for item in data:
    name = item.get("서비스명")
    sid = item.get("서비스ID")
    name_to_ids[name].append(sid)

# 2. 중복된 서비스명만 추출
duplicates = {name: sids for name, sids in name_to_ids.items() if len(sids) > 1}

# 3. 결과 출력
print(f"❗ 중복된 서비스명 개수: {len(duplicates)}개\n")

for name, sids in list(duplicates.items())[:10]:  # 예시 10개만 출력
    print(f"🔁 서비스명: {name}")
    print("   서비스ID 목록:", sids)
    print()


### 서비스ID 동일 서비스명 확인

In [None]:
import json
from collections import defaultdict, Counter
from pathlib import Path

# 경로 설정 및 JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 서비스ID → 서비스명 리스트로 매핑
id_to_names = defaultdict(list)
for item in data:
    sid = item.get("서비스ID")
    name = item.get("서비스명")
    id_to_names[sid].append(name)

# 2. 중복된 서비스ID만 추출
duplicates = {sid: names for sid, names in id_to_names.items() if len(names) > 1}

# 3. 결과 출력
print(f"❗ 중복된 서비스ID 개수: {len(duplicates)}개\n")

for sid, names in list(duplicates.items())[:10]:  # 예시 10개만 출력
    print(f"🔁 서비스ID: {sid}")
    print("   서비스명 목록:", names)
    print()


### 서비스명 동일한 item 모두 보기

In [None]:
import json
from pathlib import Path

# JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 특정 서비스명으로 필터링
target_name = "석면피해 구제급여 지급"
matching_items = [item for item in data if item.get("서비스명") == target_name]

# 결과 출력
print(f"🔍 '{target_name}' 관련 항목 수: {len(matching_items)}개\n")

for i, item in enumerate(matching_items, 1):
    print(f"📦 항목 {i} (서비스ID: {item.get('서비스ID')})")
    print(json.dumps(item, ensure_ascii=False, indent=2))
    print("="*80)


### 서비스ID 동일한 item 모두 보기

In [None]:
import json
from pathlib import Path

# JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 특정 서비스ID로 필터링
target_id = "148000000001"  # 여기에 원하는 서비스ID 입력
matching_items = [item for item in data if item.get("서비스ID") == target_id]

# 결과 출력
print(f"🔍 서비스ID '{target_id}' 관련 항목 수: {len(matching_items)}개\n")

for i, item in enumerate(matching_items, 1):
    print(f"📦 항목 {i} (서비스명: {item.get('서비스명')})")
    print(json.dumps(item, ensure_ascii=False, indent=2))
    print("="*80)


### 서비스명 동일한 item 비교

In [None]:
import json
from pathlib import Path
from itertools import combinations
import difflib

# 데이터 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# ✅ 비교 대상 서비스명
target_name = "석면피해 구제급여 지급"

# 1. 해당 서비스명으로 필터링
matched_items = [item for item in data if item.get("서비스명") == target_name]
print(f"🔍 '{target_name}' 관련 항목 수: {len(matched_items)}개")

# 2. JSON 문자열로 정렬해서 비교 준비
serialized = [json.dumps(item, sort_keys=True, ensure_ascii=False, indent=2).splitlines() for item in matched_items]

# 3. 모든 쌍 비교
for (i, j) in combinations(range(len(serialized)), 2):
    if serialized[i] != serialized[j]:
        print(f"\n❗ 항목 {i}와 항목 {j}는 서로 다릅니다.")
        diff = difflib.unified_diff(
            serialized[i],
            serialized[j],
            fromfile=f'항목 {i}',
            tofile=f'항목 {j}',
            lineterm=''
        )
        print("\n".join(diff))
    else:
        print(f"✅ 항목 {i}와 항목 {j}는 동일합니다.")


### 서비스ID 동일한 item 비교

In [None]:
import json
from pathlib import Path

# 경로 설정 및 데이터 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 특정 서비스ID로 필터링
target_id = "148000000001"
matched_items = [item for item in data if item.get("서비스ID") == target_id]

print(f"🔍 해당 서비스ID({target_id})로 검색된 항목 수: {len(matched_items)}개")

# 2. 비교: 첫 번째 항목 기준으로 다른 항목들과 비교
base = json.dumps(matched_items[0], sort_keys=True, ensure_ascii=False)

for idx, item in enumerate(matched_items[1:], start=1):
    current = json.dumps(item, sort_keys=True, ensure_ascii=False)

    if base != current:
        print(f"\n❗ 항목 0과 항목 {idx}는 서로 다릅니다.")

        # 글자 단위 비교
        for i, (a, b) in enumerate(zip(base, current)):
            if a != b:
                print(f"  🔹 첫 차이점 at index {i}: '{a}' ≠ '{b}'")
                print(f"  🔎 기준 문자열 일부: {base[i-20:i+20]}")
                print(f"  🔎 비교 문자열 일부: {current[i-20:i+20]}")
                break  # 첫 차이만 확인
    else:
        print(f"✅ 항목 0과 항목 {idx}는 완전히 동일합니다.")


### 모든 경우의 수 비교
🔍 서비스ID & 서비스명 같지만 내용이 다른 경우:   
🔍 서비스ID 같지만 서비스명이 다른 경우:   
🔍 서비스명 같지만 서비스ID가 다른 경우:   

In [None]:
import json
from collections import defaultdict
from pathlib import Path



# dict: 서비스ID -> item 전체
id_to_items = defaultdict(list)
for item in data:
    sid = item.get("서비스ID")
    id_to_items[sid].append(item)

# dict: 서비스명 -> 서비스ID 리스트
name_to_ids = defaultdict(list)
for item in data:
    name_to_ids[item["서비스명"]].append(item["서비스ID"])

# -----------------------------
# 1️⃣ 서비스ID는 같고 서비스명도 같지만 내용이 다른 경우
# -----------------------------
diff_content_same_id = []
for sid, items in id_to_items.items():
    if len(items) > 1:
        base = json.dumps(items[0], sort_keys=True, ensure_ascii=False)
        for other in items[1:]:
            if json.dumps(other, sort_keys=True, ensure_ascii=False) != base:
                diff_content_same_id.append(sid)
                break

print(f"🔍 서비스ID & 서비스명 같지만 내용이 다른 경우: {len(diff_content_same_id)}개")

# -----------------------------
# 2️⃣ 서비스ID는 같은데 서비스명이 다른 경우
# -----------------------------
diff_name_same_id = []
for sid, items in id_to_items.items():
    names = {item.get("서비스명") for item in items}
    if len(names) > 1:
        diff_name_same_id.append((sid, list(names)))

print(f"🔍 서비스ID 같지만 서비스명이 다른 경우: {len(diff_name_same_id)}개")

# -----------------------------
# 3️⃣ 서비스명은 같은데 서비스ID가 다른 경우
# -----------------------------
same_name_diff_id = []
for name, sids in name_to_ids.items():
    if len(set(sids)) > 1:
        same_name_diff_id.append((name, list(set(sids))))

print(f"🔍 서비스명 같지만 서비스ID가 다른 경우: {len(same_name_diff_id)}개")


## ✅ 서비스 통합 기준 및 방식 정리

위에서 서비스ID가 같지만 서비스명이 다른 경우는 존재하지 않았기 때문에 통합은 서비스명을 기준으로 하는 것이 가장 좋아 보임.

| 구분 | 조건 | 처리 방식 | 통합 방식 상세 |
|------|------|------------|----------------|
| 1. 완전 중복 제거 | `서비스명`, `서비스ID`, 내용이 모두 동일 | 하나만 유지, 나머지 제거 | 중복 항목 제거 (내용까지 완전히 동일한 경우) |
| 2. `서비스명`, `서비스ID`는 같지만 세부 내용 다름 | 동일한 서비스로 판단 | 하나로 병합 | - 대표 ID와 이름 그대로 유지<br>- `조건` 필드만 다르면 조건 병합<br>- 다른 필드도 다를 경우, 문자열은 `||`로 병합, dict는 키 단위 병합 |
| 3. 서비스명 동일, 서비스ID 다름 | 동일한 서비스로 판단 | 하나의 항목으로 병합 | - 대표 ID는 첫 번째 항목의 `서비스ID`로 설정<br>- 문자열 필드: 서로 다르면 `||`로 병합<br>- 리스트: 중복 제거 후 병합<br>- `dict` (예: `조건`, `대상연령`): key 기준 병합<br>- 숫자 범위 (`대상연령` 등): min/max로 병합 |

In [None]:
import json                           # JSON 데이터를 다루기 위한 모듈
from collections import defaultdict   # 기본값이 있는 dict 생성용
from pathlib import Path              # 경로 관리를 위한 Path 객체
from copy import deepcopy             # 객체 깊은 복사용 모듈

# JSON 파일을 열고 데이터 로드
with open("data/combined_service_data.json", "r", encoding="utf-8") as f:
    data = json.load(f)              # JSON 파일을 Python 객체로 로드

# 중복 제거를 위한 집합 및 결과 리스트 초기화
seen = set()                         # (서비스ID, 서비스명, 전체내용)을 저장할 set
deduped = []                         # 중복 제거된 결과 저장 리스트

# 완전 동일 항목 제거 (서비스ID, 서비스명, 내용까지 완전히 동일)
for item in data:
    key = (item["서비스ID"], item["서비스명"])                       # 서비스ID와 서비스명을 묶어서 키 생성
    serialized = json.dumps(item, sort_keys=True, ensure_ascii=False) # 항목 전체를 문자열로 변환하여 비교
    if (key, serialized) not in seen:                                # 중복되지 않았다면
        seen.add((key, serialized))                                  # 집합에 추가
        deduped.append(item)                                         # 결과 리스트에 추가

# 서비스명을 기준으로 항목들을 그룹화
name_to_items = defaultdict(list)      # 서비스명을 키로 하는 딕셔너리 생성
for item in deduped:
    name_to_items[item["서비스명"]].append(item)   # 서비스명 기준으로 리스트에 항목 추가

# 여러 개의 항목을 병합하는 함수 정의
def merge_items(items):
    base = deepcopy(items[0])          # 첫 번째 항목을 기준으로 병합 (깊은 복사)
    for other in items[1:]:            # 두 번째 항목부터 반복
        for key, val in other.items(): # 각 키-값에 대해
            if key not in base or base[key] == val: # 값이 동일하거나 없으면 패스
                continue
            if isinstance(val, str) and isinstance(base[key], str): # 문자열 타입일 경우
                parts = set(base[key].split("||")) | set(val.split("||")) # 중복 제거한 집합 생성
                base[key] = "||".join(sorted(parts))              # 다시 || 로 연결
            elif isinstance(val, list) and isinstance(base[key], list): # 리스트일 경우
                base[key] = list(set(base[key]) | set(val))       # 집합으로 병합 후 리스트 변환
            elif isinstance(val, dict) and isinstance(base[key], dict): # 딕셔너리일 경우
                merged = base[key].copy()                         # 기준값 복사
                for k, v in val.items():                          # 병합 대상 딕셔너리 순회
                    if k in merged and merged[k] != v:           # 키가 존재하고 값이 다를 때
                        merged[k] = merged[k] or v               # 둘 중 True 우선
                    else:
                        merged[k] = v                            # 없으면 그대로 추가
                base[key] = merged                                # 병합된 결과 저장
            else:
                base[key] = f"{base[key]}||{val}"                # 그 외 타입은 문자열로 변환하여 병합
    return base                                                  # 병합된 결과 반환

# 병합 처리 결과 저장용 리스트 초기화
final_data = []                      # 최종 결과 리스트
merged_log = []                      # 병합된 항목 로그 저장 리스트

# 각 서비스명 그룹에 대해 처리
for name, items in name_to_items.items():
    service_ids = {item["서비스ID"] for item in items} # 해당 서비스명의 서비스ID 집합 생성
    if len(service_ids) == 1:                         # ID가 하나면 중복이 아님
        final_data.append(items[0])                   # 그대로 추가
    else:
        merged = merge_items(items)                   # 여러 ID가 존재하면 병합 수행
        merged_log.append((name, list(service_ids)))  # 병합된 서비스명과 ID 기록
        final_data.append(merged)                     # 병합된 결과 저장


# 병합 로그 출력
print(f"✅ 최종 항목 수: {len(final_data)}개")                      # 최종 항목 수 출력
print(f"🔁 병합된 서비스 수: {len(merged_log)}개")                 # 병합된 서비스 개수 출력
for name, ids in merged_log[:10]:                               # 최대 10개 로그 출력
    print(f"🔹 서비스명: {name} / 병합된 서비스ID: {ids}")        # 서비스명과 병합된 ID 리스트 출력


### 결과 확인

In [None]:
# 병합된 실제 예시 출력
print("\n📌 병합된 서비스 예시 (최대 3개):\n")
for name, ids in merged_log[:3]:
    print(f"🔁 서비스명: {name}")
    print(f"📌 병합된 서비스ID 목록: {ids}\n")

    # 병합 결과 보여주기
    for item in final_data:
        if item["서비스명"] == name:
            print(json.dumps(item, ensure_ascii=False, indent=2))
            print("="*80)
            break


In [None]:
import os
import urllib.parse
from dotenv import load_dotenv

# ✅ 항상 RAG 폴더의 .env에서 로드되도록 설정
base_dir = os.path.abspath(os.path.join(os.getcwd(), ".."))  # 현재 작업 폴더의 부모 = RAG
env_path = os.path.join(base_dir, ".env")  # RAG/.env

load_dotenv(dotenv_path=env_path)  # .env 파일에서 환경 변수 로드

# ✅ 환경 변수 불러오기 및 예외 처리
GOV24_API_KEY = os.getenv("GOV24_API_KEY")
if GOV24_API_KEY is None:
    raise ValueError("❌ .env에서 'GOV24_API_KEY'를 찾을 수 없습니다.")

# ✅ URL 인코딩
encoded_key = urllib.parse.quote(GOV24_API_KEY, safe='')

# ✅ 확인 출력 (선택)
print("🔑 인코딩된 key:", encoded_key[:10] + "..." if encoded_key else "❌ 인코딩 실패")

