## 데이터 불러오기

In [2]:
import json
from pathlib import Path

# 📁 현재 노트북 위치 기준으로 상대 경로 설정
data_path = Path("data/combined_service_data.json")

# 📄 JSON 로드
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# ✅ 개수 확인
print(f"📦 전체 서비스 개수: {len(data)}개")

📦 전체 서비스 개수: 26613개


## 중복 확인
### 서비스명 동일, ID 확인

In [3]:
import json
from collections import defaultdict, Counter
from pathlib import Path

# 경로 설정 및 JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 서비스명 → 서비스ID 리스트로 매핑
name_to_ids = defaultdict(list)
for item in data:
    name = item.get("서비스명")
    sid = item.get("서비스ID")
    name_to_ids[name].append(sid)

# 2. 중복된 서비스명만 추출
duplicates = {name: sids for name, sids in name_to_ids.items() if len(sids) > 1}

# 3. 결과 출력
print(f"❗ 중복된 서비스명 개수: {len(duplicates)}개\n")

for name, sids in list(duplicates.items())[:10]:  # 예시 10개만 출력
    print(f"🔁 서비스명: {name}")
    print("   서비스ID 목록:", sids)
    print()


❗ 중복된 서비스명 개수: 483개

🔁 서비스명: 양식장 친환경에너지 보급
   서비스ID 목록: ['119200000126', '119200000126', '502000000229', '502000000229']

🔁 서비스명: 수산식품 가공설비 지원
   서비스ID 목록: ['119200000143', '119200000143', '493000000110', '493000000110']

🔁 서비스명: 긴급돌봄 지원
   서비스ID 목록: ['135200005026', '135200005026', 'O00012100001', 'O00012100001']

🔁 서비스명: 석면피해 구제급여 지급
   서비스ID 목록: ['148000000001', '148000000001', '148000000001', '148000000001', '482000000122', '482000000122', '482000000122', '482000000122', '499000000113', '499000000113', '499000000113', '499000000113', '568000000104', '568000000104', '568000000104', '568000000104']

🔁 서비스명: 유기농업자재 지원
   서비스ID 목록: ['154300000014', '154300000014', '485000000116', '485000000116']

🔁 서비스명: 곤충산업 육성 지원
   서비스ID 목록: ['154300005006', '154300005006', '644000000236', '644000000236']

🔁 서비스명: 청년월세 한시 특별지원
   서비스ID 목록: ['161300000099', '161300000099', '452000000319', '452000000319']

🔁 서비스명: LPG용기 사용가구 시설개선 지원
   서비스ID 목록: ['174100000020', '174100000020', '174100000020', '484000

### 서비스ID 동일 서비스명 확인

In [4]:
import json
from collections import defaultdict, Counter
from pathlib import Path

# 경로 설정 및 JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 서비스ID → 서비스명 리스트로 매핑
id_to_names = defaultdict(list)
for item in data:
    sid = item.get("서비스ID")
    name = item.get("서비스명")
    id_to_names[sid].append(name)

# 2. 중복된 서비스ID만 추출
duplicates = {sid: names for sid, names in id_to_names.items() if len(names) > 1}

# 3. 결과 출력
print(f"❗ 중복된 서비스ID 개수: {len(duplicates)}개\n")

for sid, names in list(duplicates.items())[:10]:  # 예시 10개만 출력
    print(f"🔁 서비스ID: {sid}")
    print("   서비스명 목록:", names)
    print()


❗ 중복된 서비스ID 개수: 1879개

🔁 서비스ID: 119200000126
   서비스명 목록: ['양식장 친환경에너지 보급', '양식장 친환경에너지 보급']

🔁 서비스ID: 119200000143
   서비스명 목록: ['수산식품 가공설비 지원', '수산식품 가공설비 지원']

🔁 서비스ID: 135200005026
   서비스명 목록: ['긴급돌봄 지원', '긴급돌봄 지원']

🔁 서비스ID: 148000000001
   서비스명 목록: ['석면피해 구제급여 지급', '석면피해 구제급여 지급', '석면피해 구제급여 지급', '석면피해 구제급여 지급']

🔁 서비스ID: 154300000014
   서비스명 목록: ['유기농업자재 지원', '유기농업자재 지원']

🔁 서비스ID: 154300005006
   서비스명 목록: ['곤충산업 육성 지원', '곤충산업 육성 지원']

🔁 서비스ID: 161300000099
   서비스명 목록: ['청년월세 한시 특별지원', '청년월세 한시 특별지원']

🔁 서비스ID: 174100000020
   서비스명 목록: ['LPG용기 사용가구 시설개선 지원', 'LPG용기 사용가구 시설개선 지원', 'LPG용기 사용가구 시설개선 지원']

🔁 서비스ID: 300000000101
   서비스명 목록: ['임산부 건강관리 지원', '임산부 건강관리 지원', '임산부 건강관리 지원', '임산부 건강관리 지원']

🔁 서비스ID: 300000000102
   서비스명 목록: ['저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원', '저소득주민 국민건강보험료 지원']



### 서비스명 동일한 item 모두 보기

In [12]:
import json
from pathlib import Path

# JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 특정 서비스명으로 필터링
target_name = "석면피해 구제급여 지급"
matching_items = [item for item in data if item.get("서비스명") == target_name]

# 결과 출력
print(f"🔍 '{target_name}' 관련 항목 수: {len(matching_items)}개\n")

for i, item in enumerate(matching_items, 1):
    print(f"📦 항목 {i} (서비스ID: {item.get('서비스ID')})")
    print(json.dumps(item, ensure_ascii=False, indent=2))
    print("="*80)


🔍 '석면피해 구제급여 지급' 관련 항목 수: 16개

📦 항목 1 (서비스ID: 148000000001)
{
  "구비서류": "○ 석면 피해 인정 신청서\r\n - 석면 노출 정도 확인 질문서(신청인의 주민등록표 초본, 신청인의 근무경력증명서 또는 근무경력 확인서류)\r\n - 개인정보보호법에 따른 개인 정보 수집 이용 및 제공동의서\r\n - 신청인 확인서류(주민등록등본)\r\n - 석면 질병별 증빙서류(진단서 및 조직 병리 검사 결과서 등)\r\n\r\n○ 대리인 확인서류\r\n - 직계가족 : 대리인 신분증, 가족 관계 증명 서류\r\n - 직계가족이 아닌 경우 : 대리인 신분증, 신청인 인감증명서, 위임장",
  "문의처": "석면피해구제시스템/1833-7690",
  "법령": "석면피해구제법(제16조)",
  "서비스ID": "148000000001",
  "서비스명": "석면피해 구제급여 지급",
  "서비스목적": "석면으로 인한 건강피해자 및 유족에게 구제급여를 지급함으로 석면으로 인한 건강 피해를 신속하고 공정하게 구제",
  "선정기준": "지원대상과 동일",
  "소관기관명": "환경부",
  "수정일시": "2025-01-24",
  "신청기한": "상시신청",
  "신청방법": "관할 시군구청(환경부서)에 신청",
  "온라인신청사이트URL": null,
  "자치법규": null,
  "접수기관명": "시·군·구청",
  "지원내용": "○ 요양급여 :치료에 소요되는 비용중 급여항목의 일부본인부담금 지원(매월 지급)\r\n\r\n○ 요양 생활수당 : 요양급여 외 석면 질병의 치료·요양 및 생활에 필요한 경비(매월 지급)\r\n\r\n○  장례비 : 피 인정자가 석면 질병으로 사망한 경우 그 장례를 지낸 유족에게 지급\r\n\r\n○ 특별유족 조의금 및 특별장례비 : 법 시행일 전 석면 질병으로 사망한 사람, 신청하지 아니하고, 법 시행 후 석면 질병으로 사망한 사람, 신청하였으나 인정받기 전에 석면 질병으로 사망한 사람 유족에게 

### 서비스ID 동일한 item 모두 보기

In [15]:
import json
from pathlib import Path

# JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 특정 서비스ID로 필터링
target_id = "148000000001"  # 여기에 원하는 서비스ID 입력
matching_items = [item for item in data if item.get("서비스ID") == target_id]

# 결과 출력
print(f"🔍 서비스ID '{target_id}' 관련 항목 수: {len(matching_items)}개\n")

for i, item in enumerate(matching_items, 1):
    print(f"📦 항목 {i} (서비스명: {item.get('서비스명')})")
    print(json.dumps(item, ensure_ascii=False, indent=2))
    print("="*80)


🔍 서비스ID '148000000001' 관련 항목 수: 4개

📦 항목 1 (서비스명: 석면피해 구제급여 지급)
{
  "구비서류": "○ 석면 피해 인정 신청서\r\n - 석면 노출 정도 확인 질문서(신청인의 주민등록표 초본, 신청인의 근무경력증명서 또는 근무경력 확인서류)\r\n - 개인정보보호법에 따른 개인 정보 수집 이용 및 제공동의서\r\n - 신청인 확인서류(주민등록등본)\r\n - 석면 질병별 증빙서류(진단서 및 조직 병리 검사 결과서 등)\r\n\r\n○ 대리인 확인서류\r\n - 직계가족 : 대리인 신분증, 가족 관계 증명 서류\r\n - 직계가족이 아닌 경우 : 대리인 신분증, 신청인 인감증명서, 위임장",
  "문의처": "석면피해구제시스템/1833-7690",
  "법령": "석면피해구제법(제16조)",
  "서비스ID": "148000000001",
  "서비스명": "석면피해 구제급여 지급",
  "서비스목적": "석면으로 인한 건강피해자 및 유족에게 구제급여를 지급함으로 석면으로 인한 건강 피해를 신속하고 공정하게 구제",
  "선정기준": "지원대상과 동일",
  "소관기관명": "환경부",
  "수정일시": "2025-01-24",
  "신청기한": "상시신청",
  "신청방법": "관할 시군구청(환경부서)에 신청",
  "온라인신청사이트URL": null,
  "자치법규": null,
  "접수기관명": "시·군·구청",
  "지원내용": "○ 요양급여 :치료에 소요되는 비용중 급여항목의 일부본인부담금 지원(매월 지급)\r\n\r\n○ 요양 생활수당 : 요양급여 외 석면 질병의 치료·요양 및 생활에 필요한 경비(매월 지급)\r\n\r\n○  장례비 : 피 인정자가 석면 질병으로 사망한 경우 그 장례를 지낸 유족에게 지급\r\n\r\n○ 특별유족 조의금 및 특별장례비 : 법 시행일 전 석면 질병으로 사망한 사람, 신청하지 아니하고, 법 시행 후 석면 질병으로 사망한 사람, 신청하였으나 인정받기 전에 석면 질병으로 사망한 사람 유

### 서비스명 동일한 item 비교

In [13]:
import json
from pathlib import Path
from itertools import combinations

# 데이터 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# ✅ 비교 대상 서비스명
target_name = "석면피해 구제급여 지급"

# 1. 해당 서비스명으로 필터링
matched_items = [item for item in data if item.get("서비스명") == target_name]
print(f"🔍 '{target_name}' 관련 항목 수: {len(matched_items)}개")

# 2. JSON 문자열로 정렬해서 비교 준비
serialized = [json.dumps(item, sort_keys=True, ensure_ascii=False) for item in matched_items]

# 3. 모든 쌍 비교
for (i, j) in combinations(range(len(serialized)), 2):
    if serialized[i] != serialized[j]:
        print(f"\n❗ 항목 {i}와 항목 {j}는 서로 다릅니다.")
        for k, (a, b) in enumerate(zip(serialized[i], serialized[j])):
            if a != b:
                print(f"  🔹 첫 차이점 at index {k}: '{a}' ≠ '{b}'")
                print(f"  🔎 항목 {i} 일부: {serialized[i][k-20:k+20]}")
                print(f"  🔎 항목 {j} 일부: {serialized[j][k-20:k+20]}")
                break
    else:
        print(f"✅ 항목 {i}와 항목 {j}는 동일합니다.")


🔍 '석면피해 구제급여 지급' 관련 항목 수: 16개

❗ 항목 0와 항목 1는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 항목 0 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 항목 1 일부: 임장", "대상연령": {"시작": 19, "종료": 120}, "문의처

❗ 항목 0와 항목 2는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 항목 0 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 항목 2 일부: 임장", "대상연령": {"시작": 19, "종료": 120}, "문의처

❗ 항목 0와 항목 3는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 항목 0 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 항목 3 일부: 임장", "대상연령": {"시작": 18, "종료": 120}, "문의처

❗ 항목 0와 항목 4는 서로 다릅니다.
  🔹 첫 차이점 at index 9: '"' ≠ 'n'
  🔎 항목 0 일부: 
  🔎 항목 4 일부: 

❗ 항목 0와 항목 5는 서로 다릅니다.
  🔹 첫 차이점 at index 9: '"' ≠ 'n'
  🔎 항목 0 일부: 
  🔎 항목 5 일부: 

❗ 항목 0와 항목 6는 서로 다릅니다.
  🔹 첫 차이점 at index 9: '"' ≠ 'n'
  🔎 항목 0 일부: 
  🔎 항목 6 일부: 

❗ 항목 0와 항목 7는 서로 다릅니다.
  🔹 첫 차이점 at index 9: '"' ≠ 'n'
  🔎 항목 0 일부: 
  🔎 항목 7 일부: 

❗ 항목 0와 항목 8는 서로 다릅니다.
  🔹 첫 차이점 at index 12: '석' ≠ '신'
  🔎 항목 0 일부: 
  🔎 항목 8 일부: 

❗ 항목 0와 항목 9는 서로 다릅니다.
  🔹 첫 차이점 at index 12: '석' 

### 서비스ID 동일한 item 비교

In [6]:
import json
from pathlib import Path

# 경로 설정 및 데이터 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 1. 특정 서비스ID로 필터링
target_id = "148000000001"
matched_items = [item for item in data if item.get("서비스ID") == target_id]

print(f"🔍 해당 서비스ID({target_id})로 검색된 항목 수: {len(matched_items)}개")

# 2. 비교: 첫 번째 항목 기준으로 다른 항목들과 비교
base = json.dumps(matched_items[0], sort_keys=True, ensure_ascii=False)

for idx, item in enumerate(matched_items[1:], start=1):
    current = json.dumps(item, sort_keys=True, ensure_ascii=False)

    if base != current:
        print(f"\n❗ 항목 0과 항목 {idx}는 서로 다릅니다.")

        # 글자 단위 비교
        for i, (a, b) in enumerate(zip(base, current)):
            if a != b:
                print(f"  🔹 첫 차이점 at index {i}: '{a}' ≠ '{b}'")
                print(f"  🔎 기준 문자열 일부: {base[i-20:i+20]}")
                print(f"  🔎 비교 문자열 일부: {current[i-20:i+20]}")
                break  # 첫 차이만 확인
    else:
        print(f"✅ 항목 0과 항목 {idx}는 완전히 동일합니다.")


🔍 해당 서비스ID(148000000001)로 검색된 항목 수: 4개

❗ 항목 0과 항목 1는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 기준 문자열 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 비교 문자열 일부: 임장", "대상연령": {"시작": 19, "종료": 120}, "문의처

❗ 항목 0과 항목 2는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 기준 문자열 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 비교 문자열 일부: 임장", "대상연령": {"시작": 19, "종료": 120}, "문의처

❗ 항목 0과 항목 3는 서로 다릅니다.
  🔹 첫 차이점 at index 303: '0' ≠ '1'
  🔎 기준 문자열 일부: 임장", "대상연령": {"시작": 0, "종료": 120}, "문의처"
  🔎 비교 문자열 일부: 임장", "대상연령": {"시작": 18, "종료": 120}, "문의처


### 모든 경우의 수 비교
🔍 서비스ID & 서비스명 같지만 내용이 다른 경우:   
🔍 서비스ID 같지만 서비스명이 다른 경우:   
🔍 서비스명 같지만 서비스ID가 다른 경우:   

In [7]:
import json
from collections import defaultdict
from pathlib import Path



# dict: 서비스ID -> item 전체
id_to_items = defaultdict(list)
for item in data:
    sid = item.get("서비스ID")
    id_to_items[sid].append(item)

# dict: 서비스명 -> 서비스ID 리스트
name_to_ids = defaultdict(list)
for item in data:
    name_to_ids[item["서비스명"]].append(item["서비스ID"])

# -----------------------------
# 1️⃣ 서비스ID는 같고 서비스명도 같지만 내용이 다른 경우
# -----------------------------
diff_content_same_id = []
for sid, items in id_to_items.items():
    if len(items) > 1:
        base = json.dumps(items[0], sort_keys=True, ensure_ascii=False)
        for other in items[1:]:
            if json.dumps(other, sort_keys=True, ensure_ascii=False) != base:
                diff_content_same_id.append(sid)
                break

print(f"🔍 서비스ID & 서비스명 같지만 내용이 다른 경우: {len(diff_content_same_id)}개")

# -----------------------------
# 2️⃣ 서비스ID는 같은데 서비스명이 다른 경우
# -----------------------------
diff_name_same_id = []
for sid, items in id_to_items.items():
    names = {item.get("서비스명") for item in items}
    if len(names) > 1:
        diff_name_same_id.append((sid, list(names)))

print(f"🔍 서비스ID 같지만 서비스명이 다른 경우: {len(diff_name_same_id)}개")

# -----------------------------
# 3️⃣ 서비스명은 같은데 서비스ID가 다른 경우
# -----------------------------
same_name_diff_id = []
for name, sids in name_to_ids.items():
    if len(set(sids)) > 1:
        same_name_diff_id.append((name, list(set(sids))))

print(f"🔍 서비스명 같지만 서비스ID가 다른 경우: {len(same_name_diff_id)}개")


🔍 서비스ID & 서비스명 같지만 내용이 다른 경우: 1508개
🔍 서비스ID 같지만 서비스명이 다른 경우: 0개
🔍 서비스명 같지만 서비스ID가 다른 경우: 483개


## 완전 중복 제거

| 항목                          | 처리 방식                          |
|-------------------------------|------------------------------------|
| 서비스ID & 내용 **동일**      | ✅ **제거** (하나만 유지)           |
| 서비스ID **동일**, 내용 **다름** | ✅ **둘 다 유지**, ID 변경 없음     |
| 서비스ID **다름**             | ✅ **전부 유지**                   |


In [14]:
import json
from collections import defaultdict
from pathlib import Path

# JSON 로드
data_path = Path("data/combined_service_data.json")
with open(data_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# 중복 제거 함수
def remove_exact_duplicates(data):
    seen = defaultdict(set)         # 서비스ID별로 중복 hash 저장
    unique_items = []               # 결과 저장 리스트

    for item in data:
        sid = item["서비스ID"]      # 서비스ID 추출
        content = json.dumps(item, sort_keys=True, ensure_ascii=False)  # 전체 내용을 문자열화

        # 동일한 서비스ID에서 동일한 내용이 이미 있으면 패스
        if content in seen[sid]:
            continue

        seen[sid].add(content)      # 새로운 조합이면 저장
        unique_items.append(item)   # 결과 리스트에 추가

    return unique_items

# 중복 제거 수행
cleaned_data = remove_exact_duplicates(data)

# 저장
output_path = Path("data/combined_service_data_deduped.json")
with open(output_path, "w", encoding="utf-8") as f:
    json.dump(cleaned_data, f, ensure_ascii=False, indent=2)

print(f"✅ 중복 제거 완료: {len(cleaned_data)}개 항목 저장됨")


✅ 중복 제거 완료: 14474개 항목 저장됨


In [None]:
import json
from collections import defaultdict

# JSON 로드
with open("combined_service_data.json", "r", encoding="utf-8") as f:
    data = json.load(f)

# 중복 제거 함수 + 충돌 데이터 수집
def deduplicate_and_collect_conflicts(data):
    seen = defaultdict(set)
    unique_items = []
    conflict_items = defaultdict(list)

    for item in data:
        sid = item["서비스ID"]
        content = json.dumps(item, sort_keys=True, ensure_ascii=False)

        if content in seen[sid]:
            continue

        seen[sid].add(content)
        unique_items.append(item)
        conflict_items[sid].append(item)

    # 충돌만 따로 추림
    conflicts = {sid: items for sid, items in conflict_items.items() if len(items) > 1}
    return unique_items, conflicts

# 실행
cleaned_data, conflicting_data = deduplicate_and_collect_conflicts(data)

# 저장
with open("combined_service_data_deduped2.json", "w", encoding="utf-8") as f:
    json.dump(cleaned_data, f, ensure_ascii=False, indent=2)

with open("combined_service_data_conflicted.json", "w", encoding="utf-8") as f:
    json.dump(conflicting_data, f, ensure_ascii=False, indent=2)

# 결과 출력
print(f"✅ 중복 제거된 항목 수: {len(cleaned_data)}개")
print(f"❗ 내용이 다른 동일 서비스ID 개수: {len(conflicting_data)}개")
print(f"🔍 총 충돌 항목 수: {sum(len(v) for v in conflicting_data.values())}개")
