# 공공데이터포털 지하안전 데이터

In [15]:
from tqdm import tqdm
import time
import requests
import json
import os

SERVICE_KEY = "48RysNl1ik0Yayfh1ih7lOwKPbSQmus+nhN76dcuw/5LSr4uXnBrSZEPYq5QsUWf/37wyPGCbmOawE5X2mMeBw=="
BASE_URL = "https://apis.data.go.kr/1611000/undergroundsafetyinfo"

def call_api_to_file(endpoint: str, output_filename: str, custom_params: dict):
    params = {
        "serviceKey": SERVICE_KEY,
        "pageNo": "1",
        "numOfRows": "1000",
        "type": "json"
    }
    params.update(custom_params)
    url = f"{BASE_URL}/{endpoint}"

    # tqdm bar for a single task
    with tqdm(total=1, desc=f"📡 {output_filename}", bar_format="{l_bar}{bar} {elapsed}s") as pbar:
        try:
            response = requests.get(url, params=params)
            data = response.json()

            os.makedirs("Database/openapi/test", exist_ok=True)
            with open(f"Database/openapi/test/{output_filename}.json", "w", encoding="utf-8") as f:
                json.dump(data, f, ensure_ascii=False, indent=2)

            pbar.update(1)
            print(f"✅ 저장 완료: {output_filename}.json")
            return ""
        except Exception as e:
            pbar.update(1)
            print(f"❌ 오류 발생: {e}")
            return f"❌ 오류 발생: {e}"

## 각 api 호출 함수

In [16]:
def get_impat_evaluation_list(start_date: str, end_date: str):
    return call_api_to_file("getImpatEvalutionList", "지하안전평가_리스트", {
        "sysRegDateFrom": start_date,
        "sysRegDateTo": end_date
    })

def get_impat_evaluation_info(eval_no: str):
    return call_api_to_file("getImpatEvalutionInfo", "지하안전평가_정보", {
        "evalNo": eval_no
    })

def get_small_impat_evaluation_list(start_date: str, end_date: str):
    return call_api_to_file("getSmallImpactEvalutionList", "소규모지하안전평가_리스트", {
        "sysRegDateFrom": start_date,
        "sysRegDateTo": end_date
    })

def get_small_impat_evaluation_info(eval_no: str):
    return call_api_to_file("getSmallImpactEvalutionInfo", "소규모지하안전평가_정보", {
        "evalNo": eval_no
    })

def get_post_construction_check_list(start_date: str, end_date: str):
    return call_api_to_file("getAfterUndergroundSafetyInspectionList", "착공후지하안전조사_리스트", {
        "sysRegDateFrom": start_date,
        "sysRegDateTo": end_date
    })

def get_post_construction_check_info(eval_no: str):
    return call_api_to_file("getAfterUndergroundSafetyInspectionInfo", "착공후지하안전조사_정보", {
        "evalNo": eval_no
    })

def get_underground_facility_list(start_ymd: str, end_ymd: str):
    return call_api_to_file("getUndergroundUtilityList", "안전점검대상_지하시설물_리스트", {
        "startYmd": start_ymd,
        "endYmd": end_ymd
    })

def get_underground_facility_info(facility_no: str):
    return call_api_to_file("getUndergroundUtilityInfo", "안전점검대상_지하시설물_정보", {
        "facilNo": facility_no
    })

def get_underground_facility_result(facility_no: str):
    return call_api_to_file("getUndergroundUtilityResult", "안전점검대상_지하시설물_점검결과", {
        "facilNo": facility_no
    })

def get_risk_assessment_list(start_ymd: str, end_ymd: str):
    return call_api_to_file("getSubsidenceEvalutionList", "지반침하위험도평가_리스트", {
        "startYmd": start_ymd,
        "endYmd": end_ymd
    })

def get_risk_safety_info(eval_no: str):
    return call_api_to_file("getSubsidenceResult", "지반침하_안전조치내용", {
        "evalNo": eval_no
    })

def get_risk_emergency_info(eval_no: str):
    return call_api_to_file("getSubsidenceExpediency", "지반침하_응급조치내용", {
        "evalNo": eval_no
    })

def get_priority_control_list(start_date: str, end_date: str):
    return call_api_to_file("getPriorityControlTargetList", "중점관리대상_리스트", {
        "heavyYmdFrom": start_date,
        "heavyYmdTo": end_date
    })

def get_priority_control_info(control_no: str, heavy_ymd: str):
    return call_api_to_file("getPriorityControlTargetInfo", "중점관리대상_정보", {
        "facilNo": control_no,
        "heavyYmd": heavy_ymd
    })

def get_subsidence_accident_list(start_date: str, end_date: str):#, lon: str, lat: str, buffer_km: str):
    return call_api_to_file("getSubsidenceList", "지반침하사고_리스트", {
        "sagoDateFrom": start_date,
        "sagoDateTo": end_date,
        # "geomLon": lon,
        # "geomLat": lat,
        # "buffer": buffer_km
    })

def get_subsidence_accident_info(accident_no: str):
    return call_api_to_file("getSubsidenceInfo", "지반침하사고_정보", {
        "sagoNo": accident_no
    })

def get_agency_list(start_date: str, end_date: str):
    return call_api_to_file("getProfessionalInstituionList", "전문기관_리스트", {
        "entryYmdFrom": start_date,
        "entryYmdTo": end_date
    })

def get_agency_info(corp_cd: str):
    return call_api_to_file("getProfessionalInstituionInfo", "전문기관_정보", {
        "corpCd": corp_cd
    })

def get_agency_results(corp_cd: str):
    return call_api_to_file("getProfessionalInstituionresultInfo", "전문기관_실적", {
        "corpCd": corp_cd
    })

def get_underground_project_list(start_date: str, end_date: str):#, lon: str, lat: str, buffer_km: str):
    return call_api_to_file("getUndergroundDevelopementProjectList", "지하개발사업_리스트", {
        "staPlanYmdFrom": start_date,
        "staPlanYmdTo": end_date,
        # "geomLon": lon,
        # "geomLat": lat,
        # "buffer": buffer_km
    })

def get_underground_project_info(project_no: str):
    return call_api_to_file("getUndergroundDevelopementProjectInfo", "지하개발사업_정보", {
        "saupNo": project_no
    })

### 실행

In [43]:
# ✅ 지하안전평가
get_impat_evaluation_list("20210101", "20211011")  # 리스트 조회
get_impat_evaluation_info("E10091000030")  # 상세 조회

# ✅ 소규모 지하안전평가
get_small_impat_evaluation_list("20210101", "20211011")  # 리스트 조회
get_small_impat_evaluation_info("E10132000007")  # 상세 조회

# ✅ 착공 후 지하안전조사
get_post_construction_check_list("20210101", "20211011")  # 리스트 조회
get_post_construction_check_info("E00017000038")  # 상세 조회

# ✅ 안전점검대상 지하시설물
get_underground_facility_list("20210101", "20211011")  # 리스트 조회
get_underground_facility_info("ELE2015-000008")  # 상세 조회
get_underground_facility_result("ELE2015-000008")  # 점검 결과 조회

# ✅ 지반침하위험도평가
get_risk_assessment_list("20210101", "20211011")  # 리스트 조회
get_risk_safety_info("E00098000019")  # 안전조치내용 조회
get_risk_emergency_info("E00098000019")  # 응급조치내용 조회

# ✅ 중점관리대상 : 제공 안하는 듯
get_priority_control_list("20210101", "20211011")  # 리스트 조회
get_priority_control_info("GAS1900-000001", "20210101")  # 상세 조회

# ✅ 지반침하사고
get_subsidence_accident_list("20210101", "20211011")#, "126.9780", "37.5665", "5")  # 리스트 조회
get_subsidence_accident_info("20220138")  # 상세 조회

# ✅ 전문기관
get_agency_list("20191017", "20191117")  # 리스트 조회
get_agency_info("E00010")  # 상세 조회
get_agency_results("E00010")  # 실적 조회

# ✅ 지하개발사업
get_underground_project_list("20210101", "20211011")# , "126.9780", "37.5665", "5")  # 리스트 조회
get_underground_project_info("20190072")  # 상세 조회

📡 지하안전평가_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 지하안전평가_리스트.json


📡 지하안전평가_정보: 100%|██████████ 00:00s


✅ 저장 완료: 지하안전평가_정보.json


📡 소규모지하안전평가_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 소규모지하안전평가_리스트.json


📡 소규모지하안전평가_정보: 100%|██████████ 00:00s


✅ 저장 완료: 소규모지하안전평가_정보.json


📡 착공후지하안전조사_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 착공후지하안전조사_리스트.json


📡 착공후지하안전조사_정보: 100%|██████████ 00:00s


✅ 저장 완료: 착공후지하안전조사_정보.json


📡 안전점검대상_지하시설물_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 안전점검대상_지하시설물_리스트.json


📡 안전점검대상_지하시설물_정보: 100%|██████████ 00:00s


✅ 저장 완료: 안전점검대상_지하시설물_정보.json


📡 안전점검대상_지하시설물_점검결과: 100%|██████████ 00:00s


✅ 저장 완료: 안전점검대상_지하시설물_점검결과.json


📡 지반침하위험도평가_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 지반침하위험도평가_리스트.json


📡 지반침하_안전조치내용: 100%|██████████ 00:00s


✅ 저장 완료: 지반침하_안전조치내용.json


📡 지반침하_응급조치내용: 100%|██████████ 00:00s


✅ 저장 완료: 지반침하_응급조치내용.json


📡 중점관리대상_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 중점관리대상_리스트.json


📡 중점관리대상_정보: 100%|██████████ 00:00s


✅ 저장 완료: 중점관리대상_정보.json


📡 지반침하사고_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 지반침하사고_리스트.json


📡 지반침하사고_정보: 100%|██████████ 00:00s


✅ 저장 완료: 지반침하사고_정보.json


📡 전문기관_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 전문기관_리스트.json


📡 전문기관_정보: 100%|██████████ 00:00s


✅ 저장 완료: 전문기관_정보.json


📡 전문기관_실적: 100%|██████████ 00:00s


✅ 저장 완료: 전문기관_실적.json


📡 지하개발사업_리스트: 100%|██████████ 00:00s


✅ 저장 완료: 지하개발사업_리스트.json


📡 지하개발사업_정보: 100%|██████████ 00:00s

✅ 저장 완료: 지하개발사업_정보.json





''

## 개수 및 자동수집 확인

In [12]:
import os
import time
import requests
import json

SERVICE_KEY = "48RysNl1ik0Yayfh1ih7lOwKPbSQmus+nhN76dcuw/5LSr4uXnBrSZEPYq5QsUWf/37wyPGCbmOawE5X2mMeBw=="
BASE_URL = "https://apis.data.go.kr/1611000/undergroundsafetyinfo"

endpoint_names = {
    "getImpatEvalutionList": "지하안전평가 리스트",
    "getSmallImpactEvalutionList": "소규모 지하안전평가 리스트",
    "getAfterUndergroundSafetyInspectionList": "착공 후 지하안전조사 리스트",
    "getUndergroundUtilityList": "안전점검대상 지하시설물 리스트",
    "getSubsidenceEvalutionList": "지반침하위험도평가 리스트",
    "getPriorityControlTargetList": "중점관리대상 리스트",
    "getSubsidenceList": "지반침하사고 리스트",
    "getProfessionalInstituionList": "전문기관 리스트",
    "getUndergroundDevelopementProjectList": "지하개발사업 리스트"
}

def fetch_until_exhausted(endpoint: str, filename_prefix: str, params: dict, key_path: list, delay: float = 0.2):
    all_items = []
    page = 0
    rows = 100

    print(f"📡 [{endpoint_names.get(endpoint, endpoint)}] 데이터 수집 시작")

    while True:
        page += 1
        request_params = {
            "serviceKey": SERVICE_KEY,
            "pageNo": page,
            "numOfRows": rows,
            "type": "json",
            **params
        }

        try:
            response = requests.get(f"{BASE_URL}/{endpoint}", params=request_params)
            response.raise_for_status()
            data = response.json()
        except Exception as e:
            print(f"❌ 에러 발생 (페이지 {page}): {e}")
            break

        # Key path 따라가며 데이터 추출
        items = data
        try:
            for key in key_path:
                if isinstance(items, dict):
                    items = items.get(key, [])
                else:
                    raise ValueError(f"⚠️ 예상과 다른 자료형 encountered at key '{key}': {type(items)}")
        except Exception as e:
            print(f"⚠️ 키 경로 추적 실패 (페이지 {page}): {e}")
            break

        if not isinstance(items, list):
            print(f"⚠️ 비정상 응답 형식 (페이지 {page}) → 중단")
            break

        if not items:
            print(f"✅ 마지막 페이지 도달 (페이지 {page})")
            break

        all_items.extend(items)
        print(f"📄 페이지 {page}: {len(items)}건 수집 (누적 {len(all_items)}건)")
        time.sleep(delay)

    # 저장
    os.makedirs("Database/openapi", exist_ok=True)
    output_path = f"Database/openapi/{filename_prefix}_전체.json"
    with open(output_path, "w", encoding="utf-8") as f:
        json.dump(all_items, f, ensure_ascii=False, indent=2)
    print(f"✅ 저장 완료: {output_path} ({len(all_items)}건)")

    return all_items

In [None]:
# 리스트형 엔드포인트 전체 수집 실행 코드
fetch_until_exhausted(
    endpoint="getImpatEvalutionList",
    filename_prefix="지하안전평가_리스트",
    params={"sysRegDateFrom": "20000101", "sysRegDateTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getSmallImpactEvalutionList",
    filename_prefix="소규모지하안전평가_리스트",
    params={"sysRegDateFrom": "20000101", "sysRegDateTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getAfterUndergroundSafetyInspectionList",
    filename_prefix="착공후지하안전조사_리스트",
    params={"sysRegDateFrom": "20000101", "sysRegDateTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getUndergroundUtilityList",
    filename_prefix="안전점검대상_지하시설물_리스트",
    params={"startYmd": "20000101", "endYmd": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getSubsidenceEvalutionList",
    filename_prefix="지반침하위험도평가_리스트",
    params={"startYmd": "20000101", "endYmd": "20251231"},
    key_path=["response", "body", "items"]
)

# ⚠️ 해당 엔드포인트는 종종 비정상 응답 발생 → 필요 시 주석 처리
fetch_until_exhausted(
    endpoint="getPriorityControlTargetList",
    filename_prefix="중점관리대상_리스트",
    params={"heavyYmdFrom": "20000101", "heavyYmdTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getSubsidenceList",
    filename_prefix="지반침하사고_리스트",
    params={"sagoDateFrom": "20000101", "sagoDateTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getProfessionalInstituionList",
    filename_prefix="전문기관_리스트",
    params={"entryYmdFrom": "20000101", "entryYmdTo": "20251231"},
    key_path=["response", "body", "items"]
)

fetch_until_exhausted(
    endpoint="getUndergroundDevelopementProjectList",
    filename_prefix="지하개발사업_리스트",
    params={"staPlanYmdFrom": "20000101", "staPlanYmdTo": "20251231"},
    key_path=["response", "body", "items"]
)

📡 [지하안전평가 리스트] 데이터 수집 시작
📄 페이지 1: 100건 수집 (누적 100건)
📄 페이지 2: 100건 수집 (누적 200건)
📄 페이지 3: 100건 수집 (누적 300건)
📄 페이지 4: 100건 수집 (누적 400건)
📄 페이지 5: 100건 수집 (누적 500건)
📄 페이지 6: 100건 수집 (누적 600건)
📄 페이지 7: 100건 수집 (누적 700건)
📄 페이지 8: 100건 수집 (누적 800건)
📄 페이지 9: 100건 수집 (누적 900건)
📄 페이지 10: 100건 수집 (누적 1000건)
📄 페이지 11: 100건 수집 (누적 1100건)
📄 페이지 12: 100건 수집 (누적 1200건)
📄 페이지 13: 100건 수집 (누적 1300건)
📄 페이지 14: 100건 수집 (누적 1400건)
📄 페이지 15: 100건 수집 (누적 1500건)
📄 페이지 16: 100건 수집 (누적 1600건)
📄 페이지 17: 100건 수집 (누적 1700건)
📄 페이지 18: 100건 수집 (누적 1800건)
📄 페이지 19: 100건 수집 (누적 1900건)
📄 페이지 20: 100건 수집 (누적 2000건)
📄 페이지 21: 100건 수집 (누적 2100건)
📄 페이지 22: 100건 수집 (누적 2200건)
📄 페이지 23: 100건 수집 (누적 2300건)
📄 페이지 24: 100건 수집 (누적 2400건)
📄 페이지 25: 100건 수집 (누적 2500건)
📄 페이지 26: 100건 수집 (누적 2600건)
📄 페이지 27: 7건 수집 (누적 2607건)
⚠️ 키 경로 추적 실패 (페이지 28): ⚠️ 예상과 다른 자료형 encountered at key 'items': <class 'list'>
✅ 저장 완료: Database/openapi/지하안전평가_리스트_전체.json (2607건)
📡 [소규모 지하안전평가 리스트] 데이터 수집 시작
📄 페이지 1: 100건 수집 (누적 100건)
📄 페이지 2: 100건 수집 (누적 2

[{'saupNo': '20180001',
  'saupNm': '고색동 1181-3번지 근린생활시설 신축공사',
  'proStage': '협의요청',
  'maxDigDepth': '16.54',
  'no': '1'},
 {'saupNo': '20180002',
  'saupNm': '제주 연동 주상복합PJ',
  'proStage': '보완회신',
  'maxDigDepth': '21.72',
  'no': '2'},
 {'saupNo': '20180044',
  'saupNm': '천안 청수지구 548-1외 1필지 복합업무시설 신축공사',
  'proStage': '승인완료',
  'maxDigDepth': '16.00',
  'no': '3'},
 {'saupNo': '20180045',
  'saupNm': '권선동 1011-15 오피스텔 신축공사',
  'proStage': '협의요청',
  'maxDigDepth': '16.60',
  'no': '4'},
 {'saupNo': '20180046',
  'saupNm': '인계동 1036-13번지 도시형생활주택 신축공사',
  'proStage': '승인요청',
  'maxDigDepth': '17.60',
  'no': '5'},
 {'saupNo': '20180047',
  'saupNm': '김포시 구래동 6878-2 업무지구 신축공사',
  'proStage': '제출완료',
  'maxDigDepth': '19.84',
  'no': '6'},
 {'saupNo': '20180048',
  'saupNm': '성남 판교대장 도시개발구역 A11BL 공동주택 신축공사 소규모 지하안전영향평가',
  'proStage': '협의요청',
  'maxDigDepth': '19.86',
  'no': '7'},
 {'saupNo': '20180049',
  'saupNm': '성남 판교대장 도시개발구역 A12BL 공동주택 신축공사 소규모 지하안전영향평가',
  'proStage': '협의요청',
 

## 리스트에서 정보 변환

- 위에거는 전체 실행만

In [31]:
import os
import json
from tqdm import tqdm
from typing import List, Dict

# NDJSON 저장 함수 (중복 방지 포함)
def append_ndjson(data_list: List[Dict], file_path: str, key_name: str = None):
    os.makedirs(os.path.dirname(file_path), exist_ok=True)

    existing_ids = set()
    if os.path.exists(file_path) and key_name:
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    obj = json.loads(line.strip())
                    if key_name in obj:
                        existing_ids.add(obj[key_name])
                except json.JSONDecodeError:
                    continue

    new_count = 0
    with open(file_path, "a", encoding="utf-8") as f:
        for item in data_list:
            if key_name:
                item_id = item.get(key_name)
                if item_id in existing_ids:
                    continue
                existing_ids.add(item_id)
            f.write(json.dumps(item, ensure_ascii=False) + "\n")
            new_count += 1

    # print(f"✅ {new_count}개 항목이 {file_path}에 추가되었습니다.")
    return new_count

# 함수 이름과 key 매핑
info_api_mapping = {
    "지하안전평가_리스트": {
        "key": "evalNo",
        "func": get_impat_evaluation_info
    },
    "소규모지하안전평가_리스트": {
        "key": "evalNo",
        "func": get_small_impat_evaluation_info
    },
    "착공후지하안전조사_리스트": {
        "key": "evalNo",
        "func": get_post_construction_check_info
    },
    "안전점검대상_지하시설물_리스트": {
        "key": "facilNo",
        "func": get_underground_facility_info
    },
    "지반침하위험도평가_리스트": {
        "key": "evalNo",
        "func": get_risk_safety_info
    },
    "지반침하사고_리스트": {
        "key": "sagoNo",
        "func": get_subsidence_accident_info
    },
    "전문기관_리스트": {
        "key": "corpCd",
        "func": get_agency_info
    },
    "지하개발사업_리스트": {
        "key": "saupNo",
        "func": get_underground_project_info
    }
}

# 메인 실행 루프
list_base_path = "Database/openapi"
list_files = [f for f in os.listdir(list_base_path) if f.endswith("_전체.json")]

for file in list_files:
    file_path = os.path.join(list_base_path, file)
    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    label = file.replace("_전체.json", "")
    mapping = info_api_mapping.get(label)

    if not mapping:
        print(f"❌ 처리 불가능한 리스트: {label}")
        continue

    key_name = mapping["key"]
    info_func = mapping["func"]
    output_path = f"Database/openapi/{label.replace('리스트', '정보')}.ndjson"

    print(f"🔍 [{label}] → {info_func.__name__} 호출 중...")
    for item in tqdm(data):
        id_value = item.get(key_name)
        if id_value:
            result = info_func(id_value)
            if isinstance(result, dict):
                append_ndjson([result], output_path, key_name=key_name)

🔍 [지하안전평가_리스트] → get_impat_evaluation_info 호출 중...


100%|██████████| 2607/2607 [07:57<00:00,  5.46it/s]


🔍 [안전점검대상_지하시설물_리스트] → get_underground_facility_info 호출 중...


100%|██████████| 700/700 [02:30<00:00,  4.64it/s]


🔍 [착공후지하안전조사_리스트] → get_post_construction_check_info 호출 중...


100%|██████████| 1059/1059 [03:16<00:00,  5.38it/s]


🔍 [전문기관_리스트] → get_agency_info 호출 중...


100%|██████████| 394/394 [01:22<00:00,  4.76it/s]


🔍 [소규모지하안전평가_리스트] → get_small_impat_evaluation_info 호출 중...


100%|██████████| 5232/5232 [14:54<00:00,  5.85it/s]


❌ 처리 불가능한 리스트: 지하시설물_리스트
🔍 [지하개발사업_리스트] → get_underground_project_info 호출 중...


100%|██████████| 7594/7594 [21:43<00:00,  5.83it/s]  


❌ 처리 불가능한 리스트: 중점관리대상_리스트
🔍 [지반침하사고_리스트] → get_subsidence_accident_info 호출 중...


100%|██████████| 1451/1451 [03:58<00:00,  6.08it/s]


🔍 [지반침하위험도평가_리스트] → get_risk_safety_info 호출 중...


100%|██████████| 10/10 [00:01<00:00,  7.74it/s]


- 지정 실행 가능

In [2]:
import os
import json
from tqdm import tqdm
from typing import List, Dict, Optional

def append_ndjson(data_list: List[Dict], file_path: str, key_name: Optional[str] = None):
    os.makedirs(os.path.dirname(file_path), exist_ok=True)
    existing_ids = set()

    if os.path.exists(file_path) and key_name:
        with open(file_path, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    obj = json.loads(line.strip())
                    if key_name in obj:
                        existing_ids.add(obj[key_name])
                except json.JSONDecodeError:
                    continue

    new_count = 0
    with open(file_path, "a", encoding="utf-8") as f:
        for item in data_list:
            if key_name:
                item_id = item.get(key_name)
                if item_id in existing_ids:
                    continue
                existing_ids.add(item_id)
            f.write(json.dumps(item, ensure_ascii=False) + "\n")
            new_count += 1

    return new_count


# 🔁 리스트 ↔ 정보 매핑 (list_from 추가됨)
info_api_mapping = {
    "지하안전평가_정보": {
        "key": "evalNo",
        "func": get_impat_evaluation_info,
        "list_from": "지하안전평가_리스트"
    },
    "소규모지하안전평가_정보": {
        "key": "evalNo",
        "func": get_small_impat_evaluation_info,
        "list_from": "소규모지하안전평가_리스트"
    },
    "착공후지하안전조사_정보": {
        "key": "evalNo",
        "func": get_post_construction_check_info,
        "list_from": "착공후지하안전조사_리스트"
    },
    "안전점검대상_지하시설물_정보": {
        "key": "facilNo",
        "func": get_underground_facility_info,
        "list_from": "안전점검대상_지하시설물_리스트"
    },
    "안전점검대상_지하시설물_점검결과": {
        "key": "facilNo",
        "func": get_underground_facility_result,
        "list_from": "안전점검대상_지하시설물_리스트"
    },
    "지반침하사고_정보": {
        "key": "sagoNo",
        "func": get_subsidence_accident_info,
        "list_from": "지반침하사고_리스트"
    },
    "전문기관_정보": {
        "key": "corpCd",
        "func": get_agency_info,
        "list_from": "전문기관_리스트"
    },
    "전문기관_실적": {
        "key": "corpCd",
        "func": get_agency_results,
        "list_from": "전문기관_리스트"
    },
    "지하개발사업_정보": {
        "key": "saupNo",
        "func": get_underground_project_info,
        "list_from": "지하개발사업_리스트"
    },
    "지반침하_안전조치내용": { # 안 줌
        "key": "evalNo",
        "func": get_risk_safety_info,
        "list_from": "지반침하위험도평가_리스트"
    },
    "지반침하_응급조치내용": { # 안 줌
        "key": "evalNo",
        "func": get_risk_emergency_info,
        "list_from": "지반침하위험도평가_리스트"
    },
    "중점관리대상_정보": { # 안 줌
        "key": "facilNo",
        "func": get_priority_control_info,
        "list_from": "중점관리대상_리스트"
    }
}


# ✅ 확장된 실행 함수 (리스트 공유 처리 포함)
def run_info_scraper(list_base_path: str = "Database/openapi", target_labels: Optional[List[str]] = None):
    # 1. 필요한 리스트만 한 번씩 불러옴
    shared_lists: Dict[str, List[Dict]] = {}
    for mapping in info_api_mapping.values():
        list_label = mapping["list_from"]
        if list_label not in shared_lists:
            file_path = os.path.join(list_base_path, f"{list_label}_전체.json")
            if os.path.exists(file_path):
                with open(file_path, "r", encoding="utf-8") as f:
                    shared_lists[list_label] = json.load(f)
            else:
                print(f"❌ 리스트 파일 없음: {list_label}_전체.json")
                shared_lists[list_label] = []

    # 2. 지정된 label만 처리
    for label, mapping in info_api_mapping.items():
        if target_labels and label not in target_labels:
            continue

        list_label = mapping["list_from"]
        data = shared_lists.get(list_label, [])
        key_name = mapping["key"]
        info_func = mapping["func"]
        output_path = os.path.join(list_base_path, f"{label}.ndjson")

        print(f"🔍 [{label}] ← {list_label} 기반 → {info_func.__name__} 호출 중...")
        for item in tqdm(data):
            id_value = item.get(key_name)
            if id_value:
                result = info_func(id_value)
                if isinstance(result, dict):
                    append_ndjson([result], output_path, key_name=key_name)


# ✅ 단독 실행 시
if __name__ == "__main__":
    # 전체 실행
    # run_info_scraper()

    # 또는 일부만 실행
    run_info_scraper(target_labels=[
        # "안전점검대상_지하시설물_정보",
        # "안전점검대상_지하시설물_점검결과",
        # "전문기관_실적",
        # "지반침하_안전조치내용",
        # "지반침하_응급조치내용",
        # "중점관리대상_정보"
    ])

NameError: name 'get_impat_evaluation_info' is not defined

## json to csv

In [9]:
import os
import json
import csv

def convert_json_to_csv(json_path, csv_path):
    with open(json_path, "r", encoding="utf-8") as f:
        data = json.load(f)
    if isinstance(data, dict):
        data = [data]
    if not data:
        return

    with open(csv_path, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

import os
import json
import csv

def extract_items_from_ndjson(ndjson_path, csv_path):
    rows = []

    with open(ndjson_path, "r", encoding="utf-8") as f:
        for line in f:
            try:
                obj = json.loads(line.strip())
                items = obj.get("response", {}).get("body", {}).get("items", [])

                if isinstance(items, list):
                    rows.extend(items)
                elif isinstance(items, dict):  # 단일 item일 수도 있음
                    rows.append(items)

            except Exception as e:
                print(f"⚠️ 오류 발생: {e}")

    if not rows:
        print(f"🚫 저장할 데이터 없음: {ndjson_path}")
        return

    # CSV로 저장
    with open(csv_path, "w", newline="", encoding="utf-8-sig") as f:
        writer = csv.DictWriter(f, fieldnames=rows[0].keys())
        writer.writeheader()
        writer.writerows(rows)

    print(f"✅ 저장 완료: {csv_path}")


def convert_all_ndjson_items_to_csv(base_dir="Database/openapi"):
    for filename in os.listdir(base_dir):
        if filename.endswith(".ndjson") and not filename.startswith("test"):
            ndjson_path = os.path.join(base_dir, filename)
            csv_path = os.path.join(base_dir, filename.replace(".ndjson", ".csv"))
            extract_items_from_ndjson(ndjson_path, csv_path)

# 실행
if __name__ == "__main__":
    convert_all_ndjson_items_to_csv()

✅ 저장 완료: Database/openapi/안전점검대상_지하시설물_점검결과.csv
✅ 저장 완료: Database/openapi/지하개발사업_정보.csv
✅ 저장 완료: Database/openapi/지반침하사고_정보.csv
✅ 저장 완료: Database/openapi/안전점검대상_지하시설물_정보.csv
✅ 저장 완료: Database/openapi/소규모지하안전평가_정보.csv
✅ 저장 완료: Database/openapi/지반침하_응급조치내용.csv
✅ 저장 완료: Database/openapi/착공후지하안전조사_정보.csv
✅ 저장 완료: Database/openapi/지반침하_안전조치내용.csv
✅ 저장 완료: Database/openapi/전문기관_실적.csv
✅ 저장 완료: Database/openapi/전문기관_정보.csv
✅ 저장 완료: Database/openapi/지하안전평가_정보.csv


# 전처리

## addr 병합

In [None]:
import os
import pandas as pd

def merge_address_columns(csv_path: str):
    df = pd.read_csv(csv_path, dtype=str)

    # NaN 방지 및 공백 제거
    for col in ["sido", "sigungu", "dong", "addr"]:
        if col in df.columns:
            df[col] = df[col].fillna("").astype(str).str.strip()
        else:
            print(f"🚨 누락된 컬럼: {col}")
            return

    # 병합 수행
    df["addr"] = df["sido"] + " " + df["sigungu"] + " " + df["dong"] + " " + df["addr"]
    df["addr"] = df["addr"].str.replace(r"\s+", " ", regex=True).str.strip()

    # 저장 (덮어쓰기)
    df.to_csv(csv_path, index=False, encoding="utf-8-sig")
    print(f"✅ 병합 및 저장 완료: {csv_path}")

def merge_all_in_folder(base_dir="Database/openapi"):
    for filename in os.listdir(base_dir):
        if filename.endswith(".csv") and not filename.startswith("test"):
            csv_path = os.path.join(base_dir, filename)
            merge_address_columns(csv_path)

# 실행
if __name__ == "__main__":
    merge_all_in_folder()

🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: dong
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
✅ 병합 및 저장 완료: Database/openapi/지반침하사고_정보.csv
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido
🚨 누락된 컬럼: sido


## addr to latlog

In [38]:
import os
import pandas as pd
import requests
import time
from dotenv import load_dotenv
from tqdm import tqdm

# .env 파일에서 환경변수 불러오기
load_dotenv()
KAKAO_REST_API_KEY = os.getenv("KAKAO_REST_API_KEY")

def get_coords_from_address(address: str):
    url = "https://dapi.kakao.com/v2/local/search/address.json"
    headers = {"Authorization": f"KakaoAK {KAKAO_REST_API_KEY}"}
    params = {"query": address}
    try:
        print(f"📤 요청 주소: {address}")
        response = requests.get(url, headers=headers, params=params)
        print(f"📥 응답 코드: {response.status_code}")
        
        if response.status_code == 200:
            result = response.json()
            documents = result.get("documents", [])
            print(f"📄 documents: {documents}")

            if documents:
                x = documents[0]["x"]  # longitude
                y = documents[0]["y"]  # latitude
                return y, x
            else:
                print(f"⚠️ 문서 없음 (주소 인식 실패): {address}")
        else:
            print(f"❌ 응답 실패: {response.text}")

    except Exception as e:
        print(f"❌ 예외 발생: {address} → {e}")
    return None, None



In [39]:
def fill_latlng_from_address(csv_path: str):
    print(f"▶️ 시작: {csv_path}")  # 시작 로그

    df = pd.read_csv(csv_path, dtype=str)
    
    if "addr" not in df.columns:
        print(f"🚨 addr 컬럼 없음: {csv_path}")
        return

    if "sagoLat" not in df.columns:
        df["sagoLat"] = ""
    if "sagoLon" not in df.columns:
        df["sagoLon"] = ""

    # NaN 처리
    df["sagoLat"] = df["sagoLat"].fillna("")
    df["sagoLon"] = df["sagoLon"].fillna("")

    to_fill = ((df["sagoLat"] == "") | (df["sagoLon"] == "")).sum()
    print(f"📌 좌표 채워야 할 행 수: {to_fill}")

    updated_count = 0

    for idx, row in tqdm(df.iterrows(), total=len(df), desc=os.path.basename(csv_path)):
        if not row["sagoLat"] or not row["sagoLon"]:
            address = row["addr"].split(",")[0].split("(")[0].strip()
            lat, lon = get_coords_from_address(address)
            if lat and lon:
                df.at[idx, "sagoLat"] = lat
                df.at[idx, "sagoLon"] = lon
                updated_count += 1
                print(f"📍 {address} → {lat}, {lon}")
            else:
                print(f"⚠️ 좌표 없음: {address}")
            time.sleep(0.3)

            if updated_count > 0 and updated_count % 5 == 0:
                df.to_csv(csv_path, index=False, encoding="utf-8-sig")
                print(f"💾 임시 저장 완료 (누적 {updated_count}개): {csv_path}")

    df.to_csv(csv_path, index=False, encoding="utf-8-sig")
    print(f"✅ 최종 저장 완료: {csv_path}")


def fill_selected_csv_latlng(filename: str, base_dir="Database/openapi"):
    csv_path = os.path.join(base_dir, filename)
    if os.path.exists(csv_path):
        print("✅ 실행 시작")
        fill_latlng_from_address(csv_path)
    else:
        print(f"❌ 파일 없음: {csv_path}")

In [65]:
# 실행
if __name__ == "__main__":
    # 예시: 지반침하사고_정보.csv 하나만 실행
    fill_selected_csv_latlng("seoul/지반침하사고_정보_위경도 채움.csv")

✅ 실행 시작
▶️ 시작: Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv
📌 좌표 채워야 할 행 수: 7


지반침하사고_정보_위경도 채움.csv:   0%|          | 0/133 [00:00<?, ?it/s]

📤 요청 주소: 서울특별시 관악구 보라매로 21
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 관악구 봉천동 732-17', 'b_code': '1162010100', 'h_code': '1162052500', 'main_address_no': '732', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '관악구', 'region_3depth_h_name': '보라매동', 'region_3depth_name': '봉천동', 'sub_address_no': '17', 'x': '126.926771137944', 'y': '37.4913731093454'}, 'address_name': '서울 관악구 보라매로 21', 'address_type': 'ROAD_ADDR', 'road_address': {'address_name': '서울 관악구 보라매로 21', 'building_name': '창암빌딩', 'main_building_no': '21', 'region_1depth_name': '서울', 'region_2depth_name': '관악구', 'region_3depth_name': '봉천동', 'road_name': '보라매로', 'sub_building_no': '', 'underground_yn': 'N', 'x': '126.926771137944', 'y': '37.4913731093454', 'zone_no': '08708'}, 'x': '126.926771137944', 'y': '37.4913731093454'}]
📍 서울특별시 관악구 보라매로 21 → 37.4913731093454, 126.926771137944


지반침하사고_정보_위경도 채움.csv:   8%|▊         | 11/133 [00:00<00:04, 29.74it/s]

📤 요청 주소: 서울특별시 강서구 방화대로 360
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 강서구 마곡동 1313', 'b_code': '1150010500', 'h_code': '1150063000', 'main_address_no': '1313', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '강서구', 'region_3depth_h_name': '방화1동', 'region_3depth_name': '마곡동', 'sub_address_no': '', 'x': '126.816984735352', 'y': '37.5729325838338'}, 'address_name': '서울 강서구 방화대로 360', 'address_type': 'ROAD_ADDR', 'road_address': {'address_name': '서울 강서구 방화대로 360', 'building_name': '', 'main_building_no': '360', 'region_1depth_name': '서울', 'region_2depth_name': '강서구', 'region_3depth_name': '마곡동', 'road_name': '방화대로', 'sub_building_no': '', 'underground_yn': 'N', 'x': '126.816984735352', 'y': '37.5729325838338', 'zone_no': '07592'}, 'x': '126.816984735352', 'y': '37.5729325838338'}]
📍 서울특별시 강서구 방화대로 360 → 37.5729325838338, 126.816984735352


지반침하사고_정보_위경도 채움.csv:  14%|█▍        | 19/133 [00:00<00:04, 25.11it/s]

📤 요청 주소: 서울특별시 성동구 살곶이2길 1
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 성동구 마장동 785-3', 'b_code': '1120010500', 'h_code': '1120054000', 'main_address_no': '785', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '성동구', 'region_3depth_h_name': '마장동', 'region_3depth_name': '마장동', 'sub_address_no': '3', 'x': '127.046839691464', 'y': '37.5653203768813'}, 'address_name': '서울 성동구 살곶이2길 1', 'address_type': 'ROAD_ADDR', 'road_address': {'address_name': '서울 성동구 살곶이2길 1', 'building_name': '', 'main_building_no': '1', 'region_1depth_name': '서울', 'region_2depth_name': '성동구', 'region_3depth_name': '마장동', 'road_name': '살곶이2길', 'sub_building_no': '', 'underground_yn': 'N', 'x': '127.046839691464', 'y': '37.5653203768813', 'zone_no': '04761'}, 'x': '127.046839691464', 'y': '37.5653203768813'}]
📍 서울특별시 성동구 살곶이2길 1 → 37.5653203768813, 127.046839691464


지반침하사고_정보_위경도 채움.csv:  17%|█▋        | 22/133 [00:01<00:06, 17.06it/s]

📤 요청 주소: 서울특별시 종로구 통일로12길 78
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 종로구 행촌동 210-53', 'b_code': '1111018100', 'h_code': '1111058000', 'main_address_no': '210', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '종로구', 'region_3depth_h_name': '교남동', 'region_3depth_name': '행촌동', 'sub_address_no': '53', 'x': '126.962023655327', 'y': '37.5757495176565'}, 'address_name': '서울 종로구 통일로12길 78', 'address_type': 'ROAD_ADDR', 'road_address': {'address_name': '서울 종로구 통일로12길 78', 'building_name': '', 'main_building_no': '78', 'region_1depth_name': '서울', 'region_2depth_name': '종로구', 'region_3depth_name': '행촌동', 'road_name': '통일로12길', 'sub_building_no': '', 'underground_yn': 'N', 'x': '126.962023655327', 'y': '37.5757495176565', 'zone_no': '03026'}, 'x': '126.962023655327', 'y': '37.5757495176565'}]
📍 서울특별시 종로구 통일로12길 78 → 37.5757495176565, 126.962023655327


지반침하사고_정보_위경도 채움.csv:  21%|██        | 28/133 [00:01<00:06, 16.56it/s]

📤 요청 주소: 서울특별시 동작구 상도동 368-6
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 동작구 상도동 368-6', 'b_code': '1159010200', 'h_code': '1159054000', 'main_address_no': '368', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '동작구', 'region_3depth_h_name': '상도2동', 'region_3depth_name': '상도동', 'sub_address_no': '6', 'x': '126.938942573289', 'y': '37.5044489430148'}, 'address_name': '서울 동작구 상도동 368-6', 'address_type': 'REGION_ADDR', 'road_address': {}, 'x': '126.938942573289', 'y': '37.5044489430148'}]
📍 서울특별시 동작구 상도동 368-6 → 37.5044489430148, 126.938942573289


지반침하사고_정보_위경도 채움.csv:  52%|█████▏    | 69/133 [00:01<00:01, 50.28it/s]

💾 임시 저장 완료 (누적 5개): Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv
📤 요청 주소: 서울특별시 용산구 도원동 9-298
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 용산구 도원동 9-298', 'b_code': '1117012000', 'h_code': '1117059000', 'main_address_no': '9', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '용산구', 'region_3depth_h_name': '용문동', 'region_3depth_name': '도원동', 'sub_address_no': '298', 'x': '126.956975102391', 'y': '37.5399094500815'}, 'address_name': '서울 용산구 도원동 9-298', 'address_type': 'REGION_ADDR', 'road_address': {}, 'x': '126.956975102391', 'y': '37.5399094500815'}]
📍 서울특별시 용산구 도원동 9-298 → 37.5399094500815, 126.956975102391


지반침하사고_정보_위경도 채움.csv:  59%|█████▉    | 79/133 [00:02<00:01, 42.55it/s]

📤 요청 주소: 서울특별시 구로구 디지털로 231
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 구로구 가리봉동 131-11', 'b_code': '1153010300', 'h_code': '1153059500', 'main_address_no': '131', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '구로구', 'region_3depth_h_name': '가리봉동', 'region_3depth_name': '가리봉동', 'sub_address_no': '11', 'x': '126.891282956636', 'y': '37.48076326519'}, 'address_name': '서울 구로구 디지털로 231', 'address_type': 'ROAD_ADDR', 'road_address': {'address_name': '서울 구로구 디지털로 231', 'building_name': '', 'main_building_no': '231', 'region_1depth_name': '서울', 'region_2depth_name': '구로구', 'region_3depth_name': '가리봉동', 'road_name': '디지털로', 'sub_building_no': '', 'underground_yn': 'N', 'x': '126.891282956636', 'y': '37.48076326519', 'zone_no': '08388'}, 'x': '126.891282956636', 'y': '37.48076326519'}]
📍 서울특별시 구로구 디지털로 231 → 37.48076326519, 126.891282956636


지반침하사고_정보_위경도 채움.csv: 100%|██████████| 133/133 [00:02<00:00, 51.08it/s]

✅ 최종 저장 완료: Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv





- 테스트

In [61]:
def test_specific_address(address: str):
    lat, lon = get_coords_from_address(address)
    if lat and lon:
        print(f"📍 {address} → 위도: {lat}, 경도: {lon}")
    else:
        print(f"❌ 변환 실패: {address}")

if __name__ == "__main__":
    # 테스트 주소 직접 입력
    test_specific_address("서울특별시 용산구 도원동 9-298")

📤 요청 주소: 서울특별시 용산구 도원동 9-298
📥 응답 코드: 200
📄 documents: [{'address': {'address_name': '서울 용산구 도원동 9-298', 'b_code': '1117012000', 'h_code': '1117059000', 'main_address_no': '9', 'mountain_yn': 'N', 'region_1depth_name': '서울', 'region_2depth_name': '용산구', 'region_3depth_h_name': '용문동', 'region_3depth_name': '도원동', 'sub_address_no': '298', 'x': '126.956975102391', 'y': '37.5399094500815'}, 'address_name': '서울 용산구 도원동 9-298', 'address_type': 'REGION_ADDR', 'road_address': {}, 'x': '126.956975102391', 'y': '37.5399094500815'}]
📍 서울특별시 용산구 도원동 9-298 → 위도: 37.5399094500815, 경도: 126.956975102391


- 테스트 : 키워드 검색

In [55]:
def get_coords_from_keyword(keyword: str):
    url = "https://dapi.kakao.com/v2/local/search/keyword.json"
    headers = {"Authorization": f"KakaoAK {KAKAO_REST_API_KEY}"}
    params = {"query": keyword}
    try:
        response = requests.get(url, headers=headers, params=params)
        if response.status_code == 200:
            documents = response.json().get("documents", [])
            if documents:
                x = documents[0]["x"]
                y = documents[0]["y"]
                return y, x
            else:
                print(f"⚠️ 결과 없음 (keyword API): {keyword}")
        else:
            print(f"❌ 요청 실패: {response.status_code}")
    except Exception as e:
        print(f"❌ 예외 발생: {e}")
    return None, None

In [56]:
address = "서울특별시 동작구 상도로 162"
lat, lon = get_coords_from_keyword(address)
print(f"{address} → {lat}, {lon}")

⚠️ 결과 없음 (keyword API): 서울특별시 동작구 상도로 162
서울특별시 동작구 상도로 162 → None, None


### 위경도 처리 잘 됐는지 확인

In [67]:
import pandas as pd
import os

def check_missing_latlon(csv_path: str):
    if not os.path.exists(csv_path):
        print(f"❌ 파일 없음: {csv_path}")
        return

    df = pd.read_csv(csv_path, dtype=str)

    if "sagoLat" not in df.columns or "sagoLon" not in df.columns:
        print("🚨 'sagoLat' 또는 'sagoLon' 컬럼이 존재하지 않습니다.")
        return

    # 결측값 필터링
    missing = df[(df["sagoLat"].isna()) | (df["sagoLat"] == "") |
                 (df["sagoLon"].isna()) | (df["sagoLon"] == "")]
    
    if missing.empty:
        print("✅ 위경도 누락된 행이 없습니다.")
    else:
        print(f"⚠️ 위경도 누락 행 수: {len(missing)}")
        print(missing[["addr", "sagoLat", "sagoLon"]])

# 실행 예시
if __name__ == "__main__":
    csv_file = "Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv"
    check_missing_latlon(csv_file)

✅ 위경도 누락된 행이 없습니다.


- 서울특별시 관악구 보라매로 21 (봉천동)
- 서울특별시 강서구 방화대로 360 (마곡동)
- 서울특별시 성동구 살곶이2길 1 (마장동)
- 서울특별시 동작구 상도동 185-1 -> 37.503595250356625, 126.93726921197452
- 서울특별시 종로구 통일로12길 78 (행촌동)
- 서울특별시 강동구 고덕동 217 -> 37.55585, 127.1593
- 서울특별시 성북구 장위동 124-29 -> 37.61784, 127.0561
- 서울특별시 동작구 상도동 368-6
- 서울특별시 용산구 도원동 9-298
- 37.54043, 127.1166
- 서울특별시 구로구 디지털로 231 # 부정확함

In [63]:
df = pd.read_csv("Database/openapi/seoul/지반침하사고_정보.csv", dtype=str)

# 주소 보정 및 위경도 직접 할당
df.loc[10, "addr"] = "서울특별시 관악구 보라매로 21 (봉천동)"
df.loc[18, "addr"] = "서울특별시 강서구 방화대로 360 (마곡동)"
df.loc[21, "addr"] = "서울특별시 성동구 살곶이2길 1 (마장동)"
df.loc[25, "addr"] = "서울특별시 동작구 상도동 185-1"
df.loc[25, "sagoLat"] = "37.503595250356625"
df.loc[25, "sagoLon"] = "126.93726921197452"
df.loc[27, "addr"] = "서울특별시 종로구 통일로12길 78 (행촌동)"
df.loc[31, "addr"] = "서울특별시 강동구 고덕동 217"
df.loc[31, "sagoLat"] = "37.55585"
df.loc[31, "sagoLon"] = "127.1593"
df.loc[54, "addr"] = "서울특별시 성북구 장위동 124-29"
df.loc[54, "sagoLat"] = "37.61784"
df.loc[54, "sagoLon"] = "127.0561"
df.loc[68, "addr"] = "서울특별시 동작구 상도동 368-6"
df.loc[78, "addr"] = "서울특별시 용산구 도원동 9-298"
df.loc[82, "sagoLat"] = "37.54043"
df.loc[82, "sagoLon"] = "127.1166"
df.loc[109, "addr"] = "서울특별시 구로구 디지털로 231"  # 정확한 위치 불확실, 참고용

In [64]:
df.to_csv("Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv", index=False, encoding="utf-8-sig")

## 원인 전처리

In [105]:
df = pd.read_csv("Database/openapi/seoul/지반침하사고_정보_위경도 채움.csv", dtype=str)

In [107]:
def insert_labels_to_column(df, labels, start_idx=0):
    """
    sagoDetailProcessed 컬럼에 지정한 라벨 리스트를 해당 인덱스에 맞게 삽입합니다.

    Args:
        df (pd.DataFrame): 원본 DataFrame
        labels (list): 각 행에 삽입할 라벨 리스트
        start_idx (int): 시작 인덱스 (기본값은 0)

    Returns:
        pd.DataFrame: 수정된 DataFrame
    """
    end_idx = start_idx + len(labels)
    
    # 컬럼 없으면 생성
    if "sagoDetailProcessed" not in df.columns:
        df["sagoDetailProcessed"] = ""

    for i, label in enumerate(labels):
        df.at[start_idx + i, "sagoDetailProcessed"] = label

    return df

In [108]:
import pandas as pd

# 잘림 없이 전체 텍스트 출력 설정
pd.set_option("display.max_colwidth", None)

index = 0
# 예시: 앞 20개만 출력
print(df["sagoDetail"].iloc[index:index + 20])

0                               열수송관(D600mm) 노후 손상으로 함몰 발생\n(굴착복구 미흡분야로 관리)
1                           상수관(？300mm)에서 분기된 소화전 연결관(？100mm) 동파로 누수되어 함몰발생
2                                           KT 통신맨홀 슬라브 파손\n(굴착복구 미흡분야로 관리)
3                                                  하수관로(D450㎜) 노후？파손으로 토사유실
4                          인근 공사차량(레미콘차) 중량에 의한 노후 하수박스 상판파손(하수박스 1946년 부설)
5                                           폐쇄된 빗물받이 연결관을 폐관처리 하지 않아 토사가 유실
6                                              우수관로(D1000mm) 노후파손으로 인한 토사유입
7                                                       공공하수관 노후 손상되어 토사 유실
8                                                      하수관 연결부 이격으로 인한 토사유입
9                  지하철 7호선 공사시 설치한 가시설(H-beam)인접 다짐불량, 토류판 부식 등 장기침하로 인한 함몰
10                                                폐쇄되지 않은 폐 빗물받이연결관으로 토사 유실
11             상수도 이설구간 접합부(700mm에서 300mm로 분기)에서  외부 진동, 압력 등에 의한 파열로 누수 발생
12                                                     굴착복구 다짐 미흡으로 인한 장기침하
13          

In [109]:
labels = [
["노후 지하시설물", "굴착/복구 불량"],  # 0: 열수송관 노후 + 복구 미흡 관리
"노후 지하시설물",                  # 1: 상수관 동파 누수
["노후 지하시설물", "굴착/복구 불량"],  # 2: 슬라브 파손 + 복구 미흡
["노후 지하시설물", "지반 약화"],     # 3: 노후 하수관 파손 → 토사유실
["공사 영향", "노후 지하시설물"],     # 4: 공사차량 영향 + 노후 하수박스
"설계/시공 오류",                  # 5: 폐쇄하지 않은 연결관
["노후 지하시설물", "지반 약화"],     # 6: 노후 우수관 파손 → 유입
["노후 지하시설물", "지반 약화"],     # 7: 하수관 손상 → 유실
["설계/시공 오류", "지반 약화"],      # 8: 이격 → 토사 유입
["공사 영향", "굴착/복구 불량"],      # 9: 가시설 영향 + 다짐불량 등
"설계/시공 오류",                  # 10: 폐쇄 안 된 연결관
"노후 지하시설물",                 # 11: 상수도 접합부 파열 누수
"굴착/복구 불량",                 # 12: 다짐 미흡
"지하시설물 영향",                 # 13: 매설 중 하수관 파손
"노후 지하시설물",                 # 14: 슬래브 및 벽체 노후화
"설계/시공 오류",                 # 15: 맨홀 접속부 이음 불량
["공사 영향", "설계/시공 오류"],     # 16: 공사장 인입 및 접속부 처리 미흡
"노후 지하시설물",                 # 17: 하수관 손상 + 접속부 미폐쇄
"기타 / 미상",                   # 18: 원인불명 (추정)
"노후 지하시설물",                 # 19: 하수맨홀 연결부 파손
["노후 지하시설물", "설계/시공 오류", "자연재해"],  # 20: 노후관 + 연결부 이격 + 집중호우
"노후 지하시설물",                         # 21: 상수도관 부식
"노후 지하시설물",                         # 22: 미철거 + 손괴
["공사 영향", "자연재해", "지반 약화"],         # 23: 집중호우 + 토사 유입 + 침하
["설계/시공 오류", "지반 약화"],              # 24: 이음부 이격 → 유실
"기타 / 미상",                           # 25: 장기침하 추정 (불명확)
"굴착/복구 불량",                         # 26: 다짐불량, 압밀침하
"노후 지하시설물",                         # 27: 차량진동 → 상수도관 누수
["설계/시공 오류", "지반 약화"],              # 28: 접합부 파손 → 토사 유출
["노후 지하시설물", "지반 약화", "기타 / 미상"], # 29: 파손 + 조사 중
"지반 약화",                             # 30: 장기 압밀침하
"설계/시공 오류",                         # 31: 접속부 시공불량
["노후 지하시설물", "설계/시공 오류"],         # 32: 접속부 불량
["노후 지하시설물", "지반 약화"],             # 33: 상수도관 누수 → 토사유실
["공사 영향", "지반 약화"],                 # 34: 중차량 하중 → 침하
"굴착/복구 불량",                         # 35: 장기침하
["설계/시공 오류", "지반 약화"],              # 36: 접합 불량 + 쇄굴
["공사 영향", "노후 지하시설물", "설계/시공 오류"], # 37: 복합요인, 공사장, 노후관, 손괴
"설계/시공 오류",                         # 38: 접합부 결함
"지반 약화",                              # 39: 장기압밀 침하
"노후 지하시설물",                            # 40: 하수관 연결부 파손
"노후 지하시설물",                            # 41: 상수도관 누수
"설계/시공 오류",                             # 42: 빗물받이 벽체 파손
"기타 / 미상",                               # 43: 점검 이상 없음, 원인 불명
"설계/시공 오류",                             # 44: 엘리베이터 설치 부실
"설계/시공 오류",                             # 45: 통신관 하부 빈 공간
"노후 지하시설물",                            # 46: 맨홀 하부 구체 파손
["노후 지하시설물", "설계/시공 오류"],          # 47: 하수관 이격, 라이닝 변형
"노후 지하시설물",                            # 48: 하수맨홀 하부 파손
"노후 지하시설물",                            # 49: 하수관 노후화로 인한 동공
["설계/시공 오류", "기타 / 미상"],             # 50: 폐하수관 존치, 매립물
["자연재해", "설계/시공 오류", "지반 약화"],    # 51: 호우 + 토류벽 유실 + 접합부 파손
"노후 지하시설물",                            # 52: 차량진동 → 상수도 누수
"지반 약화",                                 # 53: 침하로 동공 발생
["공사 영향", "지반 약화"],                   # 54: 공사장 차수 불량 → 지하수위 침하
["설계/시공 오류", "공사 영향"],              # 55: 접합불량 + 신설 하수관 공사장
["노후 지하시설물", "공사 영향"],             # 56: 벽체·슬래브 노후 + 중차량 진입
"공사 영향",                                 # 57: 건축현장 지하공사
"노후 지하시설물",                            # 58: 강관(1970년 부설) 용접부 파손
["공사 영향", "기타 / 미상"],                 # 59: 민간 아파트 굴착공사 중 사고 추정
"노후 지하시설물",                        # 60: 하수관 이음부 이격
"원인불명/기타",                         # 61: 원인조사 필요
"지반 약화",                             # 62: 지하수로 인한 토사 유출
["자연재해", "노후 지하시설물"],         # 63: 집중호우 + 하수박스 파손
"원인불명/기타",                         # 64: NaN
"지하시설물 영향",                      # 65: 주변 지하매설물 이상 추정
"설계/시공 오류",                       # 66: 배수시설 연결관 접합불량
"원인불명/기타",                         # 67: 원인미상
["공사 영향", "굴착/복구 불량"],         # 68: 승강편의시설 공사 + 다짐불량 + 집중호우
["공사 영향", "자연재해"],              # 69: 집중호우 + 공사장 하수관 월류
"노후 지하시설물",                        # 70: 개인 사유지 노후 하수관
["자연재해", "설계/시공 오류"],         # 71: 집중호우 + 배수설비 파손
"지반 약화",                             # 72: 통신관로 주변 침하
"노후 지하시설물",                        # 73: 하수관 파손
"굴착/복구 불량",                        # 74: 다짐불량
"설계/시공 오류",                       # 75: 가정하수관 연결부 파손
"공사 영향",                             # 76: 건축물 신축 공사장 인근
"설계/시공 오류",                       # 77: 가시설 미제거 + 통신케이블 처짐
"노후 지하시설물",                        # 78: 흄관 파손
"설계/시공 오류",                        # 79: 하수관 이음부 이격
"굴착/복구 불량",          # 80: 되메우기 다짐불량
"굴착/복구 불량",          # 81: 다짐불량
["공사 영향", "지반 약화"], # 82: 공사 인접 + 우천 토사유실
["공사 영향", "자연재해"],  # 83: 신설공사 + 우천
["공사 영향", "설계/시공 오류"], # 84: 공사 중 이음부 이격 및 누수
"노후 지하시설물",         # 85: 하수박스 파손
"노후 지하시설물",         # 86: 노후 하수관 파손
"노후 지하시설물",         # 87: 하수박스 외벽 파손
"설계/시공 오류",          # 88: 접속부 불량, 이음부 이격
"지반 약화",              # 89: 토사 유출 지속 → 지반침하
["노후 지하시설물", "자연재해"], # 90: 타관통과 + 집중호우
"노후 지하시설물",         # 91: 폐쇄 상수관로 접합부 손상
"노후 지하시설물",         # 92: 상수도 누수
"지반 약화",              # 93: 부등침하 → 파손
"노후 지하시설물",         # 94: 상수도 누수 → 하수관 이격
"노후 지하시설물",         # 95: 하수관 맨홀 이상
"기타 / 미상",            # 96: 불명 조적구조물 파손 (구조물 종류 불명확)
"노후 지하시설물",         # 97: 상수관 손상 누수
"굴착/복구 불량",          # 98: 다짐불량
"설계/시공 오류",           # 99: 빗물받이 연결관 미폐공
["공사 영향", "자연재해"],      # 100: 해빙기 공사 + 토사유실
"노후 지하시설물",              # 101: 노후·파손 빗물받이 연결관
"노후 지하시설물",              # 102: 하수맨홀과 하수관 이음부 파손
"노후 지하시설물",              # 103: 상수관 누수
"자연재해",                     # 104: 집중호우
"기타 / 미상",                 # 105: 원인 미상
"지반 약화",                   # 106: 연약지반 장기압밀침하
"굴착/복구 불량",              # 107: 하수박스 연결부 채움재 불량
"지반 약화",                   # 108: 장기 압밀침하
"노후 지하시설물",              # 109: 하수박스 파손
"기타 / 미상",                 # 110: NaN
"노후 지하시설물",              # 111: 체신(통신)맨홀 파손
["공사 영향", "지반 약화"],      # 112: 공사장 지하수 유출 → 토사유실
"노후 지하시설물",              # 113: 수도 누수 → 하수관(폐관) 파손
"굴착/복구 불량",              # 114: 맨홀 박스 주변 다짐 불량
["공사 영향", "설계/시공 오류"], # 115: 추진공사 + 그라우팅 미실시
"설계/시공 오류",              # 116: 하수관로 접합부 이탈
"노후 지하시설물",              # 117: 하수도 노후화
"기타 / 미상",                 # 118: 원인 불명
"기타 / 미상",                  # 119: 조사중
"기타 / 미상",            # 120: 단순 도로침하
"지반 약화",              # 121: 장기 침하 등 추정
"노후 지하시설물",        # 122: 하수맨홀 하부슬라브 파손 → 하수 유출
"노후 지하시설물",        # 123: 수도 누수
"노후 지하시설물",        # 124: 하수관로 파손
"노후 지하시설물",        # 125: 하수맨홀 구체 파손
"지반 약화",              # 126: 토양의 압밀 침하
"지반 약화",              # 127: 토사 유실로 인한 단순 침하
"굴착/복구 불량",         # 128: 공사 다짐 불량
"설계/시공 오류",         # 129: 기존관·신설관 이음부 이격
"굴착/복구 불량",         # 130: 가시설 주변 토류판 부식
"굴착/복구 불량",         # 131: 가시설 주변 장기 지반침하
"노후 지하시설물"         # 132: 하수관 파손
]

len(labels), len(df), index, df.shape


(133, 133, 0, (133, 22))

In [110]:
df = insert_labels_to_column(df, labels, start_idx=index)
df["sagoDetailProcessed"].iloc[:]

0      [노후 지하시설물, 굴착/복구 불량]
1                  노후 지하시설물
2      [노후 지하시설물, 굴착/복구 불량]
3         [노후 지하시설물, 지반 약화]
4         [공사 영향, 노후 지하시설물]
               ...         
128                굴착/복구 불량
129                설계/시공 오류
130                굴착/복구 불량
131                굴착/복구 불량
132                노후 지하시설물
Name: sagoDetailProcessed, Length: 133, dtype: object

In [111]:
df.to_csv("Database/openapi/seoul/지반침하사고_정보_위경도_채움.csv", index=False, encoding="utf-8-sig")

## 복구 방법 전처리

In [129]:
df = pd.read_csv("Database/openapi/seoul/지반침하사고_정보_위경도_채움.csv", dtype=str)
df

Unnamed: 0,sagoNo,sido,sigungu,dong,addr,sagoLat,sagoLon,sagoDate,sinkWidth,sinkExtend,...,deathCnt,injuryCnt,vehicleCnt,trStatus,trMethod,trAmt,trFnDate,daStDate,no,sagoDetailProcessed
0,20180001,서울특별시,강남구,삼성동,서울특별시 강남구 삼성동 147-2앞 (봉은사로 86길),37.5132371585627,127.055971939683,20180301,3.00,4.00,...,0,0,0,복구완료,한국지역난방공사에서 복구완료,0,20180306,00010101,1,"['노후 지하시설물', '굴착/복구 불량']"
1,20180002,서울특별시,송파구,삼전동,서울특별시 송파구 삼전동 180-6 (백제고분로 272),37.5021977560891,127.096494047762,20180304,1.00,2.00,...,0,0,0,복구완료,강동수도사업소에서 복구완료,0,20180305,00010101,1,노후 지하시설물
2,20180003,서울특별시,구로구,구로동,서울특별시 구로구 구로동 723-16 (구로동로17길),37.488421596603,126.883472710376,20180311,0.40,0.40,...,0,0,0,복구완료,KT구로지사에서 복구완료,0,20180312,00010101,1,"['노후 지하시설물', '굴착/복구 불량']"
3,20180004,서울특별시,영등포구,당산동4가,서울특별시 영등포구 당산동4가 93-5 (국회대로 539),37.5293098168504,126.894815508944,20180313,0.50,0.70,...,0,0,1,복구완료,영등포구 치수과에서 복구완료,0,20180318,00010101,1,"['노후 지하시설물', '지반 약화']"
4,20180005,서울특별시,영등포구,양평동4가,서울특별시 영등포구 양평동4가 23-2 (양평로19길 19),37.5356952035028,126.89430452358,20180327,5.00,5.00,...,0,0,1,복구완료,영등포구 치수과에서 복구완료,0,20180507,00010101,1,"['공사 영향', '노후 지하시설물']"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
128,20250049,서울특별시,강남구,도곡동,서울특별시 강남구 도곡동 543-7,37.4922748332904,127.043511837517,20250512,1.50,1.20,...,0,0,0,임시복구,"라바콘, 모래주머니",0,20250512,00010101,1,굴착/복구 불량
129,20250053,서울특별시,동대문구,회기동,서울특별시 동대문구 회기동 60-104,37.5917967992063,127.049936318026,20250516,1.00,1.00,...,0,0,1,복구완료,기존관 및 신설관 관경 확보하여 수밀밸트로 이음부 보강,0,20250516,00010101,1,설계/시공 오류
130,20250056,서울특별시,서초구,서초동,서울특별시 서초구 서초동 사평대로 376-2,37.5042040311426,127.024123820963,20250507,4.00,10.00,...,0,0,0,복구완료,"아스콘 포설 다짐, 표층 복구",0,20250507,00010101,1,굴착/복구 불량
131,20250057,서울특별시,서초구,서초동,서울특별시 서초구 서초동 사평대로 376-2,37.5042040311426,127.024123820963,20250517,1.50,1.50,...,0,0,1,복구완료,"아스콘 포설 다짐, 표층복구",0,20250518,00010101,1,굴착/복구 불량


In [131]:
def insert_labels_to_column_tr(df, labels, start_idx=0):
    """
    trMethodProcessed 컬럼에 지정한 라벨 리스트를 해당 인덱스에 맞게 삽입합니다.

    Args:
        df (pd.DataFrame): 원본 DataFrame
        labels (list): 각 행에 삽입할 라벨 리스트
        start_idx (int): 시작 인덱스 (기본값은 0)

    Returns:
        pd.DataFrame: 수정된 DataFrame
    """
    end_idx = start_idx + len(labels)
    
    # 컬럼 없으면 생성
    if "trMethodProcessed" not in df.columns:
        df["trMethodProcessed"] = ""

    for i, label in enumerate(labels):
        df.at[start_idx + i, "trMethodProcessed"] = label

    return df

In [134]:
import pandas as pd

# 잘림 없이 전체 텍스트 출력 설정
pd.set_option("display.max_colwidth", None)

index = 0
# 예시: 앞 20개만 출력
print(df[["trMethod", "trStatus"]].iloc[index:index + 20])

                trMethod trStatus
0        한국지역난방공사에서 복구완료     복구완료
1         강동수도사업소에서 복구완료     복구완료
2          KT구로지사에서 복구완료     복구완료
3        영등포구 치수과에서 복구완료     복구완료
4        영등포구 치수과에서 복구완료     복구완료
5        영등포구 치수과에서 복구완료     복구완료
6        도봉구 물관리과에서 복구완료     복구완료
7         강남구 치수과에서 복구완료     복구완료
8         용산구 치수과에서 복구완료     복구완료
9         구로구 도로과에서 복구완료     복구완료
10        관악구 치수과에서 복구완료     복구완료
11        중부수도사업소에서 복구완료     복구완료
12  남부도로사업소 도로보수과에서 복구완료     복구완료
13      종로구 안전치수과에서 복구완료     복구완료
14      강북구 안전치수과에서 복구완료     복구완료
15      동작구 안전치수과에서 복구완료     복구완료
16       원인자(웰크론한텍㈜)복구완료     복구완료
17       강서구 물관리과에서 복구완료     복구완료
18           강서구청에서 복구완료     복구완료
19         중구 치수과에서 복구완료     복구완료


In [None]:
df = insert_labels_to_column_tr(df, labels, start_idx=index)
df["trMethodProcessed"].iloc[:]

## 날씨 데이터 일시 컬럼 수정

In [148]:
import pandas as pd

def modify_date_column(filepath):
    # CSV 파일 불러오기
    df = pd.read_csv(filepath)

    # '일시'에서 '-' 제거 → '일시_modified' 컬럼 생성
    df['일시_modified'] = df['일시'].astype(str).str.replace('-', '', regex=False)

    # 동일 파일로 덮어쓰기
    df.to_csv(filepath, index=False, encoding='utf-8-sig')
    print(f"변경된 데이터가 {filepath}에 저장되었습니다.")

# 사용 예시
modify_date_column("sinkhole-visualization/src/data/weather_with_sigungu.csv")

변경된 데이터가 sinkhole-visualization/src/data/weather_with_sigungu.csv에 저장되었습니다.


# 특정 지역

In [42]:
import os
import pandas as pd

def filter_and_save_seoul_rows(input_path: str, output_dir: str):
    # 파일 존재 여부 확인
    if not os.path.exists(input_path):
        print(f"❌ 입력 파일 없음: {input_path}")
        return

    # CSV 로드
    df = pd.read_csv(input_path, dtype=str)

    # sido 컬럼 존재 여부 확인
    if "sido" not in df.columns:
        print("🚨 'sido' 컬럼이 존재하지 않습니다.")
        return

    # '서울특별시'에 해당하는 행 필터링
    seoul_df = df[df["sido"] == "서울특별시"]

    if seoul_df.empty:
        print("⚠️ 서울특별시 데이터가 없습니다.")
        return

    # 출력 디렉토리 생성
    os.makedirs(output_dir, exist_ok=True)
    output_path = os.path.join(output_dir, os.path.basename(input_path))

    # 저장
    seoul_df.to_csv(output_path, index=False, encoding="utf-8-sig")
    print(f"✅ 저장 완료: {output_path}")

# 실행 예시
if __name__ == "__main__":
    input_csv = "Database/openapi/지반침하사고_정보.csv"
    output_folder = "Database/openapi/seoul"
    filter_and_save_seoul_rows(input_csv, output_folder)

✅ 저장 완료: Database/openapi/seoul/지반침하사고_정보.csv


## sinkholes.json에 날씨 추가

In [149]:
import pandas as pd
import json

# 1. JSON 파일 불러오기
with open('sinkhole-visualization/src/sinkholes.json', 'r', encoding='utf-8') as f:
    sinkholes = json.load(f)

# 2. 날씨 CSV 불러오기
weather_df = pd.read_csv('/Users/yiji/Desktop/YONSEI/데이터 시각화/프로젝트/Lookatme/sinkhole-visualization/src/data/weather_with_sigungu.csv', dtype={'일시_modified': str})

# 3. 병합용 딕셔너리 만들기
weather_map = {
    f"{row['일시_modified']}_{row['sigungu']}": {
        'avgTemp': row['평균기온(°C)'],
        'rainfall': row['일강수량(mm)']
    }
    for _, row in weather_df.iterrows()
}

# 4. 싱크홀 데이터에 날씨 추가
for item in sinkholes:
    date_str = str(item.get('sagoDate'))[:8]
    sigungu = item.get('sigungu', '').strip()
    key = f"{date_str}_{sigungu}"
    weather = weather_map.get(key)

    if weather:
        item['avgTemp'] = weather['avgTemp']
        item['rainfall'] = weather['rainfall']
    else:
        item['avgTemp'] = None
        item['rainfall'] = None

# 5. 결과 저장
with open('/Users/yiji/Desktop/YONSEI/데이터 시각화/프로젝트/Lookatme/sinkhole-visualization/src/sinkholes.json', 'w', encoding='utf-8') as f:
    json.dump(sinkholes, f, ensure_ascii=False, indent=2)

print("✅ 병합 완료! → sinkholes.json")


✅ 병합 완료! → sinkholes.json


In [151]:
import pandas as pd
import json
import numpy as np

# 기존 sinkhole 데이터 로드
with open('sinkhole-visualization/src/sinkholes.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# 혹시 DataFrame으로 다루고 있다면:
df = pd.DataFrame(data)

# NaN 값을 None으로 변환
df = df.replace({np.nan: None})

# 다시 JSON 저장
with open('sinkhole-visualization/src/sinkholes.json', 'w', encoding='utf-8') as f:
    json.dump(df.to_dict(orient='records'), f, ensure_ascii=False, indent=2)

# EDA

In [114]:
df["grdKind"].unique()

array([nan, '호상편마암', '기타', '충척층'], dtype=object)

In [138]:
df["grdKind"].isna().sum()

92

In [139]:
df[df["grdKind"] == "충척층"].count()

sagoNo                 1
sido                   1
sigungu                1
dong                   1
addr                   1
sagoLat                1
sagoLon                1
sagoDate               1
sinkWidth              1
sinkExtend             1
sinkDepth              1
grdKind                1
sagoDetail             1
deathCnt               1
injuryCnt              1
vehicleCnt             1
trStatus               1
trMethod               1
trAmt                  1
trFnDate               1
daStDate               1
no                     1
sagoDetailProcessed    1
dtype: int64

In [121]:
df["trStatus"].unique()

array(['복구완료', '임시복구', '복구중'], dtype=object)

In [124]:
df["trAmt"].unique()

array(['0', '20000000', '3000000', '350000000', '5000000', '4000000',
       '1000000', '2000000'], dtype=object)

In [127]:
df[df["trAmt"] == "0"].count()

sagoNo                 123
sido                   123
sigungu                123
dong                   113
addr                   123
sagoLat                123
sagoLon                123
sagoDate               123
sinkWidth              123
sinkExtend             123
sinkDepth              123
grdKind                 32
sagoDetail             121
deathCnt               123
injuryCnt              123
vehicleCnt             123
trStatus               123
trMethod               123
trAmt                  123
trFnDate               123
daStDate               123
no                     123
sagoDetailProcessed    123
dtype: int64

In [125]:
df["trFnDate"].unique()

array(['20180306', '20180305', '20180312', '20180318', '20180507',
       '20180328', '20180426', '20180525', '20180429', '20180624',
       '20180717', '20180815', '20180905', '20181202', '20181219',
       '20190425', '20190728', '20190803', '20190806', '20190808',
       '20190814', '20190907', '20190911', '20190912', '20190917',
       '20190922', '20191127', '20191224', '20200108', '20200306',
       '20200512', '20200313', '20200515', '20200522', '20200917',
       '20201116', '20200922', '20200810', '20200820', '20200829',
       '20200812', '20200818', '20200724', '20210331', '20210309',
       '20210407', '20210609', '20210806', '20210704', '20210728',
       '20210826', '20210821', '20210905', '20220218', '20220128',
       '20220124', '20220624', '20220629', '20220701', '20220718',
       '20220706', '20220710', '20220810', '20220809', '20220814',
       '20220818', '20221004', '20221119', '20221210', '20230102',
       '20230113', '20230217', '20230308', '20230313', '202303

In [146]:
df[df["sagoDetailProcessed"].str.contains("지반 약화", na=False)].count()

sagoNo                 27
sido                   27
sigungu                27
dong                   26
addr                   27
sagoLat                27
sagoLon                27
sagoDate               27
sinkWidth              27
sinkExtend             27
sinkDepth              27
grdKind                 5
sagoDetail             27
deathCnt               27
injuryCnt              27
vehicleCnt             27
trStatus               27
trMethod               27
trAmt                  27
trFnDate               27
daStDate               27
no                     27
sagoDetailProcessed    27
dtype: int64

In [143]:
df["sagoDetailProcessed"].unique()

array(["['노후 지하시설물', '굴착/복구 불량']", '노후 지하시설물', "['노후 지하시설물', '지반 약화']",
       "['공사 영향', '노후 지하시설물']", '설계/시공 오류', "['설계/시공 오류', '지반 약화']",
       "['공사 영향', '굴착/복구 불량']", '굴착/복구 불량', '지하시설물 영향',
       "['공사 영향', '설계/시공 오류']", '기타 / 미상',
       "['노후 지하시설물', '설계/시공 오류', '자연재해']", "['공사 영향', '자연재해', '지반 약화']",
       "['노후 지하시설물', '지반 약화', '기타 / 미상']", '지반 약화',
       "['노후 지하시설물', '설계/시공 오류']", "['공사 영향', '지반 약화']",
       "['공사 영향', '노후 지하시설물', '설계/시공 오류']", "['설계/시공 오류', '기타 / 미상']",
       "['자연재해', '설계/시공 오류', '지반 약화']", "['설계/시공 오류', '공사 영향']",
       "['노후 지하시설물', '공사 영향']", '공사 영향', "['공사 영향', '기타 / 미상']",
       '원인불명/기타', "['자연재해', '노후 지하시설물']", "['공사 영향', '자연재해']",
       "['자연재해', '설계/시공 오류']", "['노후 지하시설물', '자연재해']", '자연재해'],
      dtype=object)