In [None]:
import requests
import xml.etree.ElementTree as ET
import pandas as pd
from concurrent.futures import ThreadPoolExecutor, as_completed
from tqdm import tqdm
import time

# API 요청 URL 및 기본 파라미터 설정
url = "https://apis.data.go.kr/B553077/api/open/sdsc2/storeListInDong"
service_key = "VllPGBHyYqwt8xReydqLPRy08DwNkL3jvkbl/pADFjWJ28QlggjEvMQd4UpVqjxqDeV/GHBtun4WRLF+8mZjxA=="
numOfRows = 100  # 페이지당 결과 수를 100개로 설정
max_page = 20   # 최대 페이지 수 설정 (예: 100페이지까지)

# 요청을 통해 데이터를 가져오는 함수 정의
def fetch_data(pageNo):
    params = {
        "ServiceKey": service_key,    # 인증키 (인코딩된 형태로 입력)
        "pageNo": pageNo,             # 페이지 번호
        "numOfRows": numOfRows,       # 한 페이지 결과 수
        "divId": "ctprvnCd",          # 구분 ID (시도 코드 사용)
        "key": "41",                  # 시도 코드 값
        "indsLclsCd": "I2",           # 업종 대분류 코드
        "type": "xml"                 # 응답 타입 (xml 또는 json)
    }
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        root = ET.fromstring(response.text)
        items = root.find(".//items")
        page_data = []
        if items is not None and len(items) > 0:
            for item in items:
                data = {
                    "bizesId": item.findtext("bizesId"),
                    "bizesNm": item.findtext("bizesNm"),
                    "brchNm": item.findtext("brchNm"),
                    "indsLclsCd": item.findtext("indsLclsCd"),
                    "indsLclsNm": item.findtext("indsLclsNm"),
                    "indsMclsCd": item.findtext("indsMclsCd"),
                    "indsMclsNm": item.findtext("indsMclsNm"),
                    "indsSclsCd": item.findtext("indsSclsCd"),
                    "indsSclsNm": item.findtext("indsSclsNm"),
                    "ksicCd": item.findtext("ksicCd"),
                    "ksicNm": item.findtext("ksicNm"),
                    "adongCd": item.findtext("adongCd"),
                    "rdnmCd": item.findtext("rdnmCd"),
                    "rdnm": item.findtext("rdnm"),
                    "lon": item.findtext("lon"),
                    "lat": item.findtext("lat")
                }
                page_data.append(data)
            return page_data
        else:
            return None
    else:
        print(f"페이지 {pageNo}에서 요청 실패: {response.status_code}")
        return None

# 병렬 처리를 통해 데이터를 빠르게 수집하여 DataFrame에 저장
all_data = []
print("데이터 추출 중...")

with ThreadPoolExecutor(max_workers=10) as executor:  # 최대 10개의 스레드 사용
    futures = {executor.submit(fetch_data, page): page for page in range(1, max_page + 1)}
    for future in tqdm(as_completed(futures), total=len(futures), desc="페이지 처리 중"):
        page_data = future.result()
        if page_data:
            all_data.extend(page_data)

# DataFrame으로 변환
df = pd.DataFrame(all_data)

# 결과 출력 (또는 파일로 저장)
print(f"\n총 데이터 개수: {len(df)}")
print(df.head())  # 데이터의 상위 5개 행을 출력


In [2]:
# # DataFrame을 JSON 파일로 변환하고 저장
# json_file_path = "extracted_data1000.json"
# df.to_json(json_file_path, orient="records", force_ascii=False, indent=4)

# print(f"데이터가 JSON 파일로 '{json_file_path}'에 저장되었습니다.")

데이터가 JSON 파일로 'extracted_data2.json'에 저장되었습니다.


In [None]:
# import requests
# import xml.etree.ElementTree as ET
# import pandas as pd
# from concurrent.futures import ThreadPoolExecutor, as_completed
# from tqdm import tqdm
# import time

# # API 요청 URL 및 기본 파라미터 설정
# url = "https://apis.data.go.kr/B553077/api/open/sdsc2/storeListInDong"
# service_key = "VllPGBHyYqwt8xReydqLPRy08DwNkL3jvkbl/pADFjWJ28QlggjEvMQd4UpVqjxqDeV/GHBtun4WRLF+8mZjxA=="
# numOfRows = 100  # 페이지당 결과 수를 100개로 설정
# max_page = 1500   # 최대 페이지 수 설정

# # 요청을 통해 데이터를 가져오는 함수 정의
# def fetch_data(pageNo):
#     params = {
#         "ServiceKey": service_key,    # 인증키 (인코딩된 형태로 입력)
#         "pageNo": pageNo,             # 페이지 번호
#         "numOfRows": numOfRows,       # 한 페이지 결과 수
#         "divId": "ctprvnCd",          # 구분 ID (시도 코드 사용)
#         "key": "41",                  # 시도 코드 값
#         "indsLclsCd": "I2",           # 업종 대분류 코드
#         "type": "xml"                 # 응답 타입 (xml 또는 json)
#     }
#     response = requests.get(url, params=params)
    
#     if response.status_code == 200:
#         root = ET.fromstring(response.text)
#         items = root.find(".//items")
#         page_data = []
#         if items is not None and len(items) > 0:
#             for item in items:
#                 data = {
#                     "bizesId": item.findtext("bizesId"),
#                     "bizesNm": item.findtext("bizesNm"),
#                     "brchNm": item.findtext("brchNm"),
#                     "indsLclsCd": item.findtext("indsLclsCd"),
#                     "indsLclsNm": item.findtext("indsLclsNm"),
#                     "indsMclsCd": item.findtext("indsMclsCd"),
#                     "indsMclsNm": item.findtext("indsMclsNm"),
#                     "indsSclsCd": item.findtext("indsSclsCd"),
#                     "indsSclsNm": item.findtext("indsSclsNm"),
#                     "ksicCd": item.findtext("ksicCd"),
#                     "ksicNm": item.findtext("ksicNm"),
#                     "adongCd": item.findtext("adongCd"),
#                     "rdnmCd": item.findtext("rdnmCd"),
#                     "rdnm": item.findtext("rdnm"),
#                     "lon": item.findtext("lon"),
#                     "lat": item.findtext("lat")
#                 }
#                 page_data.append(data)
#             return page_data
#         else:
#             return None  # 데이터가 없는 경우 None 반환
#     else:
#         print(f"페이지 {pageNo}에서 요청 실패: {response.status_code}")
#         return None

# # 병렬 처리를 통해 데이터를 빠르게 수집하여 DataFrame에 저장
# all_data3 = []
# print("데이터 추출 중...")

# with ThreadPoolExecutor(max_workers=10) as executor:  # 최대 10개의 스레드 사용
#     futures = {executor.submit(fetch_data, page): page for page in range(1, max_page + 1)}
    
#     # 페이지에 데이터가 없으면 종료하기 위해 break 조건 추가
#     for future in tqdm(as_completed(futures), total=len(futures), desc="페이지 처리 중"):
#         page_data = future.result()
#         if page_data:
#             all_dat3a.extend(page_data)
#         else:
#             # 데이터가 없으면 더 이상의 작업 중단
#             print("\n더 이상 가져올 데이터가 없습니다. 작업을 종료합니다.")
#             break

# # DataFrame으로 변환
# df3 = pd.DataFrame(all_data3)

# # 결과 출력 (또는 파일로 저장)
# print(f"\n총 데이터 개수: {len(df3)}")
# print(df3.head())  # 데이터의 상위 5개 행을 출력


데이터 추출 중...


페이지 처리 중:   0%|                                                                         | 0/1500 [00:00<?, ?it/s]


더 이상 가져올 데이터가 없습니다. 작업을 종료합니다.



