# 전국 상권정보 API를 활용해 치킨집 데이터 수집
* 공공데이터 API에서 데이터 수집하기 - 소상공인 상가 상권 정보 확인
* 상권 정보 중 '치킨'집 데이터 수집
* json, xml 형식으로 데이터 수집
* 각 수집된 데이터 csv 파일로 저장

# 1. 공통

## 1.1. 소상공인 상가(상권) 정보 API 링크 연결

* import

In [1]:
import os
import time # API 수집 속도 조절
import requests
import pandas as pd
from dotenv import load_dotenv
load_dotenv()

True

* 소상공인시장진흥공단_상가(상권)정보_openApi 활용가이드  
    *13) 업종별 상가없소 조회 오퍼레이션 명세 참고하여 코드 작성  
        * 'url: Call Back URL'을 url에 입력  
        * 'payload: 요청 메시지 명세'를 토대로 payload 설정  
        => divld: 구분ID  
        => key: 업종코드값
        => numOfRows: 페이지당 건수  
        => pageNo: 페이지 번호(현재 요청 페이지번호)  
        => type: 데이터 유형(xml,json)으로 xml, json 포맷을 제공)  
        => servicekey: 서비스키(공공데이터포털에서 발급받은 인증키)

* 샘플데이터 확인

In [25]:
url = "http://apis.data.go.kr/B553077/api/open/sdsc2/storeListInUpjong"
payload = dict(divId='indsLclsCd', key='I2', numOfRows=2, pageNo=1, type='json', serviceKey=os.getenv("service_key")) 
r = requests.get(url, params=payload)
print(r.url)
print(r.status_code)
response = r.json()
response

http://apis.data.go.kr/B553077/api/open/sdsc2/storeListInUpjong?divId=indsLclsCd&key=I2&numOfRows=2&pageNo=1&type=json&serviceKey=fd78ac8b59cae62fc79745463448f2d61111c8645aeb07b889f5c527fb94a504
200


{'header': {'description': '소상공인시장진흥공단 주요상권내 상가업소정보',
  'columns': ['상가업소번호',
   '상호명',
   '지점명',
   '상권업종대분류코드',
   '상권업종대분류명',
   '상권업종중분류코드',
   '상권업종중분류명',
   '상권업종소분류코드',
   '상권업종소분류명',
   '표준산업분류코드',
   '표준산업분류명',
   '시도코드',
   '시도명',
   '시군구코드',
   '시군구명',
   '행정동코드',
   '행정동명',
   '법정동코드',
   '법정동명',
   'PNU코드',
   '대지구분코드',
   '대지구분명',
   '지번본번지',
   '지번부번지',
   '지번주소',
   '도로명코드',
   '도로명',
   '건물본번지',
   '건물부번지',
   '건물관리번호',
   '건물명',
   '도로명주소',
   '구우편번호',
   '신우편번호',
   '동정보',
   '층정보',
   '호정보',
   '경도',
   '위도'],
  'stdrYm': '202509',
  'resultCode': '00',
  'resultMsg': 'NORMAL SERVICE'},
 'body': {'items': [{'bizesId': 'MA010120220700009052',
    'bizesNm': '송산유원지집단급식소',
    'brchNm': '',
    'indsLclsCd': 'I2',
    'indsLclsNm': '음식',
    'indsMclsCd': 'I207',
    'indsMclsNm': '구내식당·뷔페',
    'indsSclsCd': 'I20701',
    'indsSclsNm': '구내식당',
    'ksicCd': 'I56130',
    'ksicNm': '기관 구내식당업',
    'ctprvnCd': '29',
    'ctprvnNm': '광주광역시',
    'signguCd': '29200',
    

* 치킨집 데이터 수집을 위한 설정 사항  
    * 'payload'  
    => 'divid'값을 '소분류코드값'으로 설정  
    => 'key'값을 소분류명 '치킨'의 소분류코드 I21006으로 설정  
    
    (소분류명 및 소분류코드는 '소상공인시장진흥공단_상가(상권)정보_업종분류(2302)_및 연계표_v1'에서 확인)

## 1.2. totalCount 추출 후 페이지 수 계산
1. 첫 페이지 수집 내용 확인
2. totalCount 추출
3. 페이지 수 계산

* totalCount확인

In [26]:
response['body']['totalCount']

806334

* 전체 페이지 수 구하기

In [27]:
# 전체 페이지수 구하기
if response['body']['totalCount'] % 1000 == 0:
    total_pages = response['body']['totalCount']//1000
else:
    total_pages = response['body']['totalCount']//1000 + 1
total_pages

807

## 1.3. 업종 데이터 리스트 추출
1. !pip install openpyxl 인스톨
2. "API_매뉴얼_상가상권/소상공인시장진흥공단_상가(상권)정보_업종분류(2302)_및_연계표_v1.xlsx" 불러오기

In [2]:
# 업종파일 xlsx 파일 불러와서 업종 리스트 추출하기
!pip install openpyxl



In [3]:
upjong_list = pd.read_excel("../../API_매뉴얼_상가상권/소상공인시장진흥공단_상가(상권)정보_업종분류(2302)_및_연계표_v1.xlsx", header=1)
upjong_codes = upjong_list['소분류코드']
upjong_name = upjong_list['소분류명']

# 2. JSON

### <설정>
* divId='indsSclsCd |=====> 소분류코드값
* key='I21006' |=====> 소분류코드(치킨)
* numOfRows=2 |=====> 테스트를 위해 2행으로 설정
* type='json' |=====> 데이터 유형 설정

## 2.1. 가게 리스트를 csv 파일로 만들기
* 업종 데이터 불러오기
* 소분류명 입력, 입력된 소분류명 데이터 수집
* shops_data 폴더 생성 후 저장
* 저장 파일명을 <소분류명>_가게리스트_json.csv로 저장

In [6]:
# 키워드 입력
keyword = input('검색할 키워드를 입력하세요: ')


if keyword:
    target_list = zip(upjong_list['소분류코드'], upjong_list['소분류명'])
    # 키워드가 이름에 포함된 것만 남김
    filtered_list = [(c, n) for c, n in target_list if keyword in n]
else:
    filtered_list = list(zip(upjong_list['소분류코드'], upjong_list['소분류명']))

    
for idx, (code, name) in enumerate(filtered_list):
    print(code,name)
        
    result = {}

    page = 1
    total_pages = 1
    while True:

        url = "http://apis.data.go.kr/B553077/api/open/sdsc2/storeListInUpjong"
        payload = dict(divId='indsSclsCd', key=code, numOfRows=1000, pageNo=page, type='json', serviceKey=os.getenv("service_key")) 
        # divid 를 세부 업종으로, key를 치킨으로 수정
        
        r = requests.get(url, params=payload)
        response = r.json()
        
        # API 응답 상태 확인(알 수 없는 에러가 계속 발생해서 추가했습니다.)
        if r.status_code !=200:
            print(f"[Error] 호출 실패! 상태 코드: {r.status_code}")
            print("에러 메시지:", r.text[:100])
            break

        if 'items' not in response['body']:
            print(f"[Info]결과 없음:{response}")
            break
            
        # 전체 페이지수 구하기
        if total_pages == 1:
            if response['body']['totalCount'] % 1000 == 0:
                total_pages = response['body']['totalCount']//1000
            else:
                total_pages = response['body']['totalCount']//1000 + 1

        # 종료 조건 주기
        if page > total_pages:
            break

        # 현재 수집 페이지 출력
        print(f"{idx}/{len(upjong_list['소분류코드'])}_{name}_{page}/{total_pages}수집중", end="\r")        

        # 가게 정보 추출
        for item in response['body']['items']:
            for key, value in item.items():
                result.setdefault(key, []).append(value)
        
        # 다음 검색 시작 위치 추가
        page += 1
        
        # API 호출 속도 제한        
        time.sleep(0.5)

    # dataframe 생성
    df = pd.DataFrame(result)

    # 폴더 생성
    dir_name = "shops_data"
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
        print(f"{dir_name}을(를) 생성했습니다.")
    else:
        print(f"{dir_name}이(가) 이미 있습니다.")
        
    # 파일명에 쓸 수 없는 문자(/)를 밑줄(_)로 변경
    safe_name = name.replace("/", "_") 
    # csv 파일 생성
    df.to_csv(f"./shops_data/{safe_name}_가게리스트_json.csv",encoding="utf-8-sig")

# 완료 메시지
print(f"{name}데이터 {total_pages}수집 완료")

검색할 키워드를 입력하세요: 치킨
I21006 치킨
[Info]결과 없음:{'header': {'description': '소상공인시장진흥공단 주요상권내 상가업소정보', 'columns': ['상가업소번호', '상호명', '지점명', '상권업종대분류코드', '상권업종대분류명', '상권업종중분류코드', '상권업종중분류명', '상권업종소분류코드', '상권업종소분류명', '표준산업분류코드', '표준산업분류명', '시도코드', '시도명', '시군구코드', '시군구명', '행정동코드', '행정동명', '법정동코드', '법정동명', 'PNU코드', '대지구분코드', '대지구분명', '지번본번지', '지번부번지', '지번주소', '도로명코드', '도로명', '건물본번지', '건물부번지', '건물관리번호', '건물명', '도로명주소', '구우편번호', '신우편번호', '동정보', '층정보', '호정보', '경도', '위도'], 'resultCode': '03', 'resultMsg': 'NODATA_ERROR'}, 'body': {}}
shops_data을(를) 생성했습니다.
치킨데이터 39수집 완료
