In [40]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
from dotenv import load_dotenv

## 예매통계 기간별 조회 호출

In [41]:
load_dotenv()

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

In [42]:
url = "http://www.kopis.or.kr/openApi/restful/boxStats"
params = {
    "service": SERVICE_KEY,
    "ststype": "day",
    "stdate": 20250301,
    "eddate": 20250316
}

response = requests.get(url, params=params)
response


<Response [200]>

In [43]:
# 파싱
import xmltodict
data_dict = xmltodict.parse(response.text)
data_dict

{'box-statsofs': {'boxStatsof': [{'prfdt': '2025-03-01',
    'prfcnt': '1932',
    'prfdtcnt': '6064',
    'ntssnmrssm': '73434',
    'cancelnmrssm': '28333',
    'totnmrssm': '45101',
    'ntssamountsm': '2648431752'},
   {'prfdt': '2025-03-02',
    'prfcnt': '1835',
    'prfdtcnt': '5507',
    'ntssnmrssm': '58398',
    'cancelnmrssm': '27145',
    'totnmrssm': '31253',
    'ntssamountsm': '2051894925'},
   {'prfdt': '2025-03-03',
    'prfcnt': '1766',
    'prfdtcnt': '5128',
    'ntssnmrssm': '45174',
    'cancelnmrssm': '19078',
    'totnmrssm': '26096',
    'ntssamountsm': '1372968970'},
   {'prfdt': '2025-03-04',
    'prfcnt': '1890',
    'prfdtcnt': '5552',
    'ntssnmrssm': '107029',
    'cancelnmrssm': '40282',
    'totnmrssm': '66747',
    'ntssamountsm': '3944718030'},
   {'prfdt': '2025-03-05',
    'prfcnt': '2030',
    'prfdtcnt': '5963',
    'ntssnmrssm': '109564',
    'cancelnmrssm': '34455',
    'totnmrssm': '75109',
    'ntssamountsm': '5744933820'},
   {'prfdt': '2025

In [44]:
items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
if isinstance(items, dict):
    items = [items]
items

[{'prfdt': '2025-03-01',
  'prfcnt': '1932',
  'prfdtcnt': '6064',
  'ntssnmrssm': '73434',
  'cancelnmrssm': '28333',
  'totnmrssm': '45101',
  'ntssamountsm': '2648431752'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1835',
  'prfdtcnt': '5507',
  'ntssnmrssm': '58398',
  'cancelnmrssm': '27145',
  'totnmrssm': '31253',
  'ntssamountsm': '2051894925'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1766',
  'prfdtcnt': '5128',
  'ntssnmrssm': '45174',
  'cancelnmrssm': '19078',
  'totnmrssm': '26096',
  'ntssamountsm': '1372968970'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1890',
  'prfdtcnt': '5552',
  'ntssnmrssm': '107029',
  'cancelnmrssm': '40282',
  'totnmrssm': '66747',
  'ntssamountsm': '3944718030'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2030',
  'prfdtcnt': '5963',
  'ntssnmrssm': '109564',
  'cancelnmrssm': '34455',
  'totnmrssm': '75109',
  'ntssamountsm': '5744933820'},
 {'prfdt': '2025-03-06',
  'prfcnt': '2093',
  'prfdtcnt': '6275',
  'ntssnmrssm': '156470',
  'cancelnmrssm': '47094'

In [45]:
records = []
for item in items:
    record = {
        "prfdt": item.get("prfdt"), # 날짜
        "prfcnt": item.get("prfcnt"), # 공연 건수
        "prfdtcnt": item.get("prfdtcnt"), # 상연 횟수
        "ntssnmrssm": item.get("ntssnmrssm"), # 예매 수
        "cancelnmrssm": item.get("cancelnmrssm"), # 취소 수
        "totnmrssm": item.get("totnmrssm"), # 총 티켓 판매 수
        "ntssamountsm": item.get("ntssamountsm"), # 총 티켓 판매액
        "stdate": 20250301, # API 요청에 사용한 시작일
        "eddate": 20250315, # API 요청에 사용한 종료일
        "ststype": "day" # 조회 유형 (일별 )
    }
    records.append(record)
records

[{'prfdt': '2025-03-01',
  'prfcnt': '1932',
  'prfdtcnt': '6064',
  'ntssnmrssm': '73434',
  'cancelnmrssm': '28333',
  'totnmrssm': '45101',
  'ntssamountsm': '2648431752',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1835',
  'prfdtcnt': '5507',
  'ntssnmrssm': '58398',
  'cancelnmrssm': '27145',
  'totnmrssm': '31253',
  'ntssamountsm': '2051894925',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1766',
  'prfdtcnt': '5128',
  'ntssnmrssm': '45174',
  'cancelnmrssm': '19078',
  'totnmrssm': '26096',
  'ntssamountsm': '1372968970',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1890',
  'prfdtcnt': '5552',
  'ntssnmrssm': '107029',
  'cancelnmrssm': '40282',
  'totnmrssm': '66747',
  'ntssamountsm': '3944718030',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2

In [47]:
# pandas DataFrame 생성
df = pd.DataFrame(records)

# 열 이름을 읽기 쉬운 이름으로 변경
rename_dict = {
    "prfdt": "날짜",
    "prfcnt": "공연건수",
    "prfdtcnt": "상연횟수",
    "ntssnmrssm": "예매수",
    "cancelnmrssm": "취소수",
    "totnmrssm": "총티켓판매수",
    "ntssamountsm": "총티켓판매액",
    "stdate": "조회시작일",
    "eddate": "조회종료일",
    "ststype": "조회타입",
}
df = df.rename(columns=rename_dict)
df

Unnamed: 0,날짜,공연건수,상연횟수,예매수,취소수,총티켓판매수,총티켓판매액,조회시작일,조회종료일,조회타입
0,2025-03-01,1932,6064,73434,28333,45101,2648431752,20250301,20250315,day
1,2025-03-02,1835,5507,58398,27145,31253,2051894925,20250301,20250315,day
2,2025-03-03,1766,5128,45174,19078,26096,1372968970,20250301,20250315,day
3,2025-03-04,1890,5552,107029,40282,66747,3944718030,20250301,20250315,day
4,2025-03-05,2030,5963,109564,34455,75109,5744933820,20250301,20250315,day
5,2025-03-06,2093,6275,156470,47094,109376,6727756895,20250301,20250315,day
6,2025-03-07,2147,6519,130406,40631,89775,5364926219,20250301,20250315,day
7,2025-03-08,2056,6253,75581,31251,44330,2259926232,20250301,20250315,day
8,2025-03-09,1925,5662,56191,27368,28823,1685173265,20250301,20250315,day
9,2025-03-10,2014,6006,79036,30117,48919,2678722150,20250301,20250315,day


In [48]:
# csv파일 저장
df.to_csv("boxstats_period.csv", mode="a", index=False, header=False, encoding="utf-8")

## 함수화

In [None]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
from dotenv import load_dotenv

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

def collect_boxstats_day(start_date, end_date):
    # boxStats 일별 조회 후 CSV 저장
    # start_date, end_date는 YYYYMMDD 형식의 문자열

    url = "http://www.kopis.or.kr/openApi/restful/boxStats"
    params = {
        "service": SERVICE_KEY,
        "ststype": "day", 
        "stdate": start_date,
        "eddate": end_date
    }

    # GET 요청 보내기
    response = requests.get(url, params=params)

    # XML 응답을 딕셔너리로 파싱
    data_dict = xmltodict.parse(response.text)

    # box-statsofs -> boxStatsof 하위 항목에 데이터가 있음
    items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
    # 만약 한 개의 데이터면 dict 형태이므로, 리스트로 변환
    if isinstance(items, dict):
        items = [items]

    records = []
    for item in items:
        record = {
            "prfdt": item.get("prfdt"),              # 날짜
            "prfcnt": item.get("prfcnt"),            # 공연 건수
            "prfdtcnt": item.get("prfdtcnt"),        # 상연 횟수
            "ntssnmrssm": item.get("ntssnmrssm"),    # 예매 수
            "cancelnmrssm": item.get("cancelnmrssm"),  # 취소 수
            "totnmrssm": item.get("totnmrssm"),        # 총 티켓 판매 수
            "ntssamountsm": item.get("ntssamountsm"),  # 총 티켓 판매액
            "stdate": start_date,                    # 요청 시작일
            "eddate": end_date,                      # 요청 종료일
            "ststype": "day"                         # 조회 유형
        }
        records.append(record)

    # records 리스트를 pandas DataFrame으로 변환
    df = pd.DataFrame(records)

    # 열 이름을 사람이 읽기 쉬운 이름으로 변경
    rename_dict = {
        "prfdt": "날짜",
        "prfcnt": "공연건수",
        "prfdtcnt": "상연횟수",
        "ntssnmrssm": "예매수",
        "cancelnmrssm": "취소수",
        "totnmrssm": "총티켓판매수",
        "ntssamountsm": "총티켓판매액",
        "stdate": "조회시작일",
        "eddate": "조회종료일",
        "ststype": "조회타입"
    }
    df = df.rename(columns=rename_dict)

    # CSV 파일에 데이터를 추가(append) 모드로 저장
    df.to_csv("boxstats_perid.csv", mode="a", index=False, header=False, encoding="utf-8")

def main():
    current = datetime(2025, 1, 1)
    end = datetime(2025, 3, 31)

    while current < end:
        period_end = current + timedelta(days=30) # 최대 31일 단위로 조회 (날짜 제한)
        if period_end > end:
            period_end = end

        st_str = current.strftime("%Y%m%d")
        ed_str = period_end.strftime("%Y%m%d")

        collect_boxstats_day(st_str, ed_str)

        # 다음 기간의 시작일로 업데이트
        current = period_end + timedelta(days=1)
        time.sleep(1) # API 과도 호출 방지

if __name__ == "__main__":
    main()
