In [1]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
from dotenv import load_dotenv

## 예매통계 기간별 조회 호출

In [2]:
load_dotenv()

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

In [3]:
url = "http://www.kopis.or.kr/openApi/restful/boxStats"
params = {
    "service": SERVICE_KEY,
    "ststype": "day",
    "stdate": 20250301,
    "eddate": 20250316
}

response = requests.get(url, params=params)
response


<Response [200]>

In [4]:
# 파싱
import xmltodict
data_dict = xmltodict.parse(response.text)
data_dict

{'box-statsofs': {'boxStatsof': [{'prfdt': '2025-03-01',
    'prfcnt': '1925',
    'prfdtcnt': '6051',
    'ntssnmrssm': '73270',
    'cancelnmrssm': '28277',
    'totnmrssm': '44993',
    'ntssamountsm': '2634411752'},
   {'prfdt': '2025-03-02',
    'prfcnt': '1826',
    'prfdtcnt': '5492',
    'ntssnmrssm': '58249',
    'cancelnmrssm': '27059',
    'totnmrssm': '31190',
    'ntssamountsm': '2045756925'},
   {'prfdt': '2025-03-03',
    'prfcnt': '1758',
    'prfdtcnt': '5114',
    'ntssnmrssm': '45078',
    'cancelnmrssm': '19039',
    'totnmrssm': '26039',
    'ntssamountsm': '1367433570'},
   {'prfdt': '2025-03-04',
    'prfcnt': '1878',
    'prfdtcnt': '5529',
    'ntssnmrssm': '106445',
    'cancelnmrssm': '40136',
    'totnmrssm': '66309',
    'ntssamountsm': '3933710030'},
   {'prfdt': '2025-03-05',
    'prfcnt': '2023',
    'prfdtcnt': '5950',
    'ntssnmrssm': '109661',
    'cancelnmrssm': '33973',
    'totnmrssm': '75688',
    'ntssamountsm': '5813088820'},
   {'prfdt': '2025

In [5]:
items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
if isinstance(items, dict):
    items = [items]
items

[{'prfdt': '2025-03-01',
  'prfcnt': '1925',
  'prfdtcnt': '6051',
  'ntssnmrssm': '73270',
  'cancelnmrssm': '28277',
  'totnmrssm': '44993',
  'ntssamountsm': '2634411752'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1826',
  'prfdtcnt': '5492',
  'ntssnmrssm': '58249',
  'cancelnmrssm': '27059',
  'totnmrssm': '31190',
  'ntssamountsm': '2045756925'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1758',
  'prfdtcnt': '5114',
  'ntssnmrssm': '45078',
  'cancelnmrssm': '19039',
  'totnmrssm': '26039',
  'ntssamountsm': '1367433570'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1878',
  'prfdtcnt': '5529',
  'ntssnmrssm': '106445',
  'cancelnmrssm': '40136',
  'totnmrssm': '66309',
  'ntssamountsm': '3933710030'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2023',
  'prfdtcnt': '5950',
  'ntssnmrssm': '109661',
  'cancelnmrssm': '33973',
  'totnmrssm': '75688',
  'ntssamountsm': '5813088820'},
 {'prfdt': '2025-03-06',
  'prfcnt': '2086',
  'prfdtcnt': '6265',
  'ntssnmrssm': '156432',
  'cancelnmrssm': '47048'

In [6]:
records = []
for item in items:
    record = {
        "prfdt": item.get("prfdt"), # 날짜
        "prfcnt": item.get("prfcnt"), # 공연 건수
        "prfdtcnt": item.get("prfdtcnt"), # 상연 횟수
        "ntssnmrssm": item.get("ntssnmrssm"), # 예매 수
        "cancelnmrssm": item.get("cancelnmrssm"), # 취소 수
        "totnmrssm": item.get("totnmrssm"), # 총 티켓 판매 수
        "ntssamountsm": item.get("ntssamountsm"), # 총 티켓 판매액
        "stdate": 20250301, # API 요청에 사용한 시작일
        "eddate": 20250315, # API 요청에 사용한 종료일
        "ststype": "day" # 조회 유형 (일별 )
    }
    records.append(record)
records

[{'prfdt': '2025-03-01',
  'prfcnt': '1925',
  'prfdtcnt': '6051',
  'ntssnmrssm': '73270',
  'cancelnmrssm': '28277',
  'totnmrssm': '44993',
  'ntssamountsm': '2634411752',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1826',
  'prfdtcnt': '5492',
  'ntssnmrssm': '58249',
  'cancelnmrssm': '27059',
  'totnmrssm': '31190',
  'ntssamountsm': '2045756925',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1758',
  'prfdtcnt': '5114',
  'ntssnmrssm': '45078',
  'cancelnmrssm': '19039',
  'totnmrssm': '26039',
  'ntssamountsm': '1367433570',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1878',
  'prfdtcnt': '5529',
  'ntssnmrssm': '106445',
  'cancelnmrssm': '40136',
  'totnmrssm': '66309',
  'ntssamountsm': '3933710030',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2

In [7]:
# pandas DataFrame 생성
df = pd.DataFrame(records)

# 열 이름을 읽기 쉬운 이름으로 변경
rename_dict = {
    "prfdt": "날짜",
    "prfcnt": "공연건수",
    "prfdtcnt": "상연횟수",
    "ntssnmrssm": "예매수",
    "cancelnmrssm": "취소수",
    "totnmrssm": "총티켓판매수",
    "ntssamountsm": "총티켓판매액",
    "stdate": "조회시작일",
    "eddate": "조회종료일",
    "ststype": "조회타입",
}
df = df.rename(columns=rename_dict)
df

Unnamed: 0,날짜,공연건수,상연횟수,예매수,취소수,총티켓판매수,총티켓판매액,조회시작일,조회종료일,조회타입
0,2025-03-01,1925,6051,73270,28277,44993,2634411752,20250301,20250315,day
1,2025-03-02,1826,5492,58249,27059,31190,2045756925,20250301,20250315,day
2,2025-03-03,1758,5114,45078,19039,26039,1367433570,20250301,20250315,day
3,2025-03-04,1878,5529,106445,40136,66309,3933710030,20250301,20250315,day
4,2025-03-05,2023,5950,109661,33973,75688,5813088820,20250301,20250315,day
5,2025-03-06,2086,6265,156432,47048,109384,6730946895,20250301,20250315,day
6,2025-03-07,2141,6502,130687,40349,90338,5371891419,20250301,20250315,day
7,2025-03-08,2053,6250,75570,31244,44326,2259508732,20250301,20250315,day
8,2025-03-09,1920,5656,56109,27343,28766,1677978065,20250301,20250315,day
9,2025-03-10,2009,6000,78991,30098,48893,2675380150,20250301,20250315,day


In [16]:
# csv파일 저장
df.to_csv("boxstats_period.csv", mode="a", index=False, header=False, encoding="utf-8")

In [17]:
import pandas as pd
df = pd.read_csv(r"C:\Users\USER\Desktop\my_git\api-data-explorer\kopis_processing\boxstats_period.csv")
df

Unnamed: 0,2024-01-01,1147,5050,46878,20696,26182,1752503570,20240101,20240131,day
0,2024-01-02,1194,5609,76523,29971,46552,2230445110,20240101,20240131,day
1,2024-01-03,1231,5849,92153,39671,52482,3115916750,20240101,20240131,day
2,2024-01-04,1246,5714,86475,40248,46227,3470510630,20240101,20240131,day
3,2024-01-05,1307,5818,103725,37885,65840,3405131740,20240101,20240131,day
4,2024-01-06,1253,5498,69271,31004,38267,2259577860,20240101,20240131,day
...,...,...,...,...,...,...,...,...,...,...
436,2025-03-13,2122,6376,112143,38161,73982,4895414144,20250301,20250315,day
437,2025-03-14,2226,6639,136787,45551,91236,6178010572,20250301,20250315,day
438,2025-03-15,2096,6119,76689,36572,40117,2487343587,20250301,20250315,day
439,2025-03-16,1964,5766,55461,25042,30419,1903053655,20250301,20250315,day


## 모듈화

In [15]:
import kopis_boxstats

In [14]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
import xmltodict
from dotenv import load_dotenv

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

def collect_boxstats_day(start_date, end_date):
    # boxStats 일별 조회 후 CSV 저장
    # start_date, end_date는 YYYYMMDD 형식의 문자열

    url = "http://www.kopis.or.kr/openApi/restful/boxStats"
    params = {
        "service": SERVICE_KEY,
        "ststype": "day", 
        "stdate": start_date,
        "eddate": end_date
    }

    # GET 요청 보내기
    response = requests.get(url, params=params)

    # XML 응답을 딕셔너리로 파싱
    data_dict = xmltodict.parse(response.text)

    # box-statsofs -> boxStatsof 하위 항목에 데이터가 있음
    items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
    # 만약 한 개의 데이터면 dict 형태이므로, 리스트로 변환
    if isinstance(items, dict):
        items = [items]

    records = []
    for item in items:
        record = {
            "prfdt": item.get("prfdt"),              # 날짜
            "prfcnt": item.get("prfcnt"),            # 공연 건수
            "prfdtcnt": item.get("prfdtcnt"),        # 상연 횟수
            "ntssnmrssm": item.get("ntssnmrssm"),    # 예매 수
            "cancelnmrssm": item.get("cancelnmrssm"),  # 취소 수
            "totnmrssm": item.get("totnmrssm"),        # 총 티켓 판매 수
            "ntssamountsm": item.get("ntssamountsm"),  # 총 티켓 판매액
            "stdate": start_date,                    # 요청 시작일
            "eddate": end_date,                      # 요청 종료일
            "ststype": "day"                         # 조회 유형
        }
        records.append(record)

    # records 리스트를 pandas DataFrame으로 변환
    df = pd.DataFrame(records)

    # 'prfdt'의 값이 "합계"인 행을 제거하여 개별 날짜 데이터만 남김
    df = df[df["prfdt"] != "합계"]

    # 열 이름을 사람이 읽기 쉬운 이름으로 변경
    rename_dict = {
        "prfdt": "날짜",
        "prfcnt": "공연건수",
        "prfdtcnt": "상연횟수",
        "ntssnmrssm": "예매수",
        "cancelnmrssm": "취소수",
        "totnmrssm": "총티켓판매수",
        "ntssamountsm": "총티켓판매액",
        "stdate": "조회시작일",
        "eddate": "조회종료일",
        "ststype": "조회타입"
    }
    df = df.rename(columns=rename_dict)

    # CSV 파일에 데이터를 추가(append) 모드로 저장
    df.to_csv("boxstats_period.csv", mode="a", index=False, header=False, encoding="utf-8")

def main():
    current = datetime(2025, 1, 1)
    end = datetime(2025, 3, 31)

    while current < end:
        period_end = current + timedelta(days=30) # 최대 31일 단위로 조회 (날짜 제한)
        if period_end > end:
            period_end = end

        st_str = current.strftime("%Y%m%d")
        ed_str = period_end.strftime("%Y%m%d")

        collect_boxstats_day(st_str, ed_str)

        # 다음 기간의 시작일로 업데이트
        current = period_end + timedelta(days=1)
        time.sleep(1) # API 과도 호출 방지

if __name__ == "__main__":
    main()