In [1]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
from dotenv import load_dotenv

## 예매통계 기간별 조회 호출

In [2]:
load_dotenv()

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

In [3]:
url = "http://www.kopis.or.kr/openApi/restful/boxStats"
params = {
    "service": SERVICE_KEY,
    "ststype": "day",
    "stdate": 20250301,
    "eddate": 20250316
}

response = requests.get(url, params=params)
response


<Response [200]>

In [4]:
# 파싱
import xmltodict
data_dict = xmltodict.parse(response.text)
data_dict

{'box-statsofs': {'boxStatsof': [{'prfdt': '2025-03-01',
    'prfcnt': '1926',
    'prfdtcnt': '6052',
    'ntssnmrssm': '73280',
    'cancelnmrssm': '28277',
    'totnmrssm': '45003',
    'ntssamountsm': '2634611752'},
   {'prfdt': '2025-03-02',
    'prfcnt': '1827',
    'prfdtcnt': '5493',
    'ntssnmrssm': '58250',
    'cancelnmrssm': '27059',
    'totnmrssm': '31191',
    'ntssamountsm': '2045855925'},
   {'prfdt': '2025-03-03',
    'prfcnt': '1759',
    'prfdtcnt': '5115',
    'ntssnmrssm': '45079',
    'cancelnmrssm': '19041',
    'totnmrssm': '26038',
    'ntssamountsm': '1367344470'},
   {'prfdt': '2025-03-04',
    'prfcnt': '1880',
    'prfdtcnt': '5531',
    'ntssnmrssm': '106448',
    'cancelnmrssm': '40136',
    'totnmrssm': '66312',
    'ntssamountsm': '3933849030'},
   {'prfdt': '2025-03-05',
    'prfcnt': '2022',
    'prfdtcnt': '5949',
    'ntssnmrssm': '109505',
    'cancelnmrssm': '33969',
    'totnmrssm': '75536',
    'ntssamountsm': '5813088820'},
   {'prfdt': '2025

In [5]:
items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
if isinstance(items, dict):
    items = [items]
items

[{'prfdt': '2025-03-01',
  'prfcnt': '1926',
  'prfdtcnt': '6052',
  'ntssnmrssm': '73280',
  'cancelnmrssm': '28277',
  'totnmrssm': '45003',
  'ntssamountsm': '2634611752'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1827',
  'prfdtcnt': '5493',
  'ntssnmrssm': '58250',
  'cancelnmrssm': '27059',
  'totnmrssm': '31191',
  'ntssamountsm': '2045855925'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1759',
  'prfdtcnt': '5115',
  'ntssnmrssm': '45079',
  'cancelnmrssm': '19041',
  'totnmrssm': '26038',
  'ntssamountsm': '1367344470'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1880',
  'prfdtcnt': '5531',
  'ntssnmrssm': '106448',
  'cancelnmrssm': '40136',
  'totnmrssm': '66312',
  'ntssamountsm': '3933849030'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2022',
  'prfdtcnt': '5949',
  'ntssnmrssm': '109505',
  'cancelnmrssm': '33969',
  'totnmrssm': '75536',
  'ntssamountsm': '5813088820'},
 {'prfdt': '2025-03-06',
  'prfcnt': '2087',
  'prfdtcnt': '6266',
  'ntssnmrssm': '156434',
  'cancelnmrssm': '47048'

In [6]:
records = []
for item in items:
    record = {
        "prfdt": item.get("prfdt"), # 날짜
        "prfcnt": item.get("prfcnt"), # 공연 건수
        "prfdtcnt": item.get("prfdtcnt"), # 상연 횟수
        "ntssnmrssm": item.get("ntssnmrssm"), # 예매 수
        "cancelnmrssm": item.get("cancelnmrssm"), # 취소 수
        "totnmrssm": item.get("totnmrssm"), # 총 티켓 판매 수
        "ntssamountsm": item.get("ntssamountsm"), # 총 티켓 판매액
        "stdate": 20250301, # API 요청에 사용한 시작일
        "eddate": 20250315, # API 요청에 사용한 종료일
        "ststype": "day" # 조회 유형 (일별 )
    }
    records.append(record)
records

[{'prfdt': '2025-03-01',
  'prfcnt': '1926',
  'prfdtcnt': '6052',
  'ntssnmrssm': '73280',
  'cancelnmrssm': '28277',
  'totnmrssm': '45003',
  'ntssamountsm': '2634611752',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-02',
  'prfcnt': '1827',
  'prfdtcnt': '5493',
  'ntssnmrssm': '58250',
  'cancelnmrssm': '27059',
  'totnmrssm': '31191',
  'ntssamountsm': '2045855925',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-03',
  'prfcnt': '1759',
  'prfdtcnt': '5115',
  'ntssnmrssm': '45079',
  'cancelnmrssm': '19041',
  'totnmrssm': '26038',
  'ntssamountsm': '1367344470',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-04',
  'prfcnt': '1880',
  'prfdtcnt': '5531',
  'ntssnmrssm': '106448',
  'cancelnmrssm': '40136',
  'totnmrssm': '66312',
  'ntssamountsm': '3933849030',
  'stdate': 20250301,
  'eddate': 20250315,
  'ststype': 'day'},
 {'prfdt': '2025-03-05',
  'prfcnt': '2

In [7]:
# pandas DataFrame 생성
df = pd.DataFrame(records)

# 열 이름을 읽기 쉬운 이름으로 변경
rename_dict = {
    "prfdt": "날짜",
    "prfcnt": "공연건수",
    "prfdtcnt": "상연횟수",
    "ntssnmrssm": "예매수",
    "cancelnmrssm": "취소수",
    "totnmrssm": "총티켓판매수",
    "ntssamountsm": "총티켓판매액",
    "stdate": "조회시작일",
    "eddate": "조회종료일",
    "ststype": "조회타입",
}
df = df.rename(columns=rename_dict)
df

Unnamed: 0,날짜,공연건수,상연횟수,예매수,취소수,총티켓판매수,총티켓판매액,조회시작일,조회종료일,조회타입
0,2025-03-01,1926,6052,73280,28277,45003,2634611752,20250301,20250315,day
1,2025-03-02,1827,5493,58250,27059,31191,2045855925,20250301,20250315,day
2,2025-03-03,1759,5115,45079,19041,26038,1367344470,20250301,20250315,day
3,2025-03-04,1880,5531,106448,40136,66312,3933849030,20250301,20250315,day
4,2025-03-05,2022,5949,109505,33969,75536,5813088820,20250301,20250315,day
5,2025-03-06,2087,6266,156434,47048,109386,6730990895,20250301,20250315,day
6,2025-03-07,2141,6502,130385,40351,90034,5371713219,20250301,20250315,day
7,2025-03-08,2053,6250,75566,31247,44319,2259288232,20250301,20250315,day
8,2025-03-09,1921,5657,56111,27343,28768,1678176065,20250301,20250315,day
9,2025-03-10,2010,6001,78996,30098,48898,2675774150,20250301,20250315,day


In [8]:
# csv파일 저장
df.to_csv("boxstats_period.csv", mode="a", index=False, header=False, encoding="utf-8")

## 모듈화

In [None]:
import requests
import pandas as pd
import time
import os
from datetime import datetime, timedelta
import xmltodict
from dotenv import load_dotenv

# 환경변수에서 서비스 키 가져오기
SERVICE_KEY = os.getenv("SERVICE_KEY")

def collect_boxstats_day(start_date, end_date):
    # boxStats 일별 조회 후 CSV 저장
    # start_date, end_date는 YYYYMMDD 형식의 문자열

    url = "http://www.kopis.or.kr/openApi/restful/boxStats"
    params = {
        "service": SERVICE_KEY,
        "ststype": "day", 
        "stdate": start_date,
        "eddate": end_date
    }

    # GET 요청 보내기
    response = requests.get(url, params=params)

    # XML 응답을 딕셔너리로 파싱
    data_dict = xmltodict.parse(response.text)

    # box-statsofs -> boxStatsof 하위 항목에 데이터가 있음
    items = data_dict.get("box-statsofs", {}).get("boxStatsof", [])
    # 만약 한 개의 데이터면 dict 형태이므로, 리스트로 변환
    if isinstance(items, dict):
        items = [items]

    records = []
    for item in items:
        record = {
            "prfdt": item.get("prfdt"),              # 날짜
            "prfcnt": item.get("prfcnt"),            # 공연 건수
            "prfdtcnt": item.get("prfdtcnt"),        # 상연 횟수
            "ntssnmrssm": item.get("ntssnmrssm"),    # 예매 수
            "cancelnmrssm": item.get("cancelnmrssm"),  # 취소 수
            "totnmrssm": item.get("totnmrssm"),        # 총 티켓 판매 수
            "ntssamountsm": item.get("ntssamountsm"),  # 총 티켓 판매액
            "stdate": start_date,                    # 요청 시작일
            "eddate": end_date,                      # 요청 종료일
            "ststype": "day"                         # 조회 유형
        }
        records.append(record)coll

    # records 리스트를 pandas DataFrame으로 변환
    df = pd.DataFrame(records)

    # 'prfdt'의 값이 "합계"인 행을 제거하여 개별 날짜 데이터만 남김
    df = df[df["prfdt"] != "합계"]

    # 열 이름을 사람이 읽기 쉬운 이름으로 변경
    rename_dict = {
        "prfdt": "날짜",
        "prfcnt": "공연건수",
        "prfdtcnt": "상연횟수",
        "ntssnmrssm": "예매수",
        "cancelnmrssm": "취소수",
        "totnmrssm": "총티켓판매수",
        "ntssamountsm": "총티켓판매액",
        "stdate": "조회시작일",
        "eddate": "조회종료일",
        "ststype": "조회타입"
    }
    df = df.rename(columns=rename_dict)

    # CSV 파일에 데이터를 추가(append) 모드로 저장
    df.to_csv("boxstats_period.csv", mode="a", index=False, header=False, encoding="utf-8")

def main():
    current = datetime(2025, 1, 1)
    end = datetime(2025, 3, 31)

    while current < end:
        period_end = current + timedelta(days=30) # 최대 31일 단위로 조회 (날짜 제한)
        if period_end > end:
            period_end = end

        st_str = current.strftime("%Y%m%d")
        ed_str = period_end.strftime("%Y%m%d")

        collect_boxstats_day(st_str, ed_str)

        # 다음 기간의 시작일로 업데이트
        current = period_end + timedelta(days=1)
        time.sleep(1) # API 과도 호출 방지

if __name__ == "__main__":
    main()

In [40]:
main()

In [38]:
df = pd.read_csv(r"C:\Users\USER\Desktop\my_git\api-data-explorer\kopis_processing\boxstats_period.csv")
df[150:200]

Unnamed: 0,2025-03-04,1880,5531,106448,40136,66312,3933849030,20250304,20250331,day


In [21]:
main()