## 공공데이터 API 활용

### 출입국 관광 통계 데이터
+ https://www.data.go.kr/data/15000297/openapi.do#tab_layer_detail_function

#### 1) 데이터 수집

In [None]:
!pip install pandas
!pip install matplotlib

In [None]:
from encodings import utf_8
import requests
import json
import os
from datetime import datetime
from urllib.parse import unquote

def getTourismStats(yyyymm, nat_cd, ed_cd):
    """
    한국관광공사의 관광 통계 API를 호출하여 특정 국가와 기간의 관광 통계 데이터를 가져오는 함수

    Args:
        yyyymm (str): 조회하고자 하는 년월 (예: '202401')
        nat_cd (str): 국가 코드 (예: '100' - 한국, '112' - 중국, '130' - 일본, '275' - 미국)
        ed_cd (str): 출입국 구분 코드 ('E' - 방한외래관광객, 'D' - 국민해외관광객)

    Returns:
        dict or None: API 응답 데이터를 JSON 형태로 반환, 오류 발생 시 None 반환

    Raises:
        requests.exceptions.RequestException: API 호출 중 오류 발생 시
    """
    serviceUrl = 'http://openapi.tour.go.kr/openapi/service/EdrcntTourismStatsService/getEdrcntTourismStatsList'
    serviceKey = unquote('YOUR_API_KEY_ENCODING')
    # serviceKey = 'YOUR_API_KEY_DECODING'
   
    params = {
        'serviceKey': serviceKey,
        'NAT_CD': nat_cd,
        'ED_CD': ed_cd,
        'YM': yyyymm,
        '_type': 'json',
    }
    
    response = requests.get(serviceUrl, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error {response.status_code}: {response.text}")
        return None

def collect_tourism_data(nat_cd, start_year, end_year, country_info):
    """
    지정된 기간 동안의 관광 통계 데이터를 수집하고 가공하는 함수

    Args:
        nat_cd (str): 국가 코드
        start_year (int): 데이터 수집 시작 연도
        end_year (int): 데이터 수집 종료 연도
        country_info (dict): 국가 정보를 담은 딕셔너리
            - 'ed_cd': 출입국 구분 코드
            - 'name': 국가명

    Returns:
        list: 수집된 관광 통계 데이터 리스트. 각 항목은 딕셔너리 형태로:
            - '날짜': 통계 년월
            - '국가명': 국가 이름
            - '관광객수': 관광객 수
            - '출입국': '방한' 또는 '출국'

    Notes:
        - 데이터는 월별로 수집되며, 진행률이 실시간으로 표시됨
        - API 호출 실패나 데이터 처리 오류 시 해당 월은 건너뜀
    """
    ed_cd = country_info['ed_cd']
    country_name = country_info['name']
    
    print(f"{country_name} {start_year}~{end_year} 데이터 수집 시작...")
    
    itemList = []
    total_months = (end_year - start_year + 1) * 12
    current_month = 0
    
    for year in range(start_year, end_year + 1):
        for month in range(1, 13):
            current_month += 1
            yyyymm = f'{year}{month:02d}'
            print(f"\r진행률: {(current_month/total_months)*100:.1f}% ({yyyymm} 처리 중...)", end='')
            
            jsonData = getTourismStats(yyyymm, nat_cd, ed_cd)
    
            try:
                item = jsonData['response']['body']['items']
                
                if item == "":
                    continue
                
                item = item['item']
                itemList.append({
                    '날짜': item['ym'],
                    '국가명': item['natKorNm'],
                    '관광객수': item['num'],
                    '출입국': '방한' if ed_cd == 'E' else '출국'
                })
            except Exception as e:
                print(f"\n{yyyymm} 데이터 처리 중 오류 발생: {e}")
                continue
    
    print("\n데이터 수집 완료!")
    return itemList

def save_to_json(data, country_name, start_date, end_date):
    """
    수집된 관광 통계 데이터를 JSON 파일로 저장하는 함수

    Args:
        data (list): 저장할 관광 통계 데이터 리스트
        country_name (str): 국가명
        start_date (str): 데이터 시작 날짜 (YYYYMM 형식)
        end_date (str): 데이터 종료 날짜 (YYYYMM 형식)

    Returns:
        str: 저장된 파일의 전체 경로

    Notes:
        - 파일은 'tourism_data' 디렉토리에 저장됨
        - 파일명 형식: {국가명}_{시작날짜}_{종료날짜}.json
        - 디렉토리가 존재하지 않는 경우 자동 생성
    """
    path = './tourism_data'
    os.makedirs(path, exist_ok=True)
    
    fileName = f'{country_name}_{start_date}_{end_date}.json'
    file_path = os.path.join(path, fileName)
    
    with open(file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, indent=4, ensure_ascii=False)
    
    print(f"파일 저장 완료: {file_path}")
    return file_path

def main():
    """
    관광 통계 데이터 수집 프로그램의 메인 함수
    
    Features:
        1. 4개국(한국, 중국, 일본, 미국)의 관광 통계 데이터 수집 지원
        2. 사용자 입력을 통한 국가 선택
        3. 수집 기간 설정 (2000년 이후)
        4. 진행률 표시 및 에러 처리
        5. JSON 형식으로 데이터 저장

    Notes:
        - 한국: 국민 해외관광객 통계
        - 중국, 일본, 미국: 방한 외래관광객 통계
    """
    # 설정
    country_codes = {
        '1': {
            'code': '100',
            'name': '한국인(출국)',
            'ed_cd': 'D'
        },
        '2': {
            'code': '112',
            'name': '중국인(방한)',
            'ed_cd': 'E'
        },
        '3': {
            'code': '130',
            'name': '일본인(방한)',
            'ed_cd': 'E'
        },
        '4': {
            'code': '275',
            'name': '미국인(방한)',
            'ed_cd': 'E'
        }
    }
    
    # 국가 선택
    print("\n데이터를 수집할 국가를 선택하세요:")
    for key, value in country_codes.items():
        print(f"{key}. {value['name']}")
    
    choice = input("번호를 입력하세요: ")
    if choice not in country_codes:
        print("잘못된 선택입니다.")
        return
    
    country_info = country_codes[choice]
    nat_cd = country_info['code']
    
    # 연도 입력
    current_year = datetime.now().year
    while True:
        try:
            start_year = int(input(f"\n시작 연도를 입력하세요 (2000-{current_year}): "))
            end_year = int(input(f"종료 연도를 입력하세요 ({start_year}-{current_year}): "))
            
            if 2000 <= start_year <= current_year and start_year <= end_year <= current_year:
                break
            else:
                print("유효한 연도 범위를 입력하세요.")
        except ValueError:
            print("숫자로 입력해주세요.")
    
    # 데이터 수집
    data = collect_tourism_data(nat_cd, start_year, end_year, country_info)
    
    if data and len(data) > 0:
        # 데이터 저장
        start_date = data[0]['날짜']
        end_date = data[-1]['날짜']
        saved_file = save_to_json(data, country_info['name'], start_date, end_date)
        
        # 결과 출력
        print(f"\n수집된 데이터 수: {len(data)}개")
        print(f"수집 기간: {start_date} ~ {end_date}")
        print(f"저장된 파일: {saved_file}")
    else:
        print("\n데이터 수집 실패 또는 데이터가 없습니다.")

if __name__ == "__main__":
    main()

#### 2) 데이터 시각화

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import os
from glob import glob

# 데이터 로드
data_path = './tourism_data'
dataframes = {}

# 모든 JSON 파일 찾기
json_files = glob(os.path.join(data_path, '*.json'))

if not json_files:
    raise FileNotFoundError(f"No JSON files found in {data_path}")

# 각 JSON 파일을 데이터프레임으로 변환
for file_path in json_files:
    # 파일명에서 국가명 추출 (예: '한국인(출국)_202001_202312.json' -> '한국인(출국)')
    country_name = os.path.basename(file_path).split('_')[0]
    df = pd.read_json(file_path)
    
    # 년도와 월 컬럼 추가
    df['yyyy'] = df['날짜'].astype(str).str[:4]
    df['mm'] = df['날짜'].astype(str).str[4:6]
    dataframes[country_name] = df
    
    print(f"데이터 로드 완료: {country_name}")
    print(f"기간: {df['날짜'].min()} ~ {df['날짜'].max()}")
    print(f"총 레코드 수: {len(df)}\n")

# 1. 연도별 관광객 수 시각화
plt.figure(figsize=(12, 6))
plt.rc('font', family='malgun gothic')  # 한글 폰트 설정

# 스타일 설정
style_mapping = {
    '한국인(출국)': {'color': 'r', 'style': '--'},
    '일본인(방한)': {'color': 'b', 'style': '-'},
    '중국인(방한)': {'color': 'g', 'style': '-'},
    '미국인(방한)': {'color': 'c', 'style': '-'}
}

# 각 국가별 데이터 플로팅
for country, df in dataframes.items():
    if country in style_mapping:
        # 연도별 관광객 수 집계
        yearly_data = df.groupby('yyyy')['관광객수'].sum()
        
        # 그래프 그리기
        style = style_mapping[country]
        plt.plot(yearly_data.index, 
                yearly_data.values, 
                f"{style['color']}{style['style']}", 
                label=country)

# 그래프 설정
plt.title('연도별 관광객 수 추이')
plt.xlabel('년도')
plt.ylabel('관광객 수')
plt.legend()
plt.grid(True)
plt.xticks(rotation=45)

# 그래프 저장
plt.tight_layout()
plt.savefig(os.path.join(data_path, 'yearly_tourism_stats.png'))
plt.show()

# 3. 데이터 요약 통계
print("\n=== 데이터 요약 ===")
for country, df in dataframes.items():
    print(f"\n{country} 통계:")
    print(f"전체 관광객 수: {df['관광객수'].sum():,}명")
    print(f"월 평균 관광객 수: {df['관광객수'].mean():,.0f}명")
    print(f"최대 관광객 수: {df['관광객수'].max():,}명 ({df.loc[df['관광객수'].idxmax(), '날짜']})")
    print(f"최소 관광객 수: {df['관광객수'].min():,}명 ({df.loc[df['관광객수'].idxmin(), '날짜']})")