In [1]:
# (0) 필요 모듈 임포트
from datetime import datetime, timedelta
import pandas as pd
import requests
import json
import yaml
import time

# (1) 개인정보 파일 가져오기
with open('config.yaml', encoding='UTF-8') as f:
    _cfg = yaml.load(f, Loader=yaml.FullLoader)
APP_KEY = _cfg['APP_KEY']
APP_SECRET = _cfg['APP_SECRET']
ACCESS_TOKEN = ""
ACCESS_TOKEN_EXPIRED = ""
CANO = _cfg['CANO']
ACNT_PRDT_CD = _cfg['ACNT_PRDT_CD']
URL_BASE = _cfg['URL_BASE']
HTS_ID = _cfg['HTS_ID']
print(APP_KEY, APP_SECRET, ACCESS_TOKEN, HTS_ID)

# (2) 함수 정의
## 1. 접근 토큰 발급
def get_access_token():
    """ OAuth 인증 > 접근토큰발급 """
    headers = {"content-type": "application/json"}
    body = {
        "grant_type": "client_credentials",
        "appkey": APP_KEY,
        "appsecret": APP_SECRET
    }
    PATH = "oauth2/tokenP"
    URL = f"{URL_BASE}/{PATH}"

    time.sleep(0.05)  # 유량제한 예방 (REST: 1초당 20건 제한)
    res = requests.post(URL, headers=headers, data=json.dumps(body))

    if res.status_code == 200:
        try:
            access_token = res.json().get("access_token")
            access_token_expired = res.json().get("access_token_token_expired")  # 수정된 키
            return access_token, access_token_expired
        except KeyError as e:
            print(f"토큰 발급 중 키 에러 발생: {e}")
            print(res.json())
            return None, None
    else:
        print("접근 토큰 발급이 불가능합니다. 응답 코드:", res.status_code)
        print("응답 내용:", res.json())
        return None, None

PShp12vxqLPCVLNejlfydRUo4e0hSv5ynDh1 vXpB908NxwdWUpxhilq7l/6LFfGnNOvnGneuVAjg6oiTBciCzZ2Ts5HwXIBuenAZTYI+5yAMUjDHG7ZqOjB/bj+A9ZVjF70MDvdVcnC+ddzEvh0ZAYRs0H5QPEOle9KA2SmqnGKrcqYKgVp4fjCVpQWjhR9MQ1ZDysqAi30PoF6d3tAKkZI=  @1678001


In [6]:
ACCESS_TOKEN, ACCESS_TOKEN_EXPIRED = get_access_token()
ACCESS_TOKEN, ACCESS_TOKEN_EXPIRED

('eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzUxMiJ9.eyJzdWIiOiJ0b2tlbiIsImF1ZCI6ImU5YjNiOWM1LTQzNjItNGMzYS04ZjBmLTI1N2Y1NjJmYWE3OCIsInByZHRfY2QiOiIiLCJpc3MiOiJ1bm9ndyIsImV4cCI6MTczMjE3ODUzMCwiaWF0IjoxNzMyMDkyMTMwLCJqdGkiOiJQU2hwMTJ2eHFMUENWTE5lamxmeWRSVW80ZTBoU3Y1eW5EaDEifQ.bacs-AZj0VwSyw9RgAhrFIJL1BosDuri5q0Hnv45Zf-oeyiZMrrnGSNowkkbMSxEI0qg5eEPu4bB_tyYwVVlkA',
 '2024-11-21 17:42:10')

In [7]:
# (3) 반복 조회 구현
def fetch_news_titles(repeat_count):
    """
    뉴스 제목 API를 반복 호출하여 데이터를 가져옴.
    :param repeat_count: 반복 호출 횟수
    :return: 모든 조회 결과 리스트
    """
    global ACCESS_TOKEN
    if not ACCESS_TOKEN:  # 토큰 발급
        ACCESS_TOKEN, _ = get_access_token()

    # 기본 요청 설정
    base_url = f"{URL_BASE}/uapi/domestic-stock/v1/quotations/news-title"
    headers = {
        'content-type': 'application/json',
        'authorization': f'Bearer {ACCESS_TOKEN}',
        'appkey': APP_KEY,
        'appsecret': APP_SECRET,
        'tr_id': 'FHKST01011800',
        'custtype': 'P'
    }

    # 결과 저장 리스트
    all_results = []

    # 첫 번째 호출: FID_INPUT_SRNO를 빈 값으로 설정
    current_srno = ""

    for i in range(repeat_count):
        params = {
            "FID_NEWS_OFER_ENTP_CODE": "",
            "FID_COND_MRKT_CLS_CODE": "",
            "FID_INPUT_ISCD": "",
            "FID_TITL_CNTT": "",
            "FID_INPUT_DATE_1": "",
            "FID_INPUT_HOUR_1": "",
            "FID_RANK_SORT_CLS_CODE": "",
            "FID_INPUT_SRNO": current_srno  # 빈 값 또는 이전 호출의 결과값 참조
        }
        response = requests.get(base_url, headers=headers, params=params)
        data = response.json()

        # 응답 저장
        if "output" in data:
            all_results.extend(data["output"])

            # 다음 호출을 위한 cntt_usiq_srno 계산
            if data["output"]:
                last_srno = data["output"][-1]["cntt_usiq_srno"]
                current_srno = str(int(last_srno) - 1)
            else:
                print("더 이상 데이터가 없습니다.")
                break
        else:
            print("응답 데이터가 없습니다. 응답 내용:", data)
            break

        print(f"{i+1}번째 호출 완료. 데이터 수: {len(data.get('output', []))}")
        time.sleep(0.05)  # 유량제한 예방

    return all_results

def save_to_excel(data, filename):
    """수집한 데이터를 엑셀로 저장합니다."""
    df = pd.DataFrame(data)
    try:
        # ExcelWriter를 사용하여 엑셀 저장
        with pd.ExcelWriter(filename, engine="openpyxl") as writer:
            df.to_excel(writer, index=False, sheet_name="News Titles")
        print(f"데이터가 엑셀 파일로 저장되었습니다: {filename}")
    except Exception as e:
        print(f"엑셀 파일 저장 중 오류 발생: {e}")

def clean_text(text):
    """텍스트에서 엑셀에서 허용되지 않는 문자를 제거합니다."""
    if isinstance(text, str):
        return "".join(c for c in text if c.isprintable())
    return text

In [8]:
if __name__ == "__main__":
    repeat_count = int(input("반복 호출 횟수를 입력하세요: "))
    results = fetch_news_titles(repeat_count)

    if results:
        # 데이터 정제 및 데이터프레임 생성
        cleaned_results = [{key: clean_text(value) for key, value in item.items()} for item in results]
        df = pd.DataFrame(cleaned_results)

        # 파일명 동적 생성
        first_srno = df.iloc[0]["cntt_usiq_srno"] if "cntt_usiq_srno" in df.columns else "unknown"
        last_srno = df.iloc[-1]["cntt_usiq_srno"] if "cntt_usiq_srno" in df.columns else "unknown"
        filename = f"news_title_{first_srno}_{last_srno}.xlsx"

        # 엑셀 저장
        save_to_excel(cleaned_results, filename)
    else:
        print("수집된 데이터가 없어 파일을 저장하지 않았습니다.")

반복 호출 횟수를 입력하세요:  10


1번째 호출 완료. 데이터 수: 40
2번째 호출 완료. 데이터 수: 40
3번째 호출 완료. 데이터 수: 40
4번째 호출 완료. 데이터 수: 40
5번째 호출 완료. 데이터 수: 40
6번째 호출 완료. 데이터 수: 40
7번째 호출 완료. 데이터 수: 40
8번째 호출 완료. 데이터 수: 40
9번째 호출 완료. 데이터 수: 40
10번째 호출 완료. 데이터 수: 40
데이터가 엑셀 파일로 저장되었습니다: news_title_2024112017504848283_2024112017135348184.xlsx


In [10]:
df.columns

Index(['cntt_usiq_srno', 'news_ofer_entp_code', 'data_dt', 'data_tm',
       'hts_pbnt_titl_cntt', 'news_lrdv_code', 'dorg', 'iscd1', 'iscd2',
       'iscd3', 'iscd4', 'iscd5', 'iscd6', 'iscd7', 'iscd8', 'iscd9', 'iscd10',
       'kor_isnm1', 'kor_isnm2', 'kor_isnm3', 'kor_isnm4', 'kor_isnm5',
       'kor_isnm6', 'kor_isnm7', 'kor_isnm8', 'kor_isnm9', 'kor_isnm10'],
      dtype='object')

In [9]:
df # 20241119 13:20:33.96811 ~ 20241119 22:08:38.14829 기간동안의 종합시황공시 데이터(4000건)

Unnamed: 0,cntt_usiq_srno,news_ofer_entp_code,data_dt,data_tm,hts_pbnt_titl_cntt,news_lrdv_code,dorg,iscd1,iscd2,iscd3,...,kor_isnm1,kor_isnm2,kor_isnm3,kor_isnm4,kor_isnm5,kor_isnm6,kor_isnm7,kor_isnm8,kor_isnm9,kor_isnm10
0,2024112017504848283,U,20241120,175048,中 무비자 기대에 목표가 줄상향···여행株 '활짝',31,서울경제,039130,,,...,하나투어,,,,,,,,,
1,2024112017503962282,2,20241120,175039,"美, 1달러 미만 동전주 퇴출…日, 유통주식비율 35% 요구",01,한국경제신문,,,,...,,,,,,,,,,
2,2024112017503400481,U,20241120,175034,"이촌중산, 55년만에 재건축 시동···한남시범은 '1대1' 가닥",32,서울경제,,,,...,,,,,,,,,,
3,2024112017502361380,A,20241120,175023,관세·수출입 통제 다 틀어쥔 러트닉 … 韓 반도체·철강 운명도 그의 손에 [다시 트...,10,매일경제,,,,...,,,,,,,,,,
4,2024112017502256179,A,20241120,175022,"""LNG·데이터센터·통신 … 트럼프 좋아할 '거래' 먼저 제안을"" [다시 트럼프 시대]",01,매일경제,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,2024112017142443280,A,20241120,171424,"물류산업진흥재단, “2024 물류산업진흥 컨퍼런스” 오프라인 개최",03,매일경제,,,,...,,,,,,,,,,
396,2024112017142110576,U,20241120,171421,"HDC현대산업개발 '아이파크가든', 2024년 우수디자인 상품 동상 수상 ?",32,서울경제,,,,...,,,,,,,,,,
397,2024112017141481470,6,20241120,171414,"""상온 초전도체 성공 주장 美학자 디아스, 연구부정 발각 퇴출""",11,연합뉴스,,,,...,,,,,,,,,,
398,2024112017141035671,2,20241120,171410,"강원, 스마트 축산단지 등 6년간 1조 투입",10,한국경제신문,,,,...,,,,,,,,,,
