# 더라운지 AI NOVA 탑재 방안

## 1. 개요

서울경제 AI NOVA 시스템을 더라운지 앱에 연동하여, 사용자 맞춤형 뉴스 콘텐츠를 자동 생성·제공하는 기능을 구현한다. 빅카인즈 API 기반 뉴스 수집과 자체 분석 엔진을 활용하여 이슈 분석, 흐름 시각화, 통합 요약 등을 수행한다.

---

## 2. AI NOVA 시스템 구조

### <오늘의 이슈 키워드>
- 빅카인즈의 '오늘의 키워드 API'를 활용해, 실시간 주요 키워드를 자동 수집 및 출력하는 기능 구현

### 1. 이슈 흐름 & 이슈 맵
- 뉴스 클러스터링 기반 이슈 흐름 분석 및 키워드 관계 시각화 구현

### 2. 이슈 군집
- 뉴스 본문 전체를 벡터화한 후, 유사도 기반 군집화를 통해 주제별 기사 묶음 자동 생성 기능 구현

### 3. 이슈 연관 키워드
- 각 이슈별 주요 키워드 집계 및 연관 키워드 출력을 통해 이슈의 의미적 확장 구현

---

## 3. 타깃 유형별 콘텐츠 제공 전략

### 출장 직장인

- 콘텐츠 형태: 오늘의 산업 브리핑 카드
- 주요 키워드: 산업, 정책, 공급망, 수출 등
- 기능: 빠른 뉴스 탐색, 3줄 요약 제공

### 투자자

- 콘텐츠 형태: AI 트렌드 요약 + 연관어 맵
- 주요 키워드: AI, GPT, 반도체, 스타트업, 금융 등

### 공공기관 출장자

- 콘텐츠 형태: 이슈 타임라인 카드
- 주요 키워드: 정책, 행정, 디지털정부, 규제 등

### 감성 기록형 사용자

- 콘텐츠 형태: 디로그 연동 뉴스 요약 카드
- 주요 키워드: 사회 변화, 일상기술, 창의성 등

---

## 4. 연동 API 목록

- 뉴스 검색 API
- 뉴스 조회 API
- 특성 추출 API
- 키워드 트렌드 API
- 연관어 분석 API
- 오늘의 이슈 API (IT\_과학)

---

## 5. 요약

AI NOVA는 뉴스 흐름 이해 → 키워드 정리 → 기사 요약 과정을 자동화하여, 더라운지 사용자에게 맞춤형 뉴스 콘텐츠를 실시간 제공하는 시스템으로 설계된다. 각 사용자 유형에 맞춘 콘텐츠 형태로 노출하여 체류 시간을 늘리고, 서비스 만족도를 높이는 것이 주요 목적이다.



# 오늘의 이슈 키워드

In [10]:
import requests
import os
from dotenv import load_dotenv

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")
today_keyword_url = "https://tools.kinds.or.kr/today_category_keyword"

# ✅ STEP 5: 오늘의 AI 핵심 키워드 맵 (카테고리 기반 API 활용)
print("\n🧠 STEP 5: 오늘의 키워드 API 기반 이슈 맵")
today_payload = {
    "access_key": API_KEY,
    "argument": {}
}
today_response = requests.post(today_keyword_url, json=today_payload)

if today_response.status_code == 200:
    today_result = today_response.json()
    print("✅ 오늘의 키워드 API 호출 성공!\n")

    print("🔑 분야별 주요 키워드 (cate_keyword):\n")
    for item in today_result["return_object"].get("cate_keyword", []):
        if item["category_name"] == "IT_과학":
            print(f"📌 분야: {item['category_name']}")
            print(f"   🔍 키워드: {item['named_entity']}")
            print(f"   📊 등장 횟수: {item['named_entity_count']}")
            print(f"   🧠 타입: {item['named_entity_type']} | 단계: {item['entity_step']}")
            print("-" * 50)
else:
    print("❌ 오늘의 키워드 API 오류:", today_response.status_code)
    try:
        print("사유:", today_response.json().get("reason", "알 수 없는 오류"))
    except:
        print(today_response.text)


🧠 STEP 5: 오늘의 키워드 API 기반 이슈 맵
✅ 오늘의 키워드 API 호출 성공!

🔑 분야별 주요 키워드 (cate_keyword):

📌 분야: IT_과학
   🔍 키워드: 미국
   📊 등장 횟수: 135
   🧠 타입: LC | 단계: step4
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 한국
   📊 등장 횟수: 126
   🧠 타입: LC | 단계: step4
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 자원
   📊 등장 횟수: 71
   🧠 타입: OG | 단계: step3
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 일본
   📊 등장 횟수: 61
   🧠 타입: LC | 단계: step3
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 애플
   📊 등장 횟수: 60
   🧠 타입: OG | 단계: step3
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 중국
   📊 등장 횟수: 58
   🧠 타입: LC | 단계: step3
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 유럽
   📊 등장 횟수: 51
   🧠 타입: LC | 단계: step3
--------------------------------------------------
📌 분야: IT_과학
   🔍 키워드: 삼성전자
   📊 등장 횟수: 50
   🧠 타입: OG | 단계: step3
--------------------------------------------

# [출장 직장인]

- 키워드: 산업, 공급망, 수출
- 쿼리: 산업 AND 정책 AND 제조업

## 1. 이슈 흐름 & 이슈 맵
- 주요 키워드 기반 이슈 분석
- 뉴스 흐름 분석

In [4]:
import requests
import os
import time
from dotenv import load_dotenv
from collections import Counter, defaultdict

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"

# ✅ STEP 1: 뉴스 수집
query = "공급망 AND 산업 AND 수출"
from_date = "2025-04-01"
until_date = "2025-04-015"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]  # YYYY-MM-DD

# ✅ STEP 2: 본문 조회 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

full_articles = []
all_keywords = []

for i, article in enumerate(articles):
    title = article["title"]
    content = article["content"]
    date = dates[i]

    # 특성 추출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    f_resp = requests.post(feature_url, json=feature_payload)
    keyword_list = []
    if f_resp.status_code == 200:
        try:
            raw = f_resp.json()["return_object"]["result"]["title"]
            keyword_list = [k.split("|")[0] for k in raw.split(" ") if "|" in k]
            all_keywords.extend(keyword_list)
        except:
            pass

    full_articles.append({
        "title": title,
        "date": date,
        "keywords": keyword_list,
        "content": content
    })

# ✅ STEP 3: 전체 키워드 분석 + 기사 그룹화
print("\n📊 STEP 3: 이슈 그룹 키워드 분석")
counter = Counter(all_keywords)
top_keywords = [kw for kw, _ in counter.most_common(5)]
print("Top 키워드:", ", ".join(top_keywords))

# 기사 그룹핑
grouped_articles = {k: [] for k in top_keywords}
for article in full_articles:
    for k in top_keywords:
        if k in article["keywords"]:
            grouped_articles[k].append(article)

# ✅ STEP 4: 날짜 기반 흐름 분석
print("\n📈 STEP 4: 날짜별 흐름 요약")
date_map = defaultdict(list)
for art in full_articles:
    date_map[art["date"]].append(art)

for date in sorted(date_map.keys()):
    daily = date_map[date]
    d_keywords = []
    for a in daily:
        d_keywords.extend(a["keywords"])
    top_d = Counter(d_keywords).most_common(3)
    print(f"\n📅 {date} ({len(daily)}건)")
    print("- 주요 키워드:", ", ".join([k for k, _ in top_d]))
    print("- 대표 기사:", daily[0]["title"][:60], "...")
    print("- 전체 기사:")
    for art in daily:
        print("  •", art["title"])

    print("\n📝 기사 본문 요약:")
    for art in daily:
        print(f"[{art['title']}]")
        print(art['content'][:300], "...\n")


📥 STEP 1: 뉴스 수집 중...


KeyError: 'return_object'

## 2. 이슈 군집

In [6]:
import os
import requests
import time
from dotenv import load_dotenv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np

# ✅ STEP 0: 환경 설정
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")
search_url = "https://tools.kinds.or.kr/search/news"

# ✅ STEP 1: 뉴스 수집
query = "제조업 AND 산업 AND 정책"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]

news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]

# ✅ STEP 2: 기사 본문 확보
print("\n📄 본문 수집 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

texts = []
meta = []
for i, article in enumerate(articles):
    text = article["title"] + "\n" + article["content"]
    texts.append(text)
    meta.append({"title": article["title"], "date": dates[i]})

# ✅ STEP 3: TF-IDF 벡터화
print("\n🔍 텍스트 벡터화 중...")
vectorizer = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(texts)
terms = vectorizer.get_feature_names_out()

# ✅ STEP 4: KMeans 군집화
print("\n🧠 KMeans 기반 군집화...")
num_clusters = 4
km = KMeans(n_clusters=num_clusters, random_state=42)
km.fit(tfidf_matrix)
labels = km.labels_

# ✅ STEP 5: 결과 출력
print("\n📦 뉴스 군집화 결과:")
groups = {}
for i, label in enumerate(labels):
    if label not in groups:
        groups[label] = []
    groups[label].append({"title": meta[i]["title"], "text": texts[i]})

for label, articles in groups.items():
    print(f"\n🔹 클러스터 {label} ({len(articles)}건)")
    cluster_texts = [a["text"] for a in articles]
    cluster_matrix = vectorizer.transform(cluster_texts)
    summed = np.array(cluster_matrix.sum(axis=0)).flatten()
    top_indices = summed.argsort()[::-1][:5]
    top_keywords = [terms[i] for i in top_indices]
    print("- 주요 키워드:", ", ".join(top_keywords))
    for a in articles:
        print(f" - {a['title']}")


📥 뉴스 수집 중...

📄 본문 수집 중...

🔍 텍스트 벡터화 중...

🧠 KMeans 기반 군집화...

📦 뉴스 군집화 결과:

🔹 클러스터 3 (8건)
- 주요 키워드: 부동산, 투자, 채용, 대표는, 국가
 - [청론직설] “갈등 줄여야 할 정치가 분열 키워…국가 에너지 모아 위기 극복을”
 - 최대 30% 조정 시나리오도 나왔다…中, 위안화 절하 카드 꺼내나
 - 부산 제조업 일자리 실종 시대 오나…고용시장에 찬바람
 - 데이터 완전성 강자 ‘DA인포메이션’, 제약바이오 IT 토탈 서비스 제공
 - 한은의 '경고'…"부동산 대출 쏠림, 성장률 갉아먹어"
 - 트럼프 취임 3개월만에…韓 외국인투자 9% 썰물
 - 유가 상승, 하락 모두 그의 손에 달려…'관세맨'을 누가 말리나[페트로-일렉트로]
 - 이재명 "국가의 부는 기업이 창출한다"…新산업정책 예고

🔹 클러스터 0 (16건)
- 주요 키워드: 관세, 미국, 자동차, 트럼프, 생산
 - [만파식적] 증오의 관세법
 - 美공급망 전문가 “관세로 자동차 단종, 생산 병목현상 올 것”
 - “베선트, 발표될 상호관세율은 바닥아닌 상한선”…협상여지 시사
 - [美 관세 후폭풍] 中企 "中보단 베트남 생산이 유리…미국 생산 늘릴 수 밖에는"
 - ‘이 관세면 美에 2차 물가파동’…월가기관 스태그플레이션 전망 강화
 - 부산 수출기업, 트럼프 2기 통상정책에 위기감 고조
 - 다음 달부터 전기차 더 싸게 산다…車산업 '2+1조' 지원
 - “통상 피해기업에 연 2% 금리 융자지원”… 중진공, 통상변화대응지원 참여기업 모집
 - '관세 폭탄' 고비 넘긴 코스피…"中 대응, 실물 경기 지켜봐야"
 - 車 관세 대응…현대차 가격인상 검토·도요타 동결
 - [해외칼럼] 美 자동차 관세가 불러올 후폭풍
 - 최상목 "관세피해 기업에 정책금융 2조 추가공급…1조 상생프로그램도 가동"
 - '관세 폭탄 비상' 日기업…닛산 美 증산 검토, 닌텐도는 가격 인상 압박
 - 독일 하노버에서 경남 6개 기업 기술력 입증


## 3. 이슈 연관 키워드

In [12]:
import requests
import os
from dotenv import load_dotenv

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

# ✅ API URL 정의
search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"
trend_url = "https://tools.kinds.or.kr/time_line"
word_url = "https://tools.kinds.or.kr/word_cloud"

# ✅ STEP 1: 뉴스 수집
query = "공급망 AND 산업 AND 수출"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 10

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]

# ✅ STEP 2: 본문 확보 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

for i, article in enumerate(articles, 1):
    title = article["title"]
    content = article["content"]
    print(f"\n{i}. 📰 {title}")

    # 특성 추출 API 호출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    try:
        f_resp = requests.post(feature_url, json=feature_payload)
        if f_resp.status_code == 200:
            raw_text = f_resp.json()["return_object"]["result"].get("title", "")
            keywords = [k.split("|")[0] for k in raw_text.split(" ") if "|" in k]
            print(f"🔑 키워드: {', '.join(keywords[:5])}")
    except:
        print("❌ 키워드 추출 실패")

# ✅ STEP 3: 연관어 분석 (이슈 맵용)
print("\n🕸 STEP 3: 연관 키워드 분석 (이슈 맵)")
word_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        }
    }
}
word_resp = requests.post(word_url, json=word_payload).json()
word_list = sorted(word_resp["return_object"]["nodes"], key=lambda x: x["weight"], reverse=True)
for i, word in enumerate(word_list[:10], 1):
    print(f"{i}. 🔗 {word['name']} (연관도: {word['weight']:.2f})")

# ✅ STEP 4: 트렌드 분석 (이슈 흐름)
print("\n📈 STEP 4: 이슈 흐름 분석")
trend_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "interval": "day",
        "normalize": "false"
    }
}
trend_resp = requests.post(trend_url, json=trend_payload).json()
time_line = trend_resp["return_object"]["time_line"]
for t in time_line:
    print(f"{t['label']} → {t['hits']}건")



📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

1. 📰 희토류로 美 전기차 급소 때린 中… "韓 비축 물량도 6개월치 전부"
🔑 키워드: 전기차, 美_전기차_급소, 韓_비축_물량, 희토류, 6개월

2. 📰 식품기업 3개 전남에 둥지…434억 규모 투자협약 체결
🔑 키워드: 전남, 규모_투자협약, 규모_투자협약_체결, 식품기업_3개_전남, 434억

3. 📰 부산 수출기업, 트럼프 2기 통상정책에 위기감 고조
🔑 키워드: 트럼프_2기, 트럼프_2기_통상정책, 위기감, 수출기업, 통상정책

4. 📰 트럼프, 中 희토류 수출 통제에 그란란드 병합 속도 내나
🔑 키워드: 희토류, 그란란드, 中_희토류_수출_통제, 그란란드_병합, 수출_통제

5. 📰 한덕수 "다음주 車산업 긴급지원책 발표"…재개 "과감한 지원"
🔑 키워드: 한덕수, 한덕수_다음주, 지원책, 한덕수_다음주_車, 긴급지원책

6. 📰 “중소기업 관세 대응 도와요” 지원 프로그램 참여사 모집
🔑 키워드: 지원_프로그램_참여사_모집, 지원_프로그램, 중소기업_관세, 중소기업_관세_대응, 참여사

7. 📰 中, 희토류 통제로 美에 반격… “韓 비축 물량은 6개월치”[Pick코노미]
🔑 키워드: 6개월, 韓_비축_물량, 희토류_통제, Pick, 코노미

8. 📰 포스코홀딩스, 핵심광물 공급망 강화 위해 한국지질자원연구원과 '맞손'
🔑 키워드: 핵심광물, 공급망, 핵심광물_공급망, 핵심광물_공급망_강화, 연구원

9. 📰 “美 관세 대응하려면 정부가 자동차 부품사 해외투자 자금 지원해야”
🔑 키워드: 자동차, 자동차_부품사, 해외투자, 부품사, 해외투자_자금

10. 📰 美 관세에 비상 걸린 기업…산업부, 긴급 업종별 릴레이 회의 개최
🔑 키워드: 관세에, 긴급_업종별, 업종별, 산업부, 릴레이_회의

🕸 STEP 3: 연관 키워드 분석 (이슈 맵)
1. 🔗 중국 (연관도: 7.58)
2. 🔗 자동차 (연관도: 5.83)
3. 🔗 상호관세 (연관도: 5.33)
4. 🔗 반도체

# [투자자]
- 키워드: AI, GPT, 반도체, 스타트업
- 쿼리: AI AND 투자 AND 시장"

## 1. 이슈 흐름 & 이슈 맵
- 주요 키워드 기반 이슈 분석
- 뉴스 흐름 분석

In [44]:
import requests
import os
import time
from dotenv import load_dotenv
from collections import Counter, defaultdict

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"

# ✅ STEP 1: 뉴스 수집
query = "AI AND 투자 AND 시장"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]  # YYYY-MM-DD

# ✅ STEP 2: 본문 조회 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

full_articles = []
all_keywords = []

for i, article in enumerate(articles):
    title = article["title"]
    content = article["content"]
    date = dates[i]

    # 특성 추출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    f_resp = requests.post(feature_url, json=feature_payload)
    keyword_list = []
    if f_resp.status_code == 200:
        try:
            raw = f_resp.json()["return_object"]["result"]["title"]
            keyword_list = [k.split("|")[0] for k in raw.split(" ") if "|" in k]
            all_keywords.extend(keyword_list)
        except:
            pass

    full_articles.append({
        "title": title,
        "date": date,
        "keywords": keyword_list,
        "content": content
    })

# ✅ STEP 3: 전체 키워드 분석 + 기사 그룹화
print("\n📊 STEP 3: 이슈 그룹 키워드 분석")
counter = Counter(all_keywords)
top_keywords = [kw for kw, _ in counter.most_common(5)]
print("Top 키워드:", ", ".join(top_keywords))

# 기사 그룹핑
grouped_articles = {k: [] for k in top_keywords}
for article in full_articles:
    for k in top_keywords:
        if k in article["keywords"]:
            grouped_articles[k].append(article)

# ✅ STEP 4: 날짜 기반 흐름 분석
print("\n📈 STEP 4: 날짜별 흐름 요약")
date_map = defaultdict(list)
for art in full_articles:
    date_map[art["date"]].append(art)

for date in sorted(date_map.keys()):
    daily = date_map[date]
    d_keywords = []
    for a in daily:
        d_keywords.extend(a["keywords"])
    top_d = Counter(d_keywords).most_common(3)
    print(f"\n📅 {date} ({len(daily)}건)")
    print("- 주요 키워드:", ", ".join([k for k, _ in top_d]))
    print("- 대표 기사:", daily[0]["title"][:60], "...")
    print("- 전체 기사:")
    for art in daily:
        print("  •", art["title"])

    print("\n📝 기사 본문 요약:")
    for art in daily:
        print(f"[{art['title']}]")
        print(art['content'][:300], "...\n")


📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

📊 STEP 3: 이슈 그룹 키워드 분석
Top 키워드: AI, 투자, 유치, 투자자, 로봇

📈 STEP 4: 날짜별 흐름 요약

📅 2025-04-01 (5건)
- 주요 키워드: AI, 착수, AI_정부
- 대표 기사: 백악관도 'AI 정부' 전환 착수 ...
- 전체 기사:
  • 백악관도 'AI 정부' 전환 착수
  • SK도 로봇 회사 인수 착수…4대 그룹 '휴머노이드 전쟁' 불붙다[Biz-플러스]
  • 이통3사 3色 AI 전략… 'B2B·AIDC·빅테크"
  • 오세훈, 민주당 향해 "당 '아버지'보다 국민·민생이 먼저…추경 협조하라"
  • 신한證, 미국 AI 기업 '몰로코' 투자금 회수 완료

📝 기사 본문 요약:
[백악관도 'AI 정부' 전환 착수]
인공지능(AI) 최강국인 미국이 도널드 트럼프 대통령의 리더십 아래 AI 정부 전환에 착수했다. 세계 최고 민간 AI 기업을 둔 미국이 혁신에 더 가속도를 내고 있는 것이다. 
 

 백악관 예산관리국(OMB)은 7일(현지 시간) 대통령 과학기술보좌관실과 협력해 ‘연방정부의 AI 활용 및 조달 장벽 제거’ 정책을 발표했다. 이번 정책은 공공서비스 혁신과 함께 AI 기술 분야에서 미국의 글로벌 영향력을 강화하는 것이 목표다. 
 

 백악관은 정부 각 부처가 AI 기술을 신속하게 도입할 수 있도록 유도하기로 했다. 각 부처에 최고AI ...

[SK도 로봇 회사 인수 착수…4대 그룹 '휴머노이드 전쟁' 불붙다[Biz-플러스]]
삼성·현대차(005380)·SK(034730)·LG(003550) 등 4대 그룹이 벌이는 로봇 전쟁이 가시화되고 있다. 삼성과 현대차·LG 등이 참전한 로봇 사업에 SK도 팔을 걷어붙이면서다. SK는 미래 첨단산업으로 꼽히는 휴머노이드(인간형 로봇) 시장 선점을 위해 코스닥 상장사인 로봇 자동화 시스템 업체 유일로보틱스(388720) 인수 작업에 착수했다. 
 

 SK온의 미국법인인 SK배터리

## 2. 이슈 군집


In [7]:
import os
import requests
import time
from dotenv import load_dotenv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np

# ✅ STEP 0: 환경 설정
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")
search_url = "https://tools.kinds.or.kr/search/news"

# ✅ STEP 1: 뉴스 수집
query = "AI AND 투자 AND 시장"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]

news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]

# ✅ STEP 2: 기사 본문 확보
print("\n📄 본문 수집 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

texts = []
meta = []
for i, article in enumerate(articles):
    text = article["title"] + "\n" + article["content"]
    texts.append(text)
    meta.append({"title": article["title"], "date": dates[i]})

# ✅ STEP 3: TF-IDF 벡터화
print("\n🔍 텍스트 벡터화 중...")
vectorizer = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(texts)
terms = vectorizer.get_feature_names_out()

# ✅ STEP 4: KMeans 군집화
print("\n🧠 KMeans 기반 군집화...")
num_clusters = 4
km = KMeans(n_clusters=num_clusters, random_state=42)
km.fit(tfidf_matrix)
labels = km.labels_

# ✅ STEP 5: 결과 출력
print("\n📦 뉴스 군집화 결과:")
groups = {}
for i, label in enumerate(labels):
    if label not in groups:
        groups[label] = []
    groups[label].append({"title": meta[i]["title"], "text": texts[i]})

for label, articles in groups.items():
    print(f"\n🔹 클러스터 {label} ({len(articles)}건)")
    cluster_texts = [a["text"] for a in articles]
    cluster_matrix = vectorizer.transform(cluster_texts)
    summed = np.array(cluster_matrix.sum(axis=0)).flatten()
    top_indices = summed.argsort()[::-1][:5]
    top_keywords = [terms[i] for i in top_indices]
    print("- 주요 키워드:", ", ".join(top_keywords))
    for a in articles:
        print(f" - {a['title']}")


📥 뉴스 수집 중...

📄 본문 수집 중...

🔍 텍스트 벡터화 중...

🧠 KMeans 기반 군집화...

📦 뉴스 군집화 결과:

🔹 클러스터 0 (12건)
- 주요 키워드: 것으로, 있는, 최대, 달러, 관세
 - 아마존도 참전…'AI 비서' 경쟁 가열
 - KB증권 "공매도 영향 피하려면 역시 '경기 방어주'…SKT 추천"[줍줍리포트]
 - “살까 말까” 삼성전자 깜짝 실적에도 주가는 ‘긴장모드’ [AI 프리즘*주식 투자자 뉴스]
 - AI도 승자독식…오픈AI·구글 떼돈 벌 동안 한국은 통계 '0'
 - 미중 무역전쟁 맞닥뜨릴 새 대통령, '리턴 이니셔티브' 고민하길[윤민혁의 실리콘밸리View]
 - AI·바이오 벤처에 관심집중…딥테크 투자액 3.6조 돌파
 - 오픈AI 23억弗·딥시크 1억弗 벌 때…'이름'도 못 올린 韓기업
 - AI서버 한대당 6억…최적 조합으로 구축비용 줄인다 [스케일업리포트]
 - 이재명, 14일 '퓨리오사AI' 찾는다
 - 이재명, 대선 첫 일정은 퓨리오사AI 방문…"성장경제 행보·AI 비전 제시"
 - 오세훈, 민주당 향해 "당 '아버지'보다 국민·민생이 먼저…추경 협조하라"
 - 칩 확보서 데이터센터까지…전 산업에 'AI 고속도로' 깔아야

🔹 클러스터 2 (10건)
- 주요 키워드: 서비스, 투자, 기반, 밝혔다, 사업
 - 백악관도 'AI 정부' 전환 착수
 - 창립 9주년 AI 콴텍 "퇴직연금 로보어드바이저 시장 선도할 것"
 - AI 기업으로 변신한 야놀자 "5년내 거래액 100조 돌파"
 - 이통3사 3色 AI 전략… 'B2B·AIDC·빅테크"
 - 금융 AI 혜움, 105억 규모 투자 유치 [투자ABC]
 - 뤼튼테크놀로지스, 1080억 투자 유치 [투자ABC]
 - 신한證, 미국 AI 기업 '몰로코' 투자금 회수 완료
 - 식단에 AI 더하니 약 된다… 메디쏠라 130억원 투자 유치
 - 신호철 대표 "모든 투자 정보 '어땠지·왜지·어쩌지'로 제공"
 - 바이브온코퍼레이션, 디지털대성과 전략적 제휴

🔹

## 3. 이슈 연관 키워드


In [16]:
import requests
import os
from dotenv import load_dotenv

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

# ✅ API URL 정의
search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"
trend_url = "https://tools.kinds.or.kr/time_line"
word_url = "https://tools.kinds.or.kr/word_cloud"

# ✅ STEP 1: 뉴스 수집
query = "AI AND 투자 AND 시장"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 10

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]

# ✅ STEP 2: 본문 확보 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

for i, article in enumerate(articles, 1):
    title = article["title"]
    content = article["content"]
    print(f"\n{i}. 📰 {title}")

    # 특성 추출 API 호출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    try:
        f_resp = requests.post(feature_url, json=feature_payload)
        if f_resp.status_code == 200:
            raw_text = f_resp.json()["return_object"]["result"].get("title", "")
            keywords = [k.split("|")[0] for k in raw_text.split(" ") if "|" in k]
            print(f"🔑 키워드: {', '.join(keywords[:5])}")
    except:
        print("❌ 키워드 추출 실패")

# ✅ STEP 3: 연관어 분석 (이슈 맵용)
print("\n🕸 STEP 3: 연관 키워드 분석 (이슈 맵)")
word_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        }
    }
}
word_resp = requests.post(word_url, json=word_payload).json()
word_list = sorted(word_resp["return_object"]["nodes"], key=lambda x: x["weight"], reverse=True)
for i, word in enumerate(word_list[:10], 1):
    print(f"{i}. 🔗 {word['name']} (연관도: {word['weight']:.2f})")

# ✅ STEP 4: 트렌드 분석 (이슈 흐름)
print("\n📈 STEP 4: 이슈 흐름 분석")
trend_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "interval": "day",
        "normalize": "false"
    }
}
trend_resp = requests.post(trend_url, json=trend_payload).json()
time_line = trend_resp["return_object"]["time_line"]
for t in time_line:
    print(f"{t['label']} → {t['hits']}건")



📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

1. 📰 아마존도 참전…'AI 비서' 경쟁 가열
🔑 키워드: 경쟁_가열, AI, 아마존, 참전, 경쟁

2. 📰 KB증권 "공매도 영향 피하려면 역시 '경기 방어주'…SKT 추천"[줍줍리포트]
🔑 키워드: 공매도, 방어주, 경기_방어주, KB증권_공매도_영향, KB증권_공매도

3. 📰 AI·로봇 혁신 스타트업, 산은 손잡고 美 투자자 찾는다
🔑 키워드: 스타트업, AI·로봇_혁신_스타트업, AI·로봇_혁신, AI, 투자자

4. 📰 창립 9주년 AI 콴텍 "퇴직연금 로보어드바이저 시장 선도할 것"
🔑 키워드: 콴텍, 로보어드바이저, AI_콴텍, 창립_9주년, 퇴직연금_로보어드바이저

5. 📰 AI·바이오 벤처에 관심집중…딥테크 투자액 3.6조 돌파
🔑 키워드: 투자액, 딥테크, 관심집중, 투자액_3.6, AI

6. 📰 퓨리오사AI에 해외 투자자 다리 놓는 산은
🔑 키워드: 퓨리오사, 해외_투자자, 해외_투자자_다리, 투자자, AI

7. 📰 이재명, 대선 첫 일정은 퓨리오사AI 방문…"성장경제 행보·AI 비전 제시"
🔑 키워드: AI, 성장경제, 퓨리오사, 퓨리오사AI_방문, 비전_제시

8. 📰 신한證, 미국 AI 기업 '몰로코' 투자금 회수 완료
🔑 키워드: 미국, 몰로코, 투자금, 기업_몰로코, 투자금_회수

9. 📰 신호철 대표 "모든 투자 정보 '어땠지·왜지·어쩌지'로 제공"
🔑 키워드: 투자_정보, 투자_정보_왜지, 왜지, 신호철_대표, 신호철

10. 📰 ‘K휴머노이드 연합’ 출범…2030년까지 민·관 1조 투자
🔑 키워드: 1조_투자, 출범, 투자, K휴머노이드

🕸 STEP 3: 연관 키워드 분석 (이슈 맵)
1. 🔗 인공지능 (연관도: 38.64)
2. 🔗 삼성전자 (연관도: 8.80)
3. 🔗 반도체 (연관도: 8.57)
4. 🔗 중국 (연관도: 7.73)
5. 🔗 CEO (연관도: 7.06)
6. 🔗 오픈AI (연관도: 6.17)
7. 🔗 트럼프 대통령 

# [공공기관 출장자]

- 키워드: 정책, 행정, 디지털정부
- query: 정책 AND 공공 AND 데이터

## 1. 이슈 흐름 & 이슈 맵
- 주요 키워드 기반 이슈 분석
- 뉴스 흐름 분석

In [17]:
import requests
import os
import time
from dotenv import load_dotenv
from collections import Counter, defaultdict

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"

# ✅ STEP 1: 뉴스 수집
query = "정책 AND 공공 AND 데이터"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]  # YYYY-MM-DD

# ✅ STEP 2: 본문 조회 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

full_articles = []
all_keywords = []

for i, article in enumerate(articles):
    title = article["title"]
    content = article["content"]
    date = dates[i]

    # 특성 추출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    f_resp = requests.post(feature_url, json=feature_payload)
    keyword_list = []
    if f_resp.status_code == 200:
        try:
            raw = f_resp.json()["return_object"]["result"]["title"]
            keyword_list = [k.split("|")[0] for k in raw.split(" ") if "|" in k]
            all_keywords.extend(keyword_list)
        except:
            pass

    full_articles.append({
        "title": title,
        "date": date,
        "keywords": keyword_list,
        "content": content
    })

# ✅ STEP 3: 전체 키워드 분석 + 기사 그룹화
print("\n📊 STEP 3: 이슈 그룹 키워드 분석")
counter = Counter(all_keywords)
top_keywords = [kw for kw, _ in counter.most_common(5)]
print("Top 키워드:", ", ".join(top_keywords))

# 기사 그룹핑
grouped_articles = {k: [] for k in top_keywords}
for article in full_articles:
    for k in top_keywords:
        if k in article["keywords"]:
            grouped_articles[k].append(article)

# ✅ STEP 4: 날짜 기반 흐름 분석
print("\n📈 STEP 4: 날짜별 흐름 요약")
date_map = defaultdict(list)
for art in full_articles:
    date_map[art["date"]].append(art)

for date in sorted(date_map.keys()):
    daily = date_map[date]
    d_keywords = []
    for a in daily:
        d_keywords.extend(a["keywords"])
    top_d = Counter(d_keywords).most_common(3)
    print(f"\n📅 {date} ({len(daily)}건)")
    print("- 주요 키워드:", ", ".join([k for k, _ in top_d]))
    print("- 대표 기사:", daily[0]["title"][:60], "...")
    print("- 전체 기사:")
    for art in daily:
        print("  •", art["title"])

    print("\n📝 기사 본문 요약:")
    for art in daily:
        print(f"[{art['title']}]")
        print(art['content'][:300], "...\n")


📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

📊 STEP 3: 이슈 그룹 키워드 분석
Top 키워드: AI, 데이터, 청년, 부산시, 행정

📈 STEP 4: 날짜별 흐름 요약

📅 2025-04-01 (1건)
- 주요 키워드: 청년_절반, 경기도, 경기도_거주
- 대표 기사: 경기도 거주 청년 절반 이상은 '미혼' ...
- 전체 기사:
  • 경기도 거주 청년 절반 이상은 '미혼'

📝 기사 본문 요약:
[경기도 거주 청년 절반 이상은 '미혼']
2022년 기준 경기도에 거주하는 청년 절반 이상이 결혼을 하지 않은 것으로 나타났다. 
 

 경기도는 통계청 인구동태코호트 데이터베이스(DB)를 활용해 7일 이 같은 내용이 담긴 ‘경기도 청년세대 가족형성통계’를 발표했다. 
 

 이에 따르면 경기도에 거주하는 1983(39세)~1995(27세)년생 233만6000 명 중 56.7%가 미혼이었다. 성별로는 남성의 미혼율이 64.5%로 여성(48.1%)보다 더 많이 결혼을 하지 않았다. 
 

 30세 미혼율은 2015년 61.6%에서 2022년 76.1%로 7년만에 14.5%p ...


📅 2025-04-02 (3건)
- 주요 키워드: 투명성, 미술시장_투명성_강화, 미술시장_투명성
- 대표 기사: “미술시장 투명성 강화”…5개년 미술진흥 계획 나왔다 ...
- 전체 기사:
  • “미술시장 투명성 강화”…5개년 미술진흥 계획 나왔다
  • 교통카드 빅데이터 개방…부르면 오는 공유버스 도입 길 열렸다
  • 부산시, 공무원 데이터·AI 인재양성 교육 확대… 행정 혁신 가속화

📝 기사 본문 요약:
[“미술시장 투명성 강화”…5개년 미술진흥 계획 나왔다]
예술경영지원센터에 따르면 지난 2023년 기준 글로벌 미술시장 규모는 88조 원이었는데 한국은 6900억 원으로 채 1%도 되지 못했다. 글로벌 G7 수준의 국가로서 예술 부문은 크게 모자란 셈이다. 다만 여기서 의견은 갈린다. 한국 미술시장 규모를 키워야 한다는 데 의견

## 2. 이슈 군집


In [8]:
import os
import requests
import time
from dotenv import load_dotenv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np

# ✅ STEP 0: 환경 설정
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")
search_url = "https://tools.kinds.or.kr/search/news"

# ✅ STEP 1: 뉴스 수집
query = "정책 AND 공공 AND 데이터"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]

news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]

# ✅ STEP 2: 기사 본문 확보
print("\n📄 본문 수집 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

texts = []
meta = []
for i, article in enumerate(articles):
    text = article["title"] + "\n" + article["content"]
    texts.append(text)
    meta.append({"title": article["title"], "date": dates[i]})

# ✅ STEP 3: TF-IDF 벡터화
print("\n🔍 텍스트 벡터화 중...")
vectorizer = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(texts)
terms = vectorizer.get_feature_names_out()

# ✅ STEP 4: KMeans 군집화
print("\n🧠 KMeans 기반 군집화...")
num_clusters = 4
km = KMeans(n_clusters=num_clusters, random_state=42)
km.fit(tfidf_matrix)
labels = km.labels_

# ✅ STEP 5: 결과 출력
print("\n📦 뉴스 군집화 결과:")
groups = {}
for i, label in enumerate(labels):
    if label not in groups:
        groups[label] = []
    groups[label].append({"title": meta[i]["title"], "text": texts[i]})

for label, articles in groups.items():
    print(f"\n🔹 클러스터 {label} ({len(articles)}건)")
    cluster_texts = [a["text"] for a in articles]
    cluster_matrix = vectorizer.transform(cluster_texts)
    summed = np.array(cluster_matrix.sum(axis=0)).flatten()
    top_indices = summed.argsort()[::-1][:5]
    top_keywords = [terms[i] for i in top_indices]
    print("- 주요 키워드:", ", ".join(top_keywords))
    for a in articles:
        print(f" - {a['title']}")


📥 뉴스 수집 중...

📄 본문 수집 중...

🔍 텍스트 벡터화 중...

🧠 KMeans 기반 군집화...

📦 뉴스 군집화 결과:

🔹 클러스터 2 (2건)
- 주요 키워드: 기존, 최근, 크게, 했다, 지난
 - “미술시장 투명성 강화”…5개년 미술진흥 계획 나왔다
 - 관세 폭탄發 '5만전자' "저가 매수 기회"…삼성전자 순매수 1위[주식 초고수는 지금]

🔹 클러스터 0 (2건)
- 주요 키워드: 2022년, 하지, 활용할, 서비스, 것으로
 - 경기도 거주 청년 절반 이상은 '미혼'
 - 교통카드 빅데이터 개방…부르면 오는 공유버스 도입 길 열렸다

🔹 클러스터 1 (6건)
- 주요 키워드: ai, 데이터, 있다, 행정, 정책
 - 77년 묵은 정부조직, 데이터 중심 대수술…'AI 부총리' 도입을
 - 부산시, 네이버클라우드와 AI 지능행정 미래 그린다
 - 美中과 더 벌어지면 기술 식민지 전락…정부 전방위 지원 절실[AI 비서, 모든 산업 삼킨다]
 - 부산시, 공무원 데이터·AI 인재양성 교육 확대… 행정 혁신 가속화
 - 세일즈포스, 데이터 분석 플랫폼 '태블로' 나라장터 등록
 - 칩 확보서 데이터센터까지…전 산업에 'AI 고속도로' 깔아야

🔹 클러스터 3 (2건)
- 주요 키워드: 컨설팅, 소상공인, 맞춤형, 창업, 추진한다
 - 청년부터 어르신까지 챙긴다…광명시, 일자리 1.4만개 창출 목표
 - 올해 은행권 소상공인 컨설팅 센터 60개로 확대


## 3. 이슈 연관 키워드


In [41]:
import requests
import os
from dotenv import load_dotenv

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

# ✅ API URL 정의
search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"
trend_url = "https://tools.kinds.or.kr/time_line"
word_url = "https://tools.kinds.or.kr/word_cloud"

# ✅ STEP 1: 뉴스 수집
query = "정책 AND 공공 AND 데이터"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]

# ✅ STEP 2: 본문 확보 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

for i, article in enumerate(articles, 1):
    title = article["title"]
    content = article["content"]
    print(f"\n{i}. 📰 {title}")

    # 특성 추출 API 호출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    try:
        f_resp = requests.post(feature_url, json=feature_payload)
        if f_resp.status_code == 200:
            raw_text = f_resp.json()["return_object"]["result"].get("title", "")
            keywords = [k.split("|")[0] for k in raw_text.split(" ") if "|" in k]
            print(f"🔑 키워드: {', '.join(keywords[:5])}")
    except:
        print("❌ 키워드 추출 실패")

# ✅ STEP 3: 연관어 분석 (이슈 맵용)
print("\n🕸 STEP 3: 연관 키워드 분석 (이슈 맵)")
word_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        }
    }
}
word_resp = requests.post(word_url, json=word_payload).json()
word_list = sorted(word_resp["return_object"]["nodes"], key=lambda x: x["weight"], reverse=True)
for i, word in enumerate(word_list[:10], 1):
    print(f"{i}. 🔗 {word['name']} (연관도: {word['weight']:.2f})")

# ✅ STEP 4: 트렌드 분석 (이슈 흐름)
print("\n📈 STEP 4: 이슈 흐름 분석")
trend_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "interval": "day",
        "normalize": "false"
    }
}
trend_resp = requests.post(trend_url, json=trend_payload).json()
time_line = trend_resp["return_object"]["time_line"]
for t in time_line:
    print(f"{t['label']} → {t['hits']}건")



📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

1. 📰 “미술시장 투명성 강화”…5개년 미술진흥 계획 나왔다
🔑 키워드: 투명성, 미술시장_투명성_강화, 미술시장_투명성, 미술진흥_계획, 5개년

2. 📰 관세 폭탄發 '5만전자' "저가 매수 기회"…삼성전자 순매수 1위[주식 초고수는 지금]
🔑 키워드: 저가_매수, 저가_매수_기회, 5만, 매수_1위, 관세_폭탄

3. 📰 경기도 거주 청년 절반 이상은 '미혼'
🔑 키워드: 청년_절반, 경기도, 경기도_거주, 절반, 거주

4. 📰 77년 묵은 정부조직, 데이터 중심 대수술…'AI 부총리' 도입을
🔑 키워드: 데이터_중심, 데이터_중심_대수술, 부총리, 정부조직, 대수술

5. 📰 청년부터 어르신까지 챙긴다…광명시, 일자리 1.4만개 창출 목표
🔑 키워드: 광명시, 일자리, 일자리_1.4, 어르신, 창출

6. 📰 부산시, 네이버클라우드와 AI 지능행정 미래 그린다
🔑 키워드: 네이버클라우드, AI, AI_지능행정_미래, AI_지능행정, 부산시

7. 📰 美中과 더 벌어지면 기술 식민지 전락…정부 전방위 지원 절실[AI 비서, 모든 산업 삼킨다]
🔑 키워드: 식민지, 방위_지원, 방위_지원_절실, 기술_식민지_전락, 절실

8. 📰 교통카드 빅데이터 개방…부르면 오는 공유버스 도입 길 열렸다
🔑 키워드: 공유버스, 빅데이터, 공유버스_도입_길, 교통카드_빅데이터, 교통카드_빅데이터_개방

9. 📰 올해 은행권 소상공인 컨설팅 센터 60개로 확대
🔑 키워드: 컨설팅_센터, 은행권, 소상공인, 은행권_소상공인, 센터

10. 📰 부산시, 공무원 데이터·AI 인재양성 교육 확대… 행정 혁신 가속화
🔑 키워드: 인재양성, 인재양성_교육, 인재양성_교육_확대, 공무원, 행정_혁신

11. 📰 세일즈포스, 데이터 분석 플랫폼 '태블로' 나라장터 등록
🔑 키워드: 태블로, 데이터_분석_플랫폼_태블로, 플랫폼_태블로, 나라장터, 나라장터_등록

12. 📰 칩 확보서 데이터센터까지…전 산업

# [감성 기록형 사용자]

- 키워드: 감성, 여행
- query: 문화 AND 여행

## 1. 이슈 흐름 & 이슈 맵
- 주요 키워드 기반 이슈 분석
- 뉴스 흐름 분석

In [5]:
import requests
import os
import time
from dotenv import load_dotenv
from collections import Counter, defaultdict

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"

# ✅ STEP 1: 뉴스 수집
query = "문화 AND 여행"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]  # YYYY-MM-DD

# ✅ STEP 2: 본문 조회 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

full_articles = []
all_keywords = []

for i, article in enumerate(articles):
    title = article["title"]
    content = article["content"]
    date = dates[i]

    # 특성 추출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    f_resp = requests.post(feature_url, json=feature_payload)
    keyword_list = []
    if f_resp.status_code == 200:
        try:
            raw = f_resp.json()["return_object"]["result"]["title"]
            keyword_list = [k.split("|")[0] for k in raw.split(" ") if "|" in k]
            all_keywords.extend(keyword_list)
        except:
            pass

    full_articles.append({
        "title": title,
        "date": date,
        "keywords": keyword_list,
        "content": content
    })

# ✅ STEP 3: 전체 키워드 분석 + 기사 그룹화
print("\n📊 STEP 3: 이슈 그룹 키워드 분석")
counter = Counter(all_keywords)
top_keywords = [kw for kw, _ in counter.most_common(5)]
print("Top 키워드:", ", ".join(top_keywords))

# 기사 그룹핑
grouped_articles = {k: [] for k in top_keywords}
for article in full_articles:
    for k in top_keywords:
        if k in article["keywords"]:
            grouped_articles[k].append(article)

# ✅ STEP 4: 날짜 기반 흐름 분석
print("\n📈 STEP 4: 날짜별 흐름 요약")
date_map = defaultdict(list)
for art in full_articles:
    date_map[art["date"]].append(art)

for date in sorted(date_map.keys()):
    daily = date_map[date]
    d_keywords = []
    for a in daily:
        d_keywords.extend(a["keywords"])
    top_d = Counter(d_keywords).most_common(3)
    print(f"\n📅 {date} ({len(daily)}건)")
    print("- 주요 키워드:", ", ".join([k for k, _ in top_d]))
    print("- 대표 기사:", daily[0]["title"][:60], "...")
    print("- 전체 기사:")
    for art in daily:
        print("  •", art["title"])

    print("\n📝 기사 본문 요약:")
    for art in daily:
        print(f"[{art['title']}]")
        print(art['content'][:300], "...\n")


📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

📊 STEP 3: 이슈 그룹 키워드 분석
Top 키워드: 여행, 취항, 해외, 산업, 방한

📈 STEP 4: 날짜별 흐름 요약

📅 2025-04-01 (5건)
- 주요 키워드: 항공편, 프라하, 항공편_주_3회_운항
- 대표 기사: 아시아나, 프라하 신규취항…인천發 항공편 주 3회 운항 ...
- 전체 기사:
  • 아시아나, 프라하 신규취항…인천發 항공편 주 3회 운항
  • 느슨해졌던 산업관광 ‘엔진’, 민관학 함께 다시 돌린다
  • 나라 지키려 병역 복무하면 뭐하노…전역군인 혜택 거의 없네![이현호의 밀리터리!톡]
  • 日골든위크 앞두고 ‘방한 수요’ 잡아라
  • 에비앙GC 라운드부터 미슐랭 셰프와 요리체험까지…프랑스골프가 온다

📝 기사 본문 요약:
[아시아나, 프라하 신규취항…인천發 항공편 주 3회 운항]
아시아나항공(020560)이 인천~프라하 노선에 신규 취항하며 체코로 향하는 하늘 길을 넓혔다. 
 

 아시아나항공은 1일부터 인천~프라하 노선을 주 3회(화·목·일요일) 운항한다고 밝혔다. 이번 신규 취항은 지난해 한국·체코 항공 회담에서 양국 간 운수권이 주 4회에서 7회로 확대된 데 따른 것이다. 
 

 인천~프라하 항공편은 인천공항에서 오전 9시 15분 출발해 프라하 공항에 현지 시각 오후 3시 15분에 도착한다. 돌아오는 항공편은 프라하공항에서 현지 시간 오후 4시 55분에 출발해 다음 날 오전 11시 인천공항에 도착한 ...

[느슨해졌던 산업관광 ‘엔진’, 민관학 함께 다시 돌린다]
문화체육관광부는 올해부터 ‘신(新)산업관광’을 추진한다. 기존의 산업관광이 내국인의 공장 견학과 수학여행 등을 단순히 연결하는 형태였다면, 올해 새롭게 추진하는 ‘신산업관광’은 반도체, 자동차, 정보기술(IT), 철강, K푸드, K뷰티 등 한국을 대표하는 산업과 연계한 맞춤형 산업관광 상품을 활용한다. 또 대상을 외래 관광객까지 확대할 계획이다. 
 

 문체부는 

## 2. 이슈 군집


In [9]:
import os
import requests
import time
from dotenv import load_dotenv
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import numpy as np

# ✅ STEP 0: 환경 설정
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")
search_url = "https://tools.kinds.or.kr/search/news"

# ✅ STEP 1: 뉴스 수집
query = "문화 AND 여행"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id", "published_at"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]

news_ids = [doc["news_id"] for doc in docs]
titles = [doc["title"] for doc in docs]
dates = [doc["published_at"][:10] for doc in docs]

# ✅ STEP 2: 기사 본문 확보
print("\n📄 본문 수집 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

texts = []
meta = []
for i, article in enumerate(articles):
    text = article["title"] + "\n" + article["content"]
    texts.append(text)
    meta.append({"title": article["title"], "date": dates[i]})

# ✅ STEP 3: TF-IDF 벡터화
print("\n🔍 텍스트 벡터화 중...")
vectorizer = TfidfVectorizer(max_df=0.8, min_df=2, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(texts)
terms = vectorizer.get_feature_names_out()

# ✅ STEP 4: KMeans 군집화
print("\n🧠 KMeans 기반 군집화...")
num_clusters = 4
km = KMeans(n_clusters=num_clusters, random_state=42)
km.fit(tfidf_matrix)
labels = km.labels_

# ✅ STEP 5: 결과 출력
print("\n📦 뉴스 군집화 결과:")
groups = {}
for i, label in enumerate(labels):
    if label not in groups:
        groups[label] = []
    groups[label].append({"title": meta[i]["title"], "text": texts[i]})

for label, articles in groups.items():
    print(f"\n🔹 클러스터 {label} ({len(articles)}건)")
    cluster_texts = [a["text"] for a in articles]
    cluster_matrix = vectorizer.transform(cluster_texts)
    summed = np.array(cluster_matrix.sum(axis=0)).flatten()
    top_indices = summed.argsort()[::-1][:5]
    top_keywords = [terms[i] for i in top_indices]
    print("- 주요 키워드:", ", ".join(top_keywords))
    for a in articles:
        print(f" - {a['title']}")


📥 뉴스 수집 중...

📄 본문 수집 중...

🔍 텍스트 벡터화 중...

🧠 KMeans 기반 군집화...

📦 뉴스 군집화 결과:

🔹 클러스터 0 (6건)
- 주요 키워드: 한국, 매력을, 신규, 시작으로, 일본
 - 아시아나, 프라하 신규취항…인천發 항공편 주 3회 운항
 - 인천공항에서 전통문화 미디어월과 만나다
 - 유성 탄동천 일대, 과학으로 물든다
 - 日골든위크 앞두고 ‘방한 수요’ 잡아라
 - ‘문화유산 홍보대사’ 佛 파비앙 “이름만 아닌, 실행하는 홍보대사 될 것”
 - 대만 여고생도 반한 ‘K야구’…키움히어로즈 보러 104명 고척돔 왔다

🔹 클러스터 2 (3건)
- 주요 키워드: 골프, 일본, 호텔, 코스, 코스다
 - 크루즈페리 ‘팬스타 미라클호’, 화려한 첫 등장…13일 공식 취항
 - 에비앙GC 라운드부터 미슐랭 셰프와 요리체험까지…프랑스골프가 온다
 - 정갈한 ‘골프정찬’ 맛보려면 언제든 도쿠시마로!

🔹 클러스터 3 (13건)
- 주요 키워드: 여행, 있는, ai, 미국, 지역
 - 배보찬 놀유니버스 공동대표 "해외숙소 예약도 1등 자신…넘버원 넘어 온리원 플랫폼 될 것"[CEO&STORY]
 - 느슨해졌던 산업관광 ‘엔진’, 민관학 함께 다시 돌린다
 - 나라 지키려 병역 복무하면 뭐하노…전역군인 혜택 거의 없네![이현호의 밀리터리!톡]
 - "어머니, 식사는 잡쉈어?"…고속도로 갓길 걷던 할머니에 비번 경찰이 건넨 말
 - 오프라인 제친 온라인 쇼핑…온라인 쇼핑 거래액만 21.6조 원
 - 종의 기원 [김다은의 웹소설] <25회>
 - "강릉 하면 커피…지역 살리는 세계축제 만들것"
 - 대전 대덕구, ‘대덕 고래(Go來)여행’ 운영
 - [단독] 우준열 모두투어 신임 사장 "이제 여행은 '체험'…패키지 기준 바꿀 것"
 - ‘관세 전쟁 격화’ 중국, 미국 여행 자제령 내렸다
 - 1850만 방한 관광객 잡아라…모빌리티 업계 각축전
 - '생각'하는 AI비서…모든 산업 삼킨다
 - “세상을 바꾸는 휴가”…하나투어 해외 

  super()._check_params_vs_input(X, default_n_init=10)


## 3. 이슈 연관 키워드


In [42]:
import requests
import os
from dotenv import load_dotenv

# ✅ STEP 0: 환경 세팅
load_dotenv()
API_KEY = os.getenv("BIGKINDS_KEY")

# ✅ API URL 정의
search_url = "https://tools.kinds.or.kr/search/news"
feature_url = "https://tools.kinds.or.kr/feature"
trend_url = "https://tools.kinds.or.kr/time_line"
word_url = "https://tools.kinds.or.kr/word_cloud"

# ✅ STEP 1: 뉴스 수집
query = "문화 AND 여행"
from_date = "2025-04-01"
until_date = "2025-04-14"
fetch_count = 30

print("\n📥 STEP 1: 뉴스 수집 중...")
search_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "return_size": fetch_count,
        "return_from": 0,
        "fields": ["title", "news_id"]
    }
}
search_resp = requests.post(search_url, json=search_payload)
docs = search_resp.json()["return_object"]["documents"]
news_ids = [doc["news_id"] for doc in docs]

# ✅ STEP 2: 본문 확보 + 키워드 추출
print("\n🔍 STEP 2: 키워드 추출 중...")
view_payload = {
    "access_key": API_KEY,
    "argument": {
        "news_ids": news_ids,
        "fields": ["title", "content"]
    }
}
view_resp = requests.post(search_url, json=view_payload)
articles = view_resp.json()["return_object"]["documents"]

for i, article in enumerate(articles, 1):
    title = article["title"]
    content = article["content"]
    print(f"\n{i}. 📰 {title}")

    # 특성 추출 API 호출
    feature_payload = {
        "access_key": API_KEY,
        "argument": {
            "title": title,
            "sub_title": "",
            "content": content
        }
    }
    try:
        f_resp = requests.post(feature_url, json=feature_payload)
        if f_resp.status_code == 200:
            raw_text = f_resp.json()["return_object"]["result"].get("title", "")
            keywords = [k.split("|")[0] for k in raw_text.split(" ") if "|" in k]
            print(f"🔑 키워드: {', '.join(keywords[:5])}")
    except:
        print("❌ 키워드 추출 실패")

# ✅ STEP 3: 연관어 분석 (이슈 맵용)
print("\n🕸 STEP 3: 연관 키워드 분석 (이슈 맵)")
word_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        }
    }
}
word_resp = requests.post(word_url, json=word_payload).json()
word_list = sorted(word_resp["return_object"]["nodes"], key=lambda x: x["weight"], reverse=True)
for i, word in enumerate(word_list[:10], 1):
    print(f"{i}. 🔗 {word['name']} (연관도: {word['weight']:.2f})")

# ✅ STEP 4: 트렌드 분석 (이슈 흐름)
print("\n📈 STEP 4: 이슈 흐름 분석")
trend_payload = {
    "access_key": API_KEY,
    "argument": {
        "query": query,
        "published_at": {
            "from": from_date,
            "until": until_date
        },
        "interval": "day",
        "normalize": "false"
    }
}
trend_resp = requests.post(trend_url, json=trend_payload).json()
time_line = trend_resp["return_object"]["time_line"]
for t in time_line:
    print(f"{t['label']} → {t['hits']}건")



📥 STEP 1: 뉴스 수집 중...

🔍 STEP 2: 키워드 추출 중...

1. 📰 아시아나, 프라하 신규취항…인천發 항공편 주 3회 운항
🔑 키워드: 항공편, 프라하, 항공편_주_3회_운항, 3회_운항, 인천

2. 📰 인천공항에서 전통문화 미디어월과 만나다
🔑 키워드: 전통문화, 전통문화_미디어월, 미디어월, 인천공항

3. 📰 크루즈페리 ‘팬스타 미라클호’, 화려한 첫 등장…13일 공식 취항
🔑 키워드: 팬스타, 크루즈페리_팬스타, 크루즈페리_팬스타_미라클호, 미라클호, 크루즈페리

4. 📰 배보찬 놀유니버스 공동대표 "해외숙소 예약도 1등 자신…넘버원 넘어 온리원 플랫폼 될 것"[CEO&STORY]
🔑 키워드: 공동대표, 놀유니버스_공동대표_해외숙소_예약, 해외숙소_예약, 온리원, 놀유니버스_공동대표

5. 📰 유성 탄동천 일대, 과학으로 물든다
🔑 키워드: 탄동천, 유성_탄동천, 유성_탄동천_일대, 유성, 일대

6. 📰 느슨해졌던 산업관광 ‘엔진’, 민관학 함께 다시 돌린다
🔑 키워드: 산업관광_엔진, 민관학, 엔진, 관광, 산업

7. 📰 나라 지키려 병역 복무하면 뭐하노…전역군인 혜택 거의 없네![이현호의 밀리터리!톡]
🔑 키워드: 전역군인_혜택, 이현호, 병역_복무, 혜택, 병역

8. 📰 "어머니, 식사는 잡쉈어?"…고속도로 갓길 걷던 할머니에 비번 경찰이 건넨 말
🔑 키워드: 고속도, 비번_경찰, 비번, 식사, 할머니

9. 📰 오프라인 제친 온라인 쇼핑…온라인 쇼핑 거래액만 21.6조 원
🔑 키워드: 거래액, 온라인, 쇼핑_거래액, 온라인_쇼핑, 오프라인

10. 📰 종의 기원 [김다은의 웹소설] <25회>
🔑 키워드: 웹소설, 김다은, 기원_김다은, 25회, 기원

11. 📰 日골든위크 앞두고 ‘방한 수요’ 잡아라
🔑 키워드: 방한_수요, 골든위크, 방한, 골든, 위크

12. 📰 에비앙GC 라운드부터 미슐랭 셰프와 요리체험까지…프랑스골프가 온다
🔑 키워드: 에비앙, 요리체험, 셰프, 미슐랭, 미슐랭_셰프

13. 📰 정갈한 ‘골