# Deep search API
Section for politics

In [54]:
import os
import requests
import json
from pathlib import Path
from dotenv import load_dotenv
from datetime import datetime, timedelta

# === .env 불러오기 ===
env_path = Path("..") / ".env"   
load_dotenv(dotenv_path=env_path)

DEEPSEARCH_API_KEY = os.getenv("DEEPSEARCH_API_KEY")

DEEPSEARCH_ENDPOINT = "https://api-v2.deepsearch.com/v1/articles/politics"

BACKUP_DIR = Path("..") / "data" / "backup"
BACKUP_DIR.mkdir(parents=True, exist_ok=True)

# === DeepSearch 호출 함수 ===
def deepsearch_query(keyword: str, date_from: str, date_to: str, page_size: int = 10, order="published_at", direction="asc"):
    params = {
        "api_key": DEEPSEARCH_API_KEY,
        "q": keyword,
        "page": 1,                  
        "page_size": page_size,
        "date_from": date_from,
        "date_to": date_to,
        "order": order,
        "direction": direction
    }
    resp = requests.get(DEEPSEARCH_ENDPOINT, params=params)
    resp.raise_for_status()
    return resp.json()

# === 월 단위 샘플링 (중복 제거 포함) ===
def collect_monthly_samples(keyword: str, start: str, end: str, samples_per_month: int = 10):
    start_date = datetime.strptime(start, "%Y-%m-%d")
    end_date = datetime.strptime(end, "%Y-%m-%d")

    seen_ids = set()
    all_results = []

    current = start_date
    while current <= end_date:
        # 이번 달 범위 계산
        month_start = current.replace(day=1)
        next_month = (month_start + timedelta(days=32)).replace(day=1)
        month_end = min(end_date, next_month - timedelta(days=1))

        print(f"📅 {month_start.date()} ~ {month_end.date()} 오래된 기사 샘플링...")

        resp = deepsearch_query(
            keyword,
            date_from=month_start.strftime("%Y-%m-%d"),
            date_to=month_end.strftime("%Y-%m-%d"),
            page_size=samples_per_month,
            order="published_at",
            direction="asc"
        )

        results = resp.get("data", [])  #
        for item in results:
            if item["id"] not in seen_ids:  
                seen_ids.add(item["id"])
                all_results.append(item)

        print(f"  └ {len(results)}건 중 {len(seen_ids)}개 누적 저장")

        current = next_month

    return all_results

# === 실행 ===
keyword = "대통령실 OR 국회 OR 정당 OR 북한 OR 행정 OR 국방 OR 외교"
all_articles = collect_monthly_samples(
    keyword, start="2025-03-01", end="2025-09-30", samples_per_month=10
)

backup_file = BACKUP_DIR / "politics.json"

# API 원래 구조로 저장
with open(backup_file, "w", encoding="utf-8") as f:
    json.dump({"data": all_articles}, f, ensure_ascii=False, indent=2)

print(f"[백업 완료] {backup_file.resolve()} | 총 {len(all_articles)}건 저장")


📅 2025-03-01 ~ 2025-03-31 오래된 기사 샘플링...
  └ 10건 중 10개 누적 저장
📅 2025-04-01 ~ 2025-04-30 오래된 기사 샘플링...
  └ 10건 중 20개 누적 저장
📅 2025-05-01 ~ 2025-05-31 오래된 기사 샘플링...
  └ 10건 중 30개 누적 저장
📅 2025-06-01 ~ 2025-06-30 오래된 기사 샘플링...
  └ 10건 중 40개 누적 저장
📅 2025-07-01 ~ 2025-07-31 오래된 기사 샘플링...
  └ 10건 중 50개 누적 저장
📅 2025-08-01 ~ 2025-08-31 오래된 기사 샘플링...
  └ 10건 중 60개 누적 저장
📅 2025-09-01 ~ 2025-09-30 오래된 기사 샘플링...
  └ 10건 중 70개 누적 저장
[백업 완료] C:\Users\MyCom\Documents\NIEdu\data\backup\politics.json | 총 70건 저장


# Deep search API
Section for society

In [55]:
import os
import requests
import json
from pathlib import Path
from dotenv import load_dotenv
from datetime import datetime, timedelta

# === .env 불러오기 ===
env_path = Path("..") / ".env"   
load_dotenv(dotenv_path=env_path)

DEEPSEARCH_API_KEY = os.getenv("DEEPSEARCH_API_KEY")

DEEPSEARCH_ENDPOINT = "https://api-v2.deepsearch.com/v1/articles/society"

BACKUP_DIR = Path("..") / "data" / "backup"
BACKUP_DIR.mkdir(parents=True, exist_ok=True)

# === DeepSearch 호출 함수 ===
def deepsearch_query(keyword: str, date_from: str, date_to: str, page_size: int = 10, order="published_at", direction="asc"):
    params = {
        "api_key": DEEPSEARCH_API_KEY,
        "q": keyword,
        "page": 1,                  
        "page_size": page_size,
        "date_from": date_from,
        "date_to": date_to,
        "order": order,
        "direction": direction
    }
    resp = requests.get(DEEPSEARCH_ENDPOINT, params=params)
    resp.raise_for_status()
    return resp.json()

# === 월 단위 샘플링 (중복 제거 포함) ===
def collect_monthly_samples(keyword: str, start: str, end: str, samples_per_month: int = 10):
    start_date = datetime.strptime(start, "%Y-%m-%d")
    end_date = datetime.strptime(end, "%Y-%m-%d")

    seen_ids = set()
    all_results = []

    current = start_date
    while current <= end_date:
        # 이번 달 범위 계산
        month_start = current.replace(day=1)
        next_month = (month_start + timedelta(days=32)).replace(day=1)
        month_end = min(end_date, next_month - timedelta(days=1))

        print(f"📅 {month_start.date()} ~ {month_end.date()} 오래된 기사 샘플링...")

        resp = deepsearch_query(
            keyword,
            date_from=month_start.strftime("%Y-%m-%d"),
            date_to=month_end.strftime("%Y-%m-%d"),
            page_size=samples_per_month,
            order="published_at",
            direction="asc"
        )

        results = resp.get("data", [])  #
        for item in results:
            if item["id"] not in seen_ids:  
                seen_ids.add(item["id"])
                all_results.append(item)

        print(f"  └ {len(results)}건 중 {len(seen_ids)}개 누적 저장")

        current = next_month

    return all_results

# === 실행 ===
keyword = "사건 OR 교육 OR 노동 OR 환경 OR 의료"
all_articles = collect_monthly_samples(
    keyword, start="2025-03-01", end="2025-09-30", samples_per_month=10
)

backup_file = BACKUP_DIR / "society.json"

# API 원래 구조로 저장
with open(backup_file, "w", encoding="utf-8") as f:
    json.dump({"data": all_articles}, f, ensure_ascii=False, indent=2)

print(f"[백업 완료] {backup_file.resolve()} | 총 {len(all_articles)}건 저장")


📅 2025-03-01 ~ 2025-03-31 오래된 기사 샘플링...
  └ 10건 중 10개 누적 저장
📅 2025-04-01 ~ 2025-04-30 오래된 기사 샘플링...
  └ 10건 중 20개 누적 저장
📅 2025-05-01 ~ 2025-05-31 오래된 기사 샘플링...
  └ 10건 중 30개 누적 저장
📅 2025-06-01 ~ 2025-06-30 오래된 기사 샘플링...
  └ 10건 중 40개 누적 저장
📅 2025-07-01 ~ 2025-07-31 오래된 기사 샘플링...
  └ 10건 중 50개 누적 저장
📅 2025-08-01 ~ 2025-08-31 오래된 기사 샘플링...
  └ 10건 중 60개 누적 저장
📅 2025-09-01 ~ 2025-09-30 오래된 기사 샘플링...
  └ 10건 중 70개 누적 저장
[백업 완료] C:\Users\MyCom\Documents\NIEdu\data\backup\society.json | 총 70건 저장


# RAG
politics chroma db 저장

In [50]:
import os
import json
from pathlib import Path
import chromadb
from chromadb.utils import embedding_functions
from dotenv import load_dotenv

# === 환경 변수 로드 ===
env_path = Path("..") / ".env"
load_dotenv(dotenv_path=env_path)

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# === 경로 ===
BACKUP_FILE = Path("..") / "data" / "backup" / "politics.json"
DB_DIR = Path("..") / "data" / "db" / "politics"

# === Chroma Client ===
client = chromadb.PersistentClient(path=str(DB_DIR))

embedding_fn = embedding_functions.OpenAIEmbeddingFunction(
    api_key=OPENAI_API_KEY,
    model_name="text-embedding-3-small"  # 필요 시 "text-embedding-3-large"
)

collection = client.get_or_create_collection(
    name="politics_news",
    embedding_function=embedding_fn
)

# === 데이터 로드 ===
with open(BACKUP_FILE, "r", encoding="utf-8") as f:
    data = json.load(f)

# 실제 뉴스 데이터는 "data" 키에 있음
items = data.get("data", [])

documents, ids, metadatas = [], [], []

# === JSON → document + metadata 변환 ===
for i, item in enumerate(items):
    try:
        # (1) JSON 전체를 문자열로 변환 → document
        doc_text = json.dumps(item, ensure_ascii=False)
        documents.append(doc_text)
        ids.append(f"doc_{i}")

        # (2) metadata 단순화 (list/dict → 문자열, None → "")
        clean_meta = {}
        for k, v in item.items():
            if isinstance(v, (str, int, float, bool)):
                clean_meta[k] = v
            elif v is None:
                clean_meta[k] = ""
            else:
                clean_meta[k] = json.dumps(v, ensure_ascii=False)
        metadatas.append(clean_meta)

    except Exception as e:
        print(f"[스킵] {i}번 문서 오류 → {e}")

# === DB 저장 ===
if documents:
    collection.add(documents=documents, metadatas=metadatas, ids=ids)
    print(f"[저장 완료] {len(documents)}개 문서 DB에 추가됨 → {DB_DIR}")
else:
    print("추가할 문서 없음")

print("최종 문서 수:", collection.count())

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


[저장 완료] 70개 문서 DB에 추가됨 → ..\data\db\politics
최종 문서 수: 70


# RAG 
society chroma db 저장

In [56]:
import os
import json
from pathlib import Path
import chromadb
from chromadb.utils import embedding_functions
from dotenv import load_dotenv

# === 환경 변수 로드 ===
env_path = Path("..") / ".env"
load_dotenv(dotenv_path=env_path)

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# === 경로 ===
BACKUP_FILE = Path("..") / "data" / "backup" / "society.json"
DB_DIR = Path("..") / "data" / "db" / "society"

# === Chroma Client ===
client = chromadb.PersistentClient(path=str(DB_DIR))

embedding_fn = embedding_functions.OpenAIEmbeddingFunction(
    api_key=OPENAI_API_KEY,
    model_name="text-embedding-3-small"  # 필요 시 "text-embedding-3-large"
)

collection = client.get_or_create_collection(
    name="society_news",
    embedding_function=embedding_fn
)

# === 데이터 로드 ===
with open(BACKUP_FILE, "r", encoding="utf-8") as f:
    data = json.load(f)

# 실제 뉴스 데이터는 "data" 키에 있음
items = data.get("data", [])

documents, ids, metadatas = [], [], []

# === JSON → document + metadata 변환 ===
for i, item in enumerate(items):
    try:
        # (1) JSON 전체를 문자열로 변환 → document
        doc_text = json.dumps(item, ensure_ascii=False)
        documents.append(doc_text)
        ids.append(f"doc_{i}")

        # (2) metadata 단순화 (list/dict → 문자열, None → "")
        clean_meta = {}
        for k, v in item.items():
            if isinstance(v, (str, int, float, bool)):
                clean_meta[k] = v
            elif v is None:
                clean_meta[k] = ""
            else:
                clean_meta[k] = json.dumps(v, ensure_ascii=False)
        metadatas.append(clean_meta)

    except Exception as e:
        print(f"[스킵] {i}번 문서 오류 → {e}")

# === DB 저장 ===
if documents:
    collection.add(documents=documents, metadatas=metadatas, ids=ids)
    print(f"[저장 완료] {len(documents)}개 문서 DB에 추가됨 → {DB_DIR}")
else:
    print("추가할 문서 없음")

print("최종 문서 수:", collection.count())

Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionAddEvent: capture() takes 1 positional argument but 3 were given


[저장 완료] 70개 문서 DB에 추가됨 → ..\data\db\society
최종 문서 수: 70


# RAG 기반 코스 생성
query 기반으로 뉴스 json 반환 
query : 키워드 중 택 1
prompt : 키워드 추출, 코스 이름 생성

확인용 정치

In [None]:
import json
import chromadb
from chromadb.utils import embedding_functions
from pathlib import Path
from openai import OpenAI
import os
from dotenv import load_dotenv

# === 환경 변수 로드 ===
env_path = Path("..") / ".env"
load_dotenv(dotenv_path=env_path)

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# === DB 경로 동일하게 맞추기 ===
DB_DIR = Path("..") / "data" / "db" / "politics"

# === Chroma Client ===
client = chromadb.PersistentClient(path=str(DB_DIR))

embedding_fn = embedding_functions.OpenAIEmbeddingFunction(
    api_key=OPENAI_API_KEY,
    model_name="text-embedding-3-small"
)

# === 기존 컬렉션 불러오기 ===
collection = client.get_or_create_collection(
    name="politics_news", 
    embedding_function=embedding_fn
)


# === 검색 ===
query = "국회 OR 정당"
results = collection.query(
    query_texts=[query],
    n_results=10  # 상위 10개
)

# === JSON 변환 ===
docs = []
for doc in results["documents"][0]:
    try:
        parsed = json.loads(doc)
        docs.append(parsed)
    except:
        pass

# === 프롬프트 ===
prompt = f"""
아래 documents를 3개의 코스로 묶어줘.

조건:
1. JSON 배열로 출력
2. 각 코스는 {{
   "course_name": string,               # 주제를 대표하는 직관적이고 단순한 이름
   "description": string,               # 코스가 다루는 핵심 내용 요약 (2~3문장)
   "keywords": [string, string, string],# title/summary 기반 핵심 단어 3개
   "articles": [documents JSON 그대로 포함]
}}
3. articles에는 documents에서 제공된 전체 JSON을 그대로 사용
4. course_name은 주제를 대표하는 짧은 이름
5. description은 코스 안의 기사들이 다루는 공통 주제를 간략히 요약 (2~3문장, 직관적)
6. keywords는 각 기사에서 핵심 주제를 나타내는 단어 3개를 뽑아라.
   - 우선 title에서 추출하되, 너무 일반적이면 summary에서 보완해라.
   - 고유명사, 사건명, 기술명 위주로 선택하라.
   - articles의 원문 텍스트를 그대로 쓰지 말고, 의미 있는 단어 조합으로 뽑아라.
7. 모든 documents는 반드시 하나의 course에 포함

documents:
{json.dumps(docs, ensure_ascii=False)}
"""

# === LLM 호출 ===
resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": prompt}]
)

courses = resp.choices[0].message.content

# === 결과 저장 (상위 폴더 data/course/society_courses.json) ===
output_file = Path("..") / "data" / "course" / "politics_courses.json"
output_file.parent.mkdir(parents=True, exist_ok=True)  # 폴더 없으면 생성

with open(output_file, "w", encoding="utf-8") as f:
    f.write(courses)

print(f"코스 생성 완료 → {output_file.resolve()}")


Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


AttributeError: 'Client' object has no attribute 'chat'

In [3]:
import json
import chromadb
from chromadb.utils import embedding_functions
from pathlib import Path
import os
from dotenv import load_dotenv

# === 환경 변수 로드 ===
env_path = Path("..") / ".env"
load_dotenv(dotenv_path=env_path)

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# === DB 경로 동일하게 맞추기 ===
DB_DIR = Path("..") / "data" / "db" / "society"

# === Chroma Client ===
client = chromadb.PersistentClient(path=str(DB_DIR))

embedding_fn = embedding_functions.OpenAIEmbeddingFunction(
    api_key=OPENAI_API_KEY,
    model_name="text-embedding-3-small"
)

# === 기존 컬렉션 불러오기 ===
collection = client.get_or_create_collection(
    name="society_news", 
    embedding_function=embedding_fn
)


# === 검색 ===
query = "사건"
results = collection.query(
    query_texts=[query],
    n_results=10  # 상위 10개
)

print("검색된 문서 개수:", len(results["documents"][0]))

# === JSON full 출력 ===
for i, doc in enumerate(results["documents"][0]):
    try:
        parsed = json.loads(doc)  # 문자열 → dict 변환
        print(f"\n=== 결과 {i+1} ===")
        print(json.dumps(parsed, ensure_ascii=False, indent=2))  # 원래 JSON 구조 유지
    except Exception as e:
        print(f"[에러] 문서 {i+1} 파싱 실패 → {e}")


Failed to send telemetry event ClientStartEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event ClientCreateCollectionEvent: capture() takes 1 positional argument but 3 were given
Failed to send telemetry event CollectionQueryEvent: capture() takes 1 positional argument but 3 were given


검색된 문서 개수: 10

=== 결과 1 ===
{
  "id": "1558469294956876212",
  "sections": [
    "society"
  ],
  "title": "시흥 함송·배곧상가, ‘골목형 상점가’ 지정...상권 경쟁력↑",
  "publisher": "파이낸셜뉴스",
  "author": "김경수",
  "summary": "지난해 12월 개정된 골목형 상점가 지원 조례에 따라 현장 실사를 거쳐 성사됐다.\n\n골목형 상점가 지정으로 두 상가는 온누리상품권 가맹점 등록과 상권 개선, 시설 지원 등 전통시장에 준하는 혜택을 받을 수 있게 됐다.\n\n임병택 시흥시장은 “골목형 상점가 지정이 단순히 경제적 효과를 넘어 주민의 삶의 질을 높이고, 지역사회 결속력을 다지는 데 도움이 되길 바란다”며 “골목 상권 발전을 위해 지원을 아끼지 않겠다”고 말했다.",
  "highlight": null,
  "score": null,
  "image_url": "https://ddi-cdn.deepsearch.com/news/society/2025/04/01/1558469294956876212/000-cfaf7ddee64472bd7750405aebfec9758c6a73b5.jpg",
  "thumbnail_url": "https://ddi-cdn.deepsearch.com/news_thumbnail/society/2025/04/01/1558469294956876212/000-cfaf7ddee64472bd7750405aebfec9758c6a73b5.jpg",
  "content_url": "http://www.fnnews.com/news/202504010742000190",
  "esg": null,
  "companies": [],
  "entities": [],
  "published_at": "2025-04-01T08:01:00",
  "body": null
}

=== 결과 2 ===
{
  "id": "1580614035521540

# RAG - 코스 번들화 코드

In [5]:
import json
from openai import OpenAI
from pathlib import Path

client = OpenAI()

# === RAG 검색 ===
query = "사건"
results = collection.query(
    query_texts=[query],
    n_results=10  # 10개 기사
)

# === JSON 변환 ===
docs = []
for doc in results["documents"][0]:
    try:
        parsed = json.loads(doc)
        docs.append(parsed)
    except:
        pass

# === 프롬프트 ===
prompt = f"""
아래 documents를 3개의 코스로 묶어줘.

조건:
1. JSON 배열로 출력
2. 각 코스는 {{
   "course_name": string,               # 주제를 대표하는 직관적이고 단순한 이름
   "description": string,               # 코스가 다루는 핵심 내용 요약 (2~3문장)
   "keywords": [string, string, string],# title/summary 기반 핵심 단어 3개
   "articles": [documents JSON 그대로 포함]
}}
3. articles에는 documents에서 제공된 전체 JSON을 그대로 사용
4. course_name은 주제를 대표하는 짧은 이름
5. description은 코스 안의 기사들이 다루는 공통 주제를 간략히 요약 (2~3문장, 직관적)
6. keywords는 각 기사에서 핵심 주제를 나타내는 단어 3개를 뽑아라.
   - 우선 title에서 추출하되, 너무 일반적이면 summary에서 보완해라.
   - 고유명사, 사건명, 기술명 위주로 선택하라.
   - articles의 원문 텍스트를 그대로 쓰지 말고, 의미 있는 단어 조합으로 뽑아라.
7. 모든 documents는 반드시 하나의 course에 포함

documents:
{json.dumps(docs, ensure_ascii=False)}
"""

# === LLM 호출 ===
resp = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[{"role": "user", "content": prompt}]
)

courses = resp.choices[0].message.content

# === 결과 저장 (상위 폴더 data/course/society_courses.json) ===
output_file = Path("..") / "data" / "course" / "society_courses.json"
output_file.parent.mkdir(parents=True, exist_ok=True)  # 폴더 없으면 생성

with open(output_file, "w", encoding="utf-8") as f:
    f.write(courses)

print(f"코스 생성 완료 → {output_file.resolve()}")

코스 생성 완료 → C:\Users\MyCom\Documents\NIEdu\data\course\society_courses.json
