In [11]:
# db.py
import os
from sqlalchemy import create_engine
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker

# 환경변수에서 DATABASE_URL 가져오고, 없으면 로컬 기본값 사용
DATABASE_URL = os.getenv(
    "DATABASE_URL", "postgresql://postgres:password@localhost:5432/postgres"
)

# SQLAlchemy 엔진 생성
engine = create_engine(DATABASE_URL)

# 세션 팩토리
SessionLocal = sessionmaker(autocommit=False, autoflush=False, bind=engine)

# Base 클래스
Base = declarative_base()

  Base = declarative_base()


In [13]:
from fastapi.models.news import NewsModel_v2
# main.py 또는 Jupyter Notebook에서 실행

# ✅ DB URL 확인
print("🔗 연결된 DB URL:", engine.url)

# ✅ 세션 생성
db = SessionLocal()

# ✅ 뉴스 5건 조회
results = db.query(NewsModel_v2).limit(5).all()

# ✅ 결과 출력
for row in results:
    print(f"[{row.wdate}] {row.news_id} | {row.title}")

# ✅ 세션 종료
db.close()

🔗 연결된 DB URL: postgresql://postgres:***@localhost:5432/postgres
[2025-05-23 18:52:00] 20250523_0002 | [단독] 카카오페이, 2500만 회원 쓱·스마일페이 품나…간편결제 시장 빅3 경쟁 후끈
[2025-05-23 18:33:00] 20250523_0004 | 골드만삭스 차기 CEO, 이재용·김병주·이창용 만났다
[2025-05-23 18:00:00] 20250523_0007 | [단독] 전자결제 강자 카카오페이 쓱·스마일 페이 인수 추진
[2025-05-23 17:52:00] 20250523_0010 | 조현준 효성重 지분 4.9% 美 테크펀드 2600억 매각
[2025-05-23 17:52:00] 20250523_0011 | 몸집 키우는 카카오…'간편결제 빅3' 흔드나


In [14]:
async def get_news_embeddings(article_list, tokenizer, session):
    """
    뉴스 본문 리스트를 임베딩하는 함수입니다.
    ONNX 모델이 배치 입력을 지원할 경우, 한 번에 추론합니다.
    """

    # 1. 토큰화
    encoded = [tokenizer.encode(x) for x in article_list]
    input_ids = [e.ids for e in encoded]
    attention_mask = [[1] * len(ids) for ids in input_ids]

    # 2. 패딩 (최대 길이 기준)
    max_len = max(len(ids) for ids in input_ids)
    input_ids_padded = [ids + [0] * (max_len - len(ids)) for ids in input_ids]
    attention_mask_padded = [
        mask + [0] * (max_len - len(mask)) for mask in attention_mask
    ]

    # 3. numpy 배열로 변환
    input_ids_np = np.array(input_ids_padded, dtype=np.int64)
    attention_mask_np = np.array(attention_mask_padded, dtype=np.int64)

    # 4. ONNX 추론
    outputs = session.run(
        ["sentence_embedding"],
        {"input_ids": input_ids_np, "attention_mask": attention_mask_np},
    )[
        0
    ]  # shape: (batch_size, hidden_dim)

    # 5. 반환 (List[List[float]])
    return outputs.tolist()

In [15]:
import numpy as np
from requests import Session


def scale_ext_grouped(
    ext: list, col_names: list, prefix: str, scalers: dict, group_key_map: dict
):
    grouped_data = {}
    grouped_indices = {}
    for idx, (col, val) in enumerate(zip(col_names, ext)):
        group = group_key_map.get(col, None)
        if group:
            key = f"{prefix}_{group}"
            grouped_data.setdefault(key, []).append(val)
            grouped_indices.setdefault(key, []).append(idx)

    scaled = ext.copy()
    for key in grouped_data:
        if key in scalers:
            try:
                values = np.array(grouped_data[key], dtype=np.float32).reshape(1, -1)
                # transformed = scalers[key].transform(values)[0]

                columns = scalers[key].feature_names_in_  # sklearn >=1.0
                values_df = pd.DataFrame(values, columns=columns)
                transformed = scalers[key].transform(values_df)[0]

                for idx, val in zip(grouped_indices[key], transformed):
                    scaled[idx] = val
            except Exception as e:
                print(f"❌ {key} 스케일 실패: {e}")
                raise
        else:
            print(f"⚠️ {key} 스케일러 없음 → 원본 사용")

    return np.array(scaled, dtype=np.float32)


def run_ae(ae_sess, embedding):
    input_name = ae_sess.get_inputs()[0].name
    output_name = ae_sess.get_outputs()[0].name
    return ae_sess.run([output_name], {input_name: embedding.astype(np.float32)})[0]


async def compute_similarity(
    db: Session,
    summary: str,
    extA: list,
    topicA: list,
    similar_summaries: list,
    extBs: list,
    topicBs: list,
    scalers,
    ae_sess,
    regressor_sess,
    embedding_api_func,
    ext_col_names: list,
    topic_col_names: list,
    news_topk_ids: list,
):

    # group_key_map 생성 (기준 + 유사 뉴스)
    group_key_map = {}
    for col in ext_col_names + topic_col_names:
        if "date_close" in col:
            group_key_map[col] = "price_close"
        elif "date_volume" in col:
            group_key_map[col] = "volume"
        elif "date_foreign" in col:
            group_key_map[col] = "foreign"
        elif "date_institution" in col:
            group_key_map[col] = "institution"
        elif "date_individual" in col:
            group_key_map[col] = "individual"
        elif col in ["fx", "bond10y", "base_rate"]:
            group_key_map[col] = "macro"
        elif "토픽" in col:
            group_key_map[col] = "topic"

    for col in ext_col_names + topic_col_names:
        col_sim = f"similar_{col}"
        if "date_close" in col:
            group_key_map[col_sim] = "price_close"
        elif "date_volume" in col:
            group_key_map[col_sim] = "volume"
        elif "date_foreign" in col:
            group_key_map[col_sim] = "foreign"
        elif "date_institution" in col:
            group_key_map[col_sim] = "institution"
        elif "date_individual" in col:
            group_key_map[col_sim] = "individual"
        elif col in ["fx", "bond10y", "base_rate"]:
            group_key_map[col_sim] = "macro"
        elif "토픽" in col:
            group_key_map[col_sim] = "topic"

    # 텍스트 임베딩 + AE 인코딩
    all_texts = [summary] + similar_summaries
    embeddings = np.array(await embedding_api_func(all_texts))

    embA, embBs = embeddings[0], embeddings[1:]
    latentA = run_ae(ae_sess, embA.reshape(1, -1))[0]
    latentBs = [run_ae(ae_sess, e.reshape(1, -1))[0] for e in embBs]

    # 스케일링
    extA_total = extA + topicA
    extA_col_names = ext_col_names + topic_col_names
    extA_scaled = scale_ext_grouped(
        extA_total, extA_col_names, "extA", scalers, group_key_map
    )

    extB_total = [ext + topic for ext, topic in zip(extBs, topicBs)]
    extB_col_names = [f"similar_{col}" for col in ext_col_names + topic_col_names]
    extBs_scaled = [
        scale_ext_grouped(extB, extB_col_names, "extB_similar", scalers, group_key_map)
        for extB in extB_total
    ]

    # 회귀 예측
    inputA_name = regressor_sess.get_inputs()[0].name
    inputB_name = regressor_sess.get_inputs()[1].name
    output_name = regressor_sess.get_outputs()[0].name

    scores = []
    for i, (latentB, extB_scaled) in enumerate(zip(latentBs, extBs_scaled)):
        if extB_scaled.shape[0] != 42:
            raise ValueError(
                f"extB_scaled 길이 이상함! 기대: 42, 실제: {extB_scaled.shape[0]} | index: {i}"
            )

        featA = np.concatenate([latentA, extA_scaled]).reshape(1, -1).astype(np.float32)
        featB = np.concatenate([latentB, extB_scaled]).reshape(1, -1).astype(np.float32)

        score = regressor_sess.run(
            [output_name], {inputA_name: featA, inputB_name: featB}
        )[0][0][0]
        scores.append(score)

    # 결과 반환
    results = list(zip(similar_summaries, scores, news_topk_ids))
    results.sort(key=lambda x: -x[1])  # score 기준 내림차순 정렬

    return [
        {
            "news_id": nid,
            "summary": summ,
            "wdate": "",
            "score": float(score),
            "rank": i + 1,
        }
        for i, (summ, score, nid) in enumerate(results)
    ]

In [12]:
import sys
import os

# fastapi 폴더가 있는 디렉토리 절대경로를 sys.path에 추가
BASE_DIR = os.path.abspath(os.path.join(os.getcwd(), "../../"))  # notebooks의 상위
sys.path.append(BASE_DIR)

In [16]:
from pathlib import Path
import joblib
from tokenizers import Tokenizer

from modelapi.load_models import load_scalers_by_group


def get_embedding_tokenizer():
    """
    ONNX NER 모델과 토크나이저 로딩
    """
    base_path = Path("../../modelapi/models/kr_sbert_mean_onnx")

    tokenizer = Tokenizer.from_file(str(base_path / "tokenizer.json"))
    session = ort.InferenceSession(str(base_path / "kr_sbert.onnx"))

    return tokenizer, session


def get_similarity_model():
    model_dir = "../../modelapi/models/"
    scaler_dir = os.path.join(model_dir, "scalers_grouped")
    ae_path = os.path.join(model_dir, "ae_encoder.onnx")
    regressor_path = os.path.join(model_dir, "regressor_model.onnx")

    # ONNX 모델 로딩
    ae_sess = ort.InferenceSession(ae_path)
    regressor_sess = ort.InferenceSession(regressor_path)

    # 스케일러 로딩
    scalers = load_scalers_by_group(scaler_dir)

    return scalers, ae_sess, regressor_sess


def load_scalers_by_group(folder_path):
    scalers = {}

    for filename in os.listdir(folder_path):
        if filename.endswith(".joblib"):
            key = filename.replace(".joblib", "")
            full_path = os.path.join(folder_path, filename)
            obj = joblib.load(full_path)

            # 버전 정보 포함된 dict일 경우 대응
            if isinstance(obj, dict) and "scaler" in obj:
                scalers[key] = obj["scaler"]
            else:
                scalers[key] = obj

    return scalers

In [17]:
from http.client import HTTPException
from fastapi.models.news import NewsModel_v2_External, NewsModel_v2_Metadata
from modelapi.models.custom import NewsModel_v2_Topic
import onnxruntime as ort

scalers, ae_sess, regressor_sess = get_similarity_model()
tokenizer_embedding, session_embedding = get_embedding_tokenizer()


async def get_similar_news(payload, db):
    # 로드된 모델 가져오기

    async def embedding_api_func(texts):
        embeddings = await get_news_embeddings(texts, tokenizer_embedding, session_embedding)

        return embeddings

    news_id = payload['news_id']
    news_topk_ids = payload['news_topk_ids'] or []

    # 공통 외부변수 컬럼 정의 (news_id 제외 전부)
    ext_cols = [
        col.name
        for col in NewsModel_v2_External.__table__.columns
        if col.name != "news_id"
    ]

    # 기준 뉴스 정보 조회
    ref_news_raw = (
        db.query(NewsModel_v2_Metadata)
        .filter(NewsModel_v2_Metadata.news_id == news_id)
        .first()
    )
    if not ref_news_raw:
        raise HTTPException(
            status_code=404, detail="기준 뉴스 정보를 찾을 수 없습니다."
        )
    summary = ref_news_raw.summary

    ref_news_external = (
        db.query(NewsModel_v2_External)
        .filter(NewsModel_v2_External.news_id == news_id)
        .first()
    )
    if not ref_news_external:
        raise HTTPException(
            status_code=404, detail="기준 뉴스 외부 변수 정보를 찾을 수 없습니다."
        )
    extA = [getattr(ref_news_external, col) for col in ext_cols]

    ref_news_topic = (
        db.query(NewsModel_v2_Topic)
        .filter(NewsModel_v2_Topic.news_id == news_id)
        .first()
    )
    if not ref_news_topic:
        raise HTTPException(
            status_code=404, detail="기준 뉴스 토픽 정보를 찾을 수 없습니다."
        )
    topic_cols = [
        col.name
        for col in ref_news_topic.__table__.columns
        if col.name.startswith("topic_")
    ]
    topicA = [getattr(ref_news_topic, col) for col in topic_cols]

    extA_total = extA + topicA

    # 유사 뉴스 정보 조회
    topk_news_raw = (
        db.query(NewsModel_v2_Metadata)
        .filter(NewsModel_v2_Metadata.news_id.in_(news_topk_ids))
        .all()
    )
    summary_map = {news.news_id: news.summary for news in topk_news_raw}
    try:
        similar_summaries = [summary_map[nid] for nid in news_topk_ids]
    except KeyError as e:
        raise HTTPException(
            status_code=400, detail=f"유사 뉴스 ID {str(e)}가 DB에 존재하지 않습니다."
        )

    topk_exts = (
        db.query(NewsModel_v2_External)
        .filter(NewsModel_v2_External.news_id.in_(news_topk_ids))
        .all()
    )
    ext_map = {ext.news_id: ext for ext in topk_exts}
    extBs = [[getattr(ext_map[nid], col) for col in ext_cols] for nid in news_topk_ids]

    topk_topics = (
        db.query(NewsModel_v2_Topic)
        .filter(NewsModel_v2_Topic.news_id.in_(news_topk_ids))
        .all()
    )
    topic_map = {topic.news_id: topic for topic in topk_topics}
    topicB_cols = [
        col.name
        for col in NewsModel_v2_Topic.__table__.columns
        if col.name.startswith("topic_")
    ]
    topicBs = [
        [getattr(topic_map[nid], col) for col in topicB_cols] for nid in news_topk_ids
    ]

    extB_total = [ext + topic for ext, topic in zip(extBs, topicBs)]

    missing_ext_ids = [nid for nid in news_topk_ids if nid not in ext_map]
    missing_topic_ids = [nid for nid in news_topk_ids if nid not in topic_map]

    if missing_ext_ids:
        raise HTTPException(
            status_code=400, detail=f"외부 변수 없는 뉴스 ID: {missing_ext_ids}"
        )
    if missing_topic_ids:
        raise HTTPException(
            status_code=400, detail=f"토픽 변수 없는 뉴스 ID: {missing_topic_ids}"
        )

    # 유사도 점수 계산
    results = await compute_similarity(
        db=db,
        summary=summary,
        extA=extA,
        topicA=topicA,
        similar_summaries=similar_summaries,
        extBs=extBs,
        topicBs=topicBs,
        scalers=scalers,
        ae_sess=ae_sess,
        regressor_sess=regressor_sess,
        embedding_api_func=embedding_api_func,
        ext_col_names=ext_cols,
        topic_col_names=topic_cols,
        news_topk_ids=news_topk_ids,
    )

    # news_id 매핑
    news_id_map = dict(zip(similar_summaries, news_topk_ids))
    for r in results:
        r["news_id"] = news_id_map.get(r["summary"], "unknown")

    # 유사도 score 기준 정렬
    results.sort(key=lambda x: x["score"], reverse=True)

    return results

In [18]:
import pandas as pd

payload = {
    'news_id': "20250523_0002",
    'news_topk_ids': ['20250523_0002']
}
test = await get_similar_news(payload, db)

In [None]:
test

[{'news_id': '20250523_0002',
  'summary': '23일 정보기술(IT)·투자은행(IB) 업계에 따르면 국내 대표 전자결제사업자인 카카오페이가 SSG닷컴 쓱페이와 G마켓 스마일페이 인수를 위해 신세계이마트 측과 협상을 진행 중인 것으로 알려졌다.',
  'wdate': '',
  'score': 0.6633446216583252,
  'rank': 1}]

In [19]:
from chromadb import Embeddings
from langchain_chroma import Chroma


def get_vectordb():
    """
    vectordb 로딩
    """

    class OnnxEmbedder(Embeddings):
        def __init__(self, model_path: str, tokenizer_path: str):
            self.session = ort.InferenceSession(model_path)
            self.tokenizer = Tokenizer.from_file(tokenizer_path)

        def _embed(self, text: str):
            encoding = self.tokenizer.encode(text)
            input_ids = np.array([encoding.ids], dtype=np.int64)
            attention_mask = np.array([[1] * len(encoding.ids)], dtype=np.int64)

            outputs = self.session.run(
                None, {"input_ids": input_ids, "attention_mask": attention_mask}
            )

            raw_vector = outputs[0][0]
            norm_vector = raw_vector / (np.linalg.norm(raw_vector) + 1e-10)
            return norm_vector.tolist()

        def embed_documents(self, texts: list[str]) -> list[list[float]]:
            return [self._embed(text) for text in texts]

        def embed_query(self, text: str) -> list[float]:
            return self._embed(text)

    model_base_path = Path("../../modelapi/models")

    embedding = OnnxEmbedder(
        model_path=str(model_base_path / "kr_sbert_mean_onnx/kr_sbert.onnx"),
        tokenizer_path=str(model_base_path / "kr_sbert_mean_onnx/tokenizer.json"),
    )

    db_base_path = Path("../../modelapi/db")

    vectordb = Chroma(
        persist_directory=str(db_base_path / "chroma_store"),
        embedding_function=embedding,
    )

    return vectordb

In [20]:
vector_db = get_vectordb()

In [21]:
import ast


def safe_parse_list(val):
    if isinstance(val, str):
        try:
            return ast.literal_eval(val)
        except Exception:
            return []
    return val if isinstance(val, list) else []


def get_news_similar_list(payload, vectordb):
    """
    유사 뉴스 top_k
    """

    article = payload['article']
    top_k = payload['top_k']


    # 검색
    results = vectordb.similarity_search_with_score(article, k=100)

    news_similar_list = []
    seen_titles = set()

    for doc, score in results:
        similarity = round(1 - float(score), 2)

        if similarity > 0.9:
            continue  # 유사도가 너무 높으면 제외 (0.9 이상 필터링)

        title = doc.metadata.get("title")
        if title in seen_titles:
            continue  # 이미 추가한 title이면 스킵
        seen_titles.add(title)

        news_id = doc.metadata.get("news_id")
        wdate = doc.metadata.get("wdate")
        summary = doc.page_content
        url = doc.metadata.get("url")
        image = doc.metadata.get("image")
        stock_list = safe_parse_list(doc.metadata.get("stock_list"))
        industry_list = safe_parse_list(doc.metadata.get("industry_list"))

        if not news_id or not wdate or not summary:
            continue

        news_similar_list.append(
            {
                'news_id': news_id,
                'wdate': wdate,
                'title': title,
                'summary': summary,
                'url': url,
                'image': image,
                'stock_list': stock_list,
                'industry_list': industry_list,
                'similarity': similarity,
            }
        )

    return news_similar_list[:top_k]

In [22]:
payload2 = {
    "article": "'범용인공지능(AGI) 칩 생산이 가능한 파운드리 생태계를 확보한 삼성전자는 메모리와 함께 턴키 공급이 가능한 유일한 업체로 고객사로부터 긍정적 요소로 작용할 전망이다.",
    "top_k": 5,
}
top_k = get_news_similar_list(payload2, vector_db)

In [23]:
top_k

[{'news_id': '20250123_0190',
  'wdate': '2025-01-23 05:01:00',
  'title': 'SK하이닉스, 오늘 4분기 성적표 공개…영업이익 8조 넘을까',
  'summary': '범용(레거시) 메모리 업황 부진에도 고부가 제품인 고대역폭 메모리(HBM) 경쟁력을 내세워 사상 최대 실적 기록을 새로 쓸 것으로 기대되는 SK하이닉스의 HBM 시장 우위는 당분간 이어질 전망이다.',
  'url': 'https://n.news.naver.com/mnews/article/001/0015175914',
  'image': 'https://imgnews.pstatic.net/image/001/2025/01/23/PYH2024102411930001300_P4_20250123050115442.jpg?type=w800',
  'stock_list': [{'stock_id': '000660', 'stock_name': 'SK하이닉스'}],
  'industry_list': [{'stock_id': '000660',
    'industry_id': '32601',
    'industry_name': '반도체 제조업'}],
  'similarity': 0.52},
 {'news_id': '20240814_0485',
  'wdate': '2024-08-14 07:39:00',
  'title': '[클릭 e종목]"삼성전자, 올해는 HBM보다 일반 D램으로 실적 늘 것"',
  'summary': '한국투자증권은 14일 삼성전자에 대해 올해까지는 고대역폭메모리(HBM)보다 일반 D램에 의한 실적 증가가 있을 것으로 내다봤다.',
  'url': 'https://n.news.naver.com/mnews/article/277/0005458839',
  'image': 'https://imgnews.pstatic.net/image/277/2024/08/14/0005458839_001_20240814074014958.jpg?type=w800

In [24]:
from datetime import timedelta
from datetime import datetime
from typing import List


async def find_news_similar_v2(
    db: Session, news_id: str, top_n: int, min_gap_days: int, min_gap_between: int
):
    # 기준 뉴스 조회
    ref_news_meta = (
        db.query(NewsModel_v2_Metadata)
        .filter(NewsModel_v2_Metadata.news_id == news_id)
        .first()
    )
    ref_news_raw = (
        db.query(NewsModel_v2).filter(NewsModel_v2.news_id == news_id).first()
    )

    if not ref_news_raw:
        return []

    ref_wdate = ref_news_raw.wdate

    # 기준 뉴스 텍스트 추출
    # text = ref_news_meta.summary if ref_news_meta else ref_news_raw.article[:300]
    text = ref_news_raw.title + ref_news_raw.article[:300]
    if not text.strip():
        return []

    # 유사 뉴스 API 호출
    payload2 = {"article": text, "top_k": 10}
    similar_news_list = get_news_similar_list(payload2, vector_db)

    # 필터링 조건 적용
    min_date = ref_wdate - timedelta(days=min_gap_days)

    def is_far_enough(new_date: datetime, selected_dates) -> bool:
        return all(abs((new_date - d).days) >= min_gap_between for d in selected_dates)

    filtered_output = []
    selected_dates = []

    similar_news_list = sorted(
        similar_news_list, key=lambda x: x["similarity"], reverse=True
    )

    for item in similar_news_list:
        item_date = datetime.fromisoformat(item["wdate"])
        if (
            item["similarity"]
            < 0.9
            # and item_date <= min_date
            # and is_far_enough(item_date, selected_dates)
        ):
            filtered_output.append(item)
            selected_dates.append(item_date)
        # if len(filtered_output) >= top_n:
        # break

    similar_news_ids = [item["news_id"] for item in filtered_output]
    filtered_ids = [nid for nid in similar_news_ids if nid != news_id]

    # 유사 뉴스 Rerank API 호출
    payload = {"news_id": ref_news_raw.news_id, "news_topk_ids": filtered_ids}

    try:
        similar_news_reranked_list = await get_similar_news(payload, db)
    except Exception as e:
        print(f"❌ 유사 뉴스 Rerank API 요청 실패: {e}")
        print(f"텍스트 유사도만 조회하도록 합니다.: {e}")

        similar_news_reranked_list = filtered_output
        # return []

    # filtered_output = []
    # selected_dates = []

    # for item in similar_news_reranked_list:
    #     item_date = datetime.fromisoformat(item["wdate"])
    #     if (
    #         item["similarity"] < 0.9
    #         and item_date <= min_date
    #         and is_far_enough(item_date, selected_dates)
    #     ):
    #         filtered_output.append(item)
    #         selected_dates.append(item_date)
    #     if len(filtered_output) >= top_n:
    #         break

    # similar_news_reranked_list = filtered_output

    # 유사 뉴스 요약 맵
    summary_map = {
        item["news_id"]: {
            "summary": item["summary"],
            "similarity": item.get("score") or item.get("similarity"),
        }
        for item in similar_news_reranked_list
    }

    similar_ids = list(summary_map.keys())

    # DB에서 메타 정보 조회
    results = (
        db.query(
            NewsModel_v2.news_id,
            NewsModel_v2.wdate,
            NewsModel_v2.title,
            NewsModel_v2.image,
            NewsModel_v2.press,
            NewsModel_v2.url,
        )
        .filter(NewsModel_v2.news_id.in_(similar_ids))
        .all()
    )

    # SimilarNewsV2 객체 생성
    output = []
    for row in results:
        meta = summary_map.get(row.news_id)
        if meta:
            output.append(
                {
                    'news_id': row.news_id,
                    'wdate': row.wdate.isoformat(),
                    'title': row.title,
                    'press': row.press,
                    'url': row.url,
                    'image': row.image,
                    'summary': meta["summary"],
                    'similarity': round(meta["similarity"], 3),
                }
            )

    # 유사도 높은 순 정렬
    output.sort(key=lambda x: x['similarity'], reverse=True)

    return output[:top_n]

In [25]:
results = await find_news_similar_v2(db, '20250523_0002', 5, 90, 30)

In [26]:
results

[{'news_id': '20250523_0007',
  'wdate': '2025-05-23T18:00:00',
  'title': '[단독] 전자결제 강자 카카오페이 쓱·스마일 페이 인수 추진',
  'press': '매일경제',
  'url': 'https://n.news.naver.com/mnews/article/009/0005497721',
  'image': 'https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.jpg',
  'summary': '23일 정보기술(IT)·투자은행(IB) 업계에 따르면 카카오페이가 SSG닷컴 쓱페이와 G마켓 스마일페이 인수를 위해 신세계이마트 측과 협상을 진행 중인 것으로 파악되었으며 매각가가 5000억원 안팎에 달할 것으로 전망된다.',
  'similarity': 0.715},
 {'news_id': '20250421_0125',
  'wdate': '2025-04-21T08:10:00',
  'title': '"네이버, 컬리와 협업으로 신선식품 강화 긍정적"-현대차',
  'press': '한국경제',
  'url': 'https://n.news.naver.com/mnews/article/015/0005121623',
  'image': 'https://imgnews.pstatic.net/image/015/2025/04/21/0005121623_001_20250421081017993.jpg?type=w800',
  'summary': '21일 네이버컬리 현대차증권은 21일 네이버에 대해 "컬리와 전략적 파트너십 체결로 부족한 신선식품 배송 부문을 더할 예정"이라며 "컬리의 익일 새벽배송 서비스인 \'샛별배송\'까지 활용이 가능해져 플러스 스토어를 통한 신선식품 구매가 급증할 것으로 기대한다"고 분석했다.',
  'similarity': 0.602},
 {'news_id': '20250523_0011',
  'wdate': '

In [27]:
df = pd.read_csv('../../db/news_2023_2025_metadata2.csv')

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13720 entries, 0 to 13719
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   news_id          13720 non-null  object 
 1   summary          13720 non-null  object 
 2   stock_list       13720 non-null  object 
 3   stock_list_view  13720 non-null  object 
 4   industry_list    13720 non-null  object 
 5   impact_score     13720 non-null  float64
dtypes: float64(1), object(5)
memory usage: 643.2+ KB


In [29]:
news_ids = df['news_id'].tolist()
len(news_ids)

13720

In [32]:
from tqdm.asyncio import tqdm

# 또는 일반 tqdm로도 충분할 수 있습니다:
# from tqdm import tqdm

sim_results = []

for news_id in tqdm(news_ids, desc="🔍 유사 뉴스 검색 중"):
    results = await find_news_similar_v2(db, news_id, 5, 90, 30)

    for result in results:
        data = {
            "news_id": news_id,
            "sim_news_id": result['news_id'],
            "wdate": result['wdate'],
            "title": result['title'],
            "summary": result['summary'],
            "press": result['press'],
            "url": result['url'],
            "image": result['image'],
            "similarity": result['similarity']
        }

        sim_results.append(data)

🔍 유사 뉴스 검색 중:  68%|██████▊   | 9342/13720 [1:37:16<45:35,  1.60it/s]  


OperationalError: (psycopg2.OperationalError) could not receive data from server: Software caused connection abort (0x00002745/10053)

[SQL: SELECT news_v2.news_id AS news_v2_news_id, news_v2.wdate AS news_v2_wdate, news_v2.title AS news_v2_title, news_v2.image AS news_v2_image, news_v2.press AS news_v2_press, news_v2.url AS news_v2_url 
FROM news_v2 
WHERE news_v2.news_id IN (%(news_id_1_1)s, %(news_id_1_2)s, %(news_id_1_3)s, %(news_id_1_4)s, %(news_id_1_5)s, %(news_id_1_6)s, %(news_id_1_7)s, %(news_id_1_8)s, %(news_id_1_9)s, %(news_id_1_10)s)]
[parameters: {'news_id_1_1': '20241220_0217', 'news_id_1_2': '20240607_0219', 'news_id_1_3': '20240614_0187', 'news_id_1_4': '20240418_0277', 'news_id_1_5': '20240503_0201', 'news_id_1_6': '20240119_0193', 'news_id_1_7': '20241129_0237', 'news_id_1_8': '20240925_0251', 'news_id_1_9': '20240610_0207', 'news_id_1_10': '20240219_0221'}]
(Background on this error at: https://sqlalche.me/e/20/e3q8)

In [33]:
sim_results

[{'news_id': '20250523_0002',
  'sim_news_id': '20250523_0007',
  'wdate': '2025-05-23T18:00:00',
  'title': '[단독] 전자결제 강자 카카오페이 쓱·스마일 페이 인수 추진',
  'summary': '23일 정보기술(IT)·투자은행(IB) 업계에 따르면 카카오페이가 SSG닷컴 쓱페이와 G마켓 스마일페이 인수를 위해 신세계이마트 측과 협상을 진행 중인 것으로 파악되었으며 매각가가 5000억원 안팎에 달할 것으로 전망된다.',
  'press': '매일경제',
  'url': 'https://n.news.naver.com/mnews/article/009/0005497721',
  'image': 'https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.jpg',
  'similarity': 0.715},
 {'news_id': '20250523_0002',
  'sim_news_id': '20250421_0125',
  'wdate': '2025-04-21T08:10:00',
  'title': '"네이버, 컬리와 협업으로 신선식품 강화 긍정적"-현대차',
  'summary': '21일 네이버컬리 현대차증권은 21일 네이버에 대해 "컬리와 전략적 파트너십 체결로 부족한 신선식품 배송 부문을 더할 예정"이라며 "컬리의 익일 새벽배송 서비스인 \'샛별배송\'까지 활용이 가능해져 플러스 스토어를 통한 신선식품 구매가 급증할 것으로 기대한다"고 분석했다.',
  'press': '한국경제',
  'url': 'https://n.news.naver.com/mnews/article/015/0005121623',
  'image': 'https://imgnews.pstatic.net/image/015/2025/04/21/0005121623_001_20250421081017993.jpg?type=w800'

In [None]:
news_v2_df = pd.DataFrame(sim_results)