### 데이터 가져오기

In [1]:
import pandas as pd

df = pd.read_csv("../../db/news_2023_2025_summarized.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14087 entries, 0 to 14086
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Unnamed: 0                    14087 non-null  int64 
 1   news_id                       14087 non-null  object
 2   wdate                         14087 non-null  object
 3   title                         14087 non-null  object
 4   article                       14087 non-null  object
 5   press                         14087 non-null  object
 6   url                           14087 non-null  object
 7   image                         14087 non-null  object
 8   article_preprocessed          14087 non-null  object
 9   summary                       14087 non-null  object
 10  stock_list                    14087 non-null  object
 11  industry_list                 14087 non-null  object
 12  summary_embedding             14087 non-null  object
 13  summary_embeddin

In [2]:
rate_df = pd.read_csv("../../db/korea_base_rate_daily.csv")

## 함수 모듈화

In [91]:
import pandas as pd
import numpy as np
import ast
import os
from pykrx import stock
import requests
from datetime import timedelta

class NewsMarketPipeline:
    def __init__(self, df, api_key, rate_path=None):
        print("[초기화] 파이프라인 객체 생성")
        self.api_key = api_key
        self.rate_path = rate_path

        self.df = df
        self.ticker_name_map = None
        self.trading_days = None
        self.ohlcv_dict = {}
        self.trading_dict = {}
        self.fx_df = None
        self.bond_df = None
        self.rate_df = None

    def get_df(self):
        return self.df

    def extract_stock_name(self):

        print("[전처리] 종목명 추출")
        def extract_last(labels):
            if pd.isna(labels) or labels == '[]' or labels == '':
                return None
            if isinstance(labels, str):
                try:
                    labels_list = ast.literal_eval(labels)
                except Exception:
                    return None
            elif isinstance(labels, list):
                labels_list = labels
            else:
                return None
            if not labels_list:
                return None
            return labels_list[-1]
        if 'stock_list' not in self.df.columns:
            raise Exception("stock_list 컬럼이 없습니다. 실제 컬럼: " + str(self.df.columns.tolist()))

        self.df['stock_name'] = self.df['stock_list'].apply(extract_last)
        print("[전처리] stock_name 컬럼 생성 완료")

    def add_news_date(self):
        print("[전처리] news_date 컬럼 생성")
        if 'wdate' in self.df.columns:
            self.df['wdate'] = pd.to_datetime(self.df['wdate'])
            self.df['news_date'] = self.df['wdate'].dt.normalize()
        elif 'news_date' in self.df.columns:
            self.df['news_date'] = pd.to_datetime(self.df['news_date'])
        else:
            raise Exception("wdate/news_date 컬럼이 없습니다. 실제 컬럼: " + str(self.df.columns.tolist()))
        print("[전처리] news_date 컬럼 생성 완료")

    def get_ticker_name_map(self, recent_date="2025-05-30"):
        print("[파생] KOSPI 티커-이름 맵핑 생성")
        kospi_tickers = stock.get_market_ticker_list(date=recent_date, market="KOSPI")
        mapping = {stock.get_market_ticker_name(ticker): ticker for ticker in kospi_tickers}
        print(f"[파생] 티커-이름 맵핑 완료: {len(mapping)}개")
        return mapping

    def add_ticker(self):
        print("[파생] ticker 컬럼 생성")
        if self.ticker_name_map is None:
            self.ticker_name_map = self.get_ticker_name_map()
        def get_ticker(name):
            if pd.isna(name):
                return None
            return self.ticker_name_map.get(name)
        self.df['ticker'] = self.df['stock_name'].apply(get_ticker)
        print("[파생] ticker 컬럼 생성 완료")

    def get_trading_days(self, start_year=2022, end_year=2026):
        print("[파생] 거래일 리스트 생성")
        days = []
        for y in range(start_year, end_year + 1):
            for m in range(1, 13):
                try:
                    days_this_month = stock.get_business_days(y, m)
                    days.extend(days_this_month)
                except Exception as e:
                    print(f"{y}-{m:02d}: 거래일 없음 또는 에러 ({e})")
        print("[파생] 거래일 리스트 생성 완료")
        return pd.to_datetime(sorted(set(days)))

    def find_nearest_trading_day(self, date):
        after = self.trading_days[self.trading_days >= date]
        return after[0] if len(after) > 0 else pd.NaT

    def add_trading_dates(self):
        print("[파생] 거래일 기준 컬럼 생성")
        if self.trading_days is None:
            self.trading_days = self.get_trading_days()
        self.df['D_day_date'] = self.df['news_date'].apply(self.find_nearest_trading_day)

        offsets = {
            'D_minus_14_date': -14, 'D_minus_7_date': -7, 'D_minus_3_date': -3,
            'D_minus_2_date': -2, 'D_minus_1_date': -1, 'D_day_date': 0,
            }
        def fill_offsets(row):
            d_day = row['D_day_date']
            res = {}
            if pd.isna(d_day) or d_day not in self.trading_days.values:
                for k in offsets.keys():
                    res[k] = pd.NaT
                return pd.Series(res)
            idx = np.where(self.trading_days == d_day)[0][0]
            for k, v in offsets.items():
                i = idx + v
                res[k] = self.trading_days[i] if 0 <= i < len(self.trading_days) else pd.NaT
            return pd.Series(res)
        df_offsets = self.df.apply(fill_offsets, axis=1)

        self.df.drop(columns=['D_day_date'], inplace=True)

        # 인덱스 리셋 후 concat (중복 방지)
        self.df = self.df.reset_index(drop=True)
        df_offsets = df_offsets.reset_index(drop=True)
        self.df = pd.concat([self.df, df_offsets], axis=1)
        print("[파생] 거래일 기준 컬럼 생성 완료")

    def fetch_ohlcv_and_trading(self):
        print("[수집] OHLCV/투자자별 순매수 데이터 수집")
        offsets = [
            'D_minus_14_date','D_minus_7_date','D_minus_3_date','D_minus_2_date','D_minus_1_date',
        ]
        all_dates = pd.concat([self.df[col] for col in offsets], ignore_index=True).dropna().unique()
        all_dates_str = sorted([d.strftime('%Y%m%d') for d in pd.to_datetime(all_dates)])
        tickers = self.df['ticker'].dropna().unique().tolist()
        for ticker in tickers:
            try:
                ohlcv = stock.get_market_ohlcv_by_date(min(all_dates_str), max(all_dates_str), ticker)
                self.ohlcv_dict[ticker] = ohlcv
            except Exception as e:
                print(f"[WARN] OHLCV 조회 실패: {ticker} ({e})")
            try:
                tv = stock.get_market_trading_value_by_date(min(all_dates_str), max(all_dates_str), ticker)
                self.trading_dict[ticker] = tv
            except Exception as e:
                print(f"[WARN] Trading Value 조회 실패: {ticker} ({e})")
        print("[수집] OHLCV/투자자별 순매수 데이터 수집 완료")

    def add_ohlcv_and_trading(self):
        print("[파생] OHLCV/투자자별 순매수 컬럼 생성")
        offsets = [
            'D_minus_14_date','D_minus_7_date','D_minus_3_date','D_minus_2_date','D_minus_1_date',
        ]
        def get_ohlcv_val(row, date_col, val_col):
            ticker = row['ticker']
            date = row[date_col]
            if pd.isna(ticker) or pd.isna(date):
                return np.nan
            df_ohlcv = self.ohlcv_dict.get(ticker)
            if df_ohlcv is None:
                return np.nan
            date_str = date.strftime('%Y%m%d')
            if date_str not in df_ohlcv.index:
                return np.nan
            return df_ohlcv.loc[date_str, val_col]
        def get_trading_val(row, date_col, investor):
            ticker = row['ticker']
            date = row[date_col]
            if pd.isna(ticker) or pd.isna(date):
                return np.nan
            df_tv = self.trading_dict.get(ticker)
            if df_tv is None:
                return np.nan
            date_str = date.strftime('%Y%m%d')
            if date_str not in df_tv.index:
                return np.nan
            col_map = {'외국인': '외국인합계', '기관': '기관합계', '개인': '개인'}
            return df_tv.loc[date_str, col_map[investor]]
        for col in offsets:
            self.df[f'{col}_close'] = self.df.apply(lambda r: get_ohlcv_val(r, col, '종가'), axis=1)
            self.df[f'{col}_volume'] = self.df.apply(lambda r: get_ohlcv_val(r, col, '거래량'), axis=1)
            self.df[f'{col}_foreign'] = self.df.apply(lambda r: get_trading_val(r, col, '외국인'), axis=1)
            self.df[f'{col}_institution'] = self.df.apply(lambda r: get_trading_val(r, col, '기관'), axis=1)
            self.df[f'{col}_individual'] = self.df.apply(lambda r: get_trading_val(r, col, '개인'), axis=1)
        print("[파생] OHLCV/투자자별 순매수 컬럼 생성 완료")

    def fetch_fx(self, start_date, end_date):
        print("[수집] 환율 데이터")
        if self.fx_df is not None:
            return self.fx_df
        stat_code = "731Y001"
        item_code = "0000001"
        print(start_date, end_date)
        url = f"https://ecos.bok.or.kr/api/StatisticSearch/{self.api_key}/json/kr/1/1000/{stat_code}/D/{start_date}/{end_date}/{item_code}/"
        resp = requests.get(url)
        data = resp.json()
        if "StatisticSearch" not in data or "row" not in data["StatisticSearch"]:
            print("[WARN] 환율 데이터 없음:", data)
            return pd.DataFrame()
        df = pd.DataFrame(data["StatisticSearch"]["row"])
        df['date'] = pd.to_datetime(df['TIME'], format='%Y%m%d')
        df['usdkrw'] = pd.to_numeric(df['DATA_VALUE'], errors='coerce')
        df = df.sort_values('date')
        self.fx_df = df[['date', 'usdkrw']]
        print("[수집] 환율 데이터 수집 완료")
        return self.fx_df

    def fetch_bond10y(self, start_date, end_date):
        print("[수집] 국채10년 데이터")
        if self.bond_df is not None:
            return self.bond_df
        stat_code = "817Y002"
        item_code = "010200000"
        url = f"https://ecos.bok.or.kr/api/StatisticSearch/{self.api_key}/json/kr/1/1000/{stat_code}/D/{start_date}/{end_date}/{item_code}/"
        resp = requests.get(url)
        data = resp.json()
        if "StatisticSearch" not in data or "row" not in data["StatisticSearch"]:
            print("[WARN] 국채10년 데이터 없음:", data)
            return pd.DataFrame()
        df = pd.DataFrame(data["StatisticSearch"]["row"])
        df['date'] = pd.to_datetime(df['TIME'], format='%Y%m%d')
        df['bond10y'] = pd.to_numeric(df['DATA_VALUE'], errors='coerce')
        df = df.sort_values('date')
        self.bond_df = df[['date', 'bond10y']]
        print("[수집] 국채10년 데이터 수집 완료")
        return self.bond_df

    def load_rate_df(self):
        if self.rate_path:
            print("[수집] 기준금리 데이터")
            self.rate_df = pd.read_csv(self.rate_path)
            self.rate_df['date'] = pd.to_datetime(self.rate_df['date'])
            self.rate_df = self.rate_df.sort_values('date')
            print("[수집] 기준금리 데이터 수집 완료")

    def add_external_vars(self):
        print("[병합] 외부 변수(환율, 국채, 기준금리) 병합")
        self.df = self.df.sort_values('news_date')
        start_date = (self.df["news_date"].min() - timedelta(days=1)).strftime("%Y%m%d")
        end_date = (self.df["news_date"].max() - timedelta(days=1)).strftime("%Y%m%d")
        fx_df = self.fetch_fx(start_date, end_date)
        bond_df = self.fetch_bond10y(start_date, end_date)
        self.load_rate_df()
        fx_df = fx_df.sort_values('date')
        bond_df = bond_df.sort_values('date')
        self.df = pd.merge_asof(self.df, fx_df.rename(columns={'date': 'news_date', 'usdkrw': 'fx'}), on='news_date', direction='backward')
        self.df = pd.merge_asof(self.df, bond_df.rename(columns={'date': 'news_date'}), on='news_date', direction='backward')
        if self.rate_df is not None:
            self.df = pd.merge_asof(self.df, self.rate_df.rename(columns={'date': 'news_date', 'rate': 'base_rate'}), on='news_date', direction='backward')
        print("[병합] 외부 변수 병합 완료")

    def run(self):
        self.extract_stock_name()
        self.add_news_date()
        self.add_ticker()
        self.add_trading_dates()
        self.fetch_ohlcv_and_trading()
        self.add_ohlcv_and_trading()
        self.add_external_vars()
        print("[완료] 전체 파이프라인 완료")
        print(self.df.head())
        return self.df

In [103]:
news = {
    "wdate": "2025-06-11 22:52:00",
    'stock_list': '["삼성전자"]'
}

In [104]:
pd.DataFrame([news])

Unnamed: 0,wdate,stock_list
0,2025-06-11 22:52:00,"[""삼성전자""]"


In [105]:
import os
from dotenv import load_dotenv

load_dotenv()

# 사용 예시

pipeline = NewsMarketPipeline(

    df=pd.DataFrame([news]),

    api_key=os.getenv('KOREA_BANK_API_KEY'),

    rate_path="../../db/korea_base_rate_daily.csv",
)

final_df = pipeline.run()

final_df.head()

[초기화] 파이프라인 객체 생성
[전처리] 종목명 추출
[전처리] stock_name 컬럼 생성 완료
[전처리] news_date 컬럼 생성
[전처리] news_date 컬럼 생성 완료
[파생] ticker 컬럼 생성
[파생] KOSPI 티커-이름 맵핑 생성
[파생] 티커-이름 맵핑 완료: 961개
[파생] ticker 컬럼 생성 완료
[파생] 거래일 기준 컬럼 생성
[파생] 거래일 리스트 생성


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2025-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-01: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-02: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-03: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-04: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-05: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-06: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
[파생] 거래일 리스트 생성 완료
[파생] 거래일 기준 컬럼 생성 완료
[수집] OHLCV/투자자별 순매수 데이터 수집
[수집] OHLCV/투자자별 순매수 데이터 수집 완료
[파생] OHLCV/투자자별 순매수 컬럼 생성
[파생] OHLCV/투자자별 순매수 컬럼 생성 완료
[병합] 외부 변수(환율, 국채, 기준금리) 병합
[수집] 환율 데이터
20250610 20250610


  days_this_month = stock.get_business_days(y, m)


[수집] 환율 데이터 수집 완료
[수집] 국채10년 데이터
[수집] 국채10년 데이터 수집 완료
[수집] 기준금리 데이터
[수집] 기준금리 데이터 수집 완료
[병합] 외부 변수 병합 완료
[완료] 전체 파이프라인 완료
                wdate stock_list stock_name  news_date  ticker  \
0 2025-06-11 22:52:00   ["삼성전자"]       삼성전자 2025-06-11  005930   

  D_minus_14_date D_minus_7_date D_minus_3_date D_minus_2_date D_minus_1_date  \
0      2025-05-20     2025-05-29     2025-06-05     2025-06-09     2025-06-10   

   ... D_minus_2_date_institution  D_minus_2_date_individual  \
0  ...              -129336955150              -159736050350   

   D_minus_1_date_close  D_minus_1_date_volume  D_minus_1_date_foreign  \
0               59200.0             15305760.0            -54533069200   

   D_minus_1_date_institution  D_minus_1_date_individual      fx  bond10y  \
0                -17931077300                71865041600  1358.9    2.385   

   base_rate  
0        2.5  

[1 rows x 39 columns]


Unnamed: 0,wdate,stock_list,stock_name,news_date,ticker,D_minus_14_date,D_minus_7_date,D_minus_3_date,D_minus_2_date,D_minus_1_date,...,D_minus_2_date_institution,D_minus_2_date_individual,D_minus_1_date_close,D_minus_1_date_volume,D_minus_1_date_foreign,D_minus_1_date_institution,D_minus_1_date_individual,fx,bond10y,base_rate
0,2025-06-11 22:52:00,"[""삼성전자""]",삼성전자,2025-06-11,5930,2025-05-20,2025-05-29,2025-06-05,2025-06-09,2025-06-10,...,-129336955150,-159736050350,59200.0,15305760.0,-54533069200,-17931077300,71865041600,1358.9,2.385,2.5


In [107]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1 entries, 0 to 0
Data columns (total 39 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   wdate                        1 non-null      datetime64[ns]
 1   stock_list                   1 non-null      object        
 2   stock_name                   1 non-null      object        
 3   news_date                    1 non-null      datetime64[ns]
 4   ticker                       1 non-null      object        
 5   D_minus_14_date              1 non-null      datetime64[ns]
 6   D_minus_7_date               1 non-null      datetime64[ns]
 7   D_minus_3_date               1 non-null      datetime64[ns]
 8   D_minus_2_date               1 non-null      datetime64[ns]
 9   D_minus_1_date               1 non-null      datetime64[ns]
 10  D_day_date                   1 non-null      datetime64[ns]
 11  D_minus_14_date_close        1 non-null      floa

In [65]:
final_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14087 entries, 0 to 14086
Data columns (total 87 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   news_id                      14087 non-null  object        
 1   wdate                        14087 non-null  datetime64[ns]
 2   title                        14087 non-null  object        
 3   article                      14087 non-null  object        
 4   press                        14087 non-null  object        
 5   url                          14087 non-null  object        
 6   image                        14087 non-null  object        
 7   article_preprocessed         14087 non-null  object        
 8   summary                      14087 non-null  object        
 9   stock_list                   14087 non-null  object        
 10  industry_list                14087 non-null  object        
 11  summary_embedding            14087 non-nu

In [66]:
final_df.tail(10)

Unnamed: 0,news_id,wdate,title,article,press,url,image,article_preprocessed,summary,stock_list,...,D_plus_14_date_volume,D_plus_14_date_foreign,D_plus_14_date_institution,D_plus_14_date_individual,D_day_date_open,D-day_change_open,D-day_change,fx,bond10y,base_rate
14077,20250523_0076,2025-05-23 08:44:00,자발적 '상장폐지' 선언한 회사…알고 봤더니 '깜짝' [종목+],회삿돈으로 상장폐지?…텔코웨어 자진 상폐 논란\n주주가치 제고 명목으로 사들인 자사...,한국경제,https://n.news.naver.com/mnews/article/015/000...,https://imgnews.pstatic.net/image/015/2025/05/...,회삿돈으로 상장폐지?…텔코웨어 자진 상폐 논란 주주가치 제고 명목으로 사들인 자사주...,금융감독원 전자공시시스템에 따르면 텔코웨어의 금한태 대표는 지난 19일부터 자사주를...,['텔코웨어'],...,,,,,12920.0,0.077399,0.154919,1378.4,2.338,2.75
14078,20250523_0084,2025-05-23 08:33:00,"한화투자증권 ""제주항공, 2분기 적자 지속…목표가↓""","제주항공 항공기\n[제주항공 제공, 재판매 및 DB 금지]\n(서울=연합뉴스) 이민...",연합뉴스,https://n.news.naver.com/mnews/article/001/001...,https://imgnews.pstatic.net/image/001/2025/05/...,제주항공 항공기 (서울=연합뉴스) 이민영 기자 = 한화투자증권은 23일 제주항공에...,한화투자증권은 23일 제주항공에 대해 소비자 심리 회복까지 시간이 필요해 올해 2분...,"['한화투자증권', '제주항공']",...,,,,,6810.0,-1.468429,-1.756955,1378.4,2.338,2.75
14079,20250523_0086,2025-05-23 08:31:00,"하나증권, 한화솔루션 목표가↓ ""美 IRA 수정안 통과 우려""",한화솔루션\n[OCI 제공. DB 및 재판매 금지]\n(서울=연합뉴스) 곽윤아 기자...,연합뉴스,https://n.news.naver.com/mnews/article/001/001...,https://imgnews.pstatic.net/image/001/2025/05/...,미국 하원은 간밤 본회의에서 IRA 수정안을 통과시켰다. 하나증권에 따르면 이후 남...,하나증권에 따르면 미국 하원은 간밤 본회의에서 IRA 수정안을 통과시켰으며 이후 남...,['한화솔루션'],...,,,,,31450.0,-6.200318,-11.411411,1378.4,2.338,2.75
14080,20250523_0087,2025-05-23 08:30:00,"NH투자 ""제약·바이오 올 하반기 미국發 불확실성 클 것""",미국의 한 제약 바이오 연구실 [자료사진]\n(AFP=연합뉴스)\n(서울=연합뉴스)...,연합뉴스,https://n.news.naver.com/mnews/article/001/001...,https://imgnews.pstatic.net/image/001/2025/05/...,미국의 한 제약 바이오 연구실 (AFP=연합뉴스) (서울=연합뉴스) 김태균 기자 ...,"23일 NH투자증권은 올해 하반기 제약·바이오 산업의 전망과 관련해 ""미국 헬스케어...","['NH투자증권', '한미약품']",...,,,,,289500.0,0.863558,1.213172,1378.4,2.338,2.75
14081,20250523_0097,2025-05-23 08:00:00,"""SPC삼립, 반복되는 안전사고…투자의견·목표가↓""-IBK",사진=연합뉴스\nIBK투자증권은 23일 SPC삼립에 대해 반복되는 안전사고로 악화된...,한국경제,https://n.news.naver.com/mnews/article/015/000...,https://imgnews.pstatic.net/image/015/2025/05/...,지난 19일 오전 3시께 경기 시흥시에 있는 SPC삼립의 시화공장에서 50대 여성 ...,지난 19일 경기 시흥시에 있는 SPC삼립의 시화공장에서 환경·사회·지배구조 리스크...,['SPC삼립'],...,,,,,52500.0,-1.333333,-2.079395,1378.4,2.338,2.75
14082,20250523_0104,2025-05-23 07:51:00,"[클릭 e종목]""롯데지주, 예상보다 느린 실적 개선…목표가 유지""","IBK투자증권은 23일 롯데지주에 대해 ""1분기 예상보다 느린 실적 개선을 보였지만...",아시아경제,https://n.news.naver.com/mnews/article/277/000...,https://imgnews.pstatic.net/image/277/2025/05/...,"또한 ""바이오로직스 투자가 비용 부담으로 이어졌고, 롯데케미칼 실적 부진도 계속됐다...","롯데GRS, 종속회사 롯데쇼핑의 실적 개선이 고무적으로 이뤄졌지만, 내수 부문 실적...",['롯데쇼핑'],...,,,,,77300.0,0.258732,-0.641026,1378.4,2.338,2.75
14083,20250523_0109,2025-05-23 07:46:00,"""삼성바이오로직스 분할, 신약 개발 본격화를 의미""-키움",사진=한경DB\n키움증권은 23일 삼성바이오로직스에 대해 인적분할을 추진하는 건 본...,한국경제,https://n.news.naver.com/mnews/article/015/000...,https://imgnews.pstatic.net/image/015/2025/05/...,사진=한경DB 키움증권은 23일 삼성바이오로직스에 대해 인적분할을 추진하는 건 본격...,키움증권은 23일 삼성바이오로직스가 의약품 위탁 개발·생산(CDMO) 부문은 존속법...,"['키움증권', '삼성바이오로직스']",...,,,,,1080000.0,-5.925926,-5.925926,1378.4,2.338,2.75
14084,20250523_0116,2025-05-23 07:29:00,"[클릭 e종목]""크래프톤, 이제 서브노티카2에 빠질 시간""",IBK투자증권이 23일 크래프톤에 대해 최근 출시한 '인조이'가 양호한 성과를 기록...,아시아경제,https://n.news.naver.com/mnews/article/277/000...,https://imgnews.pstatic.net/image/277/2025/05/...,"크래프톤은 '인조이', '서브노티카2', '딩컴', 'Project AB' 등 신작...",크래프톤은 신작 라인업을 앞세우며 기존 PUBG 중심에서 벗어나 게임 포트폴리오를 ...,['크래프톤'],...,,,,,378500.0,0.264201,-0.131579,1378.4,2.338,2.75
14085,20250523_0071,2025-05-23 08:52:00,"삼성생명, 그룹 지배구조 재편 가능성에 재부각…""지켜봐야""-LS",서울 서초구 삼성생명 본사. /사진=뉴스1 /사진=(서울=뉴스1) 김성진 기자\nL...,머니투데이,https://n.news.naver.com/mnews/article/008/000...,https://imgnews.pstatic.net/image/008/2025/05/...,서울 서초구 삼성생명 본사. = 매각대금은 원칙적으로 손실계약 보전에 사용될 수 없...,금리인하·제도강화 영향으로 매분기 자본 감소세가 이어지는 가운데 삼성전자 지분 보유...,['삼성전자'],...,,,,,55000.0,-1.454545,-0.914077,1378.4,2.338,2.75
14086,20250523_0002,2025-05-23 18:52:00,"[단독] 카카오페이, 2500만 회원 쓱·스마일페이 품나…간편결제 시장 빅3 경쟁 후끈",매각가 5000억 안팎 달할듯\n결제시장 내 입지강화 포석\n카카오페이 [사진 = ...,매일경제,https://n.news.naver.com/mnews/article/009/000...,https://imgnews.pstatic.net/image/009/2025/05/...,매각가 5000억 안팎 달할듯 결제시장 내 입지강화 포석 카카오페이 국내 대표 전...,23일 정보기술(IT)·투자은행(IB) 업계에 따르면 국내 대표 전자결제사업자인 카...,['카카오페이'],...,,,,,30000.0,2.666667,1.650165,1378.4,2.338,2.75


### 확인

In [67]:
news_df = pd.read_csv("/Users/JooAnLee/final_project/db/news(23-25)_summarized_external.csv")
final_df.equals(news_df)

False

In [70]:
for col in final_df.columns:
    if col not in news_df.columns:
        print(f"news_df에 '{col}' 컬럼이 없습니다.")
        continue
    # 컬럼 값 비교 (NaN도 같다고 처리하려면 fillna 처리 가능)
    diff_mask = final_df[col] != news_df[col]
    diff_mask = diff_mask.fillna(False)  # NaN vs NaN는 같다고 처리
    
    num_diff = diff_mask.sum()
    if num_diff == 0:
        print(f"컬럼 '{col}'는 모두 같습니다.")
    else:
        print(f"컬럼 '{col}'는 {num_diff}개 행에서 다릅니다.")
        # 다른 행 몇 개 예시 출력
        print(final_df.loc[diff_mask, col].head())
        print(news_df.loc[diff_mask, col].head())

컬럼 'news_id'는 13989개 행에서 다릅니다.
5    20240102_0253
6    20240102_0246
7    20240102_0237
8    20240102_0232
9    20240102_0231
Name: news_id, dtype: object
5    20240102_0333
6    20240102_0373
7    20240102_0413
8    20240102_0417
9    20240102_0411
Name: news_id, dtype: object
컬럼 'wdate'는 13985개 행에서 다릅니다.
5   2024-01-02 10:15:00
6   2024-01-02 10:16:00
7   2024-01-02 10:29:00
8   2024-01-02 10:30:00
9   2024-01-02 10:30:00
Name: wdate, dtype: datetime64[ns]
5    2024-01-02 09:03:00
6    2024-01-02 08:06:00
7    2024-01-02 07:00:00
8    2024-01-02 06:00:00
9    2024-01-02 07:35:00
Name: wdate, dtype: object
컬럼 'title'는 13989개 행에서 다릅니다.
5           궈밍쩡 유안타증권 대표 "제구포신 자세로 임하자"
6           코스피로 이동한 포스코DX…단기급등에 '숨고르기'
7              셀트리온 15% 급등…셀트리온제약 '상한가'
8    곽노정 SK하이닉스 사장 "내실 강화·과감한 투자 병행할 것"
9            NHN클라우드, 김동훈 단독 대표 체제 ‘출범’
Name: title, dtype: object
5                   포스코DX, 새해 첫 거래일 코스피서 거래
6    [클릭e종목]"태영건설 사태, 대규모 PF 위기 유발 가능성 제한적"
7           [Good딜Bad딜]新금융권력 사모펀드…MBK가 왜그

In [75]:
pd.set_option('display.max_columns', None)  # 모든 컬럼 출력 허용
pd.set_option('display.width', 2000)       # 가로 폭 충분히 넓게 설정
final_df.iloc[10000:10010]

Unnamed: 0,news_id,wdate,title,article,press,url,image,article_preprocessed,summary,stock_list,industry_list,summary_embedding,stock_name,news_date,ticker,D_minus_14_date,D_minus_7_date,D_minus_3_date,D_minus_2_date,D_minus_1_date,D_day_date,D_plus_1_date,D_plus_2_date,D_plus_3_date,D_plus_7_date,D_plus_14_date,D_minus_14_date_close,D_minus_14_date_volume,D_minus_14_date_foreign,D_minus_14_date_institution,D_minus_14_date_individual,D_minus_7_date_close,D_minus_7_date_volume,D_minus_7_date_foreign,D_minus_7_date_institution,D_minus_7_date_individual,D_minus_3_date_close,D_minus_3_date_volume,D_minus_3_date_foreign,D_minus_3_date_institution,D_minus_3_date_individual,D_minus_2_date_close,D_minus_2_date_volume,D_minus_2_date_foreign,D_minus_2_date_institution,D_minus_2_date_individual,D_minus_1_date_close,D_minus_1_date_volume,D_minus_1_date_foreign,D_minus_1_date_institution,D_minus_1_date_individual,D_day_date_close,D_day_date_volume,D_day_date_foreign,D_day_date_institution,D_day_date_individual,D_plus_1_date_close,D_plus_1_date_volume,D_plus_1_date_foreign,D_plus_1_date_institution,D_plus_1_date_individual,D_plus_2_date_close,D_plus_2_date_volume,D_plus_2_date_foreign,D_plus_2_date_institution,D_plus_2_date_individual,D_plus_3_date_close,D_plus_3_date_volume,D_plus_3_date_foreign,D_plus_3_date_institution,D_plus_3_date_individual,D_plus_7_date_close,D_plus_7_date_volume,D_plus_7_date_foreign,D_plus_7_date_institution,D_plus_7_date_individual,D_plus_14_date_close,D_plus_14_date_volume,D_plus_14_date_foreign,D_plus_14_date_institution,D_plus_14_date_individual,D_day_date_open,D-day_change_open,D-day_change,fx,bond10y,base_rate
10000,20241217_0171,2024-12-17 09:53:00,"키움證 ""은행주, 정치적 리스크에도 주주환원 강화 지속 전망""",연합뉴스 제공\n[파이낸셜뉴스] 키움증권이 은행 업종에 대해 주주환원책이 지속될 전...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,연합뉴스 제공 키움증권이 은행 업종에 대해 주주환원책이 지속될 전망이라며 투자 의...,키움증권이 은행 업종에 대해 주주환원책이 지속될 전망이라며 투자 의견 비중 확대를 ...,['키움증권'],['금융 지원 서비스업'],"[-0.9721143841743469, -0.24344240128993988, 0....",키움증권,2024-12-17,39490,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,127900.0,41409.0,1639373000.0,1964056000.0,-3592969000.0,119200.0,102797.0,-971144200.0,-978314100.0,2463373000.0,120500.0,143819.0,676220400.0,-1565963000.0,805810100.0,122800.0,52353.0,-411378900.0,626802600.0,-701908600.0,120800.0,29587.0,-632932300.0,-267589500.0,903797400.0,120200.0,67359.0,-383199900.0,-577330700.0,906731700.0,126500.0,146729.0,661977800.0,3393160000.0,-3774690000.0,123000.0,116477.0,-4784406000.0,-1469154000.0,6174531000.0,123700.0,60199.0,-1480368000.0,1673580000.0,-195908900.0,117300.0,198281.0,-6617822000.0,-2915770000.0,10530600000.0,120000.0,69141.0,-350452000.0,775830600.0,-58426800.0,121500.0,-1.069959,-0.496689,1434.9,2.621,3.0
10001,20241217_0157,2024-12-17 10:20:00,"미래에셋증권, 'S&P DJSI World Index' 13년 연속 편입",미래에셋증권 센터원 빌딩 전경. 미래에셋증권 제공\n[파이낸셜뉴스] 미래에셋증권은 ...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,미래에셋증권 센터원 빌딩 전경. 증권업이 속한 다각화된 금융서비스부문(Diversi...,증권업이 속한 다각화된 금융서비스부문(Diversified Financial Ser...,['미래에셋증권'],['금융 지원 서비스업'],"[-0.9345676898956299, 0.45324188470840454, -0....",미래에셋증권,2024-12-17,6800,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,8560.0,362455.0,154928600.0,1244836000.0,-1397030000.0,8420.0,652773.0,-832769700.0,763524800.0,72692110.0,8900.0,1102463.0,2304853000.0,-990803300.0,-1313786000.0,8670.0,494920.0,-969446100.0,-421335900.0,1387184000.0,8590.0,377859.0,-828119800.0,-29215550.0,850532500.0,8400.0,509461.0,-1562009000.0,-34815890.0,1596825000.0,8620.0,490887.0,184067200.0,419575300.0,-604783200.0,8450.0,370381.0,614676200.0,-838823000.0,222670500.0,8050.0,1194406.0,-3211277000.0,-991065700.0,5078255000.0,8100.0,530621.0,56854130.0,-1183038000.0,914915600.0,8050.0,745354.0,414777600.0,-2121361000.0,1705799000.0,8590.0,-2.211874,-2.211874,1434.9,2.621,3.0
10002,20241217_0155,2024-12-17 10:20:00,"지오릿에너지 “성노현 전 서울대 연구처장, 최웅기 전 경기도청 방송특보 등 영입”",에이프로젠이 지오릿에너지의 새로운 최고 경영진 구축에 박차를 가하고 있다.\n국내 ...,아시아경제,https://n.news.naver.com/mnews/article/277/000...,https://imgnews.pstatic.net/image/277/2024/12/...,에이프로젠이 지오릿에너지의 새로운 최고 경영진 구축에 박차를 가하고 있다. 국내 바...,"에이프로젠은 지오릿에너지의 사외이사에 전 서울대 연구처장, CDO(Chief Dev...",['에이프로젠'],['기타 금속 가공제품 제조업'],"[-0.44709447026252747, -0.5895819067955017, -0...",에이프로젠,2024-12-17,7460,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,1122.0,3203289.0,-616412000.0,63485120.0,803749600.0,846.0,4127133.0,92515310.0,-45278820.0,-516461000.0,937.0,5313475.0,658575300.0,23409410.0,-341259100.0,857.0,8373312.0,-1253489000.0,-886583200.0,1353582000.0,880.0,4428228.0,312997700.0,-572759200.0,-449270500.0,848.0,3620354.0,5812947.0,-693816200.0,707249300.0,842.0,3260441.0,368826900.0,-273997500.0,-93597560.0,816.0,2008868.0,-248635900.0,-85800940.0,367221800.0,800.0,3159755.0,26504600.0,-21627880.0,20300340.0,774.0,1591361.0,110749500.0,-17086250.0,-93679220.0,811.0,1982183.0,248244000.0,20949630.0,-269551700.0,880.0,-3.636364,-3.636364,1434.9,2.621,3.0
10003,20241217_0152,2024-12-17 10:21:00,"지오릿에너지 ""성노현 전 서울대 연구처장·최웅기 전 경기도청 방송특보 등 영입""",지오릿에너지 제공\n[파이낸셜뉴스] 지오릿에너지가 새로운 최고 경영진 구축에 박차를...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,지오릿에너지 제공 지오릿에너지가 새로운 최고 경영진 구축에 박차를 가하고 있다. ...,국내 바이오시밀러 기업 에이프로젠은 인수 예정인 지오릿에너지가 사외이사에 전 서울대...,['에이프로젠'],['기타 금속 가공제품 제조업'],"[-0.39060381054878235, -0.7235406041145325, -0...",에이프로젠,2024-12-17,7460,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,1122.0,3203289.0,-616412000.0,63485120.0,803749600.0,846.0,4127133.0,92515310.0,-45278820.0,-516461000.0,937.0,5313475.0,658575300.0,23409410.0,-341259100.0,857.0,8373312.0,-1253489000.0,-886583200.0,1353582000.0,880.0,4428228.0,312997700.0,-572759200.0,-449270500.0,848.0,3620354.0,5812947.0,-693816200.0,707249300.0,842.0,3260441.0,368826900.0,-273997500.0,-93597560.0,816.0,2008868.0,-248635900.0,-85800940.0,367221800.0,800.0,3159755.0,26504600.0,-21627880.0,20300340.0,774.0,1591361.0,110749500.0,-17086250.0,-93679220.0,811.0,1982183.0,248244000.0,20949630.0,-269551700.0,880.0,-3.636364,-3.636364,1434.9,2.621,3.0
10004,20241217_0143,2024-12-17 10:25:00,"'해외주식 붐' 타고...삼성증권, 해외주식 자산 30조원 돌파",삼성증권 제공\n[파이낸셜뉴스] 삼성증권은 지난 6일 기준으로 해외 주식 자산 규모...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,"삼성증권 관계자는 ""삼성증권의 해외 주식 투자 정보를 담은 유튜브 콘텐츠와 글로벌 ...","삼성증권 관계자는 ""삼성증권의 해외 주식 투자 정보를 담은 유튜브 콘텐츠와 글로벌 ...",['삼성증권'],['금융 지원 서비스업'],"[-0.717741072177887, -0.8614124059677124, -0.1...",삼성증권,2024-12-17,16360,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,46850.0,252061.0,2655221000.0,3651039000.0,-6355036000.0,47350.0,369679.0,328719800.0,985509400.0,-1334724000.0,47100.0,515823.0,1976597000.0,-527358000.0,-1413917000.0,47100.0,172133.0,-1507127000.0,1014430000.0,611963200.0,46800.0,162400.0,-1628370000.0,1150922000.0,510908200.0,46550.0,415085.0,-1886998000.0,-1463375000.0,3072274000.0,48200.0,489821.0,2304822000.0,-1586701000.0,-703895400.0,47750.0,223318.0,-1007189000.0,1021780000.0,128678300.0,47300.0,306931.0,-3350745000.0,1969664000.0,1390058000.0,44100.0,1100324.0,-6651572000.0,-9737278000.0,17989520000.0,44200.0,476371.0,-3926524000.0,-43569950.0,3732011000.0,47200.0,-1.377119,-0.534188,1434.9,2.621,3.0
10005,20241217_0016,2024-12-17 18:20:00,"AI사업 확대 기대감… ""주주환원율 60% 목표"" 주가 회복세 [포춘클럽 라운지]",LG유플러스\n부채비율 130%→100%로 낮춰\n자사주 1000억 규모 소각 검토...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,LG유플러스 부채비율 130%→100%로 낮춰 자사주 1000억 규모 소각 검토 당...,LG유플러스가 주주환원율 목표 달성을 위해 지난해 기준 130%를 기록하고 있는 부...,['LG유플러스'],['전기 통신업'],"[-0.5252525806427002, -0.3898407220840454, 0.0...",LG유플러스,2024-12-17,32640,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,11900.0,3400426.0,2142074000.0,10781140000.0,-12142790000.0,11190.0,1581122.0,2617977000.0,-136009500.0,-1934789000.0,10890.0,2076321.0,-1050255000.0,-676341900.0,1760518000.0,10950.0,1017264.0,-2743436000.0,1370390000.0,1336433000.0,11250.0,1434963.0,-3920043000.0,6697910000.0,-2772808000.0,10960.0,1935339.0,-358011200.0,-2791067000.0,3008063000.0,10970.0,894413.0,-798008000.0,-689616600.0,1607954000.0,10930.0,846964.0,348463200.0,1133615000.0,-1442283000.0,10890.0,1371922.0,179558700.0,-1569642000.0,1483129000.0,10670.0,772151.0,1748445000.0,39459950.0,-1789315000.0,10490.0,737549.0,1118660000.0,-2065239000.0,904670900.0,11290.0,-2.922941,-2.577778,1434.9,2.621,3.0
10006,20241217_0105,2024-12-17 13:14:00,"네온테크, LIG넥스원 美드론 최대 업체와 맞손..국방 드론 개발 공급계약 부각↑ ...",네온테크 제공\n[파이낸셜뉴스] 네온테크가 장중 강세다. LIG넥스원이 미국 최대 ...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,LIG넥스원이 미국 최대 드론 기업과 협력해 인도-태평양 지역을 중심으로 군용 드론...,LIG넥스원이 미국 최대 드론 기업과 협력해 인도-태평양 지역을 중심으로 군용 드론...,['LIG넥스원'],['무기 및 총포탄 제조업'],"[-0.4407552182674408, 0.23657312989234924, 0.5...",LIG넥스원,2024-12-17,79550,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,200000.0,199503.0,938671500.0,-4975400000.0,3743590000.0,188900.0,308293.0,9993446000.0,-389231900.0,-9533772000.0,197100.0,287869.0,-5014150000.0,9332220000.0,-4842742000.0,198000.0,123020.0,-5291930000.0,3663473000.0,1704105000.0,194500.0,164302.0,-4001823000.0,-2221122000.0,6205485000.0,206500.0,470874.0,-8424082000.0,6300315000.0,1901680000.0,196600.0,916799.0,117570800000.0,-2503573000.0,9245647000.0,203500.0,230453.0,1514492000.0,5597278000.0,-7272055000.0,202500.0,122939.0,-5851096000.0,5947653000.0,175698100.0,206500.0,117027.0,3191154000.0,-771246500.0,-1835348000.0,235000.0,468463.0,15182140000.0,-6663903000.0,-7904672000.0,193700.0,6.608157,6.169666,1434.9,2.621,3.0
10007,20241217_0203,2024-12-17 09:11:00,"삼양식품, 싱가포르 법인·중국 공장 설립으로 시장확장-교보",서울시내 대형마트에 진열된 삼양식품의 불닭볶음면. /사진=뉴스1\n교보증권은 삼양식...,머니투데이,https://n.news.naver.com/mnews/article/008/000...,https://imgnews.pstatic.net/image/008/2024/12/...,서울시내 대형마트에 진열된 삼양식품의 불닭볶음면. = 중국 신규 공장은 2027년 ...,삼양식품은 2027년 1분기 가동을 목표로 하는 중국 신규 공장의 CAPA 규모는 ...,['삼양식품'],['기타 식품 제조업'],"[-0.07804939150810242, -0.3410479426383972, -0...",삼양식품,2024-12-17,3230,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,519000.0,40879.0,-402696000.0,3172622000.0,-2562439000.0,606000.0,79405.0,-1709394000.0,2575283000.0,-1047955000.0,681000.0,77121.0,9747567000.0,-7251184000.0,-2519641000.0,687000.0,67570.0,6486830000.0,-2307781000.0,-3716891000.0,729000.0,128425.0,2368182000.0,5115626000.0,-7983259000.0,736000.0,140722.0,-6737493000.0,4265930000.0,3167960000.0,707000.0,119314.0,533590000.0,6415155000.0,-7312914000.0,750000.0,199702.0,5330834000.0,1229093000.0,-6750501000.0,748000.0,105274.0,-1072061000.0,-1215126000.0,5379790000.0,759000.0,94984.0,-1228753000.0,-11553060000.0,12495330000.0,740000.0,129070.0,23598890000.0,-8284737000.0,-14614130000.0,734000.0,0.27248,0.960219,1434.9,2.621,3.0
10008,20241217_0067,2024-12-17 15:10:00,"돌격 개미들 ""오늘은 우원식·한동훈株로""…널뛰는 정치 테마주","[특징주]우원식·한동훈 테마주 강세, 이재명 테마주 하락세\n우원식 국회의장이 지난...",머니투데이,https://n.news.naver.com/mnews/article/008/000...,https://imgnews.pstatic.net/image/008/2024/12/...,"이날 뱅크웨어글로벌, 효성오앤비, 코오롱모빌리티그룹은 오전 중 나란히 상한가에 진입...",우 의장이 비상계엄 해제와 윤석열 대통령 탄핵안 가결 과정에서 주목받으며 국민의 신...,['코오롱모빌리티그룹'],['자동차 판매업'],"[-0.8255845308303833, -0.8125917911529541, -0....",코오롱모빌리티그룹,2024-12-17,450140,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,2000.0,345643.0,-140807800.0,1291915.0,157605900.0,1955.0,140965.0,23259510.0,-45598150.0,22338640.0,1930.0,35106.0,1531183.0,774694.0,-2305877.0,1944.0,28858.0,1906206.0,-7477762.0,2660556.0,2525.0,5122001.0,-192889000.0,-129705.0,189836500.0,2725.0,20750749.0,-76629580.0,1333495.0,60706810.0,3540.0,15255382.0,-15048400.0,-74515.0,-332955000.0,3545.0,23859072.0,-17469820.0,231756300.0,220099600.0,2740.0,7904754.0,14158870.0,-122754900.0,18177680.0,2525.0,6447361.0,-67280350.0,148750.0,65354340.0,2310.0,416565.0,27643640.0,213035.0,-28092040.0,2900.0,-6.034483,7.920792,1434.9,2.621,3.0
10009,20241217_0065,2024-12-17 15:37:00,"LG유플러스, 밸류업에 AI 순항..주가 회복 속도 [포춘클럽 라운지]",원본보기\nLG유플러스 제\n원본보기\n[파이낸셜뉴스] LG유플러스 주가가 기업가치...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/12/...,원본보기 LG유플러스 제 원본보기 LG유플러스 주가가 기업가치 제고계획 이행과 인...,LG유플러 주가가 기업가치 제고계획 이행과 인공지능(AI) 사업 확대 기대감에 회복...,['LG유플러스'],['전기 통신업'],"[-0.42433667182922363, -0.9765597581863403, 0....",LG유플러스,2024-12-17,32640,2024-11-27,2024-12-06,2024-12-12,2024-12-13,2024-12-16,2024-12-17,2024-12-18,2024-12-19,2024-12-20,2024-12-27,2025-01-09,11900.0,3400426.0,2142074000.0,10781140000.0,-12142790000.0,11190.0,1581122.0,2617977000.0,-136009500.0,-1934789000.0,10890.0,2076321.0,-1050255000.0,-676341900.0,1760518000.0,10950.0,1017264.0,-2743436000.0,1370390000.0,1336433000.0,11250.0,1434963.0,-3920043000.0,6697910000.0,-2772808000.0,10960.0,1935339.0,-358011200.0,-2791067000.0,3008063000.0,10970.0,894413.0,-798008000.0,-689616600.0,1607954000.0,10930.0,846964.0,348463200.0,1133615000.0,-1442283000.0,10890.0,1371922.0,179558700.0,-1569642000.0,1483129000.0,10670.0,772151.0,1748445000.0,39459950.0,-1789315000.0,10490.0,737549.0,1118660000.0,-2065239000.0,904670900.0,11290.0,-2.922941,-2.577778,1434.9,2.621,3.0


In [77]:
final_df.info()
print("==========================================================")
news_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14087 entries, 0 to 14086
Data columns (total 87 columns):
 #   Column                       Non-Null Count  Dtype         
---  ------                       --------------  -----         
 0   news_id                      14087 non-null  object        
 1   wdate                        14087 non-null  datetime64[ns]
 2   title                        14087 non-null  object        
 3   article                      14087 non-null  object        
 4   press                        14087 non-null  object        
 5   url                          14087 non-null  object        
 6   image                        14087 non-null  object        
 7   article_preprocessed         14087 non-null  object        
 8   summary                      14087 non-null  object        
 9   stock_list                   14087 non-null  object        
 10  industry_list                14087 non-null  object        
 11  summary_embedding            14087 non-nu

In [50]:
newsMarketPipeline = NewsMarketPipeline(
    news_path='/Users/JooAnLee/final_project/db/news_2023_2025_summarized.csv',
    api_key="BFKGNG1KJWZR9DVAIN6K",
    rate_path="/Users/JooAnLee/final_project/db/korea_base_rate_daily.csv"
)

[초기화] 파이프라인 객체 생성


In [51]:
newsMarketPipeline.load_news_df()

[로드] 뉴스 데이터: /Users/JooAnLee/final_project/db/news_2023_2025_summarized.csv
[로드] 컬럼: ['news_id', 'wdate', 'title', 'article', 'press', 'url', 'image', 'article_preprocessed', 'summary', 'stock_list', 'industry_list', 'summary_embedding']
[로드] 데이터 수: 14087


In [52]:
newsMarketPipeline.extract_stock_name()

[전처리] 종목명 추출
[전처리] stock_name 컬럼 생성 완료


In [53]:
newsMarketPipeline.add_news_date()

[전처리] news_date 컬럼 생성
[전처리] news_date 컬럼 생성 완료


In [54]:
newsMarketPipeline.get_ticker_name_map()

[파생] KOSPI 티커-이름 맵핑 생성
[파생] 티커-이름 맵핑 완료: 961개


{'AJ네트웍스': '095570',
 'AK홀딩스': '006840',
 'BGF': '027410',
 'BGF리테일': '282330',
 'BNK금융지주': '138930',
 'BYC': '001460',
 'BYC우': '001465',
 'CJ': '001040',
 'CJ CGV': '079160',
 'CJ4우(전환)': '00104K',
 'CJ대한통운': '000120',
 'CJ씨푸드': '011150',
 'CJ씨푸드1우': '011155',
 'CJ우': '001045',
 'CJ제일제당': '097950',
 'CJ제일제당 우': '097955',
 'CR홀딩스': '000480',
 'CS홀딩스': '000590',
 'DB': '012030',
 'DB증권': '016610',
 'DB손해보험': '005830',
 'DB하이텍': '000990',
 'iM금융지주': '139130',
 'DI동일': '001530',
 'DL': '000210',
 'DL우': '000215',
 'DL이앤씨': '375500',
 'DL이앤씨2우(전환)': '37550L',
 'DL이앤씨우': '37550K',
 'DN오토모티브': '007340',
 'DRB동일': '004840',
 'DSR': '155660',
 'DSR제강': '069730',
 'DS단석': '017860',
 'E1': '017940',
 'ESR켄달스퀘어리츠': '365550',
 'F&F': '383220',
 'F&F홀딩스': '007700',
 'GKL': '114090',
 'GS': '078930',
 'GS건설': '006360',
 'GS글로벌': '001250',
 'GS리테일': '007070',
 'GS우': '078935',
 'GS피앤엘': '499790',
 'HDC': '012630',
 'HDC랩스': '039570',
 'HDC현대EP': '089470',
 'HDC현대산업개발': '294870',
 'HD한국조선해양': '009540

In [55]:
newsMarketPipeline.add_ticker()

[파생] ticker 컬럼 생성
[파생] KOSPI 티커-이름 맵핑 생성
[파생] 티커-이름 맵핑 완료: 961개
[파생] ticker 컬럼 생성 완료


In [56]:
newsMarketPipeline.get_trading_days()

[파생] 거래일 리스트 생성


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2025-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2025-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-01: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-02: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-03: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-04: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-05: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-06: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
[파생] 거래일 리스트 생성 완료


DatetimeIndex(['2022-01-03', '2022-01-04', '2022-01-05', '2022-01-06',
               '2022-01-07', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14',
               ...
               '2025-05-23', '2025-05-26', '2025-05-27', '2025-05-28',
               '2025-05-29', '2025-05-30', '2025-06-02', '2025-06-04',
               '2025-06-05', '2025-06-09'],
              dtype='datetime64[ns]', length=838, freq=None)

In [58]:
newsMarketPipeline.add_trading_dates()

[파생] 거래일 기준 컬럼 생성
[파생] 거래일 리스트 생성


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2025-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2025-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2025-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-01: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-02: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-03: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-04: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-05: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-06: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-07: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-08: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-09: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')


  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)
  days_this_month = stock.get_business_days(y, m)


2026-10: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-11: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
2026-12: 거래일 없음 또는 에러 ('RangeIndex' object has no attribute 'month')
[파생] 거래일 리스트 생성 완료


  days_this_month = stock.get_business_days(y, m)


[파생] 거래일 기준 컬럼 생성 완료


In [59]:
newsMarketPipeline.fetch_ohlcv_and_trading()

[수집] OHLCV/투자자별 순매수 데이터 수집
[수집] OHLCV/투자자별 순매수 데이터 수집 완료


In [60]:
newsMarketPipeline.add_ohlcv_and_trading()

[파생] OHLCV/투자자별 순매수 컬럼 생성
[파생] OHLCV/투자자별 순매수 컬럼 생성 완료


In [61]:
newsMarketPipeline.add_external_vars()

[병합] 외부 변수(환율, 국채, 기준금리) 병합
[수집] 환율 데이터
[수집] 환율 데이터 수집 완료
[수집] 국채10년 데이터
[수집] 국채10년 데이터 수집 완료
[수집] 기준금리 데이터
[수집] 기준금리 데이터 수집 완료
[병합] 외부 변수 병합 완료


In [63]:
newsMarketPipeline.get_df().head()

Unnamed: 0,news_id,wdate,title,article,press,url,image,article_preprocessed,summary,stock_list,...,D_plus_14_date_volume,D_plus_14_date_foreign,D_plus_14_date_institution,D_plus_14_date_individual,D_day_date_open,D-day_change_open,D-day_change,fx,bond10y,base_rate
0,20240101_0049,2024-01-01 06:03:00,태영건설 파장 속 PF-ABCP '거래 부진'…차환 우려 고개,"PF 구조조정에 건설업 기피심리↑…""익숙한 악재라 파장 적을 것"" 관측도\n워크아웃...",연합뉴스,https://n.news.naver.com/mnews/article/001/001...,https://imgnews.pstatic.net/image/001/2024/01/...,시공능력 순위 16위의 중견기업인 태영건설이 워크아웃을 신청하면서 부동산 PF 부실...,시공능력 순위 16위의 중견기업인 태영건설이 워크아웃을 신청하면서 부동산 PF 부실...,['태영건설'],...,632513.0,241109700.0,2445.0,-241336600.0,4638.0,14.920224,13.163482,,,3.5
1,20240101_0001,2024-01-01 18:30:00,통합 셀트리온 12일 상장… 잭팟 터지나,합병 전 외국인·기관 동반 매수\n올해 영업익 1조5130억 전망\n최근 증시 상승...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/01/...,새해 출범하는 '통합 셀트리온'에 대한 기대감이 커지는 것으로 풀이된다. 외국인과 ...,외국인과 기관이 지난해 12월 삼성전자 주식을 1조4267억원어치 사들이며 전체 주...,['삼성전자'],...,19673375.0,137244400000.0,-12373860000.0,-130368300000.0,78200.0,1.790281,1.401274,,,3.5
2,20240101_0032,2024-01-01 11:21:00,"외인·기관 홀린 '합병 셀트리온', 새해 잭팟 터트리나","[파이낸셜뉴스] 최근 증시 상승을 이끈 외국인, 기관 투자자들이 셀트리온그룹주를 순...",파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://imgnews.pstatic.net/image/014/2024/01/...,새해 출범하는 '합병 셀트리온'에 대한 기대감이 커지는 것으로 풀이된다. 외국인과 ...,외국인과 기관이 지난해 12월 삼성전자 주식을 1조4267억원어치 사들이며 전체 주...,"['삼성전자', '셀트리온']",...,1153019.0,-23324840000.0,30744800000.0,-7904098000.0,187209.0,13.760022,14.888601,,,3.5
3,20240101_0017,2024-01-01 17:45:00,"김·김치·라면 '수출 대박'…""올핸 떡볶이·핫도그가 대열 합류""",■'차세대 한류' 노리는 식품업계\n라면·김 작년 수출액 1조원 돌파\n역대급 실적...,서울경제,https://n.news.naver.com/mnews/article/011/000...,https://imgnews.pstatic.net/image/011/2024/01/...,■'차세대 한류' 노리는 식품업계 라면·김 작년 수출액 1조원 돌파 역대급 실적에 ...,"CJ 제일001040) 제일제당은 유럽, 호주 등에서 영토를 넓힘과 동시에 오카도,...",['농심'],...,15579.0,1764586000.0,-1128099000.0,-618122500.0,407000.0,1.351351,1.351351,,,3.5
4,20240101_0011,2024-01-01 18:15:00,"""빅딜 절호의 기회"" 새해부터 분주한 K제약바이오",'JP모건 헬스케어 컨퍼런스'\n삼바·셀트리온 등 대거 참여\n기술력 알리고 협력기...,파이낸셜뉴스,https://n.news.naver.com/mnews/article/014/000...,https://ssl.pstatic.net/static.news/image/news...,'JP모건 헬스케어 컨퍼런스' 삼바·셀트리온 등 대거 참여 기술력 알리고 협력기회 ...,오는 8일부터 미국 샌프란시스코에서 열리는 'JP모건 헬스케어 컨퍼런스'에 참여하는...,"['한미약품', '유한양행']",...,253583.0,3324466000.0,-4505191000.0,1293182000.0,68800.0,-1.453488,-1.453488,,,3.5
