In [74]:
import pandas as pd
import feedparser

# RSS URL를 통한 기사추출

In [75]:
# 각 언론사의 RSS URL 목록 생성
rss_list = [
    {"언론사": "mk뉴스", "rss_url": "https://www.mk.co.kr/rss/30000001/"},
    {"언론사": "한경", "rss_url": "https://www.hankyung.com/feed/economy"},
    {"언론사": "연합뉴스", "rss_url": "https://www.yonhapnewseconomytv.com/rss/clickTop.xml"},
    {"언론사": "jtbc", "rss_url": "https://news-ex.jtbc.co.kr/v1/get/rss/section/20"},
    {"언론사": "조선일보", "rss_url": "https://www.chosun.com/arc/outboundfeeds/rss/category/economy/?outputType=xml"},
    {"언론사": "경향신문", "rss_url": "https://www.khan.co.kr/rss/rssdata/economy_news.xml"},
    {"언론사": "아시아경제", "rss_url": "https://www.asiae.co.kr/rss/stock.htm"}
]

rss_df = pd.DataFrame(rss_list)
print(rss_df)

     언론사                                            rss_url
0   mk뉴스                 https://www.mk.co.kr/rss/30000001/
1     한경              https://www.hankyung.com/feed/economy
2   연합뉴스  https://www.yonhapnewseconomytv.com/rss/clickT...
3   jtbc   https://news-ex.jtbc.co.kr/v1/get/rss/section/20
4   조선일보  https://www.chosun.com/arc/outboundfeeds/rss/c...
5   경향신문  https://www.khan.co.kr/rss/rssdata/economy_new...
6  아시아경제              https://www.asiae.co.kr/rss/stock.htm


In [76]:
def parse_rss(url):
    feed = feedparser.parse(url)
    entries = []
    for entry in feed.entries:
        entries.append({
            "제목": entry.title,
            "링크": entry.link,
            "발행일": entry.get("published", None)
        })
    return entries

all_news = []
for idx, row in rss_df.iterrows():
    source = row["언론사"]
    url = row["rss_url"]
    news_items = parse_rss(url)
    # 각 기사에 언론사 정보 추가
    for item in news_items:
        item["언론사"] = source
    all_news.extend(news_items)

news_df = pd.DataFrame(all_news)
print(news_df.head())

                                              제목  \
0  “내 이름 요시무라, 나의 뿌리는”…일본 파친코 큰손이 한국에 25억 쾌척한 사연   
1     우크라軍 “북한군 포로, 한국 송환 가능”...韓정부, 탈북민처럼 입국 지원   
2          법사소위, 내일 상법 개정안·명태균 특검법 심사…27일 본회의 처리   
3      “극우범죄당” vs “인생이 사기”…상속세 개편 난타전 갈 데까지 간 여야   
4       눈 깜빡임으로 완성한 논문 화제…‘광주대 37세 스티븐 호킹’ 석사 학위   

                                            링크  \
0   https://www.mk.co.kr/news/society/11248094   
1  https://www.mk.co.kr/news/politics/11248091   
2  https://www.mk.co.kr/news/politics/11248090   
3  https://www.mk.co.kr/news/politics/11248088   
4   https://www.mk.co.kr/news/society/11248085   

                                발행일   언론사  
0  Sun, 23 Feb 2025 19:20:42 +09:00  mk뉴스  
1  Sun, 23 Feb 2025 19:11:10 +09:00  mk뉴스  
2  Sun, 23 Feb 2025 19:10:58 +09:00  mk뉴스  
3  Sun, 23 Feb 2025 19:08:55 +09:00  mk뉴스  
4  Sun, 23 Feb 2025 19:03:34 +09:00  mk뉴스  


# API 호출

In [77]:
import requests

def extract_keywords(title, api_key):
    prompt = f"다음 뉴스 제목에서 핵심 키워드를 100개 추출해줘. 키워드 추출후, 어떠한 말도 하지마.: {title}"
    url = f"https://generativelanguage.googleapis.com/v1beta/models/gemini-1.5-flash:generateContent?key={api_key}"
    headers = {
        "Content-Type": "application/json"
    }
    payload = {
        "contents": [
            {
                "parts": [
                    {"text": prompt}
                ]
            }
        ]
    }
    
    response = requests.post(url, headers=headers, json=payload)
    
    if response.status_code == 200:
        result = response.json()
        try:
            # 수정된 파싱: candidates -> content -> parts -> text
            keywords = result["candidates"][0]["content"]["parts"][0]["text"]
            return keywords.strip()
        except (KeyError, IndexError) as e:
            print("응답 파싱 오류:", e, result)
            return None
    else:
        print("API 호출 실패:", response.status_code, response.text)
        return None

# news_df의 첫 번째 뉴스 제목을 sample_title로 지정
sample_title = news_df["제목"]

# Gemini API 호출 함수 (위에서 정의한 extract_keywords 함수 사용)
api_key = "AIzaSyA1T8A8V9PvBo6BsUwIimkAZNc13h0cwJw"  
extracted_keywords = extract_keywords(sample_title, api_key)
print("추출된 키워드:", extracted_keywords)

추출된 키워드: 요시무라, 파친코, 일본, 한국, 25억, 쾌척, 사연, 우크라, 북한군, 포로, 한국송환, 탈북민, 입국지원, 상법개정안, 명태균, 특검법, 본회의, 극우범죄당, 인생사기, 상속세, 개편, 여야, 논문, 광주대, 스티븐호킹, 석사학위, 스마일게이트인베스트먼트, 투자, 1361억원, 금투자, SK증권, MTS, 금현물, 거래, 서비스, 개편, 제론셀베인, 대한신경외과의사회, 학술대회, 셀베인주, 강의, 금융데이터, 전문가, 키움증권, 디지털아카데미, 1기생, 모집, 삼성증권, 금융상품, 온라인, 거래이벤트, 순금, 1돈, 주인공,  내이름, 뿌리, 군, 정부, 법사소위, 심사, 난타전, 눈깜빡임, 37세, 학위, 지난해, 증권, 거래, 서비스, 학술대회, 아카데미, 이벤트,  일본인, 기부, 지원, 개정안,  여야갈등,  쾌거,  학문,  투자금,  금융,  거래서비스,  의료,  교육,  상품,  경제,  정치,  사회,  법률,  과학,  기술,  기업,  금융시장,  의학,  교육기관,  이벤트진행,  금융상품거래,  투자정보,  기업투자,  정부지원,  법률개정,  정치갈등,  학문적성과,  기술개발,  기업성장,  금융시장변화,  의료기술,  교육혁신,  상품판매,  경제성장,  정치개혁,  사회문제,  법률제정,  과학기술발전,  기업경영,  금융투자,  의료발전,  교육개혁,  상품개발,  경제활성화,  정치참여,  사회안전,  법률준수,  과학연구,  기술혁신,  기업경쟁력,  금융안정,  의료서비스,  교육환경,  상품마케팅,  경제정책,  정치현황,  사회변화,  법률시스템,  과학적발견,  기술응용,  기업성공,  금융규제,  의료기관,  교육제도,  상품경쟁력,  경제지표,  정치개혁,  사회발전,  법률개선,  과학적지식,  기술진보,  기업가치,  금융산업,  의료혜택,  교육기회,  상품선호도,  경제성장률,  정치참여율,  사회복지,  법률효과,  과학기술,  기술력,  기업규모,  금융투자상품,  의료진,  교육열

In [78]:
news_df.loc[0, '추출키워드'] = extracted_keywords
news_df

Unnamed: 0,제목,링크,발행일,언론사,추출키워드
0,"“내 이름 요시무라, 나의 뿌리는”…일본 파친코 큰손이 한국에 25억 쾌척한 사연",https://www.mk.co.kr/news/society/11248094,"Sun, 23 Feb 2025 19:20:42 +09:00",mk뉴스,"요시무라, 파친코, 일본, 한국, 25억, 쾌척, 사연, 우크라, 북한군, 포로, ..."
1,"우크라軍 “북한군 포로, 한국 송환 가능”...韓정부, 탈북민처럼 입국 지원",https://www.mk.co.kr/news/politics/11248091,"Sun, 23 Feb 2025 19:11:10 +09:00",mk뉴스,
2,"법사소위, 내일 상법 개정안·명태균 특검법 심사…27일 본회의 처리",https://www.mk.co.kr/news/politics/11248090,"Sun, 23 Feb 2025 19:10:58 +09:00",mk뉴스,
3,“극우범죄당” vs “인생이 사기”…상속세 개편 난타전 갈 데까지 간 여야,https://www.mk.co.kr/news/politics/11248088,"Sun, 23 Feb 2025 19:08:55 +09:00",mk뉴스,
4,눈 깜빡임으로 완성한 논문 화제…‘광주대 37세 스티븐 호킹’ 석사 학위,https://www.mk.co.kr/news/society/11248085,"Sun, 23 Feb 2025 19:03:34 +09:00",mk뉴스,
...,...,...,...,...,...
345,"스마일게이트인베스트먼트, 지난해 총 1361억원 투자",https://www.asiae.co.kr/article/20250220104521...,"Thu, 20 Feb 2025 10:45:21 +0900",아시아경제,
346,"金투자 늘자…SK증권, MTS 금현물 거래 서비스 개편",https://www.asiae.co.kr/article/20250220104417...,"Thu, 20 Feb 2025 10:44:43 +0900",아시아경제,
347,"제론셀베인, 대한신경외과의사회 학술대회서 ‘셀베인주’ 강의",https://www.asiae.co.kr/article/20250220103306...,"Thu, 20 Feb 2025 10:39:23 +0900",아시아경제,
348,"""금융 데이터 전문가되세요""…키움증권, ‘디지털 아카데미’ 1기생 모집",https://www.asiae.co.kr/article/20250220103134...,"Thu, 20 Feb 2025 10:38:57 +0900",아시아경제,


# TOPSIS


In [79]:
from collections import Counter

frequency_counter = Counter()

for idx, row in news_df.iterrows():
    kws = row.get("추출키워드")
    # kws가 문자열인 경우에만 처리합니다.
    if isinstance(kws, str):
        keywords = [k.strip() for k in kws.split(',')]
        for kw in keywords:
            frequency_counter[kw] += 1

print(frequency_counter)

Counter({'기술개발': 5, '경제성장': 5, '정치개혁': 5, '상품개발': 5, '의료기술': 4, '금융투자': 4, '사회발전': 4, '기업전략': 4, '교육개선': 4, '법률적용': 4, '법률자문': 3, '과학적탐구': 3, '과학적사고': 3, '개편': 2, '거래': 2, '서비스': 2, '학술대회': 2, '정치참여': 2, '기술혁신': 2, '경제협력': 2, '사회문제해결': 2, '정치개혁방안': 2, '의료기술개발': 2, '법률해석': 2, '기술도입': 2, '요시무라': 1, '파친코': 1, '일본': 1, '한국': 1, '25억': 1, '쾌척': 1, '사연': 1, '우크라': 1, '북한군': 1, '포로': 1, '한국송환': 1, '탈북민': 1, '입국지원': 1, '상법개정안': 1, '명태균': 1, '특검법': 1, '본회의': 1, '극우범죄당': 1, '인생사기': 1, '상속세': 1, '여야': 1, '논문': 1, '광주대': 1, '스티븐호킹': 1, '석사학위': 1, '스마일게이트인베스트먼트': 1, '투자': 1, '1361억원': 1, '금투자': 1, 'SK증권': 1, 'MTS': 1, '금현물': 1, '제론셀베인': 1, '대한신경외과의사회': 1, '셀베인주': 1, '강의': 1, '금융데이터': 1, '전문가': 1, '키움증권': 1, '디지털아카데미': 1, '1기생': 1, '모집': 1, '삼성증권': 1, '금융상품': 1, '온라인': 1, '거래이벤트': 1, '순금': 1, '1돈': 1, '주인공': 1, '내이름': 1, '뿌리': 1, '군': 1, '정부': 1, '법사소위': 1, '심사': 1, '난타전': 1, '눈깜빡임': 1, '37세': 1, '학위': 1, '지난해': 1, '증권': 1, '아카데미': 1, '이벤트': 1, '일본인': 1, '기부': 1, '지원': 1, '개정안': 1, '여야갈등': 1, '쾌거': 

In [80]:
import numpy as np

# 1. frequency_counter를 DataFrame으로 변환
kw_df = pd.DataFrame(list(frequency_counter.items()), columns=['keyword', 'frequency'])
print("원본 평가 데이터:")
print(kw_df)

# 2. TOPSIS 적용 (빈도수만 사용)
criteria = ['frequency']

# 2-1. 정규화: 각 열을 해당 열의 제곱합의 제곱근으로 나누기
norm_matrix = kw_df[criteria].apply(lambda x: x / np.sqrt((x**2).sum()))

# 2-2. 이상해(ideal best)와 비이상해(ideal worst) 산출 (이득 기준: 값이 클수록 좋음)
ideal_best = norm_matrix.max()   # 각 기준별 최대값
ideal_worst = norm_matrix.min()    # 각 기준별 최소값

# 2-3. 각 키워드별 이상해와의 거리 계산
d_best = np.sqrt(((norm_matrix - ideal_best) ** 2).sum(axis=1))
d_worst = np.sqrt(((norm_matrix - ideal_worst) ** 2).sum(axis=1))

# 2-4. 클로즈니스 계수 계산: d_worst / (d_best + d_worst)
# 0으로 나누는 것을 방지하기 위해 작은 epsilon 추가
epsilon = 1e-10
kw_df['closeness'] = d_worst / (d_best + d_worst + epsilon)

# 2-5. 클로즈니스 계수를 기준으로 내림차순 정렬하여 순위 산출
kw_df.sort_values(by='closeness', ascending=False, inplace=True)
kw_df.reset_index(drop=True, inplace=True)

print("\n최종 키워드 순위 (TOPSIS 결과):")
print(kw_df)

원본 평가 데이터:
    keyword  frequency
0      요시무라          1
1       파친코          1
2        일본          1
3        한국          1
4       25억          1
..      ...        ...
362    기업혁신          1
363  금융규제개혁          1
364  의료기술발전          1
365    교육열정          1
366    법률적용          4

[367 rows x 2 columns]

최종 키워드 순위 (TOPSIS 결과):
    keyword  frequency  closeness
0      기술개발          5       1.00
1      경제성장          5       1.00
2      정치개혁          5       1.00
3      상품개발          5       1.00
4      기업전략          4       0.75
..      ...        ...        ...
362    사회변화          1       0.00
363    정치현황          1       0.00
364    경제정책          1       0.00
365   상품마케팅          1       0.00
366  과학기술혁신          1       0.00

[367 rows x 3 columns]


In [81]:
import sqlite3
import pandas as pd

# SQLite 데이터베이스 연결 (테스트용 파일: test.db)
conn = sqlite3.connect('test.db')
cursor = conn.cursor()

# 테이블 생성 (이미 존재하지 않으면)
cursor.execute('''
CREATE TABLE IF NOT EXISTS keyword_ranking (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    keyword TEXT,
    frequency INTEGER,
    closeness REAL
)
''')
conn.commit()

# TOPSIS 결과가 담긴 kw_df DataFrame을 데이터베이스에 저장
for idx, row in kw_df.iterrows():
    cursor.execute('''
    INSERT INTO keyword_ranking (keyword, frequency, closeness)
    VALUES (?, ?, ?)
    ''', (row['keyword'], row['frequency'], row['closeness']))
conn.commit()

# 저장된 결과 확인
df_from_sql = pd.read_sql_query("SELECT * FROM keyword_ranking", conn)
print(df_from_sql)

conn.close()

      id keyword  frequency  closeness
0      1      매경          2        1.0
1      2      혁신          2        1.0
2      3     네카토          1        0.0
3      4     MTS          1        0.0
4      5     금현물          1        0.0
..   ...     ...        ...        ...
407  408    사회변화          1        0.0
408  409    정치현황          1        0.0
409  410    경제정책          1        0.0
410  411   상품마케팅          1        0.0
411  412  과학기술혁신          1        0.0

[412 rows x 4 columns]
