In [1]:
# 웹 페이지 요청 및 HTML 파싱을 위한 라이브러리
import requests  # 웹 페이지를 요청하고 HTML 콘텐츠를 가져오기 위해 사용
from bs4 import BeautifulSoup  # HTML 콘텐츠를 파싱하고 원하는 데이터를 추출하기 위해 사용

# 뉴스 기사를 처리하는 데 사용되는 라이브러리
from newspaper import Article  # 뉴스 기사에서 텍스트를 추출하는 데 사용되는 라이브러리

# 텍스트 데이터를 벡터화하는 라이브러리
from sklearn.feature_extraction.text import TfidfVectorizer  # 텍스트 데이터를 TF-IDF 벡터로 변환하는 데 사용

# import jpype # 현재 내 컴퓨터 파이썬 문제로 보임

Jpype 설치 방법
https://velog.io/@tasker_dev/Jpype-%EC%84%A4%EC%B9%98-%EB%B0%A9%EB%B2%95 

module konlpy 관련 오류 해결
https://godjuhyuk.tistory.com/3

In [2]:
def get_news_links(keyword, base_url="https://www.mk.co.kr/news/ranking/stock/"):
    """
    뉴스 사이트에서 주어진 키워드가 포함된 뉴스 제목과 링크를 추출하는 함수
    """
    response = requests.get(base_url)
    soup = BeautifulSoup(response.text, "html.parser")
    
    # h3 태그를 찾고, 클래스가 'news_ttl'인 요소들만 필터링
    articles = soup.find_all("h3", class_="news_ttl")  # 뉴스 제목이 포함된 선택자

    news_links = []
    if not articles:
        print("뉴스 기사가 없습니다. 페이지 구조를 확인하세요.")
    else:
        for article in articles:
            # 제목 추출
            title = article.get_text(strip=True)
            
            # 링크 추출
            link_tag = article.find_parent("a")  # <a> 태그 부모 찾기
            if link_tag and link_tag.has_attr("href"):
                href = link_tag["href"]
                # 상대 경로를 절대 경로로 변환
                if href.startswith("/"):
                    link = "https://www.mk.co.kr" + href
                else:
                    link = href
            else:
                link = "링크 없음"
            
            # 키워드가 제목에 포함된 기사만 필터링
            if keyword in title and link != "링크 없음":
                news_links.append({"title": title, "link": link})
                print(f"제목: {title}")
                print(f"링크: {link}\n")
    
    print(f"크롤링된 기사 수: {len(news_links)}개\n")
    return news_links

def fetch_article_content(url):
    """
    주어진 뉴스 기사 URL에서 제목과 본문을 추출하는 함수
    """
    article = Article(url)
    article.download()
    article.parse()
    
    return article.title, article.text

def get_news_content_by_links(news_links):
    """
    키워드를 사용하여 뉴스 링크를 추출하고, 각 링크에서 기사 내용을 가져오는 함수.
    각 기사의 제목과 내용을 배열로 처리하여 반환.
    """
    news_data = []  # 제목과 내용을 저장할 리스트
    
    for news in news_links:

        title, content = fetch_article_content(news["link"])
        print(f"제목: {title}\n")
        print(f"내용: {content}\n")
        print("=======================================================================\
================================================================================\n")
        news_data.append({"title": title, "content": content})  # 제목과 내용을 딕셔너리 형태로 리스트에 추가
    
    return news_data

In [3]:
# 키워드를 설정하고 함수 실행
keyword = "트럼프"

In [4]:
news_links = get_news_links(keyword)

제목: 트럼프 “이건 한국이 최고”...줄줄이 장중 신고가 쓴 조선·방산株 [다시 트럼프 시대]
링크: https://www.mk.co.kr/news/stock/11162648

제목: “불장 제대로 섰다”…트럼프 백악관 컴백에 천장까지 뚫은 이것
링크: https://www.mk.co.kr/news/stock/11162636

제목: ‘트럼프 승리’ 예상에 희비 엇갈린 아시아 증시…한국·중국 울고 日·대만 웃었다
링크: https://www.mk.co.kr/news/stock/11161231

제목: 트럼프 당선에 우는 IRA 관련株…매도 쏟아낸 외국인·기관
링크: https://www.mk.co.kr/news/stock/11162366

제목: 회원용트럼프發 조선주 훈풍 ··· 주식 초고수는 되려 팔았다 [주식 초고수는 지금]
링크: https://www.mk.co.kr/news/stock/11162154

제목: 트럼프 우세에 2차전지株 ‘와르르’…LG에너지솔루션 7%대↓
링크: https://www.mk.co.kr/news/stock/11160925

제목: 2차전지株, 해리스에서 트럼프로 뒤집히자…장 초반 ‘반짝’했다가 급락
링크: https://www.mk.co.kr/news/stock/11161214

제목: 트럼프 구애로 물 만난 조선株…친환경 주식은 '시들' [다시 트럼프 시대]
링크: https://www.mk.co.kr/news/stock/11162574

제목: ‘트럼프 랠리’에 나홀로 주가 떨어진 애플…미국 7대 빅테크 사장님들의 정치 감각은?
링크: https://www.mk.co.kr/news/stock/11162140

제목: “트럼프는 친기업이다”...환호한 뉴욕증시 사상 최고치 축포 [다시 트럼프 시대]
링크: https://www.mk.co.kr/news/stock/11161643

크롤링된 기사 수: 10개



In [5]:
news_content = get_news_content_by_links(news_links)

제목: 트럼프 “이건 한국이 최고”...줄줄이 장중 신고가 쓴 조선·방산株 [다시 트럼프 시대]

내용: 국내 증시 극과극 행보



한화오션 22% 뛰어올라

코스피 최고 상승률 기록

방산株 장중 신고가 행진



태양광·2차전지는 하락세

삼성SDI 3.5% 뒷걸음질

OCI홀딩스 5%가량 급락

사진 확대 7일 오후 서울 중구 하나은행 본점 딜링룸의 모니터에 이날 거래를 마친 코스피와 코스닥 지수, 원/달러 거래가가 표시돼 있다. 이날 코스피는 도널드 트럼프 전 대통령이 미국 대선에서 승리한 데 따른 무역분쟁 등의 우려를 소화하며 소폭 오른 채 마감해 전장보다 1.12 포인트(0.04%) 오른 2564.63에 장을 마쳤다. [사진 = 연합뉴스]

도널드 트럼프 전 미국 대통령의 재집권으로 글로벌 시장의 변동성이 커지는 가운데 국내 증시는 희비가 교차했다. 미국 우선주의와 친환경 정책 후퇴 등으로 대표되는 트럼프의 정책 방향에 따라 산업별 전망이 엇갈리면서 주가도 크게 영향을 받았다.

7일 한국거래소에 따르면 이날 조선·방산 등 트럼프발(發) 호재가 예상되는 종목이 이례적으로 높은 수익률을 기록했다. 특히 트럼프 당선인이 이날 윤석열 대통령과의 통화에서 조선업 협력을 언급한 영향으로 조선 종목들이 일제히 급등했다.

한화오션은 21.76% 오른 3만3850원에 거래를 마치며 코스피 종목 중 가장 높은 주가 상승률을 보였다. HD현대중공업과 삼성중공업, HD현대마린솔루션 등 다른 조선 관련주도 각각 15.13%, 9.17%, 8.11% 오르며 호조를 보였다.

사진 확대 희비 갈린 조선∙친환경株 (단위=%) *11월 7일 등락률. [자료 = 한국거래소]

트럼프 당선인은 윤 대통령과의 통화에서 “미국 조선업이 한국의 도움과 협력을 필요로 하고 있다”고 말했다. 또 “한국의 세계적인 건조 군함 능력을 잘 알고 있다”면서 “선박 수출뿐만 아니라 보수, 수리, 정비 분야도 긴밀하게 양국 협력이 필요하다고 생각해 이 분야에서 윤 대통령과 좀 더 이야기하길 원한다

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 뉴스 내용이 딕셔너리로 되어 있다면, 'content'만 추출
documents = [news['content'] for news in news_content]

# TF-IDF 벡터화, 불용어 처리하고, 2-그램(n-gram)을 사용하여 2개 단어를 묶어서 분석
vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), min_df=2)  # 불용어 제거, n-gram 1~2, 최소 빈도 2
X = vectorizer.fit_transform(documents)

# 키워드 추출
feature_names = vectorizer.get_feature_names_out()
for doc_idx, doc in enumerate(documents):
    print(f"문서 {doc_idx + 1} 키워드:")
    
    # 해당 문서의 TF-IDF 점수 배열을 가져옴
    tfidf_scores = X[doc_idx].toarray().flatten()  # .flatten()을 사용하여 1D 배열로 변환
    
    # 각 단어와 점수를 zip으로 묶고, 점수를 기준으로 내림차순 정렬
    scores = zip(feature_names, tfidf_scores)
    sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
    
    # 상위 5개 키워드 출력
    for word, score in sorted_scores[:5]:  
        print(f"{word}: {score:.4f}")  # 점수는 소수점 4자리까지 출력
    print("\n")

문서 1 키워드:
태양광: 0.1912
52주: 0.1873
조선: 0.1561
장을: 0.1366
52주 신저가를: 0.1249


문서 2 키워드:
이후: 0.4070
올랐다: 0.2585
크게: 0.2326
지난: 0.2098
이는: 0.2068


문서 3 키워드:
6일: 0.3683
전날보다: 0.2097
하락: 0.1917
경우: 0.1864
트럼프: 0.1827


문서 4 키워드:
외국인: 0.3151
전기차: 0.3151
관련: 0.3064
순매도: 0.2363
각각: 0.2259


문서 5 키워드:
주식: 0.3336
오후: 0.2918
가장 많이: 0.2224
많이: 0.2224
상위: 0.2224


문서 6 키워드:
미국: 0.1811
트럼프: 0.1811
트럼프 대통령이: 0.1601
가운데: 0.1453
대통령이: 0.1453


문서 7 키워드:
보조금: 0.3129
해리스: 0.2434
트럼프: 0.2236
ira: 0.2186
국내: 0.2186


문서 8 키워드:
태양광: 0.1987
52주: 0.1947
52주 신저가를: 0.1298
방산: 0.1298
신저가를: 0.1298


문서 9 키워드:
트럼프: 0.2844
ceo: 0.2766
미국: 0.2510
6일: 0.2454
주가는: 0.2151


문서 10 키워드:
대선: 0.2344
인하: 0.2260
것이라는: 0.2105
모두: 0.2105
트럼프: 0.1794




In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Okt

# 한국어 형태소 분석기 (Okt) 객체 생성
okt = Okt()

# 뉴스 내용이 딕셔너리로 되어 있다면, 'content'만 추출
documents = [news['content'] for news in news_content]

# 명사만 추출하는 함수
def extract_nouns(text):
    return ' '.join(okt.nouns(text))

# 각 문서에서 명사만 추출
documents_nouns = [extract_nouns(doc) for doc in documents]

# TF-IDF 벡터화, 불용어 처리하고, 2-그램(n-gram)을 사용하여 2개 단어를 묶어서 분석
vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), min_df=2)  # 불용어 제거, n-gram 1~2, 최소 빈도 2
X = vectorizer.fit_transform(documents_nouns)

# 키워드 추출
feature_names = vectorizer.get_feature_names_out()
for doc_idx, doc in enumerate(documents_nouns):
    print(f"문서 {doc_idx + 1} 키워드:")
    
    # 해당 문서의 TF-IDF 점수 배열을 가져옴
    tfidf_scores = X[doc_idx].toarray().flatten()  # .flatten()을 사용하여 1D 배열로 변환
    
    # 각 단어와 점수를 zip으로 묶고, 점수를 기준으로 내림차순 정렬
    scores = zip(feature_names, tfidf_scores)
    sorted_scores = sorted(scores, key=lambda x: x[1], reverse=True)
    
    # 상위 5개 키워드 출력
    for word, score in sorted_scores[:5]:  
        print(f"{word}: {score:.4f}")  # 점수는 소수점 4자리까지 출력
    print("\n")

ModuleNotFoundError: No module named 'konlpy'