# 26차시: [실습] 금융 뉴스 감성 분석 (Sentiment Analysis)

## 학습 목표
- 금융 뉴스 텍스트의 감성(긍정/부정) 분석
- 25차시에서 배운 임베딩 기법을 활용한 감성 분석 실습
- 뉴스 감성과 시장 심리 파악

## 학습 내용
1. 감성 분석이란?
2. 금융 뉴스 수집 (모듈 2 연계)
3. 임베딩 기반 감성 분석 (25차시 NLP 기법 활용)
4. 감성 점수 계산
5. 시각화 및 해석

In [1]:
!pip install -Uq koreanize-matplotlib langchain-huggingface

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.9/7.9 MB[0m [31m37.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import koreanize_matplotlib
from datetime import datetime
from IPython.display import display
import re
import requests
from bs4 import BeautifulSoup
from langchain_huggingface import HuggingFaceEmbeddings
from sklearn.metrics.pairwise import cosine_similarity

---
## 1. 감성 분석이란?

### 정의
**감성 분석(Sentiment Analysis)**: 텍스트에서 긍정/부정/중립의 감정을 파악하는 기술

### 금융에서의 활용
| 활용 | 설명 |
|------|------|
| 시장 심리 파악 | 뉴스/SNS의 전반적 분위기 측정 |
| 투자 의사결정 | 부정적 뉴스 증가 시 리스크 관리 |
| 이벤트 분석 | 특정 사건에 대한 반응 분석 |

### 감성 분석 방법
1. **사전 기반**: 미리 정의된 긍정/부정 단어 사전 사용
2. **임베딩 기반**: 텍스트를 벡터로 변환하여 의미적 유사도 계산 (25차시)
3. **머신러닝 기반**: 레이블된 데이터로 모델 학습

---
## 2. 금융 뉴스 수집 (모듈 2 연계)

In [3]:
# 모듈 2에서 배운 크롤링 함수 (15차시)
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

def get_soup(url):
    """URL에서 BeautifulSoup 객체 반환"""
    response = requests.get(url, headers=HEADERS, timeout=10)
    response.raise_for_status()
    return BeautifulSoup(response.text, 'html.parser')

def crawl_financial_news(limit=20):
    """네이버 금융 주요 뉴스 크롤링"""
    url = "https://finance.naver.com/news/mainnews.naver"
    soup = get_soup(url)
    now = datetime.now().strftime('%Y-%m-%d %H:%M:%S')

    news_data = []
    news_items = soup.select('ul.newsList li')[:limit]

    for item in news_items:
        title_tag = item.select_one('dd.articleSubject a')
        summary_tag = item.select_one('dd.articleSummary')

        if title_tag:
            title = title_tag.get_text(strip=True)
            link = 'https://finance.naver.com' + title_tag.get('href', '')

            summary = ''
            if summary_tag:
                summary = summary_tag.get_text(strip=True)

            news_data.append({
                '제목': title,
                '요약': summary[:100] if summary else '',
                '링크': link,
                '수집시각': now
            })

    return pd.DataFrame(news_data)

In [4]:
# 뉴스 수집
print("[금융 뉴스 크롤링]")
print("=" * 60)

df_news = crawl_financial_news(limit=20)
print(f"수집된 뉴스: {len(df_news)}건")
display(df_news[['제목']].head(10))

[금융 뉴스 크롤링]
수집된 뉴스: 20건


Unnamed: 0,제목
0,"""고밸류 부담 사라졌다""…방산주 이유있는 반등"
1,증시 랠리에 밸류 개선…저PBR 기업 30% 줄었다
2,고배율 ETF 베팅한 개미…레버리지 팔고 인버스 사고
3,5천피 앞당길 3종 세트 띄운다…장기투자 稅혜택도 크게 늘려
4,국장복귀 정책이 무색하게…새해 서학개미 최고 픽은 '테슬라'
5,"한화, 상폐된 한화우 소액주주 지분 장외매수하기로"
6,"""코스피 조정 언제 오나요"" … 파킹형ETF에 1조 뭉칫돈"
7,"""분리과세 수혜 톱픽 종목은 우리금융·삼성화재·삼성證"""
8,삼성 핵심 계열사에 투자…올들어 수익률 7.48%[ETF줌인]
9,"""○○업종으로 피신""…외국인·기관 러브콜 받은 종목보니"


---
## 3. 임베딩 기반 감성 분석 (25차시 NLP 기법 활용)

### 임베딩을 활용한 감성 분석
25차시에서 배운 임베딩을 사용하여 텍스트의 의미를 벡터로 변환하고,
긍정/부정 기준 문장과의 유사도를 계산하여 감성을 판단합니다.

In [5]:
# 임베딩 모델 로드
embeddings = HuggingFaceEmbeddings(model_name="nlpai-lab/KURE-v1")

print("- 한국어 특화 임베딩 모델 (KURE-v1)")
print("- 텍스트를 의미 벡터로 변환하여 감성 분석")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/220 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/807 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/297 [00:00<?, ?B/s]

- 한국어 특화 임베딩 모델 (KURE-v1)
- 텍스트를 의미 벡터로 변환하여 감성 분석


In [6]:
# 임베딩 기반 감성 분석
def analyze_sentiment_embedding(text, embeddings_model):
    """
    임베딩 기반: 의미적으로 유사한 문장과 비교

    Returns:
        dict: score, label
    """
    # 긍정/부정 기준 문장
    positive_ref = "주가 상승 실적 호조 전망 낙관"
    negative_ref = "주가 하락 실적 부진 전망 비관"

    # 텍스트와 기준 문장을 벡터로 변환
    text_vec = embeddings_model.embed_query(text)
    pos_vec = embeddings_model.embed_query(positive_ref)
    neg_vec = embeddings_model.embed_query(negative_ref)

    # 유사도 계산
    pos_sim = cosine_similarity([text_vec], [pos_vec])[0][0]
    neg_sim = cosine_similarity([text_vec], [neg_vec])[0][0]

    # 점수 계산 (-1 ~ 1)
    score = pos_sim - neg_sim

    # 레이블 결정
    if score > 0.1:
        label = '긍정'
    elif score < -0.1:
        label = '부정'
    else:
        label = '중립'

    return {
        'score': score,
        'label': label,
        'pos_similarity': pos_sim,
        'neg_similarity': neg_sim
    }

# 테스트
test_texts = [
    "삼성전자 3분기 영업이익 급등, 사상최고 실적 기대",
    "코스피 하락세 지속, 외국인 순매도 확대에 우려",
    "현대차 신차 출시, 시장 반응 주목"
]

print("[감성 분석 테스트]")
print("=" * 60)
for text in test_texts:
    result = analyze_sentiment_embedding(text, embeddings)
    print(f"\n텍스트: {text}")
    print(f"  → 점수: {result['score']:.2f}, 레이블: {result['label']}")
    print(f"  → 긍정 유사도: {result['pos_similarity']:.2f}, 부정 유사도: {result['neg_similarity']:.2f}")

[감성 분석 테스트]

텍스트: 삼성전자 3분기 영업이익 급등, 사상최고 실적 기대
  → 점수: 0.12, 레이블: 긍정
  → 긍정 유사도: 0.58, 부정 유사도: 0.46

텍스트: 코스피 하락세 지속, 외국인 순매도 확대에 우려
  → 점수: -0.19, 레이블: 부정
  → 긍정 유사도: 0.38, 부정 유사도: 0.57

텍스트: 현대차 신차 출시, 시장 반응 주목
  → 점수: 0.05, 레이블: 중립
  → 긍정 유사도: 0.46, 부정 유사도: 0.40


---
## 4. 뉴스 감성 점수 계산

In [12]:
# 전체 뉴스에 감성 분석 적용
def analyze_news_sentiment(df, embeddings_model):
    """뉴스 DataFrame에 감성 분석 결과 추가 (임베딩 기반)"""
    results = []

    for _, row in df.iterrows():
        # 제목 + 요약 합쳐서 분석
        text = row['제목'] + ' ' + str(row.get('요약', ''))

        # 임베딩 기반 감성 분석
        result = analyze_sentiment_embedding(text, embeddings_model)

        results.append(result)

    # 결과를 DataFrame에 추가
    df_result = df.copy()
    df_result['감성점수'] = [r['score'] for r in results]
    df_result['감성레이블'] = [r['label'] for r in results]
    df_result['긍정유사도'] = [r['pos_similarity'] for r in results]
    df_result['부정유사도'] = [r['neg_similarity'] for r in results]

    return df_result

# 감성 분석 적용
df_sentiment = analyze_news_sentiment(df_news, embeddings)

df_sentiment[['제목', '감성점수', '감성레이블', '긍정유사도', '부정유사도']]

Unnamed: 0,제목,감성점수,감성레이블,긍정유사도,부정유사도
0,"""고밸류 부담 사라졌다""…방산주 이유있는 반등",0.138444,긍정,0.434473,0.296029
1,증시 랠리에 밸류 개선…저PBR 기업 30% 줄었다,0.003547,중립,0.3902,0.386653
2,고배율 ETF 베팅한 개미…레버리지 팔고 인버스 사고,0.057528,중립,0.423485,0.365957
3,5천피 앞당길 3종 세트 띄운다…장기투자 稅혜택도 크게 늘려,0.056259,중립,0.419841,0.363582
4,국장복귀 정책이 무색하게…새해 서학개미 최고 픽은 '테슬라',0.014227,중립,0.412213,0.397987
5,"한화, 상폐된 한화우 소액주주 지분 장외매수하기로",-0.011209,중립,0.381623,0.392832
6,"""코스피 조정 언제 오나요"" … 파킹형ETF에 1조 뭉칫돈",0.082881,중립,0.407189,0.324308
7,"""분리과세 수혜 톱픽 종목은 우리금융·삼성화재·삼성證""",0.058251,중립,0.394322,0.336071
8,삼성 핵심 계열사에 투자…올들어 수익률 7.48%[ETF줌인],0.100874,긍정,0.495156,0.394282
9,"""○○업종으로 피신""…외국인·기관 러브콜 받은 종목보니",0.061059,중립,0.474228,0.413169


In [8]:
# 감성 분포 통계
print("[감성 분포 통계]")
print("=" * 60)

sentiment_counts = df_sentiment['감성레이블'].value_counts()
print(sentiment_counts)

avg_score = df_sentiment['감성점수'].mean()
print(f"\n평균 감성 점수: {avg_score:.3f}")

if avg_score > 0.05:
    market_sentiment = "긍정적 (낙관적)"
elif avg_score < -0.05:
    market_sentiment = "부정적 (비관적)"
else:
    market_sentiment = "중립적"

print(f"시장 심리: {market_sentiment}")

[감성 분포 통계]
감성레이블
중립    17
긍정     3
Name: count, dtype: int64

평균 감성 점수: 0.046
시장 심리: 중립적


---
## 학습 정리

### 1. 감성 분석 파이프라인
```
뉴스 수집 → 텍스트 추출 → 임베딩 벡터 변환 → 유사도 계산 → 점수 계산 → 해석
```

### 2. 임베딩 기반 분석의 장단점
| 장점 | 한계 |
|------|------|
| 문맥 이해 가능 | 계산 비용 높음 |
| 의미적 유사도 측정 | 기준 문장 선택 중요 |
| 사전 구축 불필요 | 모델 로딩 시간 필요 |

---

### 다음 차시 예고
- 27차시: 생성형 AI / LLM을 활용한 투자 리서치
  - ChatGPT, Gemini 소개
  - LLM의 금융 분야 활용
  - 프롬프트 엔지니어링 기초