# 25차시: 자연어 처리(NLP) 기초 - 텍스트 데이터 전처리

## 학습 목표
- 자연어 처리(NLP)의 기본 개념 이해
- 텍스트 전처리 (토큰화, 정제) 방법 학습
- TF-IDF, Word2Vec 등 텍스트 표현 방법 이해

## 학습 내용
1. NLP란 무엇인가?
2. 텍스트 전처리
3. 토큰화 (Tokenization)
4. TF-IDF
5. Word2Vec 개념

In [None]:
!pip install konlpy

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display
import re
from collections import Counter

---
## 1. NLP란 무엇인가?

### 정의
**자연어 처리(Natural Language Processing, NLP)**: 컴퓨터가 인간의 언어를 이해하고 처리하는 기술

### 금융에서의 NLP 활용
| 활용 분야 | 설명 | 예시 |
|-----------|------|------|
| 감성 분석 | 텍스트의 긍/부정 판단 | 뉴스 감성 → 주가 영향 예측 |
| 정보 추출 | 핵심 정보 자동 추출 | 재무제표에서 수치 추출 |
| 텍스트 분류 | 문서 자동 분류 | 공시 유형 분류 |
| 요약 | 긴 문서 요약 | 애널리스트 리포트 요약 |

### NLP 파이프라인
```
원본 텍스트 → 전처리 → 토큰화 → 벡터화 → 모델 학습/예측
```

---
## 2. 텍스트 전처리

### 왜 전처리가 필요한가?
- 텍스트는 노이즈가 많음 (특수문자, 불용어 등)
- 같은 의미의 다른 표현 통일 필요
- 모델 성능 향상

In [None]:
# 예시 금융 뉴스 텍스트
sample_texts = [
    "삼성전자, 3분기 실적 발표... 영업이익 10조원 돌파!!!",
    "코스피 상승세 지속, 외국인 순매수 2000억원",
    "미국 연준(Fed), 금리 0.25%p 인상 결정",
    "[속보] SK하이닉스 반도체 수출 호조... 주가 5% 급등",
    "원/달러 환율 1350원 돌파, 경제 불확실성 확대"
]

print("[원본 텍스트]")
print("=" * 60)
for i, text in enumerate(sample_texts, 1):
    print(f"{i}. {text}")

In [None]:
# 텍스트 정제 함수
def clean_text(text):
    """텍스트 전처리 함수"""
    # 1. 소문자 변환 (영어의 경우)
    text = text.lower() if text.isascii() else text
    
    # 2. 특수문자 제거 (한글, 영문, 숫자, 공백만 유지)
    text = re.sub(r'[^가-힣a-zA-Z0-9\s]', ' ', text)
    
    # 3. 연속 공백 제거
    text = re.sub(r'\s+', ' ', text)
    
    # 4. 앞뒤 공백 제거
    text = text.strip()
    
    return text

# 정제 적용
cleaned_texts = [clean_text(text) for text in sample_texts]

print("[정제 후 텍스트]")
print("=" * 60)
for i, (orig, clean) in enumerate(zip(sample_texts, cleaned_texts), 1):
    print(f"{i}. 원본: {orig}")
    print(f"   정제: {clean}")
    print()

### 주요 전처리 기법
| 기법 | 설명 | 예시 |
|------|------|------|
| 소문자 변환 | 대소문자 통일 | "Apple" → "apple" |
| 특수문자 제거 | 노이즈 제거 | "10%↑" → "10" |
| 불용어 제거 | 의미 없는 단어 제거 | "의", "이", "는" 제거 |
| 어간 추출 | 단어 원형 추출 | "running" → "run" |

---
## 3. 토큰화 (Tokenization)

### 정의
**토큰화**: 텍스트를 작은 단위(토큰)로 분리하는 작업

### 토큰 단위
- 단어 (Word): 가장 일반적
- 문장 (Sentence)
- 형태소 (Morpheme): 한국어에서 중요

In [None]:
# 간단한 공백 기반 토큰화
def simple_tokenize(text):
    """공백 기반 토큰화"""
    return text.split()

# 적용
for text in cleaned_texts[:3]:
    tokens = simple_tokenize(text)
    print(f"텍스트: {text}")
    print(f"토큰: {tokens}")
    print()

In [None]:
# 한국어 형태소 분석기 (KoNLPy)
print("[한국어 형태소 분석]")
print("=" * 60)

try:
    from konlpy.tag import Okt
    
    okt = Okt()
    
    # 형태소 분석 예시
    sample = "삼성전자가 3분기 영업이익 10조원을 돌파했다"
    
    print(f"원본: {sample}")
    print(f"\n형태소 분석: {okt.morphs(sample)}")
    print(f"명사 추출: {okt.nouns(sample)}")
    print(f"품사 태깅: {okt.pos(sample)}")
    
except ImportError:
    print("KoNLPy가 설치되지 않았습니다.")
    print("Colab에서는 아래 명령어로 설치할 수 있습니다:")
    print("  !pip install konlpy")
    print("\n간단한 공백 기반 토큰화로 대체합니다.")

In [None]:
# 불용어 처리
korean_stopwords = ['의', '가', '이', '은', '는', '에', '를', '을', '와', '과', 
                    '도', '로', '에서', '으로', '한', '하다', '있다', '되다']

def remove_stopwords(tokens, stopwords):
    """불용어 제거"""
    return [token for token in tokens if token not in stopwords]

# 예시
sample_tokens = ['삼성전자', '가', '3분기', '영업이익', '10조원', '을', '돌파', '했다']
filtered = remove_stopwords(sample_tokens, korean_stopwords)

print("[불용어 제거]")
print("=" * 60)
print(f"원본 토큰: {sample_tokens}")
print(f"제거 후: {filtered}")

---
## 4. TF-IDF

### 정의
**TF-IDF (Term Frequency - Inverse Document Frequency)**
- 단어의 중요도를 수치로 표현
- 문서에서 자주 등장하지만, 다른 문서에서는 드문 단어에 높은 가중치

### 수식
- **TF**: 해당 문서에서 단어 등장 빈도
- **IDF**: 전체 문서 중 해당 단어가 등장한 문서의 역빈도
- **TF-IDF = TF × IDF**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

# 예시 문서
documents = [
    "삼성전자 반도체 실적 호조",
    "반도체 시장 성장세 지속",
    "삼성전자 스마트폰 점유율 상승",
    "애플 아이폰 신제품 출시",
    "삼성전자 애플 경쟁 심화"
]

print("[TF-IDF 분석]")
print("=" * 60)

# TF-IDF 벡터화
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(documents)

# 결과를 DataFrame으로
feature_names = tfidf.get_feature_names_out()
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

print("TF-IDF 행렬:")
display(df_tfidf.round(2))

In [None]:
# TF-IDF 시각화 (첫 번째 문서)
fig, ax = plt.subplots(figsize=(10, 4))

doc_idx = 0
tfidf_scores = df_tfidf.iloc[doc_idx].sort_values(ascending=True)
tfidf_scores = tfidf_scores[tfidf_scores > 0]

ax.barh(tfidf_scores.index, tfidf_scores.values, color='steelblue', alpha=0.7)
ax.set_xlabel('TF-IDF Score')
ax.set_title(f'Document {doc_idx + 1}: "{documents[doc_idx]}"')
ax.grid(True, alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

In [None]:
# 단어 빈도 (Count Vectorizer) 비교
count_vec = CountVectorizer()
count_matrix = count_vec.fit_transform(documents)

df_count = pd.DataFrame(
    count_matrix.toarray(), 
    columns=count_vec.get_feature_names_out()
)

print("[단어 빈도 vs TF-IDF 비교]")
print("=" * 60)
print("\n단어 '삼성전자':")
print(f"  빈도 (Count): {df_count['삼성전자'].tolist()}")
print(f"  TF-IDF: {df_tfidf['삼성전자'].round(2).tolist()}")
print("\n단어 '반도체':")
print(f"  빈도 (Count): {df_count['반도체'].tolist()}")
print(f"  TF-IDF: {df_tfidf['반도체'].round(2).tolist()}")

### TF-IDF 해석
- 높은 TF-IDF: 해당 문서에서 중요한 단어
- 낮은 TF-IDF: 흔하거나 중요하지 않은 단어
- 금융 활용: 뉴스에서 핵심 키워드 추출

---
## 5. Word2Vec 개념

### Word2Vec이란?
- 단어를 고정 크기의 벡터(숫자 배열)로 변환
- **의미적으로 유사한 단어는 유사한 벡터**
- 예: "왕" - "남자" + "여자" ≈ "여왕"

### TF-IDF vs Word2Vec
| 구분 | TF-IDF | Word2Vec |
|------|--------|----------|
| 표현 | 희소 벡터 (Sparse) | 밀집 벡터 (Dense) |
| 의미 | 빈도 기반 | 문맥 기반 |
| 유사도 | 단어 독립 | 의미적 유사도 |

In [None]:
# Word2Vec 개념 시각화 (2D로 단순화)
from sklearn.decomposition import PCA

# 가상의 단어 벡터 (실제는 Word2Vec으로 학습)
word_vectors = {
    '삼성전자': [0.8, 0.2],
    'SK하이닉스': [0.7, 0.3],
    '반도체': [0.75, 0.25],
    '애플': [0.6, -0.3],
    '아이폰': [0.5, -0.35],
    '스마트폰': [0.55, -0.1],
    '코스피': [-0.2, 0.8],
    '코스닥': [-0.3, 0.75],
    '주가': [-0.1, 0.7],
}

fig, ax = plt.subplots(figsize=(10, 8))

for word, vec in word_vectors.items():
    ax.scatter(vec[0], vec[1], s=100, alpha=0.7)
    ax.annotate(word, (vec[0], vec[1]), fontsize=11, 
                xytext=(5, 5), textcoords='offset points')

ax.axhline(0, color='gray', linestyle='--', alpha=0.5)
ax.axvline(0, color='gray', linestyle='--', alpha=0.5)
ax.set_xlabel('Dimension 1')
ax.set_ylabel('Dimension 2')
ax.set_title('Word Vectors in 2D Space (Conceptual)')
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("[Word2Vec 특징]")
print("=" * 60)
print("- 유사한 단어는 가까운 위치에 배치")
print("- '삼성전자', 'SK하이닉스', '반도체'가 가까움")
print("- '코스피', '코스닥', '주가'가 가까움")

In [None]:
# Gensim Word2Vec 예시 (설치 필요)
print("[Word2Vec 사용 예시 (개념)]")
print("=" * 60)
print("""
# Gensim 라이브러리 사용
from gensim.models import Word2Vec

# 문장 리스트 (토큰화된 상태)
sentences = [
    ['삼성전자', '반도체', '실적', '호조'],
    ['SK하이닉스', '반도체', '수출', '증가'],
    ['코스피', '상승', '외국인', '순매수'],
    ...
]

# Word2Vec 모델 학습
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1)

# 유사 단어 찾기
similar = model.wv.most_similar('삼성전자', topn=5)
print(similar)
# [('SK하이닉스', 0.92), ('반도체', 0.88), ...]
""")

---
## 학습 정리

### 1. NLP 파이프라인
```
텍스트 → 전처리 → 토큰화 → 벡터화 → 분석/모델
```

### 2. 텍스트 전처리
```python
import re

def clean_text(text):
    text = re.sub(r'[^가-힣a-zA-Z0-9\s]', ' ', text)
    text = re.sub(r'\s+', ' ', text)
    return text.strip()
```

### 3. 토큰화
```python
# 한국어
from konlpy.tag import Okt
okt = Okt()
tokens = okt.morphs(text)  # 형태소 분석
nouns = okt.nouns(text)    # 명사 추출
```

### 4. TF-IDF
```python
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
matrix = tfidf.fit_transform(documents)
```

### 5. 텍스트 표현 방법
| 방법 | 특징 | 활용 |
|------|------|------|
| BoW/TF-IDF | 빈도 기반, 희소 | 문서 분류 |
| Word2Vec | 의미 기반, 밀집 | 유사도, 감성 |

---

### 다음 차시 예고
- 26차시: [실습] 금융 뉴스 감성 분석
  - 네이버 금융 뉴스 크롤링 (모듈 2 연계)
  - 감성 사전 기반 분석
  - 뉴스 감성과 주가 관계