## 자연어 임베딩(Embedding)이란?

자연어 임베딩은 **텍스트(단어/문장/문서)를 고정 길이의 실수 벡터(vector)로 바꾸는 표현 방식**이다.  
즉, 컴퓨터가 다룰 수 있도록 **문자를 수치화**하되, 단순 ID가 아니라 **의미·문맥·문법적 특징**이 벡터 공간에 반영되도록 만든다.

- 임베딩 덕분에 텍스트끼리 **유사도(코사인 유사도 등)**를 계산할 수 있고  
- 머신러닝/딥러닝 모델에 **입력 피처**로 넣을 수 있으며  
- “king - man + woman ≈ queen” 같은 **의미 연산**이 벡터 공간에서 가능해진다.

---

## 임베딩 핵심 정리 표

| 구분 | 내용 | 예시/포인트 |
|---|---|---|
| 정의 | 텍스트를 **고정 길이 실수 벡터**로 변환 | 단어/문장/문서 → `R^d` 벡터 |
| 목적 | 컴퓨터가 텍스트를 수치로 처리 + 의미를 보존 | 단순 라벨 인코딩과 다름 |
| 표현 대상 | 단어 임베딩 / 문장 임베딩 / 문서 임베딩 | word2vec(단어), SBERT(문장) |
| 벡터 의미 | 벡터 공간에서 **거리/각도**가 의미적 유사성을 반영 | 가까울수록 의미가 비슷한 경향 |
| 대표 유사도 지표 | 코사인 유사도, 유클리드 거리 | 코사인: 방향(의미) 중심 비교 |
| 장점 | 의미적 관계 수치화, 모델 입력 가능, 일반화에 유리 | 검색/추천/분류/클러스터링 등 |
| 한계 | 데이터·학습 방식에 따라 편향/품질 차이, OOV 문제 | 학습 코퍼스에 없는 단어 처리 |
| 활용 | 분류, 검색, 추천, 군집화, QA, RAG 등 | query↔doc 유사도 계산 |
| 학습 방식(큰 분류) | 정적(Static) vs 문맥(Contextual) | 정적: word2vec / 문맥: BERT 계열 |
| 정적 임베딩 특징 | 단어당 벡터 1개(문맥 변화 반영 어려움) | “bank” (강둑/은행) 구분 약함 |
| 문맥 임베딩 특징 | 같은 단어라도 문맥에 따라 벡터가 달라짐 | “bank”가 문장에 따라 의미 분리 |

## 자연어 임베딩 요약

- **자연어 임베딩(Embedding)**: 텍스트(단어/문장/문서)를 **고정 길이의 실수 벡터**로 변환하는 기술  
- 목적: 컴퓨터가 텍스트를 **수치로 처리**하면서도 **의미/문법 정보**를 벡터에 담게 함  
- 효과:
  - 벡터 간 **유사도(코사인 유사도 등)** 계산 가능 → 관련도/의미 유사성 비교
  - ML/DL 모델의 **입력 피처**로 사용 가능
  - 벡터 공간에서 **의미 관계(유추/연산)** 표현 가능(예: king - man + woman ≈ queen)
- 종류(큰 분류):
  - **정적 임베딩**: 단어당 벡터 1개(문맥 변화 반영 어려움)  
  - **문맥 임베딩**: 같은 단어도 문장 문맥에 따라 벡터가 달라짐