# Tokenization
: 텍스트를 분석 가능한 작은 단위로 나누는 과정

- 단어 단위 토큰화 (Word Tokenization)
- 서브워드 토큰화 (Subword Tokenization)

### 1. **단어 단위 토큰화 (Word Tokenization)**

- 특징:
    - 형태소 분석을 기반으로 의미 있는 최소 단위로 분리
    - 조사, 어미 등 문법적 요소도 개별 토큰으로 분리
- 활용:
    - 문장 분석, 품사 태깅
    - 텍스트 분류, 감성 분석
- 예시: `"자연어처리는"` → `["자연어", "처리", "는"]`     
    

- 실습: **Kiwi 한글 형태소 분석기** (한국어 특성을 잘 반영한 형태소 분석기)
    - 신조어 처리 능력이 우수
    - 분석 속도가 빠름
    - 품사 태깅 정확도가 높음
    - 참조: https://bab2min.github.io/kiwipiepy/v0.20.2/kr/

    - 설치: pip install kiwipiepy 또는 uv add kiwipiepy

In [None]:
# Kiwi 형태소 분석기 로드
from kiwipiepy import Kiwi 
kiwi = Kiwi()

In [None]:
# 토큰화 (형태소 분석) : 문장 -> 형태소들의 리스트
text = "자연어처리를 공부합니다"
tokens = kiwi.tokenize(text)

tokens

In [None]:
# 형태소 분석(토큰화) 결과를 품사와 함께 출력
for token in tokens:
    print(f"단어: {token.form}")
    print(f"품사: {token.tag}")
    print(f"시작 위치: {token.start}")
    print(f"길이: {token.len}")
    print("")

### 2. **서브워드 토큰화 (Subword Tokenization)**
- 특징:
    - 형태소보다 작은 의미 단위 사용
    - 자주 등장하는 문자열 패턴을 토큰으로 활용
- 활용:
    - 신조어 처리
    - 미등록어(OOV) 문제 해결
    - 기계 번역, BERT 등 최신 NLP 모델
- 예시: `"자연어처리"` → `['자연', '##어', '##처리']`

- 실습: **Huggingface KcBERT 토크나이저** 활용 
    - 개념:
        - SentencePiece 기반 서브워드 토크나이저 사용
        - 한국어에 특화된 어휘 사전(vocab) 보유
        - 특수 토큰: [CLS], [SEP], [MASK], [PAD], [UNK]
    - 특징:
        - 문장 시작: [CLS] 토큰 추가
        - 문장 구분: [SEP] 토큰 사용
        - 서브워드 분리: '##' 접두어로 표시
        - 최대 길이 처리: max_length로 자동 truncation 

    - 참조: https://huggingface.co/beomi/kcbert-base

- 설치:
    - pip install torch transformers 또는 uv add torch transformers
    - pip install langchain_huggingface 또는 uv add langchain_huggingface



In [None]:
# 허깅페이스 트랜스포머 라이브러리에서 토크나이저 로드
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('beomi/kcbert-base')

tokenizer

In [None]:
# 토큰화 수행 : 문장 -> 토큰들의 리스트
text = "자연어처리를 공부합니다"
tokens = tokenizer.tokenize(text)

tokens

# Embedding
: 텍스트를 컴퓨터가 이해할 수 있는 벡터 형태로 변환 

- 단어 단위 임베딩 (Word Embedding)
- 문장 단위 토큰화 (Sentence Embedding)

### 1. **단어 임베딩(Word Embedding)**

- 개념:
    - 자연어를 컴퓨터가 이해할 수 있는 벡터 형태로 변환하는 기술
    - 각 단어를 고정된 크기의 실수 벡터로 표현
    - 비슷한 의미를 가진 단어들은 벡터 공간에서 서로 가까운 거리에 위치

- 기법: 
    - Bag of Words (BoW)
    - TF-IDF (Term Frequency-Inverse Document Frequency)
    - Word2Vec

#### 1) Bag of Words (BoW)
- 단어의 출현 빈도를 벡터로 표현
- 장점: 구현이 간단하고 직관적
- 단점: 단어 순서 정보 손실, 희소 벡터 생성

In [None]:
# 토크나이저 객체를 확인 
tokenizer

In [None]:
# 샘플 텍스트
texts = ["자연어처리를 공부합니다", "자연어를 배웁니다", "자연어 처리방법을 사용합니다"]

# 토큰화 수행 : 문장 -> 토큰들의 리스트
tokenized_texts = []
for text in texts:
    tokenized_texts.append(tokenizer.tokenize(text))

tokenized_texts

In [None]:
# 텍스트 결합 : 토큰들의 리스트 -> 텍스트
combined_texts = [" ".join(tokens) for tokens in tokenized_texts]

combined_texts

In [None]:
# BoW 벡터화 수행 - CountVectorizer 사용 예제 (pip install scikit-learn 또는 uv add scikit-learn)
from sklearn.feature_extraction.text import CountVectorizer  #type: ignore

# 각 단어를 공백 기준으로 분리하여 BoW 벡터화 수행
vectorizer = CountVectorizer()  
bow_matrix = vectorizer.fit_transform(combined_texts)

# BoW 벡터화 결과 출력 - 희소 행렬
print(bow_matrix)

In [None]:
# BoW 벡터화 결과 출력 : 밀집 행렬로 변환
print(bow_matrix.toarray())

In [None]:
# 단어사전을 인덱스 순으로 정렬하여 출력
sorted(vectorizer.vocabulary_.items(), key=lambda x: x[1]) 

In [None]:
import pandas as pd

# 밀집 행렬을 데이터프레임으로 변환
bow_df = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer.get_feature_names_out())

bow_df

#### 2) TF-IDF (Term Frequency-Inverse Document Frequency)
- 단어의 중요도를 고려한 가중치 부여
- 문서 집합 내에서 특정 단어의 중요성 측정
- 희귀한 단어에 높은 가중치 부여

In [None]:
# Tfidf vectorizer 사용 예제 
from sklearn.feature_extraction.text import TfidfVectorizer #type: ignore

# Tfidf 벡터화 수행 - CountVectorizer와 동일한 방법으로 수행
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(combined_texts)

# Tfidf 벡터화 결과 출력 - 희소 행렬
print(tfidf_matrix)

In [None]:
# Tfidf 벡터화 결과 출력 - 밀집 행렬
print(tfidf_matrix.toarray())

In [None]:
# 단어사전을 인덱스 순으로 정렬하여 출력
sorted(tfidf.vocabulary_.items(), key=lambda x: x[1])

In [None]:
# 밀집 행렬을 데이터프레임으로 변환
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf.get_feature_names_out())

tfidf_df

#### 3) Word2Vec
- 단어의 의미적 관계를 벡터 공간에 표현
- 임베딩 프로젝터: https://projector.tensorflow.org/

- CBOW와 Skip-gram 모델
- 문맥을 고려한 단어 표현 가능

- 설치: pip install gensim 또는 uv add gensim
- 참조: https://ko.wikipedia.org/wiki/Gensim

In [21]:
# Word2Vec - gensim 라이브러리 사용 
from gensim.models import Word2Vec #type: ignore

# Word2Vec 모델 초기화 및 학습
word2vec_model = Word2Vec(
    sentences=tokenized_texts,  # 학습용 문장 데이터
    vector_size=100,  # 임베딩 된 단어벡터의 차원
    window=2,    # 주변 단어 개수 (context window: 좌우 2개)
    min_count=1, # 최소 등장 횟수 (빈도가 낮은 단어는 제거)
    workers=4,
    sg=1  # 0: CBOW, 1: Skip-gram
    )

In [None]:
# 인덱스 확인 : 단어 -> 인덱스
word2vec_model.wv.key_to_index

In [None]:
# 단어 벡터 확인 : 단어 -> 벡터
embedding = word2vec_model.wv['자연']

print(f"단어 벡터 크기: {len(embedding)}")
print(embedding)

In [None]:
# 유사도 확인 : 단어 -> 유사도 높은 단어
similar_words = word2vec_model.wv.most_similar('공부', topn=5)

similar_words

### 2. **문장 임베딩(Sentence Embedding)**

- 개념:
    - 단어 임베딩의 개념을 확장하여 문장 전체를 하나의 벡터로 표현하는 기술
    - 문장의 의미적 특성을 보존하면서 고정된 크기의 벡터로 변환
    - 비슷한 의미를 가진 문장들은 벡터 공간에서 서로 가까운 거리에 위치

- 실습: 
    - **Option1**: Word2Vec 모델을 사용하여 단어를 벡터로 변환 -> 문장을 구성하는 단어 벡터를 평균 
    - **Option2**: Sentence-BERT(SBERT) 등 문장 임베딩 모델을 사용하여 문장을 벡터로 변환

`(1) 각 문장을 표현하는 벡터 --> 각 단어 벡터의 평균`

In [None]:
### 문장 벡터화 수행
import numpy as np

# 단어 개수 초기화
num_words = 0     

# 문장 벡터 초기화 : 100차원의 0을 원소로 하는 벡터
sentence_vector = np.zeros(100, dtype=np.float32) 

# 첫 번째 문장에 대해 단어 벡터를 합산
for word in tokenized_texts[0]:

    # 단어가 Word2Vec 모델에 존재하는 경우에만 벡터를 합산
    if word in word2vec_model.wv:
        sentence_vector += word2vec_model.wv[word]
        num_words += 1

# 문장 벡터를 단어 개수로 나누어 평균 벡터로 변환
sentence_vector = sentence_vector / num_words

# 문장 벡터 확인
print(f"문장 벡터 크기: {len(sentence_vector)}")
print(sentence_vector)

`(2) 문장 임베딩 모델을 사용: 문장 텍스트를 벡터로 직접 변환`

- SBERT : https://sbert.net/
- 설치 pip install sentence_transformers 또는 uv add sentence_transformers

In [None]:
### SBERT를 이용한 문장 벡터화
from sentence_transformers import SentenceTransformer  #type: ignore 

# SBERT 모델 로드 (다국어 모델)
model = SentenceTransformer('BAAI/bge-m3')

def get_sentence_embedding(sentence):
    """문장을 벡터로 변환하는 함수"""
    return model.encode(sentence)

# SBERT를 이용하여 문장을 벡터로 변환 (첫 번째 문장에 대해 수행)
sentence_vector = get_sentence_embedding(texts[0])

# 문장 벡터 확인
print(f"문장 벡터 크기: {len(sentence_vector)}")
print(sentence_vector)

### 3. **텍스트 유사도 비교**  

#### 1) 유클리드 거리 (Euclidean Distance, L2)
- 유클리드 거리는 두 점 사이의 직선 거리를 나타내며, 텍스트 벡터 간의 거리로 사용
- 벡터 차의 L2-norm으로 계산 (값이 작을수록 유사도가 높다고 판단)

수식:  
$\text{Euclidean Distance} = \| \mathbf{a} - \mathbf{b} \|_2 = \sqrt{\sum_{i=1}^{n} (a_i - b_i)^2} $

여기서,
$ \mathbf{a} $와 $ \mathbf{b} $는 두 텍스트의 벡터 표현

In [None]:
# 문장 유사도 계산을 위해 sklearn 라이브러리에서 유클리디안 거리 함수 로드
from sklearn.metrics.pairwise import euclidean_distances #type: ignore

# 문장 유사도를 비교하는 함수 (유클리디안 거리)
def calculate_sentence_similarity_euclidean(sentence1, sentence2):
    """문장 유사도를 계산하는 함수"""

    # 두 문장에 대해 SBERT를 이용하여 문장 벡터를 계산
    embedding1 = get_sentence_embedding(sentence1)
    embedding2 = get_sentence_embedding(sentence2)

    # 두 문장 벡터 간의 유클리디안 거리 계산
    return euclidean_distances([embedding1], [embedding2])[0][0]

# 문장 유사도 계산
sentence1 = "학생이 학교에서 공부한다"
sentence2 = "학생이 도서관에서 공부한다"
similarity = calculate_sentence_similarity_euclidean(sentence1, sentence2)
print(f"문장 유사도:", similarity)

In [None]:
# 차이가 있는 문장 비교
sentence1 = "영화가 재미있다"
sentence2 = "학생이 공부한다"
similarity = calculate_sentence_similarity_euclidean(sentence1, sentence2)
print(f"문장 유사도:", similarity)

#### 2) 내적 (Dot Product)
- 내적은 두 벡터의 방향과 크기를 고려하여 유사성을 측정
- 벡터의 크기와 방향을 모두 반영한 유사도 계산에 사용 (값이 클수록 유사도가 높다고 판단)

수식:  
$ \text{Dot Product} = \mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i $

내적은 벡터의 원소별 곱의 합으로 계산됩니다.

In [None]:
# 문장 유사도를 비교하는 함수 (벡터 내적)

def calculate_sentence_similarity_dot(sentence1, sentence2):
    """문장 유사도를 계산하는 함수"""

    # 두 문장에 대해 SBERT를 이용하여 문장 벡터를 계산
    embedding1 = get_sentence_embedding(sentence1)
    embedding2 = get_sentence_embedding(sentence2)

    # 두 문장 벡터 간의 내적 계산
    return np.dot(embedding1[0], embedding2[0])

# 문장 유사도 계산
sentence1 = "학생이 학교에서 공부한다"
sentence2 = "학생이 도서관에서 공부한다"
similarity = calculate_sentence_similarity_dot(sentence1, sentence2)
print(f"문장 유사도:", similarity)

In [None]:
# 차이가 있는 문장 비교
sentence1 = "영화가 재미있다"
sentence2 = "학생이 공부한다"
similarity = calculate_sentence_similarity_dot(sentence1, sentence2)
print(f"문장 유사도:", similarity)

#### 3) 코사인 유사도 (Cosine Similarity)
- 코사인 유사도는 두 벡터 간의 각도를 이용해 유사성을 평가
- 두 벡터가 이루는 각의 코사인을 계산(값이 1에 가까울수록 유사도가 높다고 평가)

수식:  
$ \text{Cosine Similarity} = \cos(\theta) = \frac{\mathbf{a} \cdot \mathbf{b}}{\|\mathbf{a}\| \|\mathbf{b}\|} = \frac{\sum_{i=1}^{n} a_i b_i}{\sqrt{\sum_{i=1}^{n} a_i^2} \sqrt{\sum_{i=1}^{n} b_i^2}} $

여기서, $ \mathbf{a} \cdot \mathbf{b} $는 두 벡터의 내적, $ \|\mathbf{a}\| $와 $ \|\mathbf{b}\| $는 각각 벡터의 L2-norm입니다.

In [None]:
# 문장 유사도를 비교하는 함수 (코사인 유사도)
from sklearn.metrics.pairwise import cosine_similarity #type: ignore

def calculate_sentence_similarity_cosine(sentence1, sentence2):
    """문장 유사도를 계산하는 함수"""

    # 두 문장에 대해 SBERT를 이용하여 문장 벡터를 계산
    embedding1 = get_sentence_embedding(sentence1)
    embedding2 = get_sentence_embedding(sentence2)

    # 두 문장 벡터 간의 코사인 유사도 계산
    return cosine_similarity([embedding1], [embedding2])[0][0]

# 문장 유사도 계산
sentence1 = "학생이 학교에서 공부한다"
sentence2 = "학생이 도서관에서 공부한다"
similarity = calculate_sentence_similarity_cosine(sentence1, sentence2)
print(f"문장 유사도:", similarity)

In [None]:
# 차이가 있는 문장 비교
sentence1 = "영화가 재미있다"
sentence2 = "학생이 공부한다"
similarity = calculate_sentence_similarity_cosine(sentence1, sentence2)
print(f"문장 유사도:", similarity)

# [실습 프로젝트]

### **문제: 문서 유사도 비교 시스템 구현**

**목표**: 주어진 문서들을 토큰화하고 임베딩한 후 유사도를 비교하는 시스템 구현



**예상 결과**:


In [None]:
# 예시 결과 포맷
{
    'most_similar_pair': ('문서1', '문서2'),
    'similarity_score': 0.85,
    'similarity_matrix': [[1.0, 0.8, ...], [...]]
}

In [75]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from sentence_transformers import SentenceTransformer

# 테스트용 샘플 문서
documents = [
    "인공지능은 컴퓨터 과학의 중요한 분야입니다.",
    "머신러닝은 인공지능의 하위 분야입니다.",
    "딥러닝은 머신러닝의 한 종류입니다.",
    "자연어 처리는 텍스트 데이터를 다룹니다."
]


# 문제 1: 문서를 토큰화하고 BoW 벡터로 변환하시오
def tokenize_documents(docs):
    # 이 부분을 구현하세요
    pass

# 문제 2: 문서를 임베딩으로 변환하시오
def create_embeddings(docs):
    # 이 부분을 구현하세요
    pass

# 문제 3: 문서들 간의 유사도를 계산하시오
def calculate_similarity(embeddings):
    # 이 부분을 구현하세요
    pass

# 문제 4: 가장 유사한 문서 쌍을 찾으시오
def find_most_similar_pair(similarities, docs):
    # 이 부분을 구현하세요
    pass