<a href="https://colab.research.google.com/github/ancestor9/2025_Spring_Data-Management/blob/main/week_06/Text_Representation_and_Embedding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 표현 기법과 임베딩
# **Data Representation**

## 1. Tabular data
<img src='http://jalammar.github.io/images/pandas-intro/0%20excel-to-pandas.png'>

## 2. Audio and Timeseries data
<img src= 'http://jalammar.github.io/images/numpy/numpy-audio.png'>

## 3. Image data
<img src='http://jalammar.github.io/images/numpy/numpy-grayscale-image.png'>
<img src='http://jalammar.github.io/images/numpy/numpy-color-image.png'>

## <font color='orange'>**4. Text data**
- **아래 그림을 이해하여야 한다.**
<img src='http://jalammar.github.io/images/numpy/numpy-nlp-embeddings.png'>
<img src='http://jalammar.github.io/images/numpy/numpy-nlp-bert-shape.png'>


## <font color='orange'>**목소리, 주식가격, 그림, 동영상, 언어는 모두 순서(Order)가 있다.**

## 🎯 강의 목표
- 자연어 처리에서 사용되는 텍스트 표현 방법의 역사와 원리를 이해한다.
- Bag of Words, TF-IDF, Word Embedding 기법을 실습한다.
- Word2Vec과 같은 사전 학습된 임베딩을 적용해 본다.

## 📘 이론 강의
### **1. 텍스트 표현(Representation of Text)의 필요성**
- 컴퓨터는 텍스트를 숫자로 이해해야 함
- 자연어는 비정형 데이터 → 수치화 필요

### **2. 텍스트 표현 방식**
#### 2.1 One-hot Encoding
- 각 단어를 고유 인덱스로 변환 후, 그 인덱스만 1인 벡터로 표현
- 단점: 희소성, 단어 간 의미 관계 없음

#### 2.2 Bag of Words (BoW)
- 문서별 단어 출현 빈도 벡터
- 장점: 단순하고 빠름
- 단점: 문맥 정보 손실
- 📌 구현 도구: `CountVectorizer`

#### 2.3 N-gram 모델
- 연속된 N개의 단어를 하나의 특징으로 간주
- 예: bigram("I love NLP") → ["I love", "love NLP"]
- 📌 구현 도구: `CountVectorizer(ngram_range=(n, n))`

#### 2.4 TF-IDF
- 단어의 중요도를 반영한 벡터
- TF: 문서 내 빈도 / IDF: 전체 문서에서의 희귀성
- 📌 구현 도구: `TfidfVectorizer`

#### 2.5 Word Embedding
- 의미 기반 분산 표현 (Distributed Representation)
- Word2Vec, GloVe, FastText 등
- 단어 간 유사도, 의미 추론 가능
- CBOW / Skip-gram

#### 2.6 사전학습 임베딩
- Gensim / HuggingFace Transformers 사용 가능
- 예: word2vec-google-news-300

## 💻 **실습**

#### 2.0 Integer Encoding
- 📌 구현 도구: `Tokenizer`



#### 2.1 One-hot Encoding
- 📌 구현 도구: `CountVectorizer`

#### 2.2 Bag of Words (BoW)
- 📌 구현 도구: `CountVectorizer`

#### 2.3 N-gram 모델
- 📌 구현 도구: `CountVectorizer(ngram_range=(n, n))`

#### 2.4 TF-IDF
- 📌 구현 도구: `TfidfVectorizer`

#### 2.5 Word Embedding
- 📌 구현 도구: 'Word2Vec, GloVe, FastText, CBOW / Skip-gram'

#### 2.6 사전학습 임베딩
- 📌 구현 도구: Gensim / HuggingFace Transformers(word2vec-google-news-300)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
docs = [
    "I love natural language processing",
    "Language models are amazing",
    "I enjoy learning about embeddings",
    "Embeddings capture semantic meaning",
    "Natural language is complex"
]
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(docs)
print("BoW Feature Names:", vectorizer.get_feature_names_out())
print("BoW Matrix:\n", bow.toarray())

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(docs)
print("TF-IDF Feature Names:", tfidf.get_feature_names_out())
print("TF-IDF Matrix:\n", tfidf_matrix.toarray())

In [None]:
vectorizer_bigram = CountVectorizer(ngram_range=(2,2))
bow_bigram = vectorizer_bigram.fit_transform(docs)
print("Bi-gram Feature Names:", vectorizer_bigram.get_feature_names_out())
print("Bi-gram BoW Matrix:\n", bow_bigram.toarray())

In [None]:
from gensim.models import Word2Vec
tokenized_docs = [doc.lower().split() for doc in docs]
w2v_model = Word2Vec(sentences=tokenized_docs, vector_size=100, window=3, min_count=1, sg=1)
print("Vector for 'language':", w2v_model.wv['language'])
print("Similarity between 'language' and 'natural':", w2v_model.wv.similarity('language', 'natural'))
print("Most similar to 'embeddings':", w2v_model.wv.most_similar('embeddings', topn=3))

In [None]:
import gensim.downloader as api
model = api.load("word2vec-google-news-300")
print(model['computer'])
print(model.most_similar("language"))
print("Similarity between 'language' and 'computer':", model.similarity('language', 'computer'))