### 몇가지 임베딩 전략
**1. Bag of Words (BoW)**\
설명: 텍스트를 각 단어의 출현 빈도 또는 존재 여부를 기반으로 벡터화하는 방법입니다.\
특징: 문서의 단어 순서를 고려하지 않으며, 각 단어가 독립적이라고 가정합니다.\
라이브러리: CountVectorizer (Scikit-learn)\
장점: 간단하고 빠르며, 특정 단어의 중요도를 반영할 수 있습니다.\
단점: 희소 행렬(sparse matrix)을 생성할 수 있으며, 문맥을 고려하지 않습니다.\

**2. TF-IDF (Term Frequency-Inverse Document Frequency)**\
설명: 단어의 빈도와 그 단어가 문서 집합 내에서 얼마나 유니크한지를 결합하여 가중치를 부여하는 방법입니다.\
특징: 자주 등장하는 단어는 중요하지 않다고 간주하여 가중치를 낮추고, 드문 단어는 더 중요한 것으로 간주합니다.\
라이브러리: TfidfVectorizer (Scikit-learn)\
장점: 문서 내에서 단어의 중요도를 더 잘 반영할 수 있습니다.\
단점: 여전히 단어 순서와 문맥을 고려하지 않습니다.\

**3. Word2Vec**\
설명: 단어를 밀집 벡터(dense vector)로 변환하는 방법으로, 단어 간의 유사도를 반영할 수 있습니다.\
특징: 주로 CBOW(Continuous Bag of Words)와 Skip-Gram 모델을 사용하여 단어 임베딩을 학습합니다.\
라이브러리: gensim.models.Word2Vec\
장점: 단어의 의미적 유사성을 반영할 수 있으며, 문맥을 어느 정도 고려합니다.\
단점: 문장 전체가 아닌 단어 수준에서 임베딩을 생성합니다.\

**4. GloVe (Global Vectors for Word Representation)**\
설명: 단어 간 공기행렬(co-occurrence matrix)을 사용하여 단어 임베딩을 학습하는 방법입니다.\
특징: 대규모 텍스트 코퍼스에서 사전 학습된 임베딩을 사용할 수 있습니다.\
라이브러리: glove-python 또는 사전 학습된 GloVe 임베딩 사용\
장점: 문맥을 반영하고, 대규모 코퍼스에서 학습된 사전 학습 임베딩을 사용할 수 있습니다.\
단점: Word2Vec과 유사하게 단어 수준에서만 임베딩을 생성합니다.\

**5. FastText**\
설명: Word2Vec의 개선된 버전으로, 단어의 부분(ngram)까지 고려하여 임베딩을 생성합니다.\
특징: 어휘에 없는 단어도 n-gram을 통해 임베딩을 생성할 수 있습니다.\
라이브러리: gensim.models.FastText\
장점: 어휘에 없는 단어의 임베딩을 생성할 수 있으며, 형태학적 정보도 반영됩니다.\
단점: Word2Vec보다 훈련 시간이 더 길 수 있습니다.\

**6. BERT (Bidirectional Encoder Representations from Transformers)**\
설명: Transformer 모델을 기반으로 한 사전 학습된 언어 모델로, 문장이나 단락의 문맥을 이해하는 데 강력한 성능을 보입니다.\
특징: 양방향 문맥을 고려한 임베딩을 생성할 수 있습니다.\
라이브러리: transformers (Hugging Face)\
장점: 문맥을 완전히 반영할 수 있으며, 다양한 NLP 작업에서 최첨단 성능을 발휘합니다.\
단점: 연산이 복잡하고, 훈련 및 추론 시간이 길 수 있습니다.\

**7. Sentence Transformers**\
설명: 문장 수준에서의 의미를 캡처할 수 있는 임베딩을 생성합니다. BERT를 기반으로 하지만 문장 유사성이나 분류 작업을 위해 최적화되었습니다.\
특징: 문장 또는 문서 전체에 대한 임베딩을 생성합니다.\
라이브러리: sentence-transformers\
장점: 문장의 의미를 잘 반영하며, BERT보다 간단하게 사용할 수 있습니다.\
단점: BERT와 마찬가지로 연산이 복잡할 수 있습니다.\

#### 요약
단순한 방법: BoW, TF-IDF는 단순하고 해석하기 쉬우며, 기본적인 NLP 작업에 적합합니다.\
단어 수준 임베딩: Word2Vec, GloVe, FastText는 단어 수준의 의미를 반영한 임베딩을 생성합니다.\
문맥 반영 임베딩: BERT, Sentence Transformers는 문맥을 잘 반영한 문장 수준의 임베딩을 제공합니다.\

#### 예시1. BoW

In [1]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(['This is a sentence', 'This is another sentence'])
print(X, '\n', X.toarray())

  (0, 3)	1
  (0, 1)	1
  (0, 2)	1
  (1, 3)	1
  (1, 1)	1
  (1, 2)	1
  (1, 0)	1 
 [[0 1 1 1]
 [1 1 1 1]]


#### 예시2. TF-IDF

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(['This is a sentence', 'This is another sentence'])
print(X.toarray())

[[0.         0.57735027 0.57735027 0.57735027]
 [0.63009934 0.44832087 0.44832087 0.44832087]]


#### 예시3. Word2Vec

In [3]:
from gensim.models import Word2Vec

sentences = [['this', 'is', 'a', 'sentence'], ['this', 'is', 'another', 'sentence']]
model = Word2Vec(sentences, vector_size=50, window=5, min_count=1, workers=4)
vector = model.wv['sentence']  # 'sentence' 단어의 임베딩 벡터

print(vector)

[-1.0724545e-03  4.7286271e-04  1.0206699e-02  1.8018546e-02
 -1.8605899e-02 -1.4233618e-02  1.2917745e-02  1.7945977e-02
 -1.0030856e-02 -7.5267432e-03  1.4761009e-02 -3.0669428e-03
 -9.0732267e-03  1.3108104e-02 -9.7203208e-03 -3.6320353e-03
  5.7531595e-03  1.9837476e-03 -1.6570430e-02 -1.8897636e-02
  1.4623532e-02  1.0140524e-02  1.3515387e-02  1.5257311e-03
  1.2701781e-02 -6.8107317e-03 -1.8928028e-03  1.1537147e-02
 -1.5043275e-02 -7.8722071e-03 -1.5023164e-02 -1.8600845e-03
  1.9076237e-02 -1.4638334e-02 -4.6675373e-03 -3.8754821e-03
  1.6154874e-02 -1.1861792e-02  9.0324880e-05 -9.5074680e-03
 -1.9207101e-02  1.0014586e-02 -1.7519170e-02 -8.7836506e-03
 -7.0199967e-05 -5.9236289e-04 -1.5322480e-02  1.9229487e-02
  9.9641159e-03  1.8466286e-02]


#### 예시4. FastText

In [4]:
from gensim.models import FastText

sentences = [['this', 'is', 'a', 'sentence'], ['this', 'is', 'another', 'sentence']]
model = FastText(sentences, vector_size=50, window=5, min_count=1, workers=4)
vector = model.wv['sentence']  # 'sentence' 단어의 임베딩 벡터

vector

array([ 2.3762400e-03,  4.3552560e-03, -2.3438020e-03,  4.4064571e-05,
       -3.3204672e-03, -1.6339134e-03,  3.9936855e-05,  2.7794640e-03,
        1.3207612e-03, -8.9241203e-04,  1.1188295e-04,  3.6547886e-04,
        1.5989473e-03, -2.2814414e-03, -7.6641975e-04, -3.5211665e-04,
       -3.7194457e-04, -3.7707593e-03, -5.0533627e-04,  1.0242682e-03,
        1.3290894e-03,  4.9182405e-03,  1.7181545e-03, -4.5359270e-03,
        3.4509320e-04,  1.4606063e-03, -5.8013775e-05,  4.2954321e-06,
        1.5602753e-03, -3.0143785e-03,  5.4461177e-04,  1.2709263e-04,
       -2.7693089e-03, -2.8767094e-03,  4.1689989e-03, -3.3201755e-04,
       -1.7430079e-03, -1.5368345e-03, -2.4464896e-03, -2.9027211e-03,
        3.0325060e-03, -6.3533534e-04, -4.3081925e-03, -1.8973231e-03,
       -1.5957525e-03,  2.2720103e-03,  9.8611694e-04, -9.2133059e-04,
        1.3107294e-03,  2.3221793e-03], dtype=float32)

#### 예시5. BERT

In [5]:
from transformers import BertTokenizer, BertModel
import torch

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

text = "This is a sentence."
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)

# BERT의 [CLS] 토큰에 해당하는 문장의 임베딩 벡터
cls_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy()

cls_embedding



array([[-6.43873960e-02,  7.05309361e-02, -8.41178298e-02,
        -1.95134237e-01, -5.41178823e-01, -2.88913339e-01,
         2.31686398e-01,  5.42590916e-01,  1.70392960e-01,
        -5.25595188e-01, -2.97243327e-01, -2.26870611e-01,
        -7.20018446e-02,  2.37238720e-01,  5.75099587e-01,
        -2.70526916e-01,  2.86882371e-01,  4.99395579e-01,
         3.14151406e-01, -2.60164410e-01, -1.84688449e-01,
         1.50034845e-01, -1.91413507e-01, -4.40201789e-01,
         1.27347738e-01, -2.35259131e-01,  1.71374947e-01,
        -2.53956854e-01, -3.65487300e-02,  1.34715319e-01,
         1.98693678e-01,  3.25726539e-01, -3.89641315e-01,
        -1.20066971e-01,  2.86979288e-01, -1.15092002e-01,
         3.55054766e-01,  9.97622311e-03,  2.29477987e-01,
        -1.73220351e-01, -2.35953435e-01,  6.63459003e-02,
         1.51099414e-01,  1.42290890e-02,  2.82146186e-02,
        -6.90414488e-01, -2.71547961e+00, -3.37916523e-01,
        -1.74467951e-01, -1.67409390e-01, -4.29143757e-0