#텍스트 벡터화
백터화는 기본적으로 토큰화와 인코딩 이후 진행됩니다.

<center><img src="https://drive.google.com/uc?export=view&id=1hvP2SzUKbKL8SwgSalFGopS-xU1GZO4c" width="400"/></center>

### 1. Bag-of-Word(BoW)
- 단어의 출현 여부나 횟수만을 기준으로 텍스트를 벡터화함
- 문맥 정보를 반영하기 어려움
### 2. TD-IDF(Term Frequency-Inverse Document Frequency)
- 단어 빈도(TF)와 전체 문서에서의 희소성(IDF)을 결합하여 단어의 중요도 측정
- 비교적 BoW보다 문서내에서의 의미 있는 단어 식별
### 3. Word Embedding
- Word2Vec, Glove등 각 단어를 저차원 벡터로 표현
- 단어간의 의미적 유사성을 벡터 공간에서 반영

## Bag-of-Word(BoW) 빈도 벡터화

빈도벡터화는 텍스트에서 출현한 토큰의 빈도로 벡터를 표현하는 간단한 벡터화 방식입니다

In [None]:
from google.colab import files
uploaded = files.upload()

Saving sentence_tag.csv to sentence_tag.csv


In [None]:
import pandas as pd
df = pd.read_csv('sentence_tag.csv')
df

Unnamed: 0,id,date,text,rat,text_tag
0,euge****,22.09.16.,새부리 KF94 마스크를 검색하니 네이버 랭킹 상위에 뜨고 가격도 착해서 호기심에 ...,평점5,새부리 검색 네이버 랭킹 상위 가격 호기심 핑크 베이지 색상 서요 화이트 블랙 핑크...
1,gemm****,22.05.03.,컬러 KF94 마스크를 너무나도 기다렸어요\n예쁜 컬러에 벌크포장과 저렴하면서 퀄리...,평점5,컬러 컬러 벌크 포장 퀄리티 내심 제 생각 일치 동호 런 칭 방송 때 신상 포 배 ...
2,gemm****,22.05.06.,컬러 KF94 마스크를 너무나도 기다렸어요\n세상 어디에도 없는 라이트실버 H워월V...,평점5,컬러 세상 어디 라이트 실버 워 월 색상 은단 갈치 페라리 모데나 컬러 색상 신비 ...
3,jina****,22.07.22.,라이브 보고 방송하는언니 쓴거 넘 예뻐서 100개 주문했는데 가로사이즈가 저한테 좀...,평점5,라이브 방송 언니 가로 사이즈 저 사진 부분 밀착 코 와이어 블로그 리뷰 길거리 사...
4,pim4****,22.10.21.,고민고민하다 디럭스 실버를 주문했는데\n진짜 이쁩니다. 과하지 않지만 평범하지도 않...,평점5,고민 고민 디럭스 실버 옷 옷 얼굴 디럭스 사이즈 여유 불편 맘 지인 자신 봉 구매...
...,...,...,...,...,...
2175,goon****,22.05.10.,4중구조인 거에 비해 얇아요 그리고 귀끈이 진짜 편합니다 A사는 귀는 편하나 딱맞는...,평점5,중 구조 귀 끈 귀 느낌 귀 불편 얼굴 아빠 귀 조아 저 대형 처음 회색 조아 곳
2176,bboy****,23.04.04.,가격 싸서 좋아요 하지만\n흰색 마스크를 제외한 컬러가 들어간 마스크는\n코 부분 ...,평점4,가격 흰색 제외 컬러 코 부분 안쪽 사용 시간 보풀 코 부분 개선 필요 문의 안쪽 ...
2177,0019****,22.08.13.,우순 엄청큰 봉투가 와서 놀랏고 ㅋㅋㅋ\n마구마구 넣으신듯한... 상자에 구겨져들어...,평점3,우순 봉투 상자 기분 생각 우리 얼굴 속상 기대 코 부분 옆 팔자 주름 옆 얼굴 끈...
2178,leej****,22.08.21.,기존에 에코브리즈 다른 마스크보다 우선 시원하고 크기도 큼직해서 개인적으로 기미라인...,평점5,기존 에코 브리즈 개인 기미 라인 구렛나루 부분 가을 대비 색 검정 색 브리즈 차이


빈도 벡터화는 `sklearn`의 `CountVectorizer`를 이용하여 구현합니다
- `max_df`: 해당 확률 이상으로 빈도가 많은 토큰을 제외 (파라미터)
- `min_df`: 해당 확률 이하로 빈도가 적은 토큰을 제외 (파라미터)

`CounterVectorizer`에는 `fit`함수에 문장 목록을 넣어 정보를 입력합니다. 이때 문장에서 띄어쓰기를 기준으로 토큰화하고 사전을 만드므로 미리 필요한 전처리를 진행해주어야 합니다.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# 90% 이상으로 빈도가 많은 토큰을 제외
# 10개 이하로 빈도가 적은 토큰을 제외
cvec = CountVectorizer(max_df=0.9, min_df=10)
cvec.fit(df['text_tag'])                    # 토큰생성(띄어쓰기 기반)

tokens = cvec.get_feature_names_out()       # 토큰 목록 확인
names = cvec.vocabulary_                    # 토큰 사전 확인 (여기서 사전이란?????)

print(len(tokens))
print(names)

442
{'새부리': 189, '검색': 18, '네이버': 70, '가격': 0, '핑크': 414, '베이지': 148, '색상': 193, '화이트': 432, '블랙': 173, '무엇': 127, '하루': 416, '라이브': 105, '아침': 248, '라방': 104, '여름': 273, '가을': 7, '겨울': 21, '후기': 439, '중형': 345, '일반': 319, '대형': 86, '사이즈': 181, '남편': 65, '보통': 151, '얼굴': 263, '크기': 383, '남성': 62, '전체': 330, '세로': 204, '사진': 182, '아이': 244, '어른': 260, '비교': 174, '벌크': 147, '포장': 402, '불량': 166, '사용': 179, '가성': 5, '추천': 367, '컬러': 376, '퀄리티': 382, '생각': 196, '방송': 142, '신상': 228, '오픈': 285, '구매': 39, '에코': 269, '브리즈': 171, '나중': 60, '라이트': 106, '실버': 232, '두께': 98, '프로': 408, '스타일': 216, '클래식': 385, '디럭스': 100, '안감': 249, '스펀': 218, '본드': 153, '만족': 118, '부직포': 163, '느낌': 72, '여유': 277, '참고': 358, '부분': 161, '라인': 107, '말씀': 119, '압착': 254, '처음': 361, '기대': 51, '푸름': 405, '니스': 73, '상품': 188, '출시': 369, '세상': 205, '어디': 259, '실내': 229, '언니': 262, '가로': 3, '밀착': 135, '리뷰': 113, '사람': 178, '콧등': 380, '냄새': 68, '자체': 324, '디자인': 101, '고민': 29, '불편': 169, '지인': 348, '연결': 279, '부위': 162, '한

> `get_feature_names_out`함수를 통해 텍스트 뭉치에 포함된 토큰 목록을 확인합니다.

> `vocabulary_`변수를 통해 텍스트 뭉치에 포함된 토큰의 사전을 확인합니다.

> `vocabulary_` : 학습(fit) 후 만들어진 “단어 → 인덱스” 딕셔너리

`fit`가 진행된 `CountVectorizer`에서 `transform`함수를 활용하여 문장목록을 벡터 목록으로 변환 가능합니다.

In [None]:
text = df.loc[3, 'text_tag']
text

'라이브 방송 언니 가로 사이즈 저 사진 부분 밀착 코 와이어 블로그 리뷰 길거리 사람 잘못 코 부분 최대한 콧등 소용 콧등 부분 밀착 생각 합 중형 끈 색상 촉감 얼굴 안감 공장 냄새 자체 디자인 중형 사이즈 바램'

In [None]:
import numpy as np

X = cvec.transform([text])      # 인코딩
x = X.toarray()                 # 배열로 변환

print(f'형상 확인: {x.shape}')
print(f'벡터 확인: {x}')
print(f'출현 토큰 번호 확인: {np.nonzero(x[0])}')

형상 확인: (1, 442)
벡터 확인: [[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0
  0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 1 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
  0 2 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
  0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0]]
출현 토큰 번호 확인: (array([  3,  68, 101, 105, 113, 135, 142, 161, 178,

> 토큰 개수 만큼 길이가 구성된 배열에 각 토큰 인덱스에 해당하는 토큰의 빈도 값으로 할당된 배열이 출력


전체 문장을 빈도 벡터화 하여 텍스트 붕치 내의 토큰의 본도 총합을 구할 수 있습니다.

In [None]:
X = cvec.transform(df['text_tag'])
x = X.toarray()
print(f"백터 현상 확인: {x.shape}")

csum = np.sum(x, axis=0)        # 세로(열) 방향
print(f'총합 벡터 확인: {csum}')

백터 현상 확인: (2180, 442)
총합 벡터 확인: [ 603   13   47   90   25   79   11   45   76   14   83   11   43  126
   34   18   97  116   11   44   44  117   12   11   41   21   12   40
   22  169   25   12   12   40   16   19  115   11   39 1444  259   15
   16   14   22   17   14   20  192   16   20   69   16   24   73  136
   30  202   14   16   18   51   69   11   97  195   11   45  140   10
   25   16  391   51   37   29  111   24   26   16   24   24   15   67
   27   14  944   12   12   15  102   16   38   12   11   26   20   26
  231   10 1041  154   10   17  186  272  298  129   74   36   19   16
   17  112   11   29  166   16  421   19   12   22   11   13   28   16
  110   75   25   19   54   17   17   37   11  118   12   39   11   73
   22   12  217   19  259   34   15  153  604   18   11  193   68   15
   10   30   24   37   74   21   14  500   18   23   16   15  219   14
   23  228   99  530   11  142  215   69   11   10  114  805   28 1467
  284   29   15   20   15   25  106  219  109

In [None]:
#@title 빈도 순으로 정렬

csort_ind = np.argsort(csum)[::-1]      # 역순으로 정렬
for i in csort_ind[:10]:
    print(f"{tokens[i]} : {csum[i]}")

사이즈 : 1467
구매 : 1444
얼굴 : 1415
중형 : 1255
디럭스 : 1041
대형 : 944
핑크 : 925
색상 : 827
사용 : 805
에코 : 613


## TD-IDF 벡터화

**TD-IDF** 는 단어의 빈도인 TF에 단어의 역문서 빈도인 IDF(희소성)을 곱한값으로 단어의 중요도를 나타내는 수치로 활용 가능합니다. 이런 TD-IDF값으로 문장을 벡터로 나타내는 것이 TD-IDF벡터화입니다.


TD-IDF 벡터는 `sklearn`모듈의 `TfidVectorizer`를 이용하여 간단하게 구현할 수 있습니다. 활용방법은 `CountVectorizer`와 동일합니다.
[sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfvec = TfidfVectorizer(max_df=0.9, min_df=10)
tfvec.fit(df['text_tag'])                   # 토큰 생성(띄어쓰기 기반)

tokens = tfvec.get_feature_names_out()      # 토큰 목록 확인
names = tfvec.vocabulary_                   # 토큰 사전 확인

print(tokens)
print(names)

['가격' '가격대' '가능' '가로' '가로길이' '가성' '가운데' '가을' '가족' '감기' '감사' '감안' '강추' '개별'
 '개봉' '개선' '개인' '걱정' '검색' '검수' '검정' '겨울' '결과' '결론' '경우' '계절' '고객' '고급'
 '고무줄' '고민' '고정' '고집' '고학년' '공간' '공기' '광고' '광대' '교체' '교환' '구매' '구입' '구조'
 '귀걸이' '그거' '그것' '그날' '그동안' '그레' '그레이' '금액' '기능' '기대' '기미' '기본' '기분' '기존'
 '기준' '길이' '나리' '나머지' '나중' '날씨' '남성' '남아' '남자' '남편' '낭비' '낱개' '냄새' '넙대'
 '네이버' '노란색' '느낌' '니스' '다양' '다운' '다음' '다행' '단점' '답변' '당황' '대량' '대부분' '대비'
 '대신' '대체' '대형' '더위' '덕분' '데이즈' '데일리' '도움' '도착' '도톰' '독감' '동생' '동안' '동일'
 '두께' '득템' '디럭스' '디자인' '딸기' '딸아이' '라방' '라이브' '라이트' '라인' '라지' '럭스' '레몬'
 '레몬색' '레이' '리뷰' '리색' '마감' '마음' '마지막' '만족' '말씀' '머리' '먼지' '메이크업' '며칠' '면적'
 '모델' '모양' '무엇' '묶음' '문의' '문제' '물건' '미디' '미세먼지' '미스' '밀착' '바이러스' '박스'
 '반신반의' '반품' '발견' '밝은색' '방송' '방울' '배송' '밴드' '번창' '벌크' '베이지' '보관' '보리' '보통'
 '보풀' '본드' '본인' '볼살' '봉지' '봉투' '부담' '부리' '부모' '부분' '부위' '부직포' '부탁' '분홍'
 '불량' '불량품' '불안' '불편' '브랜드' '브리즈' '브이' '블랙' '비교' '비닐' '비염' '사고' '사람' '사용'
 '사이' '사이즈' '사진' '살구색' '살색' '상세' '상자' '상태' '상품' '새부

In [None]:
import numpy as np

X = tfvec.transform([text])     # encoding
x = X.toarray()

print(f"형상 확인: {x.shape}")
print(f"벡터 확인: {x[0,:100]}")
print(f"출현 토큰 번호 확인: {np.nonzero(x[0])}")

형상 확인: (1, 442)
벡터 확인: [0.         0.         0.         0.18914998 0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.17577014 0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.         0.         0.         0.
 0.         0.         0.        

In [None]:
import numpy as np

X = tfvec.transform(df['text_tag'])
x = X.toarray()
print(x.shape)

tfmean = np.mean(x, axis=0)
tfsort_ind = np.argsort(tfmean)[::-1]
for i in tfsort_ind[:10]:
    print(f'{tokens[i]} : {tfmean[i]}')

(2180, 442)
사이즈 : 0.07475292334151314
구매 : 0.07180038270297039
얼굴 : 0.07060486181341881
중형 : 0.06690076212864184
대형 : 0.05752251386284688
핑크 : 0.05554823307510414
디럭스 : 0.05536429348509769
색상 : 0.051958085271497756
사용 : 0.04976534938989779
가격 : 0.04115382666685913


# 텍스트 임베딩

BoW, TF-IDF에서는 단어의 순서, 주변단어 등 문맥에 대한 정보가 제대로 반영되지 않습니다. 즉 단어의 문백적인 의미를 파악할 수 없다는 문제가 존재합니다.

임베딩 기법은 단어를 저차원 벡터 공간에 매핑하여 단어간 의미적 유사도를 학습하여 벡터의 값을 설정합니다.
- **단어 간의 의미 관계 학습**: 의미가 유사하거나 관련이 있는 단어들이 벡터 공간에서 가깝게 배치되어 모델이 의미적 맥락을 더 잘 이해함
- **차원 축소 및 일반화**: 저차원 벡터에 정보를 압축하여 메모리 사용량을 줄이고, 모델 학습시 일반화에 유리

임베딩은 크게 단어 임베딩과 문장 임베딩으로 나뉩니다





## Word2Vec 단어 임베딩

Word2Vec모델은 키워드 간의 유사도를 학습하여 단어 임베딩을 만드는 대표적인 모델입니다.

`gensim`라이브러리를 활용하여 `Word2Vec`모델을 구성하고 학습합니다

In [None]:
#!pip install "scipy<1.13" "gensim==4.3.3"
!pip install scipy gensim



In [None]:
!sudo apt-get -y install fonts-nanum

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  fonts-nanum
0 upgraded, 1 newly installed, 0 to remove and 41 not upgraded.
Need to get 10.3 MB of archives.
After this operation, 34.1 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 fonts-nanum all 20200506-1 [10.3 MB]
Fetched 10.3 MB in 3s (4,008 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 78, <> line 1.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Selecting previously unselected package fonts-nanum.
(Reading database ... 125081 files and dire

In [19]:
# import shutil
# import matplotlib as mpl

# # 폰트 캐시 파일을 수동으로 삭제 -- !!!조심!!! 한글이 깨질경우만 실행
# font_cache_dir = mpl.get_cachedir()
# shutil.rmtree(font_cache_dir)

import matplotlib as mpl
import shutil

shutil.rmtree(mpl.get_cachedir(), ignore_errors=True)

Word2Vec는 토큰화된 문장 목록 데이터를 통해 학습이 가능합니다. 기존 전처리된 데이터를 토큰화하여 목록으로 만듭니다.