# 임베딩(embedding)

### 카운트 벡터화 실습

In [1]:
import sklearn
sklearn.__version__

'1.2.2'

#### 텍스트 데이터

In [2]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text_sample_02 = 'You take the blue pill and the story ends.\
You wake in your bed and you believe whatever you want to believe\
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

In [3]:
text = []
text.append(text_sample_01)
text.append(text_sample_02)
text

['The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes.',
 'You take the blue pill and the story ends.You wake in your bed and you believe whatever you want to believeYou take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.']

#### CountVectorizer객체 생성 후 fit()으로 단어사전 생성

In [4]:
from sklearn.feature_extraction.text import CountVectorizer 

In [5]:
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

#### 생성된 단어사전 확인 :  `vocabulary_` 속성

In [6]:
# word_index와 비슷하나 인덱스 매핑 기준은 알파벳 순서
print(cnt_vect.vocabulary_)

{'the': 39, 'matrix': 23, 'is': 20, 'everywhere': 12, 'its': 22, 'all': 0, 'around': 2, 'us': 42, 'here': 16, 'even': 11, 'in': 19, 'this': 40, 'room': 31, 'you': 50, 'can': 7, 'see': 32, 'it': 21, 'out': 26, 'your': 51, 'window': 47, 'or': 25, 'on': 24, 'television': 38, 'feel': 13, 'when': 46, 'go': 14, 'to': 41, 'work': 49, 'church': 8, 'pay': 27, 'taxes': 37, 'take': 36, 'blue': 6, 'pill': 28, 'and': 1, 'story': 35, 'ends': 10, 'wake': 43, 'bed': 3, 'believe': 4, 'whatever': 45, 'want': 44, 'believeyou': 5, 'red': 30, 'stay': 34, 'wonderland': 48, 'show': 33, 'how': 18, 'deep': 9, 'rabbit': 29, 'hole': 17, 'goes': 15}


In [7]:
len(cnt_vect.vocabulary_)

52

#### 데이터 적용하여 피처벡터화

In [8]:
# transform -> 피처벡터화 -> 중복된 단어를 제외하고 여러 문서를 합쳐 count 벡터화
ftr_mat = cnt_vect.transform(text)
ftr_mat

<2x52 sparse matrix of type '<class 'numpy.int64'>'
	with 57 stored elements in Compressed Sparse Row format>

#### 피처 벡터화 후 데이터 유형 및 여러 속성 확인

In [9]:
ftr_mat.toarray()

array([[1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2,
        1, 1, 1, 3, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 2, 1, 0,
        0, 0, 1, 1, 0, 1, 3, 3],
       [0, 4, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 2, 0, 0,
        0, 0, 0, 0, 0, 0, 2, 1, 1, 0, 0, 1, 1, 1, 2, 0, 0, 4, 0, 1, 0, 1,
        1, 1, 0, 0, 1, 0, 6, 1]], dtype=int64)

#### 빈도가 높은 5개 피처만 갖도록 카운트 벡터화

In [10]:
cnt_vect = CountVectorizer(max_features=5)
cnt_vect.fit(text)
ftr_mat = cnt_vect.transform(text)
print(type(ftr_mat))
print(f'크기', ftr_mat.shape)
print(f'단어집합(사전)', cnt_vect.vocabulary_)

<class 'scipy.sparse._csr.csr_matrix'>
크기 (2, 5)
단어집합(사전) {'the': 1, 'you': 3, 'your': 4, 'to': 2, 'and': 0}


#### ngram_range를 적용한 카운트 벡터화

- ngram_range=(1,3) : 단어 1개씩 토큰화하고 순서대로 연속된 3개 단어를 묶어서 피처화

##### ngram_range=(1,3) -> 단어 1개씩, 2개씩, 3개씩 뭉쳐서 표현
- "고양이는 창문을 통해 나가고 싶어합니다." -> 
- (1-gram): "고양이는", "창문을", "통해", "나가고", "싶어합니다."
- (2-gram): "고양이는 창문을", "창문을 통해", "통해 나가고", "나가고 싶어합니다."
- (3-gram): "고양이는 창문을 통해", "창문을 통해 나가고", "통해 나가고 싶어합니다."

In [11]:
cnt_vect = CountVectorizer(ngram_range=(1,3))
cnt_vect.fit(text)
ftr_mat = cnt_vect.transform(text)
print(type(ftr_mat))
print(f'크기', ftr_mat.shape)
print(f'단어집합(사전)', cnt_vect.vocabulary_)

<class 'scipy.sparse._csr.csr_matrix'>
크기 (2, 202)
단어집합(사전) {'the': 130, 'matrix': 78, 'is': 67, 'everywhere': 41, 'its': 75, 'all': 0, 'around': 11, 'us': 151, 'here': 52, 'even': 38, 'in': 60, 'this': 141, 'room': 107, 'you': 175, 'can': 26, 'see': 110, 'it': 70, 'out': 91, 'your': 194, 'window': 166, 'or': 84, 'on': 81, 'television': 127, 'feel': 44, 'when': 163, 'go': 47, 'to': 144, 'work': 172, 'church': 29, 'pay': 94, 'taxes': 126, 'the matrix': 133, 'matrix is': 79, 'is everywhere': 68, 'everywhere its': 42, 'its all': 76, 'all around': 1, 'around us': 12, 'us here': 152, 'here even': 53, 'even in': 39, 'in this': 61, 'this room': 142, 'room you': 108, 'you can': 178, 'can see': 27, 'see it': 111, 'it out': 71, 'out your': 92, 'your window': 200, 'window or': 167, 'or on': 87, 'on your': 82, 'your television': 198, 'television you': 128, 'you feel': 180, 'feel it': 45, 'it when': 73, 'when you': 164, 'you go': 182, 'go to': 48, 'to work': 149, 'work or': 173, 'or go': 85, 'to ch

In [12]:
ftr_mat.toarray()

array([[1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 2, 2, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0,
        0, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 3, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0,
        0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 2, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 3,
        0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 3, 0, 0, 1,
        1, 1, 1, 1],
       [0, 0, 0, 4, 1, 1, 1, 1, 2, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 2, 0, 0, 1, 1, 1,
        1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 

#### 한글텍스트에 대한 카운트 벡터화

In [13]:
text2 = ['나는 배가 고프다', '내일 점심 뭐먹지','내일 공부해야겠다','점심 먹고 공부해야지']

cnt_vect = CountVectorizer()
cnt_vect.fit(text2)
ftr_mat = cnt_vect.transform(text2)
print(type(ftr_mat))
print(f'크기', ftr_mat.shape)
print(f'단어집합(사전)', cnt_vect.vocabulary_)

<class 'scipy.sparse._csr.csr_matrix'>
크기 (4, 9)
단어집합(사전) {'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부해야겠다': 1, '먹고': 5, '공부해야지': 2}


In [14]:
ftr_mat.toarray()

array([[1, 0, 0, 1, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1, 0, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 0, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 1]], dtype=int64)

## 단어 수치화: 카운트 기반

단어 표현:
- Local(국소): 해당 단어 그 자체만 보고 특정 값을 매핑하여 단어를 표현
  - 원핫벡터, BOW(카운트기반: 문서단어행렬(DTM), TFIDF)
<br>
<br>
- Distributed(분산): 주변 단어들을 참고하여 해당 단어를 표현
  - Word2Vec, FastText, Glove, LSA

#### 문서단어 행렬(Document-Term Matrix: DTM)
- 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현
- 각 문서에 대한 BOW를 하나의 행렬로 만든 것
- BOW와 다른 표현 방법이 아니라 BOW표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어
- 서로 다른 문서들을 비교할 수 있음

### TF-IDF 피처벡터화 실습

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [16]:
text

['The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes.',
 'You take the blue pill and the story ends.You wake in your bed and you believe whatever you want to believeYou take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.']

In [22]:
tfidf_v = TfidfVectorizer()
tfidf_v.fit(text)
ftr_mat = tfidf_v.transform(text)
print(f'크기:',ftr_mat.shape)
print(f'인덱스:\n',tfidf_v.vocabulary_)

크기: (2, 52)
인덱스:
 {'the': 39, 'matrix': 23, 'is': 20, 'everywhere': 12, 'its': 22, 'all': 0, 'around': 2, 'us': 42, 'here': 16, 'even': 11, 'in': 19, 'this': 40, 'room': 31, 'you': 50, 'can': 7, 'see': 32, 'it': 21, 'out': 26, 'your': 51, 'window': 47, 'or': 25, 'on': 24, 'television': 38, 'feel': 13, 'when': 46, 'go': 14, 'to': 41, 'work': 49, 'church': 8, 'pay': 27, 'taxes': 37, 'take': 36, 'blue': 6, 'pill': 28, 'and': 1, 'story': 35, 'ends': 10, 'wake': 43, 'bed': 3, 'believe': 4, 'whatever': 45, 'want': 44, 'believeyou': 5, 'red': 30, 'stay': 34, 'wonderland': 48, 'show': 33, 'how': 18, 'deep': 9, 'rabbit': 29, 'hole': 17, 'goes': 15}


In [23]:
# toarray -> transform 보는 방법
ftr_mat.toarray()

array([[0.13847566, 0.        , 0.13847566, 0.        , 0.        ,
        0.        , 0.        , 0.13847566, 0.13847566, 0.        ,
        0.        , 0.13847566, 0.13847566, 0.13847566, 0.27695132,
        0.        , 0.13847566, 0.        , 0.        , 0.09852657,
        0.13847566, 0.27695132, 0.13847566, 0.13847566, 0.13847566,
        0.41542698, 0.13847566, 0.13847566, 0.        , 0.        ,
        0.        , 0.13847566, 0.13847566, 0.        , 0.        ,
        0.        , 0.        , 0.13847566, 0.13847566, 0.09852657,
        0.13847566, 0.19705315, 0.13847566, 0.        , 0.        ,
        0.        , 0.13847566, 0.13847566, 0.        , 0.13847566,
        0.29557972, 0.29557972],
       [0.        , 0.47350659, 0.        , 0.11837665, 0.11837665,
        0.11837665, 0.11837665, 0.        , 0.        , 0.11837665,
        0.11837665, 0.        , 0.        , 0.        , 0.        ,
        0.11837665, 0.        , 0.11837665, 0.11837665, 0.16845192,
        0.     

In [27]:
text2 = ['나는 배가 고프다', '내일 점심 뭐먹지','내일 공부해야겠다','점심 먹고 공부해야지']
tfidf_v2 = TfidfVectorizer()
tfidf_v2.fit(text2)
ftr_mat2 = tfidf_v2.transform(text2)
print(f'크기:',ftr_mat2.shape)
print(f'인덱스:\n',tfidf_v2.vocabulary_)
ftr_mat2.toarray()

크기: (4, 9)
인덱스:
 {'나는': 3, '배가': 7, '고프다': 0, '내일': 4, '점심': 8, '뭐먹지': 6, '공부해야겠다': 1, '먹고': 5, '공부해야지': 2}


array([[0.57735027, 0.        , 0.        , 0.57735027, 0.        ,
        0.        , 0.        , 0.57735027, 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.52640543,
        0.        , 0.66767854, 0.        , 0.52640543],
       [0.        , 0.78528828, 0.        , 0.        , 0.6191303 ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.61761437, 0.        , 0.        ,
        0.61761437, 0.        , 0.        , 0.48693426]])

#### 유사도 행렬 계산
- 문장 간의 유사도 계산
- 매트릭스와 transpose한 매트릭스를 곱해 유사도를 계산
- 자기자신과의 곱은 1, 유사하지 않을수록 0의 수렴

In [30]:
# 영문 문서들간의 유사도
doc_dist = ftr_mat * ftr_mat.T

# 한글 문서들간의 유사도
doc_dist2 = ftr_mat2 * ftr_mat2.T

In [31]:
doc_dist.toarray()

array([[1.        , 0.24065636],
       [0.24065636, 1.        ]])

In [32]:
doc_dist2.toarray()

array([[1.        , 0.        , 0.        , 0.        ],
       [0.        , 1.        , 0.32591355, 0.25632484],
       [0.        , 0.32591355, 1.        , 0.        ],
       [0.        , 0.25632484, 0.        , 1.        ]])

In [33]:
text2

['나는 배가 고프다', '내일 점심 뭐먹지', '내일 공부해야겠다', '점심 먹고 공부해야지']

#### COO, CSR 표현 실습
- COO(Coordinate) 행렬:
  - 비어 있지 않은 요소의 행, 열 및 해당 값의 좌표를 저장
- CSR(Compressed Sparse Row) 행렬:
  - 행의 시작 위치를 나타내는 인덱스 배열과 값 배열로 구성

In [35]:
import numpy as np
from scipy import sparse

In [37]:
mat = np.array([[0,0,1,0,0,5],
              [1,4,0,3,2,5],
              [0,6,0,3,0,0],
              [2,0,0,0,0,0],
              [0,0,0,7,0,8],
              [1,0,0,0,0,0]])

In [39]:
# 0이 아닌 데이터
data = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])

# 행 위치
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])

# 열 위치
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

- Coo표현

In [42]:
sparse_coo = sparse.coo_matrix((data,(row_pos,col_pos)))

In [43]:
sparse_coo.toarray()

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

In [44]:
mat

array([[0, 0, 1, 0, 0, 5],
       [1, 4, 0, 3, 2, 5],
       [0, 6, 0, 3, 0, 0],
       [2, 0, 0, 0, 0, 0],
       [0, 0, 0, 7, 0, 8],
       [1, 0, 0, 0, 0, 0]])

----------