#### 2.3.1 파이썬으로 말뭉치 전처리하기

- 파이썬의 대화 모드를 이용하여 매우 작은 텍스트 데이터(말뭉치)를 전처리해보자.        
- 전처리 : 텍스트 데이터를 단어로 분할하고, 분할된 단어들을 단어 ID 목록으로 변환하는 일    

In [5]:
text = "You said goodbye and I say hello."

text = text.lower()

# '.' 을 split을 위해 '공백.'으로 대체
# 정규표현식을 사용하여 이 방법을 대체할 수 있음.
# 정규표현식 모듈인 re를 import하고 re.split('(\\+)?'. text)로 단어단위로 분할 가능하다.
text = text.replace('.', ' .')

text

'you said goodbye and i say hello .'

In [4]:
words = text.split(' ')
words

['you', 'said', 'goodbye', 'and', 'i', 'say', 'hello', '.']

In [6]:
# 분할된 단어를 그대로 활용하기 어려우므로, 단어에 ID를 부여하고 이를 딕셔너리로 짝지어준다.

words_to_id = {}
id_to_words = {}

for word in words:
    if word not in words_to_id:
        new_id = len(words_to_id)
        
        words_to_id[word] = new_id
        id_to_words[new_id] = word

In [7]:
id_to_words

{0: 'you',
 1: 'said',
 2: 'goodbye',
 3: 'and',
 4: 'i',
 5: 'say',
 6: 'hello',
 7: '.'}

In [8]:
words_to_id

{'you': 0,
 'said': 1,
 'goodbye': 2,
 'and': 3,
 'i': 4,
 'say': 5,
 'hello': 6,
 '.': 7}

In [9]:
#단어 ID 목록으로 변경
import numpy as np

corpus = [words_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 5, 6, 7])

In [10]:
#이를 모아서 preprocessing이라는 함수로 구현
def preprocessing(text):
    
    text = text.lower()
    text = text.replace('.', ' .')

    words = text.split(' ')
    
    words_to_id = {}
    id_to_words = {}

    for word in words:
        if word not in words_to_id:
            new_id = len(words_to_id)
        
            words_to_id[word] = new_id
            id_to_words[new_id] = word
            
    corpus = np.array([words_to_id[w] for w in words])
    
    return corpus, words_to_id, id_to_words

In [11]:
text = "You are my celebrity"

corpus, words_to_id, id_to_words = preprocessing(text)

In [13]:
corpus
words_to_id

{'you': 0, 'are': 1, 'my': 2, 'celebrity': 3}

#### 2.3.2 단어의 분산 표현             

- 색에 이름을 붙일 때를 떠올려 보자. '번트 레나' 보다는 RGB(n, m, t)가 색상을 더 명확히 할 수 있다.   
- 색끼리의 관련성도 RGB가 더 쉽게 판단 가능하고, 정량화하기 쉽다.     
---
- 그럼 단어도 이렇게 표현할 수 있을까?     
- __분산 표현__ : '단어의 의미'를 정확하게 파악할 수 있는 벡터 표현   
- __단어를 고정 길이의 밀집 벡터로 표현한다.(대부분의 원소가 0이 아닌 실수인 벡터)__   

#### 2.3.3 분포 가설        

- __분포 가설__ : '단어의 의미는 주변 단어에 의해 형성된다'      
- 단어 자체는 의미가 없고, 그 단어가 사용된 맥락이 의미를 형성한다. 

![윈도우](./PostingPic/FBTT_2/윈도우.png)

- 맥락의 크기(주변 단어를 몇 개 표함할지) == 윈도우 크기      
- 윈도우 크기가 2이면 좌, 우 각 2개씩이 포함된다.

### 2.3.4 동시발생 행렬

- 분포 가설에 기초해 단어를 벡터로 만들어내려면 어떻게 해야 할까?         
- 주변 단어를 '세어보는' 방법. => 통계기반 기법

In [23]:
import sys
sys.path.append('')
import numpy as np
from common.util import preprocessing

text = "Hi, Hello, greetings"
corpus , word_to_id, id_to_word = preprocess(text)

print(corpus)
print(id_to_word)

ModuleNotFoundError: No module named 'common'

![동시발생 행렬](./PostingPic/FBTT_2/동시발생행렬.png)

In [18]:
# 동시발생 행렬을 손으로 직접 입력해보자..!

C = np.array([
    [0,1,0,0,0,0,0],
    [1,0,1,0,1,1,0],
    [0,1,0,1,0,0,0],
    [0,0,1,0,1,0,0],
    [0,1,0,1,0,0,0],
    [0,1,0,0,0,0,1],
    [0,0,0,0,0,1,0]
], dtype=np.int32)

In [19]:
# 아이디가 0인 단어의 벡터 표현
print(C[0])

[0 1 0 0 0 0 0]


In [20]:
#동시발생 행렬을 자동화
def create_co_matrix(corpus, voca_size, window_size=1):
    corpus_size = len(corpus)
    co_matrix = np.zeros((voca_size, voca_size), dtype=np.int32)
    
    for idx, word_id in enumerate(corpus):
        for i in range(1, window_size+1):
            left_index = idx-i
            right_index = idx+i
            
            if(left_index >=0):
                left_word_id = corpus[left_index]
                co_matrix[word_id, left_word_id] +=1
                
            if(right_index < corpus_size):
                right_word_id = corpus[right_index]
                co_matrix[word_id, right_word_id] +=1
                
    return co_matrix

#### 벡터 간 유사도       

- 단어 벡터의 유사도를 나타낼 때는 코사인 유사도를 자주 이용한다.    
- 코사인 유사도 ==> "두 벡터가 가리키는 방향이 얼마나 비슷한가" 두 단어가 완전히 같다면 1, 완전히 다르면 -1

In [21]:
#numpy 배열인 x,y

def cos_similarity(x, y):
    nx = x/np.sqrt(np.sum(x**2))
    ny = y/np.sqrt(np.sum(y**2))
    return np.dot(nx, ny)

- 이 경우 인수로 제로 벡터(원수가 모두 0인 벡터)가 들어오면 0으로 나누기 오류가 발생함       
- 이를 해결하기 위해 분모에 아주아주아주 작은 벡터를 더한다

In [22]:
#numpy 배열인 x,y

def cos_similarity(x, y, esp=1e-8):
    nx = x/ (np.sqrt(np.sum(x**2)) +esp)
    ny = y/ (np.sqrt(np.sum(y**2)) +esp)
    return np.dot(nx, ny)

### 2.3.6 유사 단어의 랭킹 표시

In [24]:
import sys

sys.path.append('..')
from common.util import proprocessing, create_co_matrix, cos_similarity

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocessing(text)

voca_size = len(word_to_id)

C = create_co_matrix(corpus, voca_size)

c0 = C[word_to_id['you']]
c1 = C[word_to_id['i']]

print(cos_similarity(c0, c1))

ModuleNotFoundError: No module named 'common'

##### 가장 유사도가 높은 순서대로 출력

1. 검색어의 단어 벡터를 꺼낸다.
2. 검색어의 단어 벡터와 다른 모든 단어 벡터와의 코사인 유사도를 각각 구한다.
3. 계산한 코사인 유사도를 기준으로 값이 높은 순서대로 출력한다.

- x.argsort() 내용을 오름차순으로 정렬한 후, 해당하는 인덱스를 반환