## 워드 임베딩

In [None]:
# 희소 표현
# DTM: Document-Term Matrix -> 희소 행렬

# 밀집 표현
# 0, 1외의 실수값을 가지게 되는 행렬

In [None]:
# 워드 임베딩: 밀집 벡터의 형태로 표현하는 방법
# 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등이 있습니다.


In [None]:
# Word2Vec: 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화할 수 있는 방법
# 워드 임베딩(embedding): 분산 표현을 이용하여 단어 간 의미적 유사성을 벡터화하는 작업

# 분산 표현: 분포 가설을 이용하여 텍스트를 학습하고, 단어의 의미를 벡터의 여러 차원에 분산하여 표현
# 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산


In [None]:
# CBOW: Continuous Bag of Words
# Word2Vec의 학습 방식 -> CBOW와 Skip-Gram 두 가지 방식이 있다. 

# CBOW -> 주변에 있는 단어들을 입력으로 중간에 있는 단어들을 예측하는 방법
# Skip-Gram -> 중간에 있는 단어들을 입력으로 주변 단어들을 예측하는 방법

In [None]:
# CBOW 진행 방식 : 중심 단어(예측해야되는 단어)를 기준으로 주변 단어를 통해서 예측하는 것이다. 
# Word2Vec에서 입력은 모두 원-핫 벡터가 되어야 한다. 
# 주변 단어들이 은닉층에 들어가서 출력을 하게 되는 방식 -> 은닉층은 한 개이므로 얕은 신경망
# Word2Vec의 은닉층은 일반적인 은닉층과는 달리 활성화 함수가 존재하지 않으며 룩업 테이블이라는 연산을 담당하는 층으로 투사층(projection layer)이라고 부르기도 합니다.

#! 자세한 과정?
# 투사층이 Word2Vec이 되는것이다. 
# 투사층 -> RNN, LSTM이 사용되는 것은 아니고 양방향 단방향 학습도 아니구 그냥 윈도우 크기를 통해서 그 중심단어를 맞추는 느낌이다.

In [None]:
# Skip-Gram: 중심 단어에서 주변 단어를 예측
# 중심단어에서 주변단어 예측이 CBOW보다 성능이 좋다.

In [None]:
# NNLM VS Word2Vec
# 중심 단어를 예측하므로 NNLM이 예측 단어의 이전 단어들만을 참고하였던 것과는 달리, Word2Vec은 예측 단어의 전, 후 단어들을 모두 참고합니다.


In [1]:
# 영어/한국어 Word2Vec

# 영어 Word2Vec 만들기
import re
import urllib.request
import zipfile
from lxml import etree
from nltk.tokenize import word_tokenize, sent_tokenize


In [2]:
# 데이터 다운로드
urllib.request.urlretrieve(
    "https://raw.githubusercontent.com/ukairia777/tensorflow-nlp-tutorial/main/09.%20Word%20Embedding/dataset/ted_en-20160408.xml", filename="ted_en-20160408.xml")


('ted_en-20160408.xml', <http.client.HTTPMessage at 0x27032631f60>)

In [4]:
targetXML = open('ted_en-20160408.xml', 'r', encoding='UTF8')
target_text = etree.parse(targetXML)

# xml 파일로부터 <content>와 </content> 사이의 내용만 가져온다.
parse_text = '\n'.join(target_text.xpath('//content/text()'))

# 정규 표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분을 제거.
# 해당 코드는 괄호로 구성된 내용을 제거.
content_text = re.sub(r'\([^)]*\)', '', parse_text)

# 입력 코퍼스에 대해서 NLTK를 이용하여 문장 토큰화를 수행.
sent_text = sent_tokenize(content_text)

# 각 문장에 대해서 구두점을 제거하고, 대문자를 소문자로 변환.
normalized_text = []
for string in sent_text:
    tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
    normalized_text.append(tokens)

# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화를 수행.
result = [word_tokenize(sentence) for sentence in normalized_text]

print('총 샘플의 개수 : {}'.format(len(result)))


KeyboardInterrupt: 

In [None]:
# 샘플 3개만 출력
for line in result[:3]:
    print(line)
