# 영어/한국어 Word2Vec 실습

## 1. 영어 Word2Vec 만들기
### 1) 훈련 데이터 이해하기

### 2) 데이터 로드 및 전처리하기

In [1]:
import re
from lxml import etree
import urllib.request
import zipfile
from nltk.tokenize import word_tokenize, sent_tokenize

In [2]:
urllib.request.urlretrieve("https://wit3.fbk.eu/get.php?path=XML_releases/xml/ted_en-20160408.zip&filename=ted_en-20160408.zip", filename="ted_en-20160408.zip")
# 데이터 다운로드

with zipfile.ZipFile('ted_en-20160408.zip', 'r') as z:
    target_text = etree.parse(z.open('ted_en-20160408.xml', 'r'))
    parse_text = '\n'.join(target_text.xpath('//content/text()'))

    # xml 파일로부터 <content>와 </content> 사이의 내용만 가져온다.

In [3]:
parse_text[:300]

"Here are two reasons companies fail: they only do more of the same, or they only do what's new.\nTo me the real, real solution to quality growth is figuring out the balance between two activities: exploration and exploitation. Both are necessary, but it can be too much of a good thing.\nConsider Facit"

In [4]:
content_text=re.sub(r'\([^)]*\)', '', parse_text)
# 정규표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분 제거
# 해당 코드는 과호로 구성된 내용을 제거

sent_text=sent_tokenize(content_text)
# 입력한 말뭉치에 대해 NLTK를 이용하여 문장 토큰화 수행

normalized_text=[]
for string in sent_text:
    tokens=re.sub(r"[^a-z0-9]+", " ", string.lower())
    normalized_text.append(tokens)
# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화 수행

result=[word_tokenize(sentence) for sentence in normalized_text]
# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화를 수행

In [5]:
print('총 샘플 개수 : {}'.format(len(result)))

총 샘플 개수 : 273424


In [6]:
for line in result[:3]:
    print(line)

['here', 'are', 'two', 'reasons', 'companies', 'fail', 'they', 'only', 'do', 'more', 'of', 'the', 'same', 'or', 'they', 'only', 'do', 'what', 's', 'new']
['to', 'me', 'the', 'real', 'real', 'solution', 'to', 'quality', 'growth', 'is', 'figuring', 'out', 'the', 'balance', 'between', 'two', 'activities', 'exploration', 'and', 'exploitation']
['both', 'are', 'necessary', 'but', 'it', 'can', 'be', 'too', 'much', 'of', 'a', 'good', 'thing']


### 3) Word2Vec 훈련시키기

In [7]:
from gensim.models import Word2Vec
model=Word2Vec(sentences=result, 
               size=100,
              window=5,
              min_count=5,
              workers=4,
              sg=0)

In [9]:
model_result=model.wv.most_similar("school")
print(model_result)

[('college', 0.8207007050514221), ('graduate', 0.6927854418754578), ('harvard', 0.6706753373146057), ('university', 0.6683547496795654), ('hospital', 0.6678791046142578), ('clinic', 0.6260606050491333), ('home', 0.6247726678848267), ('cambridge', 0.6160434484481812), ('student', 0.6089237928390503), ('prison', 0.6066303253173828)]


### 4) Word2Vec 모델 저장하고 로드하기

In [10]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('eng_w2v') # 모델 저장
loaded_model=KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드

In [15]:
model_result=model.wv.most_similar("crime")
print(model_result)

[('corruption', 0.7390799522399902), ('hunger', 0.7210129499435425), ('coverage', 0.7203977108001709), ('threat', 0.7175663709640503), ('discrimination', 0.7144935727119446), ('finance', 0.7045069336891174), ('regulation', 0.704351544380188), ('military', 0.7018682956695557), ('aid', 0.6990828514099121), ('genocide', 0.6990755796432495)]
