In [1]:
# 순환신경망 
# 각각의 단어를 원 핫 인코딩을 한다면 메모리 문제가 생길 수 있다. 
# 그래서 이것을 저차원으로 임베딩을 했었다. 
# 실제값과 예측값이 다르면 백프라퍼게이션으로 업데이트를 일괄적으로 진행했다.
# http://www.gutenberg.org/
# 영어원서들을 저작권 걱정 없이 사용하는 사이트이다. 영어 임베딩할때 참고해보자.

In [2]:
# 워드 임베딩
# 단어표현에는 희소표현과 밀집표현이 존재한다.
# 희소표현은 어제 했던것과 같다. 
# 단어의 종류가 1만개가 있으면 1만차원의 벡터공간을 만들어서 강아지 위치에만 1을 쓰는 식이다.
# 어제 했던 내용으로 공간낭비가 매우 심한 것이 특징이다.
# 그래서 차원을 줄이는 작업이 필요하다. 
# 밀집표현
# 단어를 밀집형태로 표현하는 방법을 워드 임베딩이라고 한다. 
# 이 밀집 임베딩 과정을 통해 나온 결과는 임베딩 벡터라고 한다.
# 원핫벡터는 1과 0으로 표현한다. 하지만 임베딩 벡터는 실수 기반으로 사용한다.

In [3]:
# 워드 투 벡터(Word2Vec)
# 워드 투 벡터는 많이 일반화가 되어있는 상태이다. 꽤 많이 사용된다. 
# 자연어가 발전이 더뎠다. 단어를 단순히 숫자로 표현하고 원핫인코딩 하는 정도로 표현했다.
# 주어진 단어에 대한 의미를 해석하는데 한계가 있었다. 단순히 순서대로만 말할 수 밖에 없었다.
# 단어는 전부 독립적이었다. 서로 관련이 없는 것이나 다름 없었다. 
# 텍스트가 담고있는 문맥을 파악하는 딥러닝이 필요로 했다. 핵심은 단어의 유사도를 파악하는 것이었다. 
# 단어의 의미를 아는 것이 아닌 단어 간의 유사한 정도를 파악하는 것이었다.
# 워트 투 벡터는 단어의 의미를 표현할 수는 없어도 단어간의 유사한 정도만 나타낼 수 있다. 
# 벡터 공간에 단어들을 표현하게 된다면 단어간의 벡터 연산을 통해서 추론까지 가능하게 할 수 있다.
# http://w.elnn.kr/search/
# 이 사이트에서 워드 투 벡터를 볼 수 있다. 
# 덧셈, 뻴셈을 통해 벡터를 찾는 것이다.
# 임베딩된 벡터 공간에 유사한 단어들이 모여있는 경향이 많이 있다. 
# 유사한 단어들이 가까이 있는 것을 바탕으로 관련성이 깊은 단어들을 찾아내는 것이다. 


In [4]:
# 벡터의 연산
# https://ballpen.blog/%EB%B2%A1%ED%84%B0%EC%9D%98-%EB%BA%84%EC%85%88-%EB%B2%A1%ED%84%B0%EC%9D%98-%EB%B3%80%ED%99%94%EB%9F%89/
# 벡터연산에 대한 정리를 잘 한 블로그이다. 
# 벡터의 덧셈은 간단하다. 그냥 평행사변형이 된다. 
# 벡터의 뻴셈은 좀 더 어렵다.
# 뺄 벡터를 반대로 180도 돌려버린 다음 덧셈처럼 연결하는 것이다. 

In [5]:
# CBOW
# 워드 투 벡터를 만드는 것은 두 가지 방법이 있다. 그 중 하나가 CBOW이다.
# 중심에 있는 단어를 예측하는 기법이다. 
# 윈도우의 크기를 n으로 기준하면 타겟 단어 옆으로 n개만큼 확인한다.
# 윈도우의 크기가 상당히 중요한데 중심단어를 기준으로 주변단어들을 확인하는 갯수가 달라진다.
# 슬라이딩 윈도우 기법을 통해서 순서대로 움직이면서 주변단어를 확인하는 식이다. 
# 그 주변의 단어들을 원핫 벡터로 정제해서 훈련을 한다. 
# 여기서 입력층을 주변 단어를 입력하고 가운데를 출력하는 방식이 있고
# 입력층 중앙의 단어를 주고 주변 단어를 출력하게 하는 방식이 존재한다.
# 여기서 히든계층은 투사층(projection layer)이라고 부른다. 
# 워드 투 벡터는 은닉층이 1개인 얕은 신경망이 바탕이다. 
# 참조(Look-up) 테이블 연산을 담당하는 층으로 투사층이라고 부른다. 
# 투사층 크기가 중요하다. 투사층의 크기만큼 임베딩 벡터의 크기가 결정된다. 
# V는 단어벡터의 크기이다. M은 임베딩하고자 하는 임베딩 차원이다. 
# 가중치 행렬은 VxM으로 정의할 수 있다. 
# 여기서 M의 숫자는 임의로 정해지는 수이다. 임베딩 벡터의 차원이다. 
# 즉 M은 단어를 나타내는 차원의 수이다. 
# 기존 신경망과 차이는 히든레이어를 빼버리고 투사층만 사용한 것이다. 
# 즉 투사층이 북치고 장구치고 다 하는 것이다. 
# M 안에는 글자들이 벡터형식으로 표시되어 있다.
# 예를 들면 지구는 [1,3], 우주는 [1,1], 멸치는 [12,5], 바다는 [5,4] 이런식으로 배치되는 식이다. 
# 가까이 배치된 단어가 연관성이 높다고 판단하는 식이다. 
# 최근접 이웃 참조랑 비슷하다. 

In [6]:
# 워드 투 벡터의 한계
# 워드 투 벡터는 단어의 위치를 파악하는데 도움이 된다. 
# 하지만 워드 투 벡터는 단어의 뜻을 파악하는 것는 불가하다. 
# 연관성이 있는 단어를 찾을 수 있지만 그 단어의 의미를 담지 못한다.
# 이번 것은 코랩에서 진행할 것이다. 

In [1]:
import re                                                # 정규표현식 
import urllib.request                                    # 웹 접속하여 리소스 가져오기
import zipfile                                           # 압축파일 해제 모듈
from lxml import etree                                   # lxml 분석기
from nltk.tokenize import word_tokenize, sent_tokenize   # 단어토큰화 작업용

In [8]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/ukairia777/tensorflow-nlp-tutorial/main/09.%20Word%20Embedding/dataset/ted_en-20160408.xml", filename="ted_en-20160408.xml")
# 테드 연사 다운로드. 사이즈가 꽤 크다. 
# 전처리하는 와중에 버려야 할 파일들이 많다. 의미없는 자료가 많이 있다. 
# 콘텐츠(content)를 가져와서 word2vector로 만들려고 한다. 
# 만약 만들게 되면 단어를 입력하면 다음 단어를 출력하게 된다. 
# 이 데이터를 가지고 전처리작업부터 시작하여 모델링하는 과정을 진행할 것이다. 
# 먼저 파일을 읽어들이는 작업을 해보자. 

('ted_en-20160408.xml', <http.client.HTTPMessage at 0x1fb4a75add0>)

In [2]:
targetXML =open('ted_en-20160408.xml', 'r', encoding= 'utf-8')     # 파일을 불러왔다. 만약에 불러와지지 않으면 인코딩 방식을 변경한다. 
targetXML                                   
# 이 데이터를 이용하여 구문분석을 해야한다. etree는 xml파일을 분석할 수 있는 모듈이다. 

<_io.TextIOWrapper name='ted_en-20160408.xml' mode='r' encoding='utf-8'>

In [3]:
target_text = etree.parse(targetXML)
# 우리가 찾는 부분은 <content>본문</content>
# 이런식으로 찾을 수 있다. 

In [4]:
parse_text = '\n'.join(target_text.xpath("//content/text()"))# 콘텐츠 태그로 묶인 것들d이 전부 나온다. 
# 줄바꿈을 해서 텍스트를 정렬하였다. 그리고 (AUDIO)같이 괄호로 묶여있는 경우가 있다. 
# 이러한 것들을 제거해야 한다. 

In [5]:
content_text = re.sub(r'\([^)]*\)', '', parse_text)  # 대괄호 안의 문자 빼고 전부 다 어떤 문자든 와도 된다는 뜻이다. 
# 괄호로 묶여있으면 모두 제거하라는 뜻이다. 
# 

In [6]:
sent_text = sent_tokenize(content_text)

In [7]:
normalized_text = []
for string in sent_text:
     tokens = re.sub(r"[^a-z0-9]+", " ", string.lower()) # 소문자로 전부 바꾼다. 이후 소문자와 숫자 모두를 제외한 나머지를 제거한다.  
     normalized_text.append(tokens)

In [8]:
result = [word_tokenize(sentence) for sentence in normalized_text] #

In [10]:
len(result) # 문장은 273424개가 있다. 

273424

In [9]:
len(set([word for sentence in result for word in sentence])) # 사실 이게 정답이다. 
# 나는 유일한 1개만 찾으려고 했다.그냥 유니크랑 다를 바 없었다. 
# 중복을 제외한 유일한 단어의 갯수였다. 
# 차원의 갯수를 줄이는 것이 이번의 핵심이었다. 

54775

In [10]:
from gensim.models import Word2Vec        # 워드 투 벡터는 젠심에 들어있는 모델이다. 
from gensim.models import KeyedVectors    # 

In [12]:
model = Word2Vec(sentences=result,vector_size=100,window=5,min_count=5, sg=0,workers=4) # 모델 제작 
# 학습에 사용되는 문장, 워드 임베딩 벡터의 크기/차원 수 지정, 윈도우 크기 지정, 
# 최소 빈도수를 가진 단어, sg=0은 CBOW 모델/ sg=1은 Skip-gram 모델, 병렬 처리 작업 CPU 수(-1은 전체)
# https://pypi.org/project/gensim/ 이 사이트에서 정보들이 있다. 
# 물론 지금은 이것보다 더 좋은 것들이 많다. 이것이 기본이 된 알고리즘이다. 
# 현재의 모델을 저장하고 싶다. 

In [14]:
model.wv.most_similar('phone')

[('card', 0.7454236745834351),
 ('phones', 0.6911575198173523),
 ('facebook', 0.6784269213676453),
 ('smartphone', 0.650154173374176),
 ('license', 0.6384608745574951),
 ('glasses', 0.6346081495285034),
 ('camera', 0.6292386651039124),
 ('car', 0.6266731023788452),
 ('telephone', 0.6264563202857971),
 ('mobile', 0.6128072738647461)]

In [15]:
model.wv.save_word2vec_format('eng_w2v')    # 현재의 모델 저장하기

In [18]:
loaded_model = KeyedVectors.load_word2vec_format('eng_w2v')# 모델 불러오기

In [19]:
loaded_model.most_similar('money')

[('attention', 0.6342179179191589),
 ('cash', 0.6150590181350708),
 ('credit', 0.5785629749298096),
 ('revenue', 0.570227861404419),
 ('food', 0.5678467154502869),
 ('funding', 0.55295729637146),
 ('effort', 0.547121524810791),
 ('resources', 0.5459961295127869),
 ('electricity', 0.5449052453041077),
 ('budget', 0.5413394570350647)]

In [20]:
# 모델 업데이트 방법
# 1. 파이프라인 : 데이터 수집, 정제, 전처리, 모델링을 자동화하는 과정이다. 
# 이것을 자동화, 주기적으로 하는 방법이 있다. 
# 2. 파인튜닝 : 추가학습모델
# 퍼러미터를 미세하게 조정하는 과정이다. 

In [21]:
import pandas as pd
import matplotlib.pyplot as plt
import urllib.request
from gensim.models.word2vec import Word2Vec
from konlpy.tag import Okt

In [22]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt", filename="ratings.txt")


('ratings.txt', <http.client.HTTPMessage at 0x1639d69b690>)

In [23]:
train_data = pd.read_table('ratings.txt')

In [24]:
train_data = train_data.dropna(how = 'any') # 

In [25]:
print(len(train_data))

199992


In [26]:
train_data['document'] = train_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

In [27]:
# 불용어 정의
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

# 형태소 분석기 OKT를 사용한 토큰화 작업 (다소 시간 소요)
okt = Okt()

In [30]:
train_data['document'][0]

'어릴때보고 지금다시봐도 재밌어요ㅋㅋ'

In [31]:
okt.morphs(train_data['document'][0])

['어릴', '때', '보고', '지금', '다시', '봐도', '재밌어요', 'ㅋㅋ']

In [32]:
okt.morphs(train_data['document'][0],stem = True)

['어리다', '때', '보고', '지금', '다시', '보다', '재밌다', 'ㅋㅋ']

In [33]:
pip install tqdm              # tqdm을 사용해보자. 

Note: you may need to restart the kernel to use updated packages.


In [36]:
from tqdm import tqdm

In [None]:
# 토큰화 작업을 해야한다. 

In [37]:
tokenized_data = []
for sentence in tqdm(train_data['document']):                             # tqdm을 데이터로 입력하여 1개씩 반복한다. 
    tokenized_sentence = okt.morphs(sentence, stem=True)                  # 토큰화. 스템은 True다. 
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거부. 
    tokenized_data.append(stopwords_removed_sentence)                     # 이중 리스트로 저장하기 

100%|█████████████████████████████████████████████████████████████████████████| 199992/199992 [14:53<00:00, 223.78it/s]


In [38]:
# 단어 차원을 몇 차원으로 할 것인가를 고민해야 한다. 디폴트는 100차원이다. 
from gensim.models import Word2Vec

model = Word2Vec(sentences = tokenized_data, vector_size = 100,        # 100 벡터사이즈이다. 100개의 차원으로 단어를 나타낸다. 
                 window = 5, min_count = 5, workers = 4, sg = 0)       # 윈도우 5, 최소카운트5, 작업4,  CBOW모델 사용      

In [39]:
model.wv.vectors.shape

(17615, 100)

In [40]:
print(model.wv.most_similar("쓰레기"))  # 꽤 많이 쓰인 모양이다. 

[('삼류', 0.6199633479118347), ('졸작', 0.5910975933074951), ('OO', 0.538964033126831), ('OOOO', 0.5131309628486633), ('똥', 0.5012091398239136), ('OOO', 0.4945148527622223), ('망하다', 0.4811770021915436), ('병맛', 0.4811655580997467), ('ㅄ', 0.47963789105415344), ('빨갱이', 0.474771648645401)]


In [41]:
print(model.wv.most_similar("사이코")) # 꽤 많이 쓰인 모양이다. 

[('콩가루', 0.7485252022743225), ('질의', 0.7484718561172485), ('지리하다', 0.7460928559303284), ('꾼', 0.7402157783508301), ('추잡하다', 0.7307684421539307), ('필연', 0.7193666696548462), ('설움', 0.7178344130516052), ('리즘', 0.7175979018211365), ('싸이코', 0.7155318856239319), ('비화', 0.7102872729301453)]


In [42]:
print(model.wv.most_similar("초승달"))   # 없을것이다. 시적 표현을 쓰는 사람은 많지 않다. 

KeyError: "Key '초승달' not present in vocabulary"

In [43]:
import gensim
import urllib.request

In [44]:
import gensim.downloader as api

wv = api.load('word2vec-google-news-300')

[--------------------------------------------------] 1.4% 23.4/1662.8MB downloaded

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[==------------------------------------------------] 4.0% 67.1/1662.8MB downloaded

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[===-----------------------------------------------] 6.7% 110.8/1662.8MB downloaded

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[====----------------------------------------------] 9.3% 154.3/1662.8MB downloaded

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)



[=====---------------------------------------------] 11.9% 198.0/1662.8MB downloaded

IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)





In [46]:
wv.vectors.shape # 300만개의 단어와 300차원이다. 

(3000000, 300)

In [45]:
print(word2vec_model.similarity('this', 'is'))
print(word2vec_model.similarity('post', 'book'))

NameError: name 'word2vec_model' is not defined

In [47]:
wv.similarity("post","book")

0.057204388

In [48]:
wv.similarity("this","is")

0.40797037

In [50]:
wv['book'].argmax()

287

In [51]:
# 초거대 언어모델도 이런 것들을 기반으로 만들어진다. 
# 언어모델을 영화 댓글로 만든 것이다. 
# 신조어는 항상 생길 것이다. 이러한 것들도 업데이트 되어야 한다. 
# https://projector.tensorflow.org/ 여기서도 확인 가능해질 것이다. 
# 단어 지도를 3차원으로 보여주는 사이트이다. 
# 원래는 100차원이다. 3차원이 아니라는 것을 주의하자. 차원축소를 해서 보여주는 것이다. 
model.wv.save_word2vec_format("kor_w2v")

In [52]:
!python -m gensim.scripts.word2vec2tensor --input kor_w2v --output kor_w2v # 파일을 변환하자. tsv파일로 바꿔야 한다.
# 이제 자신의 모델을 이용해서 자신의 언어모음들의 텐서들을 볼 수 있다.

2023-11-08 15:10:19,462 - word2vec2tensor - INFO - running C:\Users\user\anaconda3\Lib\site-packages\gensim\scripts\word2vec2tensor.py --input kor_w2v --output kor_w2v
2023-11-08 15:10:19,462 - keyedvectors - INFO - loading projection weights from kor_w2v
2023-11-08 15:10:20,465 - utils - INFO - KeyedVectors lifecycle event {'msg': 'loaded (17615, 100) matrix of type float32 from kor_w2v', 'binary': False, 'encoding': 'utf8', 'datetime': '2023-11-08T15:10:20.457927', 'gensim': '4.3.0', 'python': '3.11.5 | packaged by Anaconda, Inc. | (main, Sep 11 2023, 13:26:23) [MSC v.1916 64 bit (AMD64)]', 'platform': 'Windows-10-10.0.19045-SP0', 'event': 'load_word2vec_format'}
2023-11-08 15:10:21,299 - word2vec2tensor - INFO - 2D tensor file saved to kor_w2v_tensor.tsv
2023-11-08 15:10:21,299 - word2vec2tensor - INFO - Tensor metadata file saved to kor_w2v_metadata.tsv
2023-11-08 15:10:21,300 - word2vec2tensor - INFO - finished running word2vec2tensor.py


In [None]:
# 연습문제가 주어질 예정이다. 
# 원하는 언어들을 를 직접 스크랩을 한다 - 워드 임베딩을 해보자. 
# 적당한 크기를 써서 워드 임베딩과 시각화를 해보자. 