# Gensim 패키지
- Python으로 작성된 오픈 소스 라이브러리로, 자연어 처리와 관련된 다양한 기능을 제공한다.
- 주요 기능
    - **Word Embeddings**
        - word2vec, fastext, doc2vec 등 다양한 word embedding 모델을 제공
    - **토픽 모델링 (Topic Modeling)**
        - LDA등 문장의 주제를 파악하는 모델 제공
    - **텍스트/word 유사도 계산**
    - **문서 군집화**
        - 비슷한 주제의 문서들을 군집화.
    - 다양한 dataset과 pretrained model 제공
        - https://github.com/piskvorky/gensim-data
- https://radimrehurek.com/gensim/

# Gensim 패키지
- Python으로 작성된 오픈 소스 라이브러리로, 자연어 처리와 관련된 다양한 기능을 제공한다.
- 주요 기능
    - **Word Embeddings**
        - word2vec, fastext, doc2vec 등 다양한 word embedding 모델을 제공
    - **토픽 모델링 (Topic Modeling)**
        - LDA등 문장의 주제를 파악하는 모델 제공
    - **텍스트/word 유사도 계산**
    - **문서 군집화**
        - 비슷한 주제의 문서들을 군집화.
    - 다양한 dataset과 pretrained model 제공
        - https://github.com/piskvorky/gensim-data
- https://radimrehurek.com/gensim/

In [1]:
pip install gensim

Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-win_amd64.whl.metadata (8.2 kB)
Collecting numpy<2.0,>=1.18.5 (from gensim)
  Downloading numpy-1.26.4-cp312-cp312-win_amd64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting smart-open>=1.8.1 (from gensim)
  Downloading smart_open-7.0.5-py3-none-any.whl.metadata (24 kB)
Downloading gensim-4.3.3-cp312-cp312-win_amd64.whl (24.0 MB)
   ---------------------------------------- 0.0/24.0 MB ? eta -:--:--
   ----------------- ---------------------- 10.2/24.0 MB 49.1 MB/s eta 0:00:01
   ---------------------------------------- 24.0/24.0 MB 63.3 MB/s eta 0:00:00
Downloading numpy-1.26.4-cp312-cp312-win_amd64.whl (15.5 MB)
   ---------------------------------------- 0.0/15.5 MB ? eta -:--:--
   ---------------------------------------- 15.5/15.5 MB 81.6 MB/s eta 0:00:00
Downloading scipy-1.13.1-cp312-cp312-win_amd64.whl (45.9 MB)
   ----------

  You can safely remove it manually.
  You can safely remove it manually.
  You can safely remove it manually.
  You can safely remove it manually.


## 설치
- `pip install gensim`

In [2]:
import gensim

# Word2Vec 학습

- gensim.models.Word2Vec
- 주요 파라미터
    - sentences
        -  학습에 사용할 문장의 리스트. 각 문장의 단어들을 리스트는다. 문장들을 리스트로 묶어 입력한다.
        - 예시: \[\['word1', 'word2', 'word3'], \['word4', 'word5']]
    - vector_size
        -  embedding vector 크기. 기본값: 100
    - window
        -  context window 크기. 중심단어를 기준으로 좌우 몇개의 단어를 확인하는지 크기. 기본값: 5
    - min_count
        - 이 설정보다 낮은 빈도로 등장하는 단어는 무시한다. 데이터 노이즈를 줄이는데 도움이된다. 기본값: 5
    - sg
        - 모델 아키텍처 결정.
        - `0`: CBOW, `1`: Skip-gram. 기본값: 0
    - epochs
        - epochs 수 설정. 기본값: 5
    - alpha
        - initial leaning rate. 기본값: 0.025
    - min_alpha
        - 최소 learning rate. 기본값: 0.0001
        - epoch 마다 learning rate를 alpha 에서 min_alpha 까지 선형적으로 줄여나간다.
    - workers
        -  사용 Thread 수. 기본값: 3

## 학습(Train)
1. Word2Vec 의 initializer에 sentences를 넣어 한번에 학습한다.
2. Word2Vec 클래스에 학습 설정을 하고 `train()` 메소드를 이용해 학습한다.
    - epoch 단위로 작업을 할 경우 사용

In [1]:
# 샘플 텍스트 데이터
sentences = [
    "Natural language processing is an exciting field of study",
    "Word embeddings are a type of word representation",
    "Gensim is a powerful library for text processing",
    "Word2Vec creates vector representations of words", 
    "Gensim runs on Linux, Windows and OS X, as well as any other platform that supports Python and NumPy."
    "All Gensim source code is hosted on Github under the GNU LGPL license, maintained by its open source community.",
    "For commercial arrangements, see Business Support.",
    "Gensim can process arbitrarily large corpora, using data-streamed algorithms.",
    "There are no \"dataset must fit in RAM\" limitations."
]

In [4]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import os 

In [5]:
import re
def tokenizer(docs):
    # 1. 모두 소문자로 변환.
    # 2. 소문자, 숫자, _ (\w)와 공백문자(공백, 엔터, tab)을 제외한 나머지는 모두 제거.
    # 3. 단어 단위로 토큰화함.
    sent = [word_tokenize(re.sub(r"[^\w\s]", "", sentence.lower())) for sentence in docs]

    return sent

In [6]:
tokens = tokenizer(sentences)
len(tokens)

8

In [None]:
## 학습1 - 객체 생성하면서 학습데이터를 넣어주면, 학습된 객체를 반환한다.
#                                (객체를 생성하며 동시에 학습한다.)
model1 = Word2Vec(
    sentences=tokens,  # 학습 데이터
    vector_size=10,    # embedding vector 차원.(한개 단어를 몇개 숫자-feature로 표현)
    window=2,          # 중심 단어 기준 몇개 주변단어를 정할지 개수(2->좌우 2개)
    min_count=1,       # 최소 출현 빈도수, ㅈㅣ정한 빈도수 보다 적게 나오면 vocab에서 넣지 않는다.?
    epochs=10,
    workers=os.cpu_count(), # 병렬처리시 사용할 thread(cpu) 개수.
    compute_loss=True

)
model1.get_latest_training_loss()

1449.962646484375

In [7]:
os.cpu_count()

16

In [None]:
### 학습 2 -> train() method를 사용하는 방식.
## 학습 관련 설정만 settinf (학습데이터 없이 객체 생성.)
model2 = Word2Vec(vector_size=10, window=2, min_count=1, workers=os.cpu_count())

# 학습 데이터를 넣어서 어휘사전(vocab)을 모델에 생성.(학습전에 처리)
model2.build_vocab(tokens)
# 학습 처리
epochs = 10
for epoch in range(epochs):                 # 1 epoch 학습
    model2.train(
        tokens,                             # 학습데이터
        total_examples=model2.corpus_count, # 학습데이터(문서) 개수
        epochs=1,
        compute_loss=True                   # 학습이 끝나면 loss를 계산.
    )
    # loss(오차)를 조회
    loss = model2.get_latest_training_loss()
    # compute_loss=True 이면 학습이 끝나고, 누적 loss를 반환함.
    print(f"{epoch+1} 에폭의 loss는 ")


1 에폭의 loss는 
2 에폭의 loss는 
3 에폭의 loss는 
4 에폭의 loss는 
5 에폭의 loss는 
6 에폭의 loss는 
7 에폭의 loss는 
8 에폭의 loss는 
9 에폭의 loss는 
10 에폭의 loss는 


## 학습 후 결과 조회

- **KeyedVectors 조회**
    - KeyedVectors는 단어와 vector를 매핑한 객체로 embedding vector를 이용한 다양한 조회를 지원한다.
    - model.wv 로 조회해서 사용.
- **Embedding Vector 조회**
  - model.wv.vectors
- **단어 목록 조회**
    - model.wv.index_to_key, model.wv.key_to_index
- **단어 벡터 조회**
    - model.wv[word]: 특정 단어의 vector반환
- **Vocab에 대상 단어가 있는지 확인**
    - model.wv.\_\_contains\_\_(word)
- **유사단어들 찾기**
    - model.wv.most_similar(word)
- **단어간 유사도 비교**
    - model.wv.similarity(word1, word2)
- 유사도를 계산할 때 **코사인 유사도(Cosine Similarity)** 를 사용한다.

> # 코사인 유사도
> - 두 벡터 간의 유사성을 측정하는 중요한 방법 중 하나.
> - 코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 유사도를 계산한다. 이때 벡터의 크기는 결과에 영향을 미치지 않고, 오직 방향만이 중요하다.
> ## 공식
> 
> $$ similarity = cos(\theta) = \frac{A⋅B}{||A||\ ||B||} = \frac{\sum_{i=1}^{n}{A_i×B_i}}{\sqrt{\sum_{i=1}^{n}(A_i)^2}×\sqrt{\sum_{i=1}^{n}(B_i)^2}} $$
> 
> ## 결과 해석
> 
> - **값의 범위**: -1에서 1 사이의 값을 가집니다
>   - 1: 두 벡터가 완전히 동일한 방향 (0도의 cosine 값)
>   - 0: 두 벡터가 직교 (90도의 cosine 값)
>   - -1: 두 벡터가 정반대 방향 (180도의 cosine 값)
> 
> ![cosine_similarity](figures/gensim_consin_sim.png)
>
> ## Python 코사인 유사도 계산
> ```python
> from numpy import dot
> from numpy.linalg import norm
> 
> def cosine_similarity(A, B):
>     return dot(A, B)/(norm(A)*norm(B))
> ```



In [9]:
model1.wv

<gensim.models.keyedvectors.KeyedVectors at 0x28996004ef0>

In [None]:
model1.wv.index_to_key  # vocab : index -> word

['gensim',
 'is',
 'of',
 'for',
 'processing',
 'source',
 'as',
 'on',
 'word',
 'are',
 'a',
 'and',
 'words',
 'runs',
 'linux',
 'os',
 'windows',
 'vector',
 'x',
 'well',
 'any',
 'representations',
 'limitations',
 'creates',
 'word2vec',
 'text',
 'platform',
 'library',
 'powerful',
 'representation',
 'type',
 'embeddings',
 'study',
 'field',
 'exciting',
 'an',
 'language',
 'other',
 'that',
 'ram',
 'see',
 'support',
 'can',
 'process',
 'arbitrarily',
 'large',
 'corpora',
 'using',
 'datastreamed',
 'algorithms',
 'there',
 'no',
 'dataset',
 'must',
 'fit',
 'in',
 'business',
 'arrangements',
 'supports',
 'commercial',
 'python',
 'numpyall',
 'code',
 'hosted',
 'github',
 'under',
 'the',
 'gnu',
 'lgpl',
 'license',
 'maintained',
 'by',
 'its',
 'open',
 'community',
 'natural']

In [12]:
model1.wv.key_to_index  # vocab: word -> index

{'gensim': 0,
 'is': 1,
 'of': 2,
 'for': 3,
 'processing': 4,
 'source': 5,
 'as': 6,
 'on': 7,
 'word': 8,
 'are': 9,
 'a': 10,
 'and': 11,
 'words': 12,
 'runs': 13,
 'linux': 14,
 'os': 15,
 'windows': 16,
 'vector': 17,
 'x': 18,
 'well': 19,
 'any': 20,
 'representations': 21,
 'limitations': 22,
 'creates': 23,
 'word2vec': 24,
 'text': 25,
 'platform': 26,
 'library': 27,
 'powerful': 28,
 'representation': 29,
 'type': 30,
 'embeddings': 31,
 'study': 32,
 'field': 33,
 'exciting': 34,
 'an': 35,
 'language': 36,
 'other': 37,
 'that': 38,
 'ram': 39,
 'see': 40,
 'support': 41,
 'can': 42,
 'process': 43,
 'arbitrarily': 44,
 'large': 45,
 'corpora': 46,
 'using': 47,
 'datastreamed': 48,
 'algorithms': 49,
 'there': 50,
 'no': 51,
 'dataset': 52,
 'must': 53,
 'fit': 54,
 'in': 55,
 'business': 56,
 'arrangements': 57,
 'supports': 58,
 'commercial': 59,
 'python': 60,
 'numpyall': 61,
 'code': 62,
 'hosted': 63,
 'github': 64,
 'under': 65,
 'the': 66,
 'gnu': 67,
 'lgpl': 

In [15]:
# 특정 단어의 embedding vector조회

v = model1.wv["gensim"]
print(v.shape)
v

(10,)


array([-0.00530078,  0.00215998,  0.0511257 ,  0.08994552, -0.0929675 ,
       -0.07124555,  0.06510045,  0.08978292, -0.05092729, -0.0380263 ],
      dtype=float32)

In [None]:
model1.wv['.']  # 없는 단어는 key Error 발생.

In [None]:
# vocab에 특정 단어가 있는지 여부.
model1.wv.__contains__('gensim'), model1.wv.__contains__('.')

(True, False)

In [19]:
word = '.'
word = 'gensim'
if model1.wv.__contains__(word):
    print(model1.wv[word])
else:
    print(word, "는 없는 단어")

[-0.00530078  0.00215998  0.0511257   0.08994552 -0.0929675  -0.07124555
  0.06510045  0.08978292 -0.05092729 -0.0380263 ]


## 유사도 관련 메소드

In [None]:
# 유사도 계산 - 코사인 유사도.

model1.wv.most_similar("gensim")   # vocab에서  조회 단어와 유사도가 높은 10개의 단어를 반환함.

[('numpyall', 0.7189714908599854),
 ('study', 0.713896632194519),
 ('that', 0.6710396409034729),
 ('can', 0.641579270362854),
 ('datastreamed', 0.5988761782646179),
 ('is', 0.5452057123184204),
 ('other', 0.5355265140533447),
 ('maintained', 0.5195193886756897),
 ('representations', 0.5130788087844849),
 ('in', 0.5079874396324158)]

In [None]:
model1.wv.most_similar("gensim", topn=3)  # topn : 상위 N개 (default : 10)

[('numpyall', 0.7189714908599854),
 ('study', 0.713896632194519),
 ('that', 0.6710396409034729)]

In [22]:
model1.wv.most_similar("maintained", topn=3) 

[('in', 0.8884729146957397),
 ('can', 0.6601169109344482),
 ('is', 0.646406888961792)]

In [23]:
# 단어간의 유사도
model1.wv.similarity("gensim", "processing")

-0.22607413

In [24]:
# 모든 embedding vector 조회.
model1.wv.vectors

array([[-5.30078216e-03,  2.15998176e-03,  5.11256978e-02,
         8.99455249e-02, -9.29674953e-02, -7.12455511e-02,
         6.51004538e-02,  8.97829160e-02, -5.09272851e-02,
        -3.80263031e-02],
       [ 7.39076957e-02, -1.54466406e-02, -4.53684442e-02,
         6.55177534e-02, -4.86253649e-02, -1.80424210e-02,
         2.90737022e-02,  9.82502103e-03, -8.31743106e-02,
        -9.47242603e-02],
       [ 7.32511505e-02,  5.05392328e-02,  6.75722361e-02,
         7.46826502e-03,  6.35220706e-02, -3.40774544e-02,
        -9.01477318e-03,  5.78403622e-02, -7.59721324e-02,
        -3.98136228e-02],
       [-7.50671700e-02, -9.38217156e-03,  9.54507515e-02,
        -7.31930435e-02, -2.33855415e-02, -1.93917714e-02,
         8.09578523e-02, -5.92647381e-02,  1.99908551e-04,
        -4.77067195e-02],
       [-9.59166065e-02,  5.00562377e-02, -8.76059458e-02,
        -4.38948721e-02, -3.71427013e-04, -2.90183281e-03,
        -7.63971284e-02,  9.61731896e-02,  4.95607182e-02,
         9.

## 모델 저장 및 로딩

### 모델 저장, 로딩
- `model.save('저장파일 경로')`
  - gensim 자체 포맷으로 저장된다.
- `gensim.models.Word2Vec.load('저장파일 경로')`
  - `model.save()`로 저장된 모델을 Loading한다.

In [21]:
os.makedirs("saved_model/word2vec", exist_ok=True)
model1.save("saved_model/word2vec/sample_w2v.model")

In [22]:
load_model = Word2Vec.load("saved_model/word2vec/sample_w2v.model")
load_model.wv.most_similar("gensim")

[('numpyall', 0.7189714908599854),
 ('study', 0.713896632194519),
 ('that', 0.6710396409034729),
 ('can', 0.641579270362854),
 ('datastreamed', 0.5988761782646179),
 ('is', 0.5452057123184204),
 ('other', 0.5355265140533447),
 ('maintained', 0.5195193886756897),
 ('representations', 0.5130788087844849),
 ('in', 0.5079874396324158)]

### Word Embedding Vector만 저장 및 로드
- `KeyedVectors` 를 이용해 저장한다.
    - `model.wv.save_word2vec_format('저장경로', binary=True|False)`
        - binary=True: binary 파일로 저장한다. 용량이 작은 대신 내용확인이 안된다.
        - binary=False: csv(공백구분자) 형식 text로 저장한다. 내용을 확인할 수있지만 파일용량이 크다.
- `KeyedVectors.load_word2vec_format("저장경로", binary=True|False)`
    - 저장시 binary에 맞춰 읽는다.

In [23]:
model1.wv.save_word2vec_format("saved_model/word2vec/sample_wv.bin", binary=True)
model1.wv.save_word2vec_format("saved_model/word2vec/sample_wv.csv", binary=False)
# binary = True : binary 파일로 저장, binary=False:  text 로 저장

In [26]:
from gensim.models import KeyedVectors
load_wv1 = KeyedVectors.load_word2vec_format("saved_model/word2vec/sample_wv.bin", binary=True)
load_wv2 = KeyedVectors.load_word2vec_format("saved_model/word2vec/sample_wv.csv", binary=False)

In [27]:
load_wv1.most_similar('gensim')
load_wv2.most_similar('gensim')

[('numpyall', 0.7189714908599854),
 ('study', 0.713896632194519),
 ('that', 0.6710396409034729),
 ('can', 0.641579270362854),
 ('datastreamed', 0.5988761782646179),
 ('is', 0.5452057123184204),
 ('other', 0.5355265140533447),
 ('maintained', 0.5195193886756897),
 ('representations', 0.5130788087844849),
 ('in', 0.5079874396324158)]

## Pretrained 모델 사용하기
- https://github.com/Kyubyong/wordvectors

In [28]:
from zipfile import ZipFile
with ZipFile("ko_new.zip") as zf:
    zf.extractall("saved_model/word2vec")

In [30]:
ko_wv = KeyedVectors.load_word2vec_format(
    "saved_model/word2vec/ko_new.txt",
    binary=False,
    encoding='utf-8'
)

In [33]:
word = "저녁"
vec = ko_wv[word]
print(vec.shape)
print(ko_wv.most_similar(word, topn=5))

(200,)
[('아침', 0.8432561755180359), ('밤', 0.7863156199455261), ('새벽', 0.7520349025726318), ('점심', 0.7118877172470093), ('그날', 0.7105917930603027)]


# 빅카인즈 뉴스 데이터를 이용한 Word2Vec 학습
- 빅카인즈
    - 한국언론진흥재단에서 운영하는 뉴스빅데이터 분석 서비스 사이트
- 빅카인즈에서 특정 분야의 기사들을 수집해서 학습시킨다.
    - https://www.bigkinds.or.kr/
    - 회원가입 (구글, 네이버, 카카오 계정으로 가입 가능) 후 로그인
    - 뉴스분석 > 뉴스검색$\cdot$분석 클릭
    ![word2vec_bigkinds1.png](figures/word2vec_bigkinds1.png)
    - 기간, 언론사, 분류, 상세검색 등 검색 조건입력 후 조회
    ![word2vec_bigkinds1.png](figures/word2vec_bigkinds2.png)
    - 결과 다운로드
        - step3 분석결과및 시각화 -> 맨 아래 `엑셀다운로드` 클릭 
    ![word2vec_bigkinds1.png](figures/word2vec_bigkinds3.png)

In [34]:
import pandas as pd

df = pd.read_excel("dataset/NewsResult_20240820-20241120.xlsx")

  warn("Workbook contains no default style, apply openpyxl's default")


In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17710 entries, 0 to 17709
Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   뉴스 식별자             17710 non-null  float64
 1   일자                 17710 non-null  int64  
 2   언론사                17710 non-null  object 
 3   기고자                16847 non-null  object 
 4   제목                 17710 non-null  object 
 5   통합 분류1             17710 non-null  object 
 6   통합 분류2             14064 non-null  object 
 7   통합 분류3             11997 non-null  object 
 8   사건/사고 분류1          17710 non-null  object 
 9   사건/사고 분류2          5677 non-null   object 
 10  사건/사고 분류3          1815 non-null   object 
 11  인물                 8264 non-null   object 
 12  위치                 17254 non-null  object 
 13  기관                 17186 non-null  object 
 14  키워드                17710 non-null  object 
 15  특성추출(가중치순 상위 50개)  17710 non-null  object 
 16  본문                 177

In [36]:
# 본문, 제목

df = df[['제목', '본문']]
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17710 entries, 0 to 17709
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   제목      17710 non-null  object
 1   본문      17710 non-null  object
dtypes: object(2)
memory usage: 276.8+ KB


In [37]:
df.head()

Unnamed: 0,제목,본문
0,"KT에스테이트, ‘둔산 엘리프 더센트럴’ 20일 1순위 청약",KT에스테이트가 시행하고 계룡건설이 시공을 맡은 '둔산 엘리프 더센트럴'이 20일 ...
1,"한국남부발전 하동빛드림본부, 유류 누출 화재 복합 재난 대응훈련 실시",사진/한국남부발전 한국남부발전 하동빛드림본부는 '유관 기관 합동 대규모 재난대응훈련...
2,"둔산 엘리프 더센트럴, 20일 1순위 청약 접수",KT에스테이트와 계룡건설이 공급하는 ‘둔산 엘리프 더센트럴’이 오늘(20일) 1순위...
3,"[자막뉴스] 필리핀, '한국 물 관리' 배운다...기술 전수 나선 韓","태풍이 한 달 동안 필리핀을 6차례나 강타했습니다.\n\n인명 피해가 속출했고, 도..."
4,"국방부, 한국환경공단과 함께 백령도 군부대서 환경컨설팅",[사진=국방부] \n 국방부는 환경부 산하 공공기관인 한국환경공단의 전문가가 함...


In [38]:
df.tail()

Unnamed: 0,제목,본문
17705,배추 한 포기에 7000원 육박 金채소에 추석상 초라해질라,배추 6888원 50일 만에 81% 폭등 \n시금치 216% 무 57% 가격 치솟아...
17706,“수돗물에서 흙비린내 나요” 팔당호 녹조 증식에 민원 빗발,수도권 최대 식수원인 팔당호에 녹조가 발생하면서 경기지역 일부 수돗물에서 악취가 발...
17707,[투고] 폭염예방 안전수칙을 지키자,최근 폭염이 날로 더 기승을 부리면서 일상생활에서의 건강과 안전이 위협받고 있다. ...
17708,"제9호 태풍 ‘종다리’ 북상 전국 곳곳에 비, 전북 20일 오후부터 영향권",태풍 종다리 예상 이동경로/사진=기상청 제9호 태풍 '종다리'가 우리나라를 향해 북...
17709,"“희망의 물길 연다” 한국수자원공사, 위기 처한 지역과 상생 추구","‘상생’은 서로 더불어 사는 것을 의미한다. 사람과 사람, 도시와 도시, 국가와 국..."


In [39]:
# 전처리 + 토큰화
import re
from konlpy.tag import Okt

okt = Okt()
def tokenizer(text):
    text = re.sub(r"[^\w\s]", ' ', text)

    # 형용사, 명사 , 동사만 추출 + 글자수가 2글자 이상인 것.
    tokens = [word for word, pos in okt.pos(text) if pos in ["Adjective", "Noun", "Verb"] and len(word) > 1]

    # 불용어 (stopword) 제거 등 전처리를 추가
    return tokens

In [40]:
tokenizer(" 형용사, 명사 , 동사만 추출 + 글자수가 2글자 이상인 것.")

['형용사', '명사', '동사', '추출', '글자', '수가', '글자', '이상인']

In [None]:
# from konlpy.tag import Okt
# okt = Okt()
# okt.pos("안녕하세요. 반갑습니다.")

In [None]:
# Dataset 생성

token_list = []
for idx, row in df.iterrows():  # DF의 한행씩 제공 (행 index, 행데이터-Series)
    row_token = tokenizer(row['제목']+" "+row['본문'])
    token_list.append(row_token)



# [
#     [토큰 들] => 한개의 기사
#     [      ]
# ]


In [42]:
len(token_list)

17710

In [None]:
# for a in df.iterrows():   # DF의 한행씩 제공 (행 index, 행데이터-Series)
#     print(a)
#     break

In [43]:
token_list[0]

['에스테',
 '둔산',
 '리프',
 '센트럴',
 '순위',
 '청약',
 '에스테',
 '시행',
 '계룡',
 '건설',
 '시공',
 '맡은',
 '둔산',
 '리프',
 '센트럴',
 '순위',
 '청약',
 '접수',
 '진행',
 '한다',
 '청약',
 '접수',
 '한국',
 '부동산',
 '청약',
 '오전',
 '오후',
 '사이',
 '진행',
 '된다',
 '당첨',
 '발표',
 '정당',
 '계약',
 '사흘',
 '진행',
 '된다',
 '청약',
 '대전광역시',
 '세종',
 '특별자치시',
 '충청남도',
 '거주',
 '하는']

In [45]:
from gensim.models import Word2Vec

model = Word2Vec(
    vector_size=100,        # embedding vector 차원수`
    window=5,
    sg=1,                   # 0 (default): CBOW, 1: Skip-gram
    workers=os.cpu_count()
)

# Vocab 생성
model.build_vocab(token_list)
loss_list = []
best_score = float('inf')  # 무한값.
save_path = "saved_model/word2vec/bigkinds.model"
for epoch in range(1000):
    model.train(
        token_list,
        total_examples=model.corpus_count,
        epochs=1,
        compute_loss=True
    )
    loss = model.get_latest_training_loss()
    if best_score > loss:  # 성능이 개선되었으면
        model.save(save_path)
        print(f">>>>>>{epoch}에서 모델 저장")
        best_score = loss
    loss_list.append(loss)
    if epoch % 50 ==0 or (epoch+1) == 1000:
        print(f"[{epoch}/1000] loss: {loss}")

>>>>>>0에서 모델 저장
[0/1000] loss: 630939.5
>>>>>>2에서 모델 저장
>>>>>>3에서 모델 저장
>>>>>>4에서 모델 저장
>>>>>>5에서 모델 저장
>>>>>>6에서 모델 저장
>>>>>>7에서 모델 저장
>>>>>>8에서 모델 저장
>>>>>>15에서 모델 저장
>>>>>>16에서 모델 저장
>>>>>>26에서 모델 저장
>>>>>>44에서 모델 저장
>>>>>>48에서 모델 저장
[50/1000] loss: 520399.1875
>>>>>>53에서 모델 저장
>>>>>>66에서 모델 저장
[100/1000] loss: 502906.46875
>>>>>>113에서 모델 저장
>>>>>>134에서 모델 저장
>>>>>>135에서 모델 저장
[150/1000] loss: 505421.25
[200/1000] loss: 503785.90625
>>>>>>206에서 모델 저장
>>>>>>221에서 모델 저장
[250/1000] loss: 423466.03125
[300/1000] loss: 495732.34375
>>>>>>333에서 모델 저장
[350/1000] loss: 510515.71875
[400/1000] loss: 481274.90625
[450/1000] loss: 488106.21875
[500/1000] loss: 497348.78125
[550/1000] loss: 502154.75
[600/1000] loss: 485680.3125
[650/1000] loss: 500492.96875
>>>>>>656에서 모델 저장
[700/1000] loss: 483436.96875
[750/1000] loss: 494500.46875
[800/1000] loss: 491663.96875
[850/1000] loss: 419733.25
[900/1000] loss: 501973.40625
[950/1000] loss: 494782.03125
[999/1000] loss: 416204.9375


In [46]:
# 저장된 모델 loading
load_model = Word2Vec.load(save_path)

In [47]:
# Vocab 크기
wv = load_model.wv
len(wv.key_to_index)

12628

In [56]:
# 유사도 조회
word = "폭염"
word = "산사태"
word = "지진"


try:
    result = wv.most_similar(word)
    print(result)
except:
    print("없는 단어")

[('진앙', 0.5711700916290283), ('용림', 0.5479910373687744), ('길주', 0.540039598941803), ('북동쪽', 0.537863552570343), ('평안남도', 0.5339024662971497), ('북위', 0.5321610569953918), ('없을', 0.5313072800636292), ('동경', 0.526822566986084), ('지진해일', 0.5258076786994934), ('깊이', 0.523917019367218)]
