## 1. 네거티브 샘플링(Negative Sampling)
* 네거티브 샘플링은 Word2Vec이 학습 과정에서 전체 단어 집합이 아니라 일부 단어 집합에만 집중할 수 있도록 하는 방법
* 하나의 중심 단어에 대해서 전체 단어 집합보다 훨씬 작은 단어 집합을 만들어놓고 마지막 단계를 이진 분류 문제로 변환
* 주변 단어들을 긍정(positive), 랜덤으로 샘플링 된 단어들을 부정(negative)으로 레이블링한다면 이진 분류 문제를 위한 데이터셋이 된다.

## 2. 네거티브 샘플링 Skip-Gram(Skip-Gram with Negative Sampling, SGNS)
* Skip-gram은 중심 단어로부터 주변 단어를 예측하는 모델
* SGNS는 같이 중심 단어와 주변 단어가 모두 입력이 되고, 이 두 단어가 실제로 윈도우 크기 내에 존재하는 이웃 관계인지 그 확률을 예측
* 중심 단어와 주변단어를 구성하는데 주변 단어가 이웃 관계이면 레이블을 1, 단어 집합에서 랜덤으로 선택한 단어이면 레이블 0
* 두 개의 임베딩 테이블에 각각 중심 단어의 테이블 룩업을, 주변 단어의 테이블 룩업을 한다.
* 중심 단어와 주변 단어의 내적값을 이 모델의 예측값으로 하고, 레이블과의 오차로부터 역전파하여 중심 단어와 주변 단어의 임베딩 벡터값을 업데이트

In [1]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import nltk
from nltk.corpus import stopwords
from sklearn.datasets import fetch_20newsgroups
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers','footers','quotes'))
documents = dataset.data
print('총 샘플 수 : ', len(documents))

총 샘플 수 :  11314


In [None]:
news_df = pd.DataFrame({'document': documents})
a = news_df.head()
print(a)

for s in a['document']:
    for w in s:
        print(w)
        print('****')

In [None]:
news_df = pd.DataFrame({'document': documents})
# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")
# 길이가 3이하인 단어는 제거 (길이가 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))
# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

In [None]:
news_df.isnull().values.any()