<a href="https://colab.research.google.com/github/Pheol9166/AIstudy/blob/main/Word2Vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Word2vec 한국어 데이터 실습

In [None]:
# 데이터 준비
import urllib.request
import pandas as pd
import re
from konlpy.tag import Okt
from tqdm import tqdm
from gensim.models import Word2Vec

urllib.request.urlretrieve("https://raw.githubusercontent.com/bab2min/corpus/master/sentiment/steam.txt", filename="steam.txt") # 데이터
urllib.request.urlretrieve("https://raw.githubusercontent.com/stopwords-iso/stopwords-ko/master/raw/gh-stopwords-json-ko.txt", filename="stopwords.txt") # 불용어

('stopwords.txt', <http.client.HTTPMessage at 0x79a6a81bb9d0>)

In [None]:
data = pd.read_table("./steam.txt", names=["P/N", "context"])
data = data['context']
data = data[:10000] # 컴퓨터 성능 관계로 10000개만 잘라서 사용
data

0                                               노래가 너무 적음
1                         돌겠네 진짜. 황숙아, 어크 공장 그만 돌려라. 죽는다.
2                        막노동 체험판 막노동 하는사람인데 장비를 내가 사야돼 뭐지
3                    차악!차악!!차악!!! 정말 이래서 왕국을 되찾을 수 있는거야??
4                     시간 때우기에 좋음.. 도전과제는 50시간이면 다 깰 수 있어요
                              ...                        
9995    하루만 플레이하고나면 지겨워서 못함..인구 농사 목축 인구 농사 목축 인구 농사 목...
9996    거지같아도 대체제가 없다는게 이 게임의 가장 큰 문제일것이다. 뭐 크래시라던가 초기...
9997    스팀에서 산 사람도 한글화 내놔라... 이 게임 스팀에서 사지마세요 스팀에서 사면 ...
9998    솔직히 앞부분은 굉장히 신선했는데 후반갈수록 메인스토리가 잊혀지는 느낌을 잊을 수 ...
9999    해보고 한동안 접었는데 다시해뵈 이상하게 재미있따 아마도 이건 요그사론님의 계략인것...
Name: context, Length: 10000, dtype: object

In [None]:
# 결측값 확인
print(data.isnull().values.any())

False


In [None]:
def get_stopwords() -> list[str]
  f = open("./stopwords.txt", "r")
  stopword_lst = f.readlines()
  stopword_lst = list(map(lambda x: x.strip(), stopword_lst))

  return stopword_lst

stopwords = get_stopwords()
stopwords[:5]

['!', '"', '$', '%', '&']

In [None]:
# 불용어 처리
tokenizer = Okt()

result = []

for text in tqdm(data):
  text = re.sub(r"[^가-힣]", "", text)
  tokens = tokenizer.morphs(text)
  removed_stopword_tokens = [token for token in tokens if token not in stopwords]
  result.append(removed_stopword_tokens)

result[:5]

 30%|███       | 3036/10000 [11:54<27:18,  4.25it/s] 
100%|██████████| 10000/10000 [09:04<00:00, 18.36it/s]


[['노래', '무적', '음'],
 ['돌겠', '진짜', '황숙', '크', '공장', '그만', '돌려라', '죽는다'],
 ['막노동', '체험판', '막노동', '는', '사람', '인데', '장비', '내', '가사', '돼', '뭐', '지'],
 ['차악차악차', '악정', '말', '이래서', '왕국', '되찾을수있는거야'],
 ['때우기에', '좋음', '도전', '과제', '는', '면', '다', '깰수있어요']]

In [None]:
# SGNS 사용
model = Word2Vec(sentences = result, vector_size = 100, window = 5, min_count = 5, workers = 4, sg = 0)

In [None]:
model.wv.vectors.shape

(3747, 100)

In [None]:
# 단어 유사도 관계 확인
model.wv.most_similar("스토리")

[('난이도', 0.9995846152305603),
 ('너무', 0.9995797872543335),
 ('퍼즐', 0.9995516538619995),
 ('별로', 0.99954754114151),
 ('반복', 0.9995182752609253),
 ('맵', 0.9995167851448059),
 ('전투', 0.9995136260986328),
 ('없고', 0.9995097517967224),
 ('요소', 0.9995085000991821),
 ('부분', 0.9995018839836121)]

In [None]:
model.wv.most_similar("노동")

[('발전', 0.9925820231437683),
 ('께', 0.9925667643547058),
 ('달성', 0.9924764037132263),
 ('걸왜', 0.9924741387367249),
 ('클리어', 0.9924677014350891),
 ('난', 0.9924471974372864),
 ('렉', 0.9924428462982178),
 ('코드', 0.9924314022064209),
 ('됨', 0.9924232363700867),
 ('인생', 0.9924017190933228)]