## Word2vec

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
from gensim.models.keyedvectors import KeyedVectors
# word2vec 벡터 파일 불러오기 (links.txt의 1. GoogleNews-vectors-negative300.bin.gz)
# 경로 수정 필요
!cp drive/MyDrive/GoogleNews-vectors-negative300.bin.gz .
!gunzip -k GoogleNews-vectors-negative300.bin.gz

In [None]:
# model 선언
model = KeyedVectors.load_word2vec_format("./GoogleNews-vectors-negative300.bin",binary=True,limit=60000)
print(model['apple'])

In [None]:
# 유사도 비교
print("similarity between apple and fruit: {:.3f}".format(model.similarity("apple", "fruit")))
print("similarity between apple and car: {:.3f}".format(model.similarity("apple", "car")))
print(model.most_similar("apple", topn=10))

similarity between apple and fruit: 0.641
similarity between apple and car: 0.128
[('apples', 0.7203598022460938), ('pear', 0.6450696587562561), ('fruit', 0.6410146355628967), ('berry', 0.6302294731140137), ('pears', 0.6133961081504822), ('strawberry', 0.6058261394500732), ('peach', 0.6025873422622681), ('potato', 0.596093475818634), ('grape', 0.5935864448547363), ('blueberry', 0.5866668224334717)]


In [None]:
# king, women, man
print(model.most_similar(positive=['king', 'woman'], negative=['man'], topn=3))

[('queen', 0.7118192911148071), ('monarch', 0.6189674139022827), ('princess', 0.5902431011199951)]


In [None]:
print(model.most_similar(positive=['dog', 'child'], negative=['adult'], topn=3))

[('puppy', 0.6720112562179565), ('pooch', 0.6400539875030518), ('pup', 0.612525224685669)]


## 한글 Word2vec

In [None]:
import gensim
# train이 완료된 한글 벡터 불러오기 (links.txt의 2. ko.zip 다운받아 압축풀기)
# 경로 수정 필요
ko_model = gensim.models.Word2Vec.load('/content/drive/MyDrive/ko.bin')

In [None]:
ko_model.wv.vectors.shape

(30185, 200)

In [None]:
ko_model.wv.most_similar("강아지")

[('고양이', 0.7290452718734741),
 ('거위', 0.7185635566711426),
 ('토끼', 0.7056223154067993),
 ('멧돼지', 0.6950401067733765),
 ('엄마', 0.6934334635734558),
 ('난쟁이', 0.6806551218032837),
 ('한마리', 0.6770296096801758),
 ('아가씨', 0.6750352382659912),
 ('아빠', 0.6729634404182434),
 ('목걸이', 0.6512460708618164)]

In [None]:
print(ko_model.wv.most_similar(positive=['개', '어린이'], negative=['어른'], topn=5))
# 영어만큼 충분히 학습되지 못해서 성능이 떨어짐

[('개의', 0.6035549640655518), ('개소', 0.5080667734146118), ('군데', 0.49295181035995483), ('전시실', 0.4303102493286133), ('점자', 0.41103148460388184)]


## 카카오톡 단어벡터 만들기

In [None]:
import re
!pip install konlpy
from konlpy.tag import Okt
from tqdm import tqdm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
# 불용어 정의
with open('stopwords.txt', 'r') as f:
  stopwords = f.readline().split(',')

# 형태소 분석기
okt = Okt()

# 학생들 각자의 카카오톡 대화 파일 열기
with open('카카오톡 대화.txt', 'r') as f:
  line = f.readline()
  corpus = []
  cnt = 0
  while line:
    # url 제거
    if 'https://' not in line:
      # 개행 제거
      line = line.strip('\n')
      # 날짜와 시간, 사람이름 제거
      if ' : ' in line : 
       line = line[line.index(' : ')+2:]
      # 영어와 한글 빼고 제거
      line = re.sub('[^A-Za-z0-9가-힣]', ' ', line)
      # 불용어 제거
      tokens = okt.morphs(line, stem=True) # 토큰화
      sentence = []
      for token in tokens : 
        if token not in stopwords:
          sentence.append(token)
      corpus.append(sentence)
    line = f.readline()
print(corpus)



In [None]:
print(corpus[:10])

[['자연어', '처리', '딥', '러닝', '1499', '님', '카카오', '톡', '대화'], ['2022년', '12월', '23일', '오후', '10', '39'], [], [], ['2022년', '8월', '14일', '오후', '2', '52'], ['2022년', '8월', '14일', '오후', '2', '52', '닉', '님', '나가다'], ['2022년', '8월', '14일', '오후', '3', '05', '빵', '종이', '님', '나가다'], ['파이썬', '복날', '날짜', '패키지'], ['직접', '구현', '얼른', '검색', '는'], ['절기', '십간십이지', '구현', '건', '중국인', '누군가', '거']]


In [None]:
from gensim.models import Word2Vec
model = Word2Vec(sentences = corpus, size = 100, window = 5, min_count = 1, workers = 4, sg = 1)

In [None]:
model.wv.vectors.shape

(14278, 100)

In [None]:
for word in model.wv.vocab:
  print(word)

[1;30;43m스트리밍 출력 내용이 길어서 마지막 5000줄이 삭제되었습니다.[0m
BartConfig
컨피
필
여한
words
Auto
From
plus
convert
Special
AutoMdoelForSequenceClassification
구술
벑님
씌우다
onehot
잘생기다
비법
시청
화장
Logging
sbi
대출
악질
금리
휘
둘리
연락처
데브
콘
취향
탈
도용
피해자
KU
dot
고대
건대
1월
일본
홍콩
근거리
국제
경희
KKU
건양
ku
쿠웨이트
유니
시티
김일성
종합대학
일리
Kensas
University
유사성
관련성
유무
뒤에
냉동
우회
MultiheadAttention
못햇
BERTSentenceTransform
썻으
탈락자
미워잉
dic
cannot
execute
네이티
브
바이너리
주신문
미워하다
hustle
몬가
설
청춘
아프리카
정훈
summaratzation
부뉴
Klue
KoBERT
10001
contexts
PSPMI
관도
사라
Singleton
텐플방
원자력
같슴닷
재밋겠긴
후려치다
4천
학졸
초봉
삼천
사가
정도에요
Lg
5150
5450
취준생
2600
되쥬
원티드
양극화
계얄사
옵음
사해
뼈
학력
버클
바랑
잡부
마지노선
아영
칭찬
백이
협의
월급쟁이
학졸초봉
3100
졸초봉
3300
프론트엔드
동파
늦어지다
괜
남반구
만족
버는
시드머니
버는거
원천
년수
이여
현금
박치기
폭
늘어서다
레버리지
3200
버시는분
인분
민족
정신승리
평화롭다
보금자리
인상
700
아녓어
경고
합법
수령
8억
52시간
무표
달동
어휴
생명
깎다
노동부
근무
듣기
책임지다
컨설턴트
100시간
LGCNS
70시간
5억
정도만
바짝
가치관
급여
부캠졸
둥
망치다
있쬬
공무원
초과근무
빡시다
40시간
ot
임원
알람
눈치
법적
시급
4만원
비참하다
그쳥
겨
서른
늘어지다
얼
마일
O
과장
9천
레인지
갈수록
격차
3억
8천
정도겠군요
세배
으면
핸즈온
두텁다
두껍다
두께
떠받다
일러스트
레이티
ref
출발
혼합
학
졸이다
표면
가르다

In [None]:
print(model.wv.most_similar("음악", topn=5))

[('손', 0.9945988059043884), ('인사', 0.9943923950195312), ('2022', 0.9941294193267822), ('16', 0.9939419031143188), ('팀', 0.993897557258606)]
